XCSG在多机器人强化学习中的应用被引量：2

Applications of XCSG in Multi-robot Reinforcement Learning

下载PDF

导出

摘要 XCS分类器在解决机器人强化学习方面已显示出较强的能力,但在多机器人领域仅局限于MDP环境,只能解决环境空间较小的学习问题。提出了XCSG来解决多机器人的强化学习问题。XCSG建立低维的逼近函数,梯度下降技术利用在线知识建立稳定的逼近函数,使Q-表格一直保持在稳定低维状态。逼近函数Q不仅所需的存储空间更小,而且允许机器人在线对已获得的知识进行归纳一般化。仿真实验表明,XCSG算法很好地解决了多机器人学习空间大、学习速度慢、学习效果不确定等问题。 XCS classifier system has been shown to solve machine-learning problems in a competitive way. However, in multi-robot problems,XCS is restricted to solve very small problems modeled by a Markov decision process. In this pa- per a new learning technique XCSG that combines XCS and gradient descent methods was proposed to solve multi-robot machine--learning problems. XCSG builds love-dimensional approximation of the function, and gradient descent tech- niques use on--line knowledge to establish a stable approximation of functions, so that the Q-form has been maintained at a low-dimensional stable state. Approximate of the function not only requires smaller storage space, but also allows the robot online knowledge is summarized on the generalization. Simulation results show that XCSG algorithm solves the multi--robot reinforcement learning in a large space, slow learning, learning uncertainty and other issues.

作者邵杰杜丽娟杨静宇

机构地区郑州成功财经学院信息工程系南京理工大学计算机科学与技术学院商丘工学院信息与电子学院

出处《计算机科学》 CSCD 北大核心 2013年第8期249-251,292,共4页 Computer Science

基金国家自然科学基金(90820004)资助

关键词强化学习多机器人学习分类器梯度下降法的学习分类器 Reinforcement learning Multi-robot Accuracy-based learning classifier system（XCS） Accuracy-based learning classifier system with gradient descent method（XCSG）

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1邵杰,杨静宇.基于多LCS和人工势场法的机器人行为控制[J].计算机科学,2011,38(1):264-267. 被引量：2
2朱美强,程玉虎,李明,王雪松,冯涣婷.一类基于谱方法的强化学习混合迁移算法[J].自动化学报,2012,38(11):1765-1776. 被引量：10
3Wiering M. Multi-agent reinforcement learning for traffic light control[C]//Proc. 17th Int. Conf. Mach. Learn. (ICML-00). Stanford Univ. Stanford, CA, 2009 : 1151-1158.
4Dixon P W, Corne D W, (Dates M J. Apreliminary investigation of modified XCS as a generic data mining tool[C]//Lanzi P L, Stolzmann W, Wilson S W, eds. LNAI, Advances in Learning Classifier Systems. vol. 2321, Berlin, Germany: Springer-Verlag, 2002：133-150.
5欧世峰,高颖,赵晓晖.基于随机梯度的变动量因子自适应白化算法[J].自动化学报,2012,38(8):1370-1374. 被引量：9
6Butz M V, Goldberg D E, Lanzi P L. Gradient descent methods in learning classifier systems: Improving XCS performance in multistep problems [J]. IEEE Trans. Evol. Comput. , 2005, 9 (5) :452-473.
7Bernad E, o-Mansilla, Garrell J. Accuracy-based Learning Classi- fier Systems: Models, analysis and applications to classification tasks[J]. Evolutionar Computation, 2003,11 (3) ： 209-238.
8Hung K-T,Liu J-S,Chang Y-Z. Smooth path planning for a mo- bile robot by evolutionary multiobjective optimization[C]// IEEE Int. Symposium on Computational Intelligence in Robotics and Automation. Jacksonville, Florida,June 2007.
9Butz M V,Lanzi P L,Wilson S W. Function approximation with XCS： Hyperellipsoidal conditions, recursive least squares, and compaction[J]. IEEE Trans. Evol. Comput. , 2008, 12 ( 3 ) : 355- 376.
10Bagnall A J, Cawley G C. Learning classifier systems for data mining A comparison of XCS with other classifiers for the Fo- rest Cover dataset[C]//Proc. IEEE/INNS Int. Joint Conf. Arti- ficial Neural Netw. vol. 3, Portland, OR, 2003 : 1802-1807.

二级参考文献16

1罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机研究与发展,2006,43(7):1173-1179. 被引量：76
2Arkin R C. Behavior-based Robotics [M]. London: The MIT Press, 1998.
3Baneamoon S M,Salam R A,Talib A Hj. Learning Process Enhancement for Robot Behavior[J].International Journal of intel- ligent Teehnology, 2007,2(3).
4孟但王田苗.基于遗传算法的行为控制在机器人路径规划中的应用.Robot,2008,30(3):217-222.
5Gao Yang,Sun Shu-dong. A collision based local path planning of mobile robots[A]//2009 International Asia Conference on informatics in Control[C]. Automation and Robots, Xian, China, 2009,185 -190.
6Baneamoon S M, Salam R A. Applying steady state in Genetic Algorithm for Robot Behaviors[C]//2008 International conference on Electronic Design. Malasia,December 2008.
7Holland J H. A Mathematical Frame work for Studying Learning in Classiffer systems [M]. Cambridge, MA: MIT Press, 1998.
8Petr M. Enhanced learning classifier system for robot navigation [C] // Intelligent robots and systems(IROS2005) international conference. 2005 : 3390-3395.
9Larry B, Mattew S, Anthony B, et al. Learing classifier system ensembles with rule-sharing[J]. IEEE transactions on evolu tionary computation, 2007 (4): 496-502.
10Baneamoon S M, Salam R A. Bucket Brigade Algorithm Enhancement for Robot Behaviors[C]// International Conference on Robotics Vision, Information and Signal Processing(ROVISP 2007). Penang, Malaysia, November 2007: 28 -30.

共引文献18

1张景祥,王士同,邓赵红,蒋亦樟,李奕.融合异构特征的子空间迁移学习算法[J].自动化学报,2014,40(2):236-246. 被引量：28
2朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：7
3邓慧,杨颖.改进的新型随机双梯度算法[J].兰州理工大学学报,2014,40(2):110-113.
4王典洪,甘胜丰,张伟民,雷维新.基于监督双限制连接Isomap算法的带钢表面缺陷图像分类方法[J].自动化学报,2014,40(5):883-891. 被引量：7
5马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：15
6黄博妍,常琳,马亚平,孙金玮,魏国.一种应对非平稳频率失调的窄带主动噪声控制系统[J].自动化学报,2015,41(1):186-193. 被引量：13
7卢中宁,初元红.基于负熵的随机双梯度算法[J].晓庄学院自然科学学报,2014,37(6):84-87.
8张天骐,马宝泽,强幸子,全盛荣.带自适应动量因子的变步长盲源分离方法[J].通信学报,2017,38(3):16-24. 被引量：11
9张天骐,马宝泽,强幸子,全盛荣.一种引入自适应动量项的变步长混沌信号盲分离算法[J].电子与信息学报,2017,39(4):908-914. 被引量：3
10廖坚,邹德清.一种改进型机器智能强化学习机制研究[J].控制工程,2017,24(9):1908-1912. 被引量：2

同被引文献10

1秦政,丁福光,边信黔.强化学习在移动机器人自主导航中的应用[J].计算机工程与应用,2007,43(18):215-217. 被引量：5
2焦殿科,石川.共享经验的多主体强化学习研究[J].计算机工程,2008,34(11):219-221. 被引量：4
3王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
4陶那日苏,王崇骏,张雷,谢俊元.一个基于XCS的同质团队学习模型[J].计算机工程与科学,2010,32(5):37-40. 被引量：1
5邵杰,杨静宇,万鸣华,黄传波.基于学习分类器的多机器人路径规划收敛性研究[J].计算机研究与发展,2010,47(5):948-955. 被引量：10
6朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：336
7杨献峰,付俊辉.移动机器人路径规划的仿真研究[J].计算机仿真,2012,29(7):223-226. 被引量：11
8尚艳玲,肖文雅.多Agent系统的Q值强化学习算法[J].河南师范大学学报（自然科学版）,2013,41(2):158-160. 被引量：2
9李鑫,陶华敏,罗辉舞,吴东娅.XCS及其在二进制序列分类问题中的应用[J].现代电子技术,2014,37(5):90-93. 被引量：1
10戈军,周莲英.基于SARSA(λ)的实时交通信号控制模型[J].计算机工程与应用,2015,51(24):244-248. 被引量：8

引证文献2

1臧兆祥,李昭,王俊英,但志平.基于平均奖赏强化学习算法的零阶分类元系统[J].计算机工程与应用,2016,52(21):14-20. 被引量：1
2邵杰,王清珍.基于XCS和LS-SVM的ALV在狭隘环境中的避碰规划[J].人工智能与机器人研究,2017,6(1):22-30.

二级引证文献1

1张震,臧兆祥,郭鸿村,田佩.存在危险区域的路径规划问题研究[J].长江信息通信,2022,35(4):14-19. 被引量：2

1张国栋,张化祥.基于语义的文本特征加权分类算法[J].计算机应用研究,2012,29(12):4476-4478. 被引量：5
2杜丽娟,邵杰.基于LCS的机器人路径规划收敛性[J].四川兵工学报,2010,31(4):99-101. 被引量：3
3邵杰,杨静宇.基于多LCS和人工势场法的机器人行为控制[J].计算机科学,2011,38(1):264-267. 被引量：2
4邵杰,杨静宇,石朝侠.基于学习分类器的自主地面车在狭隘环境中的路径规划[J].信息与控制,2011,40(3):413-417.
5邵杰,杨静宇,万鸣华,黄传波.基于学习分类器的多机器人路径规划收敛性研究[J].计算机研究与发展,2010,47(5):948-955. 被引量：10
6胡景凯,吴磊,高阳.基于学习分类器(LCS)的MP3音乐分类方法[J].重庆邮电大学学报（自然科学版）,2007,19(4):417-421. 被引量：4
7李艳颖,杨有龙,汪春峰.基于粗糙集属性约简与进化算法的贝叶斯网络分类器[J].郑州大学学报（理学版）,2014,46(2):43-49. 被引量：2
8徐海祥,喻莉,朱光喜,张翔,田金文.基于支持向量机的磁共振脑组织图像分割[J].中国图象图形学报,2005,10(10):1275-1280. 被引量：25
9程泽凯,林士敏.用Matlab语言实现BNC[J].安徽工业大学学报（自然科学版）,2004,21(4):324-327. 被引量：3
10陆从德,张太镒,李灿平,张伟.基于支持向量域描述的学习分类器[J].微电子学与计算机,2005,22(11):75-78. 被引量：3

计算机科学

2013年第8期

浏览历史

内容加载中请稍等...

XCSG在多机器人强化学习中的应用被引量：2

参考文献10

二级参考文献16

共引文献18

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

XCSG在多机器人强化学习中的应用 被引量：2

参考文献10

二级参考文献16

共引文献18

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

XCSG在多机器人强化学习中的应用被引量：2