深度强化学习进展:从AlphaGo到AlphaGo Zero 被引量：94

Recent progress of deep reinforcement learning:from AlphaGo to AlphaGo Zero

下载PDF

导出

摘要 2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义. In the early 2016,the defeat of Lee Sedol by AlphaGo became the milestone of artificial intelligence.Since then,deep reinforcement learning(DRL),which is the core technique of AlphaGo,has received widespread attention,and has gained fruitful results in both theory and applications.In the sequel,AlphaGo Zero,a simplified version of AlphaGo,masters the game of Go by self-play without human knowledge.As a result,AlphaGo Zero completely surpasses AlphaGo,and enriches humans’understanding of DRL.DRL combines the advantages of deep learning and reinforcement learning,so it is able to perform well in high-dimensional state-action space,with an end-to-end structure combining perception and decision together.In this paper,we present a survey on the remarkable process made by DRL from AlphaGo to AlphaGo Zero.We first review the main algorithms that contribute to the great success of DRL,including DQN,A3C,policy-gradient,and other algorithms and their extensions.Then,detailed introduction and discussion on AlphaGo Zero are given and its great promotion on artificial intelligence is also analyze.The progress of applications with DRL in such areas as games,robotics,natural language processing,smart driving,intelligent health care,and related resources are also presented.In the end,we discuss the future development of DRL,and the inspiration on other potential areas related to artificial intelligence.

作者唐振韬邵坤赵冬斌朱圆恒 TANG Zhen-tao;SHAO Kun;ZHAO Dong-bin;ZHU Yuan-heng(The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100190,China)

机构地区中国科学院自动化研究所中国科学院大学

出处《控制理论与应用》 EI CAS CSCD 北大核心 2017年第12期1529-1546,共18页 Control Theory & Applications

基金国家自然科学基金项目(61603382,61573353,61533017)资助~~

关键词深度强化学习 AlphaGo ZERO 深度学习强化学习人工智能 deep reinforcement learning AlphaGo Zero deep learning reinforcement learning artificial intelligence

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：133
2朱圆恒,赵冬斌.概率近似正确的强化学习算法解决连续状态空间控制问题[J].控制理论与应用,2016,33(12):1603-1613. 被引量：5

二级参考文献123

1MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
2SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
3AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
4TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
5SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.
6KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232.
7KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293.
8LITTMAN M L. Reinforcement learning improves behaviour fromevaluative feedback [J]. Nature, 2015, 521(7553): 445 – 451.
9BELLMAN R. Dynamic programming and Lagrange multipliers[J]. Proceedings of the National Academy of Sciences, 1956,42(10): 767 – 769.
10WERBOS P J. Advanced forecasting methods for global crisis warningand models of intelligence [J]. General Systems Yearbook, 1977,22(12): 25 – 38.

共引文献135

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：53
2舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
3程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：123
4张董,游福成,王惠华,姜超,李明.受限制Boltzmann机深度置信网络与手写数字识别[J].北京印刷学院学报,2016,24(4):56-58. 被引量：4
5侯宇青阳,全吉成,王宏伟.深度学习发展综述[J].舰船电子工程,2017,37(4):5-9. 被引量：40
6王奇,秦进.基于动作空间划分的MAXQ自动分层方法[J].计算机应用,2017,37(5):1357-1362.
7石征锦,王康.深度强化学习在Atari视频游戏上的应用[J].电子世界,2017,0(16):105-106. 被引量：3
8刘勇,李青,于翠波.深度学习技术教育应用:现状和前景[J].开放教育研究,2017,23(5):113-120. 被引量：43
9陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
10温暖,刘正华,祝令谱,孙扬.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159. 被引量：22

同被引文献920

1武林,江丽.基于CNN和集成SVM的滚动轴承故障诊断[J].数字制造科学,2023(2):131-135. 被引量：3
2王飞跃,王艳芬,陈薏竹,田永林,齐红威,王晓,张卫山,张俊,袁勇.联邦生态:从联邦数据到联邦智能[J].智能科学与技术学报,2020,2(4):305-311. 被引量：33
3陈德旺,蔡际杰,黄允浒.面向可解释性人工智能与大数据的模糊系统发展展望[J].智能科学与技术学报,2019,0(4):327-334. 被引量：15
4LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,0(3):219-227. 被引量：5
5张钹.人工智能进入后深度学习时代[J].智能科学与技术学报,2019,0(1):4-6. 被引量：45
6郑南宁.人工智能新时代[J].智能科学与技术学报,2019,0(1):1-3. 被引量：72
7林顺富,刘持涛,李东东,符杨.考虑电能交互的冷热电区域多微网系统双层多场景协同优化配置[J].中国电机工程学报,2020,40(5):1409-1421. 被引量：86
8邢强,陈中,冷钊莹,陆舆,刘艺.基于实时交通信息的电动汽车路径规划和充电导航策略[J].中国电机工程学报,2020,40(2):534-550. 被引量：87
9王兴龙,周志成,王典军,陈士明.面向空间近距离操作的机械臂与服务卫星协同控制[J].宇航学报,2020,41(1):101-109. 被引量：8
10冯仕政.社会治理与公共生活:从连结到团结[J].社会学研究,2021(1):1-22. 被引量：157

引证文献94

1姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
2卢喜丰,王新军,白晓明,何风,吕勇波,李柄锦.基于BP神经网络和遗传算法的核级管道力学性能优化研究[J].科技视界,2023(16):138-144.
3高佳明,张丽,蒋梅.个税改革下资源型省份家庭金融资产投资决策研究[J].金融发展评论,2024(3):80-95.
4高志强,张荣荣.面向战术边缘的联合智能体系设计[J].火箭军工程大学学报,2021(3):19-23.
5庄宝玲,陈文列.偶发分枝杆菌的超微结构初步观察[J].福建医药杂志,2000,22(1):181-182. 被引量：2
6程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：123
7朱斐,吴文,刘全,伏玉琛.一种最大置信上界经验采样的深度Q网络方法[J].计算机研究与发展,2018,55(8):1694-1705. 被引量：14
8朱程斌.论人工智能法人人格[J].电子知识产权,2018(9):12-21. 被引量：26
9杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：17
10张凯,刘华平,邓晓燕,马晓健,张新钰.面向室外移动机器人的雷达–图像跨模态检索[J].控制理论与应用,2018,35(12):1759-1764. 被引量：3

二级引证文献749

1程乐峰,杨汝,刘贵云,王建晖,陈洋,王晓刚,张杰,余涛.多群体非对称演化博弈动力学及其在智能电网电力需求侧响应中的应用[J].中国电机工程学报,2020,40(S01):20-36. 被引量：27
2段雅楠.关于5G背景下新闻领域场景化发展趋势的创新思考[J].新闻传播,2020(4):26-27. 被引量：1
3李亚鑫,张冀,王宇,任诚.可重构磁耦合水下推进器的磁场分析及性能评估[J].仪器仪表学报,2023,44(11):320-328.
4赵会芹,于博,陈方,王雷.基于高分辨率卫星遥感影像滑坡提取方法研究现状[J].遥感技术与应用,2023,38(1):108-115. 被引量：5
5刘冬兰,孔德秋,常英贤,刘新,马雷,王睿.基于受限玻尔兹曼机的电力信息系统多源日志综合特征提取[J].计算机系统应用,2020,29(11):210-217. 被引量：1
6刘文良,李若梅.5G时代全媒体传播研究的新路向[J].学术论坛,2021,44(2):117-132. 被引量：10
7冉克平,谭佐财.论人工智能实施“民事行为”的类型及其效果[J].私法,2019,0(2):352-370. 被引量：1
8瞿灵敏.人工智能法律主体资格否议——基于主体资格变迁的视角[J].人权研究（辑刊）,2023(2):73-105. 被引量：1
9曹伟.技术迭代视角下人工智能的法律分析[J].人大法律评论,2021(1):104-124. 被引量：1
10张兰,罗威,周倩,华娟,杨锐,刘鹏年.智能科研助手技术研究与进展[J].情报学进展,2022(1):242-264. 被引量：2

1胡静,李璐.基于词频突变的我国阅读推广研究前沿挖掘[J].情报科学,2017,35(10):75-78. 被引量：8
22017欧亚经济论坛在古城西安举办[J].新西部,2017,0(10):93-93.
3张丰.统考“批判”[J].基础教育课程,2018(5):72-73. 被引量：2
4声音[J].质量与认证,2017,0(12):15-15.
5高荣伟.数字化资产配置走向何方?[J].金融博览,2018,0(6):66-68. 被引量：1
6杨一辰.人工智能技术的应用与发展分析[J].科技风,2018(7):57-57.
7詹卫仙.优化小学语文作业的思考[J].文理导航（教育研究与实践）,2017,0(11):95-95.
8楚博策,文义红,陈金勇.基于多特征融合的SAR图像舰船自学习检测算法[J].无线电工程,2018,48(2):92-95. 被引量：7
9林晓宏.道德与法治课程资源的“常态”化开发摭谈[J].科学咨询,2018(6):88-89. 被引量：2
10科学之声.终结者必归来[J].当代工人（C版）,2018,0(1):101-101.

控制理论与应用

2017年第12期

浏览历史

内容加载中请稍等...