《深度强化学习:学术前沿与实战应用》
刘驰
北京理工大学计算机学院副院长、教授、博士生导师,英国工程技术学会会士(IET Fellow),IEEE高级会员(IEEE Senior Member),英国计算机学会会士(Fellow of British Computer Society)和英国皇家艺术学会会士(Fellow of Royal Society of Arts)。分别于清华大学和英国帝国理工学院获得学士和博士学位,曾任美国IBM T.J. Watson研究中心和IBM中国研究院研究主管,并在德国电信研究总院(柏林)任博士后研究员。研究方向为大数据与物联网技术。主持了国家自然科学基金、国家重点研发计划课题、工信部、教育部、装发预研等20余省部级研究项目。共发表SCIEI论文百余篇,其中ESI高被引论文2篇、CCF- A类论文20余篇,授权国内外发明专利14项,编写书籍9本,Google Scholar索引3500余次,H index为28。现任国家自然科学基金会评专家、科技部重点研发计划会评专家、教育部科技奖评审专家、全国信标委技术委员会委员、中国电子学会理事、中国计算机学会青工委委员、中国计算机学会物联网大数据普适计算专委会委员、中国电子学会物联网专委会委员副秘书长、中国自动化学会大数据专委会委员、中国通信学会物联网专委会委员等;以及IEEE Transactions on Network Science and Engineering编委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入选了国家人社部高层次留学人才回国资助计划、中国科协青年人才托举工程、陕西省第八批百人计划(短期项目)、中国产学研合作促进奖、中国电子学会优秀科技工作者、国家十二五轻工业科技创新先进个人、2017年中国物联网年度人物等。并获得省部级一等奖1项、二等奖1项、三等奖1项。
《深度强化学习:学术前沿与实战应用》
随着计算设备算力的不断提升和可用数据量的持续积累,基于大数据的机器学习(Machine Learning)方法近年来得到了空前的发展,且可以预见在一段时间内还将继续飞速发展。机器学习的突出成就离不开深度学习(Deep Learning)。深度神经网络的出现,使得原始图像、视频和自然语言等数据源可作为输入和输出,从而为诸多复杂问题提供了强大的解决方案。基于深度学习的人工智能产品也正在快速渗入和改变着我们的日常生活,如人脸识别、购物网站的个性化推荐、无人驾驶等。此外,机器翻译、自主决策、目标跟踪及一系列技术成果也在医疗、教育和网络安全等重要领域得到了实质性的应用。
强化学习(Reinforcement Learning),又称再励学习、评价学习,是机器学习的一个重要分支,传统上主要用于解决与环境交互过程中的自主决策和自动控制问题,通过不断改善智能体自身的行为,学得最优的行动策略。广义上说,任何有决策的任务都可以使用强化学习方法,比如无人驾驶、机器人控制、游戏竞技等,但也不限于此,比如个性化推荐算法、网络传输等非控制领域也可以使用强化学习方法。近年来,最著名的强化学习应用当属AlphaGo围棋,其学得的策略所表现出的控制决策能力已经达到甚至超过了人类顶级水平,其中使用了深度强化学习(Deep Reinforcement Learning)。深度强化学习是强化学习的重要发展,是指采用深度神经网络作为模型的强化学习方法。它的起源很早,但著名的案例是Google DeepMind在2013年NIPS研讨会上发表的DQN(Deep Q Network)方法,该方法在多款Atari游戏中取得了不俗的表现。之后,深度强化学习的发展便一发不可收拾,学术界和工业界均大力推动其发展。本书重点讲解深度强化学习近年来的重要进展及其典型应用场景。
本书共分为四篇,即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用,内容由浅入深、通俗易懂,涵盖近几年最经典、最前沿的技术进展。特别是书中详细介绍了每一种算法的代码原型实现,做到了理论与实践相结合,让读者学有所得、学有所用。
第一篇主要讲解深度强化学习基础,侧重于单智能体强化学习算法,相对简单,有助于初级读者理解。本篇包含第1~3章,从基础到算法,分类清晰。
l 第1章主要讲解强化学习的发展历史、基本概念及一些相关的基础知识,以帮助读者对强化学习有一个全面的了解和认知,也为本书后面的重点章节提供基础性的知识铺垫。
l 第2章侧重于讲解基于单智能体的深度强化学习算法,涵盖了DQN、DDPG、Rainbow等典型算法,以及最新的研究成果,如基于模型、基于分层的深度强化学习算法等。
l 第3章提供了一些分布式深度强化学习方法,以适应分布式计算的情况,有助于缩短模型的训练时间和进行大规模任务的计算。
第二篇主要侧重于对多智能体深度强化学习的讲解,承接上一篇的单智能体环境,本篇将问题复杂化,扩大到多智能体的情况。本篇包含第4章和第5章,从多智能体强化学习基本概念到相关算法的讲解、分析,以多个极具代表性的算法为例带领读者逐步学习多智能体训练和控制的理论与方法。此外,还为读者提供了当下多智能体强化学习领域最前沿的一些学术成果,紧跟发展潮流。
l 第4章主要讲解多智能体的基本概念及相关的背景知识,以帮助读者更好地进入多智能体世界。
l 第5章按类别讲解大量多智能体强化学习算法,从基于值函数的算法到基于策略的算法,再到基于AC框架的算法,应有尽有。本章囊括了当下大部分经典和前沿研究,让读者在掌握经典知识的同时也能够把握最新的发展方向。
第三篇再一次将问题复杂化,扩大到多任务的情况,也称为多任务深度强化学习。与多智能体强化学习明显不同,多任务强化学习既可以是单智能体多任务的情况,也可以是多智能体多任务的情况,因此情况变得更为复杂了。结构如同第二篇,本篇依然是首先介绍多任务强化学习的基本概念和相关基础知识(第6章),随后讲解部分经典的多任务强化学习算法(第7章)。由于多任务强化学习依然是较为前沿的研究方向,所以本篇的算法相对少一些。
l 第6章主要介绍多任务强化学习的基本概念和相关知识,让读者对其有一个详细的了解和认知,以帮助读者顺利地步入多任务深度强化学习场景。
l 第7章主要讲解4个多任务强化学习算法、框架,这些方法大都源自DeepMind团队,代表着多任务强化学习领域最为经典和前沿的工作。
第四篇包括第8~11章,主要讲解强化学习特别是深度强化学习的一些实际应用,涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。本篇侧重于讲解深度强化学习方法在其他领域应用的思想和方法,培养读者跨领域解决问题的能力,以帮助读者熟练掌握和使用深度强化学习这个强大的方法去解决、优化其他领域中的一些实际问题。
l 第8章给出深度强化学习方法在游戏领域的应用,这也是一个极有意思的领域,例如,DQN的代表作就是玩Atari游戏,并且超越了人类顶级玩家。本章重点讲解如何把游戏场景建模为强化学习问题,以及训练模型自动玩Atari游戏的核心过程和相关代码。
l 第9章主要给出深度强化学习算法在机器人控制领域的应用实例,包括无地图导航、视觉导航、机器人足球等,侧重于讲解仿真环境中机器人控制问题的分析、建模和实践性解决方案。
l 第10章给出强化学习与计算机视觉领域相结合的例子,分析了将深度强化学习技术应用于图像、视频的详细过程,例如,图像字幕、图像恢复、视频快进和视觉跟踪等。
l 第11章则讲解深度强化学习应用于自然语言处理方面的实例,如对话机器人、情感情感翻译和远程监督关系提取等。深度强化学习与自然语言的结合目前还是较为前沿的研究方向,还有许多领域相关问题读者也可以亲自尝试着去解决。
本书的编撰人员包括:刘驰、王占健、戴子彭、马晓鑫、朴成哲、林秋霞、赵一诺、赵映、李世林、刘文鼎。
深度强化学习技术发展迅速,属于当下最热门的前沿技术之一。因作者能力、水平有限,书中难免出现不足与谬误之处,还请读者多多包涵,同时也恳请读者给予批评指正,不胜感激。