《深度强化学习：入门与实践指南》 - [俄]马克西姆•，拉潘[Maxim，Lapan] - Meg Book Store - 香港.大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書

『簡體書』深度强化学习：入门与实践指南

書城自編碼： 3600623
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者： [俄]马克西姆•，拉潘[Maxim，Lapan]
國際書號(ISBN)： 9787111668084
出版社：机械工业出版社
出版日期： 2021-03-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 148.8

我要買件

** 我創建的書架 **
未登入.

新書推薦：

海外中国研究·北京的六分仪：中国历史中的全球潮流

《海外中国研究·北京的六分仪：中国历史中的全球潮流》
售價：HK$ 78.2

霍比特人（插图典藏版，150余幅精美全彩插图，原作地图首度汉化为简体中文，2024年全新译本）

《霍比特人（插图典藏版，150余幅精美全彩插图，原作地图首度汉化为简体中文，2024年全新译本）》
售價：HK$ 124.2

权力的文化与文化的权力：旧制度下的欧洲（1660—1789）

《权力的文化与文化的权力：旧制度下的欧洲（1660—1789）》
售價：HK$ 158.7

穿透估值：读懂估值中的共识与博弈

《穿透估值：读懂估值中的共识与博弈》
售價：HK$ 90.9

复利：全球顶尖投资者的31节认知与决策思维课

《复利：全球顶尖投资者的31节认知与决策思维课》
售價：HK$ 103.4

最后的都铎：中世纪余晖下的宫廷爱欲与权力密码（女性写给女性的女性历史）

《最后的都铎：中世纪余晖下的宫廷爱欲与权力密码（女性写给女性的女性历史）》
售價：HK$ 101.2

窄门：纪德三部曲（插图珍藏版）

《窄门：纪德三部曲（插图珍藏版）》
售價：HK$ 158.7

工业机器人集成应用

《工业机器人集成应用》
售價：HK$ 91.8

編輯推薦：

编辑推荐：
迅速理解深度强化学习，从原理到新近算法全面探索
面向实践，掌握构建智能体、聊天机器人等实践项目
本书对RL的核心知识进行了全面深入讲解，并为你提供了编写智能体代码的详细知识，以使其执行一系列艰巨的实际任务。帮助你掌握如何在网格世界环境中实现Q-learning，教会你的智能体购买和交易股票，并掌握如何通过实现自然语言模型来推动聊天机器人的发展。
你将学到什么：
● 理解如何通过RL的DL上下文实现复杂的DL模型
● 掌握RL的基础理论：马尔可夫决策过程
● 学会评估RL的方法，包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG等
● 研究探索如何处理各种环境中的离散和连续动作空间
● 学会使用值迭代方法击败Atari街机游戏
● 学会创建自己的OpenAI Gym环境以训练股票交易智能体
● 教会你的智能体使用AlphaGo Zero玩Connect4
● 探索有关主题的最新深度RL研究，包括AI驱动的聊天机器人

內容簡介：

强化学习是机器学习发展非常迅速的一个领域，由于其灵活性和通用性，可以应用在从玩游戏到优化复杂制造过程的许多实际情况。本书帮助读者迅速理解深度强化学习，并从原理到新近算法进行全面探索。关于强化学习的新资料很多，但多数过于专业和抽象，很不容易理解，并且从理解原理到可以实际解决问题之间还有巨大差距，而本书意在填补强化学习方法在实用性和结构化信息方面的不足，以帮助读者从整体上轻松理解深度强化学习。同时本书的另一个特点是面向实践，从简单到非常复杂，将每种方法实际应用在各种具体环境中，以帮助读者在实际研究和工作中应用深度强化学习来解决问题。
本书适合深度强化学习、机器学习、人工智能相关行业从业者、学习者阅读参考。

關於作者：

Maxim Lapan
深度学习研究者，作为一名软件开发人员和系统架构师，具有超过15年的专业经验，涵盖了从Linux内核驱动程序开发到可在数千台服务器上工作的分布式应用项目的设计与性能优化。他在大数据、机器学习以及大型并行分布式HPC系统方面拥有丰富的工作经验，并擅长使用简单的文字和生动的示例来解释复杂事物。他目前专注的领域是深度学习的实际应用，例如深度自然语言处理和深度强化学习。Maxim目前在以色列一家初创公司工作，担任高级NLP开发人员。

目錄：

目　录
原书前言
第1章　什么是强化学习 1
1.1　学习监督、无监督和强化 1
1.2　RL形式和关系 3
1.2.1　奖励 4
1.2.2　智能体 5
1.2.3　环境 5
1.2.4　动作 6
1.2.5　观察 6
1.3　马尔可夫决策过程简介 8
1.3.1　马尔可夫过程 8
1.3.2　马尔可夫奖励过程 11
1.3.3　马尔可夫决策过程 13
1.4　本章小结 16
第2章　OpenAI Gym开源平台 17
2.1　智能体剖析 17
2.2　硬件和软件要求 19
2.3　OpenAI Gym API 20
2.3.1　动作空间 21
2.3.2　观察空间 21
2.3.3　环境 22
2.3.4　创建环境 23
2.3.5　CartPole会话 25
2.4　随机CartPole智能体 26
2.5　额外的Gym功能Wrapper和Monitor 27
2.5.1　Wrapper 28
2.5.2　Monitor 30
2.6　本章小结 32
第3章　使用PyTorch进行深度学习 33
3.1　张量 33
3.1.1　创建张量 33
3.1.2　标量张量 35
3.1.3　张量操作 36
3.1.4　GPU张量 36
3.2　梯度 37
3.2.1　张量和梯度 38
3.3　NN构建块 40
3.4　定制层级 41
3.5　最终的黏合剂损失函数和优化器 43
3.5.1　损失函数 44
3.5.2　优化器 44
3.6　使用TensorBoard监控 45
3.6.1　TensorBoard简介 46
3.6.2　绘图工具 47
3.7　示例：在Atari图像上使用GAN 48
3.8　本章小结 52
第4章　交叉熵方法 53
4.1　RL方法的分类 53
4.2　实践交叉熵 54
4.3　CartPole上的交叉熵方法 55
4.4　FrozenLake上的交叉熵方法 62
4.5　交叉熵方法的理论背景 67
4.6　本章小结 68
第5章　表格学习与Bellman方程 69
5.1　值、状态、最优性 69
5.2　最优的Bellman方程 70
5.3　动作的值 72
5.4　值迭代法 74
5.5　实践中的值迭代 75
5.6　FrozenLake中的Q-learning 80
5.7　本章小结 82
第6章　深度Q网络 83
6.1　现实中的值迭代 83
6.2　表格式Q-learning 84
6.3　深度Q-learning 88
6.3.1　与环境的交互 89
6.3.2　SGD优化 90
6.3.3　步骤之间的相关性 90
6.3.4　马尔可夫性 90
6.3.5　DQN训练的最终形式 91
6.4　Pong上的DQN 91
6.4.1　封装 92
6.4.2　DQN模型 96
6.4.3　训练 98
6.4.4　运行与性能 105
6.4.5　动作中的模型 107
6.5　本章小结 109
第7章　DQN扩展 110
7.1　PyTorch Agent Net函数库 110
7.1.1　智能体 111
7.1.2　智能体的经验 112
7.1.3　经验缓冲区 113
7.1.4　Gym env封装 113
7.2　基本DQN 113
7.3　N步DQN 119
7.3.1　实现 121
7.4　双DQN 123
7.4.1　实现 123
7.4.2　结果 126
7.5　有噪网络 127
7.5.1　实现 127
7.5.2　结果 130
7.6　优先级重放缓冲区 132
7.6.1　实现 133
7.6.2　结果 137
7.7　竞争DQN 137
7.7.1　实现 138
7.7.2　结果 139
7.8　分类 140
7.8.1　实现 142
7.8.2　结果 148
7.9　结合所有 149
7.9.1　实现 150
7.9.2　结果 154
7.10　本章小结 155
参考文献 155
第8章　RL用于股票交易 156
8.1　贸易 156
8.2　数据 156
8.3　问题陈述和关键决策 157
8.4　交易环境 159
8.5　模型 165
8.6　训练代码 166
8.7　结果 167
8.7.1　前馈模型 167
8.7.2　卷积模型 170
8.8　要尝试的事 173
8.9　本章小结 173
第9章　策略梯度法：一种替代方案 174
9.1　值与策略 174
9.1.1　为什么是策略 174
9.1.2　策略表示 175
9.1.3　策略梯度 175
9.2　强化方法 176
9.2.1　CartPole的例子 177
9.2.2　结果 180
9.2.3　基于策略的方法与基于值的方法 181
9.3　强化问题 181
9.3.1　完整episode是必需的 182
9.3.2　高梯度方差 182
9.3.3　探索 182
9.3.4　样本之间的相关性 183
9.4　CartPole上的PG 183
9.5　Pong上的PG 187
9.6　本章小结 190
第10章　Actor-Critic方法 191
10.1　方差减少 191
10.2　CartPole方差 192
10.3　Actor-Critic 194
10.4　Pong上的A2C 196
10.5　Pong上的A2C的结果 201
10.6　调整超参数 202
10.6.1　学习率 203
10.6.2　熵beta 203
10.6.3　环境数量 204
10.6.4　batch大小 204
10.7　本章小结 204
第11章　异步优势Actor-Critic方法 205
11.1　相关性和样本效率 205
11.2　在A2C中添加另一个A 206
11.3　Python中的多处理 208
11.4　A3C数据并行 208
11.5　A3C梯度并行 214
11.6　本章小结 219
第12章　用 RL训练聊天机器人 220

內容試閱：

原书前言
本书的核心内容是强化学习（RL），它是机器学习的一个子领域，着重于在复杂环境下学习最佳行为的一般性和挑战性问题。学习过程仅由奖励值和从环境中获得的观察来驱动。该模型非常通用，可以应用于从玩游戏到优化复杂制造过程的许多实际情况。
由于RL 的灵活性和通用性，该领域的发展非常迅速，引起了许多人的关注，研究人员试图改进现有方法或创建新方法，从业人员有兴趣用RL 以最有效的方式解决实际问题。
编写本书是为了填补RL方法在实用性和结构化信息方面的明显不足。一方面，世界各地都有很多研究活动，几乎每天都在发表新的研究论文，并且诸如NIPS或ICLR之类的大部分深度学习会议都致力于RL 方法。有几个大型研究小组着重于RL方法在机器人、医学和多智能体系统等领域中的应用。有关最新研究的信息广泛可得，但由于过于专业和抽象，如果不付出大量努力是无法理解的。RL 应用实践的情况甚至更加糟糕，因为从研究论文中以数学形式描述的抽象方法到能解决实际问题的工作实现这一步并不总是显而易见的。这使得对该领域感兴趣的人很难直观地理解论文和会议演讲背后的方法和想法。有一些很好的博客文章，用工作示例来说明有关各种RL方面的内容，但是由于博客文章的格式有限，作者只能描述一种或两种方法，不能构建一个完整的结构化图以展示不同方法之间是如何关联的。本书就试图解决这个问题。
本书的另一方面是它的实践性。每种方法的实现都面向各种环境，从非常简单到非常复杂。作者试图让示例简洁易懂，这是由于PyTorch的表现力和功能所致。另外，示例的复杂性和需求是针对RL 爱好者的，他们无需访问非常大的计算资源，例如GPU 集群或功能非常强大的工作站。作者相信，这将使充满乐趣和令人兴奋的RL 领域可以为更广泛的用户所接受，而不仅仅是研究小组或大型AI公司。但是，它仍然是深度RL，因此强烈建议读者使用GPU。本书中大约有一半的示例将受益于在GPU上运行它们。除了RL中使用的传统中型环境示例（如Atari游戏或连续控制问题）外，本书还有包含较大项目的三章（第8、12和13章），这些章节说明了如何将RL方法应用于更复杂的环境和任务。这些示例仍然不是完整的实际项目（否则，它们将是单独一本书），而只是用于说明RL范例如何可以应用于超出既定基准领域的更大的问题。
关于本书前三部分中的示例，还有一点需要注意的是，作者试图使示例自成一体，并且完整地给出了源代码。有时这会导致代码片段的重复（例如，大多数方法中的训练循环非常相似），但是作者认为，给读者自由选择直接跳入自己想要学习的方法比避免少量重复更重要。本书中的所有示例都可以在Github上找到（见https：github.comPacktPublishingDeep-Reinforcement-Learning-Hands-On），欢迎读者用它们来进行实验并做出贡献。

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　大陸用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.