《策略前展、策略迭代与分布式强化学习》 - [美]德梅萃·P. 博赛卡斯[Dimitri P. Bert - Meg Book Store - 香港.大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書

『簡體書』策略前展、策略迭代与分布式强化学习

書城自編碼： 3746449
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者： [美]德梅萃·P. 博赛卡斯[Dimitri P. Bert
國際書號(ISBN)： 9787302599388
出版社：清华大学出版社
出版日期： 2022-04-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 173.8

我要買件

** 我創建的書架 **
未登入.

新書推薦：

傻钱：社交浪潮与散户革命

《傻钱：社交浪潮与散户革命》
售價：HK$ 78.2

猎头高情商沟通实务

《猎头高情商沟通实务》
售價：HK$ 56.4

桃花夭夭，灼一世芳华：古代蕙心女子的诗情词韵

《桃花夭夭，灼一世芳华：古代蕙心女子的诗情词韵》
售價：HK$ 48.3

生活在低处

《生活在低处》
售價：HK$ 64.4

长颈鹿与少年（全球销量超过50万册。基于真实历史事件创作）

《长颈鹿与少年（全球销量超过50万册。基于真实历史事件创作）》
售價：HK$ 57.4

近代早期海洋文化史

《近代早期海洋文化史》
售價：HK$ 112.7

怪诞行为学2：非理性的积极力量

《怪诞行为学2：非理性的积极力量》
售價：HK$ 78.2

锦衣玉令

《锦衣玉令》
售價：HK$ 112.7

建議一齊購買：

+

HK$ 261.4
《经济学原理（第8版）（套装微观经济学分册+宏观经济学分册曼》

+

HK$ 111.3
《中国高校艺术专业技能与实践系列教材中外工艺美术史》

+

HK$ 112.2
《线性代数及其应用（原书第5版）》

+

HK$ 123.9
《中国文学理论批评史教程（修订本）》

+

HK$ 62.1
《中医基础理论·全国中医药行业高等教育“十三五”规划教材》

+

HK$ 60.0
《财务管理学（第9版·立体化数字教材版）》

編輯推薦：

读者通过本书可以了解强化学习中策略迭代，特别是Rollout方法在分布式和多智能体框架下的进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生作为一个学期的课程教材。也适用于开展相关研究工作的专业技术人员作为参考书阅读。

內容簡介：

本书目的是从作者近出版的《强化学习预控制》教科书中更深入地发展一些方法。特别是，提出了有关涉及多个代理，分区架构和分布式异步计算的系统的新研究。本书还将详细讨论该方法在挑战离散/组合优化问题（例如路由，调度，分配和混合整数编程）中的应用，包括在这些情况下使用神经网络近似。
本书可作为计算机科学与技术、控制科学与技术、电子科学与技术等相关领域研究生和高年级本科生的教学参考书，也可供信息、通信、控制、优化等领域的科研人员参考。

關於作者：

Dimitri P. Bertsekas，德梅萃 P.博塞克斯（Dimitri P. Bertseka），美国MIT终身教授，美国国家工程院院士，清华大学复杂与网络化系统研究中心客座教授。电气工程与计算机科学领域国际知名作者，著有《非线性规划》《网络优化》《动态规划》《凸优化》《强化学习与控制》等十几本畅销教材和专著。

內容試閱：

本书作者德梅萃·P.博赛卡斯(Dimitri P.Bertsekas)是美国麻省理工学院教授和亚利桑那州立大学教授，也是美国工程院院士。本书是作者近年来相关研究成果的总结。
强化学习，也称为近似动态规划、神经元动态规划。本书的内容围绕强化学习中的策略迭代这一核心概念展开。策略迭代指从某个策略出发，不断产生改进策略的过程。如果仅仅生成一步改进策略，就称为策略前展（Rollout）。大量经验表明，策略前展是当前用得广、为可靠的强化学习方法之一。主要内容：第1章为动态规划原理；第2章为策略前展与策略改进；第3章为专用策略前展算法；第4章为值和策略的学习；第5章为无限时间分布式和多智能体算法。
横空出世的围棋软件AlphaZero算法对本书有很大影响。本书内容同样基于策略迭代、值网络和策略网络的神经网络近似表示、并行与分布式计算和前瞻小化约简技术的核心框架构建，并对算法的适用范围做了拓展。本书的特色在于给出了分布式计算和多智能体系统框架下的强化学习策略改进计算的效率提升技术，建立了一步策略改进策略前展方法同控制系统中广泛使用的模型预测控制（MPC）设计方法之间的联系，并描述了策略前展方法在复杂离散和组合优化问题方面的应用。
　　通过阅读本书，读者可以了解强化学习中的策略迭代，特别是策略前展方法在分布式和多智能体框架下的进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生的教材，也适合开展相关研究工作的专业技术人员作为参考书。
赵千川
清华大学自动化系教授
清华大学智能与网络化系统研究中心主任
2021年10月

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　大陸用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.