新書推薦:
《
明式家具三十年经眼录
》
售價:HK$
524.2
《
敦煌写本文献学(增订本)
》
售價:HK$
221.8
《
耕读史
》
售價:HK$
109.8
《
地理计算与R语言 [英] 罗宾·洛夫莱斯 [德]雅纳·蒙乔 [波兰] 雅库布·诺沃萨德
》
售價:HK$
121.0
《
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
》
售價:HK$
87.4
《
大思维:哥伦比亚商学院六步创新思维模型
》
售價:HK$
72.8
《
宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
155.7
《
UE5虚幻引擎必修课(视频教学版)
》
售價:HK$
110.9
|
編輯推薦: |
·全面贯穿人工智能整个软硬件技术栈
·以应用驱动,形成智能领域的系统思维
·以大模型为牵引,为通用人工智能提供支撑
|
內容簡介: |
本书由中科院计算所、软件所的专家学者倾心写就,以“图像风格迁移”应用为例,全面介绍智能计算系统的软硬件技术栈。第2版以大模型为牵引进行更新,第1章回顾人工智能、智能计算系统的发展历程,第2、3章在介绍深度学习算法知识的基础上增加了大模型算法的相关知识,第4章介绍深度学习编程框架PyTorch的发展历程、基本概念、编程模型和使用方法,第5章介绍编程框架的工作原理,第6章回顾深度学习所用的处理器结构从通用逐步走向专用的过程,第7章介绍深度学习处理器的体系结构应当如何应对大模型处理中的计算、访存、通信瓶颈,第8章介绍基于BCL语言的高性能算子开发优化实践,第9章介绍面向大模型的计算系统并以BLOOM作为驱动范例。本书适合作为高等院校相关专业的教材,也适合人工智能领域的科研人员参考。
|
關於作者: |
陈云霁 中国科学院计算技术研究所副所长、研究员、博导,处理器芯片全国重点实验室主任,中国科学院大学岗位教授,中国计算机学会体系结构专委会主任。他带领团队研制了国际上首个深度学习处理器芯片“寒武纪1号”,相关成果两获计算机体系结构顶级国际会议最佳论文奖,并已应用在上亿台智能手机和服务器中。他的学术论文受五大洲、三十个国家、数百个知名机构广泛跟踪引用。他被Science杂志刊文评价为深度学习处理器的“先驱”和“引领者”,并获我国处理器芯片领域迄今为止唯一的国家自然科学二等奖(第一完成人)。他还曾获国家杰出青年科学基金、全国五一劳动奖章、中国青年五四奖章、全国创新争先奖、何梁何利基金科学与技术创新奖、“青年长江学者”,并被MIT Technology Review 评为全球35位杰出青年创新者(2015
年度)。
李玲 中国科学院软件研究所研究员、博导,CCF高级会员,IEEE Senior Member。研究方向为智能计算。在相关领域出版中文教材2本、英文教材1本,发表30多篇CCF A类期刊和会议论文。曾获得CCF A类会议MICRO 2014最佳论文奖(该会议五十年来唯一一次美国以外国家获此奖)、中国科学院杰出科技成就奖等奖励。作为负责人主持过多项国家自然科学基金项目、国家重点研发计划课题、中国科学院先导C类专项课题等。
赵永威 中国科学院计算技术研究所副研究员。研究方向为智能处理器体系结构。在ISCA、MICRO、Proc. IEEE等会议和期刊上发表学术论文20篇。曾获得中国计算机学会优秀博士学位论文奖、MICRO 2022最佳论文Runner-up奖。
李威 中国科学院计算技术研究所副研究员。研究方向为高性能智能计算系统设计技术。作为负责人或骨干承担了国家重点研发计划课题、国家科技重大专项项目、国家自然科学基金、中国科学院战略性先导课题等。作为核心成员参与了多款深度学习处理器的研发,发表或录用学术论文30余篇,出版专著三部。
郭崎 中国科学院计算技术研究所研究员。长期从事计算机体系结构及人工智能相关研究。发表50余篇CCF A类期刊和会议论文。入选国家级青年人才,曾获得国家自然科学二等奖、中国科学院青年科学家奖、中国科学院杰出科技成就奖等。
文渊博 中国科学院计算技术研究所助理研究员。研究方向为智能处理器体系结构和系统软件。深度参与多款深度学习处理器的系统软件研发工作,在ASPLOS、MICRO、ICML、NeurIPS等顶级会议和期刊上发表论文10余篇。
张蕊 中国科学院计算技术研究所副研究员。研究方向为深度学习和处理器设计智能化,长期从事人工智能算法和软硬件协同相关的研究工作。先后在人工智能相关领域的国际顶级期刊和会议(包括IEEE Trans. on PAMI、NeurIPS、ICML、CVPR、ICCV、ICLR、AAAI、IJCAI等)上发表论文40余篇,申请专利20余项。多次荣获中国科学院计算技术研究所优秀科研人员称号。
|
目錄:
|
目录
丛书序言
序言一
序言二
第 2 版前言
第 1 版前言
第 1 章 概述 1
1.1 人工智能1
1.1.1 什么是人工智能 1
1.1.2 人工智能的主要方法1
1.1.3 人工智能的发展历史5
1.2 智能计算系统 8
1.2.1 什么是智能计算系统8
1.2.2 为什么需要智能计算系统8
1.2.3 智能计算系统的发展9
1.3 驱动范例 12
1.4 本章小结 13
习题.14
第 2 章 深度学习基础15
2.1 机器学习 15
2.1.1 基本概念15
2.1.2 线性回归16
2.2 神经网络 19
2.2.1 感知机19
2.2.2 多层感知机 22
2.2.3 深度学习23
2.2.4 神经网络的发展历程24
2.3 神经网络的训练方法 26
2.3.1 正向传播26
2.3.2 反向传播29
2.4 神经网络的设计基础 30
2.4.1 网络的拓扑结构30
2.4.2 激活函数31
2.4.3 损失函数35
2.5 过拟合与正则化 38
2.5.1 过拟合38
2.5.2 正则化39
2.6 交叉验证 44
2.7 本章小结 46
习题 47
第 3 章 深度学习应用48
3.1 适合图像处理的卷积神经网络 48
3.1.1 卷积神经网络的总体结构 49
3.1.2 应用于图像分类的卷积神经
网络.60
3.1.3 应用于图像目标检测的卷积神
XXI
经网络79
3.1.4 应用于图像生成的神经网络95
3.2 适合文本/语音处理的循环神经
网络110
3.2.1 RNN110
3.2.2 LSTM 114
3.2.3 GRU117
3.2.4 小结118
3.3 大模型118
3.3.1 Seq2Seq119
3.3.2 注意力机制120
3.3.3 Transformer124
3.3.4 自然语言处理大模型 126
3.3.5 图像处理和多模态大模型 139
3.3.6 基于大模型的智能体系统 152
3.3.7 小结156
3.4 神经网络的优化157
3.4.1 初始化方法158
3.4.2 梯度下降法159
3.4.3 动量法 163
3.4.4 二阶优化方法 164
3.4.5 自适应学习率算法165
3.5 神经网络量化 167
3.5.1 数据量化 169
3.5.2 神经网络量化过程173
3.5.3 神经网络量化应用174
3.5.4 神经网络的混合精度量化.175
3.5.5 大模型量化176
3.5.6 小结177
3.6 驱动范例 177
3.6.1 图像风格迁移简介177
3.6.2 基于卷积神经网络的图像风格
迁移算法 178
3.6.3 实时图像风格迁移算法 181
3.7 本章小结 182
习题 183
第 4 章 编程框架使用 184
4.1 编程框架概述 184
4.1.1 为什么需要编程框架 184
4.1.2 编程框架的发展历程 186
4.2 PyTorch 概述 187
4.3 PyTorch 编程模型及基本
用法188
4.3.1 NumPy 基础 188
4.3.2 张量194
4.3.3 操作202
4.3.4 计算图 206
4.4 基于 PyTorch 的模型推理
实现208
4.4.1 读取输入图像 210
4.4.2 构建神经网络 214
4.4.3 实例化神经网络模型 222
4.4.4 神经网络模型的调试 226
4.4.5 神经网络模型优化228
4.5 基于 PyTorch 的模型训练
实现231
4.5.1 加载训练数据集 231
4.5.2 模型训练 233
4.5.3 模型的保存与恢复239
4.6 驱动范例 241
4.6.1 加载依赖包241
4.6.2 加载并显示内容图像和
风格图像 242
4.6.3 创建输入图像 243
4.6.4 定义并计算损失函数 244
4.6.5 构建风格迁移算法247
XXII
4.6.6 风格迁移算法运行248
4.7 本章小结 249
习题 249
第 5 章 编程框架原理 250
5.1 编程框架设计 250
5.1.1 设计原则 250
5.1.2 整体架构 251
5.2 计算图构建 252
5.2.1 正向计算图构建 253
5.2.2 反向计算图构建 256
5.3 计算图执行 260
5.3.1 设备管理 260
5.3.2 张量实现 262
5.3.3 算子执行 269
*5.4 深度学习编译 278
5.4.1 为什么需要深度学习编译 278
5.4.2 图层级编译优化 281
5.4.3 算子层级编译优化287
5.4.4 常见深度学习编译器 294
*5.5 分布式训练299
5.5.1 为什么需要分布式训练 300
5.5.2 分布式训练基础 300
5.5.3 分布式训练方法 305
5.5.4 分布式训练框架实现 312
5.6 本章小结 318
习题 319
第 6 章 面向深度学习的处理器原理320
6.1 通用处理器 320
6.1.1 通用处理器的执行原理 321
6.1.2 通用处理器的结构发展 323
6.1.3 通用处理器分析和优化 339
6.1.4 总结和讨论346
6.2 向量处理器 347
6.2.1 向量处理器的执行原理 347
6.2.2 向量处理器的结构发展 352
6.2.3 向量处理器分析和优化 359
6.2.4 总结和讨论363
6.3 深度学习处理器364
6.3.1 深度学习处理器的执行
原理364
6.3.2 深度学习处理器的结构
发展376
6.3.3 总结和讨论382
6.4 大规模深度学习处理器382
6.4.1 一致性访存模型 383
6.4.2 非一致性访存模型384
6.4.3 分形计算模型 386
6.4.4 深度学习处理器示例 386
6.5 本章小结 387
习题 387
第 7 章 深度学习处理器架构.389
7.1 计算389
7.1.1 矩阵运算单元 390
7.1.2 向量与标量单元 400
7.1.3 总结和讨论408
7.2 存储409
7.2.1 便笺存储器409
7.2.2 外部存储器访问 412
7.2.3 总结和讨论417
7.3 通信418
7.3.1 互联网络 419
7.3.2 集合通信原语 420
7.3.3 通信架构设计 424
7.3.4 总结和讨论426
*7.4 设计优化 426
7.4.1 变换427
XXIII
7.4.2 压缩429
7.4.3 近似431
7.4.4 非传统结构和器件434
7.5 本章小结 437
习题 437
第 8 章 智能编程语言 439
8.1 为什么需要智能编程语言439
8.1.1 语义鸿沟 440
8.1.2 硬件鸿沟 442
8.1.3 平台鸿沟 445
8.1.4 小结445
8.2 智能计算系统抽象架构446
8.2.1 抽象硬件架构 447
8.2.2 典型智能计算系统447
8.2.3 控制模型 448
8.2.4 存储模型 449
8.2.5 计算模型 450
8.3 智能编程模型 450
8.3.1 异构编程 450
8.3.2 多核并行 452
8.3.3 存储空间 454
8.4 智能编程语言基础 455
8.4.1 语法概述 455
8.4.2 内建变量与内建函数 457
8.4.3 BCL 程序示例458
8.5 智能应用编程接口 459
8.5.1 核函数接口459
8.5.2 运行时接口460
8.5.3 使用示例 462
8.6 智能应用功能调试 465
8.6.1 功能调试方法 465
8.6.2 功能调试接口 470
8.6.3 功能调试工具 472
8.6.4 精度调试方法 474
8.6.5 功能调试实践 476
8.7 智能应用性能调优 483
8.7.1 性能分析工具 483
8.7.2 性能调优方法 489
8.8 智能编程语言的应用 495
8.8.1 高性能算子开发 496
8.8.2 编程框架算子开发502
8.9 本章小结 509
习题 509
第 9 章 大模型计算系统511
9.1 大模型算法分析512
9.2 大模型驱动范例:BLOOM 516
9.2.1 BLOOM-176B 模型 516
9.2.2 BLOOM-176B 运行平台517
9.2.3 BLOOM-176B 计算过程及
分析518
9.3 大模型系统软件524
9.3.1 训练场景 525
9.3.2 推理场景 530
9.4 大模型基础硬件534
9.4.1 大模型计算节点 534
9.4.2 大模型计算集群 538
9.5 本章小结 541
习题 541
参考文献 544
后记566
|
內容試閱:
|
第2版前言
2020 年 3 月,“智能计算系统”课程的同名教材《智能计算系统》第 1 版正式出版。
之后,我们又出版了课程实验教材《智能计算系统实验教程》和英文教材 AI Computing
Systems。得益于各位读者对智能计算系统课程理念和内容的认同,第 1 版教材已重印 7
次,被国内超过百所高校使用。在此,我们衷心感谢各位读者对这本教材的大力支持。
本书第 1 版出版至今已有四年之久,智能计算系统领域的发展日新月异,其中影响最
深远的就是以 GPT 系列为代表的大型语言模型(Large Language Model,LLM)的出现。
GPT-4 已拥有接近人类水平的语言理解和生成能力,并在知识储备上远超人类水平,因而
在大量智能任务上有着优异的表现。例如 GPT-4 能够像文字工作者一样完成各类文档的
写作任务,像软件工程师一样完成程序编码任务,像翻译人员一样实现自然语言文本间的
转换。
如果说四年前,业界都认为通用人工智能还是一件很遥远的事情,那么到了今天,GPT
的进展让我们不得不正视这场由大模型引发的通用人工智能革命。图灵奖获得者、深度学
习之父杰弗里·辛顿 (G. Hinton) 也说:“这些东西(大模型)与我们完全不同。有时我认
为这就像外星人登陆了,而人们还没有意识到。”
大模型取得巨大进步的一个关键因素是智能计算系统所提供的巨大算力。例如 GPT-3
的模型参数量达 1750 亿,其训练使用了 1 万颗英伟达 V100 GPU 组成的高性能智能计算
系统,单次训练用时 14.8 天,单次训练成本约为 1000 万美元。GPT-4 有 1.76 万亿个参
数,其训练更是使用 2.5 万颗 A100 GPU 运行了近 100 天,对智能计算系统算力的需求达
到了 GPT-3 的 67 倍。未来如果还要训练出人脑规模的大模型(100 万亿个参数),我们
对智能计算系统算力的需求还将进一步提升。因此,大模型的发展使我们必须重新审视智
能计算系统课程的知识体系。
第 2 版保留了原有深度学习计算系统的精髓,以大模型为牵引,大幅度调整了各个章
节的内容,希望能够从各个层面系统讲解如何使智能计算系统获取持续增长的计算能力,为
XII
未来更大、更通用的模型提供支撑。其中包括如何构建大模型算法(第 2、3 章),如何让
编程框架支撑海量处理器分布式训练大模型(第 4、5 章),如何在单个处理器层面实现算
力提升(第 6、7 章),如何面向大模型进行智能计算系统的编程(第 8 章)。我们还专门
增加了第 9 章,将前面各个章节串联起来,介绍完整的面向大模型的智能计算系统。一
具体而言,在第 1 章中,我们整体回顾了人工智能、智能计算系统的发展历程,并介
绍了大模型对智能计算系统的需求。
在第 2、3 章中,我们在第 1 版介绍深度学习算法知识的基础上增加了大模型算法的
相关知识,包括大模型算法基础、自然语言处理大模型、图像处理和多模态大模型。同时
新增了应用于图像生成的神经网络相关知识,包括扩散模型和相关应用,使读者能够全面
了解深度学习算法基础与新兴的大模型算法。
在第 4 章中,我们不再以 TensorFlow 为重点来介绍编程框架的使用,而是改为介绍
目前业界影响力更大的深度学习编程框架 PyTorch 的发展历程、基本概念、编程模型和使
用方法。然后在第 5 章中,我们跳出具体的编程框架,介绍编程框架的工作原理,尤其是
如何通过分布式训练机制来高效地处理大模型任务。
此次改版我们完全重写了第 6、7 章。在第 6 章中,我们回顾了深度学习所用的处理
器结构从通用逐步走向专用的过程,使读者能够更直观地理解深度学习处理器的基本原理、
掌握智能计算系统的设计准则。在第 7 章中,我们展开介绍了深度学习处理器的体系结构
应当如何应对大模型处理中的计算、访存、通信瓶颈。
在第 8 章中,我们介绍了基于 BCL 语言(BANG C Language)的高性能算子开发优
化实践,使读者能够学习如何高效编写面向大模型的智能算法。
第 9 章在前几章的基础上全面介绍当代面向大模型的智能计算系统,并以开源大模型
BLOOM 作为驱动范例,介绍大模型在智能计算系统上的运行实例,以及系统软件、基础
硬件层面的优化技术。
本书凝聚着中国科学院计算技术研究所处理器芯片全国重点实验室以及中国科学院软
件研究所智能软件研究中心很多老师和学生的心血。其中,我负责整理第 1 章,李玲研究
员和张蕊副研究员负责整理第 2、3 章,李威副研究员负责整理第 4 章,文渊博负责整理
第 5 章,赵永威副研究员负责编写第 6、7 章,郭崎、周晓勇和李宝亮负责整理第 8 章。张
振兴、文渊博和张蕊负责编写第 9 章。我和李玲研究员负责全书的统稿。此外,刘畅、李
昊宸、李文毅、阮庭峰、毕钧、刘子康、樊哲、刘晰鸣、陈亦、杨志浩、刘天博、张洪翔、
岳志飞、刘洋、李夏青等也参与了本书的编写。王麒丞
|
|