新書推薦:
《
河流之齿
》
售價:HK$
59.8
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
《
战胜人格障碍
》
售價:HK$
66.7
《
逃不开的科技创新战争
》
售價:HK$
103.3
《
漫画三国一百年
》
售價:HK$
55.2
《
希腊文明3000年(古希腊的科学精神,成就了现代科学之源)
》
售價:HK$
82.8
《
粤行丛录(岭南史料笔记丛刊)
》
售價:HK$
80.2
|
編輯推薦: |
本书系统讲解深度学习在图像识别领域的应用,既包含了基础知识,为初学者铺设坚实的基础,也涵盖了高级主题,供有经验的研究者或从业者探索。本书从图像识别的历史和发展趋势开始,然后逐步深入每个主题,确保读者可以从中得到真正的价值。
|
內容簡介: |
本书专注于深度学习在图像识别领域的应用。不仅详细讲解了各种模型的理论知识,还为读者提供了丰富的实践操作指南。旨在为读者提供一个从基础到高级的全方位指导,涵盖2012至2023间的经典和前沿模型。
本书在第1章介绍人工智能在计算机视觉领域的现状,第2章和第3章是编程基础章节,有基础的同学可以跳过阅读。第4章和第5章详细讲解卷积算法和基于卷积算法具有里程碑意义的模型。第6章介绍工业中常用的轻量级卷积模型。第7章和第8章对现阶段前沿的图像识别模型进行讲解。
本书适合对图像识别领域感兴趣的本科生、研究生及图像识别从业者。对于新入门的同学,本书提供了丰富的预备知识,而对于有经验的读者,可以直接跳入高级章节。
|
關於作者: |
于浩文,南安普顿大学人工智能专业硕士一等学位,曼彻斯特大学生物信息与系统生物硕士一等学位;湖南点头教育科技有限公司联合创始人。发表SCI三篇,IEEE一篇,获国家技术专利一项。
|
目錄:
|
本书源码
附赠资源
第1章人工智能介绍
1.1什么是人工智能
1.2人工智能的3次浪潮
1.2.1人工智能的第1次浪潮
1.2.2人工智能的第2次浪潮
1.2.3人工智能的第3次浪潮
1.3人工智能发展的三要素
1.3.1人工智能发展的基石: 数据
1.3.2人工智能发展的动力: 算法
1.3.3人工智能发展的手段: 算力
1.4人工智能的美好愿景
1.4.1乌鸦与鹦鹉的启示
1.4.2人工智能到底有多智能
第2章深度学习环境配置
2.1专业名称和配置方案介绍
2.1.1专业名称介绍
2.1.2Windows配置PyTorch深度学习环境初级方案
2.1.3Windows配置PyTorch深度学习环境进阶方案
2.2Anaconda配置Python和PyTorch
2.2.1Anaconda简介
2.2.2Windows系统安装Anaconda
2.2.3Linux系统安装Anaconda
2.2.4Anaconda的快速入门
2.2.5Anaconda配置PyTorch深度学习环境
2.3配置VS Code和Jupyter的Python环境
2.3.1VS Code下载与安装
2.3.2VS Code配置Python环境
2.3.3Jupyter Notebook中配置Python环境
2.4配置Windows 11和Linux双系统
2.4.1Windows 11配置WSL 2的详细步骤
2.4.2Windows 11配置WSL 2的常见错误
2.4.3VS Code远程连接WSL 2
2.5配置Docker深度学习开发环境
2.5.1Docker安装的先决条件
2.5.2安装Docker Desktop
2.5.3拉取Docker镜像
2.5.4快速入门Docker终端的使用
2.5.5VS Code使用Docker的快速入门
第3章编程语言快速入门
3.1Python的起源、历史和应用场景
3.1.1Python的起源
3.1.2Python的历史
3.1.3Python的应用场景
3.2Python的基础知识
3.2.1注释
3.2.2六大数据类型
3.3Python的判断与循环语句
3.3.1比较运算符和关系运算符
3.3.2判断语句
3.3.3循环语句
3.4Python中的函数
3.4.1函数的定义
3.4.2函数中的变量
3.4.3高级函数用法
3.4.4Python中的文件操作函数
3.5Python中的面向对象编程
3.5.1面向对象编程 VS 面向过程编程
3.5.2类与对象
3.5.3魔法方法
3.5.4类属性和类方法
3.5.5继承
3.5.6多态
3.5.7模块的介绍和制作
3.5.8Python中的包和库
3.5.9Python的pip命令
3.6PyTorch的基础知识
3.6.1PyTorch的基本数据类型
3.6.2张量的索引、切片与维度变换
3.6.3张量的拼接、拆分与统计
第4章卷积神经网络理论基础
4.1全连接神经网络
4.1.1线性模型
4.1.2回归与分类
4.1.3感知机模型
4.1.4激活函数
4.1.5维度诅咒
4.1.6过拟合与欠拟合
4.1.7正则
4.1.8数据增强
4.1.9数值不稳定性
4.2基于梯度下降的优化算法
4.2.1优化算法的数学基础
4.2.2优化器
4.3卷积神经网络
4.3.1卷积神经网络的计算
4.3.2卷积的设计思想
4.3.3卷积对图像的特征提取过程
4.3.4卷积模型实现图像识别
4.3.5卷积神经网络的层级结构和感受野
4.3.6第1个卷积神经网络模型: LeNet
第5章那些年我们追过的ImageNet图像识别大赛
5.1ImageNet
5.1.1什么是ImageNet
5.1.2ImageNet数据集
5.1.3ImageNet图像分类大赛
5.2AlexNet: 拉开深度学习序幕
5.2.1AlexNet理论
5.2.2AlexNet代码
5.2.3AlexNet模型小结
5.3ZFNet: 开创卷积模型的可解释性
5.3.1ZFNet简介
5.3.2对卷积计算结果的可视化
5.3.3网络中对不同特征的学习速度
5.3.4图片平移、缩放、旋转对CNN的影响
5.3.5ZFNet的改进点
5.3.6遮挡对卷积模型的影响
5.3.7ZFNet的调参实验
5.3.8ZFNet的模型代码实现
5.3.9ZFNet模型小结
5.4VGGNet: 探索深度的力量
5.4.1VGGNet模型总览
5.4.2网络贡献总结
5.4.3VGGNet的模型代码实现
5.4.4VGGNet模型小结
5.5GoogLeNet: 探索宽度的力量
5.5.1GoogLeNet V1
5.5.2GoogLeNet V2
5.5.3GoogLeNet V3
5.5.4GoogLeNet V4
5.5.5GoogLeNet V5
5.6ResNet: 神来之“路”
5.6.1深度学习网络退化问题
5.6.2残差连接
5.6.3ResNet模型的网络结构
5.6.4残差的调参
5.6.5残差连接的渊源
5.6.6残差连接有效性的解释
5.6.7ResNet的变体
5.6.8ResNeXt
5.7DenseNet: 特征复用
5.7.1模型设计动机
5.7.2DenseNet模型结构
5.7.3DenseNet模型比较
5.8SENet: 通道维度的注意力机制
5.8.1SENet模型总览
5.8.2SE模块
5.8.3SENet效果
5.8.4SENet模型小结
第6章易于应用部署的轻量卷积模型
6.1MobileNet V1: 为移动端量身打造的轻量级模型
6.1.1模型设计动机
6.1.2深度可分离卷积
6.1.3MBConv模块
6.1.4MobileNet V1模型结构
6.1.5MobileNet V1模型小结
6.2MobileNet V2: 翻转残差与线性瓶颈的效率变革
6.2.1逆残差结构
6.2.2线性瓶颈结构
6.2.3MobileNet V2模型结构
6.2.4MobileNet V2模型小结
6.3MobileNet V3: 结合自动搜索的移动端网络标杆
6.3.1优化网络深层结构
6.3.2hswish激活函数
6.3.3SENet
6.3.4MobileNet V3模型结构
6.3.5MobileNet V3模型小结
6.4ShuffleNet V1: 重新洗牌的高效卷积网络
6.4.1组卷积
6.4.2通道打散操作
6.4.3ShuffleNet模块
6.4.4ShuffleNet V1模型结构
6.4.5ShuffleNet V1模型小结
6.5ShuffleNet V2: 轻量级设计的网络优化版
6.5.1ShuffleNet V2模型设计动机
6.5.2轻量级网络设计的5个经验总结
6.5.3ShuffleNet V2模型结构
6.5.4ShuffleNet V2模型小结
6.6EfficientNet V1: 缩放模型的全新视角
6.6.1EfficientNet V1模型设计动机
6.6.2深度学习模型的3种缩放方法
6.6.3EfficientNet V1模型的缩放比率
6.6.4EfficientNet V1模型结构
6.6.5EfficientNet V1模型小结
6.7EfficientNet V2: 融合速度与精度的高效网络
6.7.1EfficientNet V2模型设计动机
6.7.2EfficientNet模型的问题
6.7.3EfficientNet V2模型的改进
6.7.4EfficientNet V2模型小结
6.8RepVGG: 以简化网络结构为核心的下一代模型
6.8.1RepVGG模型设计动机
6.8.2RepVGG模型结构
6.8.3RepVGG重参数化
6.8.4RepVGG模型小结
第7章Transformer的强势入侵
7.1Transformer模型
7.1.1Transformer算法解读
7.1.2自注意力层
7.1.3多头自注意力层
7.1.4编码器结构
7.1.5解码器结构
7.1.6线性顶层和Softmax层
7.1.7输入数据的向量化
7.1.8Transformer模型小结
7.2Vision Transformer模型: 从NLP到CU的Transformer算法变革
7.2.1ViT框架
7.2.2图片数据的向量化
7.2.3ViT的Transformer编码器
7.2.4MLP Head模块
7.2.5ViT模型缩放
7.2.6混合ViT模型
7.2.7ViT模型小结
7.3Swin Transformer模型: 窗口化的Transformer
7.3.1Swin Transformer网络整体框架
7.3.2Patch Merging详解
7.3.3WMSA详解
7.3.4SWMSA详解
7.3.5相对位置偏置详解
7.3.6Swin Transformer模型详细配置参数
7.3.7Swin Transformer模型讨论与总结
7.4VAN视觉注意力网络: 基于卷积实现的注意力机制
7.4.1相关工作
7.4.2大核注意力机制
7.4.3视觉注意力网络
7.4.4VAN模型小结
7.5ConvNeXt模型: 披着“Transformer”的“CNN”
7.5.1模型和训练策略选择
7.5.2Macro Design
7.5.3模仿ResNeXt模型
7.5.4Inverted Bottleneck反向瓶颈结构
7.5.5Large Kernel Sizes
7.5.6Micro Design
7.5.7ConvNeXt模型缩放
7.5.8ConvNeXt模型小结
第8章多层感知机的重新思考
8.1MLPMixer模型: 多层感知机的神奇魔法
8.1.1Perpatch全连接层
8.1.2MixerLayer代替自注意力机制
8.1.3MLPMixer模型结构
8.1.4MLPMixer代码实现
8.1.5MLPMixer模型小结
8.2ASMLP模型: 注意力驱动下的多层感知机升级
8.2.1ASMLP模型
8.2.2ASMLP模型结构
8.2.3ASMLP代码实现
8.2.4ASMLP模型小结
8.3ConvMixer模型: 卷积与多层感知机的相互借鉴
8.3.1图像编码成向量
8.3.2ConvMixer模型
8.3.3ConvMixer网络结构
8.3.4ConvMixer代码实现
8.3.5ConvMixer模型小结
8.4MetaFormer模型: 万法归一,构建Transformer模板
8.4.1MetaFormer模型
8.4.2MetaFormer模型结构
8.4.3MetaFormer代码实现
8.4.4MetaFormer模型小结
|
內容試閱:
|
随着技术的迅速发展,深度学习已经从一个边缘领域转变为现代技术革命的核心。在这个浪潮中,图像识别显得尤为重要,它已经渗透到我们日常生活的方方面面——从简单的面部解锁手机到高级的医疗图像分析,再到自动驾驶汽车的视觉系统。
决定写这本书时,笔者首先考虑到了这个领域的巨大潜力和广阔的应用前景,但更重要的是,笔者意识到当前市场上的大部分教材太过专业化,难以被初学者所接受; 或者内容过于浅显,无法满足专业人员的需求,因此,笔者希望本书能够填补这个空白,为所有对图像识别感兴趣的读者提供一个全面而深入的指南。
本书既包含了基础知识,为初学者铺设坚实的基础,也涵盖了高级主题,供有经验的研究者或从业者探索。本书将从图像识别的历史和发展趋势开始,然后逐步深入每个主题,确保读者可以从中得到真正有价值的知识。
随着深度学习技术的进步,图像识别的门槛正在逐渐降低,但这也意味着,为了在这个领域脱颖而出,需要更深入的知识和更强大的技能。笔者希望本书能够成为读者学习和进步的伴侣,帮助读者走在这条充满机遇和挑战的道路上。
本书主要内容
第1章: 概述人工智能在视觉领域的现状、挑战和展望。
第2章: 指导读者进行深度学习的环境配置。
第3章: 介绍编程语言Python和深度学习框架PyTorch的基础知识。
第4章: 深入探讨卷积神经网络及其在图像识别中的应用。
第5章: 呈现了一系列卷积算法的里程碑模型,并探讨它们为何成为视觉任务的基准模型。
第6章: 关注轻量级的卷积神经网络模型,以及这些模型在工业部署中所具有的重要价值。
第7章: 深入探索起源于NLP领域的Transformer模型在图像识别中的应用,以及其如何挑战了卷积在计算机视觉领域的主导地位。
第8章: Transformer与卷积算法的碰撞引起了CV领域专家对算法的重新思考。他们发现基于原始神经网络模型(MLP)同样可以达到不错的图像识别效果。本章就介绍了这些基于原始神经网络算法的图像识别模型,并对之前的算法进行对比和评价。
阅读建议
初学者可以从第1章开始,逐步建立对图像识别和深度学习的基础理解,然后按章节的推进顺序逐渐深入。特别是第2章和第3章,为读者提供了实际操作的起点,介绍了如何配置深度学习环境及编程基础。
对于已经对深度学习编程有一定了解的读者可跳过前3章,第4章和第5章将讲解更深入的知识,让读者对卷积神经网络有更全面的了解,而第6~8章则探讨了图像识别领域的最新进展和趋势,对于那些希望进一步研究或在实际工作中应用这些技术的专业人士来讲,这些章节尤为重要。
总之,无论是新手还是有经验的研究者都可按照自己的节奏和兴趣选择章节进行阅读。全书各章都有详尽的参考资料和实践建议,以确保读者能够充分利用这本书的内容。
资源下载提示
素材(源码)等资源: 扫描封底的文泉云盘防盗码,再扫描目录上方的二维码下载。
致谢
感谢所有支持我、鼓励我和为这本书提供宝贵建议的人。没有你们,这本书将不会成为现实。
感谢佟天旭、徐梓源、刘慕晴、李永昊对本书内容的整理、校对和修改。
感谢吴骏文、孙衍哲、马程远、刘子瑞对本书格式的编辑和整理。
感谢我的家人,尤其是我的妻子,在我写作过程中承担了生活中的琐事,使我可以全身心地投入写作。
由于时间仓促,书中难免存在不妥之处,请读者见谅,并提宝贵意见。
于浩文
2023年8月
|
|