新書推薦:
《
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
》
售價:HK$
77.3
《
认知行为疗法:心理咨询的顶层设计
》
售價:HK$
99.7
《
FANUC工业机器人装调与维修
》
售價:HK$
99.7
《
吕著中国通史
》
售價:HK$
62.7
《
爱琴海的光芒 : 千年古希腊文明
》
售價:HK$
199.4
《
不被他人左右:基于阿德勒心理学的无压力工作法
》
售價:HK$
66.1
《
SDGSAT-1卫星热红外影像图集
》
售價:HK$
445.8
《
股市趋势技术分析(原书第11版)
》
售價:HK$
221.8
|
編輯推薦: |
本书以作者教学经验和研究成果为基础,配合大量插图,详细讲解传统计算机视觉方法,基于手动特征的经典算法,并深入介绍最前沿的深度学习技术。将传统的知识与深度学习的力量相结合应对不断变化的挑战。
阅读本书,您既能够理解计算机视觉的基本原理,又能够掌握当今最激动人心的技术。
|
內容簡介: |
本书主要介绍和探讨计算机视觉的一系列核心主题,包括相机成像,图像处理、分析和感知,三维重建等。首先介绍了相机模型、成像过程以及图像的颜色模型、照射模型、渲染模型等;然后系统性地介绍了图像滤波、特征提取、图像和视频感知与理解等多种任务,不仅详细讲解了各任务中的经典方法,还全面地介绍了前沿的基于深度学习的方法;最后介绍了三维重建中涉及的几何原理、重建步骤以及基于深度学习的新方法。
本书针对每一个核心问题单独成章,并着重讲解基本概念。通过大量的彩图,帮助读者理解问题。适合作为本科及研究生的计算机视觉和数字图像处理课程的教材,并且可以作为深度学习课程的参考书。同时,也可供对计算机视觉感兴趣的相关专业人士参考。
|
關於作者: |
高盛华简介:
上海科技大学信息科学与技术学院教授,长期从事计算机视觉与机器学习领域研究,发表多篇高水平计算机视觉领域学术论文。
厉征鑫简介:
上海科技大学信息科学与技术学院副研究员,博士毕业于江南大学,长期从事机器视觉、异常检测相关研究,发表多篇计算机视觉领域论文。
|
目錄:
|
第1章 相机成像模型 /1
1.1 引言 /1
1.2 简单的相机模型 /2
1.2.1 相机数学模型 /2
1.2.2 相机的内参 /4
1.2.3 相机的外参 /6
1.2.4 相机成像公式 /7
1.2.5 相机成像畸变 /7
1.3 图像的颜色 /10
1.3.1 基于拜尔滤波器的颜色感知 /10
1.3.2 RGB颜色模型 /11
1.3.3 HSV颜色模型 /12
1.4 图像的亮度 /14
1.4.1 空间中的光 /14
1.4.2 物体表面的光线反射 /16
1.4.3 薄透镜成像的辐射度学 /17
1.4.4 数字成像过程 /19
1.5 渲染 /20
1.5.1 渲染方程 /20
1.5.2 光线追踪算法 /20
1.6 本章小结 /23
第2章 图像空间滤波 /24
2.1 引言 /24
2.2 卷积和互相关 /25
2.2.1 卷积 /25
2.2.2 互相关 /26
2.3 图像的平滑 /28
2.3.1 邻域均值滤波 /28
2.3.2 加权均值滤波 /28
2.3.3 高斯均值滤波 /29
2.3.4 中值滤波 /30
2.3.5 双边滤波 /30
2.4 图像的锐化 /32
2.4.1 梯度锐化 /32
2.4.2 拉普拉斯算子的二阶微分锐化 /33
2.4.3 非锐化掩膜与高频提升滤波 /34
2.5 本章小结 /35
第3章 图像特征提取 /36
3.1 引言 /36
3.2 基于非学习方法的边缘检测 /37
3.2.1 边缘、导数和梯度 /39
3.2.2 边缘的卷积形式计算 /40
3.2.3 噪声对边缘检测的影响和处理方法 /41
3.2.4 Canny边缘检测算子 /43
3.3 基于深度学习的边缘检测 /45
3.3.1 HED/45
3.3.2 RCF/47
3.3.3 CASENet/49
3.4 基于非学习方法的关键点检测 /51
3.4.1 角点检测原理 /53
3.4.2 Harris角点检测 /54
3.4.3 Harris角点检测的优势与不足 /58
3.4.4 高斯拉普拉斯算子 /59
3.4.5 高斯差分算子 /64
3.5 基于深度学习的语义关键点检测 /65
3.5.1 基于深度学习的人脸关键点检测 /65
3.5.2 人体关键点检测 /69
3.5.3 房间布局估计 /74
3.6 基于非学习方法的直线检测 /78
3.6.1 最小二乘法 /78
3.6.2 基于RANSAC的直线拟合 /82
3.6.3 霍夫变换 /84
3.7 基于深度学习的线段检测 /87
3.7.1 基于图表示的线段检测 /87
3.7.2 基于向量场表示的线段检测 /88
3.7.3 语义直线检测及应用 /89
3.8 本章小结 /91
参考文献 /91
第4章 图像分类 /94
4.1 引言 /94
4.2 图像表达 /97
4.3 基于手动特征的图像表达 /98
4.3.1 基于颜色直方图的图像表达 /98
4.3.2 基于经典的视觉词袋模型的图像表达 /99
4.3.3 基于空间金字塔匹配模型的图像表达 /104
4.3.4 基于压缩感知的图像表达 /105
4.3.5 基于高斯混合模型的图像特征编码 /107
4.4 基于支持向量机的图像分类 /108
4.4.1 面向线性可分数据的支持向量机分类 /108
4.4.2 面向非线性可分数据的支持向量机分类 /114
4.4.3 基于支持向量机的多分类实现 /116
4.4.4 基于视觉词袋模型和支持向量机的图像分类 /116
4.5 基于自编码器的图像表达 /117
4.5.1 多层感知机 /118
4.5.2 自编码器 /120
4.5.3 降噪自编码器 /121
4.6 基于卷积神经网络的图像分类 /122
4.6.1 卷积神经网络的组件 /122
4.6.2 神经网络的训练 /128
4.6.3 代表性图像分类卷积神经网络 /131
4.7 基于胶囊网络的图像分类 /143
4.7.1 CapsNet/144
4.7.2 堆叠胶囊自编码器 /147
4.8 基于Transformer的图像分类 /149
4.8.1 自然语言处理中的Transformer/149
4.8.2 基于Transformer的图像分类 /151
4.9 本章小结 /159
参考文献 /159
第5章 图像中目标检测 /164
5.1 引言 /164
5.2 基于手动特征的目标检测 /171
5.2.1 ViolaJones人脸检测算法 /172
5.2.2 基于DPM的目标检测 /176
5.3 基于卷积神经网络的目标检测 /183
5.3.1 两阶段目标检测算法 /185
5.3.2 单阶段目标检测算法 /190
5.3.3 无锚框的目标检测算法 /195
5.4 基于Transformer的目标检测 /199
5.4.1 DETR/199
5.4.2 Pix2seq/201
5.5 本章小结 /203
参考文献 /204
第6章 图像分割 /207
6.1 引言 /207
6.2 基于手动特征的图像分割算法 /209
6.2.1 基于图论的图像分割 /209
6.2.2 基于聚类的图像分割 /213
6.3 语义分割 /216
6.3.1 FCN/218
6.3.2 U Net/219
6.3.3 DeepLab/220
6.3.4 PSPNet/223
6.4 实例分割 /223
6.4.1 MaskR CNN/225
6.4.2 YOLACT/225
6.4.3 SOLO/227
6.5 全景分割 /228
6.5.1 PanopticFPN/229
6.5.2 UPSNet/230
6.6 点云分割 /232
6.6.1 用于图的卷积神经网络 /234
6.6.2 基于点云的语义分割 /238
6.7 本章小结 /244
参考文献 /244
第7章 视频分类和行为识别 /248
7.1 引言 /248
7.2 基于手动特征的视频分类 /253
7.2.1 基于词袋模型的视频表达和分类 /254
7.2.2 基于光流特征的视频表达和分类 /254
7.3 基于循环神经网络的视频分类 /263
7.3.1 循环神经网络 /263
7.3.2 双向循环神经网络 /264
7.3.3 长短期记忆网络 /266
7.3.4 门控制循环单元 /267
7.3.5 基于LSTM的视频表达 /267
7.4 基于卷积神经网络的视频分类 /270
7.4.1 单分支网络 /270
7.4.2 多分支网络 /278
7.5 基于Transformer的视频分类 /282
7.5.1 ViViT/282
7.5.2 TimeSFormer/285
7.5.3 VideoSwinTransformer/286
7.5.4 VideoCLIP/288
7.5.5 VLM/290
7.6 时序动作定位 /291
7.6.1 单阶段方法 /292
7.6.2 自顶向下的多阶段方法 /295
7.6.3 自底向上的多阶段方法 /299
7.7 本章小结 /304
参考文献 /304
第8章 图像三维重建 /311
8.1 引言 /311
8.2 对极几何 /313
8.3 相机标定 /317
8.4 基于传统算法的多视图立体重建 /321
8.4.1 简单的基于匹配三维点空间坐标求解方法 /321
8.4.2 基于平面扫描的场景深度估计 /322
8.4.3 基于视差的深度估计 /323
8.4.4 基于PatchMatch的立体重建 /325
8.5 基于深度学习的多视角重建 /328
8.5.1 MVSNet/329
8.5.2 Fast MVSNet/330
8.6 基于深度学习的场景的单目深度估计 /332
8.6.1 有监督学习的单目深度估计 /332
8.6.2 自监督学习的单目视频深度估计 /335
8.7 深度学习对基于不同形状表达的三维重建 /338
8.7.1 基于体素的显式三维表达 /338
8.7.2 基于多边形网格的显式三维表达 /344
8.7.3 基于隐函数的隐式物体表达 /348
8.7.4 基于神经立体渲染的多视角重建 /353
8.8 本章小结 /370
参考文献 /370
|
內容試閱:
|
在这个科技日新月异的时代,计算机视觉已然成为一个极具挑战性和充满潜力的领域。随着计算机性能的提升和算法的不断创新,我们似乎进入了一个全新的视觉时代,一个充满无限可能性的时代。作为计算机视觉的从业者,我们深感荣幸,能够在过去10年里,与众多杰出的学生和朋友们一同探索这一领域的奥秘,见证计算机视觉从感知到重建的奇妙过程。
本书题为《计算机视觉:从感知到重建》,旨在为您提供一份全面且深入的指南,帮助您踏上探索计算机视觉的壮丽征程。在这本书中,我们将深入探讨计算机视觉的一系列核心主题,从相机成像,图像的处理、分析和感知,一直到三维重建,讲解各主题的基础理论、方法原理和经典技术。
我们在此简要介绍本书中各章的主要内容,以便不同背景的读者更有效地获取所需信息。例如,刚开始接触计算机视觉的读者可以通读全书并侧重理论部分,有一定相关知识背景的读者可以针对性地阅读某些章节以加深理解,或将本书作为工具书查询某个领域的经典方法和前沿方法。
第一章:相机成像模型 介绍了计算机视觉领域视角下的相机模型、成像过程以及图像的颜色模型、亮度模型、渲染模型等。这些内容能够帮助读者理解数字图像的本源,掌握数字图像和物理世界之间的逻辑关系、几何关系,为入门计算机视觉,理解各种计算机视觉算法奠定基础。
第二章:图像空间滤波 空间滤波用于改善图像质量、去除噪声和增强图像特征,是一种关键的图像处理的技术。本章将介绍多种不同的空间滤波方法,以及它们在图像增强中的应用。另外,滤波或换言之卷积操作,也将在本书其他章节中频繁出现,希望读者通过阅读本章能够理解并掌握这种经典的数学方法。
第三章:图像特征提取 介绍了如何从图像中提取有意义的信息即图像特征,包括传统手动方法和基于深度学习的方法。正如我们人类识别人脸更多的是借助五官和轮廓特征,而非人脸上的每个毛孔等细节,实际上大多数的计算机视觉技术并不直接处理数字图像,而是基于体量更加精简、信息更为丰富的图像特征进行后续的计算处理。
第四章:图像分类 介绍了计算机视觉的入门级图像感知任务,即理解图像中的主要物体并输出其类别。包括多种传统方法和基于深度学习的新方法。本章首次涉及图像表达、神经网络和卷积神经网络,因此也重点讲解了相关的基础知识。
第五章:图像中目标检测 介绍了定位和识别图像中物体的任务,以及实现目标检测的技术,包括传统的方法和最新的深度学习框架。
第六章:图像分割 介绍了这种将图像中的每个像素标记为其对应物体类别的任务、语义分割的原理和应用,以及如何使用手动特征或深度学习来实现图像分割。
第七章:视频分类和行为识别 介绍了视频序列的分析和理解任务。视频是一系列连续的图像,与单帧图像相比,既有视频分类等类似任务,也有视频中的物体追踪、动作识别和场景分析等新任务。从技术手段角度来看,既有应用于单帧图像的技术的扩展,也有针对视频数据提出的新技术。
第八章:图像三维重建 介绍了如何从二维图像还原出三维世界的模型,三维重建是计算机视觉领域的巅峰之一。本章详细介绍了三维重建的几何原理、从相机运动到点云重建的各个步骤,以及如何使用深度学习来改进三维重建的质量。
总体而言,本书以图像的成像、处理、理解和重建为脉络,系统性地讲解了计算机视觉领域各主要任务的理论、方法和技术。本书的独特之处在于,既回顾了传统的计算机视觉方法——基于手动特征的经典算法,又深入介绍了最前沿的深度学习技术。这对于现代计算机视觉的学习者尤为重要。一方面,以深度学习为代表的人工智能技术近年来极大地提高了许多视觉算法的表现,拓展了计算机视觉技术成功落地的范围,学习计算机视觉必须掌握这些前沿技术。而另一方面,许多具体任务又无法使用新兴的深度学习方法来解决,如精确测量、高速实时检测,或者无法获得大规模数据的问题,这在实际应用中,尤其是农业、工业问题中十分常见,所以学习者仍然有必要掌握基于手动特征的各种视觉方法和技术。本书即是这样一本融合传统与现代的教材,让您既能够理解计算机视觉的基本原理,又能够掌握当今最激动人心的技术。
从多年的求学、科研和教学经历中,我们切身了解到学生们对于计算机视觉知识体系的困惑,对于知识图谱和难度曲线设计或多或少的抱怨,以及对更好教材的渴望。因此,我们以自己的教学经验和研究成果为基础,尽最大努力编写这本教材,希望能够满足各类读者的需求,无论您是渴望在计算机视觉领域深耕细作的研究生,还是想要初窥门径的本科生,或是需要了解计算机视觉领域技术的科学家、工程师朋友。
计算机视觉是一个非常活跃且高速迭代的领域,许多新的英文单词、命名或缩写在成书时仍然没有恰当且通用的中文翻译,例如Transformer等,因此本书保留了一些英文单词未做翻译。除此以外,在一些涉及语料的数据集中,由于英文单词作为数据的特殊性,在数据集的说明性示意图中也未对英文进行翻译。
最后,衷心感谢上海科技大学各位领导和上海科技大学信息学院院长虞晶怡教授对此事的关心和支持,感谢上海科学技术出版社高在青编辑对本书付出的辛苦努力。感谢李晶、肖宇廷、金磊、钱深瀚、钱一成、许家乐、王晨宇、王若宇、胡俊豪、赵子伯、钟子明、余泽浩、徐衍玉、廉东泽、刘闻、罗伟鑫、董思勋、胡华章、智轶浩、黄彬彬、于劲鹏、赵逸群、王硕、朴智新及其他课题组成员为本书内容组织、编写和修订工作所做的贡献。感谢国家自然科学基金委员会(项目编号61932020)对本书出版提供的资助。感谢各位读者与我们一同踏上这段令人兴奋的旅程。计算机视觉是一项永无止境的探索,而您的参与,将使这段旅程更加充实和有趣。愿这本书带给您知识的光芒,启迪您的思维,引领您走向计算机视觉的精彩未来。
祝您阅读愉快,探索无穷!
高盛华 厉征鑫
2023年10月
|
|