新書推薦:
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
《
战胜人格障碍
》
售價:HK$
66.7
《
逃不开的科技创新战争
》
售價:HK$
103.3
《
漫画三国一百年
》
售價:HK$
55.2
《
希腊文明3000年(古希腊的科学精神,成就了现代科学之源)
》
售價:HK$
82.8
《
粤行丛录(岭南史料笔记丛刊)
》
售價:HK$
80.2
《
岁月待人归:徐悲鸿自述人生艺术
》
售價:HK$
59.8
|
編輯推薦: |
在人工智能和大数据的时代,统计学和计算机科学应该结合。这部书从数学角度帮助读者从经典统计学顺利过渡到人工智能这个新兴领域,值得阅读。
|
內容簡介: |
统计学是在概率论基础上发展起来的一门应用数学的学问。在自然科学、工程学、社会学、人文学、军事学等诸多应用领域,凡是涉及数据的收集、处理、分析、可视化和解释等方面的问题,都是统计学大显身手的舞台。
统计学既是应用数学的一个分支,又是一门推断的艺术,其中不乏有哲学思辩和信念差异。来自不同学派的观点相互碰撞,使得统计学在二十世纪飞速发展。今天,借助计算机的帮助,人们可以从各个角度探索数据的本质。然而,我们仍需时刻提醒自己,在算力之上,精巧的算法永远重要。
本书延续了《随机之美》的写作风格,以二十世纪最伟大的两位统计学家罗纳德·艾尔默·费舍尔和耶泽·内曼为故事的主角,介绍了现代统计学的一些主要成果。这两位统计学大师同属频率派,均为贝叶斯主义的反对者,然而二人之间也有过很多饶有趣味的学术之争,至今对我们仍有启发。
二十一世纪是人工智能和大数据的时代,统计学和计算机科学应该如何结合才能互惠互利?如何站在人工智能的角度看待数据和数据分析?还有很多统计应用的问题值得我们深思。作者希望通过此书唤起普通读者对统计学的兴趣,用它去推动人工智能、大数据分析的发展。这本书也是统计机器学习的入门,帮助读者从经典统计学顺利过渡到这个新兴领域。
|
關於作者: |
于江生,应用数学博士,曾在北京大学、堪萨斯大学、韦恩州立大学工作多年。主要研究方向是人工智能、统计机器学习、贝叶斯数据分析、计算语言学、图像处理、生物信息学等。曾任华为2012泊松实验室主任、人工智能与机器学习首席科学家,现任 Futurewei 首席科学家。
|
目錄:
|
第一部分 统计学历史背景
第 1 章 费舍尔和内曼的学术成就 3
1.1 费舍尔生平 11
1.1.1 费舍尔的主要著作 13
1.1.2 费舍尔的统计思想 16
1.2 内曼生平 22
1.2.1 内曼的置信区间与假设检验 24
1.2.2 内曼的归纳行为 .26
第 2 章 数理统计学简史 31
2.1 20 世纪前的统计学 .33
2.2 20 世纪上半叶的统计学 35
2.3 20 世纪下半叶的统计学 36
2.4 21 世纪的统计学 38
2.5 推荐读物 42
第二部分 经典统计学
第 3 章 统计学的一些基本概念 45
3.1 样本的特征 49
3.1.1 次序统计量 55
3.1.2 经验分布及其性质 60
3.1.3 样本矩及其极限分布 67
3.2 样本统计量及其性质 69
3.2.1 统计量的抽样分布 71
3.2.2 重抽样和自助法. 76
3.2.3 统计量的充分性 .79
第 4 章 参数估计理论 84
4.1 点估计及其优良性 92
4.1.1 相合性与渐近正态性 96
4.1.2 有效性 100
4.1.3 折刀法 105
4.1.4 点估计之矩方法和最大似然法 107
4.2 内曼置信区间估计 120
4.2.1 基于马尔可夫不等式的区间估计 122
4.2.2 枢轴量法 124
4.2.3 大样本区间估计 128
4.2.4 费舍尔的信任估计 132
第 5 章 假设检验 137
5.1 内曼-皮尔逊假设检验理论 .145
5.1.1 功效函数与两类错误的概率 151
5.1.2 内曼-皮尔逊基本引理与似然比检验 157
5.1.3 广义似然比检验 163
5.1.4 假设检验与置信区间估计的关系 169
5.2 大样本检验 173
5.2.1 拟合优度检验 177
5.2.2 独立性的列联表检验 184
第 6 章 回归分析与方差分析 188
6.1 线性回归模型 193
6.1.1 最小二乘估计 194
6.1.2 线性回归的若干性质 200
6.1.3 回归模型的假设检验 203
6.1.4 正交多项式回归 205
6.1.5 贝叶斯线性回归 211
6.1.6 对数率回归 214
6.2 方差分析模型 219
6.2.1 单因素方差分析 223
6.2.2 两因素方差分析 225
第三部分 现代统计学
第 7 章 多元统计分析简介 235
7.1 核方法及其在回归上的应用 243
7.1.1 核函数的性质 246
7.1.2 基于最优化的核线性回归 247
7.1.3 贝叶斯核线性回归 252
7.2 特征工程 255
7.2.1 主成分分析 260
7.2.2 因子分析 270
7.2.3 独立成分分析 278
7.2.4 多维缩放与等距映射 284
7.2.5 局部嵌入的降维 288
7.2.6 塔克分解 294
7.3 聚类 301
7.3.1 层级聚类 303
7.3.2 k-均值聚类 307
7.4 分类 310
7.4.1 近邻法 323
7.4.2 决策树 327
7.4.3 费舍尔线性判别分析 339
7.4.4 支持向量机 344
7.4.5 基于高斯过程的分类 348
7.4.6 人工神经网络 350
第 8 章 期望最大化算法 362
8.1 完全数据与最大似然估计 366
8.1.1 EM 算法及其收敛速度 367
8.1.2 指数族的 EM 算法 370
8.2 期望最大化算法的应用 373
8.2.1 分支个数已知的高斯混合模型 375
8.2.2 针对删失数据的 EM 算法 378
8.2.3 概率潜在语义分析 381
8.3 数据增扩算法与缺失数据分析 385
8.3.1 经典的数据增扩算法 386
8.3.2 穷人的数据增扩算法 392
第 9 章 时间序列分析初步 397
9.1 时间序列模型 405
9.1.1 ARMA 模型 408
9.1.2 样本(偏)自相关函数. 419
9.1.3 经典分解模型 422
9.2 预测与估计 428
9.2.1 指数平滑 433
9.2.2 最佳线性预测 435
9.2.3 ARMA 模型的估计 441
9.3 隐马尔可夫模型及算法 445
9.3.1 隐马尔可夫模型 449
9.3.2 概率有限状态转换器 452
9.3.3 观测序列的概率:向前算法与向后算法 456
9.3.4 状态序列的概率:维特比算法 460
9.3.5 模型参数的估计:鲍姆-韦尔奇算法 462
9.4 状态空间模型与卡尔曼滤波 466
9.4.1 状态的最佳线性估计 471
9.4.2 参数估计 477
第四部分 附 录
附录 A 软件 R、Maxima 和 GnuPlot 简介 483
A.1 R:最好的统计软件 483
A.2 Maxima:符号计算的未来之路 485
A.3 GnuPlot:强大的函数绘图工具 .490
附录 B 一些常用的最优化方法 491
B.1 梯度下降法. 494
B.2 高斯-牛顿法 495
B.3 拉格朗日乘子法 497
B.4 非线性优化方法 500
B.5 随机最优化 502
附录 C 核密度估计 504
附录 D 再生核希尔伯特空间 508
D.1 希尔伯特空间 511
D.2 内积矩阵与距离矩阵 514
D.3 核函数的判定条件 515
附录 E 张量分析浅尝 520
E.1 张量的定义. 523
E.2 张量的代数运算 526
E.3 张量场 528
E.4 曲线坐标 531
附录 F 参考文献 536
附录 G 符号表 544
附录 H 名词索引 546
H.1 术语索引 546
H.2 人名索引 557
|
內容試閱:
|
统计实践可追溯到几千年以前的人口普查。公元前 2000 年,我国的夏朝就出现了为统计人口而设立的国家部门“筹司”。时至今日,数理统计学(mathematical statistics),亦称“统计学”,成为在概率论基础上发展起来的一门应用数学的学问。在自然科学、工程学、社会学、人文学、军事学等诸多应用领域,凡是涉及数据的收集、处理、分析、可视化和解释等方面的问题,都是统计学大显身手的舞台。由此可见统计学的重要性,它已成为理工学科高等教育中的必修课程,甚至进入中小学数学教育(图0.1),也是很多研究领域的理论基础和应用工具。
图0.1 科学、技术、工程、数学 (STEM) 教育
注:统计学是 STEM 教育中重要的内容之一。统计学的一些基本概念(如均值、方差、回归等), 甚至已经下放到中小学数学教育。
随着计算机科学的发展,统计的实用价值也越来越得以凸显[1]。例如,在信息科学领域,出现了一些与数据处理和分析有关的新学科,包括模式识别(pattern recognition)[2]、机器学习 (machine learning)[3-5]、数据挖掘 (data mining)[6]、大数据分析(big data analysis)、模式论(pattern theory)[7-9]、信号处理(signal processing) 等,它们都与统计学有着千丝万缕的联系,大致可归为数据科学(data science) 这一大类。
既然统计学有这么广泛的应用背景,学会统计建模进而设计合理的算法加以实现就变得尤为重要。利用计算机辅助功能不仅使得抽象的数学概念变得容易理解,更有助于从“纸上谈兵”的抽象模型切实做出结果,使理论在充分显示其强大威力的同时展现出它极富趣味的一面。本着学以致用的想法,应强调计算机科学与统计实践的紧密结合[1]。
本书延续了《人工智能的数学基础——随机之美》[10]一书的写作风格,以20世纪最伟大的两位统计学家罗纳德·艾尔默·费舍尔(Ronald Aylmer Fisher, 1890---1962)和耶泽·内曼(Jerzy Neyman, 1894---1981)为故事的主角,介绍了统计学的一些主要成果。这两位统计学大师同属频率派,均为贝叶斯主义的反对者,然而二人之间也有过很多饶有趣味的学术之争,至今对我们仍有启发。
统计学(图0.2)既是应用数学的一个分支,又是一门推断的艺术,其中不乏有哲学思辨和信念差异。譬如,贝叶斯数据分析 (Bayesian data analysis)[11] 有着与本书内容截然不同的理论架构*,来自不同学派的观点相互碰撞,使得统计学在20世纪飞速发展。
图0.2 统计学是流行病学、医学必不可少的分析工具
注:英国护士、统计学家弗洛伦斯·南丁格尔(Florence Nightingale, 1820---1910)收集并分析了克里米亚战争医院的死亡率数据, 并用极区图(饼图的一个变种,见图3.6)清晰直观地展示它们。
21世纪是人工智能(artificial intelligence, AI) 和大数据的时代。今天,借助计算机在数值计算、随机模拟、海量搜索等方面的优势,人们可以从各个角度探索数据的本质(图0.3)。然而,我们仍需时刻提醒自己,在算力之上,精巧的算法永远重要。
图0.3 人工智能、机器学习和大数据分析
统计学和计算机科学应该如何结合才能互惠互利?如何站在人工智能(尤其是生成式AI)的角度看待数据和数据分析?如何基于经验或先验知识(prior knowledge) 更智能地构建统计模型?如何从数据自动地生成结构化的知识?……还有很多统计应用的问题值得我们深思。作者希望通过此书唤起普通读者对统计学的兴趣,用它去推动人工智能、大数据分析的发展(图0.4)。这本书也是统计机器学习[3]、统计模式识别[22-23]、大数据分析等数据科学的入门,帮助读者从经典统计学顺利过渡到这些新兴领域。
图0.4 统计学是透过观察数据“猜测”自然和社会本质规律的工具
本书里的知识都是最基本的,可以用作统计建模的工具。“博观而约取,厚积而薄发。”然而,如何取和发?在多数情况下还需要有“应用”的经验和灵感,有那么多工具可供选择,用得好可不是一件容易的事情。所以,有两个坎要过,一个是继承前人的知识;另一个是学会如何使用这些知识。我们不能闭门造车,学习统计的过程要特别注意过这两个坎,缺一不可。统计学处处体现着求实、创新、怀疑、包容的科学精神,这是在知识之外理性的人类一直不懈追求的(图0.5)。
图0.5 借助统计学,人们发现隐藏在数据背后的事实
注:全球变暖并非危言耸听,为了可持续发展,人类必须保护好环境。我国已明确提出了在 2030 年实现“碳达峰”, 2060 年实现“碳中和”的目标。
由于数理统计学已得到充分的发展,理论分支庞大,成果星罗棋布。要写一本面面俱到、涵盖所有重要成果的入门书几乎是不可能的事情,我们只能有选择地把重点放在一些基本概念和经典成果上。因为本书的目标是为统计机器学习、模式识别、数据挖掘、大数据分析、人工智能等学科提供统计学基础,我们既要保证一定的严谨性,又要在知识的组织架构上更侧重应用一些。有时,为了严谨需要交代很多概念和结果,而应用中又极少用到它们,作者一般会牺牲掉一点严谨,以避免读者陷于细节不能自拔。虽然作者尽力去把握严谨性和实用性的平衡,依旧有众口难调的情形需请读者谅解。
本书中的人名、术语在第一次出现时一般都给出了对应的英文,多采用国内既定的或流行的译法。对一些新术语,作者参考《英汉数学词汇》[24] 和《现代数学手册》[25]给出适当的命名。读者可通过附录中人名、术语的索引表在正文中找到它们。另外,书中常用的数学符号,在附录的符号表中也能找到相应的解释。
书中试验涉及的真实数据都标明了出处,模拟数据则给出相应的产生算法。本书利用 XeTeX 开源系统进行排版,所有科学计算和绘图都是通过开源的 GCC(GNU compiler collection,GNU 编译器套装)、R、Maxima/GnuPlot、TikZ 等完成的。人物肖像、漫画、图标、邮票(非原始尺寸)等取自互联网(如维基百科等),恕不一一标明其出处。
对那些注意事项、关键概念、引申思考、美妙的经典结果、初次阅读可选择跳过的例子、证明等,书中都给出了特殊的标记,其含义见表0.1。
表0.1 书中用到的一些特殊标记及其含义
标记 含义 标记 含义
特别注意的事项 想得再远一点
关键概念的定义 选读的例子、证明等
令人怦然心动的结果 证明完毕
\\S3.2.1 第3章第2节的第1小节 条目、款项、步骤等
图0.6 北京大学百年校庆
本书的大多数章节曾作为北京大学(图0.6)信息科学技术学院的本科生主干基础课“概率统计 A”的教学内容多次使用,一些在“统计计算讨论班”里报告过,其余部分在研究生课程“统计机器学习”中讲授过。感谢听过这些课程的学生们,他们容忍了讲义不断更新带来的不便。虽几经易稿,由于作者能力所限,书中仍难免有错讹或不妥之处,诚恳地欢迎读者指出,以便在后续的版本中予以修正。希望本书能对读者有所裨益,并带来阅读的快乐。
最后,感谢亲人和朋友们多年的关爱和鼓励,是他们永远给我前进的动力。谨以此书献给我的父母,“谁言寸草心,报得三春晖。”感激他们的养育之恩,以及平凡却深沉的爱。
我爱你们,所有的人。
于江生
于美国加州圣何塞
2024年6月
* 《人工智能的数学基础------随机之美》[10]对法国数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace, 1749---1827) 在贝叶斯推断方面的工作有着详细的介绍,更多有关贝叶斯分析的内容见文献 [12-21]。
|
|