新書推薦:
《
跨界:蒂利希思想研究
》
售價:HK$
109.8
《
千万别喝南瓜汤(遵守规则绘本)
》
售價:HK$
44.7
《
大模型启示录
》
售價:HK$
112.0
《
东法西渐:19世纪前西方对中国法的记述与评价
》
售價:HK$
201.6
《
养育男孩:官方升级版
》
售價:HK$
50.4
《
小原流花道技法教程
》
售價:HK$
109.8
《
少女映像室 唯美人像摄影从入门到实战
》
售價:HK$
110.9
《
詹姆斯·伍德系列:不负责任的自我:论笑与小说(“美国图书评论奖”入围作品 当代重要文学批评家詹姆斯·伍德对“文学中的笑与喜剧”的精湛研究)
》
售價:HK$
87.4
編輯推薦:
不可不读的文本学习经典著作!清华大学计算机系副主任、长聘教授唐杰,百度研究院副院长、美国罗格斯-新泽西州立大学教授熊辉,微众银行首席人工智能官、香港科技大学讲席教授杨强,美国伊利诺伊大学芝加哥分校杰出教授、Wexler信息技术主席俞士纶,联袂推荐!
作者为IBM T. J. Watson研究中心杰出研究员、MIT博士,SIAM、ACM和IEEE Fellow;本书详解了文本学习的基本流程、相关算法、实际应用和评估方式等方面知识。
內容簡介:
《文本机器学习》系统性地介绍了多个经典的和前沿的机器学习技术及其在文本域中的应用。首先,详细介绍了面向文本数据的预处理技术和经典的机器学习技术(如矩阵分解与主题建模、聚类与分类回归等),并深入探讨了模型的原理和内在联系以及相应的性能评估;其次,详细介绍了结合异构数据的文本学习技术(如知识共享与迁移学习等),以及面向信息检索与排序的索引和评分等技术;末尾,详细介绍了一些文本应用相关的重要技术,包括序列建模与深度学习、文本摘要与信息提取、意见挖掘与情感分析、文本分割与事件检测等。本书从技术原理到实际应用,综合梳理了文本机器学习的多个技术,深入分析了模型的优缺点和内在联系,并在每章结束时提供了详细的参考资料、软件资源和习题。
《文本机器学习》不仅可以作为工具书供具有相关背景的专业人士使用,也可以作为教材帮助具有线性代数和概率论基础的初学者入门。
關於作者:
Charu C. Aggarwal是一名供职于纽约约克镇高地的IBM T. J. Watson研究中心的杰出研究员,他于1993年在坎普尔的印度理工学院获得计算机科学学士学位,并于1996年获得麻省理工学院的博士学位。他在国际会议和期刊上发表了350多篇论文,并获得了80多项专利。同时,他还以作者或参编者的身份出版了17本著作,包括数据挖掘、推荐系统和异常值分析方面的教材。他曾三次因专利的商业价值被IBM授予发明大师的荣誉。他曾获得多项内部和外部奖项,包括EDBT的时间考验奖(2014年)和IEEE ICDM研究贡献奖(2015年)。他还担任数据挖掘领域许多主要会议的程序主席或总主席,同时他还是ACM Transactions on Knowledge Discovery from Data的主编。由于在知识发现和数据挖掘算法方面的贡献,他被授予SIAM、ACM和IEEE的会士(Fellow)荣誉。
目錄 :
译者序
原书前言
致谢
第1章 文本机器学习导论1
1.1导论1
1.1.1本章内容组织结构2
1.2文本学习有何特别之处3
1.3文本分析模型4
1.3.1文本预处理和相似度计算4
1.3.2降维与矩阵分解6
1.3.3文本聚类6
1.3.4文本分类与回归建模8
1.3.5结合文本与异构数据的联合分析10
1.3.6信息检索与网页搜索11
1.3.7序列语言建模与嵌入11
1.3.8文本摘要11
1.3.9信息提取11
1.3.10意见挖掘与情感分析12
1.3.11文本分割与事件检测12
1.4本章小结12
1.5参考资料13
1.5.1软件资源13
1.6习题13
第2章 文本预处理与相似度计算15
2.1导论15
2.1.1本章内容组织结构16
2.2原始文本提取与词条化16
2.2.1文本提取中与网页相关的问题18
2.3从词条中提取词项19
2.3.1停用词移除19
2.3.2连字符19
2.3.3大小写转换20
2.3.4基于用法的合并20
2.3.5词干提取21
2.4向量空间表示与归一化21
2.5文本中的相似度计算23
2.5.1idf归一化和词干提取是否总是有用25
2.6本章小结26
2.7参考资料26
2.7.1软件资源26
2.8习题27
第3章 矩阵分解与主题建模28
3.1导论28
3.1.1本章内容组织结构30
3.1.2将二分解归一化为标准的三分解30
3.2奇异值分解(SVD31
3.2.1SVD的例子33
3.2.2实现SVD的幂迭代法35
3.2.3SVDLSA的应用35
3.2.4SVDLSA的优缺点36
3.3非负矩阵分解36
3.3.1非负矩阵分解的可解释性38
3.3.2非负矩阵分解的例子39
3.3.3融入新文档40
3.3.4非负矩阵分解的优缺点41
3.4概率潜在语义分析(PLSA)41
3.4.1与非负矩阵分解的联系44
3.4.2与SVD的比较44
3.4.3PLSA的例子45
3.4.4PLSA的优缺点45
3.5隐含狄利克雷分布(LDA)概览46
3.5.1简化的LDA模型46
3.5.2平滑的LDA模型49
3.6非线性变换和特征工程50
3.6.1选择一个相似度函数52
3.6.2Nystrom估计58
3.6.3相似度矩阵的部分可用性60
3.7本章小结61
3.8参考资料62
3.8.1软件资源62
3.9习题63
第4章 文本聚类65
4.1导论65
4.1.1本章内容组织结构66
4.2特征选择与特征工程66
4.2.1特征选择67
4.2.2特征工程68
4.3主题建模和矩阵分解70
4.3.1混合隶属度模型与重叠簇70
4.3.2非重叠簇与双聚类:矩阵分解的角度70
4.4面向聚类的生成混合模型74
4.4.1伯努利模型75
4.4.2多项式模型76
4.4.3与混合隶属度主题模型的比较77
4.4.4与朴素贝叶斯分类模型的联系77
4.5k均值算法78
4.5.1收敛与初始化80
4.5.2计算复杂度80
4.5.3与概率模型的联系81
4.6层次聚类算法81
4.6.1高效实现与计算复杂度83
4.6.2与k均值的自然联姻84
4.7聚类集成85
4.7.1选择集成分量86
4.7.2混合来自不同分量的结果86
4.8将文本当作序列来进行聚类87
4.8.1面向聚类的核方法87
4.8.2数据相关的核方法:谱聚类90
4.9聚类到有监督学习的转换91
4.9.1实际问题92
4.10聚类评估93
4.10.1内部有效性度量的缺陷93
4.10.2外部有效性度量93
4.11本章小结97
4.12参考资料97
4.12.1软件资源98
4.13习题98
第5章 文本分类:基本模型100
5.1导论100
5.1.1标记的类型与回归建模101
5.1.2训练与测试102
5.1.3归纳、直推和演绎学习器102
5.1.4基本模型103
5.1.5分类器中与文本相关的挑战103
5.2特征选择与特征工程104
5.2.1基尼系数104
5.2.2条件熵105
5.2.3逐点互信息105
5.2.4紧密相关的度量方式106
5.2.52-统计量106
5.2.6嵌入式特征选择模型108
5.2.7特征工程技巧108
5.3朴素贝叶斯模型109
5.3.1伯努利模型109
5.3.2多项式模型111
5.3.3实际观察113
5.3.4利用朴素贝叶斯对输出进行排序113
5.3.5朴素贝叶斯的例子113
5.3.6半监督朴素贝叶斯116
5.4最近邻分类器118
5.4.11-最近邻分类器的属性119
5.4.2Rocchio与最近质心分类121
5.4.3加权最近邻122
5.4.4自适应最近邻:一系列有效的方法124
5.5决策树与随机森林126
5.5.1构造决策树的基本步骤126
5.5.2分裂一个节点127
5.5.3多变量分裂128
5.5.4决策树在文本分类中的问题129
5.5.5随机森林129
5.5.6把随机森林看作自适应最近邻方法130
5.6基于规则的分类器131
5.6.1顺序覆盖算法131
5.6.2从决策树中生成规则133
5.6.3关联分类器134
5.6.4预测135
5.7本章小结135
5.8参考资料135
5.8.1软件资源137
5.9习题137
第6章 面向文本的线性分类与回归140
6.1导论140
6.1.1线性模型的几何解释141
6.1.2我们需要偏置变量吗142
6.1.3使用正则化的线性模型的一般定义143
6.1.4将二值预测推广到多类144
6.1.5面向文本的线性模型的特点145
6.2最小二乘回归与分类145
6.2.1使用L2正则化的最小二乘回归145
6.2.2LASSO:使用L1正则化的最小二乘回归148
6.2.3Fisher线性判别与最小二乘分类器150
6.3支持向量机SVM156
6.3.1正则优化解释156
6.3.2最大间隔解释157
6.3.3Pegasos:在原始空间中求解SVM 159
6.3.4对偶SVM优化形式160
6.3.5对偶SVM的学习算法162
6.3.6对偶SVM的自适应最近邻解释163
6.4对数几率回归165
6.4.1正则优化解释165
6.4.2对数几率回归的训练算法166
6.4.3对数几率回归的概率解释167
6.4.4多元对数几率回归与其他推广
內容試閱 :
如果真的有不止一种理解文本的方式,那么所有解释就不可能是相同的。
Paul Ricoeur
文本分析是一个值得研究的领域,它往往从信息检索、机器学习和自然语言处理等领域汲取灵感。这些领域中的每一个本身都是活跃和充满生机的,并且各个领域内都有不少相关的书籍出版。因此,其中的很多书籍已经涵盖了文本分析的一些方面,但没有一本书囊括了文本学习的所有内容。
从这一点出发,我们的确需要一本关于文本机器学习的专著。为了能够为这个领域提供一本融会贯通的综合性书籍,《文本机器学习》首次从整体性着眼,综合梳理了机器学习、信息检索和自然语言处理中的所有复杂问题。因此,《文本机器学习》的所有章节可分为以下三部分:
1)基本算法与模型:文本分析中的许多基本应用在文本之外的领域同样适用,如矩阵分解、聚类和分类。然而,这些方法需要根据文本的具体特点而进行相应的调整。第1~8章将会在文本机器学习的背景下讨论核心的分析方法。
2)信息检索与排序:信息检索与排序的很多方面都与文本分析密切相关。比如排序支持向量机和基于链接的排序常被用于文本学习中。第9章将会从文本挖掘的角度对信息检索方法进行概述。
3)以序列和自然语言为中心的文本挖掘:尽管在文本分析的基础应用中可以使用多维表示,但通过将文本视为序列来处理往往可以使文本的丰富性得到更充分的利用。第10~14章将对更高级的话题展开讨论,包括序列嵌入、深度学习、信息提取、文本摘要、意见挖掘、文本分割和事件提取。
因为《文本机器学习》涉及的话题比较丰富,所以在覆盖范围上有所斟酌。比较难处理的一点是很多机器学习技术都依赖于基本的自然语言处理和信息检索方法的使用。尤其是对以序列为中心的方法来说,与自然语言处理更是密不可分,我们将会在第10~14章展开讨论。信息提取、事件提取、意见挖掘和文本摘要这些依赖自然语言处理的分析方法,经常使用如句法分析和词性标注等自然语言处理工具。更不必说,自然语言处理本身就是一个完善和成熟的领域。因此,在不偏离本书主要范围的情况下,在自然语言处理和文本挖掘方面应该涉及多少内容是一个问题。我们在内容取舍上的一般原则是专注于挖掘和机器学习方面。如果一个具体的自然语言处理或信息检索方法(如词性标注)和文本分析不是直接相关的,我们就只对技术的使用进行说明(当作黑箱)而不对算法的内部细节展开讨论。如词性标注这样的基本技术在算法开发上很成熟了,也已经商业化到很多开源工具都可以使用的程度,并且在相对性能上没有太大的差别。因此,我们只在书中提供这些概念的基本定义,重点是它们在以挖掘为中心的设置中作为现成工具的效用。《文本机器学习》在每一章都会提供可参考的相关书籍和开源软件,以便为学生和从业者提供进一步的帮助。
《文本机器学习》面向研究生、研究者和从业人士。全书在叙述说明上已经简化很多,所以研究生只需对线性代数和概率论有一定的理解就能够轻松地读懂本书。同时本书也提供了大量习题以辅助课堂教学。
在整本书中,向量和多维数据点由带上划线的字母表示,如X或y。只要带有上划线,大写字母和小写字母均可表示一个向量或多维数据点。向量的点积由中心点表示,如XY。矩阵由不带上划线的大写字母表示,如R。在全书中,大小为nd的文档-词项矩阵用D表示,即表示有n个文档和d个维度。所以D中的单个文档由一个d维的行向量表示,即词袋表示。另一方面,所有数据点的某个同一分量组成的向量是一个n维的列向量,例如n个数据点的类别变量即为一个n维的列向量y。
美国纽约州约克镇高地
Charu C.Aggarwal