新書推薦:
《
秩序四千年:人类如何运用法律缔造文明
》
售價:HK$
158.7
《
民法典1000问
》
售價:HK$
102.4
《
国术健身 易筋经
》
售價:HK$
34.3
《
古罗马800年
》
售價:HK$
193.2
《
写出心灵深处的故事:踏上疗愈之旅(修订版)(创意写作书系)
》
售價:HK$
67.9
《
控制权视角下的家族企业管理与传承
》
售價:HK$
89.7
《
冯友兰和青年谈心系列
》
售價:HK$
171.8
《
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
》
售價:HK$
79.4
|
內容簡介: |
几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,并被热情的读者广为传播,得到高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔科夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣,才真正明白“数学是科学的皇后”这句名言。
今年,作者吴军博士几乎把所有的文章都重写了一遍,为的是能把高深的原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。经过改写和重构后,《数学之美》在整体和细节的度上控制得更好。希望读者通过具体的例子学到的是思考问题的方式,学会如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。同时书中也留了很多问题给愿意钻研的人做进一步深入思考。
|
關於作者: |
吴军博士毕业于清华大学和美国约翰·霍普金斯大学(博士),是著名自然语言处理和搜索专家,硅谷风险投资人。
吴军博士于2002年加入谷歌公司。在谷歌,他和Amit
Singhal(谷歌院士,世界著名搜索专家)、Matt
Cutts(谷歌反作弊官方发言人)等三位同事一起开创了网络搜索反作弊的研究领域,并因此获得谷歌工程奖。2003年,他和谷歌全球架构的总工程师朱会灿博士等共同成立了中日韩文搜索部门。吴军博士是当前谷歌中日韩文搜索算法的主要设计者。在谷歌期间,他还领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了当时公司首席执行官埃里克·施密特和创始人谢尔盖·布林的高度评价。2010年加盟腾讯公司,出任负责搜索和搜索广告的副总裁。2012年回到谷歌,领导创新项目。目前任谷歌公司的Principal
Engineer(首席工程师)。
吴军博士在国内外发表过数十篇论文,曾获得1995年全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。他还获得和申请了十余项美国和国际专利。他撰写的《浪潮之巅》(第一版)和《数学之美》深受业界的好评。
吴军博士在美国两家风险投资基金(中国世纪基金和ZPark风险基金)分别担任董事和顾问,他还担任约翰·霍普金斯大学工学院董事会董事,以及该校国际事务委员会的顾问。他曾经是国家重大专项“新一代搜索引擎和浏览器”项目的总负责人。从2012年起任职工业与信息化部的专家和顾问。
|
目錄:
|
i 出版说明
v 序言1
ix 序言2
xi 前言
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它
们的发展一度分道扬镳,但是最终还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
4 小结
第2章 自然语言处理 — 从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期
的研究集中采用基于规则的方法,虽然解决了一些简单
的问题,但是无法从根本上将自然语言理解实用化。直
到?? 多年后,人们开始尝试用基于统计的方法进行自
然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
3 小结
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用
于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、
汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
3 小结
第4章 谈谈中文分词
中文分词是中文信息处理的基础,它同样走过了一段弯
路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:工程上的细节问题
3 小结
第5章 隐含马尔可夫模型
隐含马尔可夫模型最初应用于通信领域,继而推广到语
音和语言处理中,成为连接自然语言处理和通信的桥梁。
同时,隐含马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐含马尔可夫模型
3 延伸阅读:隐含马尔可夫模型的训练
4 小结
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度
量,也是整个信息论的基础。它对于通信、数据压缩、
自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 延伸阅读:信息论在信息处理中的应用
4 小结
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地
将数学原理应用于自然语言处理领域中,他的一生富于
传奇色彩。
1 早年生活
2 从水门事件到莫妮卡?莱温斯基
3 一位老人的奇迹
第8章 简单之美 — 布尔代数和搜索引擎的索引
布尔代数虽然非常简单,却是计算机科学的基础,它不
仅把逻辑和数学合二为一,而且给了我们一个全新的视
角看待世界,开创了数字化时代。
1 布尔代数
2 索引
3 小结
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将
所有的网页下载到服务器上,这个程序称为网络爬虫,
它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
4 小结
第10章 PageRank — Google的民主表决式网名
网页排名技术是早期的杀手锏,它
的出现使得网页搜索的质量上了一个大的台阶。它背后
的原理是图论和线性代数的矩阵运算。
1 PageRank 算法的原理
2 延伸阅读:PageRank 的计算方法
3 小结
第11章 如何确定网页和查询的相关性
确定网页和查询的相关性是网页搜索的根本问题,其中确
定查询中每个关键词的重要性有多高是关键。是目
前通用的关键词重要性的度量,其背后的原理是信息论。
1 搜索关键词权重的科学度量TF-IDF
页排名技术
2 延伸阅读:TF-IDF 的信息论依据
3 小结
第12章 地图和本地搜索的最基本技术 — 有限划
地图和本地服务中要用到有限状态机和动态规划技术。
这两项技术是机器智能和机器学习的工具,它们的应用
非常广泛,还包括语音识别、拼写和语法纠错、拼音输
入法、工业控制和生物的序列分析等。
1 地址分析和有限状态机
2 全球导航和动态规划
3 延伸阅读:有限状态传感器
4 小结
第13章 Google AK-47 的设计者 — 阿米特·士
在所有轻武器中最有名的是冲锋枪,因为它从不
卡壳,不易损坏,可在任何环境下使用,可靠性好,杀
伤力大并且操作简单。的产品就是按照上述原
则设计的。
第14章 余弦定理和新闻的分类
计算机虽然读不懂新闻,却可以准确地对新闻进行分类。
其数学工具是看似毫不相干的余弦定理。
1 新闻的特征向量
2 向量距离的度量
3 延伸阅读:计算向量余弦的技巧
4 小结
第15章 矩阵运算和文本处理中的两个分类问题
无论是词汇的聚类还是文本的分类,都可以通过线性代
数中矩阵的奇异值分解来进行。这样一来,自然语言处
理的问题就变成了一个数学问题。
1 文本和词汇的矩阵
2 延伸阅读:奇异值分解的方法和应用场景
3 小结
第16章 信息指纹及其应用
世间万物都有一个唯一标识的特征,信息也是如此。每
一条信息都有它特定的指纹,通过这个指纹可以区别不
同的信息。
1 信息指纹
2 信息指纹的用途
3 延伸阅读:信息指纹的重复性和相似哈希
4 小结
第17章 由电视剧《暗算》所想到的 — 谈谈
原理
密码学的根本是信息论和数学。没有信息论指导的密码
是非常容易被破解的。只有在信息论被广泛应用于密码
学后,密码才真正变得安全。
1 密码学的自发时代
2 信息论时代的密码学
3 小结
第18章 闪光的不一定是金子 — 谈谈搜索引擎
题
闪光的不一定是金子,搜索引擎中排名靠前的网页也
未必是有用的网页。消除这些作弊网页的原理和通信
中过滤噪音的原理相同。这说明信息处理和通信的很
多原理是相通的。
第19章 谈谈数学模型的重要性
正确的数学模型在科学和工程中至关重要,而发现正确
模型的途径常常是曲折的。正确的模型在形式上通常是
简单的。
第20章 不要把鸡蛋放到一个篮子里 — 谈谈型
最大熵模型是一个完美的数学模型。它可以将各种信息
整合到一个统一的模型中,在信息处理和机器学习中有
反作弊问题着广泛的应用。它在形式上非常简单、优美,而在实现
时需要有精深的数学基础和高超的技巧。
1 最大熵原理和最大熵模型
2 最大熵模型的训练
3 小结
第21章 拼音输入法的数学原理
汉字的输入过程本身就是人和计算机之间的通信。好的
输入法会自觉或不自觉地遵循通信的数学模型。当然要
做出最有效的输入法,应当自觉使用信息论做指导。
1 输入法与编码
2 输入一个汉字需要敲多少个键 — 谈谈香农
3 拼音转汉字的算法
4 延伸阅读:个性化的语言模型
5 小结
第22章 自然语言处理的教父马库斯和他的
们
将自然语言处理从基于规则的研究方法转到基于统计的
研究方法上,宾夕法尼亚大学的教授米奇?马库斯功不
可没。他创立了今天在学术界广泛使用的语料库,
同时培养了一大批精英人物。
1 教父马库斯
2 从宾夕法尼亚大学走出的精英们
第23章 布隆过滤器
日常生活中,经常要判断一个元素是否在一个集合中。
布隆过滤器是计算机工程中解决这个问题最好的数学工具。
1 布隆过滤器的原理
2 延伸阅读:布隆过滤器的误识别问题
3 小结
第24章 马尔可夫链的扩展 — 贝叶斯网络
贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。
而从认识论的层面看:贝叶斯网络克服了马尔可夫链那
种机械的线性约束,它可以把任何有关联的事件统一到
它的框架下面。它在生物统计、图像处理、决策支持系
统和博弈论中都有广泛的使用。
1 贝叶斯网络
2 贝叶斯网络在词分类中的应用
3 延伸阅读:贝叶斯网络的训练
4 小结
第25章 条件随机场和句法分析
条件随机场是计算联合概率分布的有效模型,而句法
分析似乎是英文课上英语老师教的东西,这两者有什
么联系呢?
1 句法分析计算机算法的演变
2 条件随机场
3 小结
第26章 维特比和他的维特比算法
维特比算法是现代数字通信中使用最频繁的算法,同时
也是很多自然语言处理的解码算法。可以毫不夸张地讲,
维特比是对我们今天生活的影响力最大的科学家之一,
因为如今基于的移动通信标准主要就是他创
办的高通公司制定的。
1 维特比算法
2 CDMA 技术 — 3G 移动通信的基础
3 小结
第27章 再谈文本自动分类问题 — 期望最大化
算法
只要有一些训练数据,再定义一个最大化函数,采用
算法,利用计算机经过若干次迭代,就可以得到所
需要的模型。这实在是太美妙了,这也许是我们的造物
主刻意安排的。所以我把它称作上帝的算法。
1 文本的自收敛分类
2 延伸阅读:期望最大化和收敛的必然性
3 小结
第28章 逻辑回归和搜索广告
逻辑回归模型是一种将影响概率的不同因素结合在一起
的指数模型,它不仅在搜索广告中起着重要的作用,而
且被广泛应用于信息处理和生物统计中。
1 搜索广告的发展
2 逻辑回归模型
3 小结
第29章 各个击破算法和Google 云计算的基础
Google颇为神秘的云计算中最重要的MapReduce工具,
其原理就是计算机算法中常用的“各个击破”算法,它
的原理原来这么简单 — 将复杂的大问题分解成很多小
问题分别求解,然后再把小问题的解合并成原始问题的
解。由此可见,在生活中大量用到的、真正有用的方法
常常都是简单朴实的。
1 分治算法的原理
2 从分治算法到MapReduce
3 小结
附录
后记
索引
|
內容試閱:
|
第2章 自然语言处理一从规则到
统计
在上一章讲到,语言出现的目的是为了人类之间的通信。字母或者中文的笔画、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门.语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。虽然传递信息是动物也能做到的,但是利用语言来传递信息是人类的特质。
1946年、,现代电子计算机出现以后,计算机在很多事情上做得比人还好。既然如此,机器是否能够懂得自然语言呢?事实上当计算机一出现,人类就开始琢磨这件事。这里面涉及到两个认知方面的问题:第一,计算机是否能处理自然语言;第二,如果能,那么它处理自然语言的方法是否和人类一样。这本书将回答这两个问题。为了不吊读者的胃口,我在这里先给出简洁版的答案:对这两个问题的回答都是肯定的,Yes!
……
P15
|
|