新書推薦:
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:HK$
67.9
《
周易
》
售價:HK$
45.8
《
东南亚的传统与发展
》
售價:HK$
69.0
《
乾隆制造
》
售價:HK$
87.4
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:HK$
296.7
《
明代社会变迁时期生活质量研究
》
售價:HK$
308.2
《
律令国家与隋唐文明
》
售價:HK$
74.8
《
紫云村(史杰鹏笔下大唐小吏的生死逃亡,新历史主义小说见微之作,附赠5张与小说内容高度契合的宣纸彩插)
》
售價:HK$
101.2
|
編輯推薦: |
1. 获奖系列书籍重磅续篇:对于当代商业进化,作者提出“蝶变”概念,并已出版《蝶变:解密社会化时代的产业变革与重构逻辑》《蝶变:数字商业进化之道》(全国书店之选“十佳财经作品”)《蝶变:商业进化的智能引擎》《蝶变4:迈向数实共生的元宇宙》,本书为该系列第五部。
2. 前瞻视野,系统梳理,读懂蝶变系列,读懂数字化商业大未来:用5年5本书为读者梳理了数字化时代商业的大趋势和企业管理的新变革,对于元宇宙、数据、智能AI、算力等全新商业要素做了深度的解析和挖掘,为读者提供了一个前瞻性的视角,去理解数据在商业和社会中的未来角色。并用通俗易懂的语言回答了“如何认知数据,如何管理数据,如何使用数据”这些数字经济发展的核心命题,帮助读者洞察未来数据驱动的商业模式和管理变革趋势。
3. 理论与实践兼备,数字化转型的实战指南:本书将前沿的理论分析与具体的案例相结合,不仅提供了理论框架,还展示了数据商业具体的应用场景,以及企业如何构建和优化数据基础体系,用数字化手段进行管理变革,重塑业务模式,以适应快速变化的市场环境。
4. 数据伦理与合规指导,帮助企业从底层做好准备:本书不仅阐述了数据商业的相关理论
|
內容簡介: |
“数据”已经成为继土地、劳动力、技术和资本之后的第五种生产要素。遍观全球,数字经济在多年来保持强劲增长,更出现了中国这样把数字技术的价值挖掘到特别深入的国家。除了庞大的网民基数之外,中国涌现出了大量的数字企业,甚至有些数字企业的体量和规模在世界范围内都已经做到了数一数二,呈现出强劲的发展势头和强大的国际竞争力。
一方面,数字经济如火如荼,越来越多的数字经济创业者必须在国内市场中同时兼顾技术创新和资本运作,还要面对复杂的国际环境突破技术封锁。另一方面,中国数字企业需要打破天花板,走出自主创新之路,解决数字经济与实体经济融合共生、完善市场环境与监管制度、建设精准有效的数据治理体系等一系列难题。
如何认知数据,如何管理数据,如何使用数据——这些问题成为数字经济发展的核心命题。
本书为这些问题提供了入门级的思考,带领读者一起追溯数据的由来(数之生);搞清楚数据在当今时代的功用(数之用);最后将数据融化到商业管理实践中,并一窥在“数业时代”里数据与商业的融合方式、组织变革以及数据商业的新图景(数之化)。
|
關於作者: |
杨学成,北京邮电大学经济管理学院教授、博士生导师。长期跟踪研究互联网、大数据、人工智能、区块链等领域的创新创业实践,密切关注传统业态的数字化转型。
主持/主研国家级科研项目、省部级课题30余项,企业委托课题若干,发表学术论文50余篇,出版专著教材10余部,著有《蝶变:解密社会化时代的产业变革与重构逻辑》《蝶变:数字商业进化之道》《蝶变:商业进化的智能引擎》《蝶变4:迈向数实共生的元宇宙》《思耕集》(系列)等书。
|
目錄:
|
序章
第1篇 数之生
第1章 数数
第2章 存数
第3章 算数
第2篇 数之用
第4章 算力
第5章 数能
第6章 数业
第3篇 数之化
第7章 精通
第8章 模进
第9章 变态
第10章 循证
尾章
后记
|
內容試閱:
|
序章
一
数据是人造之物。人类使用数据的历史长达几千年,但每实现一次数据生产效率的提升都离不开艰辛的技术创新。甚至,为了获得单单一个数据就要付出好几代人的不懈努力。
肇始于三百多年前的大航海时代,涌现出了西班牙、荷兰、葡萄牙、英格兰等称霸海洋的强国,但最终大英帝国得以崛起,掌握了长达一百年的海上霸权,其幕后功臣是英国率先做出了性价比很高的航海天文钟。有了这个装置,就能准确测定经度,从而让航行在茫茫大海上的船只时刻都能知道自己的位置坐标。
众所周知,海上定位的精准程度直接关乎船只的生死,三百年前的大航海时代可没有现在我们习以为常的全球定位系统(GPS),更没有北斗系统。彼时的船员们虽然可以利用北斗星与地面的夹角来推算纬度,却一直没有可靠的手段来计算经度。1707年,英国皇家海军的4艘舰艇在返航途中遭遇大雾,由于无法准确定位而触礁沉没,船上2000余人不幸遇难。这件事情让英国政府再次意识到测定经度的重要性和紧迫性。1714年,英国议会正式通过《经度法案》,悬赏2万英镑征集确认经度的简易办法,要求解决方案“能够在6星期航程结束时判定船舶所在经度的仪器,误差不得超过30海里”。为此,甚至英国皇家学会还专门成立了著名的“经度委员会”(Longitude Board),请来包括牛顿在内的许多著名科学家参与研究并担任评委。与此同时,荷兰、西班牙、法国等也对经度问题高额悬赏,期待有能力的人前来“揭榜挂帅”,一场没有硝烟的“经度大战”就此拉开帷幕……
经度测定的难点在于,地球一直在转,任何天然的办法都无法确定零经度的位置,只能依靠人为规定。相当于是,经度并非是个等待我们去发现的客观存在,而是必须利用人类的主观意志来凭空创造出来的数据概念。那到底怎么得到准确的经度呢?其实办法是有的,那就是借助另一个数据——时间——来反推经度。背后的原理是,我们已知地球每24小时会自转一周,也就是360度。换算一下,相当于每小时自转的经度是15度。由此,只要能够知道两个地点的时间差就能知道这两地之间的经度差。举个例子,如果知道一个地方的正午12点正好就是北京的上午10点,那么这个地方就位于北京以东30度的地方。
那么,问题来了,怎么确定时间?当时虽然已经有了相对准确的计时工具,但这些机械装置的钟表还相对比较粗糙,只适合于在陆地上固定的情况下或者平静的海面上才能做到走时准确,几乎所有的钟表都解决不了在海上颠簸状态中实现正常走时的难题,所以都还不能被称作“航海钟”。
戏剧性的是,正当那些大科学家和大天文学家们一筹莫展之时,一位名不见经传的自学成才的钟表匠约翰·哈里森(John Harrison)站了出来——20岁出头的年纪,血气方刚,声称要跟经度死磕到底。1726年,哈里森造出了不随温度变化的栅形补偿摆,之后为了解决海船晃动的问题,取消钟摆用弹簧代替。1736年,哈里森研制出了第YI台航海钟H-1,但很快发现有缺陷,不得不继续改进;1741年,优化改进后哈里森又制作出了H-2,但依然存在致命缺点;于是乎,哈里森又花费了19年时间制作出H-3。这三台航海钟都是庞然大物,因为当时的钟表界的普遍观念是“越大越稳,越稳越准”,后来一次偶然的事件让哈里森意识到,很可能“小的才是准的”。于是,哈里森又果断推倒重来,开始制作H-4。1759年,哈里森终于造出了航海钟H-4,直径只有13厘米,重1.45千克。在通过6周不调时、50摄氏度温差考验后,哈里森的航海钟误差仅有5秒钟。由于种种原因,哈里森并未获得经度委员会的奖金,但国王特批了一笔奖金给他,以表彰他对于航海事业的重大贡献,此时哈里森已届80岁高龄,为了测量精度,他已经整整奋斗了一生。
至此,大海对于英国人来说不再茫茫未知,而是变得轻车熟路了,这使得英国人在海洋竞争中领先群雄。航海钟(H-4)制作完成后的第四年(1763年),英国打赢了“英法七年战争”,由此奠定了海上霸主的地位。此后,随着工业革命的到来,英国开始进入“日不落帝国”时代。
如今,人类已经开发出了更加精准稳定的计时工具——原子钟。1989年2月14日,第YI颗全球定位系统(GPS)卫星进入太空轨道;1995年7月17日,GPS具备了全面运营的能力,总部位于科罗拉多州科罗拉多斯普林斯市的施里弗空军基地,由33颗卫星组成,在地球上空2万公里处绕地球运行,雇佣8000名军事和文职人员分布在全球16个监测站,成为人类有史以来设计建造的最大监测系统。GPS卫星都配备了一个原子钟,计时可以精确到纳秒。目前有64亿台设备在接收来自GPS和其他卫星导航系统的信号。2020年6月23日,中国北斗三号第三十颗卫星由长征三号乙运载火箭发射升空并经历5次变轨后顺利进入距离地球36000公里的圆形轨道,标志着北斗三号星座组网任务画上圆满句号,北斗三号全球卫星导航系统正式建成开通,为全球用户提供服务。在北斗三号组网卫星工程中,共有16台氢钟发射入轨应用,每天误差仅零点几纳秒,约合数百万年甚至1千万年才有1秒误差,确保了北斗导航卫星系统的时间基准经度。
如今,全球定位系统和北斗系统通过向地面精准授时来时刻帮助我们确定精确的地理坐标,可以说,经度已经渗透进我们每个人的日常生活。经度,这个“人造之数”,成功将时间和空间进行了数据化,并使之构建出我们当今最大的生活现实。
二
我们现在生活的时代,处处都有大量的数据围绕,早都已经不是几百年前的样子。甚至可以说,我们正在经历的是“数据大航海时代”,横在我们眼前的不是茫茫无际的海域,而是汹涌澎湃的数据。到底如何认知数据?在党的十九届四中全会上,我国率先将数据正式定义为一种“生产要素”。要知道,一样资源一旦被定义为生产要素,那就相当于这项资源具备塑造一个时代的潜力。之前能够称得上生产要素水平的资源,无非四种:土地、劳动力、技术和资本,前两者是农业时代不可或缺的要素,后两者则支撑了整个工业时代。现在数据生产要素登场,那我们即将迈入的就是“数业时代”了。
明确了数据的生产要素地位以后,我国近几年围绕数据生产要素进行了一系列的基础设施建设和顶层设计,从硬件和软件两个方面夯实了未来数字经济发展的根基,一波全新的造富运动正在拉开大幕。
观察一个趋势或者热点,首先得弄清楚背后的核心脉络以及本质逻辑,然后才能看清未来的发展方向以及可能会遇到的困难与挑战。数据要素这件事情,同样是多重力量叠加与汇流的结果。
第YI,数字技术这条大船已经成功让中国上岸。应该说,遍观全球数字经济发展大势,中美是两个最大的受益国,也是为数字经济潜力发挥做出最大贡献的两个国家。美国“美”在数字技术的创新能力上,可以说美国始终矗立在全球数字技术创新的浪潮之巅,我曾将重要的数字技术归纳为一个单词:BASIC,其中B这个字母代表大数据(Big Data)和区块链(Block Chain),A这个字母代表人工智能(AI),S代表安全(Security),I代表物联网(IoT,Internet of Things),C代表云计算(Cloud),以上所有这些重要的数字技术,第YI发源地都是来自于美国,说美国是全球数字技术创新的制高点并不为过。中国“中”在数字技术的应用上,没有哪个国家能像中国这样把数字技术的价值挖掘到如此深入的程度,就连美国也不行。更为重要的是,除了庞大的网民基数之外,中国已经涌现出了大量的数字企业,而且这些数字企业的体量和规模在世界范围内都已经做到了数一数二,呈现出了强劲的发展势头和强大的国际竞争力。在这样的背景下,中国数字企业再往前走,就没人给你“带线”了,甚至在数字经济的很多领域,我们连并肩者都找不到了。到了这样的地步,是时候走我们自己的路了。
第二,技术、市场、资本这三者之间的紧密链接被斩断。过去,美国创新技术,中国提供市场,最后再回到美国资本市场变现,是中国互联网公司走的非常顺的一条丝滑之路,这条数字经济中的“微笑曲线”曾经十分迷人。但在百年未有之大变局的现在,这条曲线已经被变乱交织的世界局势“五马分尸”,散落一地,过去的经验变成了最大的障碍。由此,国际间的大循环不得不转变为一国内部的内循环。意味着,每个经济体自身需要有能力解决整个价值链上的所有事项,单一环节的优势发挥让位于整个系统的激烈竞争。在这样的大背景下,美国资本市场对“中概股”变得越来越不友好,在“技术断供”方面更是愈演愈烈,“断链脱钩”现象层出不穷,迫使越来越多的数字经济创业者必须在国内市场中同时兼顾技术创新和资本运作。当然,这也为我国进一步夯实自主创新的底座,冲破“卡脖子”技术难题以及完善多层次资本市场提供了契机和环境。
第三,行业扩张红利渐失,稳健经营成为必须。早期的互联网创业者就像哥伦布发现了新大陆,谁最早发现的就算谁的——只要你能够活着跨过大西洋。所以,在这个新发现的网络空间里,很多传统巨头不停圈占地盘,甚至相互争抢资源,不少时候还打的你死我活。然而这些事情,仅仅是网络空间主权尚未明晰情况下的探险家们的低维度商业利益争夺。在这样的世界里,没有成型的规则,尊崇的是用拳头说话。经过20多年发展之后的现在则有所不同了,网络空间也是现实世界的一部分,从来不是法外之地。所以,网络空间也是空间,也需要进行治理。至此,探险家们的任务基本上完成了,成建制的正规军就该正式入驻了。这些正规军代表的可不是探险家们的利益,而是更大范围的甚至是所有人的利益,他们不会允许你修建城堡割据,更不会允许你拥有私人武装力量。
第四,数据不能一味替代实体,而应该赋能实体,最终数实共生。过去的发展脉络是“唯网独尊”——稍微回顾一下2018年之前那个聒噪的互联网你就不难明白,动不动就“互联网加这个加那个”,动不动就“颠覆”,动不动就“跨界打劫”,动不动就“降维打击”......问题是,这种替代效应对整个社会来讲很可能是破坏性的。举例来讲,电子商务起来了,实体店纷纷倒闭;网约车平台繁荣了,传统出租车公司举步维艰;社区团购起来了,菜市场却倒闭了。互联网公司携巨大的资本完全可以在短时间内让一家菜市场倒闭,带来的后果是很多人失业,而原本一个菜市场能够养活好几个家庭。所以,互联网平台怎么老是跟老百姓抢一棵白菜呢?能不能多去仰望科技创新的星辰大海?这是《人民日报》代表人民发出的“人民之问”。解决这一问题的关键是,推动数字经济与实体经济的深度融合,而想要实现“深度融合”,就必须将数字技术从过去主要侧重“替代效应”,转变为更多发挥“赋能效应”,即不再是“有你没我”,而是“你中有我,我中有你”,实体经济不能“因数而灭”,相反,应该“因数而生”。由此,数据这一关键资源的重要性就突显出来了,如何看待数据,如何管理数据,如何使用数据——这些问题就成为了下一步数字经济发展的核心命题。
第五,数字技术本身的演进给出了答案。从互联网到大数据,再到人工智能,然后就是区块链,似乎数字技术不断在给自己制造问题的同时又创造了答案。互联网实现了信息平权但却导致了更高的“决策鸿沟”,此时人工智能乘势而上,致力于填平决策鸿沟,实现“决策平权”,但这又带来很深的“信任鸿沟”,所以就有了区块链,对数字版的生产关系进行赋能和助力,达到“信任平权”的程度。有了区块链这样的“置信技术”,数据就真的可以转变为可信的资产了。
以上五点,仅是我认为比较重要的几股力量,这些力量最终汇流到一起,让数据要素这件事变成了当今时代的“必答题”。
三
本书的内容为这道必答题提供了入门级的思考,目的是带领读者一起追溯清楚数据的由来(数之生),搞清楚数据在当今时代的功用(数之用),最后将数据融化到商业管理实践并一窥数据商业新图景(数之化)。
全书内容的展开建基于如下四个假设之上:
第YI,数据是人造之物,源于现实并赋能现实,所以,数据即是现实。认识到这一点非常重要,我们不能将数据与现实对立起来思考问题,相反,数据原本就是现实,它是现实的一种数据化表达形态,永远不能脱离现实来思考和使用数据。
第二,驱动数据运动可以产生出一种全新的能量,我们称之为“数能”。只有完成从“力”到“能”的转换,才能让数据具备普惠整个社会的潜力。为此,我们需要围绕数能构建一系列的基础设施——让数据得以创生(发数厂),让数据得以传输(国家数网)。此外,我们还需要围绕数据完成一系列的基础制度建设,成建制地将数据之能渗透到社会生活的每一个毛细血管。
第三,“数业社会”有望落成,这是人类继农业社会、工业社会之后的新征程。从这个意义上看,“数字中国”是迎接全人类数业社会到来的一曲前奏。
第四,只有将数据能量渗透进业务和管理流程当中,才能引领业务、组织和产业不断前进,实现全要素生产率的实质提升,最终克服“索洛悖论”,成功打开数据商业新图景。
在上述四个假设前提的基础上,本书的内容安排整体上划分为三个篇章,主体内容合计10个章节。
第YI篇是“数之生”。主要探讨数据是如何创生的(“数数”),如何存储的(“存数”),以及如何计算的(“算数”)。
第二篇是“数之用”。包括“算力”、“数能”、“数业”三个章节的内容,阐述的是算力如何衡量、怎样发挥作用,并引申到数能的探讨,顺便盘点分析近几年我国围绕数据要素的政策和战略举措的走向,最后对数业和数业社会进行了粗线条的鸟瞰。
第三篇是“数之化”。重点考察数据要素融入商业现实之后所带来的理念和模式改变。首先,数据具有“致广大而尽精微”的好处,横向上通、纵向上精,是为“精通”;其次,数据会带动商业模式跨越技术周期循环,这就像古典音乐中的“模进”——将同样结构的音组在不同曲调上重复演绎;第三,数据驱动的模进必然带来组织层面的变革,使得产业周期更替,组织随之“变态”;最后,组织管理在数业时代将不可避免地进入“数验主义”范式,这是“循证”思想在数据时代的升华和蝶变。
四
歌手林子祥在《数字人生》一曲中,有些戏谑地唱道:
“......
填满一生 全是数字
谁会真正知是何用意
烦恼一生 全为数字
圆满的掌握 问谁可以
.......
你的体魄 你的一切
人与数字 有许多怪事
看看计数机里幽禁几多人质
......”
这首创作于1986年的歌曲,除了特别难唱之外,当真是有着很强的预言性。是的,“填满一生 全是数字”;是的,“烦恼一生 全为数字”;是的,“人与数字 有许多怪事”......
那就让我们一起看看——圆满掌握,问谁可以
第1篇 数之生
?
早期的数据,单指数字,它的诞生比文字早了几千年。大约在公元前3000年左右,尼罗河流域的古埃及人就创造出了十进制的象形数字,后来经阿拉伯人传播到全世界,成为一直通行到现在的“阿拉伯数字”。作为一种“人造之物”,数字和语言、符号、图案、文字等交流工具一样,也是一种记录和表达事物特征的手段。因此,数字并不是凭空产生的,而是来源于人类社会的需求。到了现代,数据不再单指数字这个单一形态,泛化成了“对事实、活动等现象的记录”,可以指任何以电子或其他方式对信息的记录。人们可以通过对数据的整理和分析来揭示更深层次的社会运行规律。
在农业社会,土地和劳动力是最重要的生产要素,封建政权的统治者们利用数据牢牢掌控住了这两种战略性资源。中国汉武帝时期就曾推行“编户齐民”,将政府控制的人口按照姓名、年龄、籍贯、身份、相貌、财产等情况一一编入户籍,从而为保证赋役制度的实行铺平了道路,进一步强化了政府对人民的管理和规训,这可看成是早期的个人身份数据化进程。到了明代,朱元璋在玄武湖上建立了一个专门的国家数据档案库——黄册库,不但详细记录了全国人口信息,还对土地的数量和质量情况进行了详细登记,让统治者们对这两项最重要的生产要素做到了“心中有数”。到了近代,清政府为了“预备立宪”而开展了全国性的人口统计,这被认为是中国第YI次现代意义上的人口普查。
进入工业时代,数据除了继续在土地和劳动力这两个领域发挥作用之外,开始与新兴技术和资本的力量进行深度结合,催生了制表机和现代计算机的诞生,并有望最终将人类社会带入“数业时代”。
?
第1章 数数
一
1790年,美国通过了一项国会法案,明确每十年在全国范围内举行一次人口普查,目的是确定众议院议员的名额分配。根据第YI次人口普查的结果,当时美国人口估计为390万,由此确定每3.3万人应分配1名议员。
美国在那个年代的人口数量不大,需要采集的数据量也没有那么丰富,所以手动点算的方式基本上可以应对。但随着人口数量的激增(到1880年已经达到了5000万人),以及需要调查的问题的数量增加,传统的手工点算方式开始变得不堪重负。到1880年美国进行第11次人口普查的时候,传统方式的弊端达到了巅峰。一方面,普查动员的人员众多,工作相当单调,工作任务堆积如山;另一方面,普查所需花费的预算像是个无底洞,为此美国国会不得不在1881年、1882年和1884年三度追加预算。更要命的是,这次人口普查最终编制的报告超过了2.1万页,最后一册报告直到1888年才发布,此时距离启动本次普查已经过去了八年的时间。虽然最终的报告发布了,但报告里面有些交叉制表的工作却从未完成过(例如,婚姻状况等),相当于花费巨大代价换来的是一幢“烂尾楼”。此种情境,自然是没有办法往下持续的。
需求呼唤解决方案。彼时,美国人口普查办公室里有一名刚从哥伦比亚大学毕业的职员,名字叫赫尔曼·何乐礼(Herman Hollerith),他刚入职就参与了1880年的这次人口普查工作,亲眼目睹了超大规模的文书作业过程,更难能可贵的是,何乐礼开始思考如何改变这种低效的方式,萌生了用自动化的机器来统计数据的想法。他在与部门主管比林斯(John Shaw Billings)交流这一想法的时候,后者告诉他有一种雅卡尔织布机,能利用打孔卡片自动编织图案,或许可以用这样的原理来打造一部统计数据的机器。
基于这一想法,何乐礼开始研究制作纸带打孔机,并于1864年获得了第YI份专利。在这份原始的设计中,何乐礼使用纸带来存储数据——每一排纸带有26个方格,通过在不同格子上打孔来记录信息,但这种做法可以记载的信息十分有限,光“年龄”这个数据就需要两列共20个格,每一列10个格,分别代表0-9这十个数字,所以想要记载46岁这个数据,就需要同时在第YI列的第五个格(代表“4”)和第二列的第七个格(代表“6”)打孔。由此可见,对于年龄达到或者超过100岁的人,纸带上根本没法记录其年龄。
纸带解决了存储数据的问题,那如何计数呢?何乐礼的办法是让纸带通过带有电刷的滚轮(有纸的地方能绝缘,有孔的地方可导电),这样电刷扫过打孔的地方就会与纸带下面的金属接触从而产生电流回路,对应的继电器随之启动带动计数器完成计数。一卷纸带跑下来,相应的数字也就自动累加完毕。这个设计虽然第YI次将电用在了数据处理上,可以视为是“电力计数机”,但还不能实现自动化,而且何乐礼这时也没有真的把这机器做出来,只是停留在概念机的层面。
针对这款概念机在存储和计数上的双重局限,何乐礼在接下来的两年时间里进行了重大的改进。一方面,关于纸带存储的问题,何乐礼在受到火车票的启发后,把打孔纸带改成了打孔卡片,这样用一张卡片用来记录一个人的数据,就可以放进更多数据了。另一方面,他采用矩阵式探针来穿过卡片上的孔,并与卡片下方的水银凹槽接触,如此一来就可以采用不同的电路组合来有针对性地提取卡片上的数据并进行分类统计了。1886年,何乐礼做出了第YI代制表原型机,取名“何乐礼电力制表系统”(Hollerith Electric Tabulating System)。最初,这款机器被巴尔的摩公共卫生署采用,用来进行死亡人数统计,取得了不错的效果。随后,像是纽约和纽泽西的公共卫生署也都采购了这一系统。
何乐礼的制表机将打孔卡片与电流控制进行了完美的融合,从而可以依靠电力来进行大量的数据处理,这在当时是非常先进的,也让世人看到了计算机的巨大潜能。当然,何乐礼还创新了制表机的销售模式,采用“以租代购”的方式推广,取得了不俗的业绩。
接下来,何乐礼就要全力以赴向主战场发起进攻了。
二
大规模使用制表机的场景自然非人口普查莫属,何乐礼绝对不会放过这样的机会。1890年的人口普查,成为何乐礼和他的制表机大放异彩的舞台。
当时为了做好这次普查工作,美国人口普查办公室首先明确了不再依靠人工点算的方式这一战略方向,之后广发英雄帖,让社会各界提供解决方案,最终三家公司入围,当然包括何乐礼的电力制表系统。随后三家公司使用同一数据集比拼性能,何乐礼的解决方案毫无悬念胜出,中标本次人口普查的数据统计服务商。虽然这次普查工作面对的人口更多,需要统计的数据指标也更复杂,但电力制表系统不负众望顺利完成了任务,证明了自己的价值。
问题是,人口普查十年才举行一次,何乐礼总不能十年等一回,只待这一个商机。在完成了1890年人口普查任务之后,何乐礼将目光投向了另一个重要的数据应用领域——铁道公司。彼时,随着越来越多的铁道铺设以及客运和货运数量的增长,铁道公司每天需要处理大量的数据,这些数据处理过去主要依靠人工来完成,意味着对何乐礼的电力制表系统来讲是个重要的潜在机会。麻烦在于,铁道公司使用的数据,既包括列车运行数据,也包括货物和乘客数据,所以数据格式相比人口普查要复杂的多。更具挑战的是,这些数据报表通常涉及加减乘除四则运算,而人口普查数据却只需要加减计算,甚至大部分时候只需要计数(加法)就行。
怎样让电力制表机从加减运算升级成可同时进行四则运算的系统呢?对此,何乐礼做了一系列重大的技术革新:第YI,何乐礼将莱布尼兹步进式滚筒机的设计融合进来,并将机械式动力改成触电式设计,一旦触电,继电器就启动运行,进而带动齿轮转动;第二,何乐礼安装了自动输送卡片的装置,这就不需要人工一张一张来输入卡片了;第三,何乐礼借鉴电话公司交换总机的设计理念,相当于保持插接板不变,让电话头插到不同的插接板孔里就能接通相应的电话,何乐礼的制表机就是通过探针头与不同的插接板进行匹配来切换不同的交叉统计功能的。这些改进大大提升了制表机的性能,也大幅拓展了应用范围。
将制表机改进之后,何乐礼终于在1896年成功获得了纽约铁道公司的订单,成为这家全美第二大铁道公司的数据处理服务提供商,这款全新的制表机被命名为“整合制表机”(Integrating Tabulator)。三个月后,何乐礼正式创业,成立了“制表机器公司”(Tabulating Machine Company)。随后,制表机器公司的业务开始快速增长,并再次中标1900年的人口普查服务商。到1908年的时候,制表机器公司已经拥有30多家大型客户,业务覆盖铁道、人寿保险、政府机关、制造业等多个领域。
不幸的是,正当制表机器公司业务如日中天的时候,何乐礼的身体出现了健康问题,不得不暂时退出一线经营。与此同时,另一名之后将要创出一番伟业的年轻人已经在另一家公司里蓄势待发。
数据处理这件事情,很快将要完成史诗级的接力交棒!
三
天下没有不散的筵席。何乐礼与美国人工普查办公室的蜜月期,在完成了1900年那次人口普查工作之后很快就结束了。
1905年,由于无法达成合作,何乐礼终止了与美国人口普查办公室的业务关系,转而将所有精力投入到更具推广价值的商业制表机的研发当中。而美国人口普查办公室则另辟蹊径,聘请了工程师詹姆斯·鲍尔斯(James Bowers)对制表机进行改进,很快成为何乐礼的强劲竞争对手。
何乐礼的转型也很成功,虽然放弃了人口普查这个重要客户,但他在商业制表机上取得了成功,做出了自动化制表机,并开始面向各个企业的办公领域进行销售。在接下来的几年时间里,何乐礼的公司成功转型成为了一家办公设备公司。1911年,伴随着商业的成功,何乐礼的健康状况却在不断恶化,最后何乐礼接受了医生的建议,将公司卖给了华尔街金融大亨、人称“信托之父”的查尔斯·弗林特(Charles Flint),后者将何乐礼的制表公司和自己持有的计算尺公司、国际时间记录公司进行合并,组成了“计算-制表-记录”公司,简称“C-T-R”(Computing-Tabulating-Recording Company)。
正当何乐礼退出商业领域的时候,一名农民的儿子也正经历人生的重大磨难。这个人,就是后来大名鼎鼎的托马斯·沃森(Thomas John Watson)——出生于1874年,是美国纽约州北部一个贫困农民家庭的后代,没怎么上过学,也没有什么像样的技能,却因为混迹社会而掌握了一些推销的本领。1895年,沃森加入当时已经风生水起的美国现金出纳公司(NCR,National Cash Register Company)成为该公司的一名推销员。NCR在创立之初主要生产一种防范财务人员舞弊的机器——使用NCR的机器,能够把每一笔交易记录下来,避免员工做假账。这样的产品,在当时并不是企业必须要用到的产品,需要很强的推销能力才能说服客户购买。
NCR的创始人约翰·H·帕特森(John H. Patterson)恰恰就是名推销高手,他是最早重视销售团队并亲手搭建起全美最有效的销售团队的人,在推销产品的过程中创建了一系列的销售模式。现在,“推销员”这个职业已经很普遍,这要拜帕特森所赐,帕特森因此被人们称作“现代销售之父”。
拥有销售天赋的沃森,一经加入NCR,那可真是如鱼得水,凭借出色的个人能力一路攀升,四年后荣升分公司经理。到1910年的时候,就已经成为NCR公司里仅次于帕特森的二号人物。正当沃森如日中天之时,帕特森对他的猜忌却愈来愈深,在多次尝试挽回未果之后,沃森被开除了,拿到了5万美元分手费(这在当时也算是一大笔钱了),但同时面对的是以40岁的年龄另谋生路的困境。
天才是不会被埋没的。沃森并不缺乏就业机会,仅仅两个月后,他就遇上了前面提到的金融大亨弗林特,成功加入C-T-R公司成为一名经理。经过协商后,沃森只领取少量的基本工资,但要求利润的5%作为佣金。此后,沃森开始将NCR开创的销售模式全方位引入C-T-R,创建了销售大区制、提成制等销售导向的团队和激励机制,引领公司业务蒸蒸日上,C-T-R公司一跃成为了办公设备领域的顶尖企业。
1924年,C-T-R正式更名为“国际商业机器公司”(International Business Machine),也就是大名鼎鼎的IBM,至今依然优秀,堪称卓越。而这一年,沃森正好50岁。从此,沃森正式开始了自己与IBM融为一体的后32年职业生涯,直到1956年去世。
何乐礼亲眼目睹了IBM的诞生,却没能见到IBM后来的辉煌,他在1929年大萧条之前去世,承载着他那个时代该有的荣耀。第YI次世界大战之后,沃森又一次准确预见了计算机时代,带领IBM抢先攻占计算机市场,他后来的接班人也是他的小儿子“小沃森”从他手里接过计算机的旗帜之后继续开创大场面,造就了IBM持续至今的辉煌。
回顾这段“数人头”的历史是为了说明,数据早就以它独有的方式型塑着我们这个世界了,尤其是对人类社会运行至关重要的人口普查。只不过,数据在过去的应用并不像现在这样对每个人都如此显而易见而已。当然,商业是社会的有机组成部分,数据进入商业是再自然不过的事情。试想,如果不能解决商业运转当中的有关数据收集和数据处理的事情,我们如今的商业形态又当如何?
在计算机的助力下,数据启动了增长飞轮,打孔卡片这样的方式是无论如何都存储不了如此众多的数据的,更遑论对这些数据进行计算处理了。人们必须找到快速又廉价的数据存储方法。
?
第2章 存数
一
打孔纸带以及后来的打孔卡是制表机的核心组成部分,承担着数据存储的作用,它的工作原理实际上就是二进制——打孔的地方代表“0”,没有打孔的地方代表“1”。当电刷或者带电滚筒跟打孔卡接触的时候,打孔的地方就能通上电,没打孔的地方不通电,而通电就会触发继电器运动,从而完成一次计数。
依靠人工手动给纸带或者纸卡打孔在过去可是个体力活儿,有多少个数需要统计,就需要打多少个孔,而且还需要认真细致不能打错地方,这种单调乏味的工作往往让工作人员不胜其烦。1923年,何乐礼的制表机器公司发明了首款电动打孔机,将打孔工作的速度和精度进行了大幅度提升。之后,该公司又发明了一种80列打孔卡,称得上是当时的“高密度存储设备”,很快,80列打孔卡成为业界标准。合并制表机器公司后的IBM公司(1924年),还推出了专门用来打孔的“卡罗尔压印机”,每台机器每分钟可以切割、印刷460张卡片,这项业务为IBM创造了巨额利润,也引发了美国政府的反垄断调查。1956年,IBM与美国司法部达成和解,同意放弃大部分打孔卡产能。其实,这个时候IBM已经意识到了,数据存储技术很快就要摆脱纸质打孔卡时代了。同年,老沃森将IBM的权柄交给了自己的小儿子小沃森(Thomas J. Watson Jr), 属于年轻人的黄金年代就此开启。
打孔卡之后流行的存储介质是磁带,一卷磁带大约可以代替一万张打孔卡,而且有效传输效率高了很多,达到了每秒7200个字符,已经可以作为像UNIVAC Ⅰ型这样的早期计算机的输入/输出设备了。 磁带在20个世纪80年代之前都是最为普及的计算机存储设备,但磁带的缺点也很明显——由于是金属制作,所以这种磁带很重,而且需要将很长的磁带一圈一圈盘到一起装到大铁盒子里。我们小时候看露天电影的时候,一定会见到放映员操持这种大铁盒子。
1956年9月,刚刚接管IBM不满四个月的小沃森宣布了世界上第YI个硬盘RAMAC 305的诞生,这是第YI台具备随机存取数据功能的驱动器,体积大约有两个冰箱那么大,重量约为1吨,包含50个24英寸的盘片,能存储“高达”4.4MB信息(5百万个字符),数据传输速度是每秒10KB,这台设备对外出租价格是每月3500美元!以现在的经验很难想象,人们在当年为了存储这么微不足道的数据竟然需要花费如此之高的代价。
随着半导体晶体管和集成电路技术的发展,1966年IBM研究中心的研究员罗伯特·丹纳德(Robert Dennard)发明了动态随机存取存储器(DRAM)并申请了专利。1969年问世的第YI款DRAM芯片,容量仅为1KB。次年,英特尔公司进行了生产工艺改进,推出了第YI个正式商用的DRAM芯片,并取代磁芯存储器成为个人电脑的标准存储芯片。直到今天,DRAM仍然是最常用的随机存取器,依然是个人电脑和工作站的主存储器。
后来,市场上还出现了光盘存储(如,CD、DVD、蓝光),以及存储卡、闪存等技术方案,并各自演进出了不同的使用场景。例如,半导体存储主要用于电子产品,光盘存储主要用于电影、软件和游戏,而磁数据存储则主要用于数据服务器的大容量数据存储等。
从打孔卡到数字存储,所有存储技术的工作原理都是相同的,就是将数据存储在任何包含两种不同且可以切换的物理状态的材料中,这样就能实现二进制——用0和1两个数,表达4种状态,占据8个比特,构成一个字节。
如果规定两个物理状态分别为0和1,那么这两个物理状态越小则同等体积的存储设备里可以容纳的比特就越多。如今,比特与比特之间的排列的间隔距离已经缩短到不足10纳米,相当于一根头发丝直径万分之一的宽度,数据存储的密度和效率都有了惊人的提升。
根据意大利研究机构PXR(People Experience Research)的数据统计,全球范围内创建、捕获、复制和消费的数据量从2010年的2ZB增长到了2020年的64.27ZB。预计到2025年,全球数据总量将超过181ZB。根据华为《智能世界2030》报告预测,2030年,人类将迎来YB数据时代,全球每年产生的数据总量将超过1YB,相比2020年,增长23倍。直观一点打个比方,假设每一个比特都是一枚1英镑的硬币(厚度为3毫米),那么堆出1ZB数据量所需要的硬币摞起来将有2550光年那么高,这是可以往返地球最近的恒星系统——半人马座阿尔法星——300次的距离。目前,人类每年产生的数据量是这个数字的64倍!
2003年7月1日,发表在《IBM系统期刊》上的一篇研究论文指出,截止到1996年,数字存储的成本开始低于纸张存储,人类终于找到了存储数据这一战略资源的办法,且,快速又廉价。
二
直观上理解,数据存储就是把数据存到一个又一个盒子里,如此一来,物理世界里的客观状态与数字世界里的二进制就挂上了钩——读取数据就是读取存储介质的微观物理状态,写入数据就是改变存储介质的微观物理状态。由此,毁坏了存储介质也就损坏了相应的数据。
何乐礼的制表机、IBM的磁盘存储、DRAM、光存储以及后来一系列的存储介质创新,其真正要解决的问题都是在物理世界与数字世界之间建立起基于二进制的转换逻辑,实现数实相融。但随着实践的发展,基于单体物理设备来存储和处理数据的做法遇到了巨大的挑战。
其一,每块硬盘,无论怎么做,容量都是有限的。随着计算机处理的数据越来越多、处理速度越来越快,单一硬盘甚至单一存储方式已经很难应对。很多时候,需要给一台计算机配备很多块硬盘,形成硬盘阵列。其二,物理介质的丢失和毁坏会造成数据丢失,往往损失惨重。解决办法是用多块硬盘进行备份,但这又会增加成本。更为重要的是,数据安全不能保障,拆下硬盘就能拿走数据。其三,数据不能在多台计算机之间自由传输,只能通过硬盘或者U盘的拔插来使用数据。总之,只做到让数据栖身于物理介质是不够的,还应该让数据超越物理介质的束缚,焕发出独立的价值。
想要做到这一点,至少需要满足这样几个条件:第YI,需要打破存储设备之间的隔阂,也就是让硬盘和硬盘之间进行自由的数据交换;第二,存储设备是为计算机服务的,通过计算才能处理数据,所以需要将各种计算资源实现协同;第三,能够面向用户需求进行个性化的响应,允许不同的用户在相同或不同的时间里以各自的方式使用计算资源进行数据处理。要做到这三个前提条件,就必须做到让物理上有限的计算机资源实现用户侧的按需调用,也就是说,用户只管按照需求调用计算资源,而无须关心物理层面到底是如何实现的。当然,前提是用户和计算机之间都必须遵从同样的逻辑规则。这种做法在计算机科学中,被称作“虚拟化”(Virtualization),即“逻辑上是这样,物理上是那样”。
早在1959年,牛津大学的计算机教授克里斯托弗(Christopher Strachey)就在一篇名为“大型高速计算机中的时间共享”(Time Sharing in Large Fast Computer)的学术报告中提出了虚拟化的基本概念,一并阐述的还有“多道程序”(Multi-Processing)这一影响至今的理念。1961年,麻省理工学院的弗南多(Fernando Corbato)教授领导了“兼容性分时系统”(Compatible Time Sharing System)项目的研发。这两项围绕分时系统的研发为硬件虚拟化奠定了基础。一年后的1962年,世界上第YI台超级计算机Atlas 1诞生,这也是第YI台实现了虚拟内存(Virtual Memory)概念的计算机。
随后,围绕虚拟化技术,计算机领域掀起了一波小高潮——IBM 7044(M44)计算机做到了硬件共享(Partial hardware sharing)、时间共享和内存分页(Memory paging)并实现了虚拟内存管理(VMM),应用程序可以运行在这些虚拟的内存之中,在同一台主机上模拟出了多个系统,这是世界上第YI个支持虚拟机的系统;1964年,IBM推出了著名的System/360,能够让一台主机连接多个带有显示器和键盘的终端,同时允许多个用户通过主机的终端,以交互方式使用计算机,共享主机资源。System/360项目是IBM商业史上的一次豪赌,为此IBM征召了六万多名新员工,新建了五座生产工厂,最终,System/360取得了巨大的商业成功。当时决定研发System/360系统的小沃森,晚年在其回忆录中称这是他一生中所做的“最大、最冒险的决策和最辉煌的胜利”,这场胜利让IBM蝶变成真正的“蓝色巨人”,在整个行业独领风骚二十余年。System/360的技术创新和影响决定了以后数十年计算机的进程,被誉为美国最伟大的三大商业成就之一,与福特的T型车和波音的首款喷气式客机707齐名。
上个世纪60-80年代,虚拟化技术让大型机和小型机获得空前的成功,在相当长的时间里,虚拟化技术只在大型机和小型机上应用。1980年,IBM发布了第YI台基于精简指令集(RISC)架构的小型机,正式宣告与复杂指令集(CISC)阵营分道扬镳。然而天有不测风云,1978年,英特尔发布了新款的16位微处理器8086,自此开创了一个新时代。随后,英特尔与微软组成商业联盟WinTel,对IBM在计算机领域的统治地位发动了猛烈的攻击并最终取而代之,逼迫IBM只能退守大型机,其PC业务最终于2004年卖给了联想公司。
然而,X86架构的虚拟化一直是个难题,它不是一种天然可虚拟化的架构,这让WinTel联盟可以长时间统治桌面,但却很难统治工作站(Work Station)。直到一家伟大的公司携“全虚拟化技术”(Full Virtualization)华丽诞生。
三
中央处理器(CPU)为了保证程序代码执行的安全性和操作系统的稳定性,通常会将指令集划分为不同的特权模式——用户态和内核态,而采用复杂指令集的X86架构,其CPU更复杂,细分为从Ring 0-3四种执行状态。其中,操作系统运行在内核态Ring 0,应用软件工作在Ring 3级别,驱动程序则在Ring 1和Ring 2执行。当应用程序需要访问外围硬件设备的时候,CPU会通过特别的接口去调用内核态的代码,然后交给用户使用。但如果用户态的应用程序直接调用硬件设备的话,操作系统就会捕捉到并触发异常报警,弹出警告窗口。可见,X86架构天然不是一个可虚拟化的架构。
1998年2月,在加利福尼亚州帕洛阿尔托市,五位具有远见卓识的技术专家齐聚一堂,创办了威睿公司(WMware, Inc.),并由戴安·格林(Diane Greene)担任首席执行官。威睿很快提出了解决X86架构虚拟化的方案:在虚拟机生成特殊指令时将其“捕获”,然后转换成可虚拟化的安全指令,同时保证其他所有的指令不受到干扰地执行——这就是全虚拟化方案。这样的方案可以在一套机器上为各种应用提供完全的隔离和移植性,便于应用程序自由选择操作系统,由此减少了硬件服务器的数量,大大降低了运维和管理成本。
虚拟化展示了数据存储和处理的一个重要方向,即,将复杂的IT基础设施与应用程序进行解耦(Decouple),复杂的基础层交给专业人士去处理,给上层应用开发者和用户提供简洁的接口界面。无疑,这样的解决方案不但适用于PC时代,更能平滑地迁移到云计算时代,而实际上威睿公司也是这么做的。直到现在,威睿仍然在为建设“能在任何云、任何终端上构建、运行、管理、连接和保护任何App”的数字基础设施而努力。
总体上来讲,像威睿这样的虚拟化技术公司,其客户主要还是很多大型公司,服务的是企业内部的数据管理。但互联网的普及催生出了很多“云原生”商业形态,比如,1999年成立的赛富时公司(salesforce.com),是第YI家直接通过互联网向用户提供企业应用软件的公司;同年成立的谷歌(Google.com),则直接面向普通用户提供搜索服务。这些云原生的互联网公司,都有一个共性特征,就是用户会实时地直接产生数据,因此需要对大规模的实时数据进行统筹管理,这就需要购买大量的服务器。但创业公司往往没有多少钱,只能买些廉价服务器甚至二手服务器,可靠性差,性能跟大型机相比更是差的很远,运行速度堪比马车与超级跑车的差距。
当年的谷歌,就面临这样的境地。怎么让这一堆廉价服务器表现出更强的战斗力?这是摆在谷歌架构设计师面前的最大难题。经过长期的探索和实践,谷歌研发出了一种让多达百万台廉价服务器协同工作的技术,即云计算技术。
从某种意义上来讲,谷歌可以称作是一家“论文公司”,因为其发展历史上每逢重大技术创新的时候都有学术论文发表,包括谷歌本身也是在其创始人的学术论文提出的算法技术基础上成立的。这次也不例外,谷歌分别在2003年、2004年和2006年发表了三篇里程碑意义的学术论文,从而一举奠定了云计算时代。第YI篇论文题目是《The Google File System》,提出了大型分布式文件系统(GFS)。GFS使用廉价服务器构建分布式文件系统,将容错的任务交给文件系统来完成,利用软件的方法解决系统可靠性问题,从而大幅度降低了数据存储成本。第二篇论文是《MapReduce:Simplified Data Processing on Large Clusters》,提出了一个针对大规模群组中海量数据处理的分布式编程模型,目的是为了解决如何从海量数据中快速计算并获取期望结果的问题。第三篇论文《BigTable:A Distributed Storage System for Structured Data》,创建了一种用来处理海量数据的非关系型数据库(Big Table),这是一种稀疏的、分布式的、持久化存储的、多维度排序的映射表,能够可靠地处理PB级别的数据,并且可以部署到上千台服务器上。
上述三篇论文以及后来的实践,宣告了数据处理“云时代”的到来。2006年8月,时任谷歌首席执行官的埃里克·施密特首次提出了“云计算”(Cloud Computing)的概念。同年,另一家互联网巨头亚马逊也推出了云计算平台——AWS(Amazon Web Services)。至此,数据彻底摆脱了个别硬件的束缚,自由自在飘荡在了云端。
然而,这云不同于那云,每朵云的内部虽然可以共享算力,但云与云之间的沟通却很难。针对这一问题,2021年,加州大学伯克利分校的SkyLab在云计算的基础上进一步提出了“天空计算框架”(Sky Computing),通过在异构云之上搭建兼容层、云间层,并在云厂商间达成互惠数据对等协议,将异构云资源整合包装为一站式服务,为开发者提供一致性屏蔽云体验,使用户不需要具备任何云基础设施专业知识就可以使用云服务。该团队开发的开源框架SkyPilot能够在任何云环境上无缝且经济高效地运行机器学习与数据科学批量作业,现在已经被10多家组织用于多种不同的任务场景,用云成本降低到了三分之一左右。基于相似的理念,雪花公司(Snowflake)曾于2014年推出过云原生数据仓库产品,采用存储与计算分离的创新技术架构,省去相关软硬件的设置需要,将技术复杂性进行抽象,从而打造出简单的用户界面,降低了服务使用门槛。这项业务让雪花公司一跃成为云计算行业的独角兽,截止2022年10月,公司已经拥有7292家客户,在全球数据库市场的份额持续攀升。
“全世界对计算机的需求量总共可能只有5台”——这是IBM董事长老沃森在1943年说的话,那个时候距离第YI台计算机的问世还有三年时间。历史的轮回兜兜转转,在PC机大行其道的时候,这句话遭到了很多人的嘲讽。但在云计算到来的时候,又有人感叹沃森的超强预见性。其实,未来我们甚至连一台计算机都不会需要了,我们真正需要的是数据——无处不在的数据!
?
第3章 算数
一
公元820年前后,波斯大学问家花拉子米将一本书用裹尸布包好,题献给了阿巴斯王朝哈里发马蒙。这本书是教人求解一元二次方程的,阿拉伯书名是《Al-kitab al-gabr waal-muqabala》,英文译为《The Book on Calculation by Completion and Balancing》。书名中的al-gabr,转换为拉丁语拼法就是Algebra,即“代数”,花拉子米这个人也就成了“代数之父”。
花拉子米还有一部伟大的著作叫《印度算术书》(Al-kitab al-hisad al-hindi),这本书介绍了印度十进制计数法,以及基于十进制的加减乘除和求根算法。由于书的正文开头第YI句是“花拉子米说”,于是在被翻译成拉丁文的时候,书名就成了《花拉子米的印度计算法》,后来干脆简称为《花拉子米》。花拉子米(al-Khwarizmi)的拉丁语拼法是Algorizmi,这个词再翻译成英文就成了Algorithm,这就是现代计算机科学的核心概念:算法。当然,那个时候的算法还没有严格的定义,主要还是指简单的代数运算,这要再过差不多一千一百多年后的1936年,图灵真正提出“图灵机”的时候,人类才能对算法有深刻彻底的理解。
花拉子米的算术书在欧洲流传开来之后,人们一直以为这种十进制计数法是起源于阿拉伯的,所以就称之为“阿拉伯数字”,一直沿用至今。其实,那是起源于印度的“印度数字”。
那位接受花拉子米献书的马蒙是阿巴斯王朝的第七任哈里发,他执政时的阿拉伯是世界文明的巅峰。相传马蒙继任后的第六年,有一天做了一个神奇的梦,他梦见了亚里士多德,他问亚里士多德:“何为善?”答曰:“一切符合理智的东西。”再问:“还有呢?”再答:“人民认为善的东西。”再问:“还有呢?”再答:“没了。”
“亚里士多德之梦”激发了马蒙对知识的兴趣,于是他开始资助学术研究,尤其是希腊哲学的翻译运动,并在巴格达建立了一座综合性学术机构——智慧宫(Bayt al-Hikma)。智慧宫里设有图书馆、研究院和翻译馆,是继被焚毁了的亚历山大城图书馆之后世界上最大的学术机构,来自世界各地的古籍图书都被搜罗过来运到了巴格达,收藏在智慧宫。花拉子米是当时智慧宫的主要学术负责人之一,他在这里一直工作到公元850年左右去世。
1258年2月13日,成吉思汗的孙子托雷的儿子旭烈兀攻入辉煌了五百年的巴格达,进行了长达一周的烧杀抢掠。智慧宫也没能幸免于难,上百万卷藏书的大部分被扔到了底格里斯河,据说书上的墨将河水都染成了黑色,达六个月之久。如今,我们已经难寻智慧宫的踪迹了。
虽然花拉子米与算法同名,但算法可不是花拉子米最先提出和创造的。我国在公元前1世纪出现的《周髀算经》中,就已经详细记载了勾股定理、开平方问题、等差级数问题的解法。而公元前300年,“几何之父”欧几里得也已经提出了人类史上的第YI个算法——欧几里得算法。相比来看,花拉子米关于一次和二次方程的一般解法可以视为是第YI个“代数算法”。
二
何谓算法?通俗来讲,就是为了完成一项任务,而对全部步骤进行准确而完整的描述。比如,为了完成“将一把凳子放到另外一个地点”这一任务,需要这样几个步骤:第YI步,站到凳子边上;第二步,搬起凳子;第三步,搬着凳子移动到新地点;第四步,放下凳子。这样四个步骤就是一个活生生的“算法”。
对于计算任务来讲,算法是其真正的灵魂。
有了代数和算法,就有了解决很多问题的方法,并且可以重复进行而不会出错。但计算本身相当消耗脑力和体力,一次人口普查就得需要数千人花上几年的时间。这时,人类想到了用机器来帮助计算。
想要让机器代替人工来计算,就需要用机器来模拟人类用纸笔进行数学运算的过程,这个过程说起来并不复杂,只需要重复进行两个动作:在纸上写上或者擦除某个符号;把注意力从纸的一个位置移动到另一个位置。一台能计算的机器无非就是模拟出人类进行运算的这两个动作而已。1936年,英国天才数学家图灵(A.M.Turing)发表了划时代的论文《论可计算数及其在“判定问题”中的应用(On Computable Numbers,with an Application to the Entscheidungs Problem)》。在这篇论文中,图灵构造了一台抽象的计算机器,来代替人类进行数学运算,这就是大名鼎鼎的“图灵机”(Turing Machine)。
图灵机主要由四个部分组成:一条无限长的纸带TAPE(还记得何乐礼的打孔纸带吗?),纸带被划分成了一个接一个的格子,每个格子上都包含一个来自有限字母表的符号,空格用特殊符号表示;一个读写头HEAD,其作用是可以在纸带上左右移动,读出或者改变当前格子上的符号;一套控制规则TABLE,可以根据机器当前所处的状态以及当前读写头所指的格子上的符号来确定读写头下一步的动作,同时改变状态寄存器的值,令机器进入一个新的状态;一个状态寄存器STATE,用来保存机器当前所处的状态,并且有一种特殊状态为“停机状态”。图灵经过严格的数学证明,认为存在这样一台机器,可以模拟人类所能进行的任何计算过程。
这一伟大的思想,已经为人类开发真正的计算机奠定了坚实的基础,后来冯·诺依曼(John von Neumann)在此基础上提出了现代计算机的体系结构并正式开启了人类的计算机时代。图灵机不但证明了通用计算理论,而且引入了读写器、算法和程序语言这样的概念,还提出了数据存储的解决方案,可以说是用简单优雅却又极具颠覆性的方案为人类指明了未来的计算之路。
然而,图灵机对人类计算过程的模拟是相当理想化的,它在让机器模拟人类的同时也把人当成了像机器一样机械。毕竟,人是不同于机器的,最明显的区别就是人有学习能力,人的大脑也会不断进化,图灵机的固定程序无法反映这一点。此外,人不止有理性的一面,还有七情六欲,情绪和情感也是图灵机无法直接模拟的。好在图灵这个天才并不只是伟大一次,还会伟大好多次。
1950年10月,图灵发表了题为《计算机器与智能(Computing machinery and intelligence)》的论文,文中提出了“机器能思考吗?”这一影响深远的问题。通过对这一问题的回答,图灵预言了创造出真正智能的机器的可能性。那么,到底怎么才算是“智能”?图灵给出了简单的判别方法:如果一台机器能够与人类展开对话(通过电子设备)而不能被人类辨别出其机器的身份,那么就可以称这台机器具有智能。这就是著名的“图灵测试”(Turing Test)。这篇论文让图灵赢得了“人工智能之父”的称号。6年后的1956年夏天,人工智能(Artificial Intelligence)历史上第YI次奠基性的会议在美国新罕布尔州的达特茅斯学院召开,正式宣告了人工智能的诞生。
图灵机和图灵测试,从理论层面为机器计算铺垫了道路,但要真正实现出来,却不光需要研发出计算机,还需要缔造出一套人与计算机进行沟通和对话的语言,这就需要“程序”了。根据著名计算机科学家沃斯(Nikiklaus Wirth)提出的公式,程序等于数据结构加上算法(程序=数据结构 算法),由此,数据是程序的血肉,而算法是程序的灵魂,二者缺一不可。
程序,是缔造数据社会的基石。
二
图灵机开启了计算机时代,图灵测试则预示着人工智能的崛起。若要排个先后顺序的话,毫无疑问计算在前,智能在后。换言之,人类计算的终极目标,就是实现智能。
受到用机器模拟人类智能这一梦想的驱使,计算机科学甚至整个人类社会在1941年计算机诞生之后迎来了波澜壮阔的思想、理念和技术创新。仅在计算机诞生一年后,就有一位名叫阿西莫夫(Isaac Asimov)的科幻作家,在《转圈圈(Runaround)》一书中提出了后来被屡屡称道的“机器人学三定律”, 可见,人们有多么热切地想要拥抱人工智能。又过了十几年的时间,人工智能终于在1956年达特茅斯会议上,被一群严肃的科学家给正式确立起来。据说,这次会议的召开,是受到了阿西莫夫机器人学三定律和图灵测试的影响。
达特茅斯会议推动了人工智能第YI次浪潮的出现(1956-1974年),当时乐观的气氛弥漫着整个学术界,这个时期在算法方面出现了很多世界级的发明,其中包括增强学习的雏形(即,贝尔曼公式),后来演化成了AlphaGo算法的核心内容。现在经常听到的深度学习模型(Deep Learning),其雏形是感知器算法(Perceptron Algorithm) ,也是在那几年间发明出来的。这一阶段在理论上可谓硕果累累,但这些研究成果基本上都是基于逻辑主义推理得来的,实践上进步缓慢,人们在实际生活中几乎找不到人工智能的用处,所以人工智能很快就遭到了人们的质疑。1966年,美国自动语言处理咨询委员会(ALPAC)对人工智能的发展进行了评估,认为人工智能并没有创造可以学习人类智慧的机器的可能性,原因是输入给算法的数据有限,并且机器计算能力有限。1973年,英国学者莱特希尔(Lighthill)发表了研究报告《人工智能:一般性的考察》(又称“光明山报告”),指出人工智能项目浪费了很多钱,迄今该领域没有哪个部分做出的发现产生了像之前承诺的那样的效果。基于此,英国政府大幅缩减了人工智能项目的投入。紧接着,美国和其他国家也大幅下调人工智能研发投入。随后,人工智能研究进入长达十年的停滞期。
人工智能的第二次浪潮出现于20世纪80年代,持续到90年代中期。人们对上次人工智能研究进行反思之后,开始转向“以知识为中心”的人工智能研究,代表性的人物是费根鲍姆(E.A.Feigenbaum),他提出了“知识工程(Knowledge Engineering)”这一概念,并引发了以知识工程和认知科学为重点的研究高潮。基于这一概念,卡耐基·梅隆大学于1980年为DEC公司制造出了专家系统(Expert System),可以在人类决策方面提供有价值的内容。此外,人工神经元网络的相关研究也在这一时期取得了突破性进展,霍普菲尔德(John Hoplield)于1982年构建了一种新的全互联的神经元网络模型,并在1985年顺利解决了“旅行商问题”(TSP,旅行商算法是一种用途十分广泛的顶级算法)。1986年,卢默哈特(David E. Rumelhart)构建了反向传播学习算法(BP),后来成为普遍应用的神经网络学习算法。受此鼓舞,很多国家开始在人工智能领域再次投入巨资,开发所谓的第五代计算机,甚至直接命名为“人工智能计算机”,貌似人工智能的春天这次是真的来了。然而,打击很快又再次袭来:一方面,专家系统虽然能解决一些实用问题,但面对复杂问题的时候却束手无策,就连让机器具备儿童的认知水平都是过分的要求;另一方面,1987年个人计算机迎来了大爆发的时刻,这让投入巨资开发出来却只能运行专家系统的所谓人工智能计算机显得完全生不逢时。至此,人工智能的相关研究再度陷入困境。
20世纪90年代中期至今是人工智能向纵深发展的阶段,这一次拜“摩尔定律”所赐,落后的算力终于追上了先进的算法。1993年,麻省理工学院建立了第YI个人形机器人,标志着第二轮“寒冬”的结束,也算是对1950年来美国政府的资助有了一个交代。1997年,IBM开发的“深蓝(Deep Blue)”问世并一举击败了国际象棋大师卡斯帕罗夫(Garry Kasparov),使人工智能重新回到高光时刻。紧随其后的是,一系列奠基性的算法被开发了出来,例如1995年的支持向量机(Support Vector Machine,SVM)、2001年的决策树,以及2006年“神经网络之父”辛顿(Geoffrey Everest Hinton)提出的深度学习算法(Deep Learning),当然也包括当今火爆全球的“大模型”。如今,没有人会再怀疑人工智能的有用性了,甚至我们数字生活的每一刻,都受到人工智能算法的支配,这些生活瞬间包括你用手机浏览新闻、订购外卖,以及我用手机写这篇小文的过程。
回看人工智能的三次起落,不难发现,人类并不缺乏伟大的头脑,但常常令这些伟大头脑英雄气短的是算力不足。人工智能每一次的“起”都源于算力的突破,而每一次的“落”都因为算力的不足。更为奇妙的是,新的算法总是要求更高的算力,如今chatGPT大模型的训练参数量已经需要以“千亿”来计量了。
三
伴随大模型对超强算力的需求,超级计算机和量子计算技术也迎来了实现重大突破的时刻。
先简单说说超级计算机。
在科技发展领域,超级计算机已经与科技理论、科学实验并称为“支撑现代科技大厦的三大支柱”。包括在学术研究领域,没有超强算力的支撑,几乎没法做出重大的科学发现。最早开发出超级计算机的人是一位“隐士”,之所以这样称呼他,是因为这个人性格内向、不愿抛头露面、极少发表演讲,喜欢避开“人世”来埋头搞研发,这个人就是“超级计算机领域的爱迪生”——西莫·克雷(Seymor Cray)。1960年,刚刚成立三年时间的控制数据公司(CDC)接到了美国原子能委员会的委托,开发超级计算机,而这家公司当时的电脑总设计师就是年仅31岁的克雷。他带领自己的研究小组埋头苦干,花费了三年多的时间终于做出了第YI台超级计算机CDC6600。这台计算机共安装了35万个晶体管,运算速度为3MFlops,是当时其他电脑的10倍,算得上是真正意义上的超级计算机,主要用于美国原子能委员会领导的各个核武器实验室和大学的计算机实验室。到1969年,CDC6600和随后的CDC7600系列共销售出去了150多台,这是非常了不起的商业成就。
然而,商业的成功并不是克雷追求的目标,他真正的梦想是继续提升超级计算机的算力性能。为此,他离开了自己一手带向辉煌的CDC公司,于1972年创办了克雷研究所(Cray Research),任务是制造业界最快的计算机并引领大规模科学计算。由于没有获得华尔街资本的资助,他和助手们在密林中找到一个落脚之处,谢绝一切社交活动,埋头绘制图纸、制作零件,终于在四年后再次创造历史——史上最成功的超级计算机Cray-1诞生了。克雷在Cray-1中,第YI次采用了集成电路来制造,速度达到了每秒钟2.4亿次,是当时市场上其他机型的40多倍,但价格却相差无几。此后推出的Cray-2,性能比Cray-1强大了4-6倍,运行速度达到了每秒12亿次的浮点运算,很多以前需要几年时间的运算任务在Cray-2上只需要1秒钟。到了1984年,克雷研究所占据了全球超级计算市场70%的份额。
但好景不长,个人计算机在上个世纪80年代中后期迅速崛起,对超级计算机形成了巨大的冲击,导致Cray-3在商业市场上的表现非常惨淡。此时,克雷再一次与公司管理层产生意见分歧,并于1989年退出自己创办的克雷研究所,另行成立了克雷计算机公司,全力研制Cray-4,设计目标是实现每秒1000亿次的浮点运算,但没有成功。1995年,克雷计算机公司宣布破产。
面对事业的几次大起大落,克雷愈战愈勇。1996年8月,已经年逾古稀的克雷再次向超级计算发起冲锋,创办了克雷研究公司(SRC),希望能再造奇迹,可惜厄运突然降临,在一场车祸中克雷与世长辞。
如今全球超级计算机市场的格局早已大变。
1976年底,即将卸任的美国总统福特签发了两台Cyber 172型超级计算机的对华出口协议。但美方对这款计算机做了手脚,运算性能远低于实际水平,而且规定只能用于地质勘探。更加难以接受的是,这两台计算机被放置在专门的玻璃机房内,钥匙由美方管理,每次使用前,必须由美国人批准同意才行,且用完后,美方会马上封锁玻璃房,操作日志还要定期上交给美国政府审查。后来,我们从日本进口的超级计算机也比照同样的做法,设立值班人员和监控日志审核制度。这就是让我国科研人员感到羞耻的“玻璃房事件”。这种情况一直持续到上个世纪八十年代初,让中国的科研人员真正意识到了依靠购买国外进口设备来达到自我提升是不切实际的,核心技术必须要自力更生、自主可控。
1978年3月,邓小平在听取了计算机发展汇报后,说:“中国要搞四个现代化,不能没有巨型机(超级计算机)。之后,”明确由国防科工委承担首台亿次超级计算机的研制,这项工程本来被命名为“785超级计算机”,时任国防科工委主任张爱萍上将取名为“银河”。1983年12月26日,中国第YI台亿次超级计算机“银河一号”通过国家技术鉴定,横空出世,标志着中国成为继美国、日本之后,第三个拥有独立设计和制造超级计算机的国家。
2009年,“天河1号”诞生,这是我国第YI台千万亿次级超级计算机;2010年,经过升级之后的“天河1A”位居全球计算机500强第YI位;2013年,“天河2号”再次名列全球超级计算机500强第YI位;2016年6月20日,在法兰克福世界超算大会上,中国的“神威·太湖之光”位居榜单之首,速度比排名第二的“天河2号”快了近2倍,效率提高3倍。接下来,神威·太湖之光多次蝉联世界第YI,接续创造了中国的超算奇迹,成为名副其实的“国之重器”。截止2021年6月,全球超算500强中,中国拥有206台,美国124台,入选的超算数量大大超过了美国。
2006年2月9日,国务院颁布《国家中长期科学和技术发展规划纲要(2006-2020)》,提出将千万亿次高效能计算机研制列入优先主题,并部署建设拥有千万亿次高效能计算机的超级计算中心。截止2020年,科技部批准建设的国家超级计算中心共有八所,分别是国家超级计算天津中心、广州中心、深圳中心、长沙中心、济南中心、无锡中心、郑州中心、昆山中心。2021年,国家超算成都中心纳入国家超算中心序列。2022年4月,国家超级计算太原中心通过科技部审批。2023年4月,国家超算互联网工作启动会在天津召开,会议发起成立了国际超算互联网联合体,旨在打造国家算力底座,促进超算算力的一体化运营,助力科技创新和经济社会高质量发展,应用领域涵盖科学研究、机械制造、新能源新材料分析、影视制作、大数据云计算等,大到飞机设计、气象预测,小到薯片尺寸、冰淇淋口感,可以说无论国家安全、科技发展,还是造福民生,都离不开超算的支持。
再简单说说量子计算。
简言之,量子计算是量子力学与计算机科学相结合的一种通过遵循量子力学规律、调控量子信息单元来进行计算的新型计算方式,它以量子比特作为基本运算单元,利用量子叠加、量子纠缠的特性,并通过量子态的受控演化来实现信息编码和计算存储,具有经典计算技术无法比拟的信息携带量和超强的并行计算处理能力。早在1981年,著名物理学家、诺贝尔奖获得者费曼博士就曾提出“自然界不是经典的,如果你想对自然界进行模拟,你最好让它变得‘量子力学’。”基于此,费曼提出了一个想法:用量子计算机来模拟传统经典计算机难以模拟的量子系统,这一想法在事实上开启了量子计算这一研究领域的大规模研究。
对于现代的经典计算机而言,底层的数据格式是二进制,具体做法是通过控制晶体管电压的高低电电平来决定一个数据到底是“0”还是“1”,其在工作时将所有数据排列成一个比特序列,并进行串行处理操作。量子计算机与此不同,因为量子存在两个独特的效应,量子叠加和量子纠缠,前者能够让一个量子比特同时具备0和1两种状态,而后者能让一个量子比特与空间上独立的其他量子比特共享自身状态,这两种效应能够创造出一种超级叠加,实现量子并行计算,计算能力会随着量子比特位数的增加呈现指数级增长。
举个例子。在经典计算机中,二进制数字“101”加上二进制的“010”,得到的结果是“111”,转换成十进制的意思就是,5=2=7。但在量子比特中,每个量子比特都是0和1的叠加,一次就能表示0到7(十进制)这8个数,当我们输入2(二进制010),并发出运算指令后,所有8个数都开始运算,都加2,并同时得出8个结果(2、3......9)。意味着,经典计算中的3个比特一次计算只能得到一个结果,而量子系统中的3个比特一次计算可以得到8个结果,相当于8个计算任务可以同时进行。从某种意义上讲,相当于把计算速度提高到原先的8倍。推而广之,n个量子比特便可以表示2n个数的叠加,使得一次量子操作理论上可以同时实现对2n个叠加数进行并行运算,因此,量子计算提供了一种从根本上实现并行计算的思路,具备超越经典计算机运算能力的潜力。1994年,贝尔实验室的彼得·秀尔(Peter Shor)开发出了用于整数分解的量子算法,也就是“Shor算法”。在该算法中,如果用每秒运算万亿次的经典计算机来分解一个300位的大数,需要整整10万年以上的时间;而如果利用同样运算速度的量子计算机来执行Shor算法,则只需要1秒钟。
理论上,拥有50个量子比特的量子计算机性能就能超越目前世界上最先进的超级计算机“天河2号”,拥有300个量子比特,就能支持比宇宙中原子数量更多的并行计算,这样的计算能力输出几乎可以“碾压”所有的经典计算框架,为密码分析、气象预报、石油勘探、药物研发等所需要的大规模计算难题提供了解决方案,并支撑大规模的基础科学研究。
2019年,美国谷歌公司构建了一个包含53个超导量子比特的量子处理器“悬铃木(Sycamore)”,率先实现“量子优越性”,即量子计算机对特定问题的计算能力超越经典超级计算机。2020年,我国量子计算科学家潘建伟领导的研究团队,在光量子体系上实现了量子优越性。2021年,中国科学技术大学构建了当时世界上量子比特数目最多的62比特超导量子计算原型机“祖冲之号”,在超导线路体系上实现了量子优越性。在此基础上,进一步实现了66比特的“祖冲之二号”,具备执行任意量子算法的编程能力,对量子随机线路取样问题的处理速度比目前最快的超级计算机还要快上1000万倍,计算复杂度较谷歌悬铃木提高了100万倍。目前,我国是世界上唯一在两种物理体系达到这一里程碑的国家。
2020年10月16日,中共中央政治局举行第二十四次集体学习,主题就是量子科技和应用前景。习近平总书记发表重要讲话,为当前和今后一个时期我国量子科技发展做出重要战略谋划和系统布局。以量子计算、量子通信和量子测量为代表的量子信息技术,将为推动基础科学研究探索、信息通信技术演进和数字经济产业注入新动能。
当下,算法与算力的打怪升级,仍在继续......
|
|