新書推薦:
《
中国近现代名家精品——项维仁:工笔侍女作品精选
》
售價:HK$
66.1
《
宋瑞驻村日记(2012-2022)
》
售價:HK$
115.6
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:HK$
127.4
《
人世事,几完缺 —— 啊,晚明
》
售價:HK$
115.6
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:HK$
498.0
《
真谛全集(共6册)
》
售價:HK$
1156.4
《
敦煌通史:魏晋北朝卷
》
售價:HK$
162.3
《
唯美手编16:知性优雅的编织
》
售價:HK$
54.9
編輯推薦:
《转折——眺望IT巅峰》是一部开创性著作,作者谢耘是“科技北京”百名领军人才之一,曾参加某新型军用雷达设计,主持研发中国第一套有线电视数字加解扰系统及中国第一台基于Windows CE的掌上电脑,曾获国家科技进步二等奖。
本书中,谢耘首次将中国哲学和东方思维方式引入信息科学,重新审视IT产业发展,创造性地提出“虚拟映像”思想,以前所未有的互联网思维实现了技术空间的空前扩展,引领了新的思想潮流。
《转折——眺望IT巅峰》完整展示了作者关于虚拟映像和主体认识论的理论,论述了基于非结构化信息管理技术的应用模型。书中提到,建立主体的“虚拟映像”将成为一种必然。当我们能够建立起主体虚拟世界的数字映像时,信息与主体之间不再是一种无序随机的联系,这使得我们可以把机器与包括人在内的主体不断接近的过程,推进到应用最下面的信息层面,由此将引发信息类应用的一场深刻的变革。以“虚拟映像”为基础的应用模式也将成为未来IT应用的一个具有重大意义的新模式。
城市“虚拟映像”是智慧城市建设的理论基础,书中基于“虚拟映像”理念建设公共信息服务平台以推进我国智慧城市建设进程的观点
內容簡介:
本书针对 IT应用的最基本要素“信息”,深入剖析了其个体微观结构到整体宏观意义,提出了通过建立认识主体虚拟世界的数字映像,实现全面信息管理的论断。全书共分八章,阐述了 IT产业历史,产业发展的重大转折, IT应用的三阶段发展历程,“信息”的本质以及主体认识论基础上的信息管理。本书还展示了个人虚拟世界及其数字影像, IT应用模式的转折与创新,并展望了智能化技术的发展前景。
本书是信息论和信息管理领域的一本划时代专著,有助于开创具有中国标记的 IT发展新里程。本书适合于关注和研究 IT产业发展趋势,研究信息管理与数据产业发展的从业人员和高校师生。
關於作者:
谢耘
本书作者谢耘博士是一位战略科学家,也是一位学识渊博的布道者。他对于数学、信息科学、哲学、宗教和历史都有非常精辟深刻的认识。本书阐述了作者对于 IT产业发展的思考和对信息论的新认识,提出了虚拟映像和主体认识论的新理论。在本书成稿过程中,编辑作为出版行业的从业者,受本书理论指导和启发,从出版行业的实践谈一下主体认识论和虚拟映像理论对于出版行业发展的指导意义。
目錄 :
第一章
计算机的诞生与发展历程 1
第二章
计算机产业发展的重大转折 29
一、工具:从体能到智能的飞跃 2二、图灵的天才与现代计算机的本质 6三、冯·诺依曼结构与计算机的工程实现 9四、人工智能的诱惑与计算机的局限 13五、计算复杂性理论与智能的可实现性 21
一、当前计算机产业的基本结构与特征 30二、软件创新与 IT产业的重大转折 36三、IT产业的热点透视与产业价值链
45四、回归技术性产业的本质 55五、登上产业制高点
59
第三章
IT应用的发展历程 65
第四章
解析 IT产业的根基
——“信息”
89
第五章以认识主体为基础的
信息管理
一、历史进程 67
二、第一阶段:雏燕初飞——数值计算(或称科学计算)时代(20世纪 40年代到 50年代) 69三、第二阶段:繁荣发展 ——结构化数据应用
的时代(20世纪 60年代到 90年代) 73
四、第三阶段:初现端倪 ——非结构化信息及信息分享时代(21世纪 00年代至今) 81五、历史进程的关键经验 85
一、香农“信息论”与“全信息” 91二、“全信息”的结构分析
97三、有限维度语义空间与结构化数据(信息) 104四、“全信息”中的 “(应用)支撑信息” 107五、主信息自身的结构化处理 114六、有限维度语义空间与非结构化信息 118
一、信息管理的合理边界 125二、虚拟世界:认识主体拥有的信息集合的意义 127三、以主体为基础的信息管理:虚拟世界的数
字映像 130
四、数字化信息与认识主体之间关系的演化历程 134五、不同主体的虚拟世界与数字映像 136
第六章
个人虚拟世界及其数字映像
第七章
IT应用模式的转折与创新
第八章
智能化的未来
后记
超越“东”“西”
內容試閱 :
如前面所做的分析, IT产业正在经历重大的转折,计算机应用正在取代计算机基础平台,成为 IT产业发展的核心主导力量。下面我们依然从审视历史开始,来分析计算机应用的发展规律。
计算机的应用,粗略可以分为两大领域方向。一个是信息处理,一个是过程控制。所谓信息处理,指计算机(及相关设备)作为一个独立完整的人工系统,接受输入信息(数据),经过处理后其输出也是信息(数据)。或者说,人们向计算机系统输入信息(数据),然后从计算机系统得到的还是信息(数据)。
而在过程控制类应用中,计算机自身不是一个完全独立的系统,而是一个更大的人工系统中的一部分,计算机在其中承担信息(数据)处理任务,其输出的信息(数据)
用于系统的控制,而不是提供给人使用。计算机所从属的
人工系统,或者输出信息(数据)之外的其他产物如化工、汽车与家电产品等等,或者系统直接服务于人,如大量使用计算机实现飞行控制的飞机作为交通工具为人所用。
我们后面的讨论,将限制在计算机的信息处理类应用领域。计算机信息处理类具体的应用五花八门种类繁多。为了看清历史主线,抓住主要矛盾,找出产业发展的核心本质,我们略去次要的非典型应用或旁枝末节,以主流典型应用为主线,回顾历史,寻找规律,以探究未来。
一、历史进程
在计算机信息(数据)处理应用的发展过程中,计算机处理的信息(数据)类型,逐步发生着变化,它也最直观地标志出计算机应用的不同阶段。
按照计算机处理的信息(数据)不同类型,我们可以将计算机应用的历程,从计算机诞生开始分为三大阶段:数值计算阶段,基于结构化数据的应用阶段,以及现今所处于的大量非结构化信息处理阶段。
图 3-1.计算机应用三大阶段示意
在这三个阶段中,除了计算机处理的信息(数据)类型有很大差异外,计算机应用的基础理论或工具方法,应用的基本模式等,具有明显的不同。
具体来看有五个核心的要素可以概括性反映出计算机应用不同阶段的本
质特征。它们是:①计算机输入和输出的信息(数据)类型;②计算机应用的理论基础或采用的工具方法;③计算机信息(数据)处理过程的特点,主要体现为应用软件的特点;④计算机信息(数据)处理过程(应用软件)与其处理的信息(数据)之间的关系。⑤如何把需要解决的实际问题映射(变换)为计算机可以解决的数值基本计算类问题。
下面我们从这五个角度来分析计算机信息处理的三个不同阶段所具有的特征。
则在 1987年出版。但是由于社会系统的不确定性与开放性,这些设想最后都
没有能够付诸实践。
IT应用的这个时期是 IT产业的婴幼年时代。艾伦 ·图灵在 1936年,冯 ·诺伊曼在 1947年,克劳德·埃尔伍德·香农(1916—20 01,数学家,贝尔实验室 麻省理工学院任职)在 1948年分别奠定了可计算理论。计算机架构与数字通讯理论的基础。
在这个时期计算机的硬件由电子管发展到了晶体管。计算机的运算速度达到每秒几万次的水平。 1954年,美国贝尔实验室研制成功第一台使用晶体管的计算机,取名 TRADIC。它使用了 800个晶体管。这个时期的计算机基本上是比较个性化的单件或小批量生产,不同机型之间缺少统一的软件与硬件的技术与产品标准。
早期的计算机主要采用磁环来存储程序和数据,每个磁环存一个二进制的位。这种方式的存储方式容量非常低。革命性的变化发生在 1956年, IBM在 IBM350机器上首次采用了硬盘。从此,硬盘成为了计算机标准的数据存储设备。硬盘技术从根本上解决了大数据量的存储问题。
由于数值计算是这个时期的核心应用,IBM 的 John Backus(1
924-2007,计算机科学家, IBM任职)和他的研究小组于 1957年开发出面向科学计算的高级程序语言 FORTRAN(FORmula
TRANslator)。这是第一个计算机高级程序语言,并且至今依然是计算机科学计算的主要工具。
在 1958年,仙童半导体公司研制出第一个集成电路。它成为计算机在20世纪 60年代进入集成电路时代的先声,见图3-2。
中国的计算机产业在 20世纪 50年代起步。在苏联的帮助下,中国科学院计算技术研究所与北京有线电厂合作于 1958年研制成功中国第一台通用数字电子计算机 103机,运算速度每秒 1500次。 1963年中国科学院计算技术研究所完成中国第一台晶体管大型通用数字电子计算机 109机。
图 3-2.1958年仙童半导体公司研制的第一个集成电路
这是 IT产业的奠基时期,形成了产业所需的比较完整的基本理论,开始将这些理论付诸实践。在实践的过程中,完成了计算机硬件核心技术的突破,计算机在关键科技领域显示出了革命性的重要作用。
三、第二阶段:繁荣发展 ——结构化数据应用的时代(20世纪 60年代到 90年代)
随着计算机计算能力的提高,计算机从纯数值计算领域走了出来,逐步进入到非数值计算领域。主要应用领域是与离数值计算最接近、具有严格逻辑规则的数据处理应用。计算机应用发展到这个阶段,开始从高傲的象牙塔似的科学技术领域逐步进入到了其他社会领域,开始了计算机对社会产生普遍性深刻影响的阶段。
信息(数据):这个阶段计算机处理的数据与上一阶段不同,数据处理应用中的数据以社会实体(包括社会物质实体和抽象逻辑实体)的社会属性的数值化表达为主,而不是单纯物质属性的表达。这些对象的属性中那些原本不是数值化的属性,通常经过简单的编码规则即可映射为数值。这些数据,有着明确无歧义的意义,能有效利用计算机的数值逻辑处理能力进行处理。在这个阶段,计算机处理的数据基本都是结构化的数据。就是说一个基本的完整数据,是由多个有明确定义的数据段组合而成。比如一张电子飞机票是一个典型的完全结构化的数据,它由人名数据段、航班号数据段等构成。每个数据段都有明确无歧义的意义,整张机票也是明确无歧义的,而且所有机票都是一样的。银行账户也属于典型的结构化数据。
从语义的角度来看,如果我们把以有限数量的、有单一明确无歧义意义的、
将其映射为数值表达;另外一个就是对实际业务过程的变换,将其变换为数值
逻辑算法。第二个变换的准确性与有效性,在根本上决定了计算机应用软件解决实际问题的准确性与有效性。
当后来互联网普及之后,许多基于结构化数据的应用通过互联网而得到了极大的延伸,但应用的基本特征并没有变。由于社会中各个领域内基于结构化数据、可以流程化的应用数量巨大,计算机在信息处理领域里的应用在这个阶段得到了极大的发展。软件应用系统的日益复杂,也促进了计算机技术自身在各个方面的快速成长,以满足日益复杂的软件应用的需求。
特别需要指出的是,基于结构化数据的应用,并不是在科学计算基础上的自然深化与延展,而是计算机在人类社会中开辟了基于结构化数据处理的、全新的更为广阔的应用空间,极大地推进了计算机对人类社会的广泛渗透。
IT应用的这个时期是 IT产业的少年时代。在这个时期,计算机由中小规模集成电路发展到了超大规模集成电路。计算机系统的运算速度从每秒几万次飙升到了每秒万亿次。
Intel公司在 1971年研制成功的第一个微处理 4004。它采用 10微米工艺,集成了 2250个晶体管,见图 3-3。虽然这只是一个在今天看来功能简单的、只能执行四位字长运算的处理器,但是这是 IT产业历史上第一次将计算机的核心处理功能与控制功能全部集成在一个集成电路芯片上。因而它成为了计算机发展史上的一个重要里程碑。
图 3-3.Intel公司 1971年研制成功的第一个微处理器 4004
Intel公司的 Gordon Moore(1929-,仙童半导体公司与 Intel公司创始人之一)在 1965年首次提出集成电路发展的“摩尔定律”。几经修改后,该“定
律”表述为:“当价格不变时,集成电路上可容纳的晶体管数目,约每隔 18个
月便会增加一倍,性能也将提升一倍。”至今为止,该“定律”依然有效。
在 CPU领域, IBM自 80年代开始发起了一场精简指令集( RISC)对复杂指令集(CISC)的大战。CISC的典型代表就是 Intel的 X86结构的CPU,十分壮观的 RISC阵营则有 IBM公司的PowerPC,HP公司的 PA-RISCC,Sun Microsystems公司的 SPARC,Motorola公司的 MC88000,DEC公司的 Alpha,以及 MIPS和现在大名鼎鼎的 ARM等。在 20世纪 90年代,从服务器到嵌入式系统 RISC体系大有一统天下的势头。
集成电路技术的飞速发展,导致计算机从高端专业设备领域中走出来进入到了个人应用领域。苹果公司在 1976年推出了第一台个人电脑 Apple I。IBM则在 1981年推出了 IBM
PC,并成为产业标准。IBM PC的出现有力地促进了互联网的发展,并成为 IT产业进入下一个发展阶段的重要推动力。东芝公司在 1992年推出了第一台笔记本电脑 T1000,开创了移动计算时代。PC的出现,标志着计算机开始了从贵族到平民的转变。
进入 20世纪 60年代后,计算机逐步摆脱了非标准化生产的初级状态,开始了标准化进程。操作系统开始作为标准化的产品出现。第一个重要的操作系统是 IBM在 1964年推出的 System360。影响最广的 Unix操作系统由在 ATT贝尔实验室工作的 Ken Thompson(1943-,计算机科学家,贝尔实验室 Google任职,1983年获图灵奖)和 Dennis Ritchie(1941-2011,计算机科学家,贝尔实验室任职, 1983年获图灵奖)于 1969年开发出来。微软公司在 1981年推出 MS-DOS,在 1985年推出 Windows1.0。1991年Linus Benedict Torvalds(1969-,软件工程师)在互联网上发布了第一个版本的 Linux内核。这是 IT产业历史上第一个采用开放源代码软件开放模式的软件协作计划。由此开始开源软件的影响与日俱增。
曾经非常重要,但是现在已经被遗忘的一个产品是软盘。它是 IBM在1971年开发出来的。20
00年以后已经被 U盘所取代。
高级程序语言在这个时期也得到了大发展。B ASIC(Beg inner’ s
All-purpose Symbolic Instruction Code)语言是在 1964年由 John Kemeny(1926-1992,计算机科学家,达特茅斯学院第 13任院长)和 Thomas Kurtz( 1928-,计算机科学家,达特茅斯学院任职)设计,并且在他们的指导下由达特茅斯学院的学生实现的。 C语言则是伴随 Unix在 1971年被贝尔实验室的 Ken Thompson和 Dennis Ritchie开发出来的。在 C语言基础上发展出来的面向对象 C++语言,是贝尔实验室的 Bjarne Stroustrup(1950-,计算机科学家,贝尔实验室 德克萨斯 AM大学任职)于 1983年推出的。Java和 JavaScript的出现则是 1995年的事情了。其他一些比较重要的高级程序设计语言还有LISP(1958,函数式编程设计语言),Cobol(1959,面向商业与数据处理的程序设计语言),ALGOL60(1960,算法程序设计语言),Simula67(1967,第一个面向对象的程序设计语言),Pascal(1970,第一个结构化程序设计语言),Prolog(1972,面向人工智能的逻辑程序设计语言),Ada(1983,美国军方主导的面向实时嵌入式应用的程序设计语言)等。
由于计算机开始从科学计算进入到数据处理应用,所以导致了数据库的产生与发展。1961年通用电气公司(General Electric Co.)的 Charles Bachman( 1924-,计算机科学家,通用电器 巴赫曼信息系统公司任职,1973年获图灵奖)成功地开发出世界上第一个网状数据库管理系统——集成数据存储(Integ rated DataStore,IDS),奠定了网状数据库的基础,并在当时得到了广泛的发行和应用。层次型数据库管理系统是紧随网络型数据库而出现的,最著名最典型的是 IBM 公司在 1968 年开发的IMS(Informa tion Management System)。
今天被最广泛使用的关系型数据库,源于 1970年 6月 IBM的研究员E.F.Codd博士(1923-20 03,计算机科学家,IBM任职,1981年获图灵奖)在《Communication
of the ACM》上发表的一篇名为“A Relational Model of Data for
Large Shared Data Banks”的论文。1974年,IBM的
四、第三阶段:初现端倪——非结构化信息及信息分享时代(21世纪 00年代至今)
进入 20世纪 90年代之后,随着计算机性价比的持续提高,随着 PC以及数码相机等新型数字化产品的不断出现,人们逐步开始用计算机来产生或生成大量的非结构化信息。如数字化的文档、照片、语音及视频等。因为它们包含的信息量明显比一般的数值或结构化数据大,所以在日常使用的习惯上,我们不再称之为数据,而称之为信息。这个时期也正是互联网开始迅速普及的时期。
当 20世纪 80、 90年代互联网从学术界走向社会之后,在互联网上出现了两大类不同的应用。一种是前面介绍过的计算机应用第二阶段的、基于结构化数据的应用通过互联网延伸,或者直接借助互联网来实现;另外一种是全新的,利用互联网进行非特定用户的非结构化信息分享类应用。电子邮件可以被视为是这类应用的初始形态,随后出现的各种新闻门户网站, Google,Facebook,, Twitter等,就是这类应用的典型代表。这种基于互联网的非结构化信息分享,成为了当前计算机信息类应用进入第三个阶段后的主要特征,也成为了当前 IT技术对社会产生革命性影响的新的应用形态。
信息(数据):利用互联网分享的主要是非结构化信息。所谓非结构化信息,就是无法用一个有限维度语义空间来严格定义的信息。这说明信息本身的内涵大大增加,所以我们不再以“数据”相称。非结构化信息大量增加,源于 IT
设备的多样性与广泛普及。这使得我们可以利用这些设备直接把各种曾经用传
统形式表达的复杂信息,如文档、照片和视频等,方便地进行数值化表达,映射过程由设备自动完成。
非结构化的信息,在对人类有意义的信息中,占最大的比重,远远超过结构化数据。就像在所有的系统中,非线性系统远远多于线性系统那样。在系统学中,我们对线性系统有着统一完善的处理工具,而对处理非线性系统问题却常常举步维艰。类似的情况出现在了信息领域:我们对结构化数据有完整有效的处理工具,而对非结构化信息的处理,常常颇感茫然,缺少有效的理论与工具支撑。
支撑应用的基础理论:互联网上非特定用户信息分享类的应用,并没有特别新的基础理论方面的创新。因为这类应用本质上是比较简单的。当然系统实现的技术难度很大,主要是因为数据量大,用户量大。但这与基础理论并无太大关系。这类应用之所以社会影响很大,是因为网络的广泛覆盖带来的,不是这些应用背后有多少理论或技术创新。
应用软件的特点:互联网上非特定用户信息分享类的应用,本质上是建立了信息流通的渠道和适当的展示方式。应用基本只对信息做格式上的变化以适应信息的传递和展示,对信息做适当的分类组织,但不对信息做实质性复杂的处理。这一点与前面两种应用方式有很大的不同。所以这类应用自身实现的功能本质上缺少深度,但有广度。
我们以微博和微信为例。它们满足的不过是人们固有的茶余饭后闲聊的需求,不同的是它们把闲聊的范围,由街坊邻居、同事朋友,扩展到了全球,而且信息传播速度极快。由此它们具有了巨大的社会影响力。
应用软件与处理的信息(数据)之间的关系:这类软件应用的本质在于促进信息分享。应用离开了信息固然没有意义,但是应用却并不依赖具体的信息。不像一个投入运行的银行业务系统,必须使用与系统对应的自己实际客户的具体数据才有意义;信息分享应用,并不在乎分享的是哪些具体信息。
而从信息角度来看, IT产业发展到这个阶段后,大量的电子化信息,特
别是非结构化信息也并不是仅仅为了某个具体特定应用而存在的(至少通常情况下是这样)。比如我们拍的照片可能会用到不同的地方,不像银行的数据那样与银行具体的应用不可分割。这既与当今 IT设备的大量普及到工作生活的各个方面有关,也是由非结构化信息自身内涵复杂的特点决定的。内涵复杂的信息,自然有多重可能的用途和价值,而不是仅仅为了某个具体的应用而产生和存在。如何使用这些信息是由应用的各个使用者根据具体情况决定的,而不是在应用设计之初就明确了的。所以信息的价值并不依赖于具体的应用。因此,这类软件应用与信息之间的关系是松散的,彼此相对独立。信息与应用的松耦合,可能是未来 IT应用的一个基本特征。
实际问题到数值问题的映射:这类问题核心的映射就是非结构化信息的数值化表达。这个主要是由各种设备自动完成,不需要人为干预。
从这类应用本质的简单性,而其涉及的非结构化信息的复杂性来看,我们可以推断这类应用的目前形态只是基于非结构化信息应用的初级阶段。未来必定演化出更为复杂的、能够充分利用非结构化信息价值的。全新的应用或应用模式。这正是 IT产业正在经历的转折的核心,这些全新的应用或应用模式将主导 IT产业的未来发展。
而且根据历史的规律,可以下的一个明确判断就是:基于非结构化信息的应用,也绝不是对基于结构化数据应用的深化与拓展,而是会开辟出前所未有的、更为广阔的计算机信息处理类应用的空间,在更深的程度上影响人类社会的各个方面。
这个时期的 IT产业开始进入青年时代,也是我们正在经历的时代。
进入 21世纪后, IT产业的一个重要的发展便是移动互联网的出现。2001年 10月 1日,日本 NTT DoCoMo公司正式推出了第 3代移动通信业务 FOMA。这是 3G在世界上首次投入市场,由此拉开了移动互联网时代。也催生了种类繁多的包括智能手机在内的移动计算设备。
了原有的意义。
现代计算机,正是在这些质疑和抵抗中,逐步从纯数值计算,走向了更广阔的领域。如果说数值计算任务的完成,计算机可以达到 90%以上的满意度的话,基于结构化数据的持续性活动的应用,计算机能够达到的满意度可能只有 70%~ 80%。
由于满意度是具有主观性的,所以在人尚未适应计算机来完成这些活动的初始阶段,人们对计算应用的主观评价可能更低。而随着人的适应,以及计算机应用的不断改进提高,这个满意度可能也会达到 90%以上。
从这个过程我们可以看到,计算机应用的扩展过程,就是逐步从人们认为其天然擅长的工作——数值计算开始,不断拓展到我们曾经认为其并不那么擅长的领域之中。由于其并不天然擅长,所以原始的问题需要做映射变换才能被计算机相对有效地解决,而映射变换过程必然带来一系列的问题。包括人的不适应,包括问题本身在一定程度上的扭曲和改变等等。
在这个拓展的过程中,核心问题不是计算机是否适应了人,也不是人是否适应了计算机,而是要看计算机应用解决问题所带来的价值,是否远远超过了它所带来的新的问题。这是一个收益与损失之间的权衡。只要收益显著于损失,人们必将逐步适应、接受计算机的应用;反之则排斥。这个过程,既是计算机应用不断完善、不断适应人的过程,也是人不断适应计算机、被计算机改造,并且不断去寻找更好的方法让计算机替人承担更多的工作的过程。
ERP软件大举进入中国是在 2000年前后。当时 ERP的推广遇到了极大的阻力。人们提出了各种各样的理由试图证明 ERP不适合中国的国情。但是今天在中国,这种质疑已经完全消失。这既因为人们适应了 ERP带来的一系列强制性规范的做法,也因为 ERP在不断地改进提高,努力去适应不同的企业情况。
其实这不只是现代计算机应用所走的道路,在其他人类创造的工具的应用中,也存在同样的情况。比如,我们去坐飞机外出,经常遇到航班晚点等很
多的麻烦和不便,但是我们不会因此就认为应该取消飞机。因为那些麻烦和不
便,相比飞机给我们带来的益处,即使不是微不足道,也不会严重到使我们排斥乘坐飞机。当然飞机及相关的服务也在不断地改进。但不论如何改进,依然有不便。这就是人与工具之间相互适应、相互影响和相互改造的过程。这是个辨证的问题,不可偏执于一方。
所以,在开拓计算机新的应用领域的时候,我们不能单向地站在人们已有的习惯的角度来向计算机发难,一味用挑剔的眼光来看待新的探索。而是应该站在发展的角度,根据计算机的本质能力,全面地权衡得失,客观地分析计算机在新的领域中的应用或计算机新的应用模式是否会成为社会未来的必然趋势。
在未来,计算机开创的全新的应用,特别是一个真正革命性的应用,还会常常很难让我们有那种对已经熟悉了的计算机应用所持有的理所当然的感觉。我们必然有不适应,有不喜欢,有排斥和否定它的“充足”的理由。但是这并不意味着这些计算机应用不会成功地普及开来。
也就是说我们不能用已经习惯了的感受,去评价全新的产物。而是应该抛开个人的感受,理性地去分析得失。所以,当前业界非常强调的用户体验,对于全新领域的开拓,是有消极负面作用的。因为用户体验并非是那些真正重要的计算机应用的本质价值,而仅仅是应用对人已有习惯的适应程度。如果认为用户体验高于一切,就很难有真正革命性的创新。过分强调用户体验,与 IT产业近年来缺少实质性创新有关。因为缺少实质性创新,大家的注意力就必然被表层的变化所吸引。
这当然并不是否定计算机应用的用户体验的重要性,就像我们不会去否定一辆汽车造型设计的重要性那样。但是同时,我们在比较汽车的时候,造型设计常常并非是最为重要的因素,特别是对于高档车而言。
当 1945年第一台通用电子计算机 EDVAC诞生的时候,它给我们带来了什么样的用户体验?显然很不愉快。但是因为它带来的收益远远大于使用的麻烦,所以计算机飞速地发展了起来。当年并没有人以用户体验不佳为由去否定
计算机的价值。所以今天,我们也要给用户体验一个恰当的位置,而不是把它
简单地当作计算机应用中、特别是重大的全新应用中,最优先考虑的目标。
当 ERP在 2000年前后大举进入中国的时候,无数企业家找到了无数的理由拒绝 ERP。但是, ERP还是全面进入到了中国的企业。记得当年曾经有一个企业家比较理性地说:“我是有自己管理企业的习惯和方法,但是只要你的做法有道理,我可以改变自己适应 ERP系统。”今天,已经没有人再发出当初对 ERP是否可行的质疑了。
历史,常常惊人的相似,但不会简单地重复。因为不是简单的重复,所以给我们接受历史经验、认识客观规律带来了很大的困难。
未来的计算机应用领域的开拓,还会遇到历史上出现过的质疑,而且人们会说这次与上一次有着“根本性”的差别,所以质疑是“绝对”有道理的。但是,不论有多少质疑,现代计算机随着计算、存贮和通讯能力的持续提高,必然要进入到更多的领域、完成更多的应用,更加走进人的生活的方方面面。
在这个过程中,现代计算机必然会改变人的许多习惯和看法。当然,计算机更必然地在更深、更广、更大的程度上,帮助我们去实现我们的目标,成为我们须臾不可离开的助手。
简要回顾分析过现代计算机的历史后,我们开始探讨现代计算机应用未来的发展方向。对于 IT产业而言,这个产业之所以被冠之以“信息”技术产业,就是因为几乎其所有的应用都是围绕信息展开的。“信息”之于信息产业就好像材料之于传统工业一样,是整个产业的根基。所以我们在本章将抛开 IT产业的其他内容,直接切入对产业的根基“信息”的深入讨论。
如前所述,现代计算机应用进入到第三阶段后,计算机所面对的不再只是简单的数值,也不再仅仅是可以在有限维度语义空间中严格定义的结构化数据,而是大量不断涌现出来的、具有复杂语义含义的非结构化信息。信息内涵复杂度的极大增加,必然意味更为复杂的应用将不断涌向,而不是仅仅停留在信息的网络化分享。要想探明基于
一、香农“信息论”与“全信息”
克劳德 ·埃尔伍德 ·香农于 1948年 6月和 10月在《贝尔系统技术学报》上面连载发表了奠基性论文《通讯的数学理论》(A Mathematical Theory of Communication)。后来学术界便把这篇论文当成了信息论(Informa tion Theory)的开山之作。
正如香农的论文题目所表述的,此理论是面对通讯过程的。而通讯过程并不关心信息的内容、意义和使用,只负责尽可能不失真地快速传递信息。所以香农的研究,只局限在信息形式化表达的数学统计特征上面,完全没有涉及信息的意义和价值等高阶内容。基于香农信息论的理论成果,可以有效地支撑对一般通讯过程的研究,及指导实际通讯系统的设计。但是对于一般意义上的信息应用,仅仅研究其形式化表达的数学统计特性,却是远远不够的。比如,按照香农定义的熵,白噪声的“熵
”(信息量)是最大的,但是白噪声对于人来讲通常没有任何“信息”层面的实际意义。后来,人们常常在通讯领域之外的一般性信息应用场合盲目地引用香农的信息理论,这显然在无形中过分夸大了香农所创立的信息理论的适用范围与意义。
香农在他的论文中并没有给出信息的明确定义。从香农定义的熵中,人们引申出信息的一种定义,或者称为解释:信息就是消除信息接受者的不确定性。这个定义或描述非常形而上。首先,“确定性”与“不确定性”是一种主
观的判断,取决于接受者的意识。而且“不确定性”如何定义,又是一个非常
大的问题。另外,就“消除不确定性”来说,它既不是对信息的全部作用、也不是对信息内涵本质的一种阐述,而仅仅是对信息的部分作用的说明。如果我们说汽车是帮助人出行的工具,这既没有说清楚汽车的全部功用,也没有说清楚汽车的本质,因为飞机也是帮助人出行的工具。所以基于香农提出的“熵”来定义信息既不完整也不准确。
计算机产业后来被称之为信息产业,是因为计算机处理的主要对象就是信息。这个信息,就远不是仅仅在数学统计意义上的信息。它的内涵要丰富广泛得多。当我们站在信息产业,特别是信息应用的角度来谈论信息的时候,我们不能局限于仅仅基于香农的理论对信息进行解释,因为我们关心的是信息的实际应用,而不是研究信息的传送过程,更不是行而上的论道。
中国学者钟义信( 1940—,人工智能专家,北京邮电大学任职)在 1979年至 1985年间,针对信息的智能化应用,提出了一套比较完整的“信息科学”理论。该理论从更加宽阔的角度,对信息做了全面的分析,提出了一个比较完整的框架,其思路非常具有启发性。所以下面我们将借鉴这个框架对“信息”做深入的分析。
需要特别指出的是,由于我们将要进行的讨论所针对的是信息的含义与在此基础上的应用,所以许多内容不像与信息的形式化表达相关的编码与传输等过程那样,可以用严格定量的数学工具来描述。这里面当然需要数学,但是还会有许多的无法用数学描述的内容,有许多定性的原则和模糊的边界需要在实际应用中具体情况具体分析。所以,后续的许多讨论没有形式化表述与定量分析那样严格,这是问题的性质所决定的,而不是人为因素所致。
从纯客观的角度来讲(钟义信所称的本体论层次定义,《信息科学教程》,钟义信等著,北京邮电大学出版社 2005年,第 26页),信息是对象(包括物质与精神)运动状态及其变化方式的自我表述。它依赖于物质与能量,但又不同于它们。这是一个非常宽泛的定义,而且没有认识的主体,是纯客观意义
上的信息。据此,现在的一种流行的看法就是将物质、能量与信息作为构成客
观世界的三个独立的基本要素。这个说法可能是受到控制论的创立人诺伯特·维纳(1894-1964,数学家,麻省理工学院任职)的一句话的“启发”。 1948年,维纳在其所著的《控制论》一书中说:“信息就是信息,既非物质,也非能量。
”
能量可以在不同的物质形态间转换,这种转换是不需要人介入的。所以能量是客观世界中独立于物质的一个基本要素。当然在相对论中能量与物质(质量)是等价的。但是这种等价在日常活动中很难体现出来,所以我们依然可以认为物质与能量是两个独立的基本要素。
但是信息真的是独立于物质与能量的客观存在吗?
认为信息是构成客观世界的三个要素之一的人通常举的例子是生物的遗传物质 DNA(脱氧核糖核酸)。他们认为 DNA就是“客观信息”的典型代表。但是,如果我们仔细分析就会发现, DNA在自然过程中是以物质的形态在起作用的,而不是以“信息”的形态。在自然界中, DNA只能以唯一的由四种碱基组成的物质形态而存在,它的“信息”并不能被不同的物质所承载而依然能起作用。如果信息是构成客观世界的一个独立要素, DNA的信息应该可以由不同的物质形态承载而不影响自己作用的发挥。
有人进一步讲,如果我们把 DNA的信息保存下来,然后人工合成新的DNA,在这个过程中具体的物质形态就被剥离了。所以是 DNA的“信息”在起作用。但是在这个过程中,正是因为有人的参与,DNA的“信息”才有了意义,才让信息脱离了具体的物质形态而发挥作用。
从上述分析能够看出, DNA的“信息”只有在人的参与下才有意义。没有人的参与,在纯客观的自然过程中, DNA发挥作用的过程就是物质过程,而不是“信息”过程。或者说,在与 DNA有关的自然过程中,没有一个独立于物质与能量之外的“信息”要素在起作用。
这种“自我表述”的客观“信息”如果脱离了人这个认识世界的主体,便没有作用的对象,没有了阅读者,或者说便失去了倾述的对象,也就失去了
有些是直接以主体的意识形式存在于大脑之中,有些则是存在于主体之外的其
他物质载体上,如文字、录音等等。
主体认识的对象既包括物质实体,也包括逻辑 精神对象,如银行账户、会议、项目,抽象的主题概念如哲学、宗教、民主和自由等,以及意识活动本身等。而且主体自身也是作为一个被认识的对象而存在。主体对对象运动状态及变化方式的认识可以分为以下四个基本的类别。
1.
对对象自身性质特征的描述。这种描述,其实就是对象在主体意识中的一个映像。一个比较完整的映像,通常会以非意识的外在信息形态存在于其他载体之上,而不是仅仅存在于主体的意识中。
2.
对对象自身运动变化过程的描述。这种描述通常会以非意识的外在信息形态存在于其他载体之上。
3.
对对象之间关系的描述。这种关系,也会反映为信息(实体映像)之间的关联。这种关系,大量地是以意识的形态存在于人脑之中。复杂的关系则会以非意识的外在信息形态存在于其他载体之上。
4.
对对象之间相互作用(过程)的描述。如人员招聘面试过程的描述。这种信息通常会以非意识的外在信息形态存在于其他载体之上。
与信息紧密相关的一个概念就是知识。这两者之间的关系在学术界也众说纷纭。通常来讲,信息这个概念更宽泛,可以是主体对对象简单的反映,也常常包涵了主体对对象深入复杂的认识。而知识通常都是指经过复杂的智力处理而获得的对对象的复杂认识。所以,本书更倾向采用知识被包涵在信息之中的看法,它能够更好地包容人们在实际中对这些概念的使用。比如知识以文档形式存在的时候,我们常常也称之为信息。
在下面的讨论中,除非特别声明,信息将包涵知识在内。
二、“全信息”的结构分析
钟义信在其提出的信息科学中,将信息的形式化表达称为“语法信息”,将信息的含义内容称为“语义信息”,将信息的效用价值内容称为“语用信息”。这个语用信息就是我们前面定义的广义全信息中附属信息的一部分。语法信息与语义信息则是广义全信息中主信息的两个侧面。
其中“语法信息 ”,也就是通过符号的组合编排来承载信息的具体形式化编码。如前所述,全信息中形式化的“语法信息”正是香农信息论研究的对象。在这里使用“语法”来描述这部分内容,可能会造成困惑。因为这里的“语法”并不是指构成语义含义的自然语言层面的语法规则,而是指底层形式化编码的规则。所以“语法信息”中的“语法”,与“语义信息”中涉及的自然语言层面的“语法”并不是同一个概念。因此,为了避免误解,也为了避免概念层次上的混淆,下面我们将用信息的“形式化表达”来取代钟义信在其信息科学中定义的“语法信息”。
形式化表达就是按照一定的规则用符号对信息进行编码后的结果。这个信息与在信息技术中对信息所做的底层存储和传输等操作有直接的关系。香农的信息论使用统计方法将其作为研究对象,就是为了给信息通信系统的分析与设计提供一个定量的分析工具。但这部分形式化信息对于信息在底层的存储、传输和显示之外的高层处理过程,如信息管理与信息应用并没有直接的影响,所以不在本书讨论的范围之内。
“语义信息 ”,是指一个信息对于认识主体所具有的含义。但是,信息的概念是大于语言的,因为信息还包括了图像等具体的形式。所以将信息的含义用语言学中的“语义”来定义有些狭窄,尽管许多信息的含义包括了语义内容。另外,一个信息的“含义”再用“信息”这个概念本身来说明也有些不妥。所以未来为了避免概念层次上的混淆,我们将信息具有的含义称为一个信息的“含义内容”。信息的“含义内容”包括了语义内容但并不仅限于此。
这里讲的一个信息的“含义内容 ”,指的是其显性、直接的含义,而不是隐性、间接的含义。一个信息的显性、直接的含义,是由信息的内容直接表达的;而其可能拥有的隐性、间接的含义,通常是通过它与其他信息之间的关联而显现的。比如一张人物照片,它的显性、直接的含义,就是照片直接反映出来的这个人物的外在特征;而这个人物职业等情况,则是这张照片的隐性、间接的含义,要通过其他信息与这张照片发生关联才能显现出来。
下面我们来简单分析一下信息的含义内容在前面讲过的计算机应用的三个阶段中的作用或影响。
在计算机的数值计算应用中,计算机所处理的数据只具有很单一的含义内容。在应用中,数据的含义内容不会带来处理上的困难。所以,在这类应用中不必对被处理的数据所具有的含义内容加以特别的关注。
在计算机面向结构化数据的应用阶段,计算机处理的是在有限维度语义空间中定义的数据。与数值计算中的数据相比,这样的数据的语义虽然趋向复杂,但是其语义的含义依然十分明确清晰。利用有限维度语义空间,可以对数据进行完善的管理操作。而关系型数据库正是可以实现有限维度语义空间并对其进行操作的有效工具。当然,放入关系型数据库的不都是结构化数据,结构化数据也不是都必然要放入关系型数据库。结构化数据的语义内容,在这里既是被管理的对象,也成为了对数据进行有效管理的基本手段,因而也构成了数据应用的基础。
签注释;主信息,或其反映的对象、事件、活动等在认识主体的存在与活动空
间中的定位;不同主信息彼此之间的关联。
通过引入描述性之外的概念,我们就使得有限维度语义空间这个非常简单的结构,拥有了相对复杂的功能。可以用比较简单的方式,将非结构化信息的一些比较复杂的含义揭示出来并加以利用。
针对某一类信息应用,我们需要按照这个原则建立一个完整的概念及其分解的集合,使用其中不同的子集作为基来构建不同的语义空间,以此为基本构件并结合其他结构组成一个完整的信息管理结构。
这样的概念集合可以分为两个部分,一个是普适的通用概念部分,比如
对时间的细分就属于这一类。另外一部分则与具体的应用领域有关,涉及领域
内的概念。比如做电子病历管理的时候,就要用到大量医学领域内特有的概念;如果做教育的应用,则会使用大量的教育领域内特有的概念。这些概念,也是构成领域内知识的基础,在构造领域内知识库时也会起到基础性的作用。这部分工作,属于人工智能领域中知识表示的范畴。
最后,如我们在上一节中指出的那样,对于音频和图像等这些非文字型信息,我们需要将音频和图像等某些非语义特征,单独或与语义概念一起,形成一个有限维度离散空间,来描述音频和图像等非结构化信息。这些特征同样需要具有明确无歧义的性质。这样构成的空间称为广义有限维度语义空间。
我们在有限维度语义空间中引入的使能性概念与非语义特征,将主要用来支撑基于信息全面管理的计算机的各种智能化应用。
在具体构建一个(广义)有限维度语义空间的时候,空间基的选择通常有两个基本的出发点。一个是在一个知识领域范围内来选择空间的基。这个时候,这个空间主要是从某个知识领域的角度来描述信息。或者说整个信息是属于这个知识领域的;另外一个是根据具体应用的需要来选择一组基。这个时候这组基可能是跨不同知识领域概念的组合,以便用来支撑特定的应用场景。这样的空间在知识层面上看将具有复合的特征。根据具体应用来选择基的时候,也有可能这组基没有明确的知识领域特征,只是由具体应用所需要的、一般性的通用基本概念组成。
在第四章中,在(狭义)全信息的框架下,我们分析了有限维度语义空间以及如何使用它来对一个主信息及与主信息直接相关的支撑信息做有效的描述与管理。但是这些手段对于非结构化信息的管理和应用还远远不够。因为“(狭义)全信息”主要还是站在一个信息的微观角度看待问题(支撑信息中的“主信息与外部关系的信息”除外)。尽管一个全信息的内部结构也是信息管理的重要基础之一,但是信息管理针对的不仅仅是个体信息,而是一个信息的集合。所以,在讨论信息管理的时候,最重要的是要找到一种原则来有效地确定这样的信息集合的边界。以及在此基础上,理清信息彼此之间的复杂关系,也就是集合上的结构,从而实现对信息的有效管理。所以在本章中,我们将跳出主要用来描述单个信息的全信息框架,站在宏观的
角度审视信息管理的问题。
本章我们将开始站在整体的角度来分析信息的管理。这将涉及全信息的支撑信息中没有被讨论的“主信息与外部关系的信息
”。在全信息的结构中,我们正是通过设置这个支撑信息,建立单个信息与信息集合整体的关系。
一、信息管理的合理边界
我们在第三章第三节中曾经指出,在结构化信息应用阶段,信息与应用紧密地捆绑在一起,彼此不可分离。所以在那个阶段,最通常的做法是把不同的具体应用作为确定被管理的信息集合的边界和信息之间关系的基础与依据。也就是说信息是按照应用来划定边界而被管理的。
第三章第四节中又指出, IT产业发展到现今这个阶段,信息不再像前一个结构化数据应用阶段那样与具体的应用与生俱来、不可分割地捆绑在一起;数字化信息(其中绝大多数是非结构化的)的生成常常与具体的应用没有直接的关联。因此,在这个阶段考虑信息管理的时候,就很难像结构化信息应用中所做的那样以具体应用为依据来做信息的管理。
受到承载信息分享功能(而非信息处理功能)的万维网成功的鼓舞, TimBerners-Lee于 1998年提出了语义网 Semantic Web的概念。之后语义网就成为人们讨论与研究的一个热点。这个领域内的一些研究,从信息的语义开始,直接跨到整个互联网的覆盖范围。它试图通过超链接等手段将整个互联网上的信息作为整体来实现对包括非结构化信息在内的管理与使用。这个设想固然宏伟,但却与计算机的本质存在矛盾。如我们在第一章第五节中指出的,计算机能够处理的问题本身必须是受限的,除非是简单的信息传递分享。把整个互联网作为对象,只能做一些相对比较简单初级的事情,或者从中找一些局部的事情来做。我们不太可能直接在整个互联网上实现复杂信息管理的高级功能。
更为重要的是,语义还仅仅是信息显性含义的有限描述,它难以全面支撑复杂的信息管理功能。语义网领域内的这种类型的研究看似宏大,实际上反映了西方注重细节而缺少在整体上对事物做完整把握的思维习惯。这种漫无边界的宏大设想,很容易落入当年人工智能遭遇的尴尬境地。当然也会像人工智能那样,逐步产生出许多有价值的方法促进产业的发展。
在此我们将从更为现实合理的角度来分析信息管理这个问题。
那么在当今这个阶段,信息管理的合理基点和前提是什么?也就是说我们应该根据什么客观原则来确定被管理的信息集合的边界、以及找出这个集合中信息之间的关系、从而实现对这些信息的有效的管理?为此,我们需要把目光从具体的应用,转到信息的生成过程上来。不论信息的生成是否与具体的应用有不可分割的关系,信息都是由认识主体而产生并为一个或多个认识主体所利用的。失去了认识主体,信息事实上便失去了意义。我们在第四章第一节中给出信息的定义的时候曾经对此做了分析。
因此,虽然信息可以脱离具体的应用,但是却从来都不能离开认识主体。而认识主体与具体应用场景相比也是一个更为稳定的存在。所以,将一个认识主体作为信息管理的基点来确定被管理的信息集合的边界,进而构建信息管理的基本结构,既具有自然的合理性,也具有应用的必要性。这种做法就是将一个认识主体所拥有的所有信息作为管理的范围,并通过对认识主体以及这些信息的理解,建立信息之间的复杂关系,从而站在认识主体的角度实现对这些信息的有效管理及应用。不同主体所拥有的信息之间的关系,则应该放在更高一个层面去处理。
事实上,我们所使用的个人电脑,就是将个人这个主体所拥有的大部分数字化信息集中在一起管理。虽然这种管理还远不能满足需求,还没有能够很好地支撑相关的应用。
下面,我们超越单个信息的具体内容含义,首先从一个主体所拥有的信息集合的整体(不论是否已经数字化了)的角度来分析这些信息存在的高层宏观意义。进而理解以主体为基点做信息管理的价值所在,寻找并建立在整体上而非微观层面上有效管理信息的结构。将该结构与全信息微观结构相结合,最终实现对信息的全面管理,并期望能够支撑全新的 IT应用模式。
二、虚拟世界:认识主体拥有的信息集合的意义
我们现在考虑最基本的认识主体——一个特定的人,他所拥有的信息(不论是以数字化还是其他的形态存在)作为一个整体,即他所拥有的所有信息构成的集合,对他来说本质的意义是什么。需要指出的是,在这个集合中,绝大部分的信息是非结构化的,(可以)结构化的只占极小的比例。而且在这个集合中,由于 IT技术的发展,越来越多的信息正在被转换为数字化的形态。
按照前面第四章第一节中对信息的定义,如果说信息是一个人对他所感受的对象(自然也包括他自身)的运动和变化方式的主观表述的话,那就意味着这些信息的总和,在他大脑的组织下,便构成了他对自己生活于其中的世界(包括他自己在内)的认识与理解,或称解释。
从心理认知的角度来说,尽管我们都生活在同一个世界中,但是我们对这个世界的解释却是各有不同。存在于每个人头脑之中的这种解释才是我们每一个人生活于其中的“真实的世界
”。或者说,这种“真实”是对每一个人而言,并不是脱离人而存在的客观真实,尽管它是来源于客观真实。相对于客观真实来说,我们头脑中的世界,其实是一个“虚拟”的世界。
所以,个人所拥有的所有信息作为一个整体,构成了我们每一个人生活于其中的“真实”的虚拟世界。这个虚拟世界不只包含了主体之外与主体直接
或间接相关的对象的信息,也包括了主体自己的人生过程。这个虚拟世界与客
观真实世界的复杂辩证关系属于哲学问题,我们不在此做深入的讨论。
对其他类型的认识主体,如由多个人组成的组织,比如企业甚至是一个城市,也是同样的道理。比如我们站在一个企业的角度来看,一个企业所拥有的所有信息的总和,便是这个企业感受到并且活动于其中的“真实”的虚拟世界,它既包括了企业所处的环境,也包括了企业的自身状况。
对于一个主体所拥有的信息总集合,可以从不同的角度提取某个子集,比如某个具体应用所使用到的信息。这些子集相当于信息总集合所构成的虚拟世界在某一个特定维度上的投影。比如,一个人的医疗健康信息,便构成了这个人自己的虚拟世界在个人健康维度上的投影;一个城市的空间遥感信息,则是一个城市的信息总集合(城市这个主体的虚拟世界)在地理城貌维度上的投影;一个业务系统的数据仓库,则相当于企业主体的虚拟世界在若干业务主题维度上的投影。
这些子集各有自己的特点,但是都是属于总集合的子集。而基于这些不同信息子集的各种应用,都是在主体的虚拟世界中的不同活动。因此主体拥有的信息总集合是各个子集合的前提与基础,后面的分析会主要集中在一个主体的信息总集合的特性之上。
在这个总集合中,就具体的信息而言,特别是复杂度比较高的非结构化信息,其对主体的意义是多重的。主体会从不同的角度去理解使用信息,信息也将支撑主体的多种不同的活动。这些信息彼此之间是有重叠的,存在大量的冗余,而且一个信息可能会有多种存在形式。
主体拥有的信息,总体上看有多种不同类型与多种存在形态。有极少部分是结构化的,绝大部分是各种非结构化信息。它们有的以意识形式存在于头脑之中,有的以非意识形式存在于其他的载体之上。这些信息在大脑的统一管理覆盖下,构成了主体的虚拟世界。
在 IT技术已经能够将越来越多的、独立于具体应用的信息做数字化的今
天,超越像数值计算应用那样仅仅站在一项任务的角度,或者像结构化数据应
用那样仅仅站在一个具体特定的持续活动(应用)的角度,而是以主体的完整视角来管理信息、理解信息和使用信息(设计应用),已经成为可能,而且对于主体而言具有内在的不可替代的合理性。这也是 IT产业发展必然合理的努力方向。
综上所述,当我们采用主体认识论的角度,从宏观上来看一个主体所拥有的信息总集合的时候,信息对主体而言便有了更为深刻和复杂的意义。站在主体的角度,将信息作为一个整体来思考分析,有别于传统的信息理论仅仅针对一个具体的信息作分析。这种分析将提供新的认识、理解与应用信息的视角。这个视角,将成为我们为计算机设计对非结构化信息进行有效的管理方法的基本出发点。由此将带来计算机应用理论与应用实践的新发展,开拓新的、更为广泛的计算机信息智能应用,将计算机应用由主体的一些彼此相对独立的具体活动,提升到主体的全面智能活动的高度。因此必将引发信息产业或者说计算机应用的根本性变化。
如果我们回到(狭义)全信息中定义的支撑信息,其中的“主信息与外部关系的信息”,只有在主体的虚拟世界中才能准确地表达。
当然,计算机的信息处理应用,主体的视角并不是唯一的视角。未来依然会有大量的应用是站在其他的角度看问题和解决问题。但是,站在主体完整的视角看问题和解决问题将是最为核心而且是最为重要的,它将在本质上影响和制约其他类型的应用,因为计算机归根到底是为主体服务的工具,而且越来越多的数字化信息也为计算机更好地服务于主体提供了不断增长的空间。
三、以主体为基础的信息管理:虚拟世界的数字映像
对于一个主体而言,其拥有的信息总集合并不是存贮在一个地方。比如人脑或企业的 IT系统都只拥有一部分信息,大量的信息以不同的形态散布在不同的载体之上。这既与人脑在存贮信息方面有着先天的不足,如容量有限、遗忘、失真等等有关,也与 IT应用发展水平有关。
主体拥有的这些存放在包括人脑等不同地方的信息,靠人脑关联在一起,而构成了自己的虚拟世界。
随着 IT产业的高速发展,依托 IT类产品,越来越多的信息正在不断地被数字化。在结构化数据之外,形成了数量更为巨大的数字化的非结构化信息。站在一个主体的角度来看,这些信息虽然已经被统一地用数字化形态来表达,但是依然散乱地分布在不同的地方,没有被有效地管理,更没有被有效地利用。IT系统目前还是更善于管理与使用结构化信息,对于非结构化信息,还没有形成基本的理论和方法来管理与使用。
用IT 手段将这些信息聚合在一起,统一存放、统一管理从而发挥应有的价值,成为了一个必然的基本而重要的需求。基于前面对主体所拥有的全部信息意义的讨论,一个显而易见的合理方向,也是 IT进一步发展而必须面对的一个核心的问题,就是如何以主体为中心来构建信息管理系统,以便为主体更好地服务。
如前所述,一个主体所拥有的信息的总集合,就是这个主体所拥有的虚
拟世界。当这个虚拟世界的很大一部分信息被存入计算机以便更好地服务于这
个主体的时候,显然它们应该以这个虚拟世界的一个数字映像的形态而存在,或者说被管理起来。
就像在结构化数据应用中,当银行采用 IT技术来实现自己全业务流程的时候,形象地讲其基础与核心就是把原来的账本数字化了。或者说在关系型数据库中,通过实现一个有限维度语义空间,而建立一个传统账本的数字映像。这个映像借助 IT技术,拥有了许多传统账本所不能具有的功能,而相关的业务流程都是建立在这个映像之上的。
如果我们在计算机中成功建立了一个主体的虚拟世界的数字映像,计算机必然能够更好地服务于这个主体:不仅这些信息的直接使用会更为方便,而且这个映像可以有效地支撑基于这些信息的各种应用过程。
所以,以主体为基础的(非结构化)信息管理的一个合理的做法,便是在计算机内部,用某种结构来实现主体虚拟世界的数字映像(后面也简称为主体的“虚拟映像
”)。通过建立这个映像,一方面实现了基于认识主体的信息管理,另一方面也为未来的基于这些信息的应用奠定了基础。
主体虚拟世界的这个数字映像,本质上是一个逻辑的映像,而不是感官意义上的,与虚拟现实技术没有必然的关系。
建立这样的数字映像是否具有可行性?我们是否会重蹈当年人工智能尝试的覆辙?主体的虚拟世界是主体智能的产物,是对真实世界的一种描述,而不是智能本身。这其中被数字化后的信息,是智能产物的形式化表达。如果虚拟世界的数字映像是以这些形式化表达的信息为核心,其他的内容也做合理的界定,则这个数字映像就可以用数学结构、数理逻辑和算法来实现。或者说,虚拟世界的数字映像是否可以实现,取决于我们对数字映像边界的界定。只要界定地合理,目标便可以实现而且对主体而言具有独特的价值。
这种界定,就是在人的智能与计算机的基本计算能力之间寻找一个平衡,让人与机器彼此相互配合支撑,形成一个缝隙尽可能小的组合体。这个映像以及建立在其上的应用,并不是以取代人的智能为目的,而是以弥补人的不足为宗旨。
在这个虚拟世界的数字映像中,主体所拥有的被映射于这个映像中的信
息,一部分是以数字化的信息形式存在,而且绝大部分是非结构化信息;还有一部分是以这些信息之间的关系(结构)的形式而存在。当然,还会有一些信息由于各种原因而没有进入到这个映像之中。这个映像在性质上是描述性的,而不是分析性的,尽管它内部也需要一些分析功能来支撑映像整体的描述完整性与准确性。这个映像通过信息及其相互之间的关联,描述性地反映了主体虚拟世界的性状,而不是试图外化主体的智能。基于这个映像的智能类功能,将会以应用的方式构建在映像之上。
简言而之,这个映像只负责描述,不负责分析。
有多重原因导致主体虚拟世界中的某些信息不进入数字映像(或者说不会以非意识的外在形式存在,因而没有被数字化)。一个原因是有些信息直接由大脑存放和处理时比其他方式更为有效,不必借助于外在手段,尽管这些信息以外在的形式存在并不存在困难;另外还有的原因是有些信息是无法外化为外在形式的。比如,中文中有一个表述是“只可意会不可言传
”,它讲的也是一种人对对象的认识。这种信息的存在就与人特有的智能紧密联系在一起,而无法外化。
因此,相对于原本的主体虚拟世界,其数字映像一方面与其存在永恒的不可绝对消除的差距,而这正体现了人这个主体的不可替代性,其实也就是人的智能的无法替代性;另一方面,这个映像由于利用了 IT技术,在某些方面又具有超越性,比如记忆与逻辑化的操作更加精确、可重复性好、不会遗忘等等。它会具有原本的虚拟世界所不具有的一些更符合人的需求的功能。就好像计算机中的“账本”的功能,会远远超过传统纸质账本那样。而这正体现了工具对人的能力的补充价值。
主体的“虚拟世界的数字映像”这个词或许显得有些虚无。但是,如果回到现实世界中来,我们可以说,我们现在每个人个人电脑中的文件夹系统,其实就是一个比较原始的个人的虚拟世界的数字映像。我们自己设置的文件夹的树形结构,既在一定程度上反映了我们对世界的感受,也在一定程度上体现了我们对自己所拥有的信息之间的宏观结构的理解。只是这个“映像”虽然拥
有大量的信息,但是过于粗糙、过于简单、也过于随意以及严重失真,而没有
能够将我们的虚拟世界的一些主要特征充分反映出来。它既缺少每个信息的(狭义)全信息的描述,宏观结构也很不完整。但是它确实是一个个人虚拟世界数字映像的原始雏形。
要建立一个能够比较好地反映一个主体虚拟世界的数字映像,不是将数字化的、属于主体的信息存放在关系型数据库中或文件夹结构中就能够完成的。因为这个映像不仅要存储信息,而且要能反映出主体虚拟世界的复杂结构。这包括信息及其所反映的对象之间的部分复杂关联,主体对信息的复杂感受和认知方式,以及与每个信息相关的支撑信息。构建这个虚拟世界的数字映像是一个巨大的挑战,需要在对人内心世界和外在客观世界的深入理解基础上,建立恰当的数学结构来有效地描述这个映像,然后综合利用 IT技术将其实现。
这个数字映像的目标,不在于试图去取代主体原来的虚拟世界。而是充分利用技术的优势,构建一个映像,尽可能与主体实现无缝结合,以技术的长处弥补主体及原有信息处理手段的不足,进而帮助主体更加有效地运转自己的虚拟世界。
从另外一个角度来讲,这个数字映像既是一个独立存在的、主体的虚拟世界的一个特定投影,同时它也是主体虚拟世界的一个有机组成部分,它的存在更加丰富完善了主体的虚拟世界。
至于主体的虚拟世界如何更加准确地反映真实的客观世界,则在本质上是认识主体自己必须面对的问题,不在本书讨论的范围之内。
在此我们想再次强调,由于主体的虚拟世界中的信息绝大部分都是非结构化信息,所以在 IT设备大量普及的今天,计算机面对的被数字化的信息绝大多数也是非结构化信息,因此我们进入了当前这个以处理非结构化信息为主要矛盾的 IT应用阶段。
在第四章中引入的“全信息”为非结构化信息的管理和应用提供了微观理论基础,而本章中引入的主体虚拟世界的数字映像则是信息管理与应用的宏观依托,信息的许多隐性的、间接的含义,也将通过这个映像结构被揭示出来。
四、数字化信息与认识主体之间关系的演化历程
以认识主体获取的已经数字化的信息为基础,而不是以智能为出发点,也不是以主体的某些特定活动为出发点,这是前面分析的整体思路的关键之处。以智能为出发点,是传统人工智能的思路;以特定活动为出发点,是传统 IT应用的思路。
在计算机技术的发展历程中,人们曾经试图设计出与人具有相同智能的机器,也就是说试图设计出具有独立主体属性的机器。而我们以主体获取的数字化信息为核心来建立主体虚拟世界的数字映像,不是为了实现一般性广义智能,而是以计算机更好地辅助人为目的。主体依然是人而不是人造的外物。这个目标在原则上是符合我们在第一章中分析的计算机的本质特征的。
在此,我们跳出对具体问题的讨论,简要回顾一下数字化的信息 数据 与主体之间的关系的演化历程。
在数值计算阶段,数据的存在是为了完成一个具体的计算任务。数据是与单次任务紧密捆绑在一起的。数据通过计算任务间接地服务于人这个主体。
在结构化数据应用阶段,数据是为了支撑一个由计算机实现的持续的主体特定活动。数据与活动,也就是应用软件紧密地捆绑在一起。数据是通过这些特定的持续活动而间接地与人发生持续的关联。
在以上两个阶段,信息(数据)都是通过中间媒介(信息应用)而与人发生关系。
而在非结构化信息阶段,信息将要支撑的是主体虚拟世界本身。其实也就是支撑主体全“生命”过程。所以在这个阶段,信息既与前两个阶段一样,通过中间媒介与主体发生关系,同时还将以主体虚拟世界数字映像的形式,与主体直接、持续且紧密地捆绑在了一起。
由此可见,计算机在信息处理应用领域,随着应用的提升,信息(数据)捆绑的对象在发生变化。信息逐步更加与人作为一个整体而靠近。这实际上反映了计算机信息应用的一个重要变化,即计算机与人的无缝结合正在逐渐成为现实。这种结合,是人工系统在信息,或者说是在智能意义上的与主体的结合。这将为计算机的智能化,提供一个与传统人工智能的做法很不相同的思路与方向。在这个意义上看,以主体为基础的信息管理,本身也是众多信息应用中的一种。
计算机应用的每一次提升,并不是抛弃或否定原有的模式,而是在以前的基础上发展出了更新、更为复杂的模式,使得计算机的应用更加丰富和深入。计算机在信息层面与人的无缝结合,或许是计算机应用的最高阶段,尽管做这种预测要冒很大的风险。
之所以做这种预测,是因为基于目前对计算机本质的理解,要想超越这个阶段只有一种可能,就是造出与人一样具有相同一般意义智能的主体。而经过从图灵开始的、无数天才学者近一个世纪不懈的努力,目前这在理论上不具备基本的基础,在实践上也没有坚实的支撑。
计算机与人的无缝结合这个话题,在后面还会做深入的讨论。
五、不同主体的虚拟世界与数字映像
前面,我们主要是针对“个人”这个最基本的认识主体的虚拟世界及其数字映像做了初步的分析。在 IT实际应用中,我们将会面对不同的主体。就目前 IT应用的情况而言,我们可以将主体分为三大类。首先就是基本认识主体——个人;处于中间的是由多人组成、具有明确使命和目标的组织,如企业等;再往上就是城市。目前在全球范围内,智慧城市正在形成一个热潮。所以我们有充足的理由将城市也作为一个主体来对待。
从信息的角度来看,这三类主体的虚拟世界的结构,既有总体上相同的特点,也有具体的不同之处。
首先,这些在量级上有巨大差别的虚拟世界,都包括了相应的主体所拥有的所有信息的总和,而且是这个主体“感受”到并且活动于其中的“真实”的虚拟世界,它既包括了主体所处的外部环境,也包括了主体的自身状况。
它们之间的差别则主要体现在以下几个方面。
1.
信息量的差异。很明显,个人拥有的信息量与一个城市拥有的信息量是有巨大差异的。这将导致具体处理方式和手段上的不同;
2.
主体所处的外部环境的不同。组织主体以企业为例。企业的外部环境非常复杂,个人的要相对简单很多,而对体量最大的城市而言,如果把城市的自然与人文环境看作城市自身的组成部分的话,它的外部环境反倒显得比较简单;
3.主体自身状况的差别。个人的自身状况是最简单的,而且很多内容并不
需要投影到数字映像之中。企业则要复杂的多,包括了人财物等等,而且很有必要投影到数字映像中。城市的自身状况则最为复杂。
所以,个人的虚拟世界更多的是关于主体对外部的感知,城市的虚拟世界则主要是对主体自身的感知,企业则两者兼具。
主体对外部的感知与对自身的感知有一些本质的差异。主体对外部的感知,主要是站在自己的立场用一个有限度的视角去感受。所以它对被感知对象的感受是带有主观色彩的,而且通常是不完整的。这个过程基本是根据自身的活动和生存的需要来感受外部环境的,个人尤其如此。对这个感知过程的抽象,是以对主体的内心活动的全面认识为基础的。这种主观性带来了问题处理上的复杂性。
主体对自身的感知,由于条件完备所以通常是一种完整全面的感知。像城市这样的复杂组合体,是由众多的实体构成,城市对自身内部的感知,是以实体为基本单位,也包括了实体之间的复杂关联。这个结构在整体上更具有客观性,以客观存在的实体及其相互联系为基础。
以上不同的特点,将导致不同类型的主体的虚拟世界具有不同的结构特征,或者说虚拟世界数字映像的结构会有差异。而同一类主体的数字映像,具有相同的基本数学结构,可以构成基础性产品用来解决一大类问题,就像关系型数据库那样。
对于城市这样由大量各种类型的实体(包括物质的也包括非物质的)构成的主体,构造其数字影像,既有巨大的困难,也有容易之处。困难之处在于整个系统的高度错综复杂,容易之处则在于对于这些实体,我们已经有比较丰富完整的、可以利用借鉴的认识。
在建立城市(或城市的一个区域)的数字影像的时候,主要包括以下几个主要内容:
1.相对于外部其他环境,确定映像所反映的主体是谁,确定主体明确的
边界。这是主体相对外部而言的;
2.
确定主体内部包括哪些类别的实体及实体的粒度,确定出最基本的不在此映像中做进一步分解的基本实体。基本实体可以构成高层复杂实体,但基本实体不被再分解。实体的最小粒度取决于映像以后可能需要支撑的应用类型;
3.
建立实体的多维度描述,即一个实体的映像。包括高层实体分解为基本实体的结构,实体的属性特征,以及实体活动的记录等;
4.
不同实体之间的关系。这种关系一类是站在一个实体的视角,来看到的映像的结构;另外一类是站在整体的角度通过对实体之间关系的描述,而反映主体整体的某些方面的特征;
5.对超越局部实体的那些主体的整体性特征的描述;
6.
映像的整体结构应该是站在映像之外,或映像之上看到的结构。应该是多视角多维度的。这个是映像最关键的宏观整体结构。
这种方法与软件设计中的面向对象的方法有许多类似的地方,但是它们之间还是有本质差别的。面向对象的软件设计,是局限于某个应用范围内来做对象的抽象与描述,目的是支撑应用的实现,是微观层面的方法。建立主体映像,则是对一个完整独立的主体来做内部实体的抽象与描述,目的是完成对主体相对准确完整的描述,是超越应用之上的宏观处理。
如前所述,个人的虚拟世界及其数字映像具有城市这样主体的虚拟世界及其数字映像所不同的特点。其主体意识的主观性更强。而且人是最基本的认识主体,具有特殊的基础性意义。针对人这个主体的数字映像的构建将会对整个 IT应用带来实质性影响。所以我们下面将对个人的虚拟世界及其数字映像的构建做深入的讨论。
现代计算机从诞生伊始,便是作为人的辅助智能类工具而存在的。计算机如何更好地服务于个人,始终是 IT应用的最基本与最核心的问题。
在今天这个计算机可以战胜国际象棋世界冠军、好奇号无人火星探测器成功登陆火星正在进行计划为期两年的复杂科学探测任务的时代,个人数字化信息的管理,这个听起来是一个相当简单低级的问题,却依然还没有一个有效的解决方案。这本身是一件非常怪异的事情。
所以当谈论以主体为基础的信息管理与应用的时候,我们首先应该考虑的就是将个人的信息有效地管理起来。由于人是计算机这个辅助智能类工具所辅助的最终对象和目的,也是唯一使信息具有意义的主体,而信息又是计算机应用基本且唯一的材料,所以个人信息管理这个问题的
有效解决,对于 IT产业未来的发展将具有根本性的意义,这将有助于建立 IT应用全新的基本模式。