新書推薦:
《
第十三位陪审员
》
售價:HK$
53.8
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
155.7
《
Python贝叶斯深度学习
》
售價:HK$
89.4
《
文本的密码:社会语境中的宋代文学
》
售價:HK$
67.2
《
启微·狂骉年代:西洋赛马在中国
》
售價:HK$
78.4
《
有趣的中国古建筑
》
售價:HK$
67.0
《
十一年夏至
》
售價:HK$
76.2
《
如何打造成功的商业赛事
》
售價:HK$
89.5
|
內容簡介: |
随着全球经济的深度调整,随着全球经济的深度调整,数字经济已经成为继农业经济、工业经济之后的新型经济形态。国务院发布的《促进大数据发展行动纲要》将数据定性为国家重要的基础性战略资源和核心创新要素;在党的十九大报告中,明确提出推动互联网、大数据、人工智能和实体经济的深度融合,加强信息基础设施建设;在中央政治局第二次集体学习中,习近平总书记明确提出了推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,并要求各级政府着力开展信息基础设施建设、发展地方大数据产业。各地机构改革过程中,大数据成为一大亮点。未来,大数据相关利好政策将进一步加快落地,大数据产业发展的政策环境将进一步优化。随着大数据、云计算、物联网等新一代信息技术取得重大进展,数据规模呈现爆炸式增长。全球数据增速符合大数据摩尔定律,大约每两年翻一番。据IDC公司统计,到2025年全球数据使用量将达到163ZB,将覆盖经济社会发展各个领域。数据资源将成为国家核心竞争力,谁掌握了数据,谁就具备了优势。数据已成为数字经济时代的生产要素,而且是*为关键的生产要素。近年来,我国数字经济获得了高速蓬勃发展,生态环境不断向好。统计显示,2017年,我国数字经济规模达27.2万亿元,占GDP比重达32.9%,已跃居世界第二。预计2019年我国大数据核心产业规模有望突破7200亿元,增速将维持在25-30%左右。数字经济与传统产业深度融合,成为引领我国经济发展的强劲动力。新时代下信息基础设施是围绕数据的产生、传输、存储、处理,并提供数据产品和服务的基础设施体系,是智慧社会、数字中国建设以及数字经济发展的重要基础。在数字经济大潮中,通过两年多的理论凝练和实践。2017年3月,数字经济首次写入政府工作报告。数字经济在中国已上升为国家战略,成为拉动经济增长的重要引擎和产业升级的重大突破口。习近平在2017年12月8日下午中共中央政治局第二次集体学习时强调:推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务地方经济社会发展和人民生活改善。树立智慧党建的理念,充分运用大数据思维方式和技术手段,不断提升党建工作科学化水平。 随着全球经济的深度调整,随着全球经济的深度调整,数字经济已经成为继农业经济、工业经济之后的新型经济形态。国务院发布的《促进大数据发展行动纲要》将数据定性为国家重要的基础性战略资源和核心创新要素;在党的十九大报告中,明确提出推动互联网、大数据、人工智能和实体经济的深度融合,加强信息基础设施建设;在中央政治局第二次集体学习中,习近平总书记明确提出了推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,并要求各级政府着力开展信息基础设施建设、发展地方大数据产业。各地机构改革过程中,大数据成为一大亮点。未来,大数据相关利好政策将进一步加快落地,大数据产业发展的政策环境将进一步优化。随着大数据、云计算、物联网等新一代信息技术取得重大进展,数据规模呈现爆炸式增长。全球数据增速符合大数据摩尔定律,大约每两年翻一番。据IDC公司统计,到2025年全球数据使用量将达到163ZB,将覆盖经济社会发展各个领域。数据资源将成为国家核心竞争力,谁掌握了数据,谁就具备了优势。数据已成为数字经济时代的生产要素,而且是*为关键的生产要素。近年来,我国数字经济获得了高速蓬勃发展,生态环境不断向好。统计显示,2017年,我国数字经济规模达27.2万亿元,占GDP比重达32.9%,已跃居世界第二。预计2019年我国大数据核心产业规模有望突破7200亿元,增速将维持在25-30%左右。数字经济与传统产业深度融合,成为引领我国经济发展的强劲动力。新时代下信息基础设施是围绕数据的产生、传输、存储、处理,并提供数据产品和服务的基础设施体系,是智慧社会、数字中国建设以及数字经济发展的重要基础。在数字经济大潮中,通过两年多的理论凝练和实践。2017年3月,数字经济首次写入政府工作报告。数字经济在中国已上升为国家战略,成为拉动经济增长的重要引擎和产业升级的重大突破口。习近平在2017年12月8日下午中共中央政治局第二次集体学习时强调:推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务地方经济社会发展和人民生活改善。树立智慧党建的理念,充分运用大数据思维方式和技术手段,不断提升党建工作科学化水平。
《数据湖:新时代数字经济基础设施》由城市数据湖理论体系的首创者、*成功的实践者林拥军等创作,并经长时间的实践、研究而完成。书中阐述了城市数据湖作为新时代的数字经济基础设施,按照湖存储、云计算理念,提供海量数据存储、采集整理、数据开放、人工智能应用等大数据服务,实现区域数据汇聚、以及数据驱动的商业和政府决策,助力发展大数据产业,推动区域产业转型升级。同时,对数据的五化理论(碎片化、规模化、资产化、证券化和产业化)进行阐述和归纳。本书也为政府和企业了解数据湖生态体系建设、数据银行(数字经济新业态)的理论与实践创新、及制定数据确权和立法政策等相关的数字经济发展战略提供了建议和参考。
|
關於作者: |
林拥军,中央企业中国华录集团控股上市公司北京易华录信息技术股份有限公司联合创始人、董事、总裁。1988年至1996年期间,就读于清华大学汽车工程系,获取工学硕士学位。
作者首创基于光电磁一体混合云存储城市数据湖理论,长期致力于研究融合数据感知、存储、处理为一体的光电磁一体化云存储系列产品,并在全国多地落地应用,成为支撑城市经济社会转型发展的战略基石。光磁电一体化大数据存储管理云平台已成功入选工信部数据产业发展试点示范项目。
作者荣获吴文俊人工智能科学技术奖一等奖等国家及省部级奖项10余项。担任中国产学研合作促进会常务理事、中国智能交通协会会员、中国互联网发展基金会理事等多项职务,享受国务院特殊津贴,当选为北京市国资委市第十二次党代会代表。
|
目錄:
|
前言
第一章 人类社会进入大数据时代
一、从数据到大数据
二、数据的特征
三、数据的本质
四、大数据战略
第二章 数字经济产业发展
一、关于数字经济
二、数字经济产业发展现状
三、数字经济发展过程中面临的问题
第三章 数据湖的基本特征和理论
一、数据湖理论
二、数据湖的先进性
三、数据湖产业实践
四、数据产业发展的五化理论
第四章 数字经济时代城市基础设施
一、数据湖基础设施
二、数据湖提供的服务
三、城市数据湖产业园生态
四、基础设施建设在数字经济发展中的重要作用
第五章 数字经济新业态数据银行
一、数据交易发展现状与未来趋势
二、数据银行概述
三、数据银行业务探讨
四、数据银行业务探索的意义与重要性
五、数据湖与数据银行的关系
第六章 数据确权、数据立法配套设施
一、国家政策、行业背景
二、我国数据立法的现状及特点
三、数据确权的必要性
四、数据确权的主要内容
五、立法的价值选择
六、立法的路径选择
后记
|
內容試閱:
|
序一
2019年4月,我应北京易华录林拥军总裁邀请到湖南长沙,出席中国华录集团和株洲市人民政府联合举办的互联网岳麓峰会大数据产业论坛,并发表了题为《数字经济时代的机遇与网络安全》的主旨演讲。在这次论坛上,我对易华录提出的数据湖有了一些了解。总的来看,他们提出了在数字经济时代发展大数据产业的一种新模式,在全国也落地了不少实践案例。最近,得知林拥军总裁能够组织团队,总结这些理论和实践成果并最终成书出版,实属可喜可贺。借此机会,我谈谈对大数据的看法。
什么是大数据?是不是数据量比较大,数据共享互联就叫大数据?恐怕不是的。人类文明自诞生以来就有数据这一概念了,数据有其科学的发展过程。远的不说,从计算机处理数据开始,数据的发展分三个阶段。首先是数值计算时代。数值计算时代的特征是用机器代替手工处理数据,将数据处理的过程用信息化的方式来完成。随着数据量的增多,数据除了有相关关系以外,还有语意、语法、相互逻辑,尤其是多媒体时代以后,文件系统处理数据显得不够有力,于是便诞生了关系型数据库。后来,随着数据量的爆炸,又产生了数据仓库。用数字来表达产业与产业的过程,既提高了效率,又加快了进度,可称之为数据工程时代。在这个阶段,数据还是作为处理的基础元素,还没有形成生产的要素。现在的数据是金钱,也是财富,因此,数据已经不再是工具,更不是以前用于计算的数值,数据本身也已成为生产的要素。
那么,到底什么是大数据呢?从科学的角度来定义,大数据是指无法用现有的软件工具进行处理的海量复杂的数据集合,它具有多源异构、非结构化、低价值度、快速处理等特点。也就是说,不能用现有的数据库,也不能用现有数据互联互通的协议来处理的数据才是大数据。
因此,数据大从根本上讲并不是大数据,有什么区别呢?无非就是以下几个区别:第一,以前我们对数据的互通互联是有目的、有对象的,但是大数据却非如此。各种各样的数据都要被收集起来,即便是跟你无关的数据,也可能擦出新的火花。因此,大数据是多源异构,它数量庞大。第二,政府要治理社会,不是简单地将与政府有关的数据收集起来就可以了,更重要的是要收集那些看似没有关系的数据。因此,这些数据收集下来以后是不完全的,是非结构化的。第三,有些数据本身价值密度很低,但数量巨大,那么它就不是大数据。数据再海量也不是大数据。大数据要快进快出,不要把垃圾堆积如山。
大数据是钻石矿,而是钻石矿就会有竞争,就会有捣乱,就会有破坏,会面临大数据时代新的安全风险。怎么办?我们要有科学的网络安全观。杀病毒、防火墙、补漏洞、打补丁,这些是不够的。那么离开封堵查杀,如何保障网络安全?这就要有安全可信的体系。按照《中华人民共和国网络安全法》第十六条,国务院和省、自治区、直辖市人民政府应当统筹规划,加大投入,扶持重点网络安全技术产业和项目,支持网络安全技术的研究开发和应用,推广安全可信的网络产品和服务。《国家网络空间安全战略》也提出夯实网络安全基础,强调尽快在核心技术上取得突破,加快安全可信的产品推广应用。
我国在可信计算领域的创新比较早,从1992年2月第一批成果通过测评和鉴定开始,有关成果被先后应用在国家电网、中央电视台等核心要害部门。目前,我们开启了可信计算3.0时代,下一步要按照国家法律法规、技术标准有关要求,用可信计算3.0夯实网络安全等级保护基础,坚决捍卫国家网络安全。这正是我们要在大数据时代应该做的。
希望通过这篇序言,让更多的人关注和正确认识大数据,关注大数据安全和大数据产业发展,共同携起手来,为国家数字经济建设和网络强国战略推进做出更大的贡献。
中国工程院院士
国家集成电路产业发展咨询委员会委员
国家信息化专家咨询委员会委员
国家三网融合专家组成员
2019年8月于北京
序二
什么是数据湖?根据亚马逊公司的定义,数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。可以按原样存储数据(无须先对数据进行结构化处理),并运行不同类型的分析从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
在这本《数据湖:新时代数字经济基础设施》中,北京易华录信息技术股份有限公司创始人、总裁林拥军先生首创城市数据湖理论体系,围绕城市数据存储、加工、分析、应用,提出独特的大数据解决方案,将城市数据湖打造成为新时代的数字经济基础设施。
2017年8月,我受邀参访易华录,第一次听取了林拥军团队提出的城市数据湖概念和实践。之后我与易华录团队多次在全国各地的大数据会议碰面并交流。今年5月第三届世界智能大会期间,受林总邀请,我在数据湖生态与数据智能高峰论坛上发表主旨演讲,同时也惊喜地发现:短短两年时间,易华录城市数据湖已在全国20多个城市中推广和应用,成为积淀城市数据的重要载体,为各地构建以数据为要素的数字经济打下了坚实的基础。
大数据相关历史
大数据背后是数据科学,而数据科学是关于数据收集、管理、转换、分析与应用的科学,其核心是研究从数据中获取知识,而基础是先记录这些数据。
数据分析的历史可追溯到250年前早期使用统计数据来解决实际问题。在统计学领域,贝叶斯(Bayes)定理在概率论和统计应用的发展中发挥了关键作用。1783年,著名统计学家理查德普莱斯(Richard Price)发表了寿命表,根据他作为精算师的观察结果计算了英格兰人生命持续时间的概率。观察结果以记录行和属性列作为统计分析的基础。这些表现在通常在数据挖掘中用作多维表。因此,从历史的角度来看,多维表应称为理查德普莱斯表,而普莱斯应该被誉为数据分析和数据挖掘之父。
自20世纪50年代以来,随着计算技术逐渐被应用于商业,许多公司已经开发了用于存储和分析所收集数据的数据库。用于处理数据集的数学工具已经从统计学演变为人工智能的方法,包括神经网络和决策树。在20世纪90年代,数据库社区开始使用术语数据挖掘,这与术语数据库中的知识发现是等价的。数据挖掘(常伴随人工干预)、机器学习、数学建模和数据库相交叉,是现在数据分析的常用方法。构建对大数据或数据科学的理论组成部分需要来自数学、社会学、经济学、计算科学和管理科学等学科的共同努力。
大数据挑战
大数据分析或数据挖掘的关键价值在于获取智能知识。大数据分析面临许多挑战。为了在科学、工程和商业应用中利用大数据获益,需要解决以下三个问题:一是半结构化、非结构化数据向结构化数据转变;二是复杂性,不确定性和系统建模;三是理解数据异质性,知识异质性和决策异质性之间的关系。
第一个问题,在云存储和云计算基础上,如何利用信息技术等手段对非结构化和半结构化数据进行有效处理,已成为各国大数据专家共同关注的前沿科研问题。在大数据的学术领域,由于这些数据的复杂性、数据的原理、基本规则和属性,特别是半结构和非结构化数据尚未得到阐明。这种复杂性不仅反映了数据所代表的对象的多样性,而且反映了每个数据集只能呈现给定对象的部分图像的事实:尽管数据集可以准确地表示对象的一个方面,但它无法传达整个图像。因此,数据表示与真实对象之间的关系类似于盲人和大象的关系:所得到的感知图像将在很大程度上取决于所观察的特定方面。
由于最近的进步,Hadoop和MapReduce等技术使得在合理的时间内收集大量半结构化和非结构化数据成为可能。关键的工程挑战是如何有效地分析这些数据并在特定的时间内从中提取知识。可能的第一步是将半结构或非结构化数据转换为结构化数据,然后应用为结构化数据开发的数据挖掘算法。
一旦数据被结构化,已知的数据挖掘算法就可以产生粗略的知识。该过程的这个阶段可以被视为一阶挖掘。结构化粗略知识可以反映决策者在升级为智能知识后可以使用的新属性。此升级需要分析师利用经验,常识和主题专业知识等人类知识,这个阶段称为二阶挖掘。由于知识随个人和情况而变化,因此人机界面(大数据挖掘与人类知识)在大数据分析中起着关键作用。
第二个问题,如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模,这一问题的突破是实现大数据知识发现的前提和关键。大数据的复杂性是由数据的数量和种类引起的,不确定性来自数据表示的性质和多样性的变化。
当某种分析方法应用于大数据时,得到的知识受限于真实对象的特定角度或方面。一旦角度改变,通过收集方法或分析方法获得的知识就不再有用了。例如,在涉及大数据的石油勘探工程中,数据挖掘已应用于由地震测试和测井数据生成的空间数据库。地下地质结构本身很复杂,非线性数据模式可能因尺寸和角度改变而改变。因此,数据挖掘或分析的任何结果仅代表给定表面的知识。如果曲面发生变化,结果也会发生变化。挑战在于确定如何从空间数据的不同表面获得有意义的知识。
为了应对这一挑战,需要对大数据的复杂性和不确定性进行系统建模。建立一个广泛适用于大数据的综合数学系统可能很困难,但通过了解给定主题或领域的特定复杂性或不确定性,可以为特定的大数据表示创建基于领域的系统建模。一系列此类建模结构可以模拟不同主题或领域的大数据分析。
如果工程师能够确定一些处理特定领域大数据的复杂性和不确定性的一般方法,比如金融市场(有数据流和媒体新闻)或互联网购物(图像和媒体评估),这将特别有利于社会和经济发展。工程中的许多已知技术(例如优化、效用理论、期望分析)可用于衡量从大数据获得的粗略知识如何在二阶挖掘过程中有效地与人类判断相结合,从而引出决策所需的智能知识支持。
第三个问题,研究数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响。大数据为决策者带来了数据异质性,知识异质性和决策异质性的问题。传统意义上,决策依赖于从他人和经验中学到的知识。知识获取现在越来越多地基于数据分析和数据挖掘。
与数据一样,决策可以分为结构化,半结构化或非结构化,具体取决于组织中的职责分配。决策者对(定量)数据、信息和(定性)知识的需求根据其责任程度不同而不同。处理日常工作的操作人员做出结构化决策,管理者的决策是基于下属报告(大多数是结构化的)和他们自己的判断的组合,因此是半结构化的。高层管理人员或首席执行官(CEO)做出非结构化的最终决策。
大数据正在颠覆性地改变决策过程。使用大数据分析,可以将运营人员、经理和CEO的职能结合起来,以简化决策制定过程。例如,销售人员可以使用基于大数据挖掘技术的实时信用卡审批系统来快速批准客户的信用额度而无须向主管报告。这样的决定几乎没有风险。销售助理是最终的决策者,代表经理和CEO。
在使用结构化数据的数据挖掘过程中,粗略的知识通常是结构化知识,可以给定其数据格式。在大数据挖掘中,尽管一阶挖掘中的粗略知识源自异构数据,但它可以被视为结构化知识,因为数据挖掘是以结构化数据类型格式执行的。在二阶挖掘阶段,结构化知识与经理或CEO的半结构化或非结构化领域知识相结合,并逐步升级为智能知识。因此,智能知识成为非结构化知识的代表。
如果业务操作仅涉及半结构化和非结构化数据,则结果是没有数据分析的非结构化知识或来自数据挖掘的结构化知识。这种结构化或非结构化知识可能会影响半结构化或非结构化决策,具体取决于所涉及的管理级别。
基于一阶挖掘的粗略知识,通过二阶挖掘搜索智能知识是理解数据异质性,知识异质性和决策异质性之间关系的关键。学习如何通过大数据改变决策制定的成果,需要了解异构数据处理,大数据挖掘,决策者的领域知识以及他们参与决策制定之间的关系。
大数据是人类创造的财富。针对上述三大挑战,任何政府、企业或个人如果在理论或实践方面有所探索、突破,都将更好地造福人类。数据湖概念的提出,以及国内外商业巨头所提出的一系列相应的解决方案,一定程度上回应了大数据发展和应用所面临的挑战。而如书中所述,林拥军团队基于智慧城市、数字生态建设的丰富经验,积极响应国家大数据战略、数字经济发展要求,紧紧围绕数据这一数字经济重要生产资料和核心要素的归集、运用,打造融合数据感知、存储、分析、应用为一体的新时代数字经济基础设施,无疑也是直面上述三大挑战而开展的具有中国特色的有益探索和重要实践。
我真诚地希望无论政府、企业还是个人读者朋友,通过此书,在建设城市大数据基础设施、繁荣区域数字经济发展等方面,获得新的启迪,激发出更多创举!
中国科学院大数据挖掘与知识管理重点实验室主任
国务院参事 第三世界科学院院士
2019年8月于北京
|
|