新書推薦:
《
未来特工局
》
售價:HK$
55.8
《
高术莫用(十周年纪念版 逝去的武林续篇 薛颠传世之作 武学尊师李仲轩家世 凸显京津地区一支世家的百年沉浮)
》
售價:HK$
54.9
《
英国简史(刘金源教授作品)
》
售價:HK$
98.6
《
便宜货:廉价商品与美国消费社会的形成
》
售價:HK$
77.3
《
读书是一辈子的事(2024年新版)
》
售價:HK$
77.3
《
乐道文库·什么是秦汉史
》
售價:HK$
80.6
《
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
》
售價:HK$
109.8
《
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
》
售價:HK$
109.8
內容簡介:
本书着重介绍大数据的基本概念、架构以及主流的大数据系统等方面内容,涵盖了大数据融合、存储、分析、隐私、系统等方面的内容,具体包括:大数据的概念、演变过程和处理模式,大数据融合的概念、独特性、任务和方法论,大数据存储与管理方法以及计算与存储融合的技术,大数据分析技术,大数据隐私保护,大数据管理系统等。本书主要面向的读者为对大数据领域有兴趣的学生、研究人员和相关从业人员等。
關於作者:
中国人民大学信息学院副院长,博士生导师、教授。现为中国计算机学会常务理事、中国计算机学会数据库专委会秘书长,《Journal of Computer Science and Technology》、《Frontiers of Computer Science in China》、《软件学报》、《计算机研究与发展》等编委。
目錄 :
‖目 录
丛书前言
前言
作者简介
第1章 概述1
1.1 大数据的基本概念1
1.2 大数据的演变过程2
1.3 大数据应用4
1.4 大数据的处理模式6
1.4.1 批处理7
1.4.2 流处理8
1.5 大数据管理的关键技术9
1.5.1 大数据融合9
1.5.2 大数据分析10
1.5.3 大数据隐私11
1.5.4 大数据能耗12
1.5.5 大数据处理与硬件的协同13
1.6 小结15
第2章 大数据融合16
2.1 引言16
2.2 大数据融合的概念17
2.2.1 大数据融合需求的独特性18
2.2.2 大数据融合对象的独特性20
2.3 大数据融合的方法论23
2.3.1 数据库视角下的融合23
2.3.2 认知计算和人工智能视角下的融合25
2.3.3 两种融合方式的对比分析28
2.3.4 大数据融合范式30
2.4 数据融合技术32
2.4.1 模式本体对齐32
2.4.2 实体链接33
2.4.3 冲突解决34
2.4.4 知识库自适应发展35
2.5 知识融合技术36
2.5.1 知识抽象与建模36
2.5.2 关系推演37
2.5.3 深度知识发现38
2.5.4 普适机理的剖析和归纳39
2.6 大数据融合的驱动枢纽40
2.6.1 智能晶格40
2.6.2 迁移学习40
2.6.3 数据溯源41
2.6.4 D&2V处理42
2.7 小结43
第3章 大数据存储44
3.1 引言44
3.2 大数据存储与管理方法46
3.2.1 基于PCM的主存架构47
3.2.2 基于闪存的主存扩展架构47
3.2.3 基于多存储介质的分层存储架构48
3.2.4 分布式存储与缓存架构49
3.3 基于新型存储的大数据管理50
3.3.1 存储管理50
3.3.2 索引管理51
3.3.3 查询处理52
3.3.4 事务处理53
3.3.5 大数据分析53
3.4 大数据处理与存储一体化技术54
3.4.1 一体化架构中的大数据存储55
3.4.2 一体化架构中的大数据处理56
3.4.3 一体化架构面临的挑战57
3.5 小结58
第4章 大数据分析60
4.1 引言60
4.1.1 传统的数据分析技术60
4.1.2 大数据的分析技术62
4.2 大数据的实时分析64
4.2.1 实时分析的背景和概念64
4.2.2 实时分析技术66
4.3 大数据的交互式分析70
4.3.1 交互式分析的背景和概念70
4.3.2 交互式分析技术71
4.4 云在线聚集74
4.4.1 云在线聚集技术的背景和概念74
4.4.2 云在线聚集的关键技术77
4.5 大数据的智能分析81
4.5.1 大数据分析中的计算智能81
4.5.2 智能分析的主要技术82
4.6 小结84
第5章 大数据隐私85
5.1 引言85
5.1.1 大数据的类型86
5.1.2 隐私特征与类别87
5.1.3 大数据的隐私风险88
5.2 隐私保护技术91
5.2.1 匿名化技术91
5.2.2 数据加密技术92
5.2.3 差分隐私技术93
5.2.4 隐私信息检索技术94
5.3 隐私保护技术的应用94
5.3.1 位置大数据中的隐私保护95
5.3.2 数据发布和分析中的隐私保护97
5.3.3 互联网搜索中的隐私保护101
5.3.4 云计算中的隐私保护103
5.4 大数据隐私管理107
5.4.1 隐私管理的目标107
5.4.2 主动式隐私管理框架108
5.5 小结110
第6章 大数据管理系统111
6.1 引言111
6.2 云计算:大数据的基础平台与支撑技术112
6.3 批数据与流数据管理系统116
6.3.1 批数据管理系统118
6.3.2 流数据管理系统119
6.3.3 混合处理系统120
6.4 SQL、NoSQL与NewSQL系统121
6.4.1 SQL类数据库123
6.4.2 NoSQL类数据库125
6.4.3 NewSQL类数据库128
6.5 小结129
第7章 基于大数据的交叉学科研究131
7.1 引言131
7.2 在线用户行为演化研究133
7.2.1 在线用户行为大数据133
7.2.2 在线用户行为演化134
7.3 在线用户兴趣长程演化135
7.3.1 理论与方法136
7.3.2 在线用户兴趣演化分析137
7.4 在线用户集体注意力流141
7.4.1 注意力流网络142
7.4.2 注意力流网络中的异速标度律143
7.4.3 注意力流的应用:Web站点排名144
7.5 在线用户集体注意力流的普适模式146
7.5.1 异速标度律147
7.5.2 耗散律149
7.5.3 引力律150
7.5.4 Heaps律151
7.6 小结152
附录 大数据思考154
附录A 大数据与小数据154
附录B 数据的起源158
附录C 大数据时代的信息系统161
附录D 数据库(DB)与大数据(BD)163
附录E 大数据多学科交叉研究166
附录F 创新数据管理研究2.0168
附录G 面向移动计算与云计算的数据管理170
附录H 大数据时代的到来:数据空间与闪存数据库研究172
附录I 隐私保护研究175
附录J 网络与移动数据管理研究176
附录K 大数据管理基石:Web数据管理178
附录L 大数据管理基石:数据集成181
附录M 从数据库大师看数据库发展182
参考文献185
內容試閱 :
‖前 言陈寅恪先生说:一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。对今天的信息技术而言,新材料即为大数据,而新问题则是产生于新材料之上的新的应用需求。
对数据库领域而言,真正的预流是Jim Gray和Michael Stone-braker等大师们。十三年前面对数据库领域还能再活跃30年吗这一问题,Jim Gray给出的回答是:不可能。在数据库领域里,我们已经非常狭隘。但他转而回答到:SIGMOD这个词中的MOD表示数据管理。对我来说,数据管理包含很多工作,如收集数据、存储数据、组织数据、分析数据和表示数据,特别是数据表示部分。针对数据查询已经做了相当多的工作,但这些工作仅仅围绕查询画了个艾普西龙球面,而没有真正超越它。所以,如果我们还像以前一样把研究与现实脱离开来,还继续保持狭隘的眼光审视自己所做的研究,数据库领域将要消失,因为那些研究越来越偏离实际。现在人们已经拥有太多数据,而我对许多人说我们仅仅希望拥有更多的时间。所以,整个数据收集、数据分析和数据简单化的工作就是能准确地给予人们所要的数据,而不是把所有的数据都提供给他们。这个问题不会消失,而是会变得越来越重要。如果你用一种大而广的眼光看,数据库是一个蓬勃发展的领域;如果采用审视的眼光看,现在做的很多研究对30年后的人们不会产生任何影响(见《数据库大师访谈录》)。
最近人们提出了数据湖,以区别传统的数据库技术。两者的差别到底何在呢?偶读了费孝通先生所著的《乡土中国》后,笔者略有所悟。费老分析总结了中国乡土社会结构,指出中国社会呈现出所谓的差序格局,而西方社会呈现的是团体格局。传统数据库结构关系单一,呈现状态犹如团体格局,即以单个实体为本位,实体之间的关系好比一捆柴,几根成一把,几把成一扎,条理清楚,有共同的模式可循。而当下大数据来源广泛,关系复杂,远近亲疏各不同,这种关系就好比差序格局,以语义主题为本位,每类实体都以自我为中心按照与其他实体的语义关系为主线结成网络,这个网络按照语义关系的紧密亲疏呈现差序状态,就如同湖面丢下的石子形成的水波纹依中心扩散开去的样子。这种状态随着实体间关系的变化而动态演化,并且每个网络的大小不同,体现的语义关系也不同,蕴含的价值也不同。
数据库的团体格局本质上是先有模式后有数据,因此数据集成可以采用中介模式(GAV和LAV)以自顶向下的方式实现集成。数据湖的差序格局是先有数据后有模式,因此需要按照自底向上的方式以一种大数据融合的方法实现集成。大数据融合即建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中一个个维系我们社会的水波纹(即语义关联的紧密程度)。
本书集成了大数据融合、存储、分析、隐私和系统等方面的工作,其组织结构如下:第1章描述大数据的概念、演变过程和处理模式;第2章提出大数据融合的概念,分析大数据融合的独特性和任务,给出大数据融合的方法论;第3章介绍大数据存储与管理方法;第4章描述大数据分析技术,包括实时分析、交互分析、智能分析等;第5章讲述大数据涉及的隐私问题,主要介绍不同领域中的隐私保护问题及其隐私保护技术;第6章介绍大数据管理系统,并分析其体系结构;第7章是基于大数据的交叉学科研究,介绍在线用户行为演化的相关研究。
本书中涉及的研究工作得到众多科研项目的支持,其中包括:国家自然基金重点项目大规模关联数据管理的关键技术研究(编号:61532010);国家自然基金重点项目面向大数据内存计算的计算机体系结构(编号:61532016);国家重点研发项目科学大数据管理系统(编号:2016YFB1000600);中国人民大学重点科学研究基金重大基础研究项目社会计算若干关键问题研究(编号:11XNL010);高等学校博士学科点专项科研基金优先领域课题云计算环境下的在线聚集技术研究(编号:20130004130001);国家自然基金重大研究计划重点项目大数据开放与治理中的隐私保护关键技术研究(编号:91646203)。
本书架构的安排以及统稿、审校工作由孟小峰组织完成,这里要特别感谢王春凯、杜治娟、郭崎、杨晨、王硕、叶青青和李勇,在本书的编写过程中他们给予了极大的帮助。
本书涉及面广,内容丰富,术语量大,如果在阅读过程中发现有不当之处,恳请读者批评指正;如果有任何建议或意见,欢迎发邮件与作者(xfmeng@ruc.edu.cn)联系。
孟小峰2016年9月28日于北京