新書推薦:
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:HK$
89.7
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:HK$
67.9
《
周易
》
售價:HK$
45.8
《
东南亚的传统与发展
》
售價:HK$
69.0
《
乾隆制造
》
售價:HK$
87.4
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:HK$
296.7
《
明代社会变迁时期生活质量研究
》
售價:HK$
308.2
《
律令国家与隋唐文明
》
售價:HK$
74.8
|
編輯推薦: |
清华大学优秀博士学位论文丛书(以下简称优博丛书)精选自2014年以来入选的清华大学校级优秀博士学位论文(Top 5%)。每篇论文经作者进一步修改、充实并增加导师序言后,以专著形式呈现在读者面前。优博丛书选题范围涉及自然科学和人文社会科学各主要领域,覆盖清华大学开设的全部一级学科,代表了清华大学各学科*秀的博士学位论文的水平,反映了相关领域*的科研进展,具有较强的前沿性、系统性和可读性,是广大博硕士研究生开题及撰写学位论文的必备参考,也是科研人员快速和系统了解某一细分领域发展概况、*进展以及创新思路的有效途径。
|
內容簡介: |
由于具有良好的表达能力,图数据结构被广泛用来对元素间具有复杂联系的数据进行建模,如社交网络、知识图谱等。因此,可以对大规模图数据进行分析的处理技术逐渐成为当前学术界和业界的热门研究话题之一。目前,已有为数众多的图计算系统被提出和应用,并取得了巨大的商业成功。本书通过将不同环境下图计算系统的数据载入途径分为四个阶段分别进行了研究,总结出了一系列的优化方法,可为相关研究人员提供参考。
|
目錄:
|
第1章 引言
1.1 大规模图计算
1.2 图计算系统的分类
1.3 图数据高效计算的挑战
1.3.1 图计算的特点
1.3.2 现状和主要优化方向
1.4 主要贡献
1.5 本书组织结构
第2章 相关工作
2.1 基于分布式集群的图计算系统
2.1.1 分布式图计算中的基本概念
2.1.2 分布式图计算中任务的划分算法
2.2 基于外存的图计算系统
2.2.1 外存图计算系统的意义和挑战
2.2.2 以点为中心的外存图计算系统
2.2.3 以边为中心的外存图计算系统
2.3 基于矩阵的图计算引擎
2.4 基于存算融合硬件的图计算系统
第3章 分布式图计算系统的三维任务划分
3.1 概述
3.2 实例研究:协同过滤问题
3.3 三维划分的基本概念
3.4 三维划分下的编程模型
3,4.1 数据模型
3.4.2 UPPS下的三维划分
3.4.3 计算模型
3.4.4 二部图
3.4.5 与GAS模型的比较
3.4.6 例程
3.5 系铳实现
3.5.1 数据载入和划分
3.5.2 Update操作的实现
3.5.3 Push,Pull和Sink操作的实现
3.5.4 基于矩阵的数据结构
3.6 实验结果
3.6.1 测试环境
3.6.2 微型测试集
3.6.3 实际应用
3.6.4 其他讨论
3.7 小结
第4章 外存图计算系统的分层数据组织
4.1 概述
4.2 背景介绍
4.2.1 外存图计算系统中的一维划分:GraphChi
4.2.2 外存图计算系统中的二维划分:GridGraph
4.3 3DGridGraph
4.3.1 分层存储优势
4.3.2 编程模型
4.3.3 实例研究
4.3.4 实现
4.4 测试结果
4.4.1 定量分析
第5章 矩阵计算引擎的自动优化
第6章 拓扑感知的存算融合图计算方法
第7章 总结与展望
参考文献
在学期间发表的学术论文与研究成果
致谢
|
內容試閱:
|
由于具有良好的表达能力,图数据结构被广泛用来对元素间具有复杂联系的数据进行建模。因此,可以对大规模图数据进行分析的处理技术逐渐成为当前学术界和业界的热门研究课题。已有为数众多的图计算系统被提出和应用,并取得了巨大的商业成功。在前人的基础上,本书作者章明星博士持续创新,通过不断地优化图数据在各种不同场景下的载入速度,在多个方向上都取得了重要成果,并在OSDI、ASPLOS、VLDB、ATC、HPCA、ICS等国际高水平会议上发表了多篇论文。此外他的博士学位论文还获评ACM SIGSOFT杰出论文,清华大学优秀博士学位论文,北京市优秀博士学位论文,IEEE TCSC卓越奖(优秀博士学位论文)。
更重要的是,章明星博士在研究图计算这一领域的过程中总结出了一整套的系统优化方法。他通过深入分析,根据图计算本身具有数据局部性差、单个点/边的计算开销小的特点,发现其性能的主要瓶颈在于图数据的载入。基于这一发现,章明星博士将不同场景下的图计算优化统一成一套一致的优化思路,即将整个分布式系统想象成一个多阶的体系结构(CachePIM内存磁盘/网络),然后通过优化每两层之间的局部性来提升整体的运行效率,通过这一思路,在并行图计算、单机内存图计算、单机外存图计算、存算融合加速等多个场景下进行了针对载入瓶颈的细致优化,因而都取得了较大的性能提升。
本书首先描述了现有的图计算系统主要基于一些简单化假设实现这一现象,如点权不可分割、单个计算操作可以孤立地执行等,因此很难达到下层硬件所能支持的*高计算效率。为解决这一问题,作者通过分析发现图计算的主要效率瓶颈在于数据载入速度,于是将不同环境下图计算系统的数据载入途径分为四个阶段分别进行了研究。其主要创新成果包括:①提出了一种三维图计算应用任务划分方法。该方法基于数据图中点权可进一步划分这一发现,*高可以减少90.6%的通讯量,达成4.7倍的提速。这一成果发表于OSDI 2016,为该会议上并列首篇以国内大学为第一单位且有国内大学教师署名的论文。②提出了一种分层的图数据组织格式。通过在外存设备上分层存储图数据,*高可达6.4倍的加速比。③提出了一种矩阵图计算引擎的自动优化算法。该算法主要基于循环融合优化的原理,并同时考虑了分布式环境下关于数据一致性的要求,*高可将原程序加速5.8倍。④提出了一种针对新型存算融合器件的图计算模型。针对存算融合这一全新的支持直接在内存器件上进行计算的体系结构,提出了与之相适配的新型图计算模型,*高可以减少近95%的通讯量。
|
|