登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』大数据基础编程、实验和案例教程

書城自編碼: 3033287
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: 林子雨
國際書號(ISBN): 9787302472094
出版社: 清华大学出版社
出版日期: 2017-08-01
版次: 1 印次: 1
頁數/字數: 368/568000
書度/開本: 32开 釘裝: 平装

售價:HK$ 85.6

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
明式家具三十年经眼录
《 明式家具三十年经眼录 》

售價:HK$ 524.2
敦煌写本文献学(增订本)
《 敦煌写本文献学(增订本) 》

售價:HK$ 221.8
耕读史
《 耕读史 》

售價:HK$ 109.8
地理计算与R语言
《 地理计算与R语言 》

售價:HK$ 121.0
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
《 沈括的知识世界:一种闻见主义的实践(中华学术译丛) 》

售價:HK$ 87.4
大思维:哥伦比亚商学院六步创新思维模型
《 大思维:哥伦比亚商学院六步创新思维模型 》

售價:HK$ 72.8
宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
《 宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】 》

售價:HK$ 155.7
UE5虚幻引擎必修课(视频教学版)
《 UE5虚幻引擎必修课(视频教学版) 》

售價:HK$ 110.9

 

編輯推薦:
步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路? 深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法? 精心设计,巧妙融合,五套大数据实验题目促进理论与编程知识的消化和吸收? 结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程
內容簡介:
本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法。本书内容涵盖操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Sqoop、Kafka、Flume、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、Easel.ly、D3、魔镜、ECharts、Tableau)等。同时,本书还提供了丰富的课程实验和综合案例,以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。
本书是《大数据技术原理与应用概念、存储、处理、分析与应用》的姊妹篇,可以作为高等院校计算机、信息管理等相关专业的大数据课程辅助教材,用于指导大数据编程实践;也可供相关技术人员参考。
關於作者:
作 者 介 绍林子雨(1978),男,博士,厦门大学计算机科学系助理教授,厦门大学云计算与大数据研究中心创始成员,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员;于2001年获得福州大学水利水电专业学士学位,2005年获得厦门大学计算机专业硕士学位,2009年获得北京大学计算机专业博士学位;中国高校首个数字教师提出者和建设者(http:www.cs.xmu.edu.cnlinziyu),2009年至今,数字教师大平台累计向网络免费发布超过100万字高价值的教学和科研资料,累计网络访问量超过100万次。主要研究方向为数据库、数据仓库、数据挖掘、大数据和云计算,发表期刊和会议学术论文多篇,并作为课题组负责人承担了国家自然科学基金和福建省自然科学基金项目。曾作为志愿者翻译了Google Spanner、BigTable和Architecture of a Database System等大量英文学术资料,与广大网友分享,深受欢迎;2013年在厦门大学开设大数据课程,并因在教学领域的突出贡献和学生的认可,成为2013年度和2017年度厦门大学教学类奖教金获得者。主讲课程: 大数据处理技术。个人主页: http:www.cs.xmu.edu.cnlinziyu。Email: ziyulin@xmu.edu.cn。数据库实验室网站: http:dblab.xmu.edu.cn。建设了中国高校大数据课程公共服务平台(http:dblab.xmu.edu.cnpostbigdatateachingplatform),成为全国高校大数据教学知名品牌。平台为教师教学和学生学习大数据课程提供包括教学大纲、讲义PPT、学习指南、备课指南、实验指南、上机习题、授课视频、技术资料等全方位、一站式免费服务,平台年访问量超过100万次;同时提供面向高校的大数据实验平台建设方案和大数据课程师资培训服务。作 者 介 绍
林子雨(1978),男,博士,厦门大学计算机科学系助理教授,厦门大学云计算与大数据研究中心创始成员,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员;于2001年获得福州大学水利水电专业学士学位,2005年获得厦门大学计算机专业硕士学位,2009年获得北京大学计算机专业博士学位;中国高校首个数字教师提出者和建设者(http:www.cs.xmu.edu.cnlinziyu),2009年至今,数字教师大平台累计向网络免费发布超过100万字高价值的教学和科研资料,累计网络访问量超过100万次。主要研究方向为数据库、数据仓库、数据挖掘、大数据和云计算,发表期刊和会议学术论文多篇,并作为课题组负责人承担了国家自然科学基金和福建省自然科学基金项目。曾作为志愿者翻译了Google Spanner、BigTable和Architecture of a Database System等大量英文学术资料,与广大网友分享,深受欢迎;2013年在厦门大学开设大数据课程,并因在教学领域的突出贡献和学生的认可,成为2013年度和2017年度厦门大学教学类奖教金获得者。主讲课程: 大数据处理技术。个人主页: http:www.cs.xmu.edu.cnlinziyu。Email: ziyulin@xmu.edu.cn。数据库实验室网站: http:dblab.xmu.edu.cn。建设了中国高校大数据课程公共服务平台(http:dblab.xmu.edu.cnpostbigdatateachingplatform),成为全国高校大数据教学知名品牌。平台为教师教学和学生学习大数据课程提供包括教学大纲、讲义PPT、学习指南、备课指南、实验指南、上机习题、授课视频、技术资料等全方位、一站式免费服务,平台年访问量超过100万次;同时提供面向高校的大数据实验平台建设方案和大数据课程师资培训服务。
目錄
目录
第1章大数据技术概述1
1.1大数据时代1
1.2大数据关键技术2
1.3大数据软件3
1.3.1Hadoop4
1.3.2Spark5
1.3.3NoSQL数据库5
1.3.4数据可视化6
1.4内容安排7
1.5在线资源8
1.5.1在线资源一览表9
1.5.2下载专区9
1.5.3在线视频10
1.5.4拓展阅读11
1.5.5大数据课程公共服务平台11
1.6本章小结12第2章Linux系统的安装和使用13
2.1Linux系统简介13
2.2Linux系统安装13
2.2.1下载安装文件14
2.2.2Linux系统的安装方式14
2.2.3安装Linux虚拟机15
2.2.4生成Linux虚拟机镜像文件36
2.3Linux系统及相关软件的基本使用方法38
2.3.1Shell38
2.3.2root用户38
2.3.3创建普通用户38〖2〗〖4〗大数据基础编程、实验和案例教程目录〖3〗2.3.4sudo命令39
2.3.5常用的Linux系统命令40
2.3.6文件解压缩40
2.3.7常用的目录41
2.3.8目录的权限41
2.3.9更新APT41
2.3.10切换中英文输入法43
2.3.11vim编辑器的使用方法43
2.3.12在Windows系统中使用SSH方式登录Linux系统44
2.3.13在Linux中安装Eclipse48
2.3.14其他使用技巧49
2.4关于本书内容的一些约定49
2.5本章小结50第3章Hadoop的安装和使用51
3.1Hadoop简介51
3.2安装Hadoop前的准备工作52
3.2.1创建hadoop用户52
3.2.2更新APT52
3.2.3安装SSH52
3.2.4安装Java环境53
3.3安装Hadoop55
3.3.1下载安装文件55
3.3.2单机模式配置56
3.3.3伪分布式模式配置57
3.3.4分布式模式配置66
3.3.5使用Docker搭建Hadoop分布式集群75
3.4本章小结87第4章HDFS操作方法和基础编程88
4.1HDFS操作常用Shell命令88
4.1.1查看命令使用方法88
4.1.2HDFS目录操作90
4.2利用HDFS的Web管理界面92
4.3HDFS编程实践92
4.3.1在Eclipse中创建项目93
4.3.2为项目添加需要用到的JAR包94
4.3.3编写Java应用程序96
4.3.4编译运行程序98
4.3.5应用程序的部署100
4.4本章小结102第5章HBase的安装和基础编程103
5.1安装HBase103
5.1.1下载安装文件103
5.1.2配置环境变量104
5.1.3添加用户权限104
5.1.4查看HBase版本信息104
5.2HBase的配置105
5.2.1单机模式配置105
5.2.2伪分布式配置107
5.3HBase常用Shell命令109
5.3.1在HBase中创建表109
5.3.2添加数据110
5.3.3查看数据110
5.3.4删除数据111
5.3.5删除表112
5.3.6查询历史数据112
5.3.7退出HBase数据库112
5.4HBase编程实践113
5.4.1在Eclipse中创建项目113
5.4.2为项目添加需要用到的JAR包116
5.4.3编写Java应用程序117
5.4.4编译运行程序123
5.4.5应用程序的部署124
5.5本章小结124第6章典型NoSQL数据库的安装和使用125
6.1Redis安装和使用125
6.1.1Redis简介125
6.1.2安装Redis125
6.1.3Redis实例演示127
6.2MongoDB的安装和使用128
6.2.1MongDB简介129
6.2.2安装MongoDB129
6.2.3使用Shell命令操作MongoDB130
6.2.4Java API编程实例136
6.3本章小结139第7章MapReduce基础编程140
7.1词频统计任务要求140
7.2MapReduce程序编写方法141
7.2.1编写Map处理逻辑141
7.2.2编写Reduce处理逻辑141
7.2.3编写main方法142
7.2.4完整的词频统计程序143
7.3编译打包程序144
7.3.1使用命令行编译打包词频统计程序145
7.3.2使用Eclipse编译运行词频统计程序145
7.4运行程序154
7.5本章小结156第8章数据仓库Hive的安装和使用157
8.1Hive的安装157
8.1.1下载安装文件157
8.1.2配置环境变量158
8.1.3修改配置文件158
8.1.4安装并配置MySQL159
8.2Hive的数据类型161
8.3Hive基本操作162
8.3.1创建数据库、表、视图162
8.3.2删除数据库、表、视图163
8.3.3修改数据库、表、视图164
8.3.4查看数据库、表、视图165
8.3.5描述数据库、表、视图165
8.3.6向表中装载数据166
8.3.7查询表中数据166
8.3.8向表中插入数据或从表中导出数据166
8.4Hive应用实例: WordCount167
8.5Hive编程的优势167
8.6本章小结168第9章Spark的安装和基础编程169
9.1基础环境169
9.2安装Spark169
9.2.1下载安装文件169
9.2.2配置相关文件170
9.3使用 Spark Shell编写代码171
9.3.1启动Spark Shell171
9.3.2读取文件172
9.3.3编写词频统计程序174
9.4编写Spark独立应用程序174
9.4.1用Scala语言编写Spark独立应用程序175
9.4.2用Java语言编写Spark独立应用程序178
9.5本章小结182第10章典型的可视化工具的使用方法183
10.1Easel.ly信息图制作方法183
10.1.1信息图183
10.1.2信息图制作基本步骤183
10.2D3可视化库的使用方法186
10.2.1D3可视化库的安装187
10.2.2基本操作187
10.3可视化工具Tableau使用方法194
10.3.1安装Tableau195
10.3.2界面功能介绍195
10.3.3Tableau简单操作197
10.4使用魔镜制作图表202
10.4.1魔镜简介202
10.4.2简单制作实例202
10.5使用ECharts图表制作206
10.5.1ECharts简介206
10.5.2ECharts图表制作方法206
10.5.3两个实例210
10.6本章小结217第11章数据采集工具的安装和使用218
11.1Flume218
11.1.1安装Flume218
11.1.2两个实例220
11.2Kafka225
11.2.1Kafka相关概念225
11.2.2安装Kafka225
11.2.3一个实例225
11.3Sqoop227
11.3.1下载安装文件227
11.3.2修改配置文件228
11.3.3配置环境变量228
11.3.4添加MySQL驱动程序228
11.3.5测试与MySQL的连接229
11.4实例: 编写Spark程序使用Kafka数据源230
11.4.1Kafka准备工作230
11.4.2Spark准备工作232
11.4.3编写Spark程序使用Kafka数据源234
11.5本章小结239第12章大数据课程综合实验案例241
12.1案例简介241
12.1.1案例目的241
12.1.2适用对象241
12.1.3时间安排241
12.1.4预备知识241
12.1.5硬件要求242
12.1.6软件工具242
12.1.7数据集242
12.1.8案例任务242
12.2实验环境搭建243
12.3实验步骤概述244
12.4本地数据集上传到数据仓库Hive245
12.4.1实验数据集的下载245
12.4.2数据集的预处理246
12.4.3导入数据库249
12.5Hive数据分析253
12.5.1简单查询分析253
12.5.2查询条数统计分析255
12.5.3关键字条件查询分析256
12.5.4根据用户行为分析258
12.5.5用户实时查询分析259
12.6Hive、MySQL、HBase数据互导260
12.6.1Hive预操作260
12.6.2使用Sqoop将数据从Hive导入MySQL261
12.6.3使用Sqoop将数据从MySQL导入HBase265
12.6.4使用HBase Java API把数据从本地导入到HBase中269
12.7利用R进行数据可视化分析275
12.7.1安装R275
12.7.2安装依赖库277
12.7.3可视化分析278
12.8本章小结283第13章实验284
13.1实验一: 熟悉常用的Linux操作和Hadoop操作284
13.1.1实验目的284
13.1.2实验平台284
13.1.3实验步骤284
13.1.4实验报告286
13.2实验二: 熟悉常用的HDFS操作286
13.2.1实验目的286
13.2.2实验平台286
13.2.3实验步骤287
13.2.4实验报告287
13.3实验三: 熟悉常用的HBase操作288
13.3.1实验目的288
13.3.2实验平台288
13.3.3实验步骤288
13.3.4实验报告290
13.4实验四: NoSQL和关系数据库的操作比较290
13.4.1实验目的290
13.4.2实验平台290
13.4.3实验步骤290
13.4.4实验报告293
13.5实验五: MapReduce初级编程实践294
13.5.1实验目的294
13.5.2实验平台294
13.5.3实验步骤294
13.5.4实验报告297附录A大数据课程实验答案298
A.1实验一: 熟悉常用的Linux操作和Hadoop操作298
A.1.1实验目的298
A.1.2实验平台298
A.1.3实验步骤298
A.2实验二: 熟悉常用的HDFS操作303
A.2.1实验目的303
A.2.2实验平台303
A.2.3实验步骤303
A.3实验三: 熟悉常用的HBase操作323
A.3.1实验目的323
A.3.2实验平台323
A.3.3实验步骤323
A.4实验四: NoSQL和关系数据库的操作比较331
A.4.1实验目的331
A.4.2实验平台331
A.4.3实验步骤332
A.5实验五: MapReduce初级编程实践349
A.5.1实验目的349
A.5.2实验平台349
A.5.3实验步骤350附录BLinux系统中的MySQL安装及常用操作360
B.1安装MySQL360
B.2MySQL常用操作363参考文献367
內容試閱
扫一扫访问平台主页大数据带来了信息技术的巨大变革,并深刻影响着社会生产和人民生活的方方面面。大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,需要及时建立大数据课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。高质量的教材是推进高校大数据课程体系建设的关键支撑。2013年12月,笔者根据自己主讲厦门大学计算机系研究生大数据课程的教学实践,编写了电子书《大数据技术基础》,通过网络免费发布,获得了较好的反响。此后两年多的时间里,笔者继续对大数据技术知识体系进行深入学习和系统梳理,并结合教学实践和大量调研,编著出版了《大数据技术原理与应用》教材,该书第1版于2015年8月出版发行,第2版于2017年2月出版发行。《大数据技术原理与应用》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以构建知识体系、阐明基本原理、开展初级实践、了解相关应用为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。《大数据技术原理与应用》一书出版以后,获得了读者较高的认可,目前已经成为国内多所高校的大数据课程教材。与此同时,笔者在最近两年通过各种形式助力全国高校加快推进大数据课程建设,包括建设全国高校大数据课程公共服务平台、开展全国高校大数据公开课巡讲计划、组织全国高校大数据教学论坛、举办全国高校大数据课程教师培训交流班等。通过这些活动,笔者与全国高校广大大数据课程教师有了更深的接触和交流,也收集到了广大一线教师的核心教学需求。很多高校教师在高度肯定《大数据技术原理与应用》教材的同时,也提出了很多中肯的改进意见和建议,其中,有很多教师指出,应该加强大数据实践环节的训练,提供实验指导和综合案例。为了更好地满足高校教学实际需求,笔者带领厦门大学数据库实验团队,开展了大量的探索和实践,并对实践材料进行系统整理,在此基础上编写了本教程。本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本书中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。〖2〗〖4〗大数据基础编程、实验和案例教程前言〖3〗本书共13章,详细介绍系统和软件的安装、使用以及基础编程方法。第1章介绍大数据的关键技术和代表性软件,帮助读者形成对大数据技术及其代表性软件的总体性认识。第2章介绍Linux系统的安装和使用方法,为后面其他章节的学习奠定基础。第3章介绍分布式计算框架Hadoop的安装和使用方法。第4章介绍分布式文件系统HDFS的基础编程方法。第5章介绍分布式数据库HBase的安装和基础编程方法。第6章介绍典型NoSQL数据库的安装和使用方法,包括键值数据库Redis和文档数据库MongoDB。第7章介绍如何编写基本的MapReduce程序。第8章介绍基于Hadoop的数据仓库Hive的安装和使用方法。第9章介绍基于内存的分布式计算框架Spark的安装和基础编程方法。第10章介绍5种典型的可视化工具的安装和使用方法,包括Easel.ly、D3、魔镜、ECharts、Tableau等。第11章介绍数据采集工具的安装和使用方法,包括Flume、Kafka和Sqoop。第12章介绍一个大数据课程综合实验案例,即网站用户购物行为分析。第13章通过5个实验让读者加深对知识的理解。本书面向高校计算机和信息管理等相关专业的学生,可以作为专业必修课或选修课的辅助教材。本书是《大数据技术原理与应用》的姊妹篇,可以作为《大数据技术原理与应用》的辅助配套教程,两本书组合使用,可以达到更好的学习效果。此外,本书也可以和市场上现有的其他大数据教材配套使用,作为教学辅助用书。本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。本书的官方网站是http:dblab.xmu.edu.cnpostbigdatapractice,免费提供了全部配套资源的在线浏览和下载,并接受错误反馈和发布勘误信息。同时,在学习大数据课程的过程中,欢迎读者访问厦门大学数据库实验室建设的国内高校首个大数据课程公共服务平台(http:dblab.xmu.edu.cnpostbigdatateachingplatform),该平台为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。本书在撰写过程中,参考了大量网络资料,对大数据技术及其典型软件进行了系统梳理,有选择地把一些重要知识纳入本书。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。
林子雨2017年2月于厦门大学计算机科学系数据库实验室


第5章HBase的安装和基础编程HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价的计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。Hadoop安装以后,不包含HBase组件,需要另外安装。本章首先介绍HBase的安装方法,并介绍HBase的两种不同模式的配置方法,包括单机模式和伪分布式模式,然后介绍一些操作HBase的常用的Shell命令,最后,介绍如何使用Eclipse开发可以操作HBase数据库的Java应用程序。5.1安装HBase本节介绍HBase的安装方法,包括下载安装文件、配置环境变量、添加用户权限等。5.1.1下载安装文件HBase是Hadoop生态系统中的一个组件,但是,Hadoop安装以后,本身并不包含HBase,因此,需要单独安装HBase。登录Linux系统,在Linux系统(不是Windows系统)中打开火狐浏览器,访问本书官网的下载专区,在软件目录下下载HBase安装文件hbase1.1.5bin.tar.gz。火狐浏览器会默认把下载文件都保存到当前用户的下载目录,由于本书全部采用hadoop用户登录Linux系统,所以,hbase1.1.5bin.tar.gz文件会被保存到homehadoop下载目录下。需要注意的是,如果是在Windows系统下面下载安装文件hbase1.1.5bin.tar.gz,则需要通过FTP软件上传到Linux系统的homehadoop下载目录下,这个目录是本书所有安装文件的中转站。下载完安装文件以后,需要对文件进行解压。按照Linux系统使用的默认规范,用户安装的软件一般都是存放在usrlocal目录下。使用hadoop用户登录Linux系统,打开一个终端,执行如下命令:$ sudotar-zxf~下载hbase-1.1.5-bin.tar.gz-Cusrlocal将解压的文件名hbase1.1.5改为hbase,以方便使用,命令如下:〖2〗〖4〗大数据基础编程、实验和案例教程第5章HBase的安装和基础编程〖3〗$ sudomvusrlocalhbase-1.1.5usrlocalhbase5.1.2配置环境变量将HBase安装目录下的bin目录(即usrlocalhbasebin)添加到系统的PATH环境变量中,这样,每次启动HBase时就不需要到usrlocalhbase目录下执行启动命令,方便HBase的使用。使用vim编辑器打开~.bashrc文件,命令如下:$ vim ~.bashrc打开.bashrc文件以后,可以看到,已经存在如下所示的PATH环境变量的配置信息,因为,之前在第3章安装配置Hadoop时,已经为Hadoop添加了PATH环境变量的配置信息:$ export PATH=$PATH:usrlocalhadoopsbin:usrlocalhadoopbin这里需要把HBase的bin目录usrlocalhbasebin追加到PATH中。当要在PATH中继续加入新的路径时,只要用英文冒号:隔开,把新的路径加到后面即可,追加后的结果如下:$ export PATH=$PATH:usrlocalhadoopsbin:usrlocalhadoopbin:usrlocalhbasebin添加后执行如下命令使设置生效:$ source ~.bashrc5.1.3添加用户权限需要为当前登录Linux系统的hadoop用户添加访问HBase目录的权限,将HBase安装目录下的所有文件的所有者改为hadoop,命令如下:$ cdusrlocal$ sudochown-Rhadoop.hbase5.1.4查看HBase版本信息可以通过如下命令查看HBase版本信息,以确认HBase已经安装成功:$ usrlocalhbasebinhbase version执行上述命令以后,如果出现如图51所示的信息,则说明安装成功。图51查看HBase版本信息5.2HBase的配置HBase有3种运行模式,即单机模式、伪分布式模式和分布式模式。1 单机模式: 采用本地文件系统存储数据。2 伪分布式模式: 采用伪分布式模式的HDFS存储数据。3 分布式模式: 采用分布式模式的HDFS存储数据。本书仅介绍单机模式和伪分布式模式。在进行HBase配置之前,需要确认已经安装了3个组件: JDK、Hadoop、SSH。HBase单机模式不需要安装Hadoop,伪分布式模式和分布式模式需要安装Hadoop。JDK、Hadoop和SSH的安装方法,已经在第3章中做了详细介绍,如果已经按照第3章的方法安装了Hadoop,则这里不需要另外安装JDK、Hadoop和SSH。5.2.1单机模式配置〖*2〗1. 配置hbaseenv.sh文件使用vim编辑器打开usrlocalhbaseconfhbaseenv.sh,命令如下:$ vim usrlocalhbaseconfhbase-env.sh打开hbaseenv.sh文件以后,需要在hbaseenv.sh文件中配置JAVA环境变量,在第3章中已经配置了JAVA_HOME=usrlibjvmjava7openjdkamd64,这里可以直接复制该配置信息到hbaseenv.sh文件中。此外,还需要添加Zookeeper配置信息,配置HBASE_MANAGES_ZK为true,表示由HBase自己管理Zookeeper,不需要单独的Zookeeper,由于hbaseenv.sh文件中本来就存在这些变量的配置,因此,只需要删除前面的注释符号#并修改配置内容即可,修改后的hbaseenv.sh文件应该包含如下两行信息:export JAVA_HOME=usrlibjvmjava-7-openjdk-amd64export HBASE_MANAGES_ZK=true修改完成以后,保存hbaseenv.sh文件并退出vim编辑器。2. 配置hbasesite.xml文件使用vim编辑器打开并编辑usrlocalhbaseconfhbasesite.xml文件,命令如下:$ vim usrlocalhbaseconfhbase-site.xml在hbasesite.xml文件中,需要设置属性hbase.rootdir,用于指定HBase数据的存储位置,如果没有设置,则hbase.rootdir默认为tmphbase${user.name},这意味着每次重启系统都会丢失数据。这里把hbase.rootdir设置为HBase安装目录下的hbasetmp文件夹,即usrlocalhbasehbasetmp,修改后的hbasesite.xml文件中的配置信息如下:hbase.rootdirfile:usrlocalhbasehbase-tmp保存hbasesite.xml文件,并退出vim编辑器。3. 启动并运行HBase现在就可以测试运行HBase,命令如下:$ cd usrlocalhbase$ binstart-hbase.sh#启动HBase$ binhbase shell#进入HBase Shell命令行模式进入HBase Shell命令行模式以后,用户可以通过输入Shell命令操作HBase数据库。成功启动HBase后会出现如图52所示的界面。图52进入HBase Shell模式最后可以使用如下命令停止HBase运行:$ binstop-hbase.sh需要说明的是,如果在操作HBase的过程中发生错误,可以查看{HBASE_HOME}目录(即usrlocalhbase)下的logs子目录中的日志文件,来寻找可能的错误原因,然后搜索网络资料寻找相关解决方案。5.2.2伪分布式配置〖*2〗1. 配置hbaseenv.sh文件使用vim编辑器打开usrlocalhbaseconfhbaseenv.sh,命令如下:$ vim usrlocalhbaseconfhbase-env.sh打开hbaseenv.sh文件以后,需要在hbaseenv.sh文件中配置JAVA_HOME、HBASE_CLASSPATH和HBASE_MANAGES_ZK。其中,HBASE_CLASSPATH设置为本机Hadoop安装目录下的conf目录(即usrlocalhadoopconf)。JAVA_HOME和HBASE_MANAGES_ZK的配置方法和上面单机模式的配置方法相同。修改后的hbaseenv.sh文件应该包含如下3行信息:export JAVA_HOME=usrlibjvmjava-7-openjdk-amd64export HBASE_CLASSPATH=usrlocalhadoopconfexport HBASE_MANAGES_ZK=true修改完成以后,保存hbaseenv.sh文件并退出vim编辑器。2. 配置hbasesite.xml文件使用vim编辑器打开并编辑usrlocalhbaseconfhbasesite.xml文件,命令如下:$ vim usrlocalhbaseconfhbase-site.xml在hbasesite.xml文件中,需要设置属性hbase.rootdir,用于指定HBase数据的存储位置。在HBase伪分布式模式中,使用伪分布式模式的HDFS存储数据,因此,需要把hbase.rootdir设置为HBase在HDFS上的存储路径。根据第3章Hadoop伪分布式模式的配置可以知道,HDFS的访问路径为hdfs:localhost:9000,因为,这里设置hbase.rootdir为hdfs:localhost:9000hbase。此外,由于采用了伪分布式模式,因此,还需要将属性hbase.cluter.distributed设置为true。修改后的hbasesite.xml文件中的配置信息如下:hbase.rootdirhdfs:localhost:9000hbasehbase.cluster.distributedtrue保存hbasesite.xml文件,并退出vim编辑器。3. 启动运行HBase首先登录SSH,由于之前在第3章中已经设置了无密码登录,因此这里不需要密码;然后切换至usrlocalhadoop,启动Hadoop,让HDFS进入运行状态,从而可以为HBase存储数据,具体命令如下:$ ssh localhost$ cd usrlocalhadoop$ .sbinstart-dfs.sh输入命令jps,如果能够看到NameNode、DataNode和SecondaryNameNode这3个进程,则表示已经成功启动Hadoop。然后启动HBase,命令如下:$ cd usrlocalhbase$ binstart-hbase.sh输入命令jps,如果出现以下进程,则说明HBase启动成功:JpsHMaster

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.