登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書

『簡體書』大数据分析方法

書城自編碼: 3025435
分類:簡體書→大陸圖書→工業技術一般工业技术
作者: 陆红著
國際書號(ISBN): 9787504764164
出版社: 中国财富出版社
出版日期: 2017-04-01
版次: 1 印次: 1
頁數/字數: 160/180
書度/開本: 16开 釘裝: 平装

售價:HK$ 69.6

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
重大决策社会稳定风险评估指南:理论·方法·案例
《 重大决策社会稳定风险评估指南:理论·方法·案例 》

售價:HK$ 147.2
俾斯麦与德意志崛起(牛津大学课堂讲义,带你重新审视俾斯麦与德国近代史!德裔英国历史学家埃里克·埃克,用全新的视角,重新为你解读德意志统一的神话!世界历史)
《 俾斯麦与德意志崛起(牛津大学课堂讲义,带你重新审视俾斯麦与德国近代史!德裔英国历史学家埃里克·埃克,用全新的视角,重新为你解读德意志统一的神话!世界历史) 》

售價:HK$ 68.8
现代工笔重彩画技法解析
《 现代工笔重彩画技法解析 》

售價:HK$ 102.4
欧洲文明的进程(《欧洲文明十五讲》的延伸与细化,欧洲学创始人陈乐民巨作,深度解析欧洲的发展真相)
《 欧洲文明的进程(《欧洲文明十五讲》的延伸与细化,欧洲学创始人陈乐民巨作,深度解析欧洲的发展真相) 》

售價:HK$ 158.7
法理学十六讲:主题与理论
《 法理学十六讲:主题与理论 》

售價:HK$ 82.8
少年解码侦探团(全6册)旗语密码、字母数字密码、加密暗号密码、多重密码、语言密码!每册解锁一种!沉浸式解码,提升专注力、逻辑思维能力!
《 少年解码侦探团(全6册)旗语密码、字母数字密码、加密暗号密码、多重密码、语言密码!每册解锁一种!沉浸式解码,提升专注力、逻辑思维能力! 》

售價:HK$ 205.6
宝鸡出土商周青铜器铭文研究
《 宝鸡出土商周青铜器铭文研究 》

售價:HK$ 308.2
地方戏曲文献汇编.河北卷.中(全三册)
《 地方戏曲文献汇编.河北卷.中(全三册) 》

售價:HK$ 1147.7

 

編輯推薦:
作者开展大数据分析项目研究方法的总结和归纳,内容极基实用
內容簡介:
本书围绕大数据分析方法,阐述了大数据采集方法,大数据清洗方法,详细介绍了大数据存储方法,大数据分布式计算方法,大数据分析模型构建方法,大数据分析模型检验方法,大数据分析模型优化方法。全书提供了大量的案例,对程序进行了详细的分析和解读。本书的实用价值较高,对从事大数据分析的科研人员、研发人员具有一定的借鉴参考作用。
關於作者:
陆红,副教授,北京信息职业技术学院技术应用研究所所长,多年从事计算机领域研究,主要研究方向:大数据、人工智能、软件技术。主持多项省部级课题,其中一项获教育部科技成果奖。编写多部著作,发表多篇相关领域的学术论文。作为多个部委专家,主持完成多个部委信息化建设标准制定工作。主持完成多个部委信息化建设项目。
目錄
目录
1大数据采集处理方法1
11爬虫程序设计方案1
12爬虫程序实现方法5
13数据清洗20
2大数据存储方法27
21分布式文件系统存储大数据27
211HDFS体系结构27
212HDFS数据存储方式28
213HDFS读写方式28
22分布式数据库存储大数据32
221Hbase体系结构32
222配置Hbase33
223Hbase表操作38
224访问Hbase数据资源44
3大数据计算方法50
31分布式计算平台构建方法50
32分布式计算框架构建方法60
33分布式计算程序设计方法63
4大数据分析模型构建方法78
41准备训练数据78
42机器学习路径和算法设计方法82
43数据可视化辅助建模方法88
44构建大数据分析模型91
5大数据分析模型检验方法108
51回归诊断108
52交叉验证113
6大数据分析模型优化方法117
61Feature Scaling优化法117
62逐步回归优化法118
63PCA主成分分析优化方法120
64神经网络优化大数据分析模型127
参考文献151
內容試閱
为什么要写本书
大数据时代,人们面对大数据,首先想到的是如何分析大数据,目前介绍大数据分析方法的书籍却不是很多。作者从事大数据分析研究工作多年,很想将做过的大数据研究课题积累的一些分析方法分享给各位读者。
本书组织结构
本书的结构依据大数据的处理构建的,包括:组织,依次为大数据采集处理方法、大数据存储方法、大数据分布式计算方法、大数据分析模型构建方法、大数据分析模型检验方法、大数据分析模型优化方法。
本书的主要内容
第1章介绍了大数据采集处理方法,重点介绍了如何从互联网上采集数据,介绍了网络爬虫程序的设计和编写方法以及数据清洗方法,着重介绍如何清洗机器学习训练数据。
第2章介绍了大数据存储方法,重点介绍了分布式文件存储系统的原理、配置方法与使用方法。重点介绍了分布式数据库Hbase原理、配置方法与使用方法。
第3章介绍了大数据分布式计算的实现方法,详细介绍了如何搭建Hadoop大数据处理平台,列举了详细的搭建过程,提供了Hadoop搭建所需的各种配置文件源代码,提供了构建Hadoop所需的命令语句。着重介绍了MapReduce框架结构,运行机理,MapReduce源代码分析,各种接口和类分析。本章给出了丰富的MapReduce示例,对示例进行详细的解读,读者可以模仿示例编写自己的MapReduce程序。
第4章介绍了大数据分析模型构建方法,主要介绍了如何通过机器学习方法构建大数据分析模型。
第5章介绍了大数据分析模型的检验方法,分析模型建立以后如何进行检验,这往往是一个难点,如何检验模型是否达到了最初设计标准,用什么手段来检验非常关键,检验方法是否科学都很重要。此章还介绍了机器学习构建模型常用的检验方法,如回归诊断、交叉验证等方法。
第6章重点介绍了模型建立以后,如何优化,介绍了几种优化方法,如逐步递归法、主成分分析优化方法等,特别介绍了通过神经网络进行优化。
本书的优势
本书的内容是作者从事科研项目的一些亲身经历,开展大数据分析项目研究方法的总结和归纳,内容非常实用,为从事大数据分析的研究人员提供了研究步骤和方法。本书的模式是提出问题,然后给出解决方法,这样读者如遇到类似问题就可以参考书中提供的方法加以解决。
本书的受众群体
本书的读者主要是从事大数据分析的研究人员,大数据分析系统开发人员,使用本书的人员应该在大数据分析方面有一定的基础,本书的内容比较深入,跳过了基本概念和基本理论,主要论述和探索大数据分析深层次的内容和方法。
致谢
本书是基于北京市教委科技计划一般课题:基于机器学习方法的房价大数据分析模型构建研究(课题编号:KM201610857002)研究内容编写的。
感谢项目组成员冀钢、刘瑞新、范美英对本项目做出的贡献。感谢参与和支持本项目的所有人员。感谢寇俊玲主编严谨和辛勤的工作。


21分布式文件系统存储大数据
大数据可以以文本的方式进行存储,通常处理大数据都是以字符流的方式处理,所以可以将大数据存储于分布式文件系统中。
本节的内容主要介绍如何构建分布式文件系统,如何将大数据存储于分布式文件系统中,以及如何在分布式文件系统中处理这些数据。本节重点介绍HDFS分布式文件系统的构建与大数据存储方法。
HDFS分布式文件系统存储大数据非常方便、高效,HDFS是Hadoop Distributed File System的缩写,它是Hadoop项目的子项目,与Hadoop结合的非常好,Hadoop是一个非常好的大数据处理平台,Hadoop加上HDFS后解决了大数据分布式存储问题,建立了属于自己的分布式文件系统。
211HDFS体系结构
HDFS作为分布式文件系统需要先建立一个集群,集群节点分为Namenode、Datanode、Secondarynamenode。
Namenode是一个主控节点,负责存储元数据Metadata,负责分配和调度数据存储在不同的节点上,负责记录数据存储路径;Datanode是数据具体的存储节点;Secondarynamenode起到一个备份作用,当Namenode故障时可以起到恢复数据的作用。大数据首先被切成块Block,以数据块的形式存储于Datanode,数据块大小通常是64M,大数据切成块以后便于数据的传输和分配。
212HDFS数据存储方式
HDFS通过名字空间进行数据存储与文件的管理,形成树形结构。通过名字空间形成文件目录。名字空间文件保存在名字空间镜像(namespace image)及修改日志(edit log)文件中,其中包括块Block的信息,一个文件的块存放在哪些Datanode上。Namenode存放着名字空间文件。客户通过Namenode访问存放自己文件块的Datanode,Datanode通过心跳等方式周期性地向Namenode传递文件块存储位置、状态等信息。Secondarynamenode不断地合并名字空间镜像及修改日志文件,备份一份元数据文件在Secondarynamenode上,当Namenode故障时,通过Secondarynamenode存储的元数据文件进行恢复操作。
客户创建文件不是马上在Datanode上创建,通常文件是先放在当地的临时文件中,以数据块的形式存储,当Namenode分配好Datanode后,再将文件数据块传到各个Datanode上。
213HDFS读写方式
1创建目录
通过CreateDir类可在HDFS上创建目录,创建目录的程序如下:
package comhebutfile;
import orgapachehadoopconfConfiguration;
import orgapachehadoopfsFileStatus;
import orgapachehadoopfsFileSystem;
import orgapachehadoopfsPath;
CreateDir类继承Hadoop的配置类、文件状态类、分布式文件系统类、分布式文件系统路径设置类:
public class CreateDir{
public static void main(String\[\]args)throws
Exception{
Configuration conf=new Configuration();
通过分布式文件系统类FileSystem的get方法得到配置内容:
FileSystem hdfs=FileSystemget(conf);
Path dfs=new Path("rootusr");
调用hdfs的mkdirs方法建立所给的目录:
hdfsmkdirs(dfs);
}
}
2创建文件
通过CreateFile类可在HDFS上创建文件,创建文件的程序如下。
package comhebutfile;
import orgapachehadoopconfConfiguration;
import orgapachehadoopfsFileStatus;
import orgapachehadoopfsFileSystem;
import orgapachehadoopfsPath;
导入所要用到的类库,CreateFile类可调用Hadoop的配置类、文件状态类、分布式文件系统类、分布式文件系统路径设置类方法。
public class CreateFile{
public static void main(String\[\]args)throws
Exception{
Configuration conf=new Configuration();
通过分布式文件系统类FileSystem的get方法得到配置内容:
FileSystem hdfs=FileSystemget(conf);
将文件内容先存在缓冲区中,然后通过分布式文件系统输出流的形式写入文件test中:
byte\[\]buff="hello hadoop world!\\n"getBytes();
Path dfs=new Path("test");
FSDataOutputStream outputStream=hdfscreate(dfs);
outputStreamwrite(buff,0,bufflength);
}
}
3上传本地文件
通过CopyFile类可以将本地文件上传到分布式文件系统HDFS中,上传本地文件程序如下。
package comhebutfile;
import orgapachehadoopconfConfiguration;
import orgapachehadoopfsFileStatus;
import orgapachehadoopfsFileSystem;
import orgapachehadoopfsPath;
导入所要用到的类库,CopyFile类可以调用Hadoop的配置类、文件状态类、分布式文件系统类、分布式文件系统路径设置类方法。
public class CopyFile{
public static void main(String\[\]args)throws
Exception{
Configuration conf=new Configuration();
通过分布式文件系统类FileSystem的get方法得到配置内容:
FileSystem hdfs=FileSystemget(conf);
设置准备上传的本地文件路径,设置上传至分布式文件系统的目录路径:
Path src=new Path("D:\\\\bigdata");
Path dst=new Path("rootusr");
将本地文件拷贝到分布式文件系统目标目录下:
hdfscopyFromLocalFile(src,dst);
Systemoutprintln("Upload to" confget("fsdefaultname"));
FileStatus files\[\]=hdfslistStatus(dst);
通过循环语句判断文件系统状态,如果文件存在,就取出给定的路径,按照此路径上传文件:
for(FileStatus file:files){
Systemoutprintln(filegetPath());
}
}
}
4修改文件名
通过Rename类可在HDFS上重建文件名,修改文件名的程序如下。
package comhebutfile;
import orgapachehadoopconfConfiguration;
import orgapachehadoopfsFileStatus;
import orgapachehadoopfsFileSystem;
import orgapachehadoopfsPath;
导入所要用到的类库,Rename类可以调用Hadoop的配置类、文件状态类、分布式文件系统类、分布式文件系统路径设置类方法。
public class Rename{
public static void main(String\[\]args)throws
Exception{
Configuration conf=new Configuration();
通过分布式文件系统类FileSystem的get方法得到配置内容:
FileSystem hdfs=FileSystemget(conf);
给出原始文件路径和文件名,给出重新命名的路径和文件名,然后判别是否重名,如果重名,通过Rename方法重新命名:
Path frpaht=new Path("rootusrtest1");
Path topaht=new Path("rootusrtest2");
boolean isRename=hdfsrename(frpaht,topath);
String result=isRename?"成功":"失败";
Systemoutprintln("文件重命名结果为:" result);
}
}
5删除文件
通过Delete类可在HDFS上重建文件名,删除文件名的程序如下:
package comhebutfile;
import orgapachehadoopconfConfiguration;
import orgapachehadoopfsFileStatus;
import orgapachehadoopfsFileSystem;
import orgapachehadoopfsPath;
导入所要用到的类库,Delete类可以调用Hadoop的配置类、文件状态类、分布式文件系统类、分布式文件系统路径设置类方法。
public class Delete{
public static void main(String\[\]args)throws
Exception{
Configuration conf=new Configuration();
通过分布式文件系统类FileSystem的get方法得到配置内容:
FileSystem hdfs=FileSystemget(conf);
给出要删除文件的路径,然后判断是否删除。如果同意删除,通过HDFS的Delete方法删除文件:
Path delfile=new Path("rootusrtest1");
boolean isDeleted=hdfsdelete(delfile,false);
Systemoutprintln("Delete?" isDeleted);
}
}
22分布式数据库存储大数据
本节重点介绍如何通过Hbase分布式数据库存储大数据,Hbase是一款非常好的分布式存储数据库,采用列式存储,列式存储非常适合大数据存储,大数据的属性非常多,经常事先难以知道,需要随时添加属性,列式存储极大地解决了属性随时添加的问题。Hbase是Hadoop的一个子项目,与Hadoop结合得非常好,便于我们在Hadoop大数据平台上开展大数据处理。
221Hbase体系结构
Hbase数据库由表组成,表的结构由行Row、列Column(包括列族Column family和列族成员Column Qualifier)、时间戳Timestamp组成。行由行的主键标示,用来区别不同的行,一行包括许多列,行的排序按照行主键进行排序,在存储时自动按字母顺序进行排序,一般行的主键按照Web域名方式设定,便于关联。列族通常用字符加冒号表示,冒号后面是列成员名,如,course:math,列名以列族作为前缀。时间戳代表存储数据的不同版本。HBase中通过行和列作为一个存储单元,称为cell,每个cell都保存着同一份数据的多个版本,版本通过时间戳来区分,作为Hbase处理大数据准许数据重复,通过时间戳区分不同时间的数据,这些做法都是为了加快大数据的处理速度,减少耗时最大的查询修改数据操作。
列式存储的好处是表的属性(列)可以根据需求去动态增加到一个列族下。在Hbase中建一张大表,Hbase不提供表与表之间的关联查询,大数据尽量都存在一个大表中,以便提高读写速度。当表随着记录数不断增加而变大后,会逐渐分裂成多份数据片(splits),splits合并成为区域regions,不同的区域region会被主控服务器Master分配给相应的区域服务器RegionServer进行管理,每一次的插入操作都会先进入内存缓冲区MemStore,当MemStore达到上限的时候,Hbase会将内存中的数据输出为有序的StoreFile文件数据。这样会在Store中形成很多个小的StoreFile,当这些小的文件(File)数量达到一个阀值的时候,Hbase会用一个线程来把这些小File合并成一个大的File。这样,Hbase就把效率低下的文件中的插入、移动操作转变成了单纯的文件输出、合并操作,用这种办法提高了大数据处理速度,Hbase设计主要围绕着性能优化。
Zookeeper负责分布式系统调度工作,HBase中有两张特殊的表,META表和-ROOT-,META记录了用户表的区域信息,-ROOT-记录了META表的区域信息。Zookeeper中记录了-ROOT-地址、HMaster地址、regions的寻址入口、HRegionServer状态,将这些信息发送给HMaster,由HMaster负责数据块的分配和区域的管理。为了避免Master单点故障,Hbase启动时建立了多个HMaster,HMaster负责管理用户对表的增、删、改、查操作,负责Region的分配,负责失效HRegionServer上的Regions迁移。HRegionServer负责数据存储,响应用户的IO请求。
222配置Hbase
1配置hbase-sitexm配置文件
设置Hbase及数据存放目录。不用另建Hbase数据存放目录,Hbase会为我们建立数据目录,如果我们另建了数据目录,Hbase可能会发生迁移:
hbaserootdir
file:hometestuserhbase
设置zookeeper存放目录:
hbasezookeeperpropertydataDir
hometestuserzookeeper
将Hbase设置成集群分布式存储方式:
hbaseclusterdistributed
true
将Hbase设置在本地分布式文件系统HDFS下,端口是8020:
hbaserootdir
hdfs:localhost:8020hbase
2配置hdfs-sitexml配置文件
配置分布式文件系统数据节点最大的传输线程,设置为4096:
dfsdatanodemaxtransferthreads
4096
设置zookeeper的数量和节点名字,在安装Hbase和配置Master server时都要遵从这些名称:
hbasezookeeperquorum
node-aexamplecom,node-bexamplecom,node-cexamplecom
设置zookeeper的数据目录:
hbasezookeeperpropertydataDir
usrlocalzookeeper
设定租约服务恢复时长23000毫秒:
hbaseleaserecoverydfstimeout
23000
start-hbasesh
启动Hbase。
jps
用jps命令查看进程,这时可以发现HMaster进程正在运行。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.