新書推薦:
《
吕著中国通史
》
售價:HK$
62.7
《
爱琴海的光芒 : 千年古希腊文明
》
售價:HK$
199.4
《
不被他人左右:基于阿德勒心理学的无压力工作法
》
售價:HK$
66.1
《
SDGSAT-1卫星热红外影像图集
》
售價:HK$
445.8
《
股市趋势技术分析(原书第11版)
》
售價:HK$
221.8
《
汉匈战争全史
》
售價:HK$
99.7
《
恶的哲学研究(社会思想丛书)
》
售價:HK$
109.8
《
不止江湖
》
售價:HK$
98.6
|
內容簡介: |
本书详细介绍了大数据分析,尤其是数据分类相关算法的原理及实现细节,并给出了每个算法的编程实例。全书共计21章,内容包括十大数据分类算法、十大从二元分类到多类分类的算法、九大属性选择算法、五大数据选择算法,若干集成学习方法和不均衡数据分类算法,以及大数据分析的平台与技术。本书可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、软件工程、地理信息系统等专业的研究生和高年级本科生的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
|
關於作者: |
张重生,男,1982年9月生,博士,教授,硕士生导师,河南大学大数据团队带头人。研究领域为大数据分析、深度学习、数据挖掘、数据库、实时数据分析。博士毕业于 INRIA,France法国国家信息与自动化研究所。2010年08月至2011年3月,在美国加州大学洛杉矶分校UCLA计算机系,师从Carlo Zaniolo教授进行流数据挖掘方面的研究。 十多年来,一直从事数据库、数据挖掘、大数据分析相关的研究,发表SCIEI论文20篇,含Information Sciences、Neurocomputing、IEEE ICDM、PAKDD、SSDBM等国际期刊和会议论文。作为项目负责人主持 4项科研项目,出版学术专著3部,获得3项国家发明专利,指导硕士研究生12名。
|
目錄:
|
第1章数据分析绪论1.1理解数据中字段的类型是数据分析的重要前提1.2进行数据分析时数据的表示形式1.3数据分类——数据类别的自动识别1.4数据分类问题与回归问题的区别与联系1.5数据分析算法简介1.6交叉验证1.7一个最简单的分类器-K近邻分类器1.8后续章节组织第2章SVM算法2.1算法原理2.2工具包简介2.3实例详解第3章决策树算法3.1信息熵值3.2决策树的构建目标3.3 ID3决策树算法3.4 C45决策树算法3.5 CART决策树算法3.6 ID3、C45、CART算法的终止条件3.7C45算法的参数介绍3.8实例详解第4章随机森林算法4.1算法原理4.2工具包介绍 4.3实例详解第5章梯度提升决策树算法5.1算法原理5.2工具包介绍5.3实例详解第6章AdaBoost算法6.1算法原理6.2工具包介绍6.3实例详解第7章朴素贝叶斯分类器7.1朴素贝叶斯分类的问题定义7.2朴素贝叶斯算法原理7.3一种常见的朴素贝叶斯模型的错误计算方法7.4朴素贝叶斯算法对连续型属性的处理第8章极限学习机器算法8.1算法原理8.2算法参数介绍8.3实例详解第9章逻辑回归算法9.1 Logistic Regression算法流程9.2 Logistic Regression算法原理推导第10章稀疏表示分类算法10.1算法原理10.2 SRC工具包及算法参数介绍10.3 SRC算法实例详解第11章不同数据分类算法性能的大规模实验对比分析11.1为什么要比较不同数据分类算法的性能?11.2不同数据分类算法性能比较的相关工作11.3最新数据分类算法性能的大规模实验对比分析结果11.4结论第12章从二分类到多分类——OVA12.1 OVA 聚合规则的核心思想12.2 MAX聚合规则12.3 DOO聚合规则12.4调用示例第13章从二分类到多分类——OVO13.1 OVO 聚合规则的核心思想13.2 WV聚合规则13.3 VOTE聚合规则13.4 PC聚合规则13.5 PE聚合规则13.6 LVPC聚合规则13.7调用示例第14章从二分类到多分类——ECOC14.1 ECOC的核心思想14.2 ECOC 编码14.3 ECOC 译码14.4 ECOC多类分类调用示例第15章三种从二分类到多分类聚合策略的实验对比分析15.1 OVA策略的实验结果15.2 OVO策略的实验结果15.3 ECOC策略的实验结果第16章多个分类算法的集成方法研究16.1差异性(Diversity)的原理与技术16.2集成学习方法16.3本章小结第17章属性选择算法17.1 fspackage和LibSVM的使用17.2信息增益算法17.3卡方分布算法17.4基于Fisher Score的属性选择算法17.5基于基厄系数的属性选择算法17.6基于T检验的属性选择算法第18章高级属性选择算法18.1线性前向选择算法18.2顺序前向选择算法18.3基于稀疏多项式逻辑回归的属性选择算法18.4 Our——多个属性选择算法的集成策略18.5属性选择算法的大规模实验对比分析第19章数据选择算法19.1衡量不均衡数据分类质量的常用方法19.2 RUS算法19.3 CNN算法19.4 SMOTE算法19.5 ADASYN算法19.6 OSS算法19.7本章小结第20章不均衡数据分类算法及大规模实验分析20.1 C4.5 CS算法20.2使用Random Forests和GBDT进行不均衡数据分类20.3BalanceCascade不均衡数据分类算法20.4其他不均衡数据分类算法及不均衡分类器的集成算法20.5结合属性选择和数据选择的不均衡数据分类实验第21章大数据分析21.1 Spark平台简介21.2基于Ambari的Spark及Spark集群的安装与配置21.3 Ambari集群扩展21.4基于Spark平台的分布式编程示例21.5 MLlib——Spark平台上的机器学习库
|
內容試閱:
|
大数据分析,尤其是数据分类与预测是数据挖掘中最重要的分支领域,也是企业需要最多且应用最广泛的技术。本书专注于大数据分析和数据分类技术。本书的目标有三:一是成为我国“最接地气的”、最实用的、最完整、最专业的数据分析专著,成为数据挖掘爱好者、研究生、科研人员、工程师在解决数据分类和大数据分析相关问题时的首选之作。二是成为理论与实践并重的专业书籍。本书的特点是采用示例驱动的方式讲解原理和相关实验。在讲解算法原理时,本书通过举例子的方式,详解算法的每个步骤及对应示例的结果,使得一些晦涩的公式和原理变得直接、具体、易理解。笔者翻阅了很多数据挖掘和机器学习专著,鲜有书籍能做到在原理部分示例驱动。而且,本书十分注重对于算法的应用的实战能力的培养,在讲解算法原理之后,给出具体例子,引导读者进行相关的实验,获得实践能力、解决实际问题的能力。三是成为传播大数据分析和数据分类技术的重要媒介、培养大数据人才的首选教材。最近几年,国内外的大数据人才供不应求,其薪资通常是普通IT从业人员的两倍以上。而绝大多数国内高校在培养大数据人才时,都遇到了各种瓶颈和问题。究其原因,合适中文教材的匮乏是极为重要的一个原因。因为,大数据人才不能只是泛泛地了解数据挖掘的相关原理介绍,他们更应该深入理解算法的原理且掌握解决实际数据挖掘问题的动手能力和实战经验。而现有的教材大多是泛泛教授数据挖掘相关原理的书籍。本书采用平民化、“接地气”的原理讲解方式,及原理与应用实践并重的思路。普通读者(本科及以上学历的读者,甚至是大三以上的学生)很容易理解、掌握本书介绍的相关算法的原理,并切实掌握相关的应用开发技能和解决实际问题的能力。这对于大数据分析、数据分类技术在我国的广泛传播,对于大数据分析人才的大规模培养,具有重要意义。全书共21章,可以分为六个部分:第一部分包括第1~11章,此部分将讲述12个主流的数据分类算法;第二部分包括12~15章,此部分讲述从二分类(只能对两类数据进行分类)到多分类的三种主流技术及其实验对比分析;第三部分包括第16章,主要讲述若干集成学习相关的算法;第四部分包括第17~18章,主要讲述属性选择相关的原理和算法;第五部分包括第19~20章,主要讲述数据选择和不均衡数据分类相关的原理和技术;第六部分包括第21章,主要讲述大数据分析相关的平台与开发技术。研究生毕璟君、刘畅畅、张愿承担了本书相关实验部分的程序实现与撰写的工作。针对数据挖掘领域的初学者,建议选择第1~7章、第12章、第16~17章、第19章、第21章作为主要学习内容。如果读者是数据挖掘方向的专家、工程师、研究生、科研人员,则建议通读全书。在遇到具体问题时,请仔细阅读、理解相关章节,必要时,可以去查阅参考文献中列出的原始英文论文,进行深入的推敲和探究。由于笔者水平有限,书中错谬之处在所难免,如蒙读者赐教,本人将感激之至。张 重 生2016年10月于河南大学
|
|