新書推薦:
《
血色帝国:近代英国社会与美洲移民
》
售價:HK$
59.8
《
海外中国研究·王羲之:六朝贵族的世界(艺术系列)
》
售價:HK$
182.9
《
唐宋绘画史 全彩插图版
》
售價:HK$
101.2
《
“御容”与真相:近代中国视觉文化转型(1840-1920)
》
售價:HK$
113.9
《
海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音)
》
售價:HK$
109.3
《
铝合金先进成型技术
》
售價:HK$
273.7
《
英雄之旅:把人生活成一个好故事
》
售價:HK$
89.7
《
分析性一体的涌现:进入精神分析的核心
》
售價:HK$
125.4
編輯推薦:
一本书搞懂PMML-----可预测模型标记语言,轻松构建数据挖掘模型
內容簡介:
本书结合实际案例介绍了PMML语言的各个组成元素,包括数据字典、挖掘模式架构、数据转换、模型定义、输出、目标、模型解释、模型验证等元素,并介绍了表述数据挖掘模型的PMML实例文档创建流程;同时也对各种PMML元素中涉及的一些统计知识做了必要介绍。通过学习,读者可以完整地了解和掌握PMML语言,将其应用于数据挖掘建模。
本书可供从事数据挖掘(机器学习)、人工智能系统开发的软件开发者和爱好者学习使用,也可以作为高等院校大数据等相关专业的教材。
目錄 :
1 XML基础 1
1.1 XML的发展、技术体系及应用 2
1.1.1 标记语言和SGML 2
1.1.2 XML的特点和应用 4
1.1.3 XML技术体系 5
1.1.4 基于XML的应用标准简介 15
1.2 XML文档结构 24
1.2.1 XML文档头部 25
1.2.2 XML文档正文 30
1.3 XML Schema 35
1.3.1 XML Schema文档结构 36
1.3.2 XML Schema数据类型 40
1.3.3 元素内容 57
1.3.4 属性组 61
1.3.5 定义和使用实体 64
1.3.6 注释 65
1.3.7 构建内容模型 66
1.4 命名空间 69
1.4.1 目标命名空间和非限定本地声明 70
1.4.2 限定本地声明 73
1.4.3 全局和局部声明 76
1.4.4 未声明的目标命名空间 77
1.5 XML文档验证 78
1.6 XML Schema使用案例 79
1.6.1 XML处理库lxml的安装 80
1.6.2 使用lxml创建XML文档 80
1.6.3 使用lxml解析XML文档 85
1.6.4 使用lxml验证XML文档 88
本章小结 91
2 数据挖掘与PMML 93
2.1 数据挖掘简介 94
2.2 数据挖掘流程标准 95
2.3 数据挖掘系统 99
2.4 PMML的出现 101
本章小结 103
3 PMML基础知识 104
3.1 PMML概述 105
3.2 PMML文档结构 107
3.2.1 头部Header 110
3.2.2 挖掘任务MiningBuildTask 112
3.2.3 数据字典DataDictionary 113
3.2.4 转换字典TransformationDictionary 127
3.2.5 MODEL-ELEMENT序列 176
3.2.6 扩展Extension 178
3.3 PMML规范中的命名规则 180
3.4 PMML规范中的数据类型 180
3.4.1 基本数据类型 180
3.4.2 简单数组类型 182
3.4.3 稀疏数组类型 184
3.4.4 矩阵类型 186
3.5 变量的作用范围 189
3.6 非评分模型 193
本章小结 194
4 模型的输入和输出 195
4.1 元素MiningSchema 196
4.2 模型目标变量集合 201
4.2.1 目标变量集元素Targets 202
4.2.2 目标变量元素Target 203
4.2.3 目标变量值元素Targetvalue 204
4.2.4 实例介绍 205
4.3 模型输出变量集合 206
4.3.1 结果输出元素Output 207
4.3.2 输出字段元素OutputField 211
4.3.3 决策集元素Decisions 214
4.3.4 模型输出结果表 214
4.3.5 实例介绍 216
本章小结 219
5 模型的统计信息 220
5.1 单元统计元素UnivariateStats 221
5.1.1 计数元素Counts 222
5.1.2 数值信息元素NumericInfo 223
5.1.3 离散变量统计元素DiscrStats 225
5.1.4 连续变量统计元素ContStats 226
5.1.5 实例介绍 227
5.2 单因素方差分析元素Anova 228
5.2.1 单因素方差分析元素Anova的定义 229
5.2.2 方差分析 230
5.2.3 实例介绍 232
5.3 多元统计元素MultivariateStats 234
5.4 分区元素Partition 237
本章小结 241
6 模型验证 242
6.1 模型验证元素ModelVerification 243
6.2 模型验证规则 245
6.3 实例介绍 249
本章小结 255
7 模型解释 256
7.1 单变量统计元素UnivariateStats 258
7.2 分区元素Partition 258
7.3 预测模型质量指标元素PredictiveModelQuality 258
7.4 聚类模型质量指标元素ClusteringModelQuality 262
7.5 混淆矩阵 263
7.5.1 混淆矩阵基本知识 263
7.5.2 混淆矩阵元素ConfusionMatrix 265
7.6 接收者操作特征曲线ROC 267
7.6.1 ROC基本知识 267
7.6.2 ROC曲线元素ROC 269
7.7 增益提升图 271
7.7.1 增益 272
7.7.2 提升度 272
7.7.3 提升图元素ModelLiftGraph 274
7.8 字段(变量)相关性指标 282
本章小结 285
8 PMML实际案例 287
8.1 构建PMML实例文档 289
8.2 使用PMML实例文档 294
內容試閱 :
数据挖掘技术起始于20世纪下半叶,当时伴随着计算机技术和数据库在各行各业的广泛应用,业务系统产生的数据量不断膨胀,传统的统计分析工具受到巨大的挑战,这促使科学家和研究人员把当时最新的数据分析技术(例如关联规则、神经网络、决策树等)与数据库技术结合起来,从而直接导致了数据挖掘技术的诞生。进入21世纪后,各行各业对数据价值的深入探索迅速推动了数据挖掘软件的应用,各种数据挖掘系统如雨后春笋般相继出现,比较著名的开发公司有IBM、SAS、NCR、Tibco等。
数据挖掘技术目前已经应用到几乎所有的行业,并取得了巨大的成功。但是不同的系统开发厂商都是基于各自的发展规划,使用自己的技术,推出的数据挖掘系统平台各具特色,从而导致数据挖掘模型不能在不同挖掘系统间共享,给数据挖掘的进一步普及和发展造成了障碍。
为了解决上述问题,实现数据挖掘模型的共享与交换,1997年,芝加哥伊利诺伊大学的Robert Lee Grossman博士发起设计了数据挖掘模型的开放标准──PMML(Predictive Model Markup Language,预测模型标记语言)它是一种基于XML(Extensible Markup Language,可扩展标记语言)规范的开放式挖掘模型表达语言,为不同系统提供了定义数据挖掘模型的方法,可使兼容PMML规范的应用程序共享模型。采用PMML语言,用户可在一个软件系统中创建预测模型,然后将其传递到另外一个系统,并在该系统中用PMML文档中的模型预测新数据,实现预测模型的跨语言、跨平台应用,提高可移植性,充分发挥挖掘模型的应用价值。
PMML语言基于XML,XML定义了一套对电子文档进行编码的规则,以人类和计算机都能够读懂的文本格式来表现文档,可以表达任意数据结构,是万维网联盟W3C(World Wide Web Consortium)的标准语言;XML是众多应用型标记语言的基础,如化学领域的CML、数学领域的MathML以及本书介绍的PMML等。
一个完整有效的PMML实例文档包括数据字典、挖掘模式架构、数据转换、模型定义、输出、目标、模型解释、模型验证等元素,PMML规范针对这些元素的声明和使用制定了模型创建者和模型使用者必须遵守的一致性规则,例如模型创建者通过何种方式生成何种分析模型,模型使用者通过何种方式使用何种分析模型等,这些一致性规则可以确保模型的输出在语法上是正确的,使所输出的模型符合PMML定义的语义标准,并确保模型使用者能够正确地部署和应用模型。本书主要基于以上要点讲述PMML规范以及PMML实例文档的结构和应用。
目前PMML已经发展到版本4.3,能够支持关联规则、聚类、回归、贝叶斯网络、神经网络、高斯过程等18种数据挖掘模型,涵盖了应用最广泛的常用模型。作为事实上的表达分析模型的标准,PMML已经被IBM、SAS、NCR、FICO、NIST、Tibco等绝大多数顶级商业公司所支持,也得到越来越多的开源挖掘系统如Weka、Tanagra、RapidMiner、KNIME、Orange、GGobi、JHepWork等的支持,目前其影响力越来越大。很多想学习PMML的人员苦于没有完整的学习资料,而网上的相关资料又比较零散琐碎,不成体系,为此我们结合多年来的实践和体会编写了本书,希望能在一定程度上助广大数据挖掘系统、人工智能系统开发者和使用者一臂之力,为深入学习PMML起到抛砖引玉的作用。
本书除了供数据挖掘(机器学习)、人工智能领域的软件开发人员使用外,也可以作为高等院校大数据等相关专业的教材或数据挖掘爱好者自学用书。
由于编写时间和编写精力有限,书中难免会有疏漏不当之处,敬请同行批评指正,多多提出宝贵意见和建议,共同进步。作者QQ:420165499。
编者
2019年3月