新書推薦:
《
一个人·谁也不是·十万人(诺贝尔文学奖得主反思自我的巅峰之作)
》
售價:HK$
54.9
《
重写晚明史(全5册 精装)
》
售價:HK$
781.8
《
汉末晋初之际政治研究
》
售價:HK$
132.2
《
强者破局:资治通鉴成事之道
》
售價:HK$
80.6
《
鸣沙丛书·鼎革:南北议和与清帝退位
》
售價:HK$
121.0
《
从康德到黑格尔的发展:兼论宗教哲学(英国观念论名著译丛)
》
售價:HK$
60.5
《
突破不可能:用特工思维提升领导力
》
售價:HK$
77.3
《
王阳明大传:知行合一的心学智慧(精装典藏版)
》
售價:HK$
221.8
|
編輯推薦: |
1.从实际教学中总结而来,从内容选取、引入和展开的编排上更为适合学习和理解;
2.图表、示例丰富,使内容更容易理解和掌握,学习过程更加生动;
3.合理配置Python基础与数据科学计算和分析处理内容的篇幅,方便读者学习、使用;
4.组织、列举多种数据科学范畴的处理方法和内容,便于读者采用多种方法完成数据分析和处理,并进行比较选择;
5.提供示例、实验代码和素材,便于完成实践,掌握知识和技能。
|
內容簡介: |
本书介绍了Python编程语言的主要规范、语法和结构等内容,强调Python在数据分析、数据处理和数据组织结构中的应用,以建立起运用Python语言进行数据处理的基础。本书以实现数据处理任务为索引,系统介绍进行计算机系统操作及文件读写、数据的可视化、科学计算、图像处理、数据生成和数据分析等任务的实现方法,涉及NumPy、pandas、matplotlib、sklearn、SciPy等扩展模块库的核心内容。涉及面广。 本书示例丰富,便于学习者学习和掌握,可作为高等院校计算机科学与技术、信息管理、数据分析等相关专业的教科书,也可作为信息分析人员的技术参考书籍。
|
關於作者: |
葛东旭,男,55岁,硕士研究生,高级工程师。工作单位:南京审计大学金审学院,教师;
近期出版:《数据挖掘原理与应用》(2020年)
《传感器检测与应用》(2012年)
《Microsoft Office高级应用教程 》(2020年);
研究方向:数据挖掘、数据分析、信息管理、信息系统等;
讲授课程:数据挖掘、Python与数据科学、信息资源管理导论、运筹与决策、计算机组成原理、信息系统项目管理等;
|
目錄:
|
第1章Python介绍及安装1
1.1Python发展史1
1.2Python的特性2
1.3安装Python开源软件3
1.3.1下载并安装3
1.3.2设置环境变量4
1.3.3运行Python4
1.3.4运行Python脚本文件6
1.4安装实用工具包7
1.4.1setuptools7
1.4.2easy_install7
1.4.3pip9
1.5安装基础模块库13
1.6安装集成开发环境13
1.6.1IDLE13
1.6.2Spyder15
1.6.3PyCharm15
1.6.4PythonWin18
练习118
参考文献19
第2章Python语言基础20
2.1Python语句书写20
2.1.1语句书写规则20
2.1.2语句书写格式20
2.2基本数据类型24
2.2.1数值类型24
2.2.2字符串类型24
2.2.3布尔类型25
2.2.4“空”类型25
2.3标识符与变量25
2.3.1标识符与变量的命名25
2.3.2变量的赋值及变量值传递26
2.4运算及运算符27
2.4.1算术运算符27
2.4.2赋值运算符28
2.4.3位运算符28
2.4.4比较运算符29
2.4.5逻辑运算符29
2.4.6字符串运算符30
2.4.7成员运算符30
2.4.8身份运算符30
2.4.9运算符的优先级31
2.4.10运算中数据类型的转换31
Python与数据科学 目录 2.5程序结构32
2.5.1选择结构32
2.5.2循环结构34
2.5.3异常处理结构try…except语句36
2.6面向对象37
2.6.1类的定义与使用37
2.6.2方法与属性38
2.7常用内置函数38
2.7.1数学运算38
2.7.2类型转换40
2.7.3序列操作44
2.7.4对象操作46
2.7.5反射操作49
2.7.6变量操作51
2.7.7交互操作52
2.7.8文件操作53
2.7.9编译执行53
2.7.10装饰器54
2.8函数55
2.8.1声明函数56
2.8.2变量作用域56
2.8.3递归函数57
2.9数据结构58
2.9.1字符串59
2.9.2列表65
2.9.3元组71
2.9.4集合72
2.9.5映射(字典)75
2.9.6数组78
2.9.7矩阵85
2.9.8Series89
2.9.9DataFrame92
练习2104
参考文献107
第3章系统与文件操作108
3.1系统操作108
3.1.1获取操作系统环境变量108
3.1.2获取操作系统信息109
3.2文件系统操作110
3.3文本文件读写114
3.3.1标准I/O读写114
3.3.2结构化文件读写119
3.4CSV文件读写121
3.4.1csv模块库121
3.4.2pandas模块库122
3.5MS Word文档读写124
3.5.1创建Word文档124
3.5.2读取Word文档128
3.6MS Excel文档读写131
3.6.1pandas模块库131
3.6.2xlsxwriter模块库134
3.6.3xlwt模块库(创建文件)135
3.6.4xlrd模块库(读取文件)136
3.6.5OpenPyxl模块库137
3.7MS PPT文档读写138
练习3143
参考文献145
第4章数据可视化146
4.1matplotlib模块库绘图146
4.1.1Figure147
4.1.2Axes149
4.1.3散点图154
4.1.4折线图158
4.1.5饼图161
4.1.6柱形图163
4.1.7箱线图166
4.1.8茎叶图168
4.1.9矩阵图170
4.1.10等高线图171
4.1.11三维图形173
4.1.12图形装饰176
4.2pyecharts模块库绘图178
4.3NetworkX绘图182
4.4绘制动态图184
练习4185
参考文献189
第5章科学计算190
5.1数值计算190
5.1.1积分190
5.1.2卷积192
5.2线性代数194
5.2.1求逆矩阵194
5.2.2求矩阵积194
5.2.3点积195
5.2.4内积196
5.2.5外积197
5.2.6叉乘197
5.2.7计算行列式198
5.2.8计算特征值和特征向量198
5.2.9奇异值分解199
5.2.10小二乘法200
5.2.11求解线性方程201
5.3规划问题求解202
5.3.1SciPy模块库求解202
5.3.2cvxpy模块库求解206
5.4非线性方程计算和求解210
5.4.1一元多次方程210
5.4.2非线性方程212
5.5信号处理214
5.5.1傅里叶变换214
5.5.2滤波216
练习5217
参考文献219
第6章图像处理220
6.1SKImage模块库220
6.1.1载入内置图片221
6.1.2图像读入、显示和保存222
6.1.3图像数据类型及颜色空间转换223
6.1.4图像像素访问与裁剪226
6.1.5图像缩放228
6.1.6图像旋转231
6.1.7对比度与亮度调整231
6.1.8绘制色阶图234
6.1.9直方图均衡化236
6.2OpenCV模块库238
6.2.1图像读入、显示和保存238
6.2.2通道的拆分/合并处理240
6.2.3图像颜色空间转换240
6.2.4缩放、平移、旋转242
6.2.5仿射变换244
6.2.6图像滤波246
6.2.7图像添加边框246
练习6247
参考文献248
第7章数据生成249
7.1数据生成和载入249
7.1.1生成数据序列249
7.1.2生成随机数据251
7.1.3载入sklearn实验数据集253
7.2数据库访问255
7.2.1访问MySQL数据库255
7.2.2访问SQL Server数据库256
练习7258
参考文献259
第8章数据分析260
8.1统计分析260
8.1.1描述性统计260
8.1.2汇总统计264
8.1.3参数估计与假设检验272
8.1.4词云278
8.1.5相关性分析282
8.2数据解析284
8.2.1主成分分析(PCA)284
8.2.2因子分析(FA)285
8.2.3独立成分分析(ICA)288
8.2.4特征选择290
8.3回归分析294
8.3.1线性回归295
8.3.2非线性回归303
8.4时间序列分析306
8.4.1序列检验和分析306
8.4.2趋势、周期性和残留分析312
8.4.3移动平均(MA)313
8.4.4自回归模型(AR)314
练习8323
参考文献326
|
內容試閱:
|
社会进入信息时代以来,信息作为一个重要的生产要素,与物质和能量并称推动社会和生产进步的三要素,并发挥着越来越关键的作用。随着社会信息化程度的提高,数据的获取量和存储量也呈爆发式增长。社会对数据应用的迫切要求,在互联网技术和信息传播技术快速发展的加持下,使数据的特性发生了巨大的变化,向着数量大(Volume)、种类多(Variety)、速度要求高(Velocity)和价值密度低(Value)的方向发展。面对日益庞大的数据资源,以及社会发展对数据资源的依赖和推动,人们迫切需要强有力的手段、方法和工具来“挖掘”数据中的有用信息,使数据资源的价值得以充分地体现。事实上,社会各个行业、各个领域也越来越依赖数据获得管理与决策上的支持,数据也在各行各业逐渐发挥出越来越强劲的力量,整个社会对数据应用的依赖也逐步加深,身不由己地进入了一个数据化的时代。
数据化时代的到来催生了一门新的学科——数据科学,其根本目的是通过对数据处理、分析和应用的技术及方法的研究,充分挖掘和利用数据中所蕴含的价值,使其更好地为人类社会的发展和进步发挥作用。数据科学理论在几百年的发展,尤其是近几十年来基于海量数据的变革性发展的过程中,已经达到一个相对成熟的阶段,在广泛的实践应用中也得到了检验和提升。数据科学应用的工具、平台和系统,层出不穷,不断发展进步。数据库技术、SQL、MATLAB、Simulink、SPSS和FORTRAN等都是数据科学应用过程中涌现出来的佼佼者。随着大规模的数据分析与处理任务的猛增,以及多种数据处理与互联网相融合应用场景的产生和繁衍,如Python和R等专于数据分析、数据可视化和数据处理等的计算机语言和工具应运而生。其中Python语言作为开源软件,可以通过模块库进行扩展,数据的表达和运算处理与数学表达更为契合,与多种应用平台的完美对接和融合等多种优点迅速吸引了数据分析人员的目光,使用排名一直稳步上升,近几年来已经跃居前三名(TIOBE)。如今,Python已成为数据分析和数据科学的标准语言和标准平台之一。
选择Python作为数据科学相关问题的解决方案,是因为Python具有众多其他处理工具无法比拟的优点。Python功能完善,在网络爬虫、Web 站点开发、游戏开发、自动化运维等众多领域都有很广泛的应用。Python具有强大的第三方库,生态环境良好。Python与人工智能紧密相连,符合社会发展的方向。总之,虽然Python在20世纪末才刚刚兴起,但其在形成和发展过程中表现出了强大的生命力,它的重要性和所能产生的效益为人们逐渐认识,彰显出广阔的应用前景。
关于Python完成数据科学应用的书籍有很多,绝大多数在介绍如何使用Python进行数据分析时,是按照扩展模块库,如NumPy、pandas、sklearn中的功能来逐项介绍。而本书则是以完成计算机系统操作和文件读写、数据的可视化、图像处理、科学计算和数据分析中的各项任务为索引,介绍了NumPy、pandas、matplotlib、sklearn、SciPy等扩展模块库中,完成相应任务的实现方法,并给出了相应的示例。为了能够充分学习和掌握书中实现算法及编程技术,读者应具备上述领域基本的知识,并具有较为扎实的面向对象编程的基础。本书适合作为高等院校数据科学与大数据技术、信息与计算科学、信息管理与信息系统等专业学生的数据分析和数据处理相关课程教材,或作为对相关内容感兴趣的学习者的参考书。
本书共分为8章。第1章简要介绍了Python语言的来源和特点,以及安装Python语言及开发环境的方法;第2章简要介绍Python语言的规范、语法和语句结构,着重介绍数据的组织结构;第3章介绍对计算机文件系统和环境的操作,以及主要类型的文件的读写;第4章介绍使用matplotlib进行可视化的方法;第5章介绍完成数值计算和信号处理等应用的方法;第6章介绍进行图像读写显示和图像调整的方法;第7章介绍产生数据和获取数据的方法;第8章介绍完成统计分析、数据解析和回归分析等的方法。
在本书的编写过程中,作者力争内容完整、准确、易于理解,参考了热心学者和爱好者在互联网上以各种形式贡献的大量的资料,也参阅了相关书籍,在此,对相应的作者、学者表示衷心感谢。
本书内容涉及多学科、多门类的知识,编者水平和精力有限,难免有疏漏和错误之处。读者在使用本书的过程中,如有宝贵的意见和建议,欢迎赐教并表示感谢。
葛东旭2021年8月
|
|