登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』数据清洗

書城自編碼: 3492761
分類:簡體書→大陸圖書→計算機/網絡程序設計
作者: 黑马程序员
國際書號(ISBN): 9787302550877
出版社: 清华大学出版社
出版日期: 2020-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 65.7

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
便宜货:廉价商品与美国消费社会的形成
《 便宜货:廉价商品与美国消费社会的形成 》

售價:HK$ 77.3
读书是一辈子的事(2024年新版)
《 读书是一辈子的事(2024年新版) 》

售價:HK$ 77.3
乐道文库·什么是秦汉史
《 乐道文库·什么是秦汉史 》

售價:HK$ 80.6
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
《 汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性 》

售價:HK$ 109.8
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
《 女性与疯狂(女性主义里程碑式著作,全球售出300万册) 》

售價:HK$ 109.8
药食同源中药鉴别图典
《 药食同源中药鉴别图典 》

售價:HK$ 67.0
设计中的比例密码:建筑与室内设计
《 设计中的比例密码:建筑与室内设计 》

售價:HK$ 87.4
冯友兰和青年谈心系列:看似平淡的坚持
《 冯友兰和青年谈心系列:看似平淡的坚持 》

售價:HK$ 55.8

 

編輯推薦:
数据清洗是数据挖掘与分析过程中不可缺少的环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能使用正确的工具和方法,就可以让数据清洗工作事半功倍。本书讲述了大量的数据清洗的原理和方法,并介绍了真实的案例。让读者看了就懂,懂了就会做。
本书的读者可以零基础入门,不管会不会编程,都可以通过本书学会数据清洗。
每章开头都配有学习目标,每章末尾提供一套习题供读者练习,便于读者学习。
借助大量图示分析工作原理,降低学习难度,提升读者的学习兴趣。
本书采用理论 案例式的方式编排,几乎每个小节都配有动手案例,每个案例都清晰介绍了应用场景、实现步骤,让读者可以边学边练。
本书*后一章讲解了具有真实场景的DVD租赁业务数据清洗项目的全过程,让读者迅速积累实际项目经验,为未来的工作奠定理论和实践基础。
本书配套了丰富的教学资源供广大师生使用,另外,作者团队还提供了贴心、专业的在线咨询服务,随时解决教师和学生在使用本教材、资源过程中遇到的问题。
內容簡介:
数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。本书讲解数据清洗的理论知识和实际应用,全书共8章: 第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第4章主要讲解数据清洗的*步——数据抽取;第5章主要讲解数据清洗与检验;第6章主要讲解数据转换相关的知识;第7章主要讲解数据加载相关的知识;第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,*后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
本书可作为高等院校本专科计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
關於作者:
江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司,黑马程序员是传智播客旗下高端IT教育品牌。
目錄
第1章数据清洗概述1
1.1数据清洗的背景1
1.1.1数据质量概述1
1.1.2数据质量的评价指标2
1.1.3数据质量的问题分类3
1.2数据清洗的定义6
1.3数据清洗的原理6
1.4数据清洗的基本流程7
1.5数据清洗的策略8
1.6常见的数据清洗方法8
1.7本章小结9
1.8本章习题9
第2章初识ETL11
2.1基于ETL的数据清洗11
2.1.1ETL的概念11
2.1.2ETL的体系结构12
2.2ETL关键技术12
2.2.1数据的抽取12
2.2.2数据的清洗转换13
2.2.3数据的加载15
2.3ETL常见工具介绍16
2.4本章小结17
2.5本章习题17
第3章Kettle工具的基本使用19
3.1Kettle简介19
3.1.1Kettle概述19
3.1.2Kettle的设计原则203.2Kettle的下载安装21
3.3Kettle的基本概念23
3.3.1转换24
3.3.2作业28
3.4Kettle的基本功能32
3.4.1转换管理32
3.4.2作业管理42
3.4.3数据库连接48
3.5本章小结51
3.6本章习题52
目录数据清洗第4章数据抽取53
4.1抽取文本数据53
4.1.1TSV文件的抽取53
4.1.2CSV文件的抽取61
4.2抽取Web数据68
4.2.1HTML网页的数据抽取68
4.2.2XML文件的数据抽取75
4.2.3JSON文件的数据抽取84
4.3抽取数据库数据92
4.3.1抽取关系型数据库的数据92
4.3.2抽取非关系型数据库的数据98
4.4本章小结106
4.5本章习题106
第5章数据的清洗与检验108
5.1数据去重108
5.1.1完全去重108
5.1.2不完全去重113
5.2缺失值处理119
5.2.1缺失值清洗策略119
5.2.2去除缺失值120
5.2.3填充缺失值130
5.3异常值142
5.3.1出现异常值的原因142
5.3.2检测异常值142
5.3.3删除包含异常值的记录144
5.3.4修补异常值150
5.4数据检验160
5.4.1数据一致性处理160
5.4.2数据规范化处理169
5.5本章小结177
5.6本章习题177
第6章数据转换179
6.1多数据源的合并179
6.2不一致数据转换192
6.3数据粒度的转换203
6.4数据的商务规则计算239
6.5本章小结251
6.6本章习题251
第7章数据加载253
7.1数据的加载机制253
7.1.1全量加载253
7.1.2增量加载258
7.2数据的批量加载264
7.3本章小结271
7.4本章习题271
第8章综合案例构建DVD租赁商店数据仓库273
8.1案例概述273
8.1.1案例背景介绍273
8.1.2数据仓库的架构模型273
8.1.3数据仓库效果预览274
8.2数据准备276
8.2.1数据库sakila的下载和安装276
8.2.2数据库sakila简介276
8.2.3数据表简介278
8.3案例实现283
8.3.1构建DVD租赁商店数据仓库283
8.3.2加载日期数据至日期维度表284
8.3.3加载时间数据至时间维度表294
8.3.4加载员工数据至员工维度表302
8.3.5加载用户数据至用户维度表310
8.3.6加载商店数据至商店维度表326
8.3.7加载演员数据至演员维度表335
8.3.8加载电影数据至电影维度表341
8.3.9加载租赁数据至租赁事实表366
8.3.10加载数据库sakila中的数据至数据仓库sakila_dw385
8.4本章小结394
內容試閱
江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司。经过多年探索,传智播客的战略逐步完善,从IT教育培训发展到高等教育,从根本上解决以人为单位的系统教育培训问题,实现新的系统教育形态,构建出前后衔接、相互呼应的分层次教育培训模式。
一、 黑马程序员高端IT教育品牌
黑马程序员的学员多为大学毕业后,想从事IT行业,但各方面条件还不成熟的年轻人。黑马程序员的学员筛选制度非常严格,包括了严格的技术测试、自学能力测试,以及性格测试、压力测试、品德测试等。百里挑一的残酷筛选制度确保学员质量,并降低企业的用人风险。
自黑马程序员成立以来,教学研发团队一直致力于打造精品课程资源,不断在产、学、研3个层面创新自己的执教理念与教学方针,并集中黑马程序员的优势力量,有针对性地出版了计算机系列教材90多种,制作教学视频数十套,发表各类技术文章数百篇。
黑马程序员不仅斥资研发IT系列教材,还为高校师生提供以下配套学习资源与服务。
1. 为大学生提供的配套服务
(1) 请同学们登录http:yx.ityxb.com,进入高校学习平台,免费获取海量学习资源。平台可以帮助高播妞学姐微信公众号
校学生解决各类学习问题。
(2) 针对高校学生在学习过程中存在的压力大等问题,我们还面向大学生量身打造了IT技术女神播妞学姐,可提供教材配套源码、习题答案及更多学习资源。同学们快来关注播妞学姐的微信公众号boniu1024。
2. 为教师提供的配套服务
针对高校教学,黑马程序员为IT系列教材精心设计了教案 授课资源 考试系统 题库 教学辅助案例的系列教学资源。高校老师请登录http:yx.ityxb.com,进入高校教辅平台,也可关注码大牛老师微信QQ: 2011168841,获取配套资源,还可以扫描下方二维码,关注专为IT教师打造的师资服务平台教学好助手,获取最新的教学辅助资源。
教学好助手微信公众号
二、 传智专修学院高等教育机构
传智专修学院是一所由江苏省宿迁市教育局批准、江苏传智播客教育科技股份有限公司投资创办的四年制应用型院校。学校致力于为互联网、智能制造等新兴行业培养高精尖科技人才,聚焦人工智能、大数据、机器人、物联网等前沿技术,开设软件工程专业,招收的学生入校后将接受系统化培养,毕业时学生的专业水平和技术能力可满足大型互联网企业的用人要求。
传智专修学院借鉴卡内基梅隆大学、斯坦福大学等世界著名大学的办学模式,采用申请入学,自主选拔的招生方式,通过深入调研企业需求,以校企合作、专业共建等方式构建专业的课程体系。传智专修学院拥有顶级的教研团队、完善的班级管理体系、匠人精神的现代学徒制和敢为人先的质保服务。
传智专修学院突出的办学特色如下。
(1) 立足高精尖人才培养。传智专修学院以国家重大战略和国际科学技术前沿为导向,致力于为社会培养具有创新精神和实践能力的应用型人才。
(2) 项目式教学,培养学生自主学习能力。传智专修学院打破传统高校理论式教学模式,将项目实战式教学模式融入课堂,通过分组实战,模拟企业项目开发过程,让学生拥有真实的工作能力,并持续培养学生的自主学习能力。
(3) 创新模式,就业无忧。学校为学生提供一年工作式学习,学生能够进入企业边工作边学习。与此同时,我们还提供专业老师指导学生参加企业面试,并且开设了技术服务窗口给学生解答工作中遇到的各种问题,帮助学生顺利就业。
如果想了解传智专修学院更多的精彩内容,请关注微信公众号传智专修学院。
传智专修学院
传智播客
2020年2月数据清洗
近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开数据这个主题。从统计学家到软件开发人员,再到图形设计师,越来越多的人对数据科学产生了兴趣,廉价的硬件、可靠的数据处理工具和数据可视化工具以及海量的数据,这些资源使我们能够轻松地、精确地发现趋势、预测未来。
由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整的、重复的以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
本书共分为8章,各章内容介绍如下:
第1章主要是带领大家简单认识数据清洗的背景、定义、原理、基本流程、清洗策略以及常见的数据清洗方法。通过本章的学习,读者可以对数据清洗有基本的认识,便于后续章节的学习。
第2章主要讲解ETL技术相关的知识,即基于ETL的数据清洗ETL的概念、体系结构、ETL关键技术抽取数据的技术、数据清洗转换的技术以及数据加载的技术和ETL常见工具。通过本章的学习,读者可以认识ETL,并熟悉ETL的关键技术和ETL常见的工具。
第3章主要讲解数据清洗工具Kettle的相关知识,即Kettle的概述、设计原则、下载安装以及基本概念和基本功能。通过本章的学习,读者可以使用Kettle工具对ETL数据进行相关处理抽取、清洗转换以及加载。
第4章主要讲解数据清洗的第一步数据抽取,即抽取文本数据、Web数据以及数据库数据的相关知识。通过本章的学习,读者可以掌握抽取各种形式的数据并保存至数据库中,便于后续对数据进行相关清洗转换和分析。
第5章主要讲解数据的清洗与检验相关的知识,即数据去重、缺失值处理、异常值处理以及数据检验知识。通过本章的学习,读者可以掌握对重复数据、缺失值数据、异常值数据的处理,也可以掌握对数据进行检验的操作。
第6章主要讲解数据转换相关的知识,即多数据源合并、不一致数据转换、数据粒度的转换、数据的商务规则计算的知识。通过本章的学习,读者可以掌握数据转换操作,实现将企业中的数据进行规范化处理。
第7章主要讲解数据加载相关的知识,即数据的加载机制全量加载和增量加载和批量加载的知识。通过本章的学习,读者可以掌握数据的全量加载、增量加载以及批量加载的操作,实现将清洗检验、转换后的高质量企业数据加载到目标数据库中,便于后续进行数据分析和数据挖掘。
第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。通过本章的学习,读者可以掌握数据仓库的构建操作以及对数据库中的数据进行相关清洗转换操作。
致谢
本书的编写和整理工作由传智播客教育科技股份有限公司完成,主要参与人员有高美云、文燕、张明强等,全体参编人员在编写过程中付出了许多辛勤的汗水。除此之外,传智播客等600多名学员也参与了本书的试读工作,他们站在初学者的角度对本书提供了许多宝贵的意见,在此一并表示衷心的感谢。
意见反馈
尽管我们尽了最大的努力,但书中难免会有不妥之处,欢迎各界专家和读者朋友提出宝贵意见。您在阅读本书时,如果发现任何问题或有不认同之处,可以通过电子邮件与我们取得联系。请发送电子邮件至: itcast_book@vip.sina.com。
黑马程序员
20190923于北京

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.