本书的读者对象是构建机器学习系统或模型,并希望将之应用到生产中的数据工程师和数据科学家。如果你曾经训练过优秀的模型,想要知道如何将模型部署到生产中或在将模型部署到生产后如何保持更新,那么本书就是为你准备的。我们希望本书能给你提供工具来替换Untitled_5.ipynb并在生产环境中可靠地工作。本书不打算从头开始介绍机器学习。如果你刚开始机器学习之旅,可以参考下面列出的资源。学习资源我们的目标是教你如何以可重复的方式进行机器学习,以及如何自动训练和部署模型。这里的一个重要问题是,该目标包括广泛的主题,并且你可能不完全熟悉所有的主题。由于无法深入研究每一个主题,我们为你提供了一个简短的清单,列出了部分我们喜欢的入门资料。Python for Data Analysis, 2nd Edition, by Wes McKinney (O’Reilly)Data Science from Scratch, 2nd Edition, by Joel Grus (O’Reilly)Introduction to Machine Learning with Python by Andreas C. Müller and Sarah Guido (O’Reilly)Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, by Aurélien Géron (O’Reilly)Kubernetes: Up and Running by Brendan Burns et al. (O’Reilly)Learning Spark by Holden Karau et al. (O’Reilly)Feature Engineering for Machine Learning by Alice Zheng and Amanda Casari (O’Reilly)Building Machine Learning Pipelines by Hannes Hapke and Catherine Nelson (O’Reilly)Apache Mahout: Beyond MapReduce by Dmitriy Lyubimov and Andrew Palumbo (CreateSpace)R Cookbook, 2nd Edition, by J. D. Long and Paul Teetor (O’Reilly)Serving Machine Learning Models by Boris Lublinsky (O’Reilly)“Continuous Delivery for Machine Learning” (https://oreil.ly/y59_n) by Danilo Sato et al.Interpretable Machine Learning (https://oreil.ly/hBiw1) by Christoph Molnar (self-published)“A Gentle Introduction to Concept Drift in Machine Learning” (https://oreil.ly/KnJL0) by Jason Brownlee“Model Drift and Ensuring a Healthy Machine Learning Lifecycle” (https://oreil.ly/q9o6P) by A. Besir Kurtulmus“The Rise of the Model Servers” (https://oreil.ly/zvIyU) by Alex Vikati“An Overview of Model Explainability in Modern Machine Learning” (https://oreil.ly/lo36s) by Rui AguiarMachine Learning with Python Cookbook by Chris Albon (O’Reilly)“Machine Learning Flashcards” (https://machinelearningflashcards.com) by Chris Albon学习Kubeflow绕不开容器和Kubernetes,容器和Kubernetes是一个广泛的、快速发展的实践领域。如果你想加深对它们的了解,我们推荐阅读以下书籍:Cloud Native Infrastructure by Justin Garrison and Kris Nova (O’Reilly)Kubernetes: Up and Running by Brendan Burns et al. (O’Reilly)从业人员的责任本书可帮助你将机器学习模型投入生产,并用于解决实际问题。采用机器学习解决现实世界的问题固然很好,但你需要考虑其可能造成的影响。首先,要确保模型足够准确,在Kubeflow中有很好的工具来实现这一点,详见2.2节。即使是好的工具也不能让你免于所有的错误—例如,在同一数据集上进行超参调优,并报告终的交叉验证结果。即使是具有显著预测能力的模型也会产生意外的影响和偏见,其在常规的训练评估阶段可能并不会表现出来。无意的偏见可能很难发现,但这里有许多相关的反面案例(例如,基于Amazon机器学习的招聘引擎的结果有强烈的偏见,该结果导致只雇用男性(https://oreil.ly/VekPG)),这向我们展示了其潜在的深刻影响。未在早期解决这些问题可能会导致你前期的整个工作付之东流,IBM 停止使用面部识别程序(https://oreil.ly/WKUXl)的决定也证明了这一点,在执法部门的面部识别程序中存在明显的种族偏见之后,整个行业也出现了类似的停顿。即使是看似不偏不倚的数据,如原始购买记录,也可能会出现强烈的偏见,从而导致不正确的建议,甚至更糟。数据集是公开的、广泛可用的,但这并不意味着它是无偏见的。众所周知的词嵌入(https://oreil.ly/1dmOV)已经被证明有许多类型的偏见,包括性别歧视和反移民等。当查看一个新的数据集时,寻找数据中存在偏见的例子并试图尽可能地减少它们是至关重要的。对于流行的公共数据集,研究中经常会讨论相关的各种技术,你可以用这些技术来作为指导。虽然本书中没有解决偏见的工具,但我们鼓励你对系统中潜在的偏见进行批判性思考,并在投入生产之前探索解决方案。如果你不知道从哪里开始,可以查看Katharine Jarmul出色的演讲(https://oreil.ly/fiVYL)。IBM在其AI Fairness 360开源工具包(http://aif360.mybluemix.net)中收集了一系列工具和例子,也可以为探索提供参考。减少模型中的偏见的关键步骤是拥有一个多元化的团队,以求尽早发现潜在的问题。正如Jeff Dean(https://oreil.ly/PJNsF)所说:“人工智能充满了希望,并具有革新现代社会众多领域的潜力。为了释放其真正的潜力,我们的领域需要欢迎所有人。从今天的情况来看,肯定还不是这样。我们的领域有一个问题,那就是缺乏包容性。”需要注意的是,消除偏见或验证结果的准确度并不是一劳永逸的,模型的性能会随着时间的推移而降低,偏见也会被引入—即使你没有修改任何事物。排版约定本书中使用以下排版约定:斜体(Italic) 表示新的术语、URL、电子邮件地址、文件名和文件扩展名。等宽字体(Constant width) 用于程序清单,以及段落中的程序元素,例如变量名、函数名、数据库、 数据类型、环境变量、语句以及关键字。等宽粗体(Constant width bold) 表示应由用户直接输入的命令或其他文本。等宽斜体(Constant width italic) 表示应由用户提供的值或由上下文确定的值替换的文本。该图示表示提示或建议。该图示表示一般性说明。 该图示表示警告或注意。示例代码可以从https://oreil.ly/Kubeflow_for_ML下载补充材料(示例代码、练习、勘误等)。你可能还会发现在其他许可下有用的示例代码。Kubeflow项目有一个示例仓库(https://oreil.ly/yslNT),在写本书时,它采用Apache 2许可。Canonical还有MicroK8s用户可能特别感兴趣的一系列资源(https://oreil.ly/TOt_E)。这里的代码是为了帮助你更好地理解本书的内容。通常,可以在程序或文档中使用本书中的代码,而不需要联系O’Reilly获得许可,除非需要大段地复制代码。例如,使用本书中所提供的几个代码片段来编写一个程序不需要得到我们的许可,但销售或发布O’Reilly的示例代码则需要获得许可。引用本书的示例代码来回答问题也不需要许可,将本书中的很大一部分示例代码放到自己的产品文档中则需要获得许可。非常欢迎读者使用本书中的代码,希望(但不强制)注明出处。注明出处的形式包含书名、作者、出版社和ISBN,例如:Kubeflow for Machine Learning,作者Holden Karau, Trevor Grant, Boris Lublinsky, Richard Liu和Ilan Filonenko,由O’Reilly出版,书号978-1-492-05012-4。如果读者觉得对示例代码的使用超出了上面所给出的许可范围,欢迎通过permission@oreilly.com联系我们。O’Reilly在线学习平台(O’Reilly Online Learning)40多年来,O’Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。如何联系作者如有反馈,请发邮件至intro-to-ml-kubeflow@googlegroups.com。关于 Kubeflow 相关的任何交流,请在线关注我们。TrevorTwitter (https://twitter.com/rawkintrevo)Blog (https://rawkintrevo.org)GitHub (https://github.com/rawkintrevo)Myspace (https://myspace.com/rawkintrevo)HoldenTwitter (http://twitter.com/holdenkarau)YouTube (https://www.youtube.com/user/holdenkarau)Twitch (https://www.twitch.tv/holdenkarau)LinkedIn (https://www.linkedin.com/in/holdenkarau)Blog (http://blog.holdenkarau.com)GitHub (https://github.com/holdenk)Facebook (https://www.facebook.com/hkarau)BorisLinkedIn (https://www.linkedin.com/in/boris-lublinsky-b6a4a/)GitHub (https://github.com/blublinsky)RichardGitHub (https://github.com/richardsliu)IlanLinkedIn (https://www.linkedin.com/in/ifilonenko)GitHub (https://github.com/ifilonenko)如何联系我们对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。美国:O’Reilly Media,Inc.1005 Gravenstein Highway NorthSebastopol,CA 95472中国:北京市西城区西直门南大街2号成铭大厦C座807室(100035)奥莱利技术咨询(北京)有限公司要询问技术问题或对本书提出建议,请发送电子邮件至bookquestions@oreilly.com。本书配套网站https://oreil.ly/Kubeflow_for_Machine_Learning上列出了勘误表、示例以及其他信息。关于书籍、课程、会议和新闻的更多信息,请访问我们的网站http://oreilly.com。我们在Facebook上的地址:http://facebook.com/oreilly我们在Twitter上的地址:http://twitter.com/oreillymedia我们在YouTube上的地址:http://