前言
作为归纳法的典型代表,机器学习(包括深度学习)已构建起一套完善的理论框架与技术生态系统。近年来,大型预训练模型采用知识嵌入、自注意力等机制,用优异交互体验与表现颠覆了人们对机器学习应用边界的认知。然而,机器学习的整体行业应用成功率不到20%。这不禁让人思考背后原因和解决方法。
在实际工业数据分析项目中,经常面临着数据基础差、场景覆盖不全、技术经济性不够等挑战,也存在机器学习模型与既有知识体系、组织流程和社会体系(伦理与安全风险)融合困难等问题。更本质的原因数据是物理过程的不完整、不完美刻画,为此,数据驱动方式必须巧妙的应用到合适的环节,机器学习模型需要与机理模型、专家规则集成,企业数字化需要DT(Date Technology)、IT (Information Technology)、OT (Operation Technology)的3T融合。以上观点逐步变成了工业大数据分析应用的共识。但在实际中如何推进,目前仍缺乏有效指导方法。这正是本书尝试探讨的工业数据分析方法论。
对于方法论,可以从不同层面去认知和论述。“道法自然”等思想智慧可以指导企业数字化转型和团队建设。笛卡尔方法论四原则(普遍怀疑原则、分解分析原则、逐步综合原则、清晰性原则)等逻辑哲学可以作为数据工程的指导方法。在分析建模中,也有“奥卡姆剃刀原理”、“All models are wrong, but some are useful.”等指导思想。但这些一般性思维往往较为抽象和宽泛,缺乏具体的实施步骤,难以直接应用。相比来说,过程方法通过将大任务拆分,降低了认知负荷,容易将认识转化为行动,为实践者提供了一条清晰和相对一致的路径。因此,本书定位在行业数据分析微观执行层面的过程方法。
针对行业数据分析,业界提出了CRISP-DM (Cross-Industry Standard Process for Data Mining)、ML-Ops (Machine Learning Operations)等方法。CRISP-DM是一种被广泛认可的数据挖掘标准流程方法,将数据挖掘项目划分为业务理解、数据理解、数据准备、模型建立、模型评估、模型部署等六个相互关联且迭代进行的阶段。ML-Ops是一种集成了机器学习(ML)、软件开发(Dev)和运维(Ops)最佳实践的方法论,旨在实现机器学习系统的高效开发、测试、部署、监控、更新和维护,促进数据科学团队与IT运营团队之间的协作,确保模型在整个生命周期内的高质量交付和持续优化。本书内容主要针对模型研发环节,是对CRISP-DM在行业应用的细化,在CRISP-DM的6个步骤之前,增加了一个“分析场景定义”步骤,因为在行业数据分析中,分析问题通常不是给定的,而是需要识别或重新定义的。
全书包含10个章节。第1章概要讨论了方法论的作用,以及工业数据分析过程方法的内容。第2章介绍了分析场景的识别与筛选方法,将分析场景与业务流程、决策逻辑协调起来。第3章将业务理解分解为决策逻辑、决策场景、领域概念三个方面,并针对性提出了对应的形式化模型,以提高DT、IT、OT的跨领域协同。第4章将数据理解分解为数据收集、数据描述、数据探索、数据质量审查等关键步骤,并提出了系统动力学模型、领域模型驱动的数据理解方法;第5章讨论了数据准备工作,特别是数据流设计方法,在设计阶段把生产过程的数据处理流程梳理清楚,提高分析算法的协同开发,也为MLOps奠定基础。第6章讨论了常见的分析建模技巧,以应对工业分析中的标记样本不足、长期稳定、强耦合等挑战。第7章讨论了模型评价与部署这两个步骤,特别是检查增量逻辑的脆弱性和潜在缺陷的方法。第8章总结了机器学习算法的常见组合模式。第9、10章用风电机组风功率曲线分析、冷轧机设备健康分析阐述了上述方法在行业应用的应用。
本书的第1~7章和第9章主要由田春华编写,第1~3章部分得益于与王岩鹏的深入讨论与交流,也感谢关林涛在方法体系的讨论与建议。第8章由裴忠一、韩洁编写,节选自国家重点研发计划项目(2021YFB1715200)的研究成果。第10章由解光耀、王伟主持编写,感谢于志强、秦世峰等全体项目组同事的贡献。最后,非常感谢机械工业出版社各位编辑和审阅老师的富有成效工作,让这本书能以更高的质量呈现在读者面前。
在实际工作中,需要辩证地看待过程方法论。过程方法论固然提供了规范化、结构化的指导框架,但它并不能替代对领域知识、问题本质的深刻理解以及对每个步骤具体内容的精细考量。古人有云,“知之真切笃实处即是行,行之明觉精察处即是知。”真正的知识必然伴随着行动,而有意义的行动也必须基于对事物本质的深刻理解。
作为对行业数据分析方法的探讨,本书内容还有很多可以扩展与深入的地方。特别是随着大模型等人工智能技术的发展,人机交互界面重新划分也必将扩展到数据分析领域。针对本书的局限性或错误,还请广大读者不吝赐教,共同探讨,持续推进数据分析技术在行业中的应用。
田春华