郭朝晖谈工业数据建模

2021/12/9 2:25:39 人评论次浏览分类：文化长廊文章地址：http://yunrun.com.cn/community/4073.html

业界使用的模型本质上有两种类型：一种是研发设计阶段的建模，目的是生产出与模型一致的物理产品。这时，一般是先有数字世界中的模型后有物理世界中的实体。另外一种是针对特定客观对象的建模，目的是让模型与客观对象吻合。这时，往往是先有物理世界中的对象，后有数字世界的模型。本节讨论的是后一种建模。这种模型是参照实际数据建立的，人们希望模型的结果与实际数据吻合。

针对特定物理对象的数据建模有两个层次的用途：一种是模型的正向应用，用于预测或计算某个变量；一种是模型的反向应用，用于优化和控制。前一种用途的模型不一定采用因果关系，而后一种用途的模型则要符合因果关系。

模型应用的场景
完整地理解模型的重要性，就要理解模型的局限性。我们前面曾经谈到，模型都是有误差的，这很大程度上限制了模型的应用。在维纳的理论中，通过反馈来应对模型的误差问题。传统控制论的模型，往往针对线性系统。线性系统往往适合用参数变动比较小的场景下。但智能时代的模型，往往针对的是变化范围变化较大的场景。这样的场景，往往是非线性的。

所以，基于工业数据建模，往往面对的是大范围和高精度的矛盾。下面我们会讨论：这样的矛盾是如何产生的，又是如何解决的。

数据建模的基础
很多人认为，工业数据建模的原因是“原理不清楚”。事实上，工业对象都是物理对象，都符合自然科学的规律。工业对象是人造对象。人们建立物理的工业对象时，往往也都是在科学原理的指导下做成的。

有些人不明白：既然科学原理清楚了，为什么还要建立模型。工业人建立模型的原因有两个：首先是科学模型是抽象的、工业模型是具体的。从抽象走到具体，需要给出若干参数。而这些参数并不一定容易获得。其次，科学原理针对的都是简单对象，工业对象却往往是复杂的系统，需要大量的参数。参数多的问题是：如果参数准确度不高，理论模型的精确度就会低到难以忍受的程度，无法满足工业生产的需要

下面给出一个形象的说法：某个工业对象可以用函数描述，假设它的理论模型是。应用模型时必须依靠现实中能够获得的数据。现实中，X往往是无法准确、及时获得。这时，人们要设法在可以得到的数据中，寻找一些与X相关的变量，如Z。于是，现实的数据模型往往就变成。

某厂发现：一种材料的合格率与生产这种材料的班组有关。事实上，合格率与某个工艺参数有关，不同班组采用的工艺参数不一样。但每个班组采用的参数不同、也没有记录。所以，人们看到的是合格率与班组有关。在这个例子里，工艺参数就是X，而班组就是Z。

人们经常发现：材料的性能与生产的季节相关。本质上，材料的性能与生产材料时的温度、湿度、空气流动的综合情况有关。在这里，温度、湿度、空气流动情况是人们需要的X，而生产季节就是Z。

人们预报钢水温度时，采用了一个经验做法：如果盛放钢水的钢包是第一次使用，则钢水温度降低5度。真正的原因是：钢包第一次盛放钢水时，钢包壁是比较冷的，钢水温度降低得更快。但是，人们容易得到使用次数的参数，却不容易得到钢包壁温度相关的参数。

变量的选取是非常重要的。变量的选择不同，最终的模型就不一样。其中，一个重要的差别是：模型的精度和适用范围不一样。对科学理论模型来说，模型的精度高往往意味着适用范围大，而现实的模型则不一定。从这种意义上说，模型精度未必是是越高越好。

工业企业追求稳定，而模型往往用来应对不稳定的工况。工况稳定的时候，参数波动的范围往往较小，简单的线性模型往往就可以奏效。复杂模型往往用于不稳定的场合。用于不稳定的场合时，对模型适用范围的要求就会比较大。

有些人开发的模型精度比较高，却不能得到生产厂的认可。背后的原因是：模型在生产稳定的时候精度很高，在生产不稳定的时候精度较低。由于多数时间的生产是稳定的，模型的平均精度往往较高。但是，生产稳定的时候，工人对模型没有需求；工人对模型有需求的时候，往往是生产不稳定的时候。

模型精度和适用范围的矛盾，是建模时最常见的问题之一。

工业大数据时代的机会
大数据时代的重要机会，就是可以用简单的方法建立好的模型。

从A地到B地时，要找到一条速度最快的路径。理论上讲，建立相关模型时需要给出许多参数，如距离、行驶速度等。而行驶速度，受到各种不确定因素的影响。在大数据的背景下，这个问题就容易解决了：看看其他人怎么走的、花了多少时间。找到合适的走法，按照他们的路子走就是了。为了提高精度，还可以根据日期、时段和道路事情情况做些修正。

事实上，工业大数据的方法，早已出现在前人的实践中。这类方法的基本思路就是：找一个类似的做法，在此基础上进行修订。

钢水冶炼前，需要给出合适的工艺参数。计算过程涉及到很多参数，不容易算对。解决这个问题的思路：先从历史数据中找类似的成功案例。以此为基础，根据案例炉与本炉次的参数差异进行修正。

热轧带钢轧制结束后，需要确定冷却水阀门的打开组数，以便冷却到特定的目标温度。在冷却过程中，冷却速度受钢种、厚度、起始温度、冷却目标温度、冷却水温度等多个因素的影响，纯粹的机理模型很难准确计算。解决问题的办法是对带钢进行分组，在每个分组内确定一组与冷却速度有关的参数。在此基础上，对具体带钢参数进行变换、得到对于的冷却制度，并根据实测结果对参数进行修订。在某些钢铁企业，响应的分组有几万个。

我们注意到：上述方法其实解决了模型的应用范围大和精度要求高之间的矛盾。外表上看，模型适合于各种产品、应用范围很大。在这个范围内，模型本质上可能是非线性关系。但是，通过寻找类似的案例，就自然地回避了非线性问题。而历史的案例，本质上是实践积累的结果。具体地看，非线性模型本质上是由若干个小模型组成的，每个模型的应用范围很小。这样，就可以在每一个小的范围内设法提高模型的精度。在这个小的范围内，参数的影响往往可以用线性模型或者广义线性模型近似。在范围足够小的时候，人们就可以采用反馈调节等手段，进一步提升模型的精度。

我们曾经提到：工业对象复杂、对精度要求高的时候，知识往往来自于实践。上述办法本质上就是把实践中行之有效的做法记下来，用于指导下次的实践。从本质上讲，这种办法与PDCA持续改进的思想是一致的。但这种持续改进是由计算机自动完成的。

对从事算法研究的人来讲，上面的思想其实并不新颖。所谓近邻方法、CBR方法、模式识别、R2R等方法，基本上就是这个思路。但是，在过去数据基础有限的条件下，这些方法不一定能用好。比如，人们可能找不到相同或者类似的案例。

在笔者看来，工业大数据的根本优势是数据的质量好。质量好的一个方面，就是数据分布范围大，覆盖了各种可能发生的情况。这就是所谓“ 样本等于全体”。在这样的前提下，就总能从历史上找到类似的案例。所以，大数据的本质优势是数据来源全面，而不是数量多到什么程度。如果数据存储得足够久、场景存储得足够多，新问题就会越来越少，这类方法就容易走向实用了。

以设备故障诊断为例。针对单台设备研究问题时，故障样本就少，甚至每次都不一样。但是，如果把成千上万台设备的信息收集起来，情况就不一样了：每次出现问题，都容易在历史数据库中找到类似的案例。这时，人们研究的重点，往往是如何利用理论的指导，更加准确地寻找类似案例、更加准确地修正。

“戒烟最容易了：我都戒过100多次了”。

从事数据建模工作时，往往就会遇到这样的问题：用一批数据建立数学模型，结果非常理想。但不久以后，精度却很快降低下去、无法继续使用。所以，许多结果很好的学术论文，在现实中却是没有用的。为什么会出现这样的问题呢？

有个小朋友说：穿红裙子的人是我的妈妈。在特定的时间、特定的地点，小朋友的话是正确的。但如果换了一个场景、换一个日子，这个判别标准可能就错了：妈妈可能不穿红裙子了，穿红裙子的女士也可能有很多个。

数据建模的失效常常也是类似原因导致的：当场景变化时，模型很容易失效。要解决这样的问题，必须综合运用多个方面的特征。
许多人脸识别算法非常成功。有的算法在人脸上找到了一百多个特征。识别时综合考虑这些特征，就不容易出错了。有些罪犯过了几十年、相貌发生了很大变化，机器仍然能识别出来。

在大数据时代，数据的完整性很好。人们有可能找到若干独立的特征进行综合。这样，模型识别的准确率就大大提高了。

第四范式与科学规律发现
自然科学规律本质上也是用数学模型描述的。自然科学规律的特点是：模型精度高、适用范围大。我们前面曾经提到，经典科学原理往往有个特点：变量的数目非常少。这背后有个重要的原因：

科学结论都是需要经过严格检验和论证的。按照科学哲学的观点，科学理论的基本特征是可证伪性。所谓的可证伪性，就是理论上存在一种验证办法，如果验证结果与理论不符，就可以证明理论是错的。如果一个理论涉及到的因素少，就容易证伪。

复杂问题的影响因素多，不容易严格论证。例如，新药的开发困难，就与此有关。在大数据时代，这类问题可能得到改变。图灵奖得主吉姆·格雷(Jim Gray)将科学研究分为四类范式(Paradigm)即实验归纳，模型推演，仿真模拟和数据密集型科学发现。其中，最后一种就是通过大数据发现科学知识。

理论上讲，许多工业过程都可以用科学公式来描述。但现实的影响因素太多。化工、冶金等行业的一种典型的现象是：在同一个生产过程中同时存在着几十种化学反应。每个化学反应都可以用简单的化学反应方程来描述。但反应之间互相影响，许多参数会动态变化、无法准确确定，整体的化学反应过程就很难准确描述。

钢铁材料中的很多物理和化学变化是在固体中进行的、反应过程不充分、不彻底。故而导致产品质量与工艺过程密切相关。钢铁产品的力学性能是多种元素的含量和工艺参数综合影响的结果。力学性能与影响因素都是可以测量的物理量，而成分和工艺可以决定性能。理论上讲，存在一个科学的公式来描述性能与成分、工艺的关系。

对于这样的情况，传统的办法很难建立准确的模型。除了问题本身复杂外，一个重要的原因就是许多干扰是不可见的。这就会对模型的验证带来巨大的困难。

在大数据的背景下，为解决这类困难提供了可能。一个重要的原因是：当数据量足够大的时候，随机干扰是可以通过平均的方法滤除的。这相当于数据的精度可以大大提高。同时，大数据还可能为人们提供较好的样本分布，有助于复杂问题的解耦，即把复杂的、变量多的模型简化成若干变量数目少的简单模型。模型简单以后，也便于科学地验证。

模型简化的过程，其实是一个猜测和排除的过程。这一点和传统的科学研究非常类似。是一个循环往复、不断深入的过程，需要不断地进行定性判断和定量的估计。在这个过程中，科学知识和数据中反映出来的现象可以共同起作用。人的经验也是非常重要的：优秀的专家往往“猜得准”，能够提高研究的效率和成功率。

需要特别指出的是：这样的研究并不能保证成功。成功的必要条件是数据本身决定的。一定数量的科学实验和仿真研究也是必要的。

作者：郭朝晖(工学博士，教授级高工。企业研发一线工作20年；优也科技信息公司首席科学家；东北大学、上海交大等多所院校兼职教授。国内知名智库、走向智能研究院的发起人之一。原宝钢研究院首席研究员)

上一篇：工业大数据时代的数据质量和数据可追溯性

下一篇：从工业4.0的三个维度理解工业互联网