工业大数据时代的数据质量和数据可追溯性

2021/12/6 19:33:57 人评论 次浏览 分类:文化长廊  文章地址:http://yunrun.com.cn/community/4071.html

我喜欢从机会的角度,认识工业大数据。工业大数据的一个重要机会,是帮助人们更有效地获取工业知识。人们能够从数据中获取的知识,与数据的质量和完整性有着极大的关系。过去,受经济因素的制约,人们采集、存储、传输数据的数量是有限的,往往只能短期记录部分重要的数据,数据的完整性就无法得到保障,从而影响知识的获取。数据量小的时候就往往不能保证数据的质量。数据规模变大后,就有条件提升数据的质量,从而发挥数据的潜力。从这种意义上说,工业大数据的时代,本质上是数据质量高的时代。

我的师傅、宝钢老专家王洪水先生很早就重视数据质量。他在主持开发宝钢信息系统时提出一种形象的说法:要像录像一样把数据记录下来,不能让有用的信息丢失掉。


所谓“像录像一样”,就是对“可追溯”的形象描述。当质量、设备、安全、环保出现问题时,可以通过追溯生产的过程,找到问题的原因。通过追溯,人们也可以分析质量、效率、成本方面的差异,从而更好地优化生产过程。通过追溯,可以科学、准确地评价供货商、部门和员工,从而实现更加科学的管理。事实上,“可追溯”是现代工业企业质量管理最基本的要求之一。


在某些落后的企业,为了满足可追溯的贯标要求,让工人手工记录相关的数据。手工记录的数据不仅数量有限、数据质量也差,还容易造假,工作的价值就大大地打了折扣。随着计算机的广泛应用,先进企业的数据追溯可以让机器来完成,就可以避免手工记录的各种问题。宝钢在40年前提出“数据不落地”,就是这个道理。如果数据记录在机器中,追溯过程可以非常方便,可以让机器帮助分析数据。


数据分析工作就像探案推理,对数据质量的要求很高。需要从蛛丝马迹中找到问题的根源,并尽量避免被数据中的假象误导。但是,受经济和技术条件的约束,过去的数据记录往往不完整,数据记录频度低、存储周期短,数据质量也不理想。笔者在实践过程中发现了一些问题。这些问题的本质,还是数据质量不理想。下面就是一些常见的问题,会给数据分析过程带来很多的麻烦:


1、数据的误差问题
工厂里的许多同志会强调车间仪表的测量精度高。但是,仪表测量精度高并不意味着误差可以忽略不计。如果数据来自某个固定的工作点附近,数据采集误差可能是数据波动的重要甚至是主要原因。这时,数据的信噪比会非常低。另外,由于系统性的干扰,传感器测量的结果可能与实际值存在某种偏差,这些偏差还会随着时间和场景变化。比如,用红外方式测量温度时,需要事先设定对象的黑度系数。但测量对象发生变化时,设定的黑度系数未必会同步变化。这时,测量值的变化并不意味着真实温度的变化。


2、数据的代表性问题
数据往往代表对象或过程的属性。但是,对象的属性可能不均一、过程的属性可能不唯一。比如,测量钢水成分时,取样位置不同、测量结果就不一样;再如,测量设备内部的温度时,不同位置的温度可能不一样。但是,人们只能在某个位置进行测量。这样,就会有测量结果的代表性问题:测量结果的合格并不意味着全面的合格、测量结果的稳定并不意味着真正的稳定。


3、数据的内涵问题
测量过程是数据的“生产”过程。测量过程要规范、合理,才能得到有用的测量结果。测量过程和方法不规范,会带来错误的信息。计算机中的许多数据,是经过处理过的。有些数据,是经过智能传感器传递过来的。在这些场景下,数据的含义可能会产生歧义和混乱。比如,在不同的场景下,数据代表不同的含义;再如,某个场景下,温度=400意味着温度测量失效或者高于400度。实践表明:人们分析问题时遇到的很多深层次的困难,是测量的规范性不好引发。数据分析师要经常提醒自己:数据是测量的结果,不要想当然地认为数据就是真实的。


4、数据对应差错
数据一定是某个对象的属性。如果属性和对象对应错误,就会产生对应问题。现实中,有两种典型的问题:一种是空间的对应,一种是时间的对应。空间对应问题往往发生在取样测试的场景。以钢铁行业为例,测量材料性能时,需要从一个很小的位置上取样的。一卷钢的生产工艺参数是不断变化的,很难准确地对应到取样点。时间对应问题往往发生在不同的设备之间。由于不同的设备可能采用不同的时钟,时钟的误差让人难以准确判断先后关系。


5、数据的频度问题
有些质量问题的产生,是秒级、毫秒级的事件引发的;分析设备问题时,也需要非常高频度的数据。分析问题时,经常会发现数据的采样频度不够。而且,数据的采集频度不等于传送、存储的频度。有时候,采样数据是批量传送的,而传送的间隔比采集间隔要长得多。这也会导致很多问题。


6、数据的存在性问题
人们在进行数据分析时,经常发现某个重要的数据没有测量或者根本不可信。这种现象非常普遍。这会导致许多分析工作无法进行下去。


工业大数据时代数据的可追溯性
以上这些问题,有些是在数据采集、传输、存储成本高昂的背景下产生的。有些则与数据采集系统的设计有关。在工业大数据时代,外部的硬件条件具备了,但需要有关人员对数据采集和管理进行更加深入的思考。笔者认为,在工业大数据时代,理想的“可追溯性”需要满足以下四点要求:

1、空间的一致性。不能用产品A的生产工艺对应产品B的质量,导致因果错乱。
2、时钟的一致性。数据源必须有统一的时钟。这对分析因果的重要性在于:“原因”总是会发生在“结果”的前面。
3、采样频度合理性。采样的频度需要与原因或结果发生的频度匹配,保证不漏采。例如,如果事件发生的频度是秒级的,采样的频度不能是分钟、小时级的。
4、数据质量的监控。生产过程的很多疑难问题,往往是由数据采集本身的问题导致的。对于重要的数据,要有办法判断数据本身是不是准确的、数据采集过程本身有没有问题。

作者:
郭朝晖(工学博士,教授级高工。企业研发一线工作20年;优也科技信息公司首席科学家;东北大学、上海交大等多所院校兼职教授。国内知名智库、走向智能研究院的发起人之一。原宝钢研究院首席研究员)

相关仪表推荐

共有访客发表了评论 网友评论

  客户姓名:
邮箱或QQ:
验证码: 看不清楚?