制造业消费过程中多源异构数据处置方法综述

嗜囡 · 发布于 2023-6-16 10:26:31

点击上方蓝字关注我们

制造业消费过程中多源异构数据处置方法综述

陈世超1,2, 崔春雨1, 张华3, 马戈4, 朱凤华1, 商秀芹1, 熊刚,1
1 中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京 100190
2 澳门科技大学，澳门 999078
3 北京航天智造科技开展有限公司，北京 100039
4 中国工业互联网研究院，北京 100102
摘要：随着现代制造业向着自动化、信息化、智能化方向快速开展，消费过程中会产生大量的多源异构数据。对多源异构数据的有效处置和深度开掘可为消费制造者提供更有效的消费调度、设备管理等战略，从而进步消费质量和效率。针对制造业消费过程中多源异构数据的处置方法与技术等停止系统性的综述，首先明确了制造业消费过程多源异构数据内容及分类；其次，论述了多源异构数据处置中数据采集、数据集成及数据分析各个阶段应用的数据处置方法和技术，并分析了各种方法与技术的优缺点以及应用；最后，对消费过程中多源异构数据处置方法和技术停止总结，指出了现阶段多源异构数据处置方法及技术面临的挑战和开展趋势。
关键词：数据处置 ; 多源异构数据 ; 消费制造

论文引用格式：
陈世超,崔春雨,张华, 等. 制造业消费过程中多源异构数据处置方法综述[J]. 大数据, 2020, 6(5): 55-81.
CHEN S C, CUI C Y, ZHANG H, et al. A survey on multi-source heterogeneous data processing methods in manufacturing process[J]. Big Data Research, 2020, 6(5): 55-81.

1 引言

在全球信息技术快速开展的背景下，随着科学技术的迅猛开展和社会信息化水平的不时进步，人类社会共享的数据的数量大大增加，共享的数据的形式大大丰富。据希捷公司与国际数据公司（IDC）共同发布的《数字化世界——从边缘到核心》白皮书，全球数据圈规模将从2018年的33 ZB增至2025年的175 ZB。其中，白皮书中指出，在全球数据圈中，制造业数据所占份额最大，远远超越其他行业。同时，随同着中国“智能制造 2025”国家战略的施行，工业制造业面临严重的革新转型，大数据成为提升制造业消费力、发明力的关键。随着智能制造的开展，自动化、信息化、智能化等技术浸透到制造业消费过程的各个环节，从工业现场的传感器、设备到制造消费过程中的各个信息系统（如制造执行管理系统、消费监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统等），均会产生大量不同构造类型的数据。以一个典型的纺织制造车间为例，其一天的数据量将到达84 GB，而一台半导体消费机器一天的数据量甚至可以到达TB级别，这些数据包括二进制、文本、视频、音频等数据。而海量的数据中蕴含着大量有价值的信息，对这些信息的提取有利于指导人们在消费制造、设备管理和消费调度等过程中做出正确的决策，到达优化制造流程、进步效能的目的，促进制造业消费过程的全面智能化，从而进步消费质量和效率。
如图1所示，产品的制造流程包括研发设计、物料采购、消费制造、产品销售及产品售后5个阶段，每个阶段的数据都具有数据来源多样、数据质量低、数据蕴含信息复杂、数据实时性高等特点，而从海量数据中开掘指导制造业研发设计、消费制造、销售售后和经营管理等过程的知识和规则，需要大量的模型算法等数据处置方法的支撑。尤其是在产品消费制造过程中产生的数据，其不只数据量非常庞大，来源丰富、类型多样、构造复杂，而且由于制造业不同的部门和系统之间数据的来源、存储形式等各不相同，数据源之间存在异构性、分布性和自治性，数据类型既包括数字、关系型数据等构造化数据，也包括图像、音频等非构造化数据。因而，这对制造业消费制造过程中海量数据的处置方法和技术提出了更高的要求。为了充沛发挥制造业多源异构数据信息的潜力，更加高效地停止数据处置，必需在明确多源异构数据概念的根底上，对多源异构数据的处置方法和技术展开深化且系统性的研究。
本文首先明确了制造业消费过程中多源异构数据的概念和类型；其次对消费过程中多源异构数据处置的过程停止了划分，同时对各个阶段的数据处置方法和技术及其在制造业消费过程中的应用停止了深化分析与讨论；最后，对消费过程中多源异构数据处置方法及技术停止了总结，并对现阶段面临的挑战及将来的开展趋势停止了分析与讨论。
2 制造业消费过程中的多源异构数据

《大数据：下一个创新、竞争和消费力的前沿》针对社会对大数据的关注及应用需求，对海量数据的处置技术停止了介绍和总结。基于对不同来源、多种构造数据的综合研究的迫切需要，多源异构数据这一概念随之产生，其主要包括两个特征：一是数据来源具有多源性；二是数据品种及形态具有复杂性，即异构性。

图1 制造流程的5个阶段

多源异构数据来自多个数据源，包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同，数据的存储形式和逻辑构造不同，数据的产生时间、使用场所、代码协议等也不同，这形成了数据“多源”的特征。
另外，多源异构数据包括多品种型的构造化数据、半构造化数据和非构造化数据。构造化数据指关系模型数据，即以关系数据库表形式管理的数据；半构造化数据指非关系模型的、有根本固定构造形式的数据，例如日志文件、XML文档、JSON文档、E-mail等；非构造化数据指没有固定形式的数据，如WORD、PDF、PPT、EXL及各种格式的图片、视频等。不同类型的数据在形成过程中没有统一的规范，因而形成了数据“异构”的特征。
随着自动化、信息化、智能化等技术在制造业中的广泛应用，在消费过程中必然会产生大量的多源异构数据。从数据的来源来说，制造业的制造执行管理系统、消费监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统中的各种机器设备、工业传感器等在运行和维护过程中都会产生大量的数据。从数据构造类型来看，这些海量多源异构数据既包括设备监测数据、产品质量检测数据、能耗数据等构造化数据，还包括消费监控系统产生的大量图片、视频等非构造化数据。本文综合其他学者的研究根底，针对制造业消费过程中产生的数据，依照数据来源和类型，将其做如下划分，见表1。对于制造业消费过程中的多源异构数据来说，由于消费过程存在复杂的变化条件，因而对数据的全面性、实时性的要求较高。

3 制造业消费过程中多源异构数据处置

在制造业消费过程中，从前期的数据广泛采集，到最后数据的价值提取，多源异构数据处置的一般流程包括数据采集、数据集成及数据分析。数据采集主要实现大量原始数据准确、实时的采集，为数据集成阶段提供原始数据源。数据集成主要实现数据的数据库存储，数据清洗、转换、降维等预处置以及构建海量关联数据库，为数据分析阶段提供预处置的数据源。数据分析主要利用关联分析、分类聚类及深度学习等技术实现数据的价值开掘。多源异构数据处置的一般流程如图2所示。

图2 多源异构数据处置的一般流程

3.1 数据采集

数据采集是多源异构数据处置的根底，只要实现对消费过程中产生的大量原始数据准确、实时的采集，并将其传输到数据存储管理平台，才干对消费设备、产品质量、工作调度等停止监控与管理，从而协助消费管理部门做出更高效、精准的决策。
针对不同类型消费制造业消费过程中的多源异构数据，需要采用不同的数据采集方法和工具。首先，对于离散制造业中的消费过程数据，主要使用射频识别（radio frequency identification，RFID）技术对消费车间中的原资料、设备、产品信息等停止数据采集。针对消费流水线上的产品信息，曹伟等人提出了一种无线射频识别数据采集单元模型，可获取零件的状态、时间等实时信息，并在此根底上建立了针对加工工序、工序流、批次与批量的无线射频识别监控模型，从而实现了对离散制造车间消费过程的可视化监控。而对于流程消费制造业中的消费过程数据，主要依靠传感器及上位机对数据停止采集。陈开胜提出了采用分布式控制系统（distributed control system，DCS）和可编程逻辑控制器（programmable logic controller，PLC）等辅助控制系统和控制装置停止数据采集的方法，该方法是对计算机、网络和数据库的综合运用。此外，在流程消费中，以计算机为根底的数据采集系统还有数据采集与监视控制（supervisory control and data acquisition，SCADA）系统。其中，PLC主要应用于消费现场的温度测控；DCS主要应用在对测控精度及速度要求较高的消费现场的数据采集；SCADA则交融了PLC的现场测控功能和DCS的组网通信才干，可以对分散点停止控制，从而实现对分布范围较广的消费现场的覆盖。西门子公司在PLC的根底上参与了网络以及软件等，开发了SIMATIC PCS7西门子SCADA系统、SIMATIC WinCC西门子SCADA系统等控制系统，而DCS厂商霍尼韦尔公司也在其系统中融入了PLC，以加强其逻辑控制，开发了过程知识系统（process knowledge system，PKS）。对于在离散制造业及流程制造业中均广泛存在的日志数据及多媒体数据等，同样根据其各自的特点采用不同的数据采集方法。对于制造消费过程产生的日志数据文件，可以采用Flume这一分布式、高可靠、高可用的日志采集传输系统。陈飞等人提出了一种基于Flume并结合Elasticsearch及Kibana的新型分布式采集系统，该系统适用于海量日志数据的采集。针对消费过程对音频、视频等多媒体数据的监控，有利用多媒体流处置引擎直接抓取或利用厂商提供的软件开发工具包（software development kit，SDK）开发数据导入程序的数据采集方法。李凤娇在海康威视的8100系列网络硬盘录像机的根底上，通过调用海康威视提供的SDK中的相关接口函数读取实时视频流。另外，浙江宇视科技有限公司的IP流媒体处置方案可以通过装置流媒体效劳器软件来对多媒体数据停止实时访问及存储。对于这几种典型的数据采集方法，本文根据其面向的数据类型及在消费过程中的应用停止了总结，见表2。

另外，针对数据采集的新需求，相关研究也提出了许多与网络技术相结合的创新型数据采集方法。马吉军等人提出了一种基于边缘计算的消费数据采集方法，利用蜂窝网络对消费设备停止网络化改造，并利用边缘网关对采集到的消费数据停止本地处置。许瀚之和杨小健提出了一种基于虚拟专用网（virtual private network，VPN）的远程工业数据采集系统，在已建好的VPN环境下通过用于过程控制的OLE（OLE for process control， OPC）客户端停止数据采集。
对于目前几种典型的数据采集场景，实际应用中根据其采集的数据类型及要求等，采用Flume、RFID、传感器等不同的采集方法，这些方法具有不同的优势。而面对目前数据量迅速增长以及数据类型日益复杂化的问题，传统数据采集方法难以满足更具实时性、更准确的采集要求，因而，与物联网等前沿技术相结合成为数据采集的开展趋势。
3.2 数据集成

多源异构数据集成是整合来自多个数据源的数据，屏蔽数据之间类型和构造上的差别，处置多源异构数据的来源复杂、构造异构问题，从而实现对数据的统一存储、管理和分析，实现用户无差别访问，充沛发挥数据的价值。数据集成的关键技术包括数据存储管理、数据清洗与转换及数据降维。
3.2.1 数据存储管理
数据的存储管理是多源异构数据处置过程中非常重要的一个环节，选择合理的数据库可以减少数据检索的时间，进步数据查询的准确度，是后续数据处置的根底。目前常见的数据库技术包括：以MySQL、Oracle、DB2、SQL Server等为代表的SQL数据库，以Redis、HBase、MongoDB、Neo4j等为代表的NoSQL数据库，以及NewSQL数据库。
美国甲骨文公司研发的Oracle是一种高效、适应高吞吐量的关系型数据库系统，在数据量大、对系统性能稳定要求高的钢铁、煤炭、汽车制造行业应用广泛。美国IBM公司开发的DB2具有伸缩性能良好、查询性能良好以及向下兼容性好的特点，适用于海量数据的存储管理，在政府、银行等广泛应用，另外在宝钢、本钢等钢铁企业也有应用。制造业消费制造过程中产生的海量多源异构数据包含构造化、半构造化和非构造化多种数据。由于面向构造化数据的传统关系型数据库在伸缩性、容错性、可扩展性等方面存在的固有局限性，单独使用难以满足对海量多源异构数据停止存储管理的要求，因而NoSQL数据库成为目前研究与应用的热点。
根据数据存储模型和特点，NoSQL数据库可分为4种典型类型：以Redis、Memcached为代表的键值存储数据模型，以Bigtable、HBase为代表的列式存储数据模型，以MongoDB为代表的文档存储数据模型，以及以Neo4j为代表的图形存储数据模型。Redis常被应用在社交领域，用来存储用户关系和计数。由于消费过程中多源异构数据对实时性要求较高，因而Redis在制造业数据存储中常被用作缓存系统，以保证数据存储的低时延性。在电力计量采集系统中，基于Redis的分布式写缓存子系统用于缓存采集的计量数据，再批量写入关系数据库。在大型机械设备的数据采集与存储中，熊肖磊等人在数据层基于Redis实现了实时数据的解析缓存，使系统具有高效缓存数据的才干。Google Bigtable开源实现的HBase具有扩展性好、备份机制完善的特征，当制造业消费过程涉及多源异构数据的统计分析时，可使用HBase对来自各个子系统的数据停止同步整合存储。例如，在分布式电源控制系统中，可以实现各个分布式电源系统的运行状态数据至HBase数据库的同步。查询语言功能强大的文档存储数据库MongoDB适宜数据量大、数据模型无法确认、需要对接多个数据源等的场景，数据来源复杂是制造业消费过程多源异构数据的主要特点之一，因而MongoDB常被用于多个数据源或子系统的对接。在工业消费中，MongoDB可用于对过程的连续监控；在混凝土行业中，MongoDB用来存储海量的混凝土消费消耗数据，并实现多个系统之间的数据对接；在电力行业， MongoDB可以实现电网图形的多时态、多级分布式存储。
针对工业制造业过程数据产生速率快，实时性要求高，对事务的原子性（atomicity）、一致性（consistency）、隔离性（isolation）、耐久性（durability）（即ACID）要求低的特点，冯德伦提出了NoSQL数据库合理组合的工业历史数据存储方案。针对制造业消费过程多源异构数据的来源更加多样化的开展趋势， NoSQL数据库与其他技术相结合的大数据平台或处置方案近年来也有不少案例。赵德基等人提出了基于Dubbo与NoSQL的工业领域大数据平台，针对工业多源异构数据的接收、存储、计算、分析及展示，根据不同场景的业务需求提供了相应的处置方案。文棒棒和曾献辉提出了一种基于传统数据库多表架构与NoSQL大数据库相结合的新型数据存储方案实现实时数据的分布式存储。
除此之外，451 Group的分析师Aslett M提出了NewSQL技术，其具有NoSQL对海量数据的存储管理才干，同时还坚持了传统数据库支持ACID和SQL的特性，但目前应用范围大多为专有软件或特定场景。对于上述几种典型的数据库技术，笔者对数据库模型、支持的数据类型和应用场景等停止了对比，结果见表3。

以上几种典型的数据库技术均有其特定的优势及应用场景，而在特定复杂的应用场景中，单一的数据库往往难以满足人们对数据存储管理等多方面的要求，李东奎和鄂海红提出了关系型数据库不能完全被NoSQL数据库替代的观点，并基于Hibernate OGM建立了统一的SQL和NoSQL数据库访问模型，使得两类数据库可以在同一个框架下依照统一的规则停止读写。因而，根据详细的应用场景，选择不同类型的数据库停止混合部署，使数据库之间形成互补，是目前多源异构数据存储管理的开展趋势。
3.2.2 数据清洗与转换
准确可靠的数据是停止有效数据分析、数据开掘的前提。在实际的消费过程中，由于多源异构数据来源众多的特征，采集到的数据的质量难以保证，缺失的、错误的、不一致的等不符合规范的“脏数据”普遍存在，同时来自不同系统的数据的格式也并不统一，这些都会给数据的有效分析带来困难。数据清洗的目的就是检测数据中存在的“脏数据”，通过数据挑选、数据修复等手腕进步数据的质量。而数据转换主要是将多源异构数据转换成统一的目的数据格式，并完成对不同数据指标停止转换的计算。
针对消费过程中不同的问题数据，可以给出不同的数据清洗方法。由于制造业消费过程中的多源异构数据往往来自多个数据源，各数据源通常具有不同的数据库系统、接口效劳等，因而数据具有构造类型多样、表达形式不统一等特点，这就导致采集的数据中会存在数据缺失、数据错误、数据不一致等问题。对于缺失的数据，大多数情况下需要手工停止填入，某些情况下可以通过统计学习的方法对缺失值停止处置。曹林针对具有聚类特征的数据集，提出了一种回归插补的缺失值清洗框架。对于错误数据，首先利用统计分析的方法对可能呈现的错误值停止识别，然后才干对错误数据停止肃清，到达数据清洗的目的。对于不一致的数据，可以基于关联数据之间的一致性来检测数据潜在的错误，并停止修复，以完成对多数据源数据的清理。
对于制造业消费过程中的多源异构数据来说，单一的数据清洗方法难以满足实际需求，这就需要一个系统的数据清洗方案。ETL（extract、transform、lOAd）工具是一类常用的大数据预处置工具，应用广泛的有国外开源的Kettle工具、IBM公司的Datastage以及Informatica，其在数据清洗环节发挥着非常重要的作用。也有许多研究人员依照不同的需求对ETL技术停止了改进与完善。周瀚章等人设计了一种基于区域划分算法的ETL高效数据清洗方案，处置应用ETL时产生的大量错误属性数据的问题。ETL工具不只在数据清洗方面具有广泛的应用，同时也是数据转换的主要工具。孙安健等人设计了一种可以屏蔽异构数据源访问差别的通用ETL工具，提供了大量转换组件来灵敏处置复杂的应用场景。陈玉东和姚青提出了一种应用于业务流程数据的转换规则，通过设计流程数据转换算法来将流程日志中的数据快速准确地转换成评估系统需要的规范数据。
除此之外，针对不同的制造业门类及数据采集方法，有不同的数据清洗方案。针对RFID采集数据实时性强、数据量大的特点，余杰和王睿提出了基于时间和基于时间间隔的布鲁姆滤波模型，可以在低内存的情况下保证数据应用的实时性。针对消费车间制造物联环境下采集到的数据连续性、冗余性强的特点，蓝波等人提出了一种基于卡尔曼滤波模型的滑动窗口技术，该技术更加适用于RFID标签挪动的消费场景。这些研究针对不同的消费制造场景、不同的采集数据类型和特点，对数据清洗方法停止了改进和完善，使其更加适应实际应用的需要。
目前，深度学习和众包技术开端在数据清洗环节得到应用。郝爽等人提出了利用深度学习模型处置复杂数据清洗任务的方法。针对参与者水平整齐不齐形成数据清洗质量较低的情况，万耀璘等人提出了在决策阶段利用成熟计算机算法来进步众包可靠性的方案。深度学习可以减轻用户制定数据清洗规则的负担，众包技术将数据清洗任务发送到互联网，利用公众的参与来进步数据清洗的效率，二者与传统数据清洗技术的结合是数据清洗技术在将来一段时间的开展趋势。对于数据转换来说，ETL工具仍然是进步数据质量、屏蔽数据差别的首选工具。因而，对ETL工具自身现有的扩展性差、调试不便利等局限性停止改进和完善是下一步研究与开发的重点。
3.2.3 数据降维
多源异构数据具有品种繁多、构造复杂的特点，为了从原始数据中提取更加可靠、有效的数据信息，需要消除无关、冗余的特征，生成新的特征数据，从而实现对高维数据的降维。在现代制造技术的开展中，制造业消费过程中海量的多源异构数据往往维数较高且大量数据之间存在较高的相关性，这给数据降维带来了更高的难度。一般来说，可以通过对数据停止特征选择或者特征提取来实现数据降维。特征选择的方法通过对原始特征集合中的元素停止选择来得到原始特征集合的子集，从而实现降维；而特征提取的方法则通过对不同特征停止组合来得到新的特征集合，从而到达数据降维的目的。
特征选择不改变特征的含义，从原始特征数据集中选择具有代表性和统计意义的特征，以实现降维的目的。特征选择方法包括基于全局搜索、随机搜索以及启发式搜索战略的特征选择方式和基于Filter、Wrapper的特征选择算法。
全局搜索战略遍历原始特征集，通过评价原则选择满足特定条件的特征子集，其优点是可以得到最优特征子集。但制造业消费过程中的多源异构数据往往是具有多个独立或相关属性的高维数据，因而运算本钱较高，在实际中难以应用。随机搜索战略首先随机选择特征，然后用模仿退火算法停止顺序搜索，或用遗传算法停止无规则搜索，再根据分类的有效性对特征赋予权重，选择权严重于定义阈值的特征。由于随机搜索易受随机因素的影响，不确定性较高，不同的参数设置对随机搜索结果也有较大的影响。启发式搜索战略又被称为序贯优选法，可以实现最优特征子集与计算复杂度之间的平衡。相比于前两种方法，其复杂度较低、效率更高。陈建华针对设备故障中对数据集降维的问题，提出了一种基于关联关系与启发式搜索组合的特征选择方法，特征子集通过双向搜索算法产生，并通过计算属性之间的关联关系来剔除冗余属性，进步了效率和准确性。
基于Filter的特征选择直接根据评价原则对数据的统计特征停止评价，去除重要水平低的特征，选出的特征子集一般规模较大，适宜作为特征预挑选器。基于Wrapper的特征选择依赖后续分类算法，将子集的选择看作搜索寻优问题，根据分类器的准确率来对特征子集停止评价，其分类效率与精度都较高。制造过程中的多源异构数据往往特征众多且关系复杂，田文荫提出了针对高维制造过程的结合偏最小二乘回归与Wrapper特征选择的混合特征选择方法，同时针对制造业消费数据常呈现的类别间不平衡问题，提出了一种基于G-Mean的新的混合特征选择方法，在降维才干和分类性能方面均获得了良好的结果。
特征提取通过将原始特征变换成具有详细物理意义或统计意义的特征，将高维的特征向量变换为低维的特征向量。由于制造业消费过程中的多源异构数据来源于制造消费各个环节中的设备、产品信息等，具有较强的专业性及关联性，因而在停止数据特征提取时会更加注重特征背后的物理意义以及特征之间的关联性。传统的特征提取方法包括线性主成分分析（principal component analysis，PCA）、线性判别分析（linear discriminant analysis，LDA）、独立成分分析（independent component analysis，ICA）、非线性的核主成分分析（kernel principal component analysis， KPCA）、核独立成分分析法（kernel independent component analysis， KICA）。
主成分分析法主要通过观测变量内部的互相关系来整理信息，将可能相关的原始数据集转换成线性不相关的新特征集合，实现高维数据向低维数据的压缩。在纺织业中，刘海军等人利用本性布纹理的自相关性特征，采用主成分分析法去除其相关性，得到了纹理的主成分，将在主成分方向上样本图像的压缩结果作为特征变量，停止分类检测，得到了较高的分类准确度。在煤矿井下供电系统故障检测中，郭凤仪等人通过对时频域变换的回路电流特征矩阵的奇异值停止主成分分析，得到了故障识别的特征，进一步采用遗传算法优化的支持向量机对故障电弧特征的有效性停止测试，可以有效识别电机及变频器负载回路的串联故障电弧。针对机械装备制造业消费过程对加工设备依赖水平高的问题，姚菲提出了一种对备件预测理论的创新性探究，利用基于主成分分析和支持向量机的综合算法停止需求预测，从而实现对设备备件需求的预测。主成分分析法适宜处置呈高斯分布的原始数据，但实际消费过程中多源异构数据分布的复杂水平远超高斯分布，这限制了主成分分析法的应用。
线性判别分析法是有监视的特征提取方法，降维后在新的子空间中使同类特征尽可能接近、不同类特征尽可能分散，与主成分分析法一样，也适宜用于处置高斯分布数据。针对模仿电路故障诊断中故障数据的特征提取方法，肖迎群等人对模仿故障数据在主元变换空间停止线性判别分析，并将最优判别特征形式应用于形式分类器，在充沛简化形式分类器模型及降低系统运行本钱的根底上获得了较好的诊断结果。另外，在图像识别数据分析中，线性判别分析法也是一个非常具有优势的工具。在对铅酸蓄电池X射线图像的特征提取中，杨金堂等人分别采用主成分分析法、线性判别分析法以及二次线性判别分析法，最终得出二次线性判别分析法在该图像识别中具有较高识别率的结论。
独立成分分析法将原始数据分解为若干独立分量的线性组合，更适宜用于处置非高斯分布的情况。杨冲等人采用独立成分分析和主成分分析两种常用方法对制浆造纸废水处置过程中的传感器故障停止检测，由于制浆造纸废水处置过程中的数据呈非高斯分布，ICA的整体故障检测率高于PCA。针对滚动轴承在噪声背景下产生故障时的振动信号，姜怀斌利用独立成分分析在数据独立性分析方面的优势，提出了一种独立元核FDA（ICA-KFDA）故障检测模型，进步了故障诊断的准确率，降低了漏检率。
对于图像视频等呈非线性分布的数据，需要使用非线性的特征提取方法。核主成分分析由Scholkopf B等人在PCA的根底上提出，将原始数据通过核函数映射到高维度空间后，再利用PCA停止降维。针对旋转机械构造中轴承状态的识别，谢锋云等人提出了粒子群优化核主成分分析法，对轴承的复合特征集停止特征提取，继而由支持向量机对识别特征集停止识别分类，进步了轴承状态识别的准确率。对于行星齿轮传动系统故障，贺妍和王宗彦用粒子群优化方法改善了核主成分分析法对非线性问题的分析，新方法在行星齿轮磨损水平的识别和诊断中获得了良好的结果。
核独立成分分析法也是利用相同的思想在ICA的根底上停止扩展的，近年来被广泛应用在非线性混叠的源分别技术中。针对旋转机械构造中的滚动轴承故障，刘嘉辉等人提出了一种全矢谱和独立分量分析（ITD和KICA）相结合的盲源分别法，对采样的滚动轴承故障信号停止有效的信噪分别，在降噪的同时可以更加全面、准确地提取信息，并停止轴承故障诊断。针对化工行业的光滑油消费过程，许亮等人提出了基于混合核函数的KICA-LSSVM故障分类方法，进步了故障诊断的速度和准确性。
除了对这些传统的特征提取方法停止优化以外，针对制造业消费过程中数据的特点，一些研究提出了不同的方法对数据特征停止提取。针对消费现场传感器时钟差别及消费设备运行原理导致的不同数据源之间可能存在延迟关联的问题，张守利等人提出了一种面向时延的传感器数据特征提取方法，利用基于皮尔逊相关系数的曲线排齐算法调整不同传感器数据之间的时间，使得调整之后的数据相关性到达最大。苗爱民等人提出了一种基于部分线性嵌入（locally linear embedding， LLE）的非线性故障检测新技术，可以有效地计算出保留了部分邻域构造信息的数据的低维嵌入。尚超等人针对制造消费过程中某些产品质量和关键变量始终难以在线丈量的问题，构建了一种基于历史丈量数据驱动的软传感器，从而对这些变量停止稳定可靠的在线估计。
随着制造业多源异构数据中非构造化数据所占份额的增多，对多源异构数据的特征提取在数据处置中的重要性也大大增加，而在将来一段时间内，对于多源异构数据处置平台来说，对实时数据以及高维度数据集的特征提取仍然是一个挑战。同时，由于工业消费环境的复杂性，针对工业消费过程中的数据降维，要更多地结合业务场景自身，利用先验知识或者专家知识对数据停止降维。
3.3 数据分析

数据分析是多源异构数据处置的关键，是指在数据采集与数据集成环节的根底上对工业消费数据的信息和知识停止提取，其目的是利用数据开掘、机器学习、统计分析等技术对集成的多源异构数据停止分析和处置，从而提取出有价值的信息和知识，用于检测制造消费运行情况和消费产品质量检测、指导人员做决策等。针对工业消费中的数据分析技术等问题，其他学者也有相关研究，但本文从更广的应用领域及更全面的方法的角度对制造业消费过程中的数据处置方法停止综合研究。目前，数据分析环节的关键技术包括关联分析、分类分析和聚类分析等。
3.3.1 关联分析
数据关联分析就是发现外表看来无规律的数据间的关联性，从而发现事物之间的规律性和开展趋势等。常用的关联规则开掘算法包括Apriori算法和FP-Growth算法。
Apriori算法首先通过遍历数据库确定频繁项集，然后根据支持度阈值停止修剪，最后根据支持度来计算可信度，从而确定关联规则，是一种被广泛应用的关联规则开掘算法。针对大型化和复杂化的机械装备制造业消费过程中异常事件发生概率高、报警数量宏大的问题，樊虹提出了基于数据开掘Apriori算法的工业过程报警处置方法，缩小了反复报警的数量，提升了对报警事件的处置效率。但是该算法仍然存在需要频繁遍历数据库从而产生大量候选集的问题。针对这一问题，周凯等人提出了一种仅需对数据库扫描一次即可实现改进Apriori算法，可以有效地进步产生有效频繁项集的效率。除此之外，刘芳和吴广潮提出了一种将数据库转换为矩阵形式，通过缩小候选项集规模、减少无用候选项集生成来进步算法效率的方法。
FP-Growth算法是对Apriori算法最经典的改进，采用频繁形式树（FP-tree）存储频繁项集，减少数据库扫描次数。针对制造业设备对快速准确诊断设备故障的需求，张斌等人提出了一种基于兴趣属性列的改进FP-Growth算法的数据开掘方法，从而实现对工业消费设备故障的快速准确诊断。针对轮胎制造过程中质量异常的问题，李敏波等人提出了一种改进后的FP-Growth并行算法，该算法可以高效地找到影响轮胎质量的因素。另外，针对FPGrowth算法中存在的FP-tree占据空间过大的问题，顾军华等人通过对FP-Tree的规模大小和计算量以及F-List分组战略停止优化，提出了一种新的基于Spark的并行FP-Growth算法——BFPG算法。
除上述两种数据关联分析算法外，由于制造消费过程中数据量在不时增加，在线的动态数据关联分析具有更加现实的意义。Hidber C提出了一种在线的关联分析数据开掘算法——CARMA算法，该算法具有在线实现数据关联分析、精度高、允许用户在线调整阈值的优点。尔后，于丽等人分别对算法的参数估计、数据集遍历次数停止了优化改进，进步了算法的速度及精度。如今，CARMA算法在预测和控制领域得到了广泛应用。
目前关联分析方法存在诸多缺乏，如何利用关联规则算法对非构造化数据停止有效处置、如何将关联规则算法与其他的决策方法结合以实现更准确的数据分析等，均有待进一步的研究和开展。
3.3.2 分类分析
对于制造业消费过程的数据分析来说，数据的分类技术是实现数据信息开掘及结果预测的非常重要的方法之一。
分类是指通过算法将数据划分到已经定义好的类别中。常用的分类算法包括决策树算法、基于规则的分类法、人工神经网络算法、深度学习算法、支持向量机（SVM）算法、贝叶斯算法等。
决策树通过对数据集的分析归纳停止学习，应用范围广泛，对于key-value类型的数据来说是最优选择。目前，较为常见的决策树分类算法有C4.5、SLIQ和SPRINT。决策树算法在消费方案布置方面的应用备受关注。针对离散工业的静态Job Shop调度问题，王成龙提出了用决策树模型提取调度知识的方法，对消费调度方案停止了优化。针对机械装备制造业消费方案中工单加工顺序和同一机器不同工件加工顺序等历史数据，于艺浩提出了一种可根据实时数据为工件布置适宜的机器的决策树模型，到达了制造车间根据消费状态实时优化调度的效果。另外，在产品质量检测与分析方面，决策树算法也有非常广泛的应用。针对我国冷轧酸洗产品消费技术尚不成熟、产品外表不合格率较高的问题，郭龙波通过对冷轧酸洗产品数据使用二分决策树等工具停止分析，得出了影响冷轧酸洗产品外表质量缺陷的因素以及断定规范，使企业可以更高效、准确地对产品缺陷停止检测。宋建聪提出了一种基于C4.5决策树算法的消费过程质量分析模型，通过找出引起质量问题的主要因历来对产品质量缺陷停止责任分析和诊断，进而采取针对性的措施来进步产品合格率。
基于规则的分类法是利用用户为每个类直接确定的分类规则来形成类别模板，规则分类器通过统计样本中满足分类规则的规则数和次数来确定样本品种的分类方法，常用来产生更易于解释的描绘性模型，更适用于处置类分布不平衡的数据集。在能耗分析系统中，许明洋对基于规则的节能措施施行分类算法的应用停止了分析，基于规则的分类法需要用户自己学习规则，与其他分类算法相比，灵敏性与准确性较差。
人工神经网络（artificial neural network，ANN）具有自主学习、容错性高的特点，适宜处置模糊、非线性的数据，其中前馈式神经网络模型常用于分类算法。其中，反向传播（back propagation，BP）神经网络算法主要利用反向传播算法对网络的权值和偏向停止反复调整训练，使输出的向量尽可能接近期望向量。但由于其随机获取网络初始权重和阈值的特点，BP神经网络具有收敛时间长、易陷入部分最优解的缺点。周福来、张细政等人、关子奇等人、夏颖怡均基于遗传算法对BP神经网络停止了优化，从而实现了对齿轮设备故障、焊接熔池照度以及刀具寿命等的准确诊断。李世科采用列文伯格马夸尔特（Levenberg-Marquardt，LM）算法对BP神经网络停止改进，对液压支架顶梁疲劳寿命停止了准确的预测。罗校清应用主元分析法对BP神经网络停止了优化，最终实现了对机械设备故障的准确判断和及时报警。
深度学习最早起源于对人工神经网络的研究，最早由多伦多大学的Hinton G E等人在2006年提出，指基于样本数据的包含多层次的深度网络构造的机器学习过程。深度学习实质上属于机器学习的范畴，是机器学习领域一个新的研究方向，在图像、语音、文本分类识别方面具有非常好的优势，具有强大的对不同类型数据的处置才干，因而对制造业消费过程中的数据分析起到非常大的作用。如今被广泛熟知的深度学习根本模型包括深度神经网络（deep neural network，DNN）、循环神经网络（recurrent neural network， RNN）、卷积神经网络（convolutional neural network，CNN）、深度置信网络（deep belief network，DBN）等。深度神经网络可以简单地理解为含有多个隐藏层的神经网络，其优势体如今对无标签数据的自我学习。对于机械设备中常见的传动零件齿轮的故障监测，李嘉琳等人应用深度神经网络来诊断早期齿轮点蚀故障，将采集的振动信号直接作为DNN输入，可以有效处置特征提取环节形成的较大误差，与传统ANN诊断结果相比，故障诊断率得到了进步。针对制造车间中关键刀具设备的寿命预测问题，刘胜辉等人将小波包分析方法得到的结果作为输入来训练深度神经网络，建立刀具剩余寿命预测模型，可对切削刀具剩余寿命停止准确的预测。卷积神经网络是一种包含卷积计算的前馈神经网络，长期以来是图像识别领域的核心算法之一。曹大理等人采用卷积神经网络自适应地提取特征，防止了人为提取的局限性，进步了刀具磨损在线监测的精度。吴志洋等人针对布匹消费中的布匹瑕疵检测，提出了一种基于深度卷积神经网络的单色布匹瑕疵检测算法，很好地处置了人工检测效率低、误检率高的问题。彭大芹等人提出了一种基于卷积神经网络的液晶面板缺陷检测算法，并在传统单向特征交融的根底上提出了双向特征交融的网络构造，进步了检测精度。李广等人针对工业中常见的机床刀具消耗冗余问题，采用异常检测卷积神经网络（CNN-AD）对机床刀具的崩刃停止准确预测。循环神经网络是一类用于处置和预测序列数据的神经网络模型，与传统机器学习方法相比，其对于输入/输出数据没有过多限制，可以用来处置文本、音频和视频等序列数据。针对燃煤电站NOx排放预测模型建模中输入变量特征集确定困难的问题，王文广和赵文杰提出了一种基于数据驱动的门控循环单元（gated recurrent unit，GRU）循环神经网络模型，将GRU作为RNN的神经网络单元，从而使RNN可以分析长时间的时间序列问题，对燃煤电站锅炉NOx排放实现准确预测。对于基于循环神经网络的电力变压器故障诊断模型存在的诊断不明晰、收敛速度慢的缺陷，李俊峰基于蝙蝠算法对循环神经网络的参数停止了优化，改进后的变压器故障诊断模型的收敛性及诊断准确率均得到了较大提升。深度置信网络通过模仿人类大脑对外部信号的处置来实现功能，是由多个限制玻尔兹曼机（restricted Boltzmann machine，RBM）叠加组成的网络模型。王宪保等人运用深度置信网络训练网络的初值，再通过对比重构图像与缺陷图像，实现快速准确的太阳能电池片外表缺陷检测。李梦诗等人提出了一种基于深度置信网络的新型风力发电机故障诊断方法，并通过与传统检测方法停止对比，验证了该算法的鲁棒性。刘浩等人提出了一种基于多参数优化深度置信网络的滚动轴承外圈损伤水平识别方法，可有效地进步故障识别的准确性和稳定性。目前深度学习模型在制造消费数据分析中的大致开展方向是与其他算法相结合，对深度学习根本模型中的参数、构造停止优化，从而进步算法的准确性与鲁棒性，实现更精准的检测与预测。
支持向量机是一种通过核函数免去高维变换，直接将低维参数代入核函数从而得出高维向量内积的分类方法，常用于故障诊断。针对机械制造业中滚动轴承形成的故障识别问题，吕震宇提出了一种使用磷虾群算法优化的支持向量机，对轴承状态停止准确诊断，从而准确地识别滚动轴承的故障类型，较传统支持向量机的识别精度更高。吕维宗等人提出了基于量子粒子群优化（quantum particle swarm optimization，QPSO）算法优化的相关向量机（relevance vector machine，RVM），并停止故障诊断，相较于支持向量机而言，其更适用于小样本处置和在线故障诊断。
贝叶斯分类算法是在贝叶斯公式的根底上，利用概率统计停止分类计算的方法。其中，朴素贝叶斯分类应用最广泛。制造消费过程中少不了电池寿命与电力故障的问题，Ng S S Y等人针对不同工作环境温度及放电电流情况，提出了用于不同工作情况下电池估计和剩余使用寿命预测的朴素贝叶斯模型。李梦婷等人基于增量式贝叶斯算法，提出了一种实时性在线电路故障诊断方法，可以同时实如今线电路故障诊断的高准确性与高实时性。
目前分类分析方法在工业消费中已经有广泛的应用，尤其是基于机器学习的分类方法。但是现阶段单一的数据分类方法并不具有较高的准确性及可靠性，需要不同算法的交融才干产生较为可靠的数据分类及预测结果。然而不同算法的交融势必会形成系统时延，如何平衡系统的可靠性和实时性是研究的方向之一。另外由于工业消费的特殊性和复杂性，针对同一类分类问题，并没有通用的分类方法可以使用，要得到可靠的分类结果，需要与实际场景、实际业务相结合。同时，假设要得到较为准确的分类结果，分类算法模型的训练数据集需要结合消费领域的经历知识停止相应的特征工程处置。
3.3.3 聚类分析
聚类就是将类似的数据归为一类，原则是使每一类数据的类似性最大。常用的聚类算法包括基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法和基于模型的聚类方法四大类。
其中，最常用的是K-means算法。K-means算法是一种基于划分的聚类方法，通过随机选择K个数据点作为初始聚类中心，根据特定的间隔算法将待聚类的数据集分成K簇。娄小芳通过对大量铝工业消费历史能耗数据停止处置分析，运用K-means算法等方法分析其规律，以此指导消费部门改进参数，降低能耗。针对酿酒不良发酵行为早期迹象的识别，Urtubia A等人通过对产品中29种成分检测的数据采用K-means算法停止聚类分析，获得了不良发酵行为模型，从而实现了对产品质量的认定，减少了早期行为形成的损失。但该算法存在聚类结果受选择的初始聚类中心影响较大、处置大数据时间效率低等缺点。徐健锐和詹永照将改进的K-means算法和分布式计算框架Spark结合，提出了大数据下的快速聚类算法SparkKM，该算法既弥补了经典K-means算法的缺乏，又发挥了Spark分布式计算处置速度快的优势。
除此之外，常用的聚类方法还有基于密度的DBSCAN算法、基于层次的BIRCH算法以及基于模型的高斯混合模型（GMM）等。基于密度的DBSCAN算法通过对核心点、边境点和噪声点的标志，将具有密度的区域划分成簇。针对风力发电设备中故障率最高的齿轮箱和主轴的故障识别问题，林涛等人利用DBSCAN聚类算法对运行数据停止密度聚类，对齿轮箱和主轴的故障停止较准确的诊断。针对电力系统信息安全问题，谢静瑶等人采用启发式的自适应算法对DBSCAN算法的部分参数停止估计，改进了聚类效果，从而进步了信息安全预警分析的准确性。基于层次的BIRCH算法利用树构造停止聚类，适用于数据量大、类别数多的数据处置。对于木材加工中木材缺陷的识别问题，吴东洋和业宁采用BIRCH算法对数据集停止一次扫描即可得到较高的聚类质量，进步了识别准确率。针对食品卫生的HACCP （hazard analysis critical control point）自动分类，叶飞跃等人提出了一种多阈值、多代表点的BIRCH算法，该算法可以适应HACCP分类中各种形状的数据集。基于模型的高斯混合模型是一种交融了参数模型和非参数模型的优势的聚类方法，常被应用在语音识别、图像识别等领域。针对机械构造中易损坏的滚动轴承，龙铭等人提出了一种基于自回归高斯混合模型（AR-GMM）的滚动轴承故障水平评估方法。它以早期无故障轴承振动信号的AR模型特征为基准特征，引入后期轴承振动信号的AR特征，可以监测滚动轴承各种形式的早期故障。针对应用广泛的螺栓连接，王刚等人利用监测区域内螺栓连接构造的各种松开工况的实时数据建立高斯混合模型，基于高斯混合模型的概率密度分布之间的类似度最大原则，可有效判断监测区域螺栓的松紧状态。针对印花织物的外表疵点检测，李敏等人在传统高斯混合背景模型的根底上引入了自适应分块建模的思想，在进步印花织物疵点检测准确率的同时，能有效地处置检测过程中的光照不均和噪声等问题。
数据量的迅速增加使得对大规模数据的分类、聚类成为具有挑战性的研究问题。对于分类算法来说，不同的算法均有其共同的优势以及特定的应用领域。对于聚类算法来说，传统聚类算法经过抽样或降维会损失准确性，而并行聚类算法虽然具有对大数据高效、良好的扩展性等优点，但算法实现较复杂。简单高效、扩展性高的面向大数据且不消耗更多软硬件资源的分类聚类算法是将来的主要研究和优化方向。
4 完毕语

本文对制造业消费过程中多源异构数据的概念和类型、数据处置的方法和技术停止了较为全面的综述和梳理。将消费过程中的多源异构数据依照数据来源和数据类型停止了分类，对数据处置的整体流程停止了定义，并对数据处置过程中的详细方法、技术及其在消费过程中的详细应用停止了总结分析。
随着工业物联网的快速开展，数据的来源更多，数据构造更加多样化，同时消费过程中信息系统对数据处置的实时性、准确性要求更高，这给多源异构数据的处置带来了宏大的挑战。首先，设备的多样性和复杂性会给数据采集方法、技术带来新的挑战，需要增加更为丰富、可靠、高效的数据采集方法和技术；其次，海量的数据对数据存储技术的容量和效率、精度等提出了更高的要求，也对传统的SQL、NoSQL等数据存储系统的扩展才干提出了更高的要求，综合数据存储系统成为将来开展的趋势；最后，实际消费对数据清洗、降维及数据分析方法和技术的效率和准确度的要求进一步进步。另外，只要性能更高的数据处置分析平台及更高效的数据开掘算法才干满足大规模多源异构数据的实时处置与分析要求。另外，随着边缘计算在工业消费过程中的快速应用，面向边缘控制器、边缘网关和边缘云的数据采集、存储、处置和分析的方法和技术的研发将成为重点研究方向。
作者简介
陈世超（1987-），男，澳门科技大学计算机技术及应用专业博士生，中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员，主要研究方向为数据处置、工业物联网、边缘计算。
崔春雨（1998-），女，就职于中国科学院自动化研究所复杂系统管理与控制国家重点实验室，主要研究方向为数据处置、边缘计算。
张华（1986-），女，博士，北京航天智造科技开展有限公司平台研发部高级工程师，主要研究方向为现代精细丈量、工业物联网和边缘计算。
马戈（1990-），男，博士，中国工业互联网研究院智能化所工程师，主要研究方向为工业互联网、人工智能、边缘计算等。
朱凤华（1976-），男，博士，中国科学院自动化研究所复杂系统管理与控制国家重点实验室高级工程师，主要研究方向为人工交通系统、平行交通管理系统。
商秀芹（1983-），女，博士，中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员，主要研究方向为智能制造的数据驱动建模与优化技术。
熊刚（1969-），男，博士，中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员，主要研究方向为复杂系统平行控制与管理、智能制造、智能交通 E-mail：xionggang@casc.ac.cn。
联络我们:
Tel:010-81055448
010-81055490
010-81055534
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
借鉴、合作：010-81055537

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已胜利入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢送期刊。

关注《大数据》期刊微信公众号，获取更多内容

制造业消费过程中多源异构数据处置方法综述

浏览过的版块