CN116523388B

CN116523388B - 一种基于工业互联网平台的数据驱动的质量建模方法

Info

Publication number: CN116523388B
Application number: CN202310408969.1A
Authority: CN
Inventors: 王峰; 顾毅; 熊亮; 张莹; 郑锦泉
Original assignee: Wuxi Xuelang Shuzhi Technology Co ltd
Current assignee: Wuxi Xuelang Shuzhi Technology Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-11-10
Anticipated expiration: 2043-04-17
Also published as: CN116523388A

Abstract

本发明公开了一种基于工业互联网平台的数据驱动的质量建模方法，该方法包括以下步骤：基于工业互联网平台采集不同的系统数据，并对数据进行统一汇总；对采集的数据进行数据预处理；根据工艺原理和过程特性选取辅助变量，并对辅助变量采用主成分分析法进行降维；基于数据驱动建模策略构建关键产品质量预测模型；对建立的预测模型进行偏差校正和模型参数校正。本发明提供的方法可以大大降低工厂对测量设备的要求，对提高产品质量、促进节能降耗、加快企业数字化转型具有重要意义；本发明提供的方法可以实时预测化工原料及产物的关键指标，避免了某些指标测量耗时长、难以检测或根本无法检测等问题，节省了大量的时间和资源。

Description

一种基于工业互联网平台的数据驱动的质量建模方法

技术领域

本发明涉及工业互联网领域，具体来说，涉及一种基于工业互联网平台的数据驱动的质量建模方法。

背景技术

在石油化工过程中，系统的仿真、控制与优化往往依赖于高性能的模型。近年来随着市场竞争的日益加剧和环保要求的不断提高迫切要求企业从有效的资源中尽可能的提高经济效益这就对过程控制和优化提出了新的要求同时也增加了建模的难度尤其是那些强非线性、时变对象如基于连续搅拌反应釜下化工过程中物理和化学参数的建模发酵过程中生物参数的建模等等。例如连续搅拌反应釜(CSTR)是聚合化学反应中广泛使用的一种反应器它不仅在化工生产的核心设备中占有相当重要的地位而且在染料、医药试剂、食品及合成材料工业中被普遍使用。然而相反的是在其内的反应过程的自动控制却发展缓慢究其原因主要是由于其内的反应过程往往涉及到很多的物理和化学过他们的相互作用和影响使得反应过程呈现出高度的非线性这就使得对其过程建模变得非常困难。

在化工实际生产操作中，由于技术手段及硬件设备的匮乏，核心生产系统不能实时反馈全部所需过程参数，如果要想对反应过程进行更好的控制，就须要获得反应过程中的数据信息。相比温度、压力、液位、体积等相对容易实时测得的变量，反应物浓度等参数缺乏可靠的传感器对它们进行在线检测，且成本较高。许多工业生产系统无法依靠故障诊断和状态检测来提高系统运行的安全性。这对产品质量也带来了很大的困扰。在生产过程中还会受到其他因素的影响，如反应器内原料的温度、浓度等，这都会使所建模型存在不确定的偏差。

大数据和工业互联网时代的到来，使得以数学挖掘、机器学习技术为代表的算法研究为化工领域智能化开辟了一种新方法，指明了一种新方向。基于工业互联网平台的数据驱动的质量建模方法具有较高的灵活性和现实相关性，利用其强大的学习和表征能力，可以充分挖掘历史数据中的重要信息，对关键原料及产品质量指标建立准确的预测模型。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于工业互联网平台的数据驱动的质量建模方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于工业互联网平台的数据驱动的质量建模方法，该方法包括以下步骤：

S1、基于工业互联网平台采集不同的系统数据，并对数据进行统一汇总；

S2、对采集的数据进行数据预处理；

S3、根据工艺原理和过程特性选取辅助变量，并对辅助变量采用主成分分析法进行降维；

S4、基于数据驱动建模策略构建关键产品质量预测模型；

S5、对建立的预测模型进行偏差校正和模型参数校正。

进一步的，所述对采集的数据进行数据预处理包括以下步骤：

S201、对采集的数据进行融合并存储，得到样本数据；

S202、对所述样本数据进行异常数据剔除和滤波处理，并将数据进行归一化。

进一步的，所述对采集的数据进行融合的计算公式如下：

其中，h_1q表示业务系统在t_1q时刻采集的数据；

h_2q表示生产系统在t_2q时刻采集的数据；

ε_h1表示采集数据h_1q的均方根误差；

ε_t1表示时刻t_1q的均方根误差；

ε_h2表示采集数据h_2q的均方根误差；

ε_t2表示时刻t_2q的均方根误差；

h_q表示业务系统和生产系统在t_q时刻采集数据融合的结果。

进一步的，所述样本数据进行异常数据剔除的采用3σ判定原则进行筛选处理，具体步骤如下；

假设样本数据中共有n个辅助变量为x，x的序列为x₁,x₂,…,x_i,(i＝1,2,3…n)，并计算其平均值x和标准差σ：

若样本中辅助变量x满足以下公式：

则将其作为异常样本剔除掉，依次对样本中的其它辅助变量进行3σ判定处理，将经过筛选的样本选入建模样本集；

进一步的，所述样本数据进行滤波处理通过以下公式对样本

进行平均滤波：

X(t)＝(X(t-T/2)+X(t-T/2+T_c)+…+X(t))

…+X(t-T/2+T_c)+X(t+T/2)/(T/T_c)

其中，t表示采样时间；

T表示滤波时间常数；

T_c表示采样周期。

进一步的，所述将数据进行归一化通过以下公式将样本数据归一化到[y_min,y_max]：

y＝[y_min,y_max]*(x-x_min)/(x_max-x_min)+y_min

其中，y_min,y_max表示归一化目标的上下界；

x_max,x_min表示当前变量值得上下界。

进一步的，所述主成分分析法的计算步骤如下：

1)对原始样本数据进行标准化，并构成标准化矩阵：

设m维随机向量X＝(X₁，X₂，…，X_n)^T为n个样本X_i＝(X_i1，X_i2，…，X_im)^T,(i＝1,2,3…m)，T为矩阵转置的上标，构成样本矩阵，并对样本矩阵进行标准化，样本的平均值：

样本方差：

标准化后的数据为：

其中，(i＝1,2,3…m；k＝1,2,3…n)，

构成标准化矩阵X(x_ik)；

2)对标准价矩阵求样本相关系数矩阵：

其中，r_ij表示矩阵R第i行，第j列的元素，(i，j＝1,2,3…m)；

3)确定主成分：

求解样本相关矩阵R的特征方程|R-λI_m|＝0得到m个特征根，其中λ表示特征值，I表示单位矩阵，由于R为对称矩阵，通过雅可比方法求出特征值，根据确定p的值，使信息的利用率达85％以上，得到p个主成分，对于每个λ_j(j＝1,2,3…p)解方程组Rb＝λ_jb得单位特征向量/>b表示特征向量集合；

4)将标准化后的指标变量转换为主成分：

其中，U₁称为第一主成分，U₂称为第二主成分，U_m称为第m主成分；

5)对m个主成分进行综合评价，对m个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。

进一步的，所述基于数据驱动建模策略构建关键产品质量预测模型采用工业互联网平台内置的机器学习算法库中的算法，并结合预处理后的数据进行建模。

进一步的，所述预测模型进行偏差校正包括：模型运行过程中采用新数据对模型进行修正，根据模型预测误差采用偏差校正法对模型进行校正，所述偏差校正法计算公式为：

其中，表示当前时刻模型校正后的输出值；

表示当前时刻模型输出的预测值；

K表示校正系数；

Y(t-1)和表示前一个时刻真实值和模型输出的预测值；

t表示采样时间；

其中，校正系数为当前时段模型误差和前一时段的模型误差相除求得：

其中，Y(t_i)表示当前时段内数据；

表示当前时段内预测值的平均值；

Y(t_i-t)表示前一时段内数据；

Y_m(t_i-t)表示前一时段内预测值的中值；

K＝median(K_i)，将K_i取平均值即可得到修正系数。

进一步的，所述预测模型进行模型参数校正包括：以模型输出值和实际值之间的偏差为优化目标，基于历史数据采用遗传算法进行模型关键参数优化，优化目标如下：

本发明的有益效果为：

1、基于工业互联网平台采集工业数据，可以解决化工企业存在的数据孤岛问题，充分挖掘不同系统数据价值。

2、基于工业互联网平台数据驱动建模方法，内置机器学习算法库包括几十种主流算法，能够使得模型更好地适应工况的频繁变化。

3、本发明提供的方法可以大大降低工厂对测量设备的要求，对提高产品质量、促进节能降耗、加快企业数字化转型具有重要意义。

4、本发明提供的方法可以实时预测化工原料及产物的关键指标，避免了某些指标测量耗时长、难以检测或根本无法检测等问题，节省了大量的时间和资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于工业互联网平台的数据驱动的质量建模方法的流程图；

图2是根据本发明实施例的一种基于工业互联网平台的数据驱动的质量建模方法中数据驱动的建模业务流程图；

图3是根据本发明实施例的一种基于工业互联网平台的数据驱动的质量建模方法中工业互联网平台技术架构图；

图4是根据本发明实施例的一种基于工业互联网平台的数据驱动的质量建模方法中工业互联网平台组态图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于工业互联网平台的数据驱动的质量建模方法。

现结合附图和具体实施方式对本发明进一步说明，如图1-4所示，根据本发明实施例的基于工业互联网平台的数据驱动的质量建模方法，该方法包括以下步骤：

具体的，采集的数据包括质量业务系统的质量指标数据和生产系统的实时生产数据；

S2、对采集的数据进行数据预处理；

具体的，主成分分析法是应用非常广泛的一种降维方法，是在尽可能多地保留数据信息的基础上，通过少数互不相关的综合因子代替数量众多的随机变量，实质上是一组变量的数个线性组合来解释这组变量的方差—协方差结构。各个主成分的权重由其本身的贡献率决定，是由数据的信息客观确定的，克服了主观赋权法人为确定权重的缺陷；

S4、基于数据驱动建模策略构建关键产品质量预测模型；

具体的，数据驱动模型是基于大量过程数据以及机器学习算法的过程模型，得益于化工企业集散控制系统和实验室信息管理系统带来的海量实时过程数据和实验分析数据，使得通过机器学习算法深度挖掘数据建立过程模型变得可行。数据驱动模型在训练阶段需要较少的过程机理，在使用阶段具有计算量小、求解速度快、在模型建立的数据范围内准确度高等优点，在各类过程建模任务中取得了良好的效果，获得学者的广泛关注；

S5、对建立的预测模型进行偏差校正和模型参数校正。

在一个实施例中，所述对采集的数据进行数据预处理包括以下步骤：

S201、对采集的数据进行融合并存储，得到样本数据；

在一个实施例中，所述对采集的数据进行融合的计算公式如下：

其中，h_1q表示业务系统在t_1q时刻采集的数据；

h_2q表示生产系统在t_2q时刻采集的数据；

ε_h1表示采集数据h_1q的均方根误差；

ε_t1表示时刻t_1q的均方根误差；

ε_h2表示采集数据h_2q的均方根误差；

ε_t2表示时刻t_2q的均方根误差；

h_q表示业务系统和生产系统在t_q时刻采集数据融合的结果。

在一个实施例中，所述样本数据进行异常数据剔除的采用3σ判定原则进行筛选处理，具体步骤如下；

若样本中辅助变量x满足以下公式：

在一个实施例中，所述样本数据进行滤波处理通过以下公式对样本进行平均滤波：

X(t)＝(X(t-T/2)+X(t-T/2+T_c)+…+X(t))

…+X(t-T/2+T_c)+X(t+T/2)/(T/T_c)

其中，t表示采样时间；

T表示滤波时间常数；

T_c表示采样周期。

在一个实施例中，所述将数据进行归一化通过以下公式将样本数据归一化到[y_min,y_max]：

y＝[y_min,y_max]*(x-x_min)/(x_max-x_min)+y_min

其中，y_min,y_max表示归一化目标的上下界；

x_max,x_min表示当前变量值得上下界。

在一个实施例中，所述主成分分析法的计算步骤如下：

1)对原始样本数据进行标准化，并构成标准化矩阵：

样本方差：

标准化后的数据为：

其中，(i＝1,2,3…m；k＝1,2,3…n)，

构成标准化矩阵X(x_ik)；

2)对标准价矩阵求样本相关系数矩阵：

其中，r_ij表示矩阵R第i行，第j列的元素，(i，j＝1,2,3…m)；

3)确定主成分：

4)将标准化后的指标变量转换为主成分：

在一个实施例中，所述基于数据驱动建模策略构建关键产品质量预测模型采用工业互联网平台内置的机器学习算法库中的算法，并结合预处理后的数据进行建模

具体的，数据驱动模型采用机器学习算法库中几十种主流算法，如人工神经网络、最小二乘支持向量机等；

其中，人工神经网络是通过模仿生物神经网络的行为特征，进行分布式并行信息处理的数学模型。这种网络依靠系统的复杂度，通过调整内部大量节点之间相互连接的关系，从而达到信息处理的目的。人工神经网络具有自学习和自适应的能力，可以通过预先提供的一批相互对应的输入输出数据，分析两者的内在关系和规律，最终通过这些规律形成一个复杂的非线性系统函数。神经元的每一个输入连接都有突触连接强度，用一个连接权值来表示，即将产生的信号通过连接强度放大，每一个输入量都对应有一个相关联的权重。处理单元将经过权重的输入量化，然后相加求得加权值之和，计算出输出量。

在人工神经网络中，网络解决问题的能力与效率除了与网络结构有关外，在很大程度上取决于网络所采用的激活函数。激活函数的选择对网络的收敛速度有较大的影响，针对不同的实际问题，激活函数的选择也应不同。常用的激活函数有以下几种形式：

阈值函数：

其中，p表示阈值函数的因变量；

x表示阈值函数的因变量；

该函数通常也称为阶跃函数。当激活函数采用阶跃函数时，此时神经元的输出取1或0，反应了神经元的兴奋或抑制；

线性函数：y＝kx+b

其中，y表示线性函数的因变量；

x表示线性函数的因变量；

k表示线性函数的斜率；

b表示线性函数的截距；

该函数可以在输出结果为任意值时作为输出神经元的激活函数；

对数S形函数：

其中，x表示数S形函数的因变量；

对数S形函数的输出介于0～1之间，常被要求为输出在0～1范围的信号选用，它是神经元中使用最为广泛的激活函数；

双曲正切S形函数：

其中，x表示双曲正切S形函数的因变量；

双曲正切S形函数类似于被平滑的阶跃函数，形状与对数S形函数相同，以原点对称，其输出介于-1～1之间，常常被要求为输出在-1～1范围的信号选用。

其中，最小二乘支持向量机算法将传统的支持向量机中不等式约束改为等式约束，并将误差的平方和作为训练的损失函数，从而将支持向量机中求解二次规划问题转化为求解线性方程组问题，加快了求解速度；

LSSVM最优化问题可以用以下方程组描述：

其中，L表示损失函数；

ω表示权向量；

γ表示可调函数；

e _i表示误差向量；

x_i表示输入数据；

y_i表示输出数据；

表示映射函数；

b表示偏差向量；

T表示转置；

i表示数据的位置(i＝1～n)；

n表示训练数据总数；

s.t表示约束条件缩写；

采用拉格朗日法求解上述优化问题：

最小二乘支持向量机表达形式为本发明采用核函数为径向基核函数，/>其中k(x_i,y_i)为核函数，a_i表示拉格朗日乘子。e_i表示误差向量；n表示训练数据总数；i表示数据的位置(i＝1～n)；

在一个实施例中，所述预测模型进行偏差校正包括：模型运行过程中采用新数据对模型进行修正，根据模型预测误差采用偏差校正法对模型进行校正，所述偏差校正法计算公式为：

其中，表示当前时刻模型校正后的输出值；

表示当前时刻模型输出的预测值；

K表示校正系数；

Y(t-1)和表示前一个时刻真实值和模型输出的预测值；

t表示采样时间；

其中，Y(t_i)表示当前时段内数据；

表示当前时段内预测值的平均值；

Y(t_i-t)表示前一时段内数据；

Y_m(t_i-t)表示前一时段内预测值的中值；

K＝median(K_i)，将K_i取平均值即可得到修正系数。

在一个实施例中，所述预测模型进行模型参数校正包括：以模型输出值和实际值之间的偏差为优化目标，基于历史数据采用遗传算法进行模型关键参数优化，优化目标如下：

遗传算法从一组随机产生的初始解，称为群体，开始搜索过程。群体中的每个个体是问题的一个解，称为染色体。这些染色体在后续迭代中不断进化，称为遗传。遗传算法主要通过交叉，变异，选择运算实现。交叉或变异运算生成下一代染色体，称为后代。染色体的好坏用适应度来衡量。根据适应度的大小从上一代和后代中选择一定数量的个体，作为下一代群体，再继续进化，这样经过若干代之后，算法收敛于最好的染色体，它很可能就是问题的最优解或次优解。遗传算法中使用适应度这个概念来度量群体中的各个个体的悠忽计算中有可能达到最优解的优良程度。度量个体适应度的函数称为适应度函数。适应度函数的定义一般与具体求解问题有关。

使用三种遗传算子(选择算子、交叉算子和变异算子)的遗传算法的主要运算过程如下所述：

a、初始化：设置进化代数计数器v＝0；设置最大进化代数V；随机生成H个个体作为初始群体Q(0)；

b、个体评价：计算群体Q(V)中个体的适应度；

c、选择运算：将选择算子作用于群体；

d、交叉算子：作用于群体；

e、变异运算：将变异算子作用于群体，群体Q(v)经过选择、交叉、变异运算之后得到下一代群体Q(v+1)；

f、终止条件判断：若v≤V，则：v＝v+1，转到步骤b；若v>V，则以进化过程中得到的具有最大适应度的个体作为最优解输出，终止计算。

综上所述，借助于本发明的上述技术方案，基于工业互联网平台采集工业数据，可以解决化工企业存在的数据孤岛问题，充分挖掘不同系统数据价值；基于工业互联网平台数据驱动建模方法，内置机器学习算法库包括几十种主流算法，能够使得模型更好地适应工况的频繁变化；本发明提供的方法可以大大降低工厂对测量设备的要求，对提高产品质量、促进节能降耗、加快企业数字化转型具有重要意义；本发明提供的方法可以实时预测化工原料及产物的关键指标，避免了某些指标测量耗时长、难以检测或根本无法检测等问题，节省了大量的时间和资源。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，该方法包括以下步骤：

S2、对采集的数据进行数据预处理；

S4、基于数据驱动建模策略构建关键产品质量预测模型；

S5、对建立的预测模型进行偏差校正和模型参数校正；

所述对采集的数据进行数据预处理包括以下步骤：

S201、对采集的数据进行融合并存储，得到样本数据；

S202、对所述样本数据进行异常数据剔除和滤波处理，并将数据进行归一化；

所述对采集的数据进行融合的计算公式如下：

；

其中，表示业务系统在/>时刻采集的数据；

表示生产系统在/>时刻采集的数据；

表示采集数据/>的均方根误差；

表示时刻/>的均方根误差；

表示采集数据/>的均方根误差；

表示时刻/>的均方根误差；

表示业务系统和生产系统在/>时刻采集数据融合的结果。

2.根据权利要求1所述的一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，所述样本数据进行异常数据剔除的采用3σ判定原则进行筛选处理，具体步骤如下；

假设样本数据中共有n个辅助变量为x，x的序列为，并计算其平均值/>和标准差σ：

；

若样本中辅助变量x满足以下公式：

；

则将其作为异常样本剔除掉，依次对样本中的其它辅助变量进行3σ判定处理，将经过筛选的样本选入建模样本集。

3.根据权利要求1所述的一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，所述样本数据进行滤波处理通过以下公式对样本进行平均滤波：

；

其中，t表示采样时间；

T表示滤波时间常数；

表示采样周期。

4.根据权利要求1所述的一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，所述将数据进行归一化通过以下公式将样本数据归一化到：

；

其中，表示归一化目标的上下界；

表示当前变量值得上下界。

5.根据权利要求1所述的一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，所述主成分分析法的计算步骤如下：

1）对原始样本数据进行标准化，并构成标准化矩阵：

设m维随机向量为n个样本，T为矩阵转置的上标，构成样本矩阵，并对样本矩阵进行标准化，样本的平均值：

；

样本方差：

；

标准化后的数据为：

；

其中，；

构成标准化矩阵；

2）对标准价矩阵求样本相关系数矩阵：

；

其中，表示矩阵R第i行，第j列的元素，/>；

3）确定主成分：

求解样本相关矩阵R的特征方程得到/>个特征根，其中/>表示特征值，表示单位矩阵，由于/>为对称矩阵，通过雅可比方法求出特征值，根据确定p的值，使信息的利用率达85%以上，得到p个主成分，对于每个解方程组/>得单位特征向量/>，b表示特征向量集合；

4）将标准化后的指标变量转换为主成分：

；

5）对m个主成分进行综合评价，对m个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。

6.根据权利要求1所述的一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，所述基于数据驱动建模策略构建关键产品质量预测模型采用工业互联网平台内置的机器学习算法库中的算法，并结合预处理后的数据进行建模。

7.根据权利要求1所述的一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，所述预测模型进行偏差校正包括：模型运行过程中采用新数据对模型进行修正，根据模型预测误差采用偏差校正法对模型进行校正，所述偏差校正法计算公式为：

；

其中，表示当前时刻模型校正后的输出值；

表示当前时刻模型输出的预测值；

K表示校正系数；

和/>表示前一个时刻真实值和模型输出的预测值；

t表示采样时间；

；

其中，表示当前时段内数据；

表示当前时段内预测值的平均值；

表示前一时段内数据；

表示前一时段内预测值的中值；

，将/>取平均值即可得到修正系数。

8.根据权利要求1所述的一种基于工业互联网平台的数据驱动的质量建模方法，其特征在于，所述预测模型进行模型参数校正包括：以模型输出值和实际值之间的偏差为优化目标，基于历史数据采用遗传算法进行模型关键参数优化，优化目标如下：

。