CN111553117B - 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 - Google Patents
基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 Download PDFInfo
- Publication number
- CN111553117B CN111553117B CN202010321509.1A CN202010321509A CN111553117B CN 111553117 B CN111553117 B CN 111553117B CN 202010321509 A CN202010321509 A CN 202010321509A CN 111553117 B CN111553117 B CN 111553117B
- Authority
- CN
- China
- Prior art keywords
- value
- variable
- intrinsic viscosity
- ensemble learning
- genetic algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 74
- 229920000728 polyester Polymers 0.000 title claims abstract description 56
- 230000002068 genetic effect Effects 0.000 title claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 25
- 239000000835 fiber Substances 0.000 claims abstract description 23
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 18
- 238000004519 manufacturing process Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000000875 corresponding effect Effects 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 21
- 238000006068 polycondensation reaction Methods 0.000 claims description 18
- 238000002347 injection Methods 0.000 claims description 16
- 239000007924 injection Substances 0.000 claims description 16
- 230000002159 abnormal effect Effects 0.000 claims description 14
- 230000035772 mutation Effects 0.000 claims description 12
- LYCAIKOWRPUZTN-UHFFFAOYSA-N Ethylene glycol Chemical compound OCCO LYCAIKOWRPUZTN-UHFFFAOYSA-N 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 230000032050 esterification Effects 0.000 claims description 7
- 238000005886 esterification reaction Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 229910002056 binary alloy Inorganic materials 0.000 claims description 4
- 229920000642 polymer Polymers 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000003054 catalyst Substances 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 239000007788 liquid Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- OFOBLEOULBTSOW-UHFFFAOYSA-N Malonic acid Chemical compound OC(=O)CC(O)=O OFOBLEOULBTSOW-UHFFFAOYSA-N 0.000 description 1
- 229920004933 Terylene® Polymers 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000005020 polyethylene terephthalate Substances 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002002 slurry Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 239000012209 synthetic fiber Substances 0.000 description 1
- 229920002994 synthetic fiber Polymers 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/4183—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by data acquisition, e.g. workpiece identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Automation & Control Theory (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Manufacturing & Machinery (AREA)
- Geometry (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法,将采集的聚合过程参数及其对应的特性粘度先采用堆叠式集成学习的框架进行处理,利用遗传算法对框架中的初级学习器的组合和次级学习器进行选择,然后搜索最优的堆叠式集成学习算法结构并进行训练,生成基于遗传算法的堆叠式集成学习的聚酯纤维特性粘度控制模型;将当前过程参数作为输入变量输入到所述模型中得到聚酯纤维特性粘度的预测值;最后将预测值与理想值进行比较,依据比较结果对输入变量进行调整,由此得到一组理想的聚合过程参数。本发明的控制方法具有预测精度高、鲁棒性好、泛化能力强、可拓展性高的特点,能够有效对聚酯生产过程进行质量控制。
Description
技术领域
本发明属技术领域,涉及一种基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法。
背景技术
聚酯纤维俗称“涤纶”,是由有机二元醇和芳香族二元羧酸经过缩聚而成的聚酯经纺丝所得的合成纤维,是一种高分子聚合物。近年来,在竞争激烈的市场,国内的纤维生产厂家需要降低成本并且提高聚酯纤维的产品质量以提高竞争力。但聚酯纤维的制作过程十分复杂,其生产技术由多学科强交叉融合而成,每个步骤会受到温度、时间和压强等各方面因素的影响,这将造成其质量的不稳定。如果建立过程参数和性能指标之间的因果关系模型,能实现对聚酯性能指标的预测,并且根据预测结果对过程参数进行调整,这为聚酯生产操作提供了一定的指导作用,能够有效对聚酯生产过程的进行质量控制。
近年来,学者们开展了大量聚酯纤维特性粘度建模的研究,建模方法主要分为机理建模和数据驱动建模两大类过程的数学机理模型。聚酯纤维聚合过程具有高度非线性、时变性、复杂性以及耦合性等特点,故很难利用传统的机理方法建立准确的数学模型。随着工业物联网技术的日新月异,如今的工业车间已经布满了各种传感器,并且能够将数据实时传输到集散控制系统。在拥有大量实际的工业生产数据的前提下,利用数据驱动的方法构建针对聚酯纤维聚合过程的预测模型,实现对聚酯特性粘度的精准预测是十分有意义的。单一模型无法充分挖掘复杂过程的信息,可能造成许多有效数据无法利用,在建立复杂流程工业模型上具有局限性,难以满足准确预测聚酯纤维特性粘度的要求。集成学习通过将多个学习器进行结合,由此获得性能更优良的模型。
在集成学习的研究初期,大部分方法是直接对生成的学习器进行集成,但这种方式存在预测速度较慢、可拓展性不强的缺点。2002年,周志华提出“选择性集成学习”,即采用一定策略对所有学习器进行筛选,其预测性能要优于全集成模型。常见的选择策略有基于聚类、基于排序、基于静动态选择的方法。如今随着技术的发展,可以选用的学习器越来越多,构造一个客观全面的学习器选择策略十分有必要。因此可将选择性集成学习应用于聚酯生产过程建模中,并且将优化的方法用于选择策略,提出一种新的基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法,为实现聚酯性能指标预测提供了一种有效的技术手段。
发明内容
本发明的目的是为了克服现有的聚酯特性粘度预测模型无法保证全局内最优的预测精度、鲁棒性不强、不能实现对聚酯特性粘度的准确控制等不足,提出一种基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法。
为达到上述目的,本发明采用的技术方案如下:
基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法,将采集的聚合过程参数及其对应的特性粘度先采用堆叠式集成学习的框架进行处理,利用遗传算法对框架中的初级学习器的组合和次级学习器进行选择,然后搜索最优的堆叠式集成学习算法结构并进行训练,生成基于遗传算法的堆叠式集成学习的聚酯纤维特性粘度控制模型;将当前过程参数作为输入变量输入到所述模型中得到聚酯纤维特性粘度的预测值;最后将预测值与理想值进行比较,依据比较结果对输入变量进行调整,由此得到一组理想的聚合过程参数。
作为优选的方案:
如上所述的控制方法,具体步骤为:
步骤一、利用集散控制系统收集生产现场数据,构建用于聚酯纤维聚合过程的软测量模型的原始数据集S;
原始数据集S包括预测变量的观测值集合和输入变量的观测值集合;
预测变量是聚酯纤维的特性粘度;输入变量为与预测变量相关的过程参数;
步骤二、对原始数据集S中的输入变量的观测值集合和预测变量的观测值集合都进行预处理;
对每个变量通过绘制箱线图剔除原始样本中的异常数据;再采用滑动平均法消除数据中的随机误差;然后进行标准化处理,消除数据的量纲差异给模型带来的影响;
步骤三、制定进行二进制编码规则,初始化种群;
对堆叠式集成学习算法中的初级学习器选择池中的模型和次级学习器选择池中的模型的组合制定二进制编码规则;一组二进制编码对应一种堆叠式集成学习算法的结构,即遗传算法中的个体;
对个体进行随机初始化,生成由五个个体组成的种群,即遗传算法中的初始化种群;
步骤四、寻优;
对种群中个体对应结构的堆叠式集成学习算法对原始数据集S进行训练,训练后得到的均方误差值作为适应度函数;
通过遗传算法对初始化后的种群进行选择、交叉和变异操作,重复上述操作直到迭代次数达50代或者连续三代种群最高适应度值不变为止,由此得到最优个体;
步骤五、将最优个体对应的初级学习器组合和次级学习器作为堆叠式集成学习算法的结构,由此得到最终的基于遗传算法的堆叠式集成学习的聚酯特性粘度控制模型;
步骤六、利用最终的基于遗传算法的堆叠式集成学习的聚酯特性粘度控制模型对一组输入变量进行预测,获取预测值后将其与理想值进行比较;
依据比较结果对输入变量进行调整,由此可得到一组理想的过程参数。
如上所述的控制方法,输入变量为与预测变量相关的过程参数,具体是指新鲜乙二醇注入量、摩尔比、酯化压力、酯化温度、齐聚物流量、齐聚物密度、注射系统压力、注射系统温度、注射系统聚合物流量、注射系统催化剂流量、预缩聚压力、预缩聚温度、预缩聚液位、终缩聚压力、终缩聚温度和终缩聚液位。
如上所述的控制方法,步骤二中对于每个变量的观测值集合的数据预处理具体为:
对每个变量通过绘制箱线图剔除原始样本中的异常数据,箱线图具体绘制方法如下:
①画一个矩形盒,两端边的位置分别数据批的下四分位数(Q1)和上四分位数(Q3),在矩形盒中位数(Q2)位置绘制中位线;
②Q3与Q2的差值为四分位距,表示为IQR;在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段分别为上限和下限;上限是非异常范围内的最大值,下限是非异常范围内的最小值,处于这两条线之外的就是异常值;
采用滑动平均法消除数据中的随机误差:
依照以下公式对原始数据集进行滑动平均法滤波:
式中,L为滑动窗口的长度;x(n-k)表示某变量中第n-k个样本;y(n)为经过滑动平均法滤波处理后的某变量中第n个样本的值;
所述标准化处理是指对原始数据集进行Z标准化,处理后的数据均值为0,标准差为1;转化公式为:
如上所述的控制方法,堆叠式集成学习算法中初级学习器选择池中包含模型LightGBM、XGBoost、Random Forests、Extra Tree、Adaboost、GBDT、SVR、Decision Tree和KNN;次级学习器选择池中包含模型LR、Lasso、Ridge、Elastic Net、Huber Regressor、Bayesian Ridge、SVR和Decision Tree。
如上所述的控制方法,二进制编码的方法为,前n位二进制表示对初级学习器选择池中的N个模型的选择;将选择的初级学习器组合用一个{0,1}二进制串表示,0表示不选择,1表示选择;后m位二进制表示对次级学习器选择池中模型的选择;由于只能选择一个,该部分的二进制编码对应的十进制映射为选择次级学习器选择池中对应索引的模型;整个堆叠式集成学习模型由m+n位二进制进行表示。
如上所述的控制方法,所述遗传算法为基本遗传算法,其主要步骤为:
步骤A、适应度函数选择为,二进制编码对应的堆叠式集成学习模型对数据进行训练和测试后得到的测试集的均方误差,均方误差可以衡量模型预测效果,因此可以用来判断个体的优劣;公式为:
步骤B、利用轮盘赌选择的方法对个体进行选择,即个体被选中的概率与其适应度大小成正比;
步骤C、交叉算子采用两点交叉的方法,其具体操作过程是首先在相互配对的两个个体编码串中随机设置两个交叉点,然后交换两个个体在所设定的两个交叉点之间的部分染色体;
步骤D、变异算子采用随机变异法,依据设定的变异概率作为阈值,对种群中的个体生成对应的随机数,随机数小于变异概率时,对该个体的某随机基因点做取反的处理。
如上所述的控制方法,输入变量的调整方法为:获取预测值后将其与理想值进行比较,若特性粘度的预测值与理想值的误差在±0.1以内,则不需要进行调整;若超出以上阈值,则对输入变量进行调整;
对输入变量的调准顺序依照皮尔逊相关系数的排序,从前往后依次进行调节;
调节步长为当前输入变量值的1%,调节的上下限为当前输入变量值的±5%;
依照以上原则对输入变量进行调整,直至调整到理想的特性粘度;与理想的特性粘度对应的输入变量的值即为一组理想的过程参数;
皮尔逊相关系数的排序是指利用皮尔逊相关系数计算各个输入变量和预测变量之间的相关性系数,取绝对值后从大到小进行排序;
皮尔逊相关系数的计算是由两个变量的协方差除对应的标准标准差得到皮尔逊相关系数,用于度量两个变量之间的线性关系,具体公式如下:
式子衡量的是变量X和变量Y的相关性,其中r的取值范围是[-1,1],Xi和Yi分别表示对应变量第i个样本的真值,和表示对应变量的平均值,r的绝对值越接近1说明两个变量越相关,越接近0则说明不相关,步骤六中是计算各个输入变量和预测变量之间的皮尔逊相关性系数,取绝对值后从大到小进行排序,变可以得到各个输入变量与预测变量的相关性排序(r1,r2,…,rl),l为输入变量的维数。
有益效果
1)本发明基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法强化了针对样本的学习,通过该方法得到的最终模型对聚酯特性粘度有较高的预测精度,且具有较好的鲁棒性;
2)本发明采用多种初级学习器建立特性粘度预测子模型,并对学习器进行选择性集成而不是直接进行无差别的集成,这能进一步增强模型的预测能力,并且减少运算成本;
3)本发明中初级学习器选择池和次级学习器选择池的概念有助于拓展模型的丰富性,可以向选择池中加入新的模型,使得模型具有较强的可拓展性;
4)本发明采用的遗传算法为堆叠式集成模型的学习器选择提供了一种新的解决思路,将筛选学习器转为单目标寻优问题,选择初级学习器的组合和次级学习器使堆叠式集成学习达到最优化,改善了模型泛化性能;
5)根据本发明所建立聚酯特性粘度控制方法,能较好地跟踪生产过程的特性粘度变化趋势,具有较好的预泛化性和鲁棒性,为聚酯生产操作提供了一定的指导作用,能够有效对聚酯生产过程的进行质量控制。
附图说明
图1为杜邦三釜的聚合工艺流程图,也是本发明的建模对象;
图2为基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法的总体结构框图;
图3为基于遗传算法的堆叠式集成学习算法的流程图;
图4为遗传算法的迭代结果;
图5为基于遗传算法的堆叠式集成学习算法对特性粘度的预测值与其实际值的比较图。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明实施例中,以聚酯生产的聚合过程作为实施例研究对象,聚合过程采用的是杜邦三釜工艺,具体包括TPA进料和浆料配比、酯化、齐聚物输送和添加剂的注入、预缩聚、终缩聚这五部分,聚合过程的工艺流程如图1所示。
本发明了提出来基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法,该方法的总体结构框图如图2所示。将采集的聚合过程参数及其对应的特性粘度先采用堆叠式集成学习的框架进行处理,利用遗传算法对框架中的初级学习器的组合和次级学习器进行选择,然后搜索最优的堆叠式集成学习算法结构并进行训练,生成基于遗传算法的堆叠式集成学习的聚酯纤维特性粘度控制模型;将当前过程参数作为输入变量输入到所述模型中得到聚酯纤维特性粘度的预测值;最后将预测值与理想值进行比较,依据比较结果对输入变量进行调整,由此得到一组理想的聚合过程参数;
具体步骤为:
步骤一、利用集散控制系统收集生产现场数据,构建用于聚酯纤维聚合过程的软测量模型的原始数据集S;
原始数据集S包括预测变量的观测值集合和输入变量的观测值集合;
预测变量是聚酯纤维的特性粘度;输入变量为与预测变量相关的过程参数,具体是指新鲜乙二醇注入量、摩尔比、酯化压力、酯化温度、齐聚物流量、齐聚物密度、注射系统压力、注射系统温度、注射系统聚合物流量、注射系统催化剂流量、预缩聚压力、预缩聚温度、预缩聚液位、终缩聚压力、终缩聚温度和终缩聚液位;
步骤二、对原始数据集S中的输入变量的观测值集合和预测变量的观测值集合都进行预处理;具体为:
对每个变量通过绘制箱线图剔除原始样本中的异常数据,箱线图具体绘制方法如下:
①画一个矩形盒,两端边的位置分别数据批的下四分位数(Q1)和上四分位数(Q3),在矩形盒中位数(Q2)位置绘制中位线;
②Q3与Q2的差值为四分位距,表示为IQR;在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段分别为上限和下限;上限是非异常范围内的最大值,下限是非异常范围内的最小值,处于这两条线之外的就是异常值;
采用滑动平均法消除数据中的随机误差:
依照以下公式对原始数据集进行滑动平均法滤波:
式中,L为滑动窗口的长度;x(n-k)表示某变量中第n-k个样本;y(n)为经过滑动平均法滤波处理后的某变量中第n个样本的值;
进行标准化处理,消除数据的量纲差异给模型带来的影响,标准化处理是指对原始数据集进行Z标准化,处理后的数据均值为0,标准差为1;转化公式为:
步骤三、制定进行二进制编码规则,初始化种群;
对堆叠式集成学习算法中的初级学习器选择池中的模型(包括模型LightGBM、XGBoost、Random Forests、Extra Tree、Adaboost、GBDT、SVR、Decision Tree和KNN)和次级学习器选择池中的模型(包括模型LR、Lasso、Ridge、Elastic Net、Huber Regressor、Bayesian Ridge、SVR和Decision Tree)的组合制定二进制编码规则;一组二进制编码对应一种堆叠式集成学习算法的结构,即遗传算法中的个体;
对个体进行随机初始化,生成由五个个体组成的种群,即遗传算法中的初始化种群;
二进制编码的方法为,前n位二进制表示对初级学习器选择池中的N个模型的选择;将选择的初级学习器组合用一个{0,1}二进制串表示,0表示不选择,1表示选择;后m位二进制表示对次级学习器选择池中模型的选择;由于只能选择一个,该部分的二进制编码对应的十进制映射为选择次级学习器选择池中对应索引的模型;整个堆叠式集成学习模型由m+n位二进制进行表示;
遗传算法为基本遗传算法,其主要步骤为:
步骤A、适应度函数选择为,二进制编码对应的堆叠式集成学习模型对数据进行训练和测试后得到的测试集的均方误差。均方误差可以衡量模型预测效果,因此可以用来判断个体的优劣;公式为:
步骤B、利用轮盘赌选择的方法对个体进行选择,即个体被选中的概率与其适应度大小成正比;
步骤C、交叉算子采用两点交叉的方法,其具体操作过程是首先在相互配对的两个个体编码串中随机设置两个交叉点,然后交换两个个体在所设定的两个交叉点之间的部分染色体;
步骤D、变异算子采用随机变异法,依据设定的变异概率作为阈值,对种群中的个体生成对应的随机数,随机数小于变异概率时,对该个体的某随机基因点做取反的处理;
步骤四、寻优;
对种群中个体对应结构的堆叠式集成学习算法对原始数据集S进行训练,训练后得到的均方误差值作为适应度函数;
通过遗传算法对初始化后的种群进行选择、交叉和变异操作,重复上述操作直到迭代次数达50代或者连续三代种群最高适应度值不变为止,由此得到最优个体;
步骤三和步骤四是对遗传算法与堆叠式集成学习的具体结合方式的描述,结合产生的基于遗传算法的堆叠式集成学习算法流程图如图3所示;
步骤五、将最优个体对应的初级学习器组合和次级学习器作为堆叠式集成学习算法的结构,由此得到最终的基于遗传算法的堆叠式集成学习的聚酯特性粘度控制模型;
步骤六、利用最终的基于遗传算法的堆叠式集成学习的聚酯特性粘度控制模型对一组输入变量进行预测,获取预测值后将其与理想值进行比较;
依据比较结果对输入变量进行调整,由此可得到一组理想的过程参数;
输入变量的调整方法为:获取预测值后将其与理想值进行比较,若特性粘度的预测值与理想值的误差在±0.1以内,则不需要进行调整;若超出以上阈值,则对输入变量进行调整;
对输入变量的调准顺序依照皮尔逊相关系数的排序,从前往后依次进行调节;
调节步长为当前输入变量值的1%,调节的上下限为当前输入变量值的±5%;
依照以上原则对输入变量进行调整,直至调整到理想的特性粘度;与理想的特性粘度对应的输入变量的值即为一组理想的过程参数;
皮尔逊相关系数的排序是指利用皮尔逊相关系数计算各个输入变量和预测变量之间的相关性系数,取绝对值后从大到小进行排序;
皮尔逊相关系数的计算是由两个变量的协方差除对应的标准标准差得到皮尔逊相关系数,用于度量两个变量之间的线性关系,具体公式如下:
式子衡量的是变量X和变量Y的相关性,其中r的取值范围是[-1,1],Xi和Yi分别表示对应变量第i个样本的真值,和表示对应变量的平均值,r的绝对值越接近1说明两个变量越相关,越接近0则说明不相关,步骤六中是计算各个输入变量和预测变量之间的皮尔逊相关性系数,取绝对值后从大到小进行排序,变可以得到各个输入变量与预测变量的相关性排序(r1,r2,…,rl),l为输入变量的维数。
经过以上步骤,建立基于遗传算法的堆叠式集成学习模型的结果如下:
图4为遗传算法的迭代曲线,遗传算法在80代左右收敛,收敛后得到的最优个体即为针对聚酯特性粘度预测问题的最优堆叠式集成学习算法的结构。根据遗传算法的选择结果表明,堆叠式集成学习模型第一层选择XGBoost、Random Forests、Extra Tree、Adaboost、GBDT、Decision Tree、KNN的初级学习器组合,第二层选择Lasso模型时整体的预测效果最好。此结构的堆叠式集成学习模型线下最高为均方误差为0.0774。图5为聚酯特性粘度的预测值与真实值的比较,两者的趋势十分接近,由此说明预测结果比较理想。下表为各个初级学习器选择池中的模型单独预测与本发明提出的基于遗传算法的堆叠式集成学习模型预测的结果。由表中可以看到本发明提出的模型在预测精度上具有一定优越性,并且比将所有初级学习器直接集成的效果要好。说明通过遗传算法对学习器的组合进行选择是有意义的。
表1预测结果对比
Claims (8)
1.基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法,其特征是:将采集的聚合过程参数及其对应的特性粘度先采用堆叠式集成学习的框架进行处理,利用遗传算法对框架中的初级学习器的组合和次级学习器进行选择,然后搜索最优的堆叠式集成学习算法结构并进行训练,生成基于遗传算法的堆叠式集成学习的聚酯纤维特性粘度控制模型;将当前过程参数作为输入变量输入到所述模型中得到聚酯纤维特性粘度的预测值;最后将预测值与理想值进行比较,依据比较结果对输入变量进行调整,由此得到一组理想的聚合过程参数。
2.根据权利要求1所述的控制方法,其特征在于,具体步骤为:
步骤一、利用集散控制系统收集生产现场数据,构建用于聚酯纤维聚合过程的软测量模型的原始数据集S;
原始数据集S包括预测变量的观测值集合和输入变量的观测值集合;
预测变量是聚酯纤维的特性粘度;输入变量为与预测变量相关的过程参数;
步骤二、对原始数据集S中的输入变量的观测值集合和预测变量的观测值集合都进行预处理;
对每个变量通过绘制箱线图剔除原始样本中的异常数据;再采用滑动平均法消除数据中的随机误差;然后进行标准化处理,消除数据的量纲差异给模型带来的影响;
步骤三、制定进行二进制编码规则,初始化种群;
对堆叠式集成学习算法中的初级学习器选择池中的模型和次级学习器选择池中的模型的组合制定二进制编码规则;一组二进制编码对应一种堆叠式集成学习算法的结构,即遗传算法中的个体;
对个体进行随机初始化,生成由五个个体组成的种群,即遗传算法中的初始化种群;
步骤四、寻优;
对种群中个体对应结构的堆叠式集成学习算法对原始数据集S进行训练,训练后得到的均方误差值作为适应度函数;
通过遗传算法对初始化后的种群进行选择、交叉和变异操作,重复上述操作直到迭代次数达50代或者连续三代种群最高适应度值不变为止,由此得到最优个体;
步骤五、将最优个体对应的初级学习器组合和次级学习器作为堆叠式集成学习算法的结构,由此得到最终的基于遗传算法的堆叠式集成学习的聚酯特性粘度控制模型;
步骤六、利用最终的基于遗传算法的堆叠式集成学习的聚酯特性粘度控制模型对一组输入变量进行预测,获取预测值后将其与理想值进行比较;
依据比较结果对输入变量进行调整,由此可得到一组理想的过程参数。
3.根据权利要求2所述的控制方法,其特征在于,输入变量为与预测变量相关的过程参数,具体是指新鲜乙二醇注入量、摩尔比、酯化压力、酯化温度、齐聚物流量、齐聚物密度、注射系统压力、注射系统温度、注射系统聚合物流量、注射系统催化剂流量、预缩聚压力、预缩聚温度、预缩聚液位、终缩聚压力、终缩聚温度和终缩聚液位。
4.根据权利要求2所述的控制方法,其特征在于,步骤二中对于每个变量的观测值集合的数据预处理具体为:
对每个变量通过绘制箱线图剔除原始样本中的异常数据,箱线图具体绘制方法如下:
①画一个矩形盒,两端边的位置分别数据批的下四分位数Q1和上四分位数Q3,在矩形盒中位数Q2位置绘制中位线;
②Q3与Q2的差值为四分位距,表示为IQR;在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段分别为上限和下限;上限是非异常范围内的最大值,下限是非异常范围内的最小值,处于这两条线之外的就是异常值;
采用滑动平均法消除数据中的随机误差:
依照以下公式对原始数据集进行滑动平均法滤波:
式中,L为滑动窗口的长度;x(n-k)表示某变量中第n-k个样本;y(n)为经过滑动平均法滤波处理后的某变量中第n个样本的值;
所述标准化处理是指对原始数据集进行Z标准化,处理后的数据均值为0,标准差为1;转化公式为:
5.根据权利要求2所述的控制方法,其特征在于,堆叠式集成学习算法中初级学习器选择池中包含模型LightGBM、XGBoost、Random Forests、Extra Tree、Adaboost、GBDT、SVR、Decision Tree和KNN;次级学习器选择池中包含模型LR、Lasso、Ridge、Elastic Net、HuberRegressor、Bayesian Ridge、SVR和Decision Tree。
6.根据权利要求2所述的控制方法,其特征在于,二进制编码的方法为,前n位二进制表示对初级学习器选择池中的N个模型的选择;将选择的初级学习器组合用一个{0,1}二进制串表示,0表示不选择,1表示选择;后m位二进制表示对次级学习器选择池中模型的选择;由于只能选择一个,该部分的二进制编码对应的十进制映射为选择次级学习器选择池中对应索引的模型;整个堆叠式集成学习模型由m+n位二进制进行表示。
7.根据权利要求2所述的控制方法,其特征在于,所述遗传算法为基本遗传算法,其主要步骤为:
步骤A、适应度函数选择为,二进制编码对应的堆叠式集成学习模型对数据进行训练和测试后得到的测试集的均方误差,均方误差可以衡量模型预测效果,因此可以用来判断个体的优劣;公式为:
步骤B、利用轮盘赌选择的方法对个体进行选择,即个体被选中的概率与其适应度大小成正比;
步骤C、交叉算子采用两点交叉的方法,其具体操作过程是首先在相互配对的两个个体编码串中随机设置两个交叉点,然后交换两个个体在所设定的两个交叉点之间的部分染色体;
步骤D、变异算子采用随机变异法,依据设定的变异概率作为阈值,对种群中的个体生成对应的随机数,随机数小于变异概率时,对该个体的某随机基因点做取反的处理。
8.根据权利要求2所述的控制方法,其特征在于,输入变量的调整方法为:获取预测值后将其与理想值进行比较,若特性粘度的预测值与理想值的误差在±0.1以内,则不需要进行调整;若超出以上阈值,则对输入变量进行调整;
对输入变量的调准顺序依照皮尔逊相关系数的排序,从前往后依次进行调节;
调节步长为当前输入变量值的1%,调节的上下限为当前输入变量值的±5%;
依照以上原则对输入变量进行调整,直至调整到理想的特性粘度;与理想的特性粘度对应的输入变量的值即为一组理想的过程参数;
皮尔逊相关系数的排序是指利用皮尔逊相关系数计算各个输入变量和预测变量之间的相关性系数,取绝对值后从大到小进行排序;
皮尔逊相关系数的计算是由两个变量的协方差除对应的标准标准差得到皮尔逊相关系数,用于度量两个变量之间的线性关系,具体公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010321509.1A CN111553117B (zh) | 2020-04-22 | 2020-04-22 | 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010321509.1A CN111553117B (zh) | 2020-04-22 | 2020-04-22 | 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553117A CN111553117A (zh) | 2020-08-18 |
CN111553117B true CN111553117B (zh) | 2022-04-29 |
Family
ID=72002555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010321509.1A Active CN111553117B (zh) | 2020-04-22 | 2020-04-22 | 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553117B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100924B (zh) * | 2020-09-17 | 2022-06-07 | 云南电力技术有限责任公司 | 一种基于极限学习机模型的气体浓度的预测方法及装置 |
CN112760727B (zh) * | 2020-12-15 | 2021-12-21 | 东华大学 | 基于免疫内分泌算法优化总服务成本的聚酯纤维生产工艺 |
CN113011086B (zh) * | 2021-03-02 | 2022-08-16 | 西南林业大学 | 一种基于ga-svr算法森林生物量的估测方法 |
CN114474523B (zh) * | 2022-02-08 | 2023-02-03 | 苏州博之顺材料科技有限公司 | 一种改性塑料的性能调整方法和系统 |
CN117577214B (zh) * | 2023-05-19 | 2024-04-12 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126275A1 (en) * | 2006-09-27 | 2008-05-29 | Crnojevic Vladimir S | Method of developing a classifier using adaboost-over-genetic programming |
CN102270309B (zh) * | 2011-07-27 | 2013-05-01 | 华北电力大学 | 一种基于集成学习的短期电力负荷预测方法 |
CN106295852A (zh) * | 2016-07-28 | 2017-01-04 | 大连民族大学 | 聚酰亚胺基纳米复合薄膜击穿场强预测模型及其构建方法和应用 |
CN110046377B (zh) * | 2019-02-28 | 2022-06-14 | 昆明理工大学 | 一种基于异构相似度的选择性集成即时学习软测量建模方法 |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
-
2020
- 2020-04-22 CN CN202010321509.1A patent/CN111553117B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111553117A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553117B (zh) | 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 | |
CN107391713B (zh) | 一种解决协同过滤推荐技术中冷启动问题的方法及系统 | |
CN107992976B (zh) | 热点话题早期发展趋势预测系统及预测方法 | |
Tian et al. | Learning subspace-based RBFNN using coevolutionary algorithm for complex classification tasks | |
CN111738482B (zh) | 一种聚酯纤维聚合过程中的工艺参数的调节方法 | |
CN111198820B (zh) | 一种基于共享隐层自编码器的跨项目软件缺陷预测方法 | |
CN107122890A (zh) | 个人信用得分优化评价方法 | |
CN113919235A (zh) | 基于lstm演化聚类的移动源污染异常排放检测方法及介质 | |
CN108446358B (zh) | 基于miv与关联规则的优化方法及石化设备的数据建模方法 | |
Wolters et al. | Simulated annealing model search for subset selection in screening experiments | |
CN101625725A (zh) | 基于流形距离的人工免疫无监督图像分类方法 | |
Liu et al. | Residual useful life prognosis of equipment based on modified hidden semi-Markov model with a co-evolutional optimization method | |
Qiu | Sequence similarity governs generalizability of de novo deep learning models for RNA secondary structure prediction | |
CN116611504A (zh) | 一种基于进化的神经架构搜索方法 | |
CN117252114A (zh) | 一种基于遗传算法的电缆耐扭转实验方法 | |
CN117688458A (zh) | 一种注塑件模具工艺参数自动优化的方法及系统 | |
Liang et al. | Incremental deep forest for multi-label data streams learning | |
CN112735604B (zh) | 一种基于深度学习算法的新型冠状病毒分类方法 | |
CN112052952B (zh) | 基于遗传算法的柴油机故障诊断中监测参数优化选取方法 | |
CN111797574B (zh) | 聚合物分子量分布的集成高斯过程回归模型方法 | |
CN114217580A (zh) | 基于改进型差分进化算法的功能性纤维生产排产方法 | |
CN115049006A (zh) | 基于自适应前馈神经网络的通信信号识别方法和系统 | |
CN114357869A (zh) | 一种基于数据关系学习和预测的多目标优化代理模型设计方法及系统 | |
CN113343589A (zh) | 一种基于遗传-随机常数的基因表达式编程的酸性天然气水合物生成条件预测方法 | |
CN113033419A (zh) | 基于进化神经网络的设备故障辨识方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |