CN113156900B

CN113156900B - 一种基于元强化学习的加工变形控制方法

Info

Publication number: CN113156900B
Application number: CN202110337890.5A
Authority: CN
Inventors: 李迎光; 刘长青; 黄冲; 郝小忠; 刘旭; 许可
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-06-28
Anticipated expiration: 2041-03-30
Also published as: CN113156900A

Abstract

一种基于元强化学习的加工变形控制方法，其特征是将不同分组的源数据中每个零件的加工变形控制工艺优化作为一个任务，为每个任务分别建立强化学习模型，将工件加工分为若干加工步骤，以工件的加工状态为状态，以下一个加工步骤的工艺选择作为动作，以下一加工状态和后续的加工状态作为设计奖励函数的依据；基于元学习方法，将每个强化学习模型作为基模型，通过源数据协同训练基模型和元模型；当面临新的加工任务时，通过新任务的少量样本数据微调元模型得到适应新任务的加工变形控制工艺优化的强化学习模型。本发明提高了变形控制的效果，可以实现加工工艺的在线优化，减少了对实际加工工艺数据的需求。

Description

一种基于元强化学习的加工变形控制方法

技术领域

本发明涉及数控加工领域，尤其是涉及一种零件数控加工变形控制方法，具体地说是一种基于元强化学习的加工变形控制方法。

背景技术

加工变形是造成零件加工质量问题的主要原因之一，所以加工变形控制也成为保证零件质量的重要方面。加工过程中的工艺优化是加工变形控制的有效途径，对零件最终的变形有重要作用，尽管加工完成后的变形可以通过校形处理，但校形工艺复杂，工作量大，容易引起工件开裂，控制的精度仍然难以达到高精度变形控制要求，通过加工过程中的工艺优化来减小加工完成后的变形可以有效减轻校形的负担。已有方法主要是基于残余应力预测或检测进行加工变形预测，进而在离线状态下根据已有的变形预测结果进行加工工艺优化从而实现加工变形控制。然而由于残余应力高精度预测和检测难度大，且加工过程中存在大量不确定性因素，事前确定的加工工艺难以满足变形控制需求。

针对以上问题，一种有效的手段是利用加工中监测得到的物理量来反映工件的变形状态。零件的数控加工通常分为若干步骤，每个步骤都有一定的加工工艺，在加工过程中完成每个步骤的加工工艺都会产生一定的变形。在加工过程中工件被夹具所约束，无法释放变形，当前工件的变形不包含前面步骤加工变形的累积量，即当前工件变形只是在上一工件状态及上一加工步骤工艺的作用下产生，因此当前工件变形状态只取决于上一步加工变形与动作，可以看出该过程具有马尔科夫性，通过强化学习方法优化每个步骤的加工工艺从而实现变形控制是一种有效手段，但是由于每个零件的残余应力状态不同，用同一零件的变形控制工艺数据训练得到的变形控制工艺优化强化学习模型在面对新的加工任务时难以保证模型的泛化能力，且强化学习等机器学习算法的学习需要大量的样本数据，这在制造环境下是难以实现的，如何用小样本数据提高模型的泛化能力是解决问题的关键。元学习在解决小样本数据学习的问题上具有良好的效果，结合元学习与强化学习算法的优势，可以实现在不同加工任务下零件加工工艺的优化从而达到零件变形的准确控制。

发明内容

本发明的目的是针对变形控制工艺优化的问题，提出了一种基于元强化学习的加工变形控制方法，为不同变形控制工艺数据建立了强化学习基模型，以工件加工过程中的监测数据作为标签，增加了样本数据的数量，而且可以通过加工仿真环境得到变形控制工艺仿真数据，进一步了增加样本数据，利用元学习的小样本学习方法，通过与工件加工环境交互迭代产生的数据训练基模型从而得到一个元模型，通过新加工任务的监测数据作为样本数据，通过该少量样本数据微调元模型使其适应新任务的加工，提高了模型的泛化能力及变形控制效果。

本发明的技术方案是：

一种基于元强化学习的加工变形控制方法，其特征在于：将至少包含一个零件的变形控制工艺数据作为源数据，将源数据进行分组，并将不同分组的源数据中每个零件的加工变形控制工艺优化作为一个任务，为每个任务分别建立强化学习模型优化加工工艺；基于元学习方法，将建立的强化学习模型作为基模型，通过源数据协同训练基模型和元模型；当面临新的加工任务时，通过新任务的少量样本数据微调元模型得到适应新任务的加工变形控制工艺优化的强化学习模型。

所述的强化学习模型中，将工件加工分为若干加工步骤，以工件的加工状态为状态，以下一个加工步骤的工艺选择作为动作，以下一加工状态和后续的加工状态作为设计奖励函数的依据。

述的加工状态为工件的几何状态、变形力监测量和变形值监测量中的一种或任意组合。

所述的工艺选择的动作为切深、切宽、转速、进给、是否释放变形、施加预应力和加工顺序。

所述的源数据为仿真数据，通过对残余应力分布采样构建不同的加工仿真环境，采用不同工艺策略作用于该环境，通过工艺策略与加工仿真环境交互得到不同变形控制工艺仿真数据。

所述的奖励函数设计是指：工件当前的变形状态和加工完成的变形状态通过释放变形或者预测变形得到，奖励函数通过公式(1)表达，为了能有效设置奖励函数从而避免奖励过于稀疏导致模型无法收敛，将分阶段进行设置奖励函数的制定；其中reward_i表示当执行第i个加工步骤的工艺时获得的奖励，i表示加工步骤的顺序编号，maxdefor_i表示执行第i个加工步骤的工艺时工件监测到的最大变形的绝对值，maxdefor_e表示执行最后加工步骤的工艺时工件监测到的最大变形的绝对值，S_m表示加工过程中的某个步骤的顺序编号，S_e表示加工过程中的最后加工步骤的顺序编号，def₁与def₂分别表示加工过程中执行某个步骤的工艺产生变形的阈值，def_e表示执行最后加工步骤的工艺产生变形的阈值；从公式(1)看出，在执行前S_m个步骤的工艺时，当maxdefor_i大于def₁时，将会获得惩罚R₁，R₁为大于-1的负数，当maxdefor_i不大于def₁时，将获得阶段性的奖励R₂，R₂为小于1的正数；在执行S_m与S_e之间步骤的工艺时，当maxdefor_i大于def₂时，将会获得惩罚R₁，当maxdefor_i不大于def₂时，将获得阶段性的奖励R₂；当执行最后一个加工步骤S_e的工艺时，将确定零件最终的变形，以零件最终的变形作为奖励的依据，当maxdefor_e不大于def_e时，奖励将是def_e与maxdefor_e的比值，是个大于1的奖励，变形越小奖励越大；当maxdefor_e大于def_e时，奖励将是maxdefor_e与def_e的比值的负数，是个小于-1的惩罚，变形越大惩罚越大。

所述的微调元模型是指：根据新任务的少量样本数据，通过少量的梯度下降来更新元模型的参数得到适应新任务的参数。

所述的强化学习模型通过DQN(Deep Q-Network)、DDPG(Deep DeterministicPolicy Gradient)、策略梯度强化学习算法来构建。

具体而言，本发明的基于元强化学习的加工变形控制方法，包括：将至少包含一个零件的变形控制工艺数据作为源数据，将源数据进行分组，并将源数据中每个零件的加工变形控制工艺优化作为一个任务

为每个任务分别建立强化学习模型

优化加工工艺；基于元学习方法，将建立的强化学习模型

作为基模型，通过源数据协同训练基模型

和元模型f_θ；当面临新的加工任务

时，通过监测新任务

的加工过程得到少量样本数据<s,a,r,s′>，其中s为工件当前的加工状态，a为当前加工步骤的加工工艺选择，r为作用动作a后的奖励，s′为作用动作a后工件的加工状态，通过少量的样本数据微调元模型f_θ得到适应新任务

的加工变形控制工艺优化的强化学习模型

进一步，所述的强化学习模型

将工件加工分为若干加工步骤

以工件的加工状态为状态s，以下一个加工步骤的工艺选择作为动作a，以下一加工状态和后续的加工状态作为设计奖励函数reward的依据。

进一步，所述的状态s可以是工件的几何状态、变形力监测量和变形值监测量中的一种及其组合。

进一步，所述的工艺选择的动作a可以为切深、切宽、转速、进给、是否释放变形、施加预应力、加工顺序等。

进一步，所述的源数据可以为仿真数据，通过对残余应力分布采样构建不同的加工仿真环境，采用不同工艺策略作用于该环境，通过工艺策略与加工仿真环境交互得到不同变形控制工艺仿真数据。

进一步，所述的奖励函数reward设计，其中工件当前的变形状态和加工完成的变形状态可通过释放变形或者预测变形得到，奖励函数reward可通过公式(1)表达，为了能有效设置奖励函数从而避免奖励过于稀疏导致模型无法收敛，将分阶段进行设置奖励函数的制定；其中reward_i表示当执行第i个加工步骤的工艺时获得的奖励，i表示加工步骤的顺序编号，maxdefor_i表示执行第i个加工步骤的工艺时工件监测到的最大变形的绝对值，maxdefor_e表示执行最后加工步骤的工艺时工件监测到的最大变形的绝对值，S_m表示加工过程中的某个步骤的顺序编号，S_e表示加工过程中的最后加工步骤的顺序编号，def₁与def₂分别表示加工过程中执行某个步骤的工艺产生变形的阈值，def_e表示执行最后加工步骤的工艺产生变形的阈值；从公式(1)可以看出，在执行前S_m个步骤的工艺时，当maxdefor_i大于def₁时，将会获得惩罚R₁，R₁为大于-1的负数，当maxdefor_i不大于def₁时，将获得阶段性的奖励R₂，R₂为小于1的正数；在执行S_m与S_e之间步骤的工艺时，当maxdefor_i大于def₂时，将会获得惩罚R₁，当maxdefor_i不大于def₂时，将获得阶段性的奖励R₂；当执行最后一个加工步骤S_e的工艺时，将确定零件最终的变形，以零件最终的变形作为奖励的依据，当maxdefor_e不大于def_e时，奖励将是def_e与madefor_e的比值，是个大于1的奖励，变形越小奖励越大；当maxdefor_e大于def_e时，奖励将是maxdefor_e与def_e的比值的负数，是个小于-1的惩罚，变形越大惩罚越大。

进一步，所述的微调元模型f_θ为根据新任务

的少量样本数据，通过少量的梯度下降来更新元模型f_θ的参数θ得到适应新任务

的参数θ_new。

进一步，所述的强化学习模型

可以通过DQN(Deep Q-Network)、DDPG(DeepDeterministic Policy Gradient)、策略梯度等强化学习算法来构建。

本发明的有益效果是：

1.本发明通过加工过程中的更容易精确得物理监测量反映工件的中间状态，从而得到样本数据，避免了奖励过于稀疏导致模型无法收敛，并通过少量样本数据微调元模型使其适应新任务的加工，提高了模型的泛化能力。

2.本发明使用元强化学习方法优化每个步骤加工工艺，提高了变形控制的效果。

3.本发明基于实时监测的物理量进行加工工艺优化，可以实现加工工艺的在线优化。

4.本发明通过仿真加工环境得到变形控制工艺数据，减少了对实际加工工艺数据的需求。

附图说明

图1为本发明基于元强化学习的变形控制方法示意图。

图2为本发明强化学习模型网络结构图，图中eval_net表示评估网络，target_net表示目标网络，def₁,def₂,def₃,def₄分别表示零件当前的四组变形值，ord表示当前加工槽的序号，Q₁,Q₂,...,Q₁₉,Q₂₀分别表示每个动作的Q值，Q_eval和Q_target分别表示eval_net网络与target_net网络中所有Q值中的最大值。

图3为本发明零件槽加工顺序与变形监测点示意图。

具体实施方式

以下结合附图和实例来对本发明做进一步说明，本发明不限于该实施例。

如图1-3所示。

一种基于元强化学习的精加工余量优化方法，包括以下步骤：

1、以航空结构件加工为例，零件在加工过程中，通过监测工件的变形力表征工件的变形状态。

2、本发明基于元强化学习的变形控制工艺优化方法，如图1所示。首先分析强化学习基模型的建立，根据零件毛坯材料初始残余应力测量结果，构建毛坯每层初始残余应力基准值

其中n表示毛坯沿厚度方向的层数。以铝合金残余应力测量误差为依据，在此

的基础上将残余应力的采样区间范围扩展为

设置基模型个数时要保证所有基模型加工环境的残余应力采样区间的并集能覆盖整体的采样区间

并且每个基模型的残余应力采样区间能有一定交集，这样能保证基模型之间有一定融合，丰富样本数据。因此本发明实施例建立了五个基模型，假设残余应力的测量误差服从正态分布，则基模型加工环境的初始残余应力采样分布为

其中

表示每个基模型毛坯每层初始残余应力的采样值；

表示每个基模型毛坯每层初始残余应力服从正态分布的均值；bm表示每个基模型的序号，可以为1,2,...,5；

表示每个基模型毛坯每层初始残余应力服从正态分布的标准差。根据初始残余应力的采样要求，每个基模型对应的采样区间分别为：

并且每个区间对应的基模型的均值分别为：

每个区间对应的基模型的标准差均为：

则每个基模型在对应采样区间的采样概率为95％，如此保证了每个区间之间有30％的融合度。为每个初始残余应力采样区间零件的精加工余量优化作为一个任务

并为每个任务分别强化学习基模型

每个强化学习基模型

的初始残余应力采样分别为以上所述的五个初始残余应力分布采样区间。根据所采样的初始残余应力建立加工仿真环境，在加工仿真环境，为零件赋予所采样的初始残余应力，通过与加工仿真的交互得到精加工余量优化源数据从而训练每个强化学习基模型

3、分析元模型f_θ的建立，基于元学习的方法，元模型为f_θ是与强化学习基模型

具有不同网络参数与超参数的DQN算法网络模型，如图2所，DQN网络模型是两个具有相同结构但参数不同的神经网络，分别为目标网络target_net和估计网络eval_net，两个网络均为全连接。使用两个神经网络是为了固定住一个神经网络target_net的参数，拥有eval_net很久之前的一组参数，而且这组参数被固定一段时间，再被eval_net的新参数所替换，而eval_net在训练过程中不断在被更新。eval_net中输入为当前状态s，输出一组Q值Q_eval，作为预测的Q值，根据Q_eval对应的动作继续改变加工环境，并获得一个奖励r。target_net中输入下一状态s′，输出一组Q值Q_target，以Q_targe乘上折扣因子并加上到达状态s′所获得的奖励，将这个值作为现实的Q值，通过两个不同的Q值可以计算出一个损失，因此对于每个任务

和对应的基模型

的损失函数的定义如公式(2)所示：

其中r_i(s_t,a_t)表示在任务

的DQN模型中在状态s_t作用动作a_t收获的奖励，γ_i表示该模型的折扣因子，表示对未来奖励的重视程度，为0到1之间的值，本实施例每个基模型

折扣因子为0.9，Q_eval,i(s_t,a_t)表示在该模型eval_net网络中输入状态s_t得到动作a_t时对应的Q值，maxQ_target,i(s_t+1)表示在该模型target_net网络中输入下一状态s_t+1输出的最大Q值。

4、分析强化学习基模型

的训练更新，不同加工环境下的强化学习基模型参数θ_i通过梯度下降来更新，如公式(3)所示：

其中学习速率α为固定超参数，本实施例每个基模型

学习速率为0.001。

5、分析元模型f_θ的训练更新，θ是通过优化每个强化学习基模型的

性能来进行训练，元模型参数的更新如公式(4)所示：

其中β为元学习率，本实施例元模型f_θ的学习速率为0.01，元参数θ通过综合考虑基强化学习模型参数θ′_i的损失而得到优化。

6、对于元模型f_θ的微调，在加工仿真环境中得到精加工余量优化数据完成强化学习基模型

和元模型f_θ的协同训练，当去适应一个新加工环境的新任务

时，通过监测新任务

加工过程中工件的状态得到少量样本数据<s,a,r,s′>，其中s为工件当前变形值与槽序号，a为当前槽选择的精加工余量，r为作用动作a的奖励，s′为作用动作a后工件的变形值与下一槽序号，奖励函数将根据具体零件来设置，本实施例的零件槽加工顺序与变形监测点如图3所示，因此本实施例的奖励函数如公式(4)。根据该少量样本数据微调元模型参数θ，使其微调更新到θ_new，从而适应新任务

的加工环境，元模型参数θ微调方式如公式(5)所示：

7、精加工余量优化：当训练好的元模型f_θ面临新的加工任务

时，在零件的第一个槽以精加工余量为传统的1mm进行铣削，通过监测得到此时工件的四组变形值def₁,def₂,def₃,def₄，并结合第一个槽的序号ord形成状态s，输入元模型f_θ的eval_net，即输入如图2所示的神经网络，输出动作a即零件第二个槽的将加工余量，并对零件进行第二个槽的加工，通过监测得到此时工件的四组变形值def₁,def₂,def₃,def₄，并结合第二个槽的序号ord形成状态s′，根据此时四组变形值得到动作a的奖励r，并将状态s′输入元模型f_θ的target_net，通过得到的样本数据<s,a,r,s′>微调元模型，并输出下一槽的精加工余量。通过同样的迭代完成零件每个槽精加工余量的决策，达到控制零件加工变形的目的。

Claims

1.一种基于元强化学习的加工变形控制方法，其特征在于：将至少包含一个零件的变形控制工艺数据作为源数据，将源数据进行分组，并将不同分组的源数据中每个零件的加工变形控制工艺优化作为一个任务，为每个任务分别建立强化学习模型优化加工工艺；基于元学习方法，将建立的强化学习模型作为基模型，通过源数据协同训练基模型和元模型；当面临新的加工任务时，通过新任务的少量样本数据微调元模型得到适应新任务的加工变形控制工艺优化的强化学习模型；所述的强化学习模型中，将工件加工分为若干加工步骤，以工件的加工状态为状态，以下一个加工步骤的工艺选择作为动作，以下一加工状态和后续的加工状态作为设计奖励函数的依据；

所述的奖励函数设计是指：工件当前的变形状态和加工完成的变形状态通过释放变形或者预测变形得到，奖励函数通过公式(1)表达，为了能有效设置奖励函数从而避免奖励过于稀疏导致模型无法收敛，将分阶段进行设置奖励函数的制定；其中reward_i表示当执行第i个加工步骤的工艺时获得的奖励，i表示加工步骤的顺序编号，maxdefor_i表示执行第i个加工步骤的工艺时工件监测到的最大变形的绝对值，maxdefor_e表示执行最后加工步骤的工艺时工件监测到的最大变形的绝对值，S_m表示加工过程中的某个步骤的顺序编号，S_e表示加工过程中的最后加工步骤的顺序编号，def₁与def₂分别表示加工过程中执行某个步骤的工艺产生变形的阈值，def_e表示执行最后加工步骤的工艺产生变形的阈值；从公式(1)看出，在执行前S_m个步骤的工艺时，当maxdefor_i大于def₁时，将会获得惩罚R₁，R₁为大于-1的负数，当maxdefor_i不大于def₁时，将获得阶段性的奖励R₂，R₂为小于1的正数；在执行S_m与S_e之间步骤的工艺时，当maxdefor_i大于def₂时，将会获得惩罚R₁，当maxdefor_i不大于def₂时，将获得阶段性的奖励R₂；当执行最后一个加工步骤S_e的工艺时，将确定零件最终的变形，以零件最终的变形作为奖励的依据，当maxdefor_e不大于def_e时，奖励将是def_e与maxdefor_e的比值，是个大于1的奖励，变形越小奖励越大；当maxdefor_e大于def_e时，奖励将是maxdefor_e与def_e的比值的负数，是个小于-1的惩罚，变形越大惩罚越大

2.根据权利要求1所述的基于元强化学习的加工变形控制方法，其特征在于：所述的加工状态为工件的几何状态、变形力监测量和变形值监测量中的一种或任意组合。

3.根据权利要求1所述的基于元强化学习的加工变形控制方法，其特征在于：所述的工艺选择的动作为切深、切宽、转速、进给、是否释放变形、施加预应力和加工顺序。

4.根据权利要求1所述的基于元强化学习的加工变形控制方法，其特征在于：所述的源数据为仿真数据，通过对残余应力分布采样构建不同的加工仿真环境，采用不同工艺策略作用于该环境，通过工艺策略与加工仿真环境交互得到不同变形控制工艺仿真数据。

5.根据权利要求1所述的基于元强化学习的加工变形控制方法，其特征在于：所述的微调元模型是指：根据新任务的少量样本数据，通过少量的梯度下降来更新元模型的参数得到适应新任务的参数。

6.根据权利要求1所述的基于元强化学习的加工变形控制方法，其特征在于：所述的强化学习模型通过DQN(Deep Q-Network)、DDPG(Deep Deterministic Policy Gradient)、策略梯度强化学习算法来构建。