CN111857081A

CN111857081A - 基于Q-learning强化学习的芯片封装测试生产线性能控制方法

Info

Publication number: CN111857081A
Application number: CN202010797879.2A
Authority: CN
Inventors: 李波; 冯益铭; 钱鑫森
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-10-30
Anticipated expiration: 2040-08-10
Also published as: CN111857081B

Abstract

本发明涉及半导体芯片封装测试生产线性能控制与优化领域，具体为一种基于Q‑learning强化学习的芯片封装测试生产线性能控制方法。本发明建立了更加精确的半导体封装测试串并联生产线性能预测模型，并综合使用Morris筛选法与Arena仿真法开展全局灵敏度定量分析，得到对生产线性能影响最大的若干影响因素及其影响规律，避免了设备马尔科夫状态空间庞大，传统数学模型分析不适用的情况。本发明在性能预测和灵敏度分析的基础上对生产线变动性因素进行控制，并改进参数ε的取值方式，使得算法收敛速度更快并避免局部最优，同时性能控制方法具有更好的灵活性和实时性。

Description

基于Q-learning强化学习的芯片封装测试生产线性能控制方法

技术领域

本发明涉及半导体芯片封装测试生产线性能控制与优化领域，具体是面向半导体芯片封装测试生产线的，涉及一种结合灵敏度分析和Q-learning强化学习算法的性能控制方法。

背景技术

半导体制造业对国民经济的发展具有巨大的战略价值，为保持我国半导体制造业良好发展，除了扩大生产规模，还需关注制造系统的生产效率，加强生产管理控制技术。由于半导体制造系统具有工艺路径高度重入、生产过程高度复杂、制造周期漫长、系统规模庞大及高度不确定性等生产特点，对生产线进行性能控制难度较大。缓冲区容量大小、设备突发故障、设备预防性维护、产品重工等多种变动性因素也大大影响了制造系统的生产性能，导致生产效率降低，生产周期延长，影响生产计划的正常执行。

当前对生产线性能进行智能、全面、动态控制的研究较少，大多局限于生产线变动性的某一方面，未能全局地考察生产线上的多种变动性因素；当前研究中建立的半导体串并联生产线性能预测模型与实际生产情况存在一定偏差，精确度有所欠缺；传统的性能控制优化方法难以针对生产线变动性因素的变化进行实时控制，灵活性不足。

发明内容

针对现有半导体芯片封装测试生产线性能控制模型与策略的不足，本发明提出了一种基于Q-learning强化学习的芯片封装测试生产线性能控制方法。本发明方法针对现有的变动性因素响应不及时、变动性因素考虑不周全、控制策略存在冲突等问题，结合灵敏度分析和Q-learning强化学习算法对半导体芯片封装测试生产线制造性能进行智能控制。

一种基于Q-learning强化学习的芯片封装测试生产线性能控制方法，包括以下步骤：

步骤1：构建半导体芯片封装测试串并联生产线抽象模型；

步骤2：基于步骤1构建的生产线抽象模型，建立半导体芯片封装测试串并联生产线性能的预测模型；

步骤3：基于步骤1构建的生产线抽象模型，根据Morris筛选法定性分析与Arena仿真定量分析，得到关键变动性因素对生产线性能的影响机制；

步骤4：基于步骤2建立的半导体芯片封装测试串并联生产线性能的预测模型和步骤3所得的关键变动性分析，建立基于Q-learning强化学习算法的性能控制模型，以生产线效益指标最优为性能控制目标进行迭代求解，得到全局的最优性能控制策略。

所述的步骤1具体为：

半导体芯片封装测试生产线模型抽象：以半导体生产制造产线后道工序，即芯片封装测试生产线作为研究对象，假设工站间存在有限缓冲区，排队规则为先来先服务，将其抽象为包含重入(重工)的多工站串并联排队生产线模型。

所述的步骤2具体为：

步骤2.1：变动性计算：计算到达变动性c_a和加工时间变动性c_e。

步骤2.2：确定性能预测基本指标。

由工件在队列处的平均加工时间CT_q和有效加工时间t_e得到驻留于工站的平均时间CT(生产周期)，进一步计算得到工站处平均在制品水平WIP，将工件生产速率TH、生产周期CT、在制品水平WIP作为生产线性能预测基本指标。

CT＝CT_q+t_e

WIP＝CT×TH

步骤2.3：建立生产线性能预测模型。

步骤2.3.1：计算产品j在工站i的排队时间：

其中c_a ^ij、c_e ^ij分别为产品j在工站i的到达变动性和加工时间变动性，u^ij为工站i的利用率，m^ij为工站i并联设备数量，t_e ^ij为产品j在工站i的有效加工时间。

步骤2.3.2：计算工件生产速率TH。

假设工站i中有m^ij(b>m>1)台并联设备，b为工站i前缓冲区容量大小，k为工站i正在加工工件数，若有0≤k≤b，工站i前无等待的工件j(0＜j＜r，r表示生产线中一共加工的产品数量)加工时的概率p₀为：

工件j在缓存区容量大小为b的阻塞概率

为:

设q_hj为工件j在工站h上的不良品率，Q_ij为工站i监测到的不良品率，其取值范围为0＜h＜i≤s，其中s表示该串并联生产线中工站数量，则在工站i上检测并移除的工件j的不良品概率Q_ij为：

表示生产线中所有带有不良品检测工站编号的集合。

则工件j在工站i的生产速率TH_ij为：

当某工站利用率为最大时，记工站I为产品J的瓶颈工站，生产速率记为r_b ^IJ＝max(u^ij)。

步骤2.3.3：计算生产线的生产周期(逻辑生产周期)CT_j和在制品水平WIP_j。

计算工件平均等待成批时间WTBT：

其中r_a代表工件到达工站的速率，其中k_ij表示工站i的产品j加工批量大小，此时

则

改写CT_q ^ij计算公式：

计算产品j在工站i的生产周期CT_j和在制品水平WIP_j：

从而得到产品j在整条串并联生产线的生产周期(逻辑生产周期)CT_j和在制品水平WIP_j：

步骤2.4：对生产线性能预测模型性能进行评估。

步骤2.4.1：计算生产线性能指标F。

如图3，以生产线最佳情形、最差情形和实际最差情形下的WIP-CT和WIP-TH曲线作为标杆划定了性能象限中的“优区”和“劣区”，构成生产线的性能评估图。

将实际性能点的距离除以最佳情形与实际最差情形标杆之间距离的比值作为性能评估指标，记为F：

其中w代表给定实际在制品水平，t代表实际生产周期，T₀表示生产线的理论加工时间，此处T₀＝CT；r_b代表生产线的瓶颈速率，此处r_b＝TH_ij，当且仅当u_ij＝u_max。

步骤2.4.2：计算生产线效益指标Bf。

考察生产成本，将生产线性能指标F改写为效益指标Bf：

Bf＝C*F

其中C为成本因子，c₁为单位设备成本，c₂为单位缓冲区容量成本，c₃为其余固定成本，m₁和b₁分别为当前并联设备数量和缓冲区容量大小，m₀和b₀分别为初始并联设备数量和缓冲区容量大小。

所述步骤3具体为：

步骤3.1：Morris筛选法灵敏度定性分析。

选取生产线性能预测模型中的随机参数x，预先设定固定步长C和最大变幅M，以步长C对参数x进行扰动变化，将性能评估指标F的平均变化率作为灵敏度系数S：

其中，Y₀为参数x初始值对应的性能评估指标F；Y_g、Y_g+1为第g次和第g+1次参数xg扰动变化后的性能评估指标F；P_g、P_g+1分别为第g次、第g+1次参数扰动变化后其值相对于初始值的变化率，n为运算次数。

根据表1的灵敏度分级标准，将较灵敏和高灵敏度系数的参数确定为对半导体封装测试生产线性能影响较大的因素。

表1灵敏度分级标准

灵敏度系数绝对值	灵敏度分级
		0.00≤/S/＜0.05	不灵敏
0.05≤/S/＜0.20	中等灵敏
		0.20≤/S/＜1.00	较灵敏
/S/≥1.00	高灵敏

步骤3.2：Arena仿真灵敏度定量分析。

在Arena软件中建立半导体芯片封装测试串并联生产线模型。每台设备具有独立的随机加工时间，失效时间和维修时间。

令生产线上的工件到达速率、工站设备加工速率、平均失效前时间m_f、平均修复时间m_p分别服从负指数分布和正态分布，加工批量大小k、缓冲区容量大小b和并联设备数量m均为固定的正整数，且有b＞m＞1，并设置仿真实验预热时间设置、运行总时间和实验重复次数。

实验得到生产线总体性能、生产周期CT、生产速率TH和在制品水平WIP关于影响生产线性能的关键因素的变化曲线。

所述步骤4具体为：

步骤4.1：以生产线性能预测模型作为强化学习外界环境，生产线变动性的变化为触发条件，基于事件触发策略与周期触发策略相结合的动态控制方法，建立如图5所示的基于强化学习的半导体芯片封装测试生产线性能控制模型。

步骤4.2：初始化Q(s，a)，

a∈A(s)，其中Q值是对长期报酬的反映，S为系统状态集，A(s)为步骤4.2所得关键因素的动作策略集。给定参数学习率因子α和折扣因子γ，确定回报函数r。

步骤4.3：给定起始状态s，并根据ε-贪婪策略在状态s选择动作a。改进ε的取值方式，设为函数：

其中p为算法当前执行部署步数，M为算法总迭代步数，所以随着算法执行步数的增加其值会从初始值0.2逐渐减小。

步骤4.4：根据ε-贪婪策略在状态s选择动作a，b为a的选择序号，得到回报r和下一个状态s_next，a_next代表下一个动作，更新Q值：

s＝s_next，a＝a_next

步骤4.5：转向步骤4.4，直到系统趋向稳定状态，也就是收敛状态。

步骤4.6：重复执行步骤4.2到步骤4.5，直到学习周期(算法预先设置的步骤4.2到步骤4.5重复执行的次数)结束则停止迭代。

步骤4.7：输出最终策略

并得到生产线性能的指标优化情况。

本发明建立了更加精确的半导体封装测试串并联生产线性能预测模型，并综合使用Morris筛选法与Arena仿真法开展全局灵敏度定量分析，得到对生产线性能影响最大的若干影响因素及其影响规律，避免了设备马尔科夫状态空间庞大，传统数学模型分析不适用的情况。本发明提出了一种基于Q-learning算法的生产线性能控制模型，在性能预测和灵敏度分析的基础上对生产线变动性因素进行控制，并改进参数ε的取值方式，使得算法收敛速度更快并避免局部最优，同时性能控制方法具有更好的灵活性和实时性。

附图说明

图1为本发明的流程图；

图2为半导体芯片封装测试生产线抽象模型；

图3为现有工厂物理学三大标杆性能评估方法图；

图4为生产线仿真模型逻辑结构示意图；

图5为实施例基于强化学习的生产线性能控制模型；

图6为生产线性能关于变动性ca和ce的变化图；

图7为不同变动性水平CV1下性能控制前后的生产线性能指标变化情况；

图8为不同变动性水平CV2下性能控制前后的生产线性能指标变化情况。

具体实施方式

下面结合附图和实施例对本发明做进一步的详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程(图1)，但本发明的保护范围不限于下述的实施例。

实施例主要可以分为以下几个步骤：

步骤1：半导体芯片封装测试生产线模型抽象：以芯片封装测试生产线作为研究对象，假设工站间存在有限大小的缓冲区，排队规则为先来先服务，将其抽象为包含重入(重工)的多工站串并联排队生产线模型(图2)。

步骤2：

步骤2.1：变动性计算。

计算到达变动性c_a和加工时间变动性c_e。

步骤2.2：确定性能预测基本指标。

CT＝CT_q+t_e

WIP＝CT×TH

步骤2.3：建立生产线性能预测模型。

步骤2.3.1：计算产品j在工站i的排队时间：

步骤2.3.2：计算工件生产速率TH。

工件j在工站i的损失率

为：

设q_hj为工件j在工站h上的不良品率，Q_ij为工站i监测到的不良品率，其取值范围为0＜h＜i≤s，其中s表示该串并联生产线中工站数量。在工站i上检测并移除的工件j的不良品概率Q_ij为：

表示生产线中所有带有不良品检测工站编号的集合。

则工件j在工站i的生产速率TH_ij为：

记产品J的瓶颈工站I生产速率为r_b ^IJ＝max(u^ij)。

计算工件平均等待成批时间WTBT：

其中r_a代表工件到达工站的速率，k_ij表示工站i的产品j加工批量大小，此时

则

改写CT_q ^ij计算公式：

计算产品j在工站i的生产周期CT_j和在制品水平WIP_j：

步骤2.4：对生产线性能预测模型性能进行评估。

步骤2.4.1：计算生产线性能指标F。

步骤2.4.2：计算生产线效益指标Bf。

考察生产成本，将生产线性能指标F改写为效益指标Bf：

Bf＝C*F

步骤3：

步骤3.1：Morris筛选法灵敏度定性分析。

选取生产线性能预测模型中的某一个参数x，预先设定固定步长C和最大变幅M，以步长C对参数x进行扰动变化，将性能评估指标F的平均变化率作为灵敏度系数S：

其中，Y₀为参数x初始值对应的性能评估指标F；Y_g、Y_g+1为第g次和第g+1次参数x扰动变化后的性能评估指标F；P_g、P_g+1分别为第g次、第g+1次参数扰动变化后其值相对于初始值的变化率，n为运算次数。

表1为Morris筛选法所得性能评估指标F对于不同参数的灵敏度系数。

表1指标F的灵敏度系数S

参数名	单位	参数意义	灵敏度系数S
				u	％	利用率	1.242
r<sub>0</sub>	件/分钟	投料速率	-0.163
				ra	件/分钟	生产速率	0.622
k	件	加工批量大小	0.478
				c<sub>a</sub>	/	工件到达时间变动性	0.350
c<sub>e</sub>	/	加工变动性	0.457
				m	台	设备并联数量	-1.134
A	％	设备可用率	-0.104
				b	件	缓冲区容量大小	0.581
Q	％	工件不良品率	-0.029

根据表2的灵敏度分级标准以及参数间的关系，将并联设备数量m、加工批量大小k、工件到达时间变动性c_a、加工变动性c_e和缓冲区容量大小b确定为对半导体封装测试生产线性能影响较大的因素。

表2灵敏度分级标准

步骤3.2：Arena仿真灵敏度定量分析。

在Arena软件中建立半导体芯片封装测试串并联生产线模型，如图4。每台设备具有独立的随机加工时间，失效时间和维修时间。

令生产线上的工件到达速率、工站设备加工速率、平均失效前时间m_f、平均修复时间m_p分别服从负指数分布和正态分布，加工批量大小k、缓冲区容量大小b和并联设备数量m均为固定的正整数，且有b＞m＞1，仿真实验预热时间设置为600分钟，运行总时间设置为1200分钟，重复3次试验。

实验得到生产线总体性能、生产周期CT、生产速率TH和在制品水平WIP关于影响生产线性能的关键因素的变化曲线。如图6所示，为生产线性能关于时间变动性c_a和加工变动性c_e的变化图。

步骤4：

步骤4.1：以生产线性能预测模型作为强化学习外界环境，以生产线变动性的变化为触发条件，基于事件触发策略与周期触发策略相结合的动态控制方法，建立如图5所示的基于强化学习的半导体芯片封装测试生产线性能控制模型。

步骤4.2：初始化Q(s，a)，

a∈A(s)，其中Q值是对长期报酬的反映，S为系统状态集。划分方式如表3所示：

表3系统状态集S划分

系统状态	划分依据	系统状态	划分依据
				s1	0≤Bf≤0.1	s2	0.1＜Bf≤0.2
s3	0.2＜Bf≤0.3	s4	0.3＜Bf≤0.4
				s5	0.4＜Bf≤05	s6	0.5＜Bf≤0.6
s7	0.6＜Bf≤0.7	s8	0.7＜Bf≤0.8
				s9	0.8＜Bf≤0.9	s10	0.9＜Bf≤1.0
s11	Bf≥1.0

A(s)为动作策略集，A(s)：{a1:工站i并联设备数量+1,a2:工站i并联设备数量-1,a3:工站i缓冲区容量+1,a4:工站i缓冲区容量-1,a5:产品j加工批量大小+1,a6:产品j加工批量大小-1}。设参数学习率因子α为0.1，折扣因子γ为0.9，确定回报函数r如下，Bf_pre代表生产线上一次优化后的效益指标：

步骤4.3：给定起始状态s，并根据ε-贪婪策略在状态s选择动作a。

s＝s_next，a＝a_next

步骤4.7：输出最终策略

并得到生产线性能的指标优化情况。图7和图8分别为不同变动性水平CV1和CV2下性能控制前后的生产线性能指标变化情况。

综上所述，本发明建立了更加精确的半导体封装测试串并联生产线性能预测模型，综合使用Morris筛选法与Arena仿真法开展全局灵敏度定量分析，得到对生产线性能影响最大的若干影响因素及其影响规律，避免了设备马尔科夫状态空间庞大，传统数学模型分析不适用的情况；并改进参数ε的取值方式，使得算法收敛速度更快并避免局部最优，同时具有更好的灵活性和实时性。

Claims

1.基于Q-learning强化学习的芯片封装测试生产线性能控制方法，包括以下步骤：

步骤1：构建半导体芯片封装测试串并联生产线抽象模型。

步骤2：基于步骤1构建的生产线抽象模型，建立半导体芯片封装测试串并联生产线性能的预测模型。

步骤3：基于步骤1构建的生产线抽象模型，根据Morris筛选法定性分析与Arena仿真定量分析，得到关键变动性因素对生产线性能的影响机制。

步骤4：基于步骤2建立的预测模型和步骤3所得关键变动性分析，建立基于Q-learning强化学习算法的性能控制模型，以生产线效益指标最优为性能控制目标进行迭代求解，得到全局的最优性能控制策略。

2.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法，其特征在于：

所述的步骤1具体为：以半导体生产制造产线后道工序，即芯片封装测试生产线作为研究对象，假设工站间存在有限缓冲区，排队规则为先来先服务，将其抽象为包含重入的多工站串并联排队生产线模型。

3.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法，其特征在于，所述步骤2具体为：

步骤2.1：变动性计算：计算到达变动性c_a和加工时间变动性c_e；

步骤2.2：确定性能预测基本指标；

由工件在队列处的平均加工时间CT_q和有效加工时间t_e得到驻留于工站的平均时间CT，即生产周期；进一步计算得到工站处平均在制品水平WIP，将工件生产速率TH、生产周期CT、在制品水平WIP作为生产线性能预测基本指标；

CT＝CT_q+t_e

WIP＝CT×TH

步骤2.3：建立生产线性能预测模型；

步骤2.3.1：计算产品j在工站i的排队时间：

其中c_a ^ij、c_e ^ij分别为产品j在工站i的到达变动性和加工时间变动性，u^ij为工站i的利用率，m^ij为工站i并联设备数量，t_e ^ij为产品j在工站i的有效加工时间；

步骤2.3.2：计算工件生产速率TH；

设工站i中有m^ij台并联设备，b为工站i前缓冲区容量大小，k为工站i正在加工工件数，b>m>1；若有0≤k≤b，工站i前无等待的工件j加工时的概率p₀为，其中0＜j＜r，r表示生产线中一共加工的产品数量：

工件j在缓存区容量大小为b的阻塞概率

为:

表示生产线中所有带有不良品检测工站编号的集合；

则工件j在工站i的生产速率TH_ij为：

当某工站利用率为最大时，记工站I为产品J的瓶颈工站，生产速率记为r_b ^IJ＝max(u^ij)；

步骤2.3.3：计算生产线的生产周期CT_j和在制品水平WIP_j；

计算工件平均等待成批时间WTBT：

则

改写CT_q ^ij计算公式：

计算产品j在工站i的生产周期CT_j和在制品水平WIP_j：

从而得到产品j在整条串并联生产线的生产周期CT_j和在制品水平WIP_j：

步骤2.4：对生产线性能预测模型性能进行评估；

步骤2.4.1：计算生产线性能指标F；

以生产线最佳情形、最差情形和实际最差情形下的WIP-CT和WIP-TH曲线作为标杆划定了性能象限中的优区和劣区，构成生产线的性能评估图；

其中w代表给定实际在制品水平，t代表实际生产周期，T₀表示生产线的理论加工时间，此处T₀＝CT；r_b代表生产线的瓶颈速率，此处r_b＝TH_ij，当且仅当u_ij＝u_max；

步骤2.4.2：计算生产线效益指标Bf；

考察生产成本，将生产线性能指标F改写为效益指标Bf：

Bf＝C*F

4.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法，其特征在于，所述步骤3具体为：

步骤3.1：Morris筛选法灵敏度定性分析；

其中，Y₀为参数x初始值对应的性能评估指标F；Y_g、Y_g+1为第g次和第g+1次参数x_g扰动变化后的性能评估指标F；P_g、P_g+1分别为第g次、第g+1次参数扰动变化后其值相对于初始值的变化率，n为运算次数；

根据灵敏度分级标准，将较灵敏和高灵敏度系数的参数确定为对半导体封装测试生产线性能影响较大的因素；依据灵敏度系数绝对值灵敏度分级标准有：0.00≤/S/＜0.05为不灵敏，0.05≤/S/＜0.20为中等灵敏，0.20≤/S/＜1.00为较灵敏，/S/≥1.00为高灵敏；

步骤3.2：Arena仿真灵敏度定量分析；

在Arena软件中建立半导体芯片封装测试串并联生产线模型，每台设备具有独立的随机加工时间，失效时间和维修时间；

令生产线上的工件到达速率、工站设备加工速率、平均失效前时间m_f、平均修复时间m_p分别服从负指数分布和正态分布，加工批量大小k、缓冲区容量大小b和并联设备数量m均为固定的正整数，且有b＞m＞1，并设置仿真实验预热时间设置、运行总时间和实验重复次数；

5.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法，其特征在于，所述步骤4具体为：

步骤4.1：以生产线性能预测模型作为强化学习外界环境，生产线变动性的变化为触发条件，基于事件触发策略与周期触发策略相结合的动态控制方法，建立基于强化学习的半导体芯片封装测试生产线性能控制模型；

步骤4.2：初始化Q(s，a)，

a∈A(s)，其中Q值是对长期报酬的反映，S为系统状态集，A(s)为步骤4.2所得关键因素的动作策略集；给定参数学习率因子α和折扣因子γ，确定回报函数r；

步骤4.3：给定起始状态s，并根据ε-贪婪策略在状态s选择动作a；改进ε的取值方式，设为函数：

其中p为算法当前执行部署步数，M为算法总迭代步数；

步骤4.4：根据ε-贪婪策略在状态s选择动作a，b为a的选择序号，得到回报r和下一个状态s_nexts，a_next代表下一个动作，更新Q值：

S＝S_next，a＝a_next

步骤4.5：转向步骤4.4，直到系统趋向稳定状态，也就是收敛状态；

步骤4.6：重复执行步骤4.2到步骤4.5，直到学习周期即算法预先设置的步骤4.2到步骤4.5重复执行次数结束则停止迭代；

步骤4.7：输出最终策略

并得到生产线性能的指标优化情况。