[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111857081A - 基于Q-learning强化学习的芯片封装测试生产线性能控制方法 - Google Patents

基于Q-learning强化学习的芯片封装测试生产线性能控制方法 Download PDF

Info

Publication number
CN111857081A
CN111857081A CN202010797879.2A CN202010797879A CN111857081A CN 111857081 A CN111857081 A CN 111857081A CN 202010797879 A CN202010797879 A CN 202010797879A CN 111857081 A CN111857081 A CN 111857081A
Authority
CN
China
Prior art keywords
production line
performance
station
production
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010797879.2A
Other languages
English (en)
Other versions
CN111857081B (zh
Inventor
李波
冯益铭
钱鑫森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010797879.2A priority Critical patent/CN111857081B/zh
Publication of CN111857081A publication Critical patent/CN111857081A/zh
Application granted granted Critical
Publication of CN111857081B publication Critical patent/CN111857081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32339Object oriented modeling, design, analysis, implementation, simulation language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Factory Administration (AREA)

Abstract

本发明涉及半导体芯片封装测试生产线性能控制与优化领域,具体为一种基于Q‑learning强化学习的芯片封装测试生产线性能控制方法。本发明建立了更加精确的半导体封装测试串并联生产线性能预测模型,并综合使用Morris筛选法与Arena仿真法开展全局灵敏度定量分析,得到对生产线性能影响最大的若干影响因素及其影响规律,避免了设备马尔科夫状态空间庞大,传统数学模型分析不适用的情况。本发明在性能预测和灵敏度分析的基础上对生产线变动性因素进行控制,并改进参数ε的取值方式,使得算法收敛速度更快并避免局部最优,同时性能控制方法具有更好的灵活性和实时性。

Description

基于Q-learning强化学习的芯片封装测试生产线性能控制 方法
技术领域
本发明涉及半导体芯片封装测试生产线性能控制与优化领域,具体是面向半导体芯片封装测试生产线的,涉及一种结合灵敏度分析和Q-learning强化学习算法的性能控制方法。
背景技术
半导体制造业对国民经济的发展具有巨大的战略价值,为保持我国半导体制造业良好发展,除了扩大生产规模,还需关注制造系统的生产效率,加强生产管理控制技术。由于半导体制造系统具有工艺路径高度重入、生产过程高度复杂、制造周期漫长、系统规模庞大及高度不确定性等生产特点,对生产线进行性能控制难度较大。缓冲区容量大小、设备突发故障、设备预防性维护、产品重工等多种变动性因素也大大影响了制造系统的生产性能,导致生产效率降低,生产周期延长,影响生产计划的正常执行。
当前对生产线性能进行智能、全面、动态控制的研究较少,大多局限于生产线变动性的某一方面,未能全局地考察生产线上的多种变动性因素;当前研究中建立的半导体串并联生产线性能预测模型与实际生产情况存在一定偏差,精确度有所欠缺;传统的性能控制优化方法难以针对生产线变动性因素的变化进行实时控制,灵活性不足。
发明内容
针对现有半导体芯片封装测试生产线性能控制模型与策略的不足,本发明提出了一种基于Q-learning强化学习的芯片封装测试生产线性能控制方法。本发明方法针对现有的变动性因素响应不及时、变动性因素考虑不周全、控制策略存在冲突等问题,结合灵敏度分析和Q-learning强化学习算法对半导体芯片封装测试生产线制造性能进行智能控制。
一种基于Q-learning强化学习的芯片封装测试生产线性能控制方法,包括以下步骤:
步骤1:构建半导体芯片封装测试串并联生产线抽象模型;
步骤2:基于步骤1构建的生产线抽象模型,建立半导体芯片封装测试串并联生产线性能的预测模型;
步骤3:基于步骤1构建的生产线抽象模型,根据Morris筛选法定性分析与Arena仿真定量分析,得到关键变动性因素对生产线性能的影响机制;
步骤4:基于步骤2建立的半导体芯片封装测试串并联生产线性能的预测模型和步骤3所得的关键变动性分析,建立基于Q-learning强化学习算法的性能控制模型,以生产线效益指标最优为性能控制目标进行迭代求解,得到全局的最优性能控制策略。
所述的步骤1具体为:
半导体芯片封装测试生产线模型抽象:以半导体生产制造产线后道工序,即芯片封装测试生产线作为研究对象,假设工站间存在有限缓冲区,排队规则为先来先服务,将其抽象为包含重入(重工)的多工站串并联排队生产线模型。
所述的步骤2具体为:
步骤2.1:变动性计算:计算到达变动性ca和加工时间变动性ce
步骤2.2:确定性能预测基本指标。
由工件在队列处的平均加工时间CTq和有效加工时间te得到驻留于工站的平均时间CT(生产周期),进一步计算得到工站处平均在制品水平WIP,将工件生产速率TH、生产周期CT、在制品水平WIP作为生产线性能预测基本指标。
CT=CTq+te
WIP=CT×TH
步骤2.3:建立生产线性能预测模型。
步骤2.3.1:计算产品j在工站i的排队时间:
Figure BDA0002626324590000021
其中ca ij、ce ij分别为产品j在工站i的到达变动性和加工时间变动性,uij为工站i的利用率,mij为工站i并联设备数量,te ij为产品j在工站i的有效加工时间。
步骤2.3.2:计算工件生产速率TH。
假设工站i中有mij(b>m>1)台并联设备,b为工站i前缓冲区容量大小,k为工站i正在加工工件数,若有0≤k≤b,工站i前无等待的工件j(0<j<r,r表示生产线中一共加工的产品数量)加工时的概率p0为:
Figure BDA0002626324590000022
工件j在缓存区容量大小为b的阻塞概率
Figure BDA0002626324590000023
为:
Figure BDA0002626324590000024
设qhj为工件j在工站h上的不良品率,Qij为工站i监测到的不良品率,其取值范围为0<h<i≤s,其中s表示该串并联生产线中工站数量,则在工站i上检测并移除的工件j的不良品概率Qij为:
Figure BDA0002626324590000031
Figure BDA0002626324590000039
表示生产线中所有带有不良品检测工站编号的集合。
则工件j在工站i的生产速率THij为:
Figure BDA0002626324590000032
当某工站利用率为最大时,记工站I为产品J的瓶颈工站,生产速率记为rb IJ=max(uij)。
步骤2.3.3:计算生产线的生产周期(逻辑生产周期)CTj和在制品水平WIPj
计算工件平均等待成批时间WTBT:
Figure BDA0002626324590000033
其中ra代表工件到达工站的速率,其中kij表示工站i的产品j加工批量大小,此时
Figure BDA0002626324590000034
Figure BDA0002626324590000035
改写CTq ij计算公式:
Figure BDA0002626324590000036
计算产品j在工站i的生产周期CTj和在制品水平WIPj
Figure BDA0002626324590000037
Figure BDA0002626324590000038
从而得到产品j在整条串并联生产线的生产周期(逻辑生产周期)CTj和在制品水平WIPj
Figure BDA0002626324590000041
Figure BDA0002626324590000042
步骤2.4:对生产线性能预测模型性能进行评估。
步骤2.4.1:计算生产线性能指标F。
如图3,以生产线最佳情形、最差情形和实际最差情形下的WIP-CT和WIP-TH曲线作为标杆划定了性能象限中的“优区”和“劣区”,构成生产线的性能评估图。
将实际性能点的距离除以最佳情形与实际最差情形标杆之间距离的比值作为性能评估指标,记为F:
Figure BDA0002626324590000043
其中w代表给定实际在制品水平,t代表实际生产周期,T0表示生产线的理论加工时间,此处T0=CT;rb代表生产线的瓶颈速率,此处rb=THij,当且仅当uij=umax
步骤2.4.2:计算生产线效益指标Bf。
考察生产成本,将生产线性能指标F改写为效益指标Bf:
Bf=C*F
Figure BDA0002626324590000044
其中C为成本因子,c1为单位设备成本,c2为单位缓冲区容量成本,c3为其余固定成本,m1和b1分别为当前并联设备数量和缓冲区容量大小,m0和b0分别为初始并联设备数量和缓冲区容量大小。
所述步骤3具体为:
步骤3.1:Morris筛选法灵敏度定性分析。
选取生产线性能预测模型中的随机参数x,预先设定固定步长C和最大变幅M,以步长C对参数x进行扰动变化,将性能评估指标F的平均变化率作为灵敏度系数S:
Figure BDA0002626324590000045
其中,Y0为参数x初始值对应的性能评估指标F;Yg、Yg+1为第g次和第g+1次参数xg扰动变化后的性能评估指标F;Pg、Pg+1分别为第g次、第g+1次参数扰动变化后其值相对于初始值的变化率,n为运算次数。
根据表1的灵敏度分级标准,将较灵敏和高灵敏度系数的参数确定为对半导体封装测试生产线性能影响较大的因素。
表1灵敏度分级标准
灵敏度系数绝对值 灵敏度分级
0.00≤/S/<0.05 不灵敏
0.05≤/S/<0.20 中等灵敏
0.20≤/S/<1.00 较灵敏
/S/≥1.00 高灵敏
步骤3.2:Arena仿真灵敏度定量分析。
在Arena软件中建立半导体芯片封装测试串并联生产线模型。每台设备具有独立的随机加工时间,失效时间和维修时间。
令生产线上的工件到达速率、工站设备加工速率、平均失效前时间mf、平均修复时间mp分别服从负指数分布和正态分布,加工批量大小k、缓冲区容量大小b和并联设备数量m均为固定的正整数,且有b>m>1,并设置仿真实验预热时间设置、运行总时间和实验重复次数。
实验得到生产线总体性能、生产周期CT、生产速率TH和在制品水平WIP关于影响生产线性能的关键因素的变化曲线。
所述步骤4具体为:
步骤4.1:以生产线性能预测模型作为强化学习外界环境,生产线变动性的变化为触发条件,基于事件触发策略与周期触发策略相结合的动态控制方法,建立如图5所示的基于强化学习的半导体芯片封装测试生产线性能控制模型。
步骤4.2:初始化Q(s,a),
Figure BDA0002626324590000051
a∈A(s),其中Q值是对长期报酬的反映,S为系统状态集,A(s)为步骤4.2所得关键因素的动作策略集。给定参数学习率因子α和折扣因子γ,确定回报函数r。
步骤4.3:给定起始状态s,并根据ε-贪婪策略在状态s选择动作a。改进ε的取值方式,设为函数:
Figure BDA0002626324590000052
其中p为算法当前执行部署步数,M为算法总迭代步数,所以随着算法执行步数的增加其值会从初始值0.2逐渐减小。
步骤4.4:根据ε-贪婪策略在状态s选择动作a,b为a的选择序号,得到回报r和下一个状态snext,anext代表下一个动作,更新Q值:
Figure BDA0002626324590000061
s=snext,a=anext
步骤4.5:转向步骤4.4,直到系统趋向稳定状态,也就是收敛状态。
步骤4.6:重复执行步骤4.2到步骤4.5,直到学习周期(算法预先设置的步骤4.2到步骤4.5重复执行的次数)结束则停止迭代。
步骤4.7:输出最终策略
Figure BDA0002626324590000062
并得到生产线性能的指标优化情况。
本发明建立了更加精确的半导体封装测试串并联生产线性能预测模型,并综合使用Morris筛选法与Arena仿真法开展全局灵敏度定量分析,得到对生产线性能影响最大的若干影响因素及其影响规律,避免了设备马尔科夫状态空间庞大,传统数学模型分析不适用的情况。本发明提出了一种基于Q-learning算法的生产线性能控制模型,在性能预测和灵敏度分析的基础上对生产线变动性因素进行控制,并改进参数ε的取值方式,使得算法收敛速度更快并避免局部最优,同时性能控制方法具有更好的灵活性和实时性。
附图说明
图1为本发明的流程图;
图2为半导体芯片封装测试生产线抽象模型;
图3为现有工厂物理学三大标杆性能评估方法图;
图4为生产线仿真模型逻辑结构示意图;
图5为实施例基于强化学习的生产线性能控制模型;
图6为生产线性能关于变动性ca和ce的变化图;
图7为不同变动性水平CV1下性能控制前后的生产线性能指标变化情况;
图8为不同变动性水平CV2下性能控制前后的生产线性能指标变化情况。
具体实施方式
下面结合附图和实施例对本发明做进一步的详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程(图1),但本发明的保护范围不限于下述的实施例。
实施例主要可以分为以下几个步骤:
步骤1:半导体芯片封装测试生产线模型抽象:以芯片封装测试生产线作为研究对象,假设工站间存在有限大小的缓冲区,排队规则为先来先服务,将其抽象为包含重入(重工)的多工站串并联排队生产线模型(图2)。
步骤2:
步骤2.1:变动性计算。
计算到达变动性ca和加工时间变动性ce
步骤2.2:确定性能预测基本指标。
由工件在队列处的平均加工时间CTq和有效加工时间te得到驻留于工站的平均时间CT(生产周期),进一步计算得到工站处平均在制品水平WIP,将工件生产速率TH、生产周期CT、在制品水平WIP作为生产线性能预测基本指标。
CT=CTq+te
WIP=CT×TH
步骤2.3:建立生产线性能预测模型。
步骤2.3.1:计算产品j在工站i的排队时间:
Figure BDA0002626324590000071
其中ca ij、ce ij分别为产品j在工站i的到达变动性和加工时间变动性,uij为工站i的利用率,mij为工站i并联设备数量,te ij为产品j在工站i的有效加工时间。
步骤2.3.2:计算工件生产速率TH。
假设工站i中有mij(b>m>1)台并联设备,b为工站i前缓冲区容量大小,k为工站i正在加工工件数,若有0≤k≤b,工站i前无等待的工件j(0<j<r,r表示生产线中一共加工的产品数量)加工时的概率p0为:
Figure BDA0002626324590000072
工件j在工站i的损失率
Figure BDA0002626324590000073
为:
Figure BDA0002626324590000074
设qhj为工件j在工站h上的不良品率,Qij为工站i监测到的不良品率,其取值范围为0<h<i≤s,其中s表示该串并联生产线中工站数量。在工站i上检测并移除的工件j的不良品概率Qij为:
Figure BDA0002626324590000081
Figure BDA0002626324590000082
表示生产线中所有带有不良品检测工站编号的集合。
则工件j在工站i的生产速率THij为:
Figure BDA0002626324590000083
记产品J的瓶颈工站I生产速率为rb IJ=max(uij)。
步骤2.3.3:计算生产线的生产周期(逻辑生产周期)CTj和在制品水平WIPj
计算工件平均等待成批时间WTBT:
Figure BDA0002626324590000084
其中ra代表工件到达工站的速率,kij表示工站i的产品j加工批量大小,此时
Figure BDA0002626324590000085
Figure BDA0002626324590000086
改写CTq ij计算公式:
Figure BDA0002626324590000087
计算产品j在工站i的生产周期CTj和在制品水平WIPj
Figure BDA0002626324590000088
Figure BDA0002626324590000089
从而得到产品j在整条串并联生产线的生产周期(逻辑生产周期)CTj和在制品水平WIPj
Figure BDA00026263245900000810
Figure BDA00026263245900000811
步骤2.4:对生产线性能预测模型性能进行评估。
步骤2.4.1:计算生产线性能指标F。
如图3,以生产线最佳情形、最差情形和实际最差情形下的WIP-CT和WIP-TH曲线作为标杆划定了性能象限中的“优区”和“劣区”,构成生产线的性能评估图。
将实际性能点的距离除以最佳情形与实际最差情形标杆之间距离的比值作为性能评估指标,记为F:
Figure BDA0002626324590000091
其中w代表给定实际在制品水平,t代表实际生产周期,T0表示生产线的理论加工时间,此处T0=CT;rb代表生产线的瓶颈速率,此处rb=THij,当且仅当uij=umax
步骤2.4.2:计算生产线效益指标Bf。
考察生产成本,将生产线性能指标F改写为效益指标Bf:
Bf=C*F
Figure BDA0002626324590000092
其中C为成本因子,c1为单位设备成本,c2为单位缓冲区容量成本,c3为其余固定成本,m1和b1分别为当前并联设备数量和缓冲区容量大小,m0和b0分别为初始并联设备数量和缓冲区容量大小。
步骤3:
步骤3.1:Morris筛选法灵敏度定性分析。
选取生产线性能预测模型中的某一个参数x,预先设定固定步长C和最大变幅M,以步长C对参数x进行扰动变化,将性能评估指标F的平均变化率作为灵敏度系数S:
Figure BDA0002626324590000093
其中,Y0为参数x初始值对应的性能评估指标F;Yg、Yg+1为第g次和第g+1次参数x扰动变化后的性能评估指标F;Pg、Pg+1分别为第g次、第g+1次参数扰动变化后其值相对于初始值的变化率,n为运算次数。
表1为Morris筛选法所得性能评估指标F对于不同参数的灵敏度系数。
表1指标F的灵敏度系数S
参数名 单位 参数意义 灵敏度系数S
u 利用率 1.242
r<sub>0</sub> 件/分钟 投料速率 -0.163
ra 件/分钟 生产速率 0.622
k 加工批量大小 0.478
c<sub>a</sub> / 工件到达时间变动性 0.350
c<sub>e</sub> / 加工变动性 0.457
m 设备并联数量 -1.134
A 设备可用率 -0.104
b 缓冲区容量大小 0.581
Q 工件不良品率 -0.029
根据表2的灵敏度分级标准以及参数间的关系,将并联设备数量m、加工批量大小k、工件到达时间变动性ca、加工变动性ce和缓冲区容量大小b确定为对半导体封装测试生产线性能影响较大的因素。
表2灵敏度分级标准
灵敏度系数绝对值 灵敏度分级
0.00≤/S/<0.05 不灵敏
0.05≤/S/<0.20 中等灵敏
0.20≤/S/<1.00 较灵敏
/S/≥1.00 高灵敏
步骤3.2:Arena仿真灵敏度定量分析。
在Arena软件中建立半导体芯片封装测试串并联生产线模型,如图4。每台设备具有独立的随机加工时间,失效时间和维修时间。
令生产线上的工件到达速率、工站设备加工速率、平均失效前时间mf、平均修复时间mp分别服从负指数分布和正态分布,加工批量大小k、缓冲区容量大小b和并联设备数量m均为固定的正整数,且有b>m>1,仿真实验预热时间设置为600分钟,运行总时间设置为1200分钟,重复3次试验。
实验得到生产线总体性能、生产周期CT、生产速率TH和在制品水平WIP关于影响生产线性能的关键因素的变化曲线。如图6所示,为生产线性能关于时间变动性ca和加工变动性ce的变化图。
步骤4:
步骤4.1:以生产线性能预测模型作为强化学习外界环境,以生产线变动性的变化为触发条件,基于事件触发策略与周期触发策略相结合的动态控制方法,建立如图5所示的基于强化学习的半导体芯片封装测试生产线性能控制模型。
步骤4.2:初始化Q(s,a),
Figure BDA0002626324590000113
a∈A(s),其中Q值是对长期报酬的反映,S为系统状态集。划分方式如表3所示:
表3系统状态集S划分
系统状态 划分依据 系统状态 划分依据
s1 0≤Bf≤0.1 s2 0.1<Bf≤0.2
s3 0.2<Bf≤0.3 s4 0.3<Bf≤0.4
s5 0.4<Bf≤05 s6 0.5<Bf≤0.6
s7 0.6<Bf≤0.7 s8 0.7<Bf≤0.8
s9 0.8<Bf≤0.9 s10 0.9<Bf≤1.0
s11 Bf≥1.0
A(s)为动作策略集,A(s):{a1:工站i并联设备数量+1,a2:工站i并联设备数量-1,a3:工站i缓冲区容量+1,a4:工站i缓冲区容量-1,a5:产品j加工批量大小+1,a6:产品j加工批量大小-1}。设参数学习率因子α为0.1,折扣因子γ为0.9,确定回报函数r如下,Bfpre代表生产线上一次优化后的效益指标:
Figure BDA0002626324590000111
步骤4.3:给定起始状态s,并根据ε-贪婪策略在状态s选择动作a。
步骤4.4:根据ε-贪婪策略在状态s选择动作a,b为a的选择序号,得到回报r和下一个状态snext,anext代表下一个动作,更新Q值:
Figure BDA0002626324590000112
s=snext,a=anext
步骤4.5:转向步骤4.4,直到系统趋向稳定状态,也就是收敛状态。
步骤4.6:重复执行步骤4.2到步骤4.5,直到学习周期(算法预先设置的步骤4.2到步骤4.5重复执行的次数)结束则停止迭代。
步骤4.7:输出最终策略
Figure BDA0002626324590000121
并得到生产线性能的指标优化情况。图7和图8分别为不同变动性水平CV1和CV2下性能控制前后的生产线性能指标变化情况。
综上所述,本发明建立了更加精确的半导体封装测试串并联生产线性能预测模型,综合使用Morris筛选法与Arena仿真法开展全局灵敏度定量分析,得到对生产线性能影响最大的若干影响因素及其影响规律,避免了设备马尔科夫状态空间庞大,传统数学模型分析不适用的情况;并改进参数ε的取值方式,使得算法收敛速度更快并避免局部最优,同时具有更好的灵活性和实时性。

Claims (5)

1.基于Q-learning强化学习的芯片封装测试生产线性能控制方法,包括以下步骤:
步骤1:构建半导体芯片封装测试串并联生产线抽象模型。
步骤2:基于步骤1构建的生产线抽象模型,建立半导体芯片封装测试串并联生产线性能的预测模型。
步骤3:基于步骤1构建的生产线抽象模型,根据Morris筛选法定性分析与Arena仿真定量分析,得到关键变动性因素对生产线性能的影响机制。
步骤4:基于步骤2建立的预测模型和步骤3所得关键变动性分析,建立基于Q-learning强化学习算法的性能控制模型,以生产线效益指标最优为性能控制目标进行迭代求解,得到全局的最优性能控制策略。
2.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法,其特征在于:
所述的步骤1具体为:以半导体生产制造产线后道工序,即芯片封装测试生产线作为研究对象,假设工站间存在有限缓冲区,排队规则为先来先服务,将其抽象为包含重入的多工站串并联排队生产线模型。
3.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法,其特征在于,所述步骤2具体为:
步骤2.1:变动性计算:计算到达变动性ca和加工时间变动性ce
步骤2.2:确定性能预测基本指标;
由工件在队列处的平均加工时间CTq和有效加工时间te得到驻留于工站的平均时间CT,即生产周期;进一步计算得到工站处平均在制品水平WIP,将工件生产速率TH、生产周期CT、在制品水平WIP作为生产线性能预测基本指标;
CT=CTq+te
WIP=CT×TH
步骤2.3:建立生产线性能预测模型;
步骤2.3.1:计算产品j在工站i的排队时间:
Figure FDA0002626324580000011
其中ca ij、ce ij分别为产品j在工站i的到达变动性和加工时间变动性,uij为工站i的利用率,mij为工站i并联设备数量,te ij为产品j在工站i的有效加工时间;
步骤2.3.2:计算工件生产速率TH;
设工站i中有mij台并联设备,b为工站i前缓冲区容量大小,k为工站i正在加工工件数,b>m>1;若有0≤k≤b,工站i前无等待的工件j加工时的概率p0为,其中0<j<r,r表示生产线中一共加工的产品数量:
Figure FDA0002626324580000021
工件j在缓存区容量大小为b的阻塞概率
Figure FDA00026263245800000210
为:
Figure FDA0002626324580000022
设qhj为工件j在工站h上的不良品率,Qij为工站i监测到的不良品率,其取值范围为0<h<i≤s,其中s表示该串并联生产线中工站数量,则在工站i上检测并移除的工件j的不良品概率Qij为:
Figure FDA0002626324580000023
Figure FDA0002626324580000029
表示生产线中所有带有不良品检测工站编号的集合;
则工件j在工站i的生产速率THij为:
Figure FDA0002626324580000024
当某工站利用率为最大时,记工站I为产品J的瓶颈工站,生产速率记为rb IJ=max(uij);
步骤2.3.3:计算生产线的生产周期CTj和在制品水平WIPj
计算工件平均等待成批时间WTBT:
Figure FDA0002626324580000025
其中ra代表工件到达工站的速率,其中kij表示工站i的产品j加工批量大小,此时
Figure FDA0002626324580000026
Figure FDA0002626324580000027
改写CTq ij计算公式:
Figure FDA0002626324580000028
计算产品j在工站i的生产周期CTj和在制品水平WIPj
Figure FDA0002626324580000031
Figure FDA0002626324580000032
从而得到产品j在整条串并联生产线的生产周期CTj和在制品水平WIPj
Figure FDA0002626324580000033
Figure FDA0002626324580000034
步骤2.4:对生产线性能预测模型性能进行评估;
步骤2.4.1:计算生产线性能指标F;
以生产线最佳情形、最差情形和实际最差情形下的WIP-CT和WIP-TH曲线作为标杆划定了性能象限中的优区和劣区,构成生产线的性能评估图;
将实际性能点的距离除以最佳情形与实际最差情形标杆之间距离的比值作为性能评估指标,记为F:
Figure FDA0002626324580000035
其中w代表给定实际在制品水平,t代表实际生产周期,T0表示生产线的理论加工时间,此处T0=CT;rb代表生产线的瓶颈速率,此处rb=THij,当且仅当uij=umax
步骤2.4.2:计算生产线效益指标Bf;
考察生产成本,将生产线性能指标F改写为效益指标Bf:
Bf=C*F
Figure FDA0002626324580000036
其中C为成本因子,c1为单位设备成本,c2为单位缓冲区容量成本,c3为其余固定成本,m1和b1分别为当前并联设备数量和缓冲区容量大小,m0和b0分别为初始并联设备数量和缓冲区容量大小。
4.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法,其特征在于,所述步骤3具体为:
步骤3.1:Morris筛选法灵敏度定性分析;
选取生产线性能预测模型中的随机参数x,预先设定固定步长C和最大变幅M,以步长C对参数x进行扰动变化,将性能评估指标F的平均变化率作为灵敏度系数S:
Figure FDA0002626324580000041
其中,Y0为参数x初始值对应的性能评估指标F;Yg、Yg+1为第g次和第g+1次参数xg扰动变化后的性能评估指标F;Pg、Pg+1分别为第g次、第g+1次参数扰动变化后其值相对于初始值的变化率,n为运算次数;
根据灵敏度分级标准,将较灵敏和高灵敏度系数的参数确定为对半导体封装测试生产线性能影响较大的因素;依据灵敏度系数绝对值灵敏度分级标准有:0.00≤/S/<0.05为不灵敏,0.05≤/S/<0.20为中等灵敏,0.20≤/S/<1.00为较灵敏,/S/≥1.00为高灵敏;
步骤3.2:Arena仿真灵敏度定量分析;
在Arena软件中建立半导体芯片封装测试串并联生产线模型,每台设备具有独立的随机加工时间,失效时间和维修时间;
令生产线上的工件到达速率、工站设备加工速率、平均失效前时间mf、平均修复时间mp分别服从负指数分布和正态分布,加工批量大小k、缓冲区容量大小b和并联设备数量m均为固定的正整数,且有b>m>1,并设置仿真实验预热时间设置、运行总时间和实验重复次数;
实验得到生产线总体性能、生产周期CT、生产速率TH和在制品水平WIP关于影响生产线性能的关键因素的变化曲线。
5.如权利要求1所述基于Q-learning强化学习的芯片封装测试生产线性能控制方法,其特征在于,所述步骤4具体为:
步骤4.1:以生产线性能预测模型作为强化学习外界环境,生产线变动性的变化为触发条件,基于事件触发策略与周期触发策略相结合的动态控制方法,建立基于强化学习的半导体芯片封装测试生产线性能控制模型;
步骤4.2:初始化Q(s,a),
Figure FDA0002626324580000042
a∈A(s),其中Q值是对长期报酬的反映,S为系统状态集,A(s)为步骤4.2所得关键因素的动作策略集;给定参数学习率因子α和折扣因子γ,确定回报函数r;
步骤4.3:给定起始状态s,并根据ε-贪婪策略在状态s选择动作a;改进ε的取值方式,设为函数:
Figure FDA0002626324580000051
其中p为算法当前执行部署步数,M为算法总迭代步数;
步骤4.4:根据ε-贪婪策略在状态s选择动作a,b为a的选择序号,得到回报r和下一个状态snexts,anext代表下一个动作,更新Q值:
Figure FDA0002626324580000052
S=Snext,a=anext
步骤4.5:转向步骤4.4,直到系统趋向稳定状态,也就是收敛状态;
步骤4.6:重复执行步骤4.2到步骤4.5,直到学习周期即算法预先设置的步骤4.2到步骤4.5重复执行次数结束则停止迭代;
步骤4.7:输出最终策略
Figure FDA0002626324580000053
并得到生产线性能的指标优化情况。
CN202010797879.2A 2020-08-10 2020-08-10 基于Q-learning强化学习的芯片封装测试生产线性能控制方法 Active CN111857081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010797879.2A CN111857081B (zh) 2020-08-10 2020-08-10 基于Q-learning强化学习的芯片封装测试生产线性能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010797879.2A CN111857081B (zh) 2020-08-10 2020-08-10 基于Q-learning强化学习的芯片封装测试生产线性能控制方法

Publications (2)

Publication Number Publication Date
CN111857081A true CN111857081A (zh) 2020-10-30
CN111857081B CN111857081B (zh) 2023-05-05

Family

ID=72971238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010797879.2A Active CN111857081B (zh) 2020-08-10 2020-08-10 基于Q-learning强化学习的芯片封装测试生产线性能控制方法

Country Status (1)

Country Link
CN (1) CN111857081B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112631216A (zh) * 2020-12-11 2021-04-09 江苏晶度半导体科技有限公司 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统
CN113033815A (zh) * 2021-02-07 2021-06-25 广州杰赛科技股份有限公司 一种阀门智能协作控制方法、装置、设备及存储介质
CN113962470A (zh) * 2021-10-29 2022-01-21 上海新科乾物联技术有限公司 一种基于扰动预测的优化排产方法和系统
CN115933412A (zh) * 2023-01-12 2023-04-07 中国航发湖南动力机械研究所 基于事件触发预测控制的航空发动机控制方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004127170A (ja) * 2002-10-07 2004-04-22 Matsushita Electric Ind Co Ltd 生産計画作成方法
CN103676881A (zh) * 2013-12-16 2014-03-26 北京化工大学 一种半导体生产线动态瓶颈分析方法
CN108646684A (zh) * 2018-05-30 2018-10-12 电子科技大学 一种基于变动性度量的多产品生产线生产周期预测方法
CN109270904A (zh) * 2018-10-22 2019-01-25 中车青岛四方机车车辆股份有限公司 一种柔性作业车间批量动态调度优化方法
CN110378439A (zh) * 2019-08-09 2019-10-25 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN110517002A (zh) * 2019-08-29 2019-11-29 烟台大学 基于强化学习的生产控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004127170A (ja) * 2002-10-07 2004-04-22 Matsushita Electric Ind Co Ltd 生産計画作成方法
CN103676881A (zh) * 2013-12-16 2014-03-26 北京化工大学 一种半导体生产线动态瓶颈分析方法
CN108646684A (zh) * 2018-05-30 2018-10-12 电子科技大学 一种基于变动性度量的多产品生产线生产周期预测方法
CN109270904A (zh) * 2018-10-22 2019-01-25 中车青岛四方机车车辆股份有限公司 一种柔性作业车间批量动态调度优化方法
CN110378439A (zh) * 2019-08-09 2019-10-25 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN110517002A (zh) * 2019-08-29 2019-11-29 烟台大学 基于强化学习的生产控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张树林: "一种机器人搬运生产线的调度优化方法及实验平台设计" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112631216A (zh) * 2020-12-11 2021-04-09 江苏晶度半导体科技有限公司 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统
CN113033815A (zh) * 2021-02-07 2021-06-25 广州杰赛科技股份有限公司 一种阀门智能协作控制方法、装置、设备及存储介质
CN113962470A (zh) * 2021-10-29 2022-01-21 上海新科乾物联技术有限公司 一种基于扰动预测的优化排产方法和系统
CN113962470B (zh) * 2021-10-29 2022-06-24 上海新科乾物联技术有限公司 一种基于扰动预测的优化排产方法和系统
CN115933412A (zh) * 2023-01-12 2023-04-07 中国航发湖南动力机械研究所 基于事件触发预测控制的航空发动机控制方法及装置

Also Published As

Publication number Publication date
CN111857081B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN111857081A (zh) 基于Q-learning强化学习的芯片封装测试生产线性能控制方法
CN103676881A (zh) 一种半导体生产线动态瓶颈分析方法
CN114186791B (zh) 一种面向多型号小批量的复杂装备产品装调生产动态调度方法
CN102763048A (zh) 在虚拟量测中使用适应性预测算法及决定何时使用适应性预测算法的方法及设备
CN110427712A (zh) 一种基于故障影响分析的预防性维修方法及车间制造系统
Singh et al. Experimental investigation for performance assessment of scheduling policies in semiconductor wafer fabrication—a simulation approach
CN115099459A (zh) 一种考虑间隙和装卸点的车间多行布局方法
CN111260144A (zh) 一种差异工件随机到达情况下单机批调度问题的求解方法
CN114037251A (zh) 一种基于Petri网的制造系统成本最小化资源配置方法
Deng et al. A bottleneck prediction and rolling horizon scheme combined dynamic scheduling algorithm for semiconductor wafer fabrication
CN113033005B (zh) 针对具有多资源协同约束的作业车间性能指标的求解方法
CN104217970B (zh) 采样量测方法和系统
Hu et al. Coordinated optimization of production scheduling and maintenance activities with machine reliability deterioration.
Xu et al. PRODUCTION SCHEDULING OPTIMIZATION OF FLEXIBLE MANUFACTURING SYSTEM FOR GREEN MANUFACTURING
CN114398782B (zh) 定制化生产下返工系统瞬态分析方法
Huo et al. Multi-objective FJSP Based on Multi-agent Reinforcement Learning Algorithm
CN111445079A (zh) 一种应用于车间计划投产的多保真仿真优化方法及设备
CN117891203B (zh) 可重入制造系统调控方法、装置、存储介质及电子设备
Yang et al. Man-machine Collaborative Welding Time Prediction Based on Simulated Annealing Algorithm
TW201810075A (zh) 線性映射動態約束空間的粒子群最佳化算法系統及其方法
Jinjun PRODUCTION LOT-STREAMING FLOW SHOP SCHEDULING PROBLEM BASED ON MULTI-OBJECTIVE OPTIMIZATION ALGORITHM
Xiang et al. Simulation-Based Multi-Objective Optimization of Production Systems with Multiple Rework Paths
Zhang et al. Event-driven dynamic Job-shop scheduling method with strong process constraints
Yan et al. A Dynamic Scheduling Method Combining Iterative Optimization and Deep Reinforcement Learning to Solve Sudden Disturbance Events in Flexible Manufacturing Process
Lee et al. Machine learning-based periodic setup changes for semiconductor manufacturing machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant