[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111199272A - 一种面向智能车间的自适应调度方法 - Google Patents

一种面向智能车间的自适应调度方法 Download PDF

Info

Publication number
CN111199272A
CN111199272A CN201911403830.8A CN201911403830A CN111199272A CN 111199272 A CN111199272 A CN 111199272A CN 201911403830 A CN201911403830 A CN 201911403830A CN 111199272 A CN111199272 A CN 111199272A
Authority
CN
China
Prior art keywords
scheduling
workshop
network
intelligent
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911403830.8A
Other languages
English (en)
Other versions
CN111199272B (zh
Inventor
马玉敏
黎声益
陆晓玉
乔非
王俊凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911403830.8A priority Critical patent/CN111199272B/zh
Publication of CN111199272A publication Critical patent/CN111199272A/zh
Application granted granted Critical
Publication of CN111199272B publication Critical patent/CN111199272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Manufacturing & Machinery (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向智能车间的自适应调度方法,该方法通过一基于深度Q网络的自适应调度器生成控制智能车间生产过程的调度策略,深度Q网络的自适应调度器执行:获取智能车间的实时车间状态,判断当前调度策略是否需要更新,若是,则根据实时车间状态通过动态调度模型更新调度策略施加至智能车间,若否,则保持智能车间的调度策略不变;在调度策略生成过程中,采集经验调度样本存放至调度经验池中,基于所述调度经验池中的经验调度样本对所述动态调度模型进行训练;所述智能车间具有一实现与基于深度Q网络的自适应调度器和调度经验池的信息交互的信息交换器。与现有技术相比,本发明具有调度策略适应性好、离线学习免监督、提高生产效率优点。

Description

一种面向智能车间的自适应调度方法
技术领域
本发明涉及生产自动化调度领域,尤其是涉及一种面向智能车间的自适应调度方法。
背景技术
智能车间是实现智能制造的基石和落脚点,其生产调度需要具有自学习和自适应的特性,以满足快速响应动态变化的生产环境的需求。在智能车间中架设物联网、CPS等环境,能够实时地获取生产数据,因此,数据驱动技术在智能车间运营中越来越受到关注和应用。同样,数据驱动技术(包括数据挖掘和统计分析)在制造系统生产调度也有关注。深度强化学习是基于数据驱动技术的一个极具前景的研究方向,其模型本身具有免监督学习、适应性决策等优点,应用于智能制造车间生产调度上,可以形成更为科学、智能的调度系统。
通过检索现有的专利文献发现,数据驱动技术对生产调度问题的优化主要体现在制造系统动态调度中。中国专利申请“一种半导体生产线动态调度装置”(申请号:201310740754.6)提供了一种对半导体生产线进行动态调度的方法与装置,借助半导体仿真模型获取样本数据,从而建立样本数据库,而后基于样本数据库,筛选出最优样本,建立最优样本数据库,再通过极限学习机算法学习最优样本数据库,得到可以用于动态调度的模型,并建立不同生产环境下的模型库。该方法训练出的模型库可以针对不同的车间状态,给出最优的调度方案。但此方法中的最优样本获取较为困难,导致离线训练时间长且较为耗费人力资源。另外,在当前规则失效时,及时做出响应,缺乏时效性。中国专利“一种生产调度方法及系统”(专利号:ZL201710013045.6)提出了一种有效提高离散装配车间生产效率的方法与系统,基于当前生产装配任务的装配工艺参数和实际生产约束参数,并依据预先设定的调度问题模型,获得当前生产装配任务的工序执行时间表和资源使用时间表。此方法在调度问题模型库充足的条件下,可以保证调度策略的快速响应与执行。但此方法的调度问题模型均为单目标优化模型,模型过于单一,车间整体生产性能提升不显著。另外,此方法同样存在模型建立时间成本高,需要人为监督等不足。中国专利“基于多阶段智能优化算法的动态柔性作业车间调度控制方法”(专利号:ZL201510015487.5)提出了一种解决动态调度重调度时策略单一问题的方法,在初始调度阶段、车间设备故障阶段、重调度阶段三个阶段中,利用自适应遗传算法进行优化求解,得出当前阶段车间状态下的最优调度策略。此方法对调度问题的生产背景进行了阶段性区分,使不同阶段求解得出的最优调度策略更为准确。但此方法的调度规则更新仅仅发生在设备故障时,自适应性十分局限,且优化目标仅局限于完工时间,过于单一,实用性不足。
结合上述现有技术的研究容易得出,当前对于智能车间调度方法中,普遍存在优化方法自适应性差、时效性不足、优化目标单一、调度规则有效期短等问题。另外,对于基于模型的智能车间调度优化方法,还存在模型获取困难、离线训练时间长、人力成本高等问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种调度策略适应性好、离线学习免监督、提高生产效率的面向智能车间的自适应调度方法。
本发明的目的可以通过以下技术方案来实现:
一种面向智能车间的自适应调度方法,该方法通过一基于深度Q网络的自适应调度器生成控制智能车间生产过程的调度策略,所述深度Q网络的自适应调度器执行以下动作:
获取智能车间的实时车间状态,判断当前调度策略是否需要更新,若是,则根据所述实时车间状态通过动态调度模型更新调度策略施加至智能车间,若否,则保持智能车间的调度策略不变;
在所述调度策略生成过程中,采集经验调度样本存放至调度经验池中,基于所述调度经验池中的经验调度样本对所述动态调度模型进行训练;
所述智能车间具有一实现与基于深度Q网络的自适应调度器和调度经验池的信息交互的信息交换器。
进一步地,所述判断当前调度策略是否需要更新具体为:
基于性能指标集提取实时车间状态中的各项性能指标,计算所述各项性能指标对应的调度规则奖励值,判断该奖励值是否超过预设奖励阈值Tereward,若是,则当前调度策略不需更新,若否,则判断当前奖励值变动的绝对值是否超过预设变动阈值TeΔ,若是,则判定为需要对当前调度策略进行更新,若否,则当前调度策略不需更新。
进一步地,所述性能指标包括平均加工周期MCT、日平均移动步数MDayMov、日平均生产量PROD、日平均设备利用率OEE。
进一步地,所述经验调度样本具体为原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'的组合(s,d,r,s')。
进一步地,所述调度规则奖励值r由下式得:
r=norm(P1)+norm(P2)+...+norm(Pl)
其中,norm(·)表示归一化操作,P.表示从车间状态数据集中得到的性能指标。
进一步地,所述车间状态包括车间在制品状态和车间设备状态。
进一步地,所述调度规则为单一启发式调度规则或组合式调度规则。
进一步地,当所述调度经验池中的经验调度样本数超过预设阈值Tesample时,从调度经验池中随机抽取设定量样本数作为所述动态调度模型的训练样本。
进一步地,所述动态调度模型的训练采用基于Q-learning的双网络调度模型训练器实现。
进一步地,所述基于Q-learning的双网络调度模型训练器对动态调度模型进行训练的过程具体包括以下步骤:
1)以当前动态调度模型作为评估网络,基于所述评估网络构建目标网络,在评估网络的训练过程中,每隔设定训练次数,将评估网络的参数延时拷贝至目标网络;
2)将训练样本同时输入至所述评估网络和目标网络中进行前向传播,分别得到评估网络的行为值向量Qeval与目标网络的行为值向量Qtarget
3)基于Q-learning算法计算损失函数Loss;
4)利用损失函数Loss对评估网络进行反向传播,更新、优化评估网络的参数;
5)重复步骤1)-4),若达到预设训练次数Ttrain或预设周期T内平均奖励值超过预设阈值
Figure BDA0002348104800000031
则输出训练好的评估深度神经网络,作为最终的动态调度模型。
进一步地,所述损失函数Loss的计算过程为:
301)将Qeval拷贝至中间向量Qeval2
302)以Qtarget作为目标行为值向量,将其输入到Q-learning算法的行为值函数中,并将输出覆盖至Qeval2的对应位置,使Qeval2中部分元素得到更新,所述行为值函数为:
Qeval2(batch_index,d_loct)=r+γmax Qtarget(batch_index,:)
其中,batch_index表示训练样本的行索引向量且满足batch_index∈[1,length(batch)],length(batch)表示训练样本中的样本条数,d_loct表示训练样本中的规则位置向量;
303)以Qeval与Qeval2构建损失函数Loss:
Loss=Qeval2-Qeval
与现有技术相比,本发明具有如下有益效果:
1、本发明将DQN与智能车间生产调度进行有机结合,搭建了实现DQN自适应调度器与智能车间进行信息交互的信息交换器,并以规则的奖励值代替样本标签,实现完全免监督的离线学习,提高调度效率和精度;
2、构建了状态更新判断机制,使动态调度模型可以实现免监督、自适应的在线决策,提高了调度策略更新的实效性;
3、采用基于Q-learning算法的双网络调度模型训练得到的动态调度模型,其输出的调度规则综合考虑了当前的车间状态与下一车间状态,决策更为科学,且决策规则适用的有效期更长;
4、本发明实现了多目标优化,可以自定义所需优化的性能指标类型与数量,车间整体性能提升更为显著,具有更好的实用性;
5、本发明采用的调度规则集十分丰富,在不同的车间状态下,为模型提供了充足的调度规则选择余地,对车间的性能指标优化效果也更为显著。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例中Minifab模型示意图;
图3为本发明中基于Q-learning的双网络调度模型训练器流程示意图;
图4为本发明中车间状态更新判断器流程示意图;
图5为本发明中信息交换器流程示意图;
图6为本发明在半导体晶圆智能车间中的应用效果对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本发明提供一种面向智能车间的自适应调度方法,该方法通过一基于深度Q网络(DQN)的自适应调度器生成控制智能车间生产过程的调度策略,所述深度Q网络的自适应调度器执行以下动作:获取智能车间的实时车间状态,判断当前调度策略是否需要更新,若是,则根据所述实时车间状态通过动态调度模型更新调度策略施加至智能车间,若否,则保持智能车间的调度策略不变;在所述调度策略生成过程中,采集经验调度样本存放至调度经验池中,基于所述调度经验池中的经验调度样本对所述动态调度模型进行训练。
智能车间中搭建有一信息交换器,该信息交换器用于实现与基于深度Q网络的自适应调度器和调度经验池的信息交互,主要功能包括实时读取车间状态、接收决策信息并施加至智能车间、向车间状态更新判断器发送实时车间状态信息等。
判断当前调度策略是否需要更新可由一车间状态更新判断器完成,具体为:
基于性能指标集提取实时车间状态中的各项性能指标,计算所述各项性能指标对应的调度规则奖励值,判断该奖励值是否超过预设奖励阈值Tereward,若是,则当前调度策略不需更新,若否,则判断当前奖励值变动的绝对值是否超过预设变动阈值TeΔ,若是,则判定为需要对当前调度策略进行更新,若否,则当前调度策略不需更新。
调度经验池用于存储经验调度样本,该调度经验池基于车间历史数据初始化,并由智能车间在实时运行中更新。经验调度样本具体为原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'的组合(s,d,r,s'),其具体采集过程包括:
1a)从车间历史数据中获得一定量的初始车间状态数据集,并设定调度规则全集;
1b)利用初始车间状态数据集初始化评估网络的输入层节点数,调度规则全集初始化评估网络的输出层节点数,并随机初始化评估网络的权重与偏置;
1c)将实时车间状态数据输入至评估网络进行前向传播,并将评估网络输出中的最大值位置映射至调度规则全集,得到当前调度规则,前向传播过程如下式所示:
Qeval=(((s∧ω1+b1)∧ω2+b2)...)∧ωN+bN
其中,s为网络输入状态向量,ω.,b.为第·层网络的权重与偏置向量,其维度与预设的神经元个数(节点数)相关;
1d)并将规则施加至智能车间,得到下一车间状态与当前规则对应的奖励值;
1e)将原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'组合为(s,d,r,s')集合形式,作为一条经验调度样本。
所述调度规则奖励值r由下式得:
r=norm(P1)+norm(P2)+...+norm(Pl)
其中,norm(·)表示归一化操作,P.表示从车间状态数据集中得到的性能指标。
对性能指标P进行归一化操作具体实现如下:
Figure BDA0002348104800000061
其中,max_P、min_P分别为从车间历史数据中得到的P的最大值与最小值。
奖励值变动的绝对值计算如下式所示:
Figure BDA0002348104800000062
其中,
Figure BDA0002348104800000063
表示调度规则d在0时刻的奖励值,
Figure BDA0002348104800000064
表示调度规则d在t时刻的奖励值。
车间状态包括车间在制品状态和车间设备状态等。调度规则为单一启发式调度规则或组合式调度规则,其形式为D={d1,d2,...,dj,...,dn},其中dj=(xj1,xj2,...,xji,...,xjm),xji表示规则i的权重且满足
Figure BDA0002348104800000065
特别地,当xji=1时,dj表示某一种单一启发式规则,其余均为组合式调度规则。
当所述调度经验池中的经验调度样本数超过预设阈值Tesample时,从调度经验池中随机抽取设定量样本数作为所述动态调度模型的训练样本,该设定量为小批量,以减少计算复杂度。所述动态调度模型的训练采用基于Q-learning的双网络调度模型训练器实现。所述基于Q-learning的双网络调度模型训练器对动态调度模型进行训练的过程具体包括以下步骤:
2a)以当前动态调度模型作为评估网络,基于所述评估网络构建目标网络,在评估网络的训练过程中,每隔设定训练次数,将评估网络的参数延时拷贝至目标网络;
2b)将训练样本同时输入至所述评估网络和目标网络中进行前向传播,分别得到评估网络的行为值向量Qeval与目标网络的行为值向量Qtarget
2c)基于Q-learning算法计算损失函数Loss,计算过程为:
301)将Qeval拷贝至中间向量Qeval2
302)以Qtarget作为目标行为值向量,将其输入到Q-learning算法的行为值函数中,并将输出覆盖至Qeval2的对应位置,将向量Qeval2中的部分指定元素(依据batch_index、d_loct进行元素定位)进行更新,所述行为值函数为:
Qeval2(batch_index,d_loct)=r+γmaxQtarget(batch_index,:)
其中,batch_index表示训练样本的行索引向量且满足batch_index∈[1,length(batch)],length(batch)表示训练样本中的样本条数,d_loct表示训练样本中的规则位置向量;
303)以Qeval与Qeval2构建损失函数Loss:
Loss=Qeval2-Qeval
2d)利用损失函数Loss对评估网络进行反向传播,更新、优化评估网络的参数;
2e)重复步骤2a)-2d),若达到预设训练次数Ttrain或预设周期T内平均奖励值超过预设阈值
Figure BDA0002348104800000071
则输出训练好的评估深度神经网络,作为最终的动态调度模型。
实施例
Minifab是根据实际生产线简化而来的一个简单半导体晶圆智能车间模型,它由3个设备群、5台设备组成,可生产3种产品(6道工序),如图2所示。本实施例以上述智能车间为实施对象,对本发明方法进行详细说明。
如图1-5所示,本实施例的自适应调度方法具体实施过程如下:
步骤1,确定半导体晶圆智能车间的车间状态集F、调度规则集D和性能指标集P,本例中三个数据集的具体设置如下:
1)车间状态集F
本例选择了47个车间状态作为描述当前车间状态的指标,如表1所示。
表1车间状态集
Figure BDA0002348104800000072
Figure BDA0002348104800000081
Figure BDA0002348104800000091
2)调度规则集D
本例选择了包括交货期优先规则(EDD)、最小剩余加工时间优先规则(SRPT)、关键比例规则(CR)三种启发式规则以及多种组合式调度规则在内的231种调度规则,其形式dj=(xj1,xj2,xj3),xji表示规则i的权重且满足
Figure BDA0002348104800000092
特别地,当xj1=1时,dj表示规则EDD,当xj2=1时,dj表示规则SRPT,当xj3=1时,dj表示规则CR,其余均为组合式调度规则。
3)性能指标集P
本例考察以下4个生产系统的性能指标:平均加工周期MCT、日平均移动步数MDayMov、日平均生产量PROD、日平均设备利用率OEE。
步骤2,搭建评估深度神经网络与目标深度神经网络。借助Python语言以及tensorflow等神经网络算法库,搭建包含维度为47的输入层、3层隐含层、维度为231的输出层、每层隐含层神经元个数为30个的全连接层深度神经网络,并随机初始化各个权重与偏置,为前向传播做准备。
步骤3,搭建车间状态更新判断器。借助Python语言,搭建如图3所示的车间状态更新判断器。主要实现:提取实时车间状态中的各项性能指标,并计算当前性能指标对应的调度规则奖励值。首先判断当前奖励值是否超过了预设奖励阈值Tereward,若是,则继续监视实时车间状态;若否,则判断当前奖励值变动的绝对值是否超过了预设变动阈值TeΔ,若是,则判定为当前车间状态发生有效变动,需要对当前调度策略进行更新;若否,则继续监视实时车间状态。此例中,Tereward为3.7,TeΔ为0.2。
步骤4,借助于在仿真平台Plant Simulation上研发的MiniFab仿真模型,模拟智能车间的运行状况,通过仿真得到的车间历史决策信息集,在此基础上搭建信息交换器,其实现流程见图4。
此例中,在信息交换器的基础上获取经验调度样本的过程概括为以下步骤,如图5所示:
1)加载仿真模型的初始状态;
2)预热10天,为后续调度规则的施加提供正常运行的车间状态;
3)将实时车间状态数据输入至评估网络进行前向传播,并将评估网络输出中的最大值位置映射至调度规则全集,得到当前调度规则;
4)并将规则施加至MiniFab仿真模型,在车间状态更新判断器的判定下,得到下一车间状态与当前规则对应的奖励值;
5)将车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'组合为(s,d,r,s')集合形式,作为一条经验调度样本。
步骤5,判断当前调度经验池内经验调度样本的条数是否达到了预设阈值Tesample,若是,从调度经验池中随机抽取小批量调度样本,对应地输出到评估网络、目标网络以及Q-learning训练器中,为评估网络的训练做好数据准备。若否,则重复步骤1-4。此例中小批量调度样本的数量设置为32,Tesample设为500。
步骤6,如图3所示,将评估网络的输出作为当前行为值向量Qeval,并拷贝至中间向量Qeval2,将目标网络的输出作为目标行为值向量Qtarget。并将Qeval2、Qtarget输入至Q-learning训练器中,并通过Q-learning算法中的行为值函数,与训练器中已存入的规则d、奖励值r共同更新当前行为值向量Qeval2中的指定元素。在此基础上建立损失函数,并以此进行反向传播,更新评估网络参数,达到训练评估网络的目的。并每隔一定的训练次数,将评估网络的参数拷贝至目标网络,此例中延时拷贝网络参数对应的训练次数设置为10次。
步骤7,当训练次数到达预设阈值Tetrain或在预设周期T内平均奖励值超过了预设奖励阈值
Figure BDA0002348104800000101
后,评估网络训练完毕。此例中Tetrain设置为500次,T为50次,
Figure BDA0002348104800000102
为3.5。将半导体晶圆智能车间(即,MiniFab仿真模型)与DQN调度器进行数据联结,车间预热为10天,总加工周期为31天,并将在DQN自适应调度器指导运行下的智能车间日性能指标与施加单一启发式规则EDD、SRPT、CR的智能车间日性能指标进行比较。
表2为在DQN自适应调度器指导运行下的智能车间日性能指标变化情况,其中PDQN表示在DQN自适应调度器指导运行下的智能车间综合性能。分别记录了平均加工周期MCT、日平均移动步数MDayMov、日平均生产量PROD、日平均设备利用率OEE以及总的量化性能指标PDQN。另外,调度器在天数为6、8、12、15、19、22、26时,由于车间状态发生了较大的变动,因此自动为智能车间施加了新的调度规则。由于智能车间随着加工时间的变化,负荷加大,其各项性能指标势必会逐渐变差,但从表2可以看出,在上述的新规则施加节点处,大部分性能指标均得到了一定程度的回升。由此可以得出结论,DQN调度器确实能对智能车间生产调度起到优化作用。
表2在DQN自适应调度器下指导下的智能车间日性能指标
Figure BDA0002348104800000111
表3、图6为智能车间在DQN自适应调度器指导下与施加单一启发式规则EDD、SRPT、CR的日性能指标比较,表3中,PDQN表示在DQN自适应调度器指导运行下的智能车间综合性能;PEDD表示在规则EDD下的智能车间综合性能;PSRPT表示在规则SRPT下的智能车间综合性能;PCR表示在规则CR下的智能车间综合性能。由表3、图4可以看出,在DQN自适应调度器指导下的车间总量化性能指标整体均高于实施单一启发式规则,并且性能指标的下降速度与下降幅度明显小于实施单一启发式规则。由此可以得出结论,应用DQN调度器的优化效果明显优于应用单一启发式规则。
表3智能车间在DQN自适应调度器指导下与施加单一启发式规则的日性能指标比较
Figure BDA0002348104800000121
Figure BDA0002348104800000131
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (10)

1.一种面向智能车间的自适应调度方法,其特征在于,该方法通过一基于深度Q网络的自适应调度器生成控制智能车间生产过程的调度策略,所述深度Q网络的自适应调度器执行以下动作:
获取智能车间的实时车间状态,判断当前调度策略是否需要更新,若是,则根据所述实时车间状态通过动态调度模型更新调度策略施加至智能车间,若否,则保持智能车间的调度策略不变;
在所述调度策略生成过程中,采集经验调度样本存放至调度经验池中,基于所述调度经验池中的经验调度样本对所述动态调度模型进行训练;
所述智能车间具有一实现与基于深度Q网络的自适应调度器和调度经验池的信息交互的信息交换器。
2.根据权利要求1所述的面向智能车间的自适应调度方法,其特征在于,所述判断当前调度策略是否需要更新具体为:
基于性能指标集提取实时车间状态中的各项性能指标,计算所述各项性能指标对应的调度规则奖励值,判断该奖励值是否超过预设奖励阈值Tereward,若是,则当前调度策略不需更新,若否,则判断当前奖励值变动的绝对值是否超过预设变动阈值TeΔ,若是,则判定为需要对当前调度策略进行更新,若否,则当前调度策略不需更新。
3.根据权利要求1所述的面向智能车间的自适应调度方法,其特征在于,所述经验调度样本具体为原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'的组合(s,d,r,s')。
4.根据权利要求2或3所述的面向智能车间的自适应调度方法,其特征在于,所述调度规则奖励值r由下式得:
r=norm(P1)+norm(P2)+...+norm(Pl)
其中,norm(·)表示归一化操作,P·表示从车间状态数据集中得到的性能指标。
5.根据权利要求1或3所述的面向智能车间的自适应调度方法,其特征在于,所述车间状态包括车间在制品状态和车间设备状态。
6.根据权利要求3所述的面向智能车间的自适应调度方法,其特征在于,所述调度规则为单一启发式调度规则或组合式调度规则。
7.根据权利要求1所述的面向智能车间的自适应调度方法,其特征在于,当所述调度经验池中的经验调度样本数超过预设阈值Tesample时,从调度经验池中随机抽取设定量样本数作为所述动态调度模型的训练样本。
8.根据权利要求1所述的面向智能车间的自适应调度方法,其特征在于,所述动态调度模型的训练采用基于Q-learning的双网络调度模型训练器实现。
9.根据权利要求8所述的面向智能车间的自适应调度方法,其特征在于,所述基于Q-learning的双网络调度模型训练器对动态调度模型进行训练的过程具体包括以下步骤:
1)以当前动态调度模型作为评估网络,基于所述评估网络构建目标网络,在评估网络的训练过程中,每隔设定训练次数,将评估网络的参数延时拷贝至目标网络;
2)将训练样本同时输入至所述评估网络和目标网络中进行前向传播,分别得到评估网络的行为值向量Qeval与目标网络的行为值向量Qtarget
3)基于Q-learning算法计算损失函数Loss;
4)利用损失函数Loss对评估网络进行反向传播,更新、优化评估网络的参数;
5)重复步骤1)-4),若达到预设训练次数Ttrain或预设周期T内平均奖励值超过预设阈值
Figure FDA0002348104790000021
则输出训练好的评估深度神经网络,作为最终的动态调度模型。
10.根据权利要求9所述的面向智能车间的自适应调度方法,其特征在于,所述损失函数Loss的计算过程为:
301)将Qeval拷贝至中间向量Qeval2
302)以Qtarget作为目标行为值向量,将其输入到Q-learning算法的行为值函数中,并将输出覆盖至Qeval2的对应位置,使Qeval2中部分元素得到更新,所述行为值函数为:
Qeval2(batch_index,d_loct)=r+γmaxQtarget(batch_index,:)
其中,batch_index表示训练样本的行索引向量且满足batch_index∈[1,length(batch)],length(batch)表示训练样本中的样本条数,d_loct表示训练样本中的规则位置向量;
303)以Qeval与Qeval2构建损失函数Loss:
Loss=Qeval2-Qeval
CN201911403830.8A 2019-12-30 2019-12-30 一种面向智能车间的自适应调度方法 Active CN111199272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911403830.8A CN111199272B (zh) 2019-12-30 2019-12-30 一种面向智能车间的自适应调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911403830.8A CN111199272B (zh) 2019-12-30 2019-12-30 一种面向智能车间的自适应调度方法

Publications (2)

Publication Number Publication Date
CN111199272A true CN111199272A (zh) 2020-05-26
CN111199272B CN111199272B (zh) 2023-11-03

Family

ID=70746264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911403830.8A Active CN111199272B (zh) 2019-12-30 2019-12-30 一种面向智能车间的自适应调度方法

Country Status (1)

Country Link
CN (1) CN111199272B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882151A (zh) * 2020-06-16 2020-11-03 杭州未名信科科技有限公司 基于强化学习的离散制造行业生产排程方法及系统
CN112381158A (zh) * 2020-11-18 2021-02-19 山东高速信息集团有限公司 基于人工智能的数据高效训练方法及系统
CN112987664A (zh) * 2021-02-09 2021-06-18 东北大学 一种基于深度强化学习的流水车间调度方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113657742A (zh) * 2021-08-09 2021-11-16 武汉科技大学 车间调度方法、装置、电子设备及存储介质
CN113759841A (zh) * 2021-08-26 2021-12-07 山东师范大学 一种多目标优化的机床柔性车间调度方法及系统
CN114037341A (zh) * 2021-11-19 2022-02-11 广东工业大学 一种基于ddqn的智能车间动态自适应调度方法及系统
WO2022099596A1 (zh) * 2020-11-13 2022-05-19 浙江大学 一种面向工业个性化定制生产的自适应学习智能调度统一计算框架及系统
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
CN118171892A (zh) * 2024-05-11 2024-06-11 浙江大学 一种考虑工人技能水平和疲劳程度的车间调度方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216710A (zh) * 2007-12-28 2008-07-09 东南大学 一种由计算机实现的自适应选择动态生产调度控制系统
CN108820157A (zh) * 2018-04-25 2018-11-16 武汉理工大学 一种基于强化学习的船舶智能避碰方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法
CN109270904A (zh) * 2018-10-22 2019-01-25 中车青岛四方机车车辆股份有限公司 一种柔性作业车间批量动态调度优化方法
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216710A (zh) * 2007-12-28 2008-07-09 东南大学 一种由计算机实现的自适应选择动态生产调度控制系统
CN108820157A (zh) * 2018-04-25 2018-11-16 武汉理工大学 一种基于强化学习的船舶智能避碰方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法
CN109270904A (zh) * 2018-10-22 2019-01-25 中车青岛四方机车车辆股份有限公司 一种柔性作业车间批量动态调度优化方法
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNCHENG LIN ET AL.: "Smart Manufacturing Scheduling With Edge Computing Using Multiclass Deep Q Network" *
刘民毅: "基于深度强化学习的紧急订单生产控制方法研究" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882151A (zh) * 2020-06-16 2020-11-03 杭州未名信科科技有限公司 基于强化学习的离散制造行业生产排程方法及系统
WO2022099596A1 (zh) * 2020-11-13 2022-05-19 浙江大学 一种面向工业个性化定制生产的自适应学习智能调度统一计算框架及系统
CN112381158A (zh) * 2020-11-18 2021-02-19 山东高速信息集团有限公司 基于人工智能的数据高效训练方法及系统
CN112987664A (zh) * 2021-02-09 2021-06-18 东北大学 一种基于深度强化学习的流水车间调度方法
CN113254197B (zh) * 2021-04-30 2023-02-03 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113657742A (zh) * 2021-08-09 2021-11-16 武汉科技大学 车间调度方法、装置、电子设备及存储介质
CN113657742B (zh) * 2021-08-09 2024-04-19 武汉科技大学 车间调度方法、装置、电子设备及存储介质
CN113759841A (zh) * 2021-08-26 2021-12-07 山东师范大学 一种多目标优化的机床柔性车间调度方法及系统
CN113759841B (zh) * 2021-08-26 2024-01-12 山东师范大学 一种多目标优化的机床柔性车间调度方法及系统
CN114037341A (zh) * 2021-11-19 2022-02-11 广东工业大学 一种基于ddqn的智能车间动态自适应调度方法及系统
CN114037341B (zh) * 2021-11-19 2024-07-23 广东工业大学 一种基于ddqn的智能车间动态自适应调度方法及系统
CN114675975B (zh) * 2022-05-24 2022-09-30 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
CN118171892A (zh) * 2024-05-11 2024-06-11 浙江大学 一种考虑工人技能水平和疲劳程度的车间调度方法和装置

Also Published As

Publication number Publication date
CN111199272B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN111199272A (zh) 一种面向智能车间的自适应调度方法
CN107967542B (zh) 一种基于长短期记忆网络的售电量预测方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN108520155B (zh) 基于神经网络的车辆行为模拟方法
CN111582561A (zh) 一种面向小批量多品种的可重构生产线调度优化方法
CN108764540A (zh) 基于并行lstm串联dnn的供水管网压力预测方法
CN106650920A (zh) 一种基于优化极限学习机的预测模型
CN107590623A (zh) 一种考虑地域物流服务能力的云制造服务组合优选方法
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
Hu et al. Adaptive exploration strategy with multi-attribute decision-making for reinforcement learning
Mousavi et al. A fuzzy grey model based on the compromise ranking for multi-criteria group decision making problems in manufacturing systems
CN117369378A (zh) 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统
CN116151581A (zh) 一种柔性车间调度方法、系统及电子设备
CN115759552A (zh) 一种基于多智能体架构的面向智慧工厂的实时调度方法
Liu A group decision-making method with fuzzy set theory and genetic algorithms in quality function deployment
Zhang et al. A PSO-Fuzzy group decision-making support system in vehicle performance evaluation
CN113570040B (zh) 一种基于进化策略的多域行动序列智能优化系统及方法
Ahmed et al. Investigation of Optimization Techniques on the Elevator Dispatching Problem
Chen et al. Bayesian Neural Network-Based Demand Forecasting for Express Transportation
Ivaschenko et al. Conditional management technology for multiagent interaction.
Zhang et al. Research on logistics supply chain optimization strategy based on machine learning
Jarraya et al. Multi-agent evolutionary design of Beta fuzzy systems
Marchesano et al. On reinforcement learning in production control and its potentiality in manufacturing
CN112734286B (zh) 一种基于多策略深度强化学习的车间调度方法
Ma Application of fuzzy particle swarm optimization algorithm in optimizing logistics distribution management system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant