CN115250142B - 一种基于深度强化学习的星地融合网络多节点计算资源分配方法 - Google Patents
一种基于深度强化学习的星地融合网络多节点计算资源分配方法 Download PDFInfo
- Publication number
- CN115250142B CN115250142B CN202111670934.2A CN202111670934A CN115250142B CN 115250142 B CN115250142 B CN 115250142B CN 202111670934 A CN202111670934 A CN 202111670934A CN 115250142 B CN115250142 B CN 115250142B
- Authority
- CN
- China
- Prior art keywords
- service node
- task
- time
- satellite
- ground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000013468 resource allocation Methods 0.000 title claims abstract description 52
- 230000002787 reinforcement Effects 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 85
- 230000005540 biological transmission Effects 0.000 claims abstract description 50
- 238000005457 optimization Methods 0.000 claims abstract description 32
- 238000005265 energy consumption Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 71
- 230000009471 action Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 12
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000007493 shaping process Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 3
- 229940060587 alpha e Drugs 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 12
- 239000003795 chemical substances by application Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007620 mathematical function Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18517—Transmission equipment in earth stations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18515—Transmission equipment in satellites or space-based relays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0215—Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices
- H04W28/0221—Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices power availability or consumption
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0231—Traffic management, e.g. flow control or congestion control based on communication conditions
- H04W28/0236—Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/02—Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
- H04W84/04—Large scale networks; Deep hierarchical networks
- H04W84/06—Airborne or Satellite Networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明涉及一种基于深度强化学习的星地融合网络多节点计算资源分配方法,包括:从星地融合网络中的各服务点中确定本地服务节点和协作服务节点,从本地服务节点中获取任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息;构建以最小化卫星能耗与任务执行时延的加权系统开销为目标的优化问题的表达式;建立深度强化学习模型;基于近端策略优化算法求解深度强化学习模型;确定各服务节点的计算资源分配策略。本发明不仅能够从高维长跨度时序状态信息中提取特征,在高维解空间中建立环境与策略的相关性,而且能够克服高维信息的存储资源占用问题,具有较好的泛化能力,提升了计算效率。
Description
技术领域
本发明涉及无线通信技术领域,更具体地涉及一种基于深度强化学习的星地融合网络多节点计算资源分配方法。
背景技术
星地融合网络是指通过卫星网络(如大规模低轨卫星星座)与地面网络(如5G)为用户终端提供信息服务的星地一体化网络系统。随着空间数据处理低延时和高能效需求的增加,将计算任务分布在多个可用协作服务节点间进行联合计算,并优化多节点计算资源分配策略,将有助于降低空间任务的响应时延与系统能耗开销,对于提升星地融合网络的网络性能具有重要意义。
然而,在星地融合网络中进行多节点计算资源的优化分配面临诸多技术挑战。例如,在星地融合网络中,卫星网络的服务节点(如低轨卫星)通常快速移动,该高移动特性使得传统的资源分配算法需要根据网络状态快速动态更新,这对于网络信息交互提出了较高要求。
在星地融合网络架构下,现有的计算资源分配方法主要分为两类:基于传统优化理论的计算资源分配方法和基于学习算法的计算资源分配方法。
在基于传统优化理论的计算资源分配方法中,通常需要假设已知一系列系统模型的先验信息(如业务分布概率、无线信道衰落模型等),而这些先验信息与实际系统通常存在一定的误差。并且,该方法需要根据研究目标建立合适的数学函数,再根据函数特性设计具体的迭代求解算法。通常,针对计算资源分配问题所建立的数学函数具有非凸特性,导致其需要根据不同应用和需求进行定制化建模,模型难以泛化,在实际应用时通用性较差。同时,该方法仅考虑了单颗低轨卫星和多个低空浮空平台之间的资源调度,尚未考虑多颗低轨卫星之间的联合资源调度。此外,该方法的可扩展性相对受限,随着网络中节点数、任务数等参数的增长,算法计算复杂度呈指数级增长,给实际系统应用带来了一定困难。
与基于传统优化理论的计算资源分配方法不同,基于学习算法的计算资源分配方法充分利用已有历史采样数据信息,结合深度学习、强化学习等方法获取高效的计算资源分配策略。然而,目前基于学习算法的计算资源分配方法主要考虑单颗低轨卫星场景下的资源分配,而且卫星主要以中继转发为主,无法为具备较强星上处理和计算功能的卫星进行计算资源分配,也无法为具备邻星协作计算服务功能的星地融合网络进行计算资源分配。并且,目前基于学习算法的计算资源分配方法需要在地面服务节点进行模型训练,导致卫星接收和更新模型参数存在一定的传输时延。
发明内容
为解决上述现有技术中的问题,本发明提供一种基于深度强化学习的星地融合网络多节点计算资源分配方法,能够解决具备邻星协作计算服务功能的星地融合网络的计算资源分配问题,克服高维数据的存储资源占用问题,具有较好的泛化能力,提升计算效率。
本发明提供的一种基于深度强化学习的星地融合网络多节点计算资源分配方法,包括:
步骤S1,从星地融合网络中的各服务点中确定本地服务节点和协作服务节点,从本地服务节点中获取任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息;
步骤S2,根据任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息,构建以最小化卫星能耗与任务执行时延的加权系统开销为目标的优化问题的表达式;
步骤S3,根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式,建立深度强化学习模型;
步骤S4,基于近端策略优化算法求解步骤S3所建立的深度强化学习模型;
步骤S5,根据求解后的深度强化学习模型,确定各服务节点的计算资源分配策略。
进一步地,所述任务的执行状态信息包括任务的需执行数据量、执行时延需求、任务在本地服务节点的决策时间范围内的任一时刻的执行状态以及地面服务节点对于任务在本地服务节点的决策时间范围内的任一时刻的可见性。
进一步地,所述各服务节点间的无线传输信息包括星地数据传输速率、星间数据传输速率、星地传播时延和星间传播时延。
进一步地,所述优化问题的表达式为:
式中,α∈[0,1]表示卫星能耗占系统开销的权重,(1-α)表示任务执行时延占系统开销的权重;cl(t)表示任务v在时刻t的计算卸载方式,l表示所有计算卸载方式中所选择的计算卸载方式的序数;El(t)表示任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗,Tl(t)表示任务v在时刻t采用第l种计算卸载方式所需的执行时延。约束条件C1表示每个调度时刻仅选择一种计算卸载方式;约束条件C2表示每个服务节点为任务v分配的计算资源不能超过可用空闲计算资源上限,表示在时刻t卫星服务节点ni为任务v分配的计算资源,/>表示在时刻t卫星ni可使用的最大空闲计算资源;约束条件C3表示任务总执行时延应满足最大时延约束,τori表示任务v可容忍的最大处理时延;约束条件C4表示任务的全部数据应在最大时延约束范围内完成,dl(t)表示在时刻t采用第l种计算卸载方式完成任务v的数据量,dori表示执行完整任务v所需的数据量。
进一步地,所述步骤S3中,建立深度强化学习模型包括:
步骤S31,根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式,构建状态函数;
步骤S32,根据步骤S2构建的优化问题的表达式,构建动作函数;
步骤S33,根据所述状态函数和所述动作函数,构建瞬时回报函数,并获取对应的累积回报函数。
进一步地,所述瞬时回报函数由回报函数、任务完成时的激励值、任务失败时的惩罚值以及回报塑形函数构成。
进一步地,所述星地数据传输速率按照下式计算:
式中,表示本地服务节点ni与地面服务节点之间的通信带宽,/>表示本地服务节点ni在时刻t对地面服务节点的发射功率,/>表示本地服务节点ni的发射天线增益与地面服务节点的接收天线增益的乘积,/>表示本地服务节点ni在时刻t与地面服务节点之间的信道增益,/>表示地面服务节点的接收机噪声功率。
进一步地,所述星间数据传输速率按照下式计算:
式中,表示本地服务节点ni与卫星协作服务节点nj之间的通信带宽,/>表示本地服务节点ni在时刻t对卫星协作服务节点nj的发射功率,/>表示本地服务节点ni的发射天线增益与卫星协作服务节点nj的接收天线增益的乘积,/>表示本地服务节点ni与卫星协作服务节点nj之间的信道增益,/>表示卫星协作服务节点nj的接收机噪声功率。
本发明利用深度强化学习算法解决星地融合网络多节点计算资源分配问题,不仅能够从高维长跨度时序状态信息中提取特征,在高维解空间中建立环境与策略的相关性,而且能够借助神经网络克服高维信息的存储资源占用问题,具有较好的泛化能力,提升了计算效率。
附图说明
图1是按照本发明的基于深度强化学习的星地融合网络多节点计算资源分配方法的流程图。
图2是星地融合网络的计算卸载与多节点计算资源分配场景图。
图3是基于深度强化学习的PPO算法框架示意图。
图4是基于深度强化学习的PPO算法流程示意图。
具体实施方式
下面结合附图,给出本发明的较佳实施例,并予以详细描述。
本发明提供的一种基于深度强化学习的星地融合网络多节点计算资源分配方法,通过在星地融合网络中的多个服务节点(包含多颗卫星和地面计算节点)之间进行联合计算资源分配,设计适配的深度强化学习模型和算法步骤,获取多节点计算资源优化分配策略。如图1所示,本发明的计算资源分配方法包括以下步骤:
步骤S1,从星地融合网络中的各服务点中确定本地服务节点和协作服务节点,利用本地服务节点获取任务在当前时刻的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息。其中,卫星服务节点包括用于决策的本地服务节点以及可用于协作计算的卫星协作服务节点,协作服务节点包括地面服务节点和卫星协作服务节点。
星地融合网络由多个服务节点组成,包括一个地面服务节点和M颗低轨卫星服务节点的集合,该集合表示为N={n1,n2,...,nM}。需执行的任务从用户端收集至对应的具有决策能力的卫星内,该卫星即为本地服务节点(也称为任务调度器);而网络内的其他服务节点(包括地面服务节点和除本地服务节点外的其他低轨卫星服务节点)统称为协作服务节点。本地服务节点收集任务的执行状态信息,并通过请求或周期性交互方式获取可调度范围内各协作服务节点的计算资源信息以及各服务节点间的无线传输信息。为了便于说明,将除本地服务节点外的其他低轨卫星服务节点称为卫星协作服务节点。
图2给出了一个具体示例,其中一颗低轨卫星作为本地服务节点,其可调度范围内包括5颗低轨卫星服务节点的集合N={n1,n2,...,nM}和一个地面服务节点,其中M=5。假设需执行的任务v已从用户终端UEs收集至对应的具有决策能力的本地服务节点内。
其中,任务在当前时刻t的执行状态信息包括任务在当前时刻t的剩余需执行数据量d(t)、在当前时刻t的剩余任务的执行时延上限τ(t)、任务在本地服务节点的决策时间范围内的当前时刻的执行状态e(t)以及地面服务节点对于任务在本地服务节点的决策时间范围内的当前时刻的可见性eg(t)。
具体地,本地服务节点收集到的完整任务v表示为v=(dori,τori),其中,dori表示执行完整任务v所需计算的数据量(即任务的需执行数据量),τori表示完整任务v可容忍的最大执行时延(即执行时延需求)。例如,数据量dori=10MB,处理任务v的最大时延τori=0.9s。本地服务节点对完整任务v考虑的决策时间范围为T={1,...,t,...,T},T为决策时间结束时刻,决策时间范围被等间隔离散化为T个时隙,每个时隙的时长即决策时间间隔为Δt,1≤t≤T。在每个当前时刻t开始时,本地服务节点通过本发明的计算资源分配方法确定当前任务在当前时刻t至下一个时刻t+1的计算卸载方式与计算资源分配情况。
则任务v在本地服务节点决策时间范围内的当前时刻t的执行状态e(t)表示为:e(t)∈{0,1}。其中,e(t)=1表示任务v在当前时刻t处于可执行状态,e(t)=0表示任务v在当前时刻t处于不可执行状态。
任务v在当前时刻t的执行状态e(t)与上一时刻t-1的任务执行状态信息、当前时刻t的计算卸载与多节点计算资源分配策略有关。若满足d(t)>0,τ(t)>0,则e(t)=1,否则e(t)=0。
地面服务节点对于任务v在当前时刻t的可见性eg(t)表示为:eg(t)∈{0,1}。其中,eg(t)=1表示地面服务节点对于任务v在当前时刻t处于可服务状态,即此时地面服务节点可服务于任务v;eg(t)=0表示地面服务节点对于任务v在当前时刻t处于不可服务状态,地面服务节点不可服务于任务v。
地面服务节点对于本地服务节点的可见性根据实际服务覆盖情况进行判断。可见性概率建模为轨道周期内地面服务节点被本地服务节点覆盖的服务时间TG与本地服务节点的轨道周期TL之比,即:
服务节点的计算资源信息为该服务节点可为任务v提供的计算资源大小,服务节点可根据自身总的计算资源以及已使用的计算资源情况,计算得到各个卫星服务节点或地面服务节点的可使用的最大空闲计算资源,即可用于任务v的计算资源大小的最大值。
具体地,卫星服务节点集合N在时刻t为任务v分配的计算资源向量表示为其中,/>表示在时刻t卫星服务节点ni为任务v分配的计算资源,卫星服务节点集合N在时刻t可使用的最大空闲计算资源表示为其中,/>表示在时刻t卫星服务节点ni可使用的最大空闲计算资源,则在时刻t卫星服务节点ni为任务v分配的计算资源/>满足:/>
类似地,在时刻t地面服务节点为任务v分配的计算资源fg(t)满足:其中,/>表示任务v在时刻t地面服务节点可使用的最大空闲计算资源。
各服务节点间的无线传输信息包括星地数据传输速率、星间数据传输速率、星地传播时延和星间传播时延。
具体地,定义卫星ni为本地服务节点,则本地服务节点ni(i=1,2,…M)与地面服务节点在时刻t的星地数据传输速率按照下式计算:
式中,表示本地服务节点ni与地面服务节点之间的通信带宽,/>表示本地服务节点ni在时刻t对地面服务节点的发射功率,/>表示本地服务节点ni的发射天线增益与地面服务节点的接收天线增益的乘积,/>表示本地服务节点ni在时刻t与地面服务节点之间的信道增益,/>表示地面服务节点的接收机噪声功率。
本地服务节点ni与卫星协作服务节点nj(j=1,2,…M且j≠i)在时刻t的星间数据传输速率按照下式计算:
式中,表示本地服务节点ni与卫星协作服务节点nj之间的通信带宽,/>表示本地服务节点ni在时刻t对卫星协作服务节点nj的发射功率,/>表示本地服务节点ni的发射天线增益与卫星协作服务节点nj的接收天线增益的乘积,/>表示本地服务节点ni与卫星协作服务节点nj之间的信道增益,/>表示卫星协作服务节点nj的接收机噪声功率。
另外,本地服务节点ni与地面服务节点在时刻t的传播时延表示为本地服务节点ni与卫星协作服务节点nj在时刻t的传播时延表示为/>传播时延等于传播距离/传播速度,在光传输介质下传播速度为光速。
步骤S2,根据任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息,构建以最小化卫星能耗与任务执行时延的加权的系统开销为目标的优化问题的表达式。
上述系统开销为卫星能耗与任务执行时延的加权之和,权重表示卫星能耗与任务执行时延在系统开销中的相对重要性,该优化问题的表达式如下:
式中,α∈[0,1]表示卫星能耗占系统开销的权重,(1-α)表示任务执行时延占系统开销的权重;cl(t)表示任务v在时刻t的计算卸载方式,l表示所有计算卸载方式中所选择的计算卸载方式的序数;El(t)表示任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗,Tl(t)表示任务v在时刻t采用第l种计算卸载方式所需的执行时延。约束条件C1表示每个调度时刻仅选择一种计算卸载方式;约束条件C2表示每个服务节点为任务v分配的计算资源不能超过可用空闲计算资源上限,表示在时刻t卫星服务节点ni为任务v分配的计算资源,/>表示在时刻t卫星ni可使用的最大空闲计算资源;约束条件C3表示任务总执行时延应满足最大时延约束,即当前时刻为决策时间结束时刻T时,在当前时刻t的剩余任务的执行时延上限τ(t)大于或等于0,/>τori表示任务v可容忍的最大处理时延;约束条件C4表示任务的全部需执行数据量应在决策时间结束时刻之前完成,即当前时刻为决策时间结束时刻T时,任务在当前时刻t的剩余需执行数据量d(t)等于0,/>dl(t)表示在时刻t采用第l种计算卸载方式完成任务v的数据量,dori表示执行完整任务v所需的数据量。
下面对上述各参数进行详细描述。
任务v在时刻t的计算卸载方式c(t)描述如下:
c(t)=[c1(t),c2(t),c3(t)]
其中,c1(t)=1表示时刻t至时刻t+1选择将任务v仅在本地服务节点进行计算,此时所选择的计算卸载方式的序数为1;c2(t)=1表示时刻t至时刻t+1选择将任务v不仅在本地计算,还可将任务v卸载至可调度范围内的协作服务节点上进行联合计算,此时所选择的计算卸载方式的序数为2;c3(t)=1时,地面服务节点对于任务v在时刻t的可见性eg(t)为c3(t)的判决条件,当eg(t)=1(即地面服务节点在时刻t对于本地服务节点可见),表示时刻t至时刻t+1选择将任务v仅卸载至地面服务节点进行计算,此时所选择的计算卸载方式的序数为3。由于任务v在每个调度时刻仅选择一种计算卸载方式,因而上述参数满足以下约束条件:
任务v在时刻t采用第l种计算卸载方式所需的执行时延Tl(t)按照下式计算:
式中,表示在时刻t采用第l种计算卸载方式所需的计算时延,/>表示在时刻t采用计算第l种卸载方式所需的传输时延,/>表示在时刻t采用第l种计算卸载方式所需的传播时延。其中,传播时延是指电磁信号在传输介质中传播服务节点间距离所花费的时间,其包括星地传播时延和星间传播时延。传输时延是指服务节点发送数据块所需要的时间,即从发送的数据块的第一个比特算起,到该数据块的最后一个比特发送完毕所需的时间,其与星地数据传输速率、星间数据传输速率有关。因此传播时延和传播时延均通过各服务节点间的无线传输信息得到。
具体地,当l=1时,表示在时刻t采用本地服务节点计算任务数据的计算时延,此时/>表示不产生传输时延和传播时延。当l=2时,/>表示在时刻t采用本地服务节点与协作服务节点联合计算任务数据的计算时延,/>表示在时刻t本地服务节点传输任务数据至各协作服务节点的最大传输时延,/>表示在时刻t为任务数据在本地服务节点与各协作服务节点之间往返传播的最大传播时延;当l=3时,/>表示在时刻t采用地面服务节点计算任务数据的计算时延,/>表示在时刻t本地服务节点传输任务数据至地面服务节点的时延,/>表示在时刻t为任务数据在本地服务节点与地面服务节点之间往返传播的传播时延。
也就是说,根据计算卸载方式的序数l的不同,分为以下三种情况:
c1(t)=1,即l=1时,有
c2(t)=1,即l=2时,有
c3(t)=1,即l=3时,有
式中,表示卫星服务节点ni计算数据每比特CPU所需的转数,ωg表示地面服务节点计算数据每比特CPU所需的转数,Δt表示决策时间间隔。
任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗El(t)按照下式计算:
式中,表示在时刻t采用第l种计算卸载方式所需的卫星运维能耗,表示在时刻t采用第l种计算卸载方式l所需的计算能耗,/>表示在时刻t时采用第l种计算卸载方式所需的传输能耗。其中,卫星运维能耗为卫星除执行任务v外为日常活动运转维护的能耗,包括卫星的姿态控制、热控制、反作用控制等所需的能源开销,可看作固定值。因此,计算卸载方式的序数l变化时,/>可视为不变,计算能耗/>和传输能耗/>随之发生变化。
具体地,当l=1时,表示在时刻t采用本地服务节点计算任务数据所需的计算能耗,此时/>表示不产生传输能耗。当l=2时,/>表示在时刻t采用本地服务节点和协作服务节点联合计算任务数据所需的计算能耗,/>表示在时刻t本地服务节点传输任务数据至各协作服务节点的传输能耗;当l=3时,由于地面服务节点能源供应的可持续性,/>表示在时刻t忽略地面服务节点计算任务数据的计算能耗;/>表示在时刻t本地服务节点传输任务数据至地面服务节点的传输能耗。
任务v在时刻t采用第l种计算卸载方式所需的计算能耗按照下式计算:
式中,ζ表示芯片能耗系数,表示在时刻t卫星服务节点ni为任务v分配的计算资源,/>表示/>的3次方。
若,则在时刻t采用第l种计算卸载方式所需的传输能耗按照下式计算:
另外,任务v在当前时刻t的资源分配策略取决于在时刻t的任务执行状态信息。在时刻t的任务执行状态信息包括任务在当前时刻t的剩余需执行数据量d(t)、剩余任务的执行时延上限τ(t)以及在时刻t剩余任务的可执行状态e'(t)。其中,本发明通过上文的约束条件C3、约束条件C4分别实现了任务在当前时刻t的剩余需执行数据量d(t)、剩余任务的执行时延上限τ(t)对任务v在当前时刻t的资源分配策略的约束。需要说明的是,剩余任务是指完整任务v未执行完的剩余部分。
执行剩余任务所需的数据量d(t)按照下式计算:
式中,dori表示执行完整任务v所需的数据量,dl(t)表示在时刻t采用第l种计算卸载方式所需的数据量。
具体地,当l=1时,dl(t)表示在时刻t采用本地服务节点计算所需的数据量;当l=2时,dl(t)表示在时刻t采用本地服务节点和各协作服务节点联合计算所需的数据量;当l=3时,dl(t)表示在时刻t采用地面服务节点计算所需的数据量。
也就是说,根据计算卸载方式的序数l的不同,分为以下三种情况:
在时刻t剩余任务的最大执行时延τ(t)按照下式计算:
式中,τori表示完整任务v可容忍的最大执行时延。
步骤S3,根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式,建立深度强化学习模型。
深度强化学习相较于机器学习中经典的监督学习与非监督学习方法,显著特点为智能体能够在环境交互中学习。智能体通过与环境交互获得奖励或惩罚以不断获取知识,从而更好地适应环境。深度强化学习主要包含4个要素,分别为状态、动作、回报与策略,其原理为:在每个时刻t,系统处于状态st,根据策略π(at|st)选取动作at,随后进入下一个状态st+1,同时从环境中获得瞬时回报rt。强化学习的目标是学习到最优策略π*,使得从任意状态起始的期望折扣累积回报最大化,其中,γ为折扣因子,表示未来回报的重要性,γt表示未来时刻t的收益值只有它当前值的γt倍,γ∈[0,1)。本发明提出以本地服务节点为智能体建立深度强化学习模型的求解方法,通过调整智能体对每个时隙任务采用的计算卸载方式以及各服务节点分配的计算资源,来最大化网络内的资源效率,降低任务的综合开销。假设每个时隙本地服务节点只能选择一个计算卸载方式,可以同时与多个卫星同时保持连接与传输。
基于上述原理,本发明建立深度强化学习模型包括:
步骤S31,根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式,构建状态函数st如下:
式中,e(t)表示任务v在当前时刻t的执行状态;eg(t)表示地面服务节点对任务v在当前时刻t的可见性;d(t)表示任务在当前时刻t的剩余需执行数据量;τ(t)表示在当前时刻t的剩余任务的执行时延上限τ(t);表示任务v在当前时刻t卫星服务节点集合N可使用的最大空闲计算资源;/>表示任务v在当前时刻t地面服务节点可使用的最大空闲计算资源;/>表示在当前时刻t本地服务节点ni与各卫星协作服务节点的星间数据传输速率/> 表示在当前时刻t本地服务节点ni与地面服务节点的星地数据传输速率。另外,前述各状态变量在深度强化学习模型训练开始之前进行Min-Max归一化处理,以加速训练速度。
步骤S32,根据步骤S2构建的优化问题的表达式,构建动作函数at如下:
at={c(t),fn(t),fg(t)},
式中,c(t)表示任务v在当前时刻t的计算卸载方式,fn(t)表示在当前时刻t卫星服务节点集合N的计算资源,fg(t)表示在当前时刻t地面服务节点为任务v分配的计算资源。
步骤S33,根据上述状态函数st和动作函数at,构建瞬时回报函数radj(st,at),并获取对应的累积回报函数
瞬时回报函数radj(st,at)由四部分组成,包括:回报函数r(st,at)、任务完成时的激励值rs(st,at)、任务失败时的惩罚值rp(st,at)以及回报塑形函数rd(st,at)。其中,r(st,at),rs(st,at),rp(st,at),rd(st,at)分别表示任务执行时延开销与卫星的能耗开销组合的系统开销、任务完成的奖励、任务失败的惩罚以及任务执行计算的数据奖励。
下面对上述四个函数进行详细说明。
回报函数r(st,at)表示在时刻t给定状态st时采取动作at的回报,按照下式计算:
累积回报函数Rt表示从初始状态s0至状态st产生的累积折扣回报,计算方式为:
式中,st+k为系统在时刻(t+k)的状态,at+k为系统在时刻(t+k)的动作,k表示当前时刻t之后经过的时隙数。
为提高计算资源分配策略中动作探索的有效性,在任务完成时与任务失败时分别额外设置激励值rs与惩罚值rp。其中,若任务v在时刻t给定状态st时采取动作at能够在满足任务的服务需求下执行完毕,即那么任务顺利完成,相应的激励函数rs(st,at)=rs,反之rs(st,at)=0;类似的,若任务v在时刻t给定状态st时采取动作at未能满足任务的服务需求以致任务执行终止,即/>那么任务执行失败,相应的惩罚函数rp(st,at)=-rp,反之rp=0。其中,rs,rp均为正数。
rs(st,at)与rp(st,at)均进行归一化合理设置其值大小。为在任务执行中任务完成或失败的回报能够被观测并显著影响多节点计算资源分配策略的预期目标下,rs,rp的值的值和所执行的任务大小、重要性等因素相关,可以设置为包括任务数据大小和任务重要性等影响因素的线性函数或常数。
此外,为提高计算资源分配策略对探索任务完成的稀疏性回报的效率,定义附加回报塑形函数rd(st,at),该函数表示在时刻t给定状态st时采取动作at,时刻t至时刻t+1内的执行计算完毕的加权任务数据量,回报塑形函数的计算方式为:
式中,αd(αd≥0,αd∈R)表示执行计算完毕的任务数据量占系统开销的权重,反映了任务完成对于系统的相对重要性,αd越大,系统在时刻t越倾向选取执行计算更多任务数据量的动作。
因此,系统在时刻t的瞬时回报函数radj(st,at)为:
radj(st,at)=r(st,at)+rs(st,at)+rp(st,at)+rd(st,at)
对应的,累积回报函数的计算方式为:
步骤S4,基于近端策略优化算法求解步骤S3所建立的深度强化学习模型。
深度强化学习模型中的长跨度时序状态信息包括每个任务决策时刻的任务执行状态信息、各服务节点的计算资源信息和各服务节点间的无线传输信息。为了解决此高维状态信息下的联合优化问题,在传统强化学习理论基础上引入了深度神经网络,利用同策略(on-policy)和随机策略的训练稳定性高的优势,本发明引入近端策略优化(ProximalPolicy Optimization,PPO)算法,以较小计算代价提高样本利用率。
本发明所设计的深度强化学习PPO算法框架示意图如图3所示。由卫星服务节点与环境组成的智能体与环境交互模型将获取的环境状态(由前述定义可知,环境状态包括以下信息:任务的执行状态信息、可调度范围内的各服务节点的计算资源信息和无线传输信息)作为输入,输入至基于行动家-评论家(Actor-Critic,AC)框架的深度强化学习PPO算法网络结构。网络由策略网络与价值网络两个网络组成。其中,策略网络负责学习策略,决策智能体输出各服务节点的计算资源分配策略;价值网络负责评估策略网络的决策,优化策略选择。策略网络与价值网络分别利用各自独立的深度神经网络来拟合策略函数与价值函数。策略网络计算当前策略下的累积折扣回报,通过最小化价值网络的损失函数来优化价值深度神经网络参数,更新策略评估。价值网络计算当前值函数下的优势估计,通过最大化策略网络损失函数来优化策略深度神经网络参数,更新策略。策略网络与价值网络相互依赖,相互作用,在训练过程中网络参数迭代优化。
根据建立的深度强化学习模型中的状态空间设计,状态空间具有向量的编码特征,本发明的策略网络与价值网络选取全连接层神经网络(Multi-Layer Perception,MLP)的网络结构。此外,为加速训练过程中的收敛速度,注意到价值网络需要比策略网络多处理动作维度的数据量,本发明利用深度残差网络(Deep Residual Networks,ResNet)的强大泛化能力,通过在价值网络的第一层隐藏层增加恒等映射(Identity Mapping),即将该隐藏层网络节点添加动作策略的维度来提升训练效果。
PPO算法作为同策略算法,利用蒙特卡罗方法通过最新策略随机收集采样的多个完整的任务轨迹子集合获取当前价值函数的无偏估计,评估并改进策略。在结束利用基于当前策略的任务轨迹集合的神经网络参数更新后,丢弃收集的轨迹集合样本,基于更新后的策略进行重新收集轨迹集合样本进行迭代优化。
本发明中所提供的PPO算法的流程示意图如图4所示,具体包括以下步骤:
步骤1),初始化环境状态、经验池以及网络模型(包括策略深度神经网络的初始性质参数θ0与价值深度神经网络的初始性质参数φ0),初始化训练的迭代次数p为1,初始化迭代次数p中的时间步t为1。
步骤2),基于当前迭代次数p来获取策略函数输入状态st,输出动作at,同时获得回报radj(st,at),转入下一个状态st+1,获得训练数据[st,at,radj(st,at),st+1],将其作为任务轨迹数据集合{κp}的一部分存储至经验池。
其中,策略函数根据当前的策略网络(即策略深度神经网络)的性质参数θp确定。举例来说,在深度学习中,有一族函数f(X;θ),其中X为输入数据,θ为参数(典型的高阶矩阵)。而目标则是寻找一组最优参数θ*,使得f(X;θ*)最合适于描述给定的数据。在当前迭代次数p,确定深度神经网络的性质参数θp,即确定了网络节点数,网络权重参数等描述神经网络特征性质的性质参数集合,便确定了当前描述输入数据和输出策略的特定函数表示(即策略函数/>)。
步骤3),判断是否满足t<T,T为决策时间结束时刻,即迭代次数p的总时间步,若是,t=t+1,进入步骤2),否则进入步骤4)。
步骤4),基于当前迭代次数p的策略函数计算收集的任务轨迹数据集合{κp}每个时间步的累积折扣回报/>{κp}为迭代次数p收集的任务轨迹数据集合。
步骤5),基于当前迭代次数p的价值函数计算收集的任务轨迹数据集合{κp}每个时间步的通用优势估计(GeneralizedAdvantage Estimation,GAE)/>
其中,价值函数根据当前迭代次数的价值网络的性质参数φp确定。举例来说,在深度学习中,有一族函数f(X;θ),其中X为输入数据,θ为参数(典型的高阶矩阵)。而目标则是寻找一组最优参数θ*,使得f(X;θ*)最合适于描述给定的数据。在当前迭代次数p,确定深度神经网络参数φp,即确定了网络节点数,网络权重参数等描述神经网络特征性质的参数集合,便确定了当前描述输入数据和输出的特定函数表示(即价值函数/>)。
通用优势估计计算方式如下:
式中,GAE参数λadv用于调整偏差与方差间的估计平衡,λadv∈[0,1]。
步骤6),初始化迭代次数p中随机采样的子任务轨迹集合的轮数v为1。
步骤7),基于迭代次数p的任务轨迹数据集合{κp},随机采样子任务轨迹,得到子任务轨迹集合Bv。子任务轨迹集合Bv包括随机采样得到的任务轨迹数据集合{κp}的子批次(mini-batch)数的任务轨迹,子批次数小于任务轨迹数据集合{κp}的任务轨迹数。
随后,根据子任务轨迹集合Bv更新策略网络的性质参数θp和价值网络的性质参数φp,具体包括如下步骤8)和步骤9):
步骤8),将策略网络的损失函数LA(θ)最大化,为以更新策略网络的性质参数θ(θ为策略网络性质参数的通用表示形式),其中的ò=0.2,λent=0.005。
损失函数LA(θ)的计算方式如下:
其中,策略网络损失函数LA(θ)为子任务轨迹集合Bv关于策略代理函数LCLIP(θ)与交叉熵损失函数LE(θ)组合的期望。λent作为交叉熵损失函数LE(θ)的加权系数,用于平衡策略深度神经网络的动作探索与挖掘。策略代理函数LCLIP(θ)与交叉熵损失函数LE(θ)的计算方式分别为:
其中,rt(θ)为不同策略深度神经网络参数下由于输入状态st输出动作at的概率比。利用超参数ò约束rt(θ)的极值,限定rt(θ)的取值范围为[1-∈,1+∈],从而约束了算法在对策略网络参数θp+1相比θp的更新范围,ò∈(0,1)。
步骤9),将价值网络损失函数LC(φ)最小化,以更新价值网络的性质参数φ,其中的λval=0.5。
最小化损失函数LC(φ)的计算方式如下:
其中,λval是价值网络损失函数LC(φ)的加权系数,Vφ(st)为价值网络取得的真实值函数,为当前策略网络估计的值函数。超参数δ用于调节优化子采样集合Bv中价值网络函数的平均绝对误差(MeanAbsolute Error,MAE)期望与均方误差(Mean SquaredError,MSE)期望的组合分布。
步骤10)判断是否满足v<K,K为随机采样的子任务轨迹集合的轮数设定阈值,若是,v=v+1,进入子步骤7,否则进入子步骤11;
步骤11)判断是否满足p<Q,Q为训练迭代次数设定阈值,若是,清除迭代次数p收集的任务轨迹数据集合{κp},随后p=p+1,进入步骤2,否则优化结束,得到训练完的深度强化学习模型。
步骤S5,根据求解后的深度强化学习模型,确定各服务节点的计算资源分配策略。
具体地,将时刻t获取的任务执行状态信息、各协作服务节点的计算资源信息以及各服务节点间的无线传输信息作为状态st输入,利用步骤3建立的深度强化学习模型与步骤4采用的基于近端策略优化算法进行求解,输出多节点计算资源分配策略at={c(t),fn(t),fg(t)},得到任务计算卸载方式c(t)与各服务节点的计算资源分配情况{fn(t),fg(t)}。
本发明提供一种星地融合网络的多节点计算资源分配方法,具有以下有益效果:
(1)卫星获取计算任务并在多个计算服务节点之间进行计算卸载与资源分配。利用多节点计算资源对任务进行协作计算,减少任务的时延开销和卫星能耗开销,提升星地融合网络的性能。
(2)结合卫星能耗和任务时延双重指标需求,定义系统开销的优化目标。引入深度强化学习方法,解决星地融合网络的多节点计算资源分配方法。定义深度强化学习框架下的具体的状态、动作和回报函数,提出模型训练方法和策略生成方法。在保证任务完成质量的前提下,所提方法在算法的稳定性和系统开销性能方面具有明显优势。
总之,本发明基于卫星网络的广域负载不均衡特性,提出包含多颗卫星和地面计算节点的计算资源联合分配策略,有效提升卫星网络和地面网络的资源利用效率。其次,为了降低星地传输延时影响,本发明提出在卫星服务节点上完成数据采集、信息交互、模型训练以及策略执行,具有较好的时效性。此外,针对本发明时延和能效的联合优化目标,设计适配深度强化学习模型的状态、动作、回报函数和问题求解算法,实现多节点(包含多颗卫星、地面计算节点等)之间的高效联合计算资源分配策略。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。即凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。
Claims (7)
1.一种基于深度强化学习的星地融合网络多节点计算资源分配方法,其特征在于,包括:
步骤S1,从星地融合网络中的各服务点中确定本地服务节点和协作服务节点,从本地服务节点中获取任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息;
步骤S2,根据任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息,构建以最小化卫星能耗与任务执行时延的加权系统开销为目标的优化问题的表达式;所述优化问题的表达式为:
式中,c(t)表示任务v在时刻t的计算卸载方式,c(t)=[c1(t),c2(t),c3(t)];fn(t)表示卫星服务节点集合N在时刻t为任务v分配的计算资源向量,fg(t)表示在时刻t地面服务节点为任务v分配的计算资源;N表示M颗低轨卫星服务节点的集合N={n1,n2,...,nM};T表示决策时间范围被等间隔离散化为T个时隙;α∈[0,1]表示卫星能耗占系统开销的权重,(1-α)表示任务执行时延占系统开销的权重;cl(t)表示任务v在时刻t的计算卸载方式,l表示所有计算卸载方式中所选择的计算卸载方式的序数;El(t)表示任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗,Tl(t)表示任务v在时刻t采用第l种计算卸载方式所需的执行时延;约束条件C1表示每个调度时刻仅选择一种计算卸载方式;约束条件C2表示每个服务节点为任务v分配的计算资源不能超过可用空闲计算资源上限,/>表示在时刻t卫星服务节点ni为任务v分配的计算资源,/>表示在时刻t卫星ni可使用的最大空闲计算资源;/>表示任务v在时刻t地面服务节点可使用的最大空闲计算资源;约束条件C3表示任务总执行时延应满足最大时延约束,τori表示任务v可容忍的最大处理时延;约束条件C4表示任务的全部数据应在最大时延约束范围内完成,dl(t)表示在时刻t采用第l种计算卸载方式完成任务v的数据量,dori表示执行完整任务v所需的数据量;
步骤S3,根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式,建立深度强化学习模型;
步骤S4,基于近端策略优化算法求解步骤S3所建立的深度强化学习模型;
步骤S5,根据求解后的深度强化学习模型,确定各服务节点的计算资源分配策略。
2.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法,其特征在于,所述任务的执行状态信息包括任务的需执行数据量、执行时延需求、任务在本地服务节点的决策时间范围内的任一时刻的执行状态以及地面服务节点对于任务在本地服务节点的决策时间范围内的任一时刻的可见性。
3.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法,其特征在于,所述各服务节点间的无线传输信息包括星地数据传输速率、星间数据传输速率、星地传播时延和星间传播时延。
4.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法,其特征在于,所述步骤S3中,建立深度强化学习模型包括:
步骤S31,根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式,构建状态函数;
步骤S32,根据步骤S2构建的优化问题的表达式,构建动作函数;
步骤S33,根据所述状态函数和所述动作函数,构建瞬时回报函数,并获取对应的累积回报函数。
5.根据权利要求4所述的基于深度强化学习的星地融合网络多节点计算资源分配方法,其特征在于,所述瞬时回报函数由回报函数、任务完成时的激励值、任务失败时的惩罚值以及回报塑形函数构成。
6.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法,其特征在于,星地数据传输速率按照下式计算:
式中,表示本地服务节点ni与地面服务节点之间的通信带宽,/>表示本地服务节点ni在时刻t对地面服务节点的发射功率,/>表示本地服务节点ni的发射天线增益与地面服务节点的接收天线增益的乘积,/>表示本地服务节点ni在时刻t与地面服务节点之间的信道增益,/>表示地面服务节点的接收机噪声功率。
7.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法,其特征在于,星间数据传输速率按照下式计算:
式中,表示本地服务节点ni与卫星协作服务节点nj之间的通信带宽,/>表示本地服务节点ni在时刻t对卫星协作服务节点nj的发射功率,/>表示本地服务节点ni的发射天线增益与卫星协作服务节点nj的接收天线增益的乘积,/>表示本地服务节点ni与卫星协作服务节点nj之间的信道增益,/>表示卫星协作服务节点nj的接收机噪声功率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111670934.2A CN115250142B (zh) | 2021-12-31 | 2021-12-31 | 一种基于深度强化学习的星地融合网络多节点计算资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111670934.2A CN115250142B (zh) | 2021-12-31 | 2021-12-31 | 一种基于深度强化学习的星地融合网络多节点计算资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115250142A CN115250142A (zh) | 2022-10-28 |
CN115250142B true CN115250142B (zh) | 2023-12-05 |
Family
ID=83699029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111670934.2A Active CN115250142B (zh) | 2021-12-31 | 2021-12-31 | 一种基于深度强化学习的星地融合网络多节点计算资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115250142B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118524069B (zh) * | 2024-07-19 | 2024-11-01 | 西安电子科技大学 | 大规模卫星网络业务级通算协同资源分配装置及方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013168870A1 (ko) * | 2012-05-08 | 2013-11-14 | 한국전자통신연구원 | 큰 셀 반경을 가지는 이동 통신 시스템에서의 랜덤 액세스 방법 및 랜덤 액세스 채널 구조 |
WO2017099548A1 (en) * | 2015-12-11 | 2017-06-15 | Lg Electronics Inc. | Method and apparatus for indicating an offloading data size and time duration in a wireless communication system |
CN110149140A (zh) * | 2019-05-17 | 2019-08-20 | 哈尔滨工业大学(深圳) | 卫星机会式网络的转发方法 |
CN110647391A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 面向星地协同网络的边缘计算方法及系统 |
CN111475301A (zh) * | 2020-04-09 | 2020-07-31 | 清华大学 | 卫星资源分配方法、装置和电子设备 |
CN111615121A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 地面机动站多跳任务计算卸载处理方法 |
CN112115505A (zh) * | 2020-08-07 | 2020-12-22 | 北京工业大学 | 基于移动边缘计算和区块链技术的新能源汽车充电站计费数据传输方法 |
CN112260743A (zh) * | 2020-09-16 | 2021-01-22 | 西安空间无线电技术研究所 | 一种计算资源分配方法及装置 |
CN112653500A (zh) * | 2020-12-16 | 2021-04-13 | 桂林电子科技大学 | 基于蚁群算法的面向低轨道卫星边缘计算任务调度方法 |
CN112689296A (zh) * | 2020-12-14 | 2021-04-20 | 山东师范大学 | 一种异构IoT网络中的边缘计算与缓存方法及系统 |
CN113055489A (zh) * | 2021-03-23 | 2021-06-29 | 北京计算机技术及应用研究所 | 基于q学习的星地融合网络资源分配策略的实现方法 |
CN113346944A (zh) * | 2021-06-28 | 2021-09-03 | 上海交通大学 | 空天地一体化网络中时延最小化计算任务卸载方法及系统 |
CN113391824A (zh) * | 2021-06-29 | 2021-09-14 | 中国农业银行股份有限公司 | 计算卸载方法、电子设备、存储介质以及计算机程序产品 |
CN113422812A (zh) * | 2021-06-08 | 2021-09-21 | 北京邮电大学 | 一种服务链部署方法及装置 |
CN113434212A (zh) * | 2021-06-24 | 2021-09-24 | 北京邮电大学 | 基于元强化学习的缓存辅助任务协作卸载与资源分配方法 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
CN113626104A (zh) * | 2021-08-18 | 2021-11-09 | 北京工业大学 | 边云架构下基于深度强化学习的多目标优化卸载策略 |
-
2021
- 2021-12-31 CN CN202111670934.2A patent/CN115250142B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013168870A1 (ko) * | 2012-05-08 | 2013-11-14 | 한국전자통신연구원 | 큰 셀 반경을 가지는 이동 통신 시스템에서의 랜덤 액세스 방법 및 랜덤 액세스 채널 구조 |
WO2017099548A1 (en) * | 2015-12-11 | 2017-06-15 | Lg Electronics Inc. | Method and apparatus for indicating an offloading data size and time duration in a wireless communication system |
CN110149140A (zh) * | 2019-05-17 | 2019-08-20 | 哈尔滨工业大学(深圳) | 卫星机会式网络的转发方法 |
CN110647391A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 面向星地协同网络的边缘计算方法及系统 |
CN111615121A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 地面机动站多跳任务计算卸载处理方法 |
CN111475301A (zh) * | 2020-04-09 | 2020-07-31 | 清华大学 | 卫星资源分配方法、装置和电子设备 |
CN112115505A (zh) * | 2020-08-07 | 2020-12-22 | 北京工业大学 | 基于移动边缘计算和区块链技术的新能源汽车充电站计费数据传输方法 |
CN112260743A (zh) * | 2020-09-16 | 2021-01-22 | 西安空间无线电技术研究所 | 一种计算资源分配方法及装置 |
CN112689296A (zh) * | 2020-12-14 | 2021-04-20 | 山东师范大学 | 一种异构IoT网络中的边缘计算与缓存方法及系统 |
CN112653500A (zh) * | 2020-12-16 | 2021-04-13 | 桂林电子科技大学 | 基于蚁群算法的面向低轨道卫星边缘计算任务调度方法 |
CN113055489A (zh) * | 2021-03-23 | 2021-06-29 | 北京计算机技术及应用研究所 | 基于q学习的星地融合网络资源分配策略的实现方法 |
CN113422812A (zh) * | 2021-06-08 | 2021-09-21 | 北京邮电大学 | 一种服务链部署方法及装置 |
CN113434212A (zh) * | 2021-06-24 | 2021-09-24 | 北京邮电大学 | 基于元强化学习的缓存辅助任务协作卸载与资源分配方法 |
CN113346944A (zh) * | 2021-06-28 | 2021-09-03 | 上海交通大学 | 空天地一体化网络中时延最小化计算任务卸载方法及系统 |
CN113391824A (zh) * | 2021-06-29 | 2021-09-14 | 中国农业银行股份有限公司 | 计算卸载方法、电子设备、存储介质以及计算机程序产品 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
CN113626104A (zh) * | 2021-08-18 | 2021-11-09 | 北京工业大学 | 边云架构下基于深度强化学习的多目标优化卸载策略 |
Non-Patent Citations (3)
Title |
---|
Maximization of link capacity by joint power and spectrum allocation for smart satellite transponder;Haitao Wang等;《 2017 23rd Asia-Pacific Conference on Communications (APCC)》;全文 * |
空天地网络中基于强化学习的通信计算与缓存技术研究;陈梦婷;《中国优秀硕士学位论文全文数据库-信息科技辑》;全文 * |
面向新型混合星地网络的资源分配与性能分析;阮玉晗;《中国博士学位论文全文数据库-信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115250142A (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN110113190B (zh) | 一种移动边缘计算场景中卸载时延优化方法 | |
CN113543176A (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
Han et al. | Multi-step reinforcement learning-based offloading for vehicle edge computing | |
CN115250142B (zh) | 一种基于深度强化学习的星地融合网络多节点计算资源分配方法 | |
CN116634498A (zh) | 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法 | |
Wu et al. | Deep reinforcement learning for computation offloading and resource allocation in satellite-terrestrial integrated networks | |
Jiang et al. | MARS: A DRL-based Multi-task Resource Scheduling Framework for UAV with IRS-assisted Mobile Edge Computing System | |
Lin et al. | Computing assistance from the sky: Decentralized computation efficiency optimization for air-ground integrated MEC networks | |
Liu et al. | Joint task offloading and resource allocation for RIS-assisted UAV for mobile edge computing networks | |
CN114928394A (zh) | 一种能耗优化的低轨卫星边缘计算资源分配方法 | |
Nguyen et al. | Utility optimization for blockchain empowered edge computing with deep reinforcement learning | |
Ge et al. | Mobile edge computing against smart attacks with deep reinforcement learning in cognitive MIMO IoT systems | |
CN116009590B (zh) | 无人机网络分布式轨迹规划方法、系统、设备及介质 | |
CN115483964B (zh) | 一种空天地一体化物联网通信资源联合分配方法 | |
CN117320075A (zh) | 一种面向水域船舶的边缘计算网络部署和资源管理方法 | |
CN117579126A (zh) | 基于深度强化学习的卫星移动边缘计算卸载决策方法 | |
Zhang et al. | Intelligent joint beamforming and distributed power control for uav-assisted ultra-dense network: A hierarchical optimization approach | |
Zhou et al. | Adaptive Task Offloading with Spatiotemporal Load Awareness in Satellite Edge Computing | |
CN115173926A (zh) | 基于拍卖机制的星地融合中继网络的通信方法和通信系统 | |
CN115580900A (zh) | 一种基于深度强化学习的无人机辅助协作式任务卸载方法 | |
Singh et al. | Digital Twin-Assisted Resource Allocation in UAV-Aided Internet of Vehicles Networks | |
CN114698125A (zh) | 移动边缘计算网络的计算卸载优化方法、装置及系统 | |
Wu et al. | Lifelong Learning for AoI and Energy Tradeoff Optimization in Satellite-Airborne-Terrestrial Edge Computing Networks | |
Chai et al. | Long-Term Energy Consumption Optimization-Based Task Offloading Algorithm for Satellite-IoT Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |