WO2024174426A1

WO2024174426A1 - 一种基于移动边缘计算的任务卸载及资源分配方法

Info

Publication number: WO2024174426A1
Application number: PCT/CN2023/100968
Authority: WO
Inventors: 李云; 高倩; 姚枝秀; 夏士超; 梁吉申
Original assignee: 重庆邮电大学
Priority date: 2023-02-20
Filing date: 2023-06-19
Publication date: 2024-08-29
Also published as: CN116137724A

Abstract

一种基于移动边缘计算的任务卸载及资源分配方法，涉及无线通信技术领域；该方法包括：构建移动边缘计算系统模型；基于移动边缘计算系统模型构建服务缓存模型和服务指派模型；基于服务缓存模型和服务指派模型，建立任务卸载及资源分配约束条件；根据任务卸载及资源分配约束条件，以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题；采用DSRA算法求解任务卸载及资源分配联合优化问题，得到任务卸载及资源分配策略；本发明可实现低时延和高缓存命中率，实现资源的按需分配。

Description

一种基于移动边缘计算的任务卸载及资源分配方法

本申请要求于2023年02月20日提交中国专利局、申请号为202310138344.8、发明名称为“一种基于移动边缘计算的任务卸载及资源分配方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明属于无线通信技术领域，具体涉及一种基于移动边缘计算的任务卸载及资源分配方法。

背景技术

随着物联网的快速发展和智能移动设备(Mobile Device,MD)的爆炸式增长，以大数据和智能化为特点的新型应用不断涌现(如在线游戏、虚拟现实(VR)、增强现实(AR)、远程医疗等)，且这些应用业务通常具有计算密集和时延敏感的特征。然而，受限于移动设备体积、计算能力、存储能力和电池电量等，MDs在处理高能耗、高复杂度的计算任务时，通常存在算力不足、时延大、续航能力低等问题。移动边缘计算(Mobile Edge Computing，MEC)作为一种先进的计算方式被提出，以实现网络边缘的超大容量、超低时延、超高带宽和低能耗数据处理愿景。MEC通过将云中心的算力、存储等资源下沉到网络边缘，并驱动用户将计算任务卸载到网络边缘，以享受高性能的计算服务体验。

深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习的感知能力和强化学习的决策能力，可以有效处理MEC系统中的各种决策问题。例如，现有技术中一种车辆多接入边缘计算中计算深度强化学习的资源管理方法研究了MEC车载网络中频谱、计算和存储资源的联合分配问题，利用DDPG和分层学习，实现资源的快速分配，满足了车辆应用的服务质量要求。一种缓存辅助的移动边缘计算系统中基于深度强化学习的动态计算卸载和资源分配方法研究了缓存辅助的MEC系统中的动态缓存、计算卸载和资源分配问题，提出了一种基于DRL的智能动态调度策略。然而，上述方法都采用单智能体的深度强化学习算法，单智能体的深度强化学习算法要求环境是稳定的，而现实的网络环境往往是动态变化的，环境是不稳定的，不利于收敛，同时也会使经验回放等技巧无法直接使用。

因此，在未来网络结构日益密集异构化、资源部署去中心化的边缘网络中，如何设计实现更加动态灵活的分布式计算卸载和资源分配策略具有重要意义。同时，考虑到网络环境的部分可观测性和业务请求的时间依赖性等特征对网络服务编排和算网资源分配的影响，去中心化的MEC场景中的任务卸载和多维资源分配问题具有重要研究价值。

发明内容

针对现有技术存在的不足，本发明提出了一种基于移动边缘计算的任务卸载及资源分配方法，该方法包括：

S1：构建移动边缘计算系统模型；

S2：基于移动边缘计算系统模型构建服务缓存模型和服务指派模型；

S3：基于服务缓存模型和服务指派模型，建立任务卸载及资源分配约束条件；

S4：根据任务卸载及资源分配约束条件，以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题；

S5：采用DSRA算法求解任务卸载及资源分配联合优化问题，得到任务卸载及资源分配策略。

优选的，步骤S1具体包括：构建移动边缘计算系统模型，包含M个基站BS，基站集合表示为每个基站配备有一个MEC服务器；对于基站BS_m 其下有N_m个用户设备MD，用户集合表示为系统在离散的时隙中运行，定义时间集合T＝{0,1,2,…}；对于基站BS_m下的一个用户在时隙t(t∈T)产生的计算密集型任务定义为其中，表示任务的数据量大小，表示任务的最大容忍时延，表示处理单位比特任务所需要的CPU周期数，表示处理任务所需的服务类型；基站BS_m下所有用户产生的任务表示为

优选的，步骤S2中构建服务缓存模型具体包括：定义服务类型集合为令a_k,m(t)∈{0,1}表示在时隙t时BS_m中服务k的缓存指示函数，a_k,m(t)＝1表示在BS_m中缓存服务k，否则BS_m将不会缓存服务k；基站BS_m在_t时隙的服务缓存策略集合表示为a_m(t)＝{a_1,m(t),…,a_k,m(t),…,a_K,m(t)}。

优选的，步骤S2中构建服务指派模型具体包括：对于任一用户具有四种任务处理方式，不同的任务处理方式具有不同的处理时延；四种任务处理方式分别为：本地计算、卸载到关联BS_m进行处理、通过关联基站将卸载的任务转发到其他BS进行处理、卸载到云中心进行处理。

进一步的，用户的任务处理时延表示为：

其中，表示在t时隙时基站BS_m下的用户的任务处理时延，表示用户进行本地计算时的任务处理时延，表示任务卸载到关联基站的传输时延，表示关联基站处理任务的时延，T_tr,m(t)表示任务被关联基站进行转发的时延，表示其他基站处理任务的时延，T_m,c(t)表示任务通过关联基站转发到云中心的传输时延，表示本地任务处理策略，表示任务卸载到关联基站进行处理的策略，表示任务卸载到其他基站进行处理的策略，表示任务卸载到云中心进行处理的策略。

优选的，所述任务卸载及资源分配联合优化问题表示为：

其中，T表示系统运行时间，M表示基站数量，表示在t时隙时基站BS_m下的用户的任务处理时延，a(t)表示基站服务缓存策略，b(t)表示任务卸载策略，α(t)表示频谱资源分配策略，β(t)表示基站算力资源分配策略，N_m表示第m个基站下的用户设备数量，表示在t时隙时基站BS_m下的用户的任务最大容忍时延，表示用户的本地任务处理策略，表示用户的任务卸载到关联基站进行处理的策略，表示用户的任务卸载到其他基站进行处理的策略，表示用户的任务卸载到云中心进行处理的策略，a_k,m(t)表示在时隙t时第m个基站BS_m关于服务k的缓存指示函数，K表示服务类型数量，l_k表示处理任务的服务k所占用的存储空间大小，R_m表示第m个MEC服务器的存储空间大小，表示BS_m在时隙t分配给的频谱资源分配系数，表示BS_m在时隙t分配给的CPU频率分配系数。

优选的，采用DSRA算法求解任务卸载及资源分配联合优化问题的过程包括：将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程，由基站充当智能体，并构建对应的观测空间、动作空间和奖励函数；每个智能体均具有嵌入LSTM网络的actor网络和critic网络；actor网络根据单个智能体当前的本地观测状态生成相应的动作并根据动作更新奖励函数，进入下一状态；critic网络根据全局的观测状态和动作来估计其他智能体的策略；根据当前状态、下一状态、动作和奖励值生成经验信息；采样多条经验信息训练actor网络和critic网络，更新网络参数，得到训练好的actor网络和critic网络；根据actor网络训练结果得到任务卸载及资源分配策略。

进一步的，所述奖励函数表示为：

其中，r_m(t)表示t时隙时基站BS_m的奖励值，_T表示系统运行时间，_M表示基站数量，N_m表示第m个基站下的用户设备数量，表示t时隙时基站BS_m下的用户的任务处理时延，Y_m(t)表示任务处理时延满足时延约束的奖励，U_m(t)表示缓存不超过边缘服务器存储容量限制的奖励。

本发明的有益效果为：本发明针对去中心化的MEC场景中的服务编排和算网资源分配问题，以最小化任务处理时延为目标，提出了一种基于移动边缘计算的任务卸载及资源分配方法；考虑到用户业务请求的时间依赖性以及业务请求和服务缓存间的耦合关系，引入了LSTM网络来提取有关业务请求的历史状态信息，使用户通过学习这些历史信息，从而做出更优的决策。通过仿真实验，该方法可以实现更低的时延和更高的缓存命中率，实现了资源的按需分配。

附图说明

图1为本发明中基于移动边缘计算的任务卸载及资源分配方法流程图；

图2为本发明中移动边缘计算系统模型示意图；

图3为本发明中DSRA算法框图；

图4为本发明中DSRA算法和对比算法的平均时延随训练次数迭代的变化过程图；

图5为本发明中DSRA算法和对比算法的平均缓存命中率随训练迭代次数的变化过程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于移动边缘计算的任务卸载及资源分配方法，如图1所示，所述方法包括以下内容：

S1：构建移动边缘计算系统模型。

如图2所示，本发明考虑一种典型的MEC系统，其中，包含M个基站(Base Station,BS)，定义基站集合每个BS配置了具有一定计算和存储资源的MEC服务器；在第m个基站BS_m 下有N_m个用户设备MD，定义第m个基站下的用户集合表示为系统在离散的时隙中运行，定义时间集合对于BS_m下的第i个用户设置时隙t产生的计算密集型任务定义为其中，表示任务的数据量大小，单位为bit；表示任务的最大容忍时延，表示处理单位比特任务所需要的CPU周期数；表示处理任务所需的服务类型。则BS_m下所有用户产生的任务表示为

S2：基于移动边缘计算系统模型构建服务缓存模型和服务指派模型。

构建服务缓存模型具体包括：

在本发明中，服务是指运行各类型任务(如游戏、虚拟/增强现实)所需的特定程序或数据，在任一时隙，只有缓存了相应服务的MEC服务器才能够为MD的卸载任务提供计算服务。假设网络中总共有K种不同类型的服务，定义服务类型集合为令a_k,m(t)∈{0,1}表示在时隙_t时BS_m关于服务k的缓存指示函数，a_k,m(t)＝1表示在BS_m中缓存服务k，否则BS_m将不会缓存服务k；基站BS_m在t时隙的服务缓存策略集合表示为a_m(t)＝{a_1,m(t),…,a_k,m(t),…,a_K,m(t)}。

构建服务指派模型具体包括：

若BS_m缓存了处理任务所需服务类型则该任务可由BS_m处理，否则，任务只能在设备本地或卸载到其他服务器进行处理。对于任一具有四种任务处理方式，不同的任务处理方式具有不同的处理时延；四种任务处理方式分别为：1)本地计算；2)卸载到关联BS_m进行处理；3)通过关联基站将卸载的任务转发到其他BS进行处理；4)卸载到云中心进行处理。令表示在时隙t时，的任务卸载策略。其中，表示的本地任务处理策略，表示任务可在本地处理。类似地，表示任务卸载到关联基站进行处理的策略，表示任务卸载到邻近基站进行处理的策略，表示任务卸载到云中心进行处理的策略；时隙t基站BS_m下所有用户的任务卸载策略为

1)任务在本地计算

当任务在本地进行处理时，即令表示的本地CPU频率，则任务在本地的处理时间可表示为表示任务的数据量大小，单位为bit，表示处理单位比特任务所需要的CPU 周期数。

2)任务卸载到关联基站进行处理

若的关联基站BS_m缓存了服务k，则的任务可以通过无线链路卸载到BS_m处理，即根据香农公式，从到BS_m的上行链路的传输速率为其中，B_m为BS_m的带宽，为BS_m在时隙t分配给的频谱资源分配系数，满足为BS_m分配给的带宽，则BS_m频谱资源分配策略可以表示为表示的发送功率，表示与BS_m间的信道增益，σ²(t)表示时隙_t下的加性高斯白噪声功率。则任务的传输时延为

BS_m处理任务的时间为其中，f_m表示BS_m的CPU频率，为BS_m在时隙t分配给的CPU频率分配系数，满足表示BS_m分配给的CPU频率，则BS_m的算力资源分配策略可以表示为任务的处理结果通常比上传的数据小得多，本发明忽略结果传回的时延。

由上述分析可知，的任务卸载到关联基站BS_m进行处理的时延为

3)任务迁移到附近基站进行处理

若的关联基站BS_m上没有缓存服务k，但其附近的基站BS_n(n∈{1,2,…,M}且n≠m)缓存了服务k，则的任务可以由关联基站BS_m进行转发，迁移到附近的其他基站BS_n进行处理，即在时隙t，任务从关联基站转发到附近基站的传输速率为其中，ω_m为基站m转发任务时的带宽，P_m为基站m的转发功率，G_m,n为基站m与基站n间的信道增益，则任务由关联基站进行转发的时间为：

由上述分析可知，BS_n处理任务的时间为因此，任务转发到BS_n处理的计算卸载时延为

4)任务卸载到云中心进行处理

若的关联基站BS_m没有缓存处理该任务的相关服务，则该任务也可由关联基站BS_m转发到云中心进行处理，即云中心具有丰富的计算资源和存储资源，本发明忽略云中心的任务处理时间和结果传回时间。

的任务通过关联基站BS_m转发到云中心的计算卸载时间为其中，r_m,c(t)为BS_m把任务转发到云中心的传输速率。任务卸载到云中心进行处理的时延为

综上所述，在t时隙，用户的任务处理时延表示为：

其中，表示在t时隙时基站BS_m下的用户的任务处理时延，表示在t时隙时基站BS_m下的用户进行本地计算时的任务处理时延，表示在t时隙时基站BS_m下的用户将任务卸载到关联基站的传输时延，表示关联基站处理任务的时延，T_tr,m(t)表示任务被关联基站进行转发的时延，表示其他基站处理任务的时延，T_m,c(t)表示在t时隙时基站BS_m下的用户的任务通过关联基站转发到云中心的传输时延。

S3：基于服务缓存模型和服务指派模型，建立任务卸载及资源分配约束条件。

MEC服务器的存储空间有限，缓存的服务所占据存储空间不能超过MEC服务器的存储容量。定义第m个MEC服务器MECm的存储空间的大小为R_m，则有其中l_k表示处理该任务的服务所占用的存储空间的大小。

在时隙t，满足

任务的处理时延不能超过最大容忍时延：

分配的频谱资源总和应不大于基站带宽：

分配的计算资源总和应不大于基站计算资源：

S4：根据任务卸载及资源分配约束条件，以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题。

受限于服务器的资源(如计算、频谱和存储空间)，同时，任务卸载和资源分配相互耦合。鉴于此，本发明以最小化任务的长期处理时延为目标，建立了服务缓存和算网资源分配的联合优化问题，表示为：

其中，T表示系统运行时间，M表示基站数量，表示t时隙的用户的任务处理时延，a(t)＝{a₁(t),…,a_M(t)}表示基站服务缓存策略，b(t)＝{b₁(t),…,b_M(t)}表示任务卸载策略，α(t)＝{α₁(t),…,α_M(t)}表示频谱资源分配策略，β(t)＝{β₁(t),…,β_M(t)}表示基站算力资源分配策略，N_m表示第m个基站下的用户设备数量，表示在t时隙时基站BS_m下的用户的任务最大容忍时延，表示在t时隙时基站BS_m下的用户的本地任务处理策略，表示用户的任务卸载到关联基站进行处理的策略，表示用户的任务卸载到其他基站进行处理的策略，表示用户的任务卸载到云中心进行处理的策略，a_k,m(t)表示在时隙t时第m个基站BS_m关于服务k的缓存指示函数，K表示服务类型数量，l_k表示处理任务的服务k所占用的存储空间大小，R_m表示第m个MEC服务器的存储空间的大小，表示BS_m在时隙t分配给的频谱资源分配系数，表示BS_m在时隙t分配给的CPU频率分配系数。

边缘网络环境中，算网资源部署去中心化、网络环境高度动态化以及网络结构日益密集化等特点使得集中式的管理方式不能很好地应对高度动态的去中心化MEC环境，需要设计出更加动态灵活的分布式计算卸载和资源分配策略。多智能体深度强化学习作为一种分布式的DRL算法，可以很好地应用于去中心化MEC环境中的问题求解。鉴于此，本发明设计了一种基于多智能体深度强化学习的分布式智能服务编排和算网资源分配算法(Distributed Service Arrangement and Resource Allocation Algorithm，DSRA)，由基站作为智能体来学习任务卸载策略、服务缓存策略以及算网资源分配策略。同时，考虑到用户业务请求的时间依赖性以及业务请求和服务缓存间的耦合关系，利用LSTM网络来提取有关业务请求的历史状态信息，智能体通过学习这些的历史信息，可以更好地理解未来的环境状态，从而做出更优的决策。如图3所示，具体包括以下内容：

将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)，由基站充当智能体，并构建对应的观测空间、动作空间和奖励函数；定义元组描述上述马尔科夫博弈过程，其中表示全局的状态空间，时隙t的环境为全局状态为智能体的观测空间集合，是全局的动作空间集合，为奖励集合。在时隙t，智能体m根据本地观测采取策略π_m:选择对应的动作从而获得相应的奖励

1)环境状态

时隙t，智能体可以接收到其覆盖范围内移动设备的详细任务信息，包括任务的数据量大小、最大容忍时延，处理单位比特任务所需要的CPU周期数以及所需服务类型。环境状态可定义为s(t)＝{d₁,d₂,…,d_M,P₁,P₂,…,P_M,f₁,f₂,…,f_M,B₁,B₂,…,B_M,G₁,G₂,…,G_M}，其中，表示BS_m下所有用户产生的任务，f_m表示BS_m的CPU频率，为BS_m下所有用户的发送功率集合，为BS_m下所有用户与BS_m间的信道增益集合。时隙t，智能体m观测到的环境状态定义如下：

2)动作空间

智能体m根据观察到的环境状态o_m(t)和当前的策略π_m，从动作空间选择相应的动作，时隙t，智能体m的动作定义如下：

a_1,m(t),a_2,m(t),…,a_K,m(t)}

将二进制变量a_k,m(t)，和松弛为实值变量和a'_k,m(t)＞0.5表示BS_m中缓存服务k，否则BS_m将不会缓存服务k。对于和任务将选择其中最大值对应的卸载模式进行计算卸载。根据动作空间的定义和a_m(t)中每个元素的取值范围，可知动作空间是个连续的集合。

3)奖励函数

奖励函数衡量智能体在给定状态下采取某一动作所带来的效果。在训练过程中，智能体在t-1时隙采取了某一动作，对应的奖励将会在t时隙返回给智能体。根据所获得的奖励，智能体会更新其策略来获得最优的结果。由于奖励导致每个智能体达到其最优策略，并且策略直接决定对应的MEC服务器的算网资源分配策略、计算卸载策略和服务缓存策略，因此奖励函数应根据原始优化问题进行设计。本发明构建的奖励函数包含三部分：第一部分是任务处理时间的奖励，第二部分是任务处理时延满足时延约束的奖励，即第三部分是缓存不超过边缘服务器存储容量限制的奖励，即优化目标是最小化任务的长期处理时延，最大化长期回报，所以智能体m的累计奖励应为：

其中，H(·)是Heaviside阶跃函数；λ₁，λ₂分别表示第一、第二权重系数，Y_m(t)表示任务处理时延满足时延约束的奖励，U_m(t)表示缓存不超过边缘服务器存储容量限制的奖励。

每个基站均具有嵌入LSTM网络的actor网络和critic网络，actor网络和critic网络均包括当前网络和目标网络。DSRA算法的框架由环境和M个智能体即基站组成，每个智能体有集中训练阶段和分散执行阶段。训练时，采用集中式学习来训练critic网络和actor网络，critic网络训练时需要使用其他智能体的状态信息。分布式执行时，actor网络只需知道局部信息。即每个智能体在训练过程中会利用全局状态和动作来估计其他智能体的策略，并根据其他智能体的估计策略来调整局部策略，以达到全局最优。多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)能很好地处理环境完全可观测的情况，而真实的环境状态往往是部分可观测的，为了应对环境的部分可观测性和业务请求的时间依赖性，本发明将长短期记忆网络LSTM加入到actor网络和critic网络中。LSTM是一种循环神经网络，可以提取到有关业务请求的历史状态信息。智能体通过学习这些历史信息，可以更好地理解未来的状态，做出更优的决策。

actor网络根据单个智能体当前的本地观测状态生成相应的动作；具体的：actor网络根据本地观测状态获取当前任务卸载和资源分配策略，根据任务卸载和资源分配策略可从动作空间中生成相应的动作；智能体进入下一状态。

根据动作更新奖励函数；根据当前状态、下一状态、动作和奖励值生成经验信息；采样多条经验信息训练actor网络和critic网络，更新网络参数，得到训练好的actor网络。具体的：在训练过程中，令和分别表示采取动作前后actor网络和critic网络有关业务请求的历史信息，并利用来自经验回放存储器D中的经验来迭代更新DSRA算法。智能体m的经验回放存储器D包含一组经验元组，其中o_m(t)表示t时隙智能体m的观测状态，a_m(t)表示t时隙智能体m基于当前观测 o_m(t)所采取的动作，r_m(t)表示t时隙智能体m采取动作a_m(t)后获得的奖励，o'_m(t+1)表示智能体m在t+1时隙的状态，表示t时隙actor网络有关业务请求的历史信息，表示t时隙critic网络有关业务请求的历史信息，表示t+1时隙actor网络有关业务请求的历史信息，表示t+1时隙critic网络有关业务请求的历史信息。

在分散执行阶段，时隙t，每个智能体的actor网络根据本地观测状态o_m(t)、当前的历史状态信息以及它自身的策略选择动作

在集中训练阶段，每个critic网络可获得其他智能体的观测o_m(t)和动作a_m(t)，则智能体m的Q函数可表示为

Q函数从全局的角度来评估actor网络的动作，并且指导actor网络选择更优的动作。在训练时，critic网络通过最小化损失函数来更新网络参数，损失函数定义如下：

其中γ为折扣因子。同时，actor网络基于critic网络计算得到的集中Q函数和它自身的观测信息来更新网络参数θ，并输出动作a。actor网络参数θ通过最大化策略梯度来更新，即：

目标网络的参数通过软更新的方式进行更新，即：

actor网络训练好后，根据actor网络做出的动作可以得到在时间周期T内的任务卸载、服务缓存及资源分配策略。根据任务卸载及资源分配策略进行任务卸载，可使得在满足各种约束的前提下任务的总处理时延最小。

对本发明进行评价：

将本发明与多智能体深度确定性策略梯度算法MADDPG(Multi-agent Deep Deterministic Policy Gradient)、单智能体深度确定性梯度算法SADDPG(Single agent Deep Deterministic Policy Gradient)以及基于LSTM的单智能体深度确定性梯度算法TADPG进行对比。如图4所示，可以看出，随着训练次数episode的增加，任务的平均处理时延在不断地减小，并逐渐趋于稳定，最终达到收敛，DSRA算法的时延最小，表明DSRA算法可以做出更优的卸载和算网资源分配决策，从而获得更小的时延，实现了资源的按需分配，证明了该算法的有效性。从图5可以看出，随着episode的增加，缓存命中率曲线呈上升趋势，并最终达到收敛，且DSRA的缓存命中率最大，证明了该算法的有效性。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，包括：

S1：构建移动边缘计算系统模型；

S2：基于移动边缘计算系统模型构建服务缓存模型和服务指派模型；

S3：基于服务缓存模型和服务指派模型，建立任务卸载及资源分配约束条件；

S4：根据任务卸载及资源分配约束条件，以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题；

S5：采用DSRA算法求解任务卸载及资源分配联合优化问题，得到任务卸载及资源分配策略。
根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，步骤S1具体包括：构建移动边缘计算系统模型，包含M个基站BS，基站集合表示为每个基站配备有一个MEC服务器；对于基站其下有N_m个用户设备MD，用户集合表示为系统在离散的时隙中运行，定义时间集合T＝{0,1,2,…}；对于基站BS_m下的一个用户在时隙t(t∈T)产生的计算密集型任务定义为其中，表示任务的数据量大小，表示任务的最大容忍时延，表示处理单位比特任务所需要的CPU周期数，表示处理任务所需的服务类型；基站BS_m下所有用户产生的任务表示为
根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，步骤S2中构建服务缓存模型具体包括：定义服务类型集合为令a_k,m(t)∈{0,1}表示在时隙t时BS_m中服务k的缓存指示函数，a_k,m(t)＝1表示在BS_m中缓存服务k，否则BS_m将不会缓存服务k；基站BS_m在t时隙的服务缓存策略集合表示为a_m(t)＝{a_1,m(t),…,a_k,m(t),…,a_K,m(t)}。
根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，步骤S2中构建服务指派模型具体包括：对于任一用户具有四种任务处理方式，不同的任务处理方式具有不同的处理时延；四种任务处理方式分别为：本地计算、卸载到关联BS_m进行处理、通过关联基站将卸载的任务转发到其他BS进行处理、卸载到云中心进行处理。
根据权利要求4所述的一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，用户的任务处理时延表示为：

其中，表示在t时隙时基站BS_m下的用户的任务处理时延，表示用户进行本地计算时的任务处理时延，表示任务卸载到关联基站的传输时延，表示关联基站处理任务的时延，T_tr,m(t)表示任务被关联基站进行转发的时延，表示其他基站处理任务的时延，T_m,c(t)表示任务通过关联基站转发到云中心的传输时延，表示本地任务处理策略，表示任务卸载到关联基站进行处理的策略，表示任务卸载到其他基站进行处理的策略，表示任务卸载到云中心进行处理的策略。
根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，所述任务卸载及资源分配联合优化问题表示为：

其中，T表示系统运行时间，M表示基站数量，表示在t时隙时基站BS_m下的用户的任务处理时延，a(t)表示基站服务缓存策略，b(t)表示任务卸载策略，α(t)表示频谱资源分配策略，β(t)表示基站算力资源分配策略，N_m表示第m个基站下的用户设备数量，表示在t时隙时基站BS_m下的用户的任务最大容忍时延，表示用户的本地任务处理策略，表示用户的任务卸载到关联基站进行处理的策略，表示用户的任务卸载到其他基站进行处理的策略，表示用户的任务卸载到云中心进行处理的策略，a_k,m(t)表示在时隙t时第m个基站BS_m关于服务k的缓存指示函数，K表示服务类型数量，l_k表示处理任务的服务k所占用的存储空间大小，R_m表示第m个MEC服务器的存储空间大小，表示BS_m在时隙t分配给的频谱资源分配系数，表示BS_m在时隙t分配给的CPU频率分配系数。
根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，采用DSRA算法求解任务卸载及资源分配联合优化问题的过程包括：将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程，由基站充当智能体，并构建对应的观测空间、动作空间和奖励函数；每个智能体均具有嵌入LSTM网络的actor网络和critic网络；actor网络根据单个智能体当前的本地观测状态生成相应的动作并根据动作更新奖励函数，进入下一状态；critic网络根据全局的观测状态和动作来估计其他智能体的策略；根据当前状态、下一状态、动作和奖励值生成经验信息；采样多条经验信息训练actor网络和critic网络，更新网络参数，得到训练好的actor网络和critic网络；根据actor网络训练结果得到任务卸载及资源分配策略。
根据权利要求7所述的一种基于移动边缘计算的任务卸载及资源分配方法，其特征在于，所述奖励函数表示为：

其中，r_m(t)表示t时隙时基站BS_m的奖励值，T表示系统运行时间，M表示基站数量，N_m表示第m个基站下的用户设备数量，表示t时隙时基站BS_m下的用户的任务处理时延，Y_m(t)表示任务处理时延满足时延约束的奖励，U_m(t)表示缓存不超过边缘服务器存储容量限制的奖励。