CN111465032A

CN111465032A - 多无线体域网环境中基于a3c算法的任务卸载方法及系统

Info

Publication number: CN111465032A
Application number: CN202010221507.5A
Authority: CN
Inventors: 王力立; 张戈; 奚思遥; 肖强; 黄成�; 单梁
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-28
Anticipated expiration: 2040-03-26
Also published as: CN111465032B

Abstract

本发明公开了一种多无线体域网环境中基于A3C算法的任务卸载方法及系统。该方法包括以下步骤：确定多无线体域网的网络架构，初始化网络参数；利用采样的生理数据训练任务分类器，得到稳定的分类器模型；对于网络资源分配问题采用基于深度强化学习的A3C算法进行训练，得到收敛的决策网络；根据得到的模型进行任务卸载：每个时刻首先利用分类器模型进行任务分类，再根据决策网络进行用户信道接入和边缘服务器计算资源分配。本发明方法提高了多无线体域网任务卸载的时延和能耗性能，可被广泛应用于远程医疗、健康监测等体域网实际应用场景。

Description

多无线体域网环境中基于A3C算法的任务卸载方法及系统

技术领域

本发明属于无线通信网络领域，特别涉及一种多无线体域网环境中基于A3C算法的任务卸载方法及系统。

背景技术

无线体域网是以人体为监测对象的无线传感器网络。由于人体具有移动性，多个体域网之间更容易产生网间干扰，如何在多个网络间进行数据的收集和管理是体域网研究的一个重要方向。目前的研究表明体域网有移动性、计算密集、低时延等特点，其任务卸载可以用边缘计算来辅助完成，即在多个网络的边缘放置配备有边缘服务器的基站进行任务的统一收集和处理。由于监测对象的特殊性体域网在时延和能耗方面有着更严格的要求，因此必须设计合理的任务卸载方法保证数据传输的低时延和低能耗。

目前已有的多体域网与数据中心进行数据传输相关的研究中，大部分算法研究是基于泛化的通信网络的研究，而没有尝试结合体域网本身的数据特点和用户特点进行针对性的研究。但事实上，体域网监测的生理数据有非常重要的实际意义，同时体域网用户的移动轨迹有其自身的特性。已有的卸载方法并没有考虑到这些特点，因此往往不能满足无线体域网严格的时延和能耗要求。

发明内容

本发明的目的在于提供一种多无线体域网环境中的任务卸载方法及系统，使得系统进行任务卸载时能够充分考虑用户的任务状态和移动特性，达到较小的系统时延和能耗。

实现本发明目的的技术解决方案为：多无线体域网环境中基于A3C算法的任务卸载方法，所述方法包括以下步骤：

步骤1，构建多个无线体域网的网络架构，并初始化网络参数；

步骤2，采集用户生理数据，并根据这些数据训练分类器，获得任务分类器；

步骤3，利用A3C算法对任务卸载时的资源分配问题进行训练，获得决策网络；

步骤4，根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。

进一步地，步骤1所述的多个无线体域网的网络架构，其网络参数包括用户集合

基站集合

用户的RGMM移动模型参数、基站位置l_s＝(x_s,y_s)、信道增益h_d,s(t)、数据传输速率R_d,s、任务类别β_d∈{0,1}、任务卸载能耗e_d和任务卸载时延t_d。

进一步地，步骤2所述训练分类器，获得用户任务分类器，具体过程包括：

步骤2-1，利用t-分布估计每一种生理特征的平稳区间；针对某一个生理特征x，其平稳区间的上限x_up和下限x_low分别为：

式中，

和s_x分别为x对应的均值和标准差，n为生理特征x对应的生理数据样本数，t_α,n-1代表样本大小为n时的t-分布系数；

步骤2-2，针对每一种生理特征，为其对应的生理数据样本添加标签，具体包括：对平稳区间内的生理数据样本添加标签0，表示正常任务；对平稳区间外的生理数据样本添加标签1，表示紧急任务。

步骤2-3，将步骤2-2处理后的生理数据样本输入支持向量机分类器进行训练，获得任务分类器，即输入一种数据即可输出其任务类别。

进一步地，步骤3所述利用A3C算法对任务卸载时的资源分配问题进行训练，具体过程包括：

步骤3-1，将资源分配问题转化为马尔科夫决策问题，马尔科夫决策问题模型即决策网络具体包括：状态S_t、动作a_t和奖赏值r_t；

将状态S_t设置为{b_d(t),β_d(t),l_d(t),E_d(t)}，其中前两项b_d(t)、β_d(t)为与任务数据相关的两个量，分别表示任务的数据量和任务类别标志；第三项l_d(t)为用户d的位置状态；第四项E_d(t)为能量状态；

将动作a_t设置为α_d,s∈{0,1}和f_d,s，α_d,s表示是否将用户d的任务卸载到基站s上，f_d,s表示基站s分配给用户d的计算资源，

将奖赏值r_t设置为：

式中，K_d为系统效益，t_static和e_static分别表示静态分配方法下的时延和能耗，t_d和e_d分别表示用户d任务完成的时间和总能耗，

分别为时延和能耗的权重因子，满足

且

步骤3-2，对决策网络进行训练，具体包括：根据确定的状态s_t，由决策网络确定该状态下的动作a_t，即各个用户应接入的基站和基站分配的计算资源，之后进入新的状态得到奖赏r_t，获得经验序列(s_t,a_t,r_t)，定义优势函数A(s_t,a_t)表示状态s_t下动作a_t的优势程度：

式中，Q(s_t,a_t)为Q值函数，V(s_t)为值函数，γ为折扣因子，π_ω为决策卸载方法；

对决策网络参数进行迭代更新直到决策网络的奖赏函数收敛，迭代更新公式为：

式中，π_w(s_t,a_t)表示在状态s_t下选择动作a_t的概率，θ为决策网络的参数，E为均值函数，▽_w为梯度算子。

进一步地，步骤4所述根据得到的任务分类器和决策网络进行多无线体域网的任务卸载，具体过程包括：在每个时刻，利用训练好的任务分类器进行任务分类，再根据分类结果将多体域网系统状态输入决策网络，由该网络输出用户信道接入基站和基站计算资源分配的结果。

多无线体域网环境中基于A3C算法的任务卸载系统，所述系统包括：

网络构建模块，用于构建多个无线体域网的网络架构，并初始化网络参数；

任务分类器生成模块，用于采集用户生理数据，并根据这些数据训练分类器，获得任务分类器；

决策网络生成模块，用于利用A3C算法对任务卸载时的资源分配问题进行训练，获得决策网络；

任务卸载模块，用于根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。

本发明与现有技术相比，其显著优点为：1)综合考虑了无线体域网中的数据特点和用户的移动特点，减少了系统任务卸载的时延和能耗；2)采用基于深度强化学习的A3C算法优化多无线体域网的任务卸载过程，能够在系统环境未知的情况下实现系统智能自主的动态卸载。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中多无线体域网环境中基于A3C算法的任务卸载方法流程图。

图2为一个实施例中训练任务分类器的流程图。

图3为一个实施例中多无线体域网网络架构图。

图4为一个实施例中A3C算法的训练效益变化图。

图5为一个实施例中基于贪婪算法的训练效益变化图。

具体实施方式

在一个实施例中，结合图1，提供了一种多无线体域网环境中基于A3C算法的任务卸载方法，该方法包括以下步骤：

进一步地，在其中一个实施例中，步骤1中的多个无线体域网的网络架构，其网络参数包括用户集合

基站集合

进一步地，在其中一个实施例中，结合图2，步骤2中训练分类器，获得用户任务分类器，具体过程包括：

式中，

进一步地，在其中一个实施例中，步骤3中利用A3C算法对任务卸载时的资源分配问题进行训练，获得决策网络，具体过程包括：

将奖赏值r_t设置为：

分别为时延和能耗的权重因子，满足

且

进一步地，在其中一个实施例中，步骤4中根据得到的任务分类器和决策网络进行多无线体域网的任务卸载，具体过程包括：在每个时刻，利用训练好的任务分类器进行任务分类，再根据分类结果将多体域网系统状态输入决策网络，由该网络输出用户信道接入基站和基站计算资源分配的结果。

多无线体域网环境中基于A3C算法的任务卸载系统，该系统包括：

进一步地，在其中一个实施例中，上述任务分类器生成模块包括：

平稳区间设定单元，用于利用t-分布估计每一种生理特征的平稳区间；针对某一个生理特征x，其平稳区间的上限x_up和下限x_low分别为：

式中，

任务标注单元，用于针对每一种生理特征，为其对应的生理数据样本添加标签，具体包括：对平稳区间内的生理数据样本添加标签0，表示正常任务；对平稳区间外的生理数据样本添加标签1，表示紧急任务。

分类器训练单元，用于将任务标注单元处理后的生理数据样本输入支持向量机分类器进行训练，获得任务分类器，即输入一种数据即可输出其任务类别。

进一步地，在其中一个实施例中，上述决策网络生成模块包括：

决策网络构建单元，用于将资源分配问题转化为马尔科夫决策问题，马尔科夫决策问题模型即决策网络具体包括：状态S_t、动作a_t和奖赏值r_t；

将奖赏值r_t设置为：

分别为时延和能耗的权重因子，满足

且

决策网络训练单元，用于对决策网络进行训练，具体包括：根据确定的状态s_t，由决策网络确定该状态下的动作a_t，即各个用户应接入的基站和基站分配的计算资源，之后进入新的状态得到奖赏r_t，获得经验序列(s_t,a_t,r_t)，定义优势函数A(s_t,a_t)表示状态s_t下动作a_t的优势程度：

在一个实施例中，作为一种具体示例，对本发明进行进一步说明和验证，具体内容包括：

首先按图3的架构建立多无线体域网网络系统，并进行网络参数的初始化。然后根据采集的人体生理数据进行上述步骤2中的平稳区间计算、数据标签添加和分类器训练。根据这些数据集进行基于A3C算法的任务卸载方法的训练。

根据上述步骤3-1对实施例中任务卸载问题的状态s_t、动作a_t、奖赏r_t进行建模，对于以健康监测为目标的体域网来说时延有着更严苛的要求，因此步骤3-1中时延和能耗的权重因子设置为

然后根据步骤3-2采用A3C算法训练决策网络。算法中参数设置为：折扣因子γ＝0.99，学习速率为0.001。

在训练阶段，每次任务卸载完成后，计算系统的状态向量s_t，再将该向量输入决策网络，输出下一个时刻的卸载方法进行任务的卸载，将时延和能耗以奖赏值的形式反馈给决策网络，记录这些值并计算优势函数A(s_t,a_t)，然后进行决策网络的参数更新，直至平均奖赏收敛。

图4和图5为本实施例分别采用传统的卸载方法和本发明的基于A3C的卸载方法(A3C-based Offloading and Joint Resource Allocation，AOJRA)后的系统时延和能耗效益变化图。传统的卸载方法为基于贪婪思想的卸载方法(Greedy Offloading and JointResource Allocation，GOJRA)。

在图4中，AOJRA方法在3000次训练中开始训练时系统效益在0.8附近，在不断的训练下迅速提升，大约在2000个训练周期时稳定在7附近。根据步骤3-1中对系统效益函数的定义，效益值在7表示相对于SORA方法，系统时延和能耗的总收益为7。考虑到实施例中系统用户数为20，将总效益平均分配给每个用户为0.35，表示相对于SORA方法，本发明的AOJRA方法平均将每个用户的时延和能耗性能提升了35％。经过类似的分析，相对于SORA方法来说图5中的GOJRA方法平均能将每个用户的时延和能耗性能提升29％。

通过以上对比可知，相对于传统的GOJRA方法，本发明的AOJRA方法能更多地提升用户的时延和能耗性能，其在任务卸载时不仅考虑了信道增益的影响，还进一步考虑了不同用户同时进行数据传输时相互之间的干扰，能够有效避免同一时间内大量用户选择同一个基站进行数据传输造成网络拥堵和基站计算资源短缺导致的时延和能耗增加。

综上所述，本发明方法在考虑无线体域网数据特点和用户移动特点的情况下减少了系统任务卸载的时延和能耗。本发明能提高无线体域网更快捷地服务人类生活的能力，可以被广泛应用于远程医疗、健康监测等体域网实际应用场景。

Claims

1.多无线体域网环境中基于A3C算法的任务卸载方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的多无线体域网环境中基于A3C算法的任务卸载方法，其特征在于，步骤1所述的多个无线体域网的网络架构，其网络参数包括用户集合

基站集合

3.根据权利要求1或2所述的多无线体域网环境中基于A3C算法的任务卸载方法，其特征在于，步骤2所述训练分类器，获得用户任务分类器，具体过程包括：

式中，

4.根据权利要求3所述的多无线体域网环境中基于A3C算法的任务卸载方法，其特征在于，步骤3所述利用A3C算法对任务卸载时的资源分配问题进行训练，获得决策网络，具体过程包括：

将奖赏值r_t设置为：

分别为时延和能耗的权重因子，满足

且

式中，π_w(s_t,a_t)表示在状态s_t下选择动作a_t的概率，θ为决策网络的参数，E为均值函数，

为梯度算子。

5.根据权利要求4所述的多无线体域网环境中基于A3C算法的任务卸载方法，其特征在于，步骤4所述根据得到的任务分类器和决策网络进行多无线体域网的任务卸载，具体过程包括：在每个时刻，利用训练好的任务分类器进行任务分类，再根据分类结果将多体域网系统状态输入决策网络，由该网络输出用户信道接入基站和基站计算资源分配的结果。

6.多无线体域网环境中基于A3C算法的任务卸载系统，其特征在于，所述系统包括：

7.根据权利要求6所述的多无线体域网环境中基于A3C算法的任务卸载系统，其特征在于，所述任务分类器生成模块包括：