[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111465032A - 多无线体域网环境中基于a3c算法的任务卸载方法及系统 - Google Patents

多无线体域网环境中基于a3c算法的任务卸载方法及系统 Download PDF

Info

Publication number
CN111465032A
CN111465032A CN202010221507.5A CN202010221507A CN111465032A CN 111465032 A CN111465032 A CN 111465032A CN 202010221507 A CN202010221507 A CN 202010221507A CN 111465032 A CN111465032 A CN 111465032A
Authority
CN
China
Prior art keywords
task
network
classifier
body area
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010221507.5A
Other languages
English (en)
Other versions
CN111465032B (zh
Inventor
王力立
张戈
奚思遥
肖强
黄成�
单梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010221507.5A priority Critical patent/CN111465032B/zh
Publication of CN111465032A publication Critical patent/CN111465032A/zh
Application granted granted Critical
Publication of CN111465032B publication Critical patent/CN111465032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0212Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave
    • H04W52/0216Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave using a pre-established activity schedule, e.g. traffic indication frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种多无线体域网环境中基于A3C算法的任务卸载方法及系统。该方法包括以下步骤:确定多无线体域网的网络架构,初始化网络参数;利用采样的生理数据训练任务分类器,得到稳定的分类器模型;对于网络资源分配问题采用基于深度强化学习的A3C算法进行训练,得到收敛的决策网络;根据得到的模型进行任务卸载:每个时刻首先利用分类器模型进行任务分类,再根据决策网络进行用户信道接入和边缘服务器计算资源分配。本发明方法提高了多无线体域网任务卸载的时延和能耗性能,可被广泛应用于远程医疗、健康监测等体域网实际应用场景。

Description

多无线体域网环境中基于A3C算法的任务卸载方法及系统
技术领域
本发明属于无线通信网络领域,特别涉及一种多无线体域网环境中基于A3C算法的任务卸载方法及系统。
背景技术
无线体域网是以人体为监测对象的无线传感器网络。由于人体具有移动性,多个体域网之间更容易产生网间干扰,如何在多个网络间进行数据的收集和管理是体域网研究的一个重要方向。目前的研究表明体域网有移动性、计算密集、低时延等特点,其任务卸载可以用边缘计算来辅助完成,即在多个网络的边缘放置配备有边缘服务器的基站进行任务的统一收集和处理。由于监测对象的特殊性体域网在时延和能耗方面有着更严格的要求,因此必须设计合理的任务卸载方法保证数据传输的低时延和低能耗。
目前已有的多体域网与数据中心进行数据传输相关的研究中,大部分算法研究是基于泛化的通信网络的研究,而没有尝试结合体域网本身的数据特点和用户特点进行针对性的研究。但事实上,体域网监测的生理数据有非常重要的实际意义,同时体域网用户的移动轨迹有其自身的特性。已有的卸载方法并没有考虑到这些特点,因此往往不能满足无线体域网严格的时延和能耗要求。
发明内容
本发明的目的在于提供一种多无线体域网环境中的任务卸载方法及系统,使得系统进行任务卸载时能够充分考虑用户的任务状态和移动特性,达到较小的系统时延和能耗。
实现本发明目的的技术解决方案为:多无线体域网环境中基于A3C算法的任务卸载方法,所述方法包括以下步骤:
步骤1,构建多个无线体域网的网络架构,并初始化网络参数;
步骤2,采集用户生理数据,并根据这些数据训练分类器,获得任务分类器;
步骤3,利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络;
步骤4,根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。
进一步地,步骤1所述的多个无线体域网的网络架构,其网络参数包括用户集合
Figure BDA0002426245780000011
基站集合
Figure BDA0002426245780000012
用户的RGMM移动模型参数、基站位置ls=(xs,ys)、信道增益hd,s(t)、数据传输速率Rd,s、任务类别βd∈{0,1}、任务卸载能耗ed和任务卸载时延td
进一步地,步骤2所述训练分类器,获得用户任务分类器,具体过程包括:
步骤2-1,利用t-分布估计每一种生理特征的平稳区间;针对某一个生理特征x,其平稳区间的上限xup和下限xlow分别为:
Figure BDA0002426245780000021
Figure BDA0002426245780000022
式中,
Figure BDA0002426245780000023
和sx分别为x对应的均值和标准差,n为生理特征x对应的生理数据样本数,tα,n-1代表样本大小为n时的t-分布系数;
步骤2-2,针对每一种生理特征,为其对应的生理数据样本添加标签,具体包括:对平稳区间内的生理数据样本添加标签0,表示正常任务;对平稳区间外的生理数据样本添加标签1,表示紧急任务。
步骤2-3,将步骤2-2处理后的生理数据样本输入支持向量机分类器进行训练,获得任务分类器,即输入一种数据即可输出其任务类别。
进一步地,步骤3所述利用A3C算法对任务卸载时的资源分配问题进行训练,具体过程包括:
步骤3-1,将资源分配问题转化为马尔科夫决策问题,马尔科夫决策问题模型即决策网络具体包括:状态St、动作at和奖赏值rt
将状态St设置为{bd(t),βd(t),ld(t),Ed(t)},其中前两项bd(t)、βd(t)为与任务数据相关的两个量,分别表示任务的数据量和任务类别标志;第三项ld(t)为用户d的位置状态;第四项Ed(t)为能量状态;
将动作at设置为αd,s∈{0,1}和fd,s,αd,s表示是否将用户d的任务卸载到基站s上,fd,s表示基站s分配给用户d的计算资源,
Figure BDA0002426245780000025
将奖赏值rt设置为:
Figure BDA0002426245780000024
式中,Kd为系统效益,tstatic和estatic分别表示静态分配方法下的时延和能耗,td和ed分别表示用户d任务完成的时间和总能耗,
Figure BDA0002426245780000031
分别为时延和能耗的权重因子,满足
Figure BDA0002426245780000032
Figure BDA0002426245780000033
步骤3-2,对决策网络进行训练,具体包括:根据确定的状态st,由决策网络确定该状态下的动作at,即各个用户应接入的基站和基站分配的计算资源,之后进入新的状态得到奖赏rt,获得经验序列(st,at,rt),定义优势函数A(st,at)表示状态st下动作at的优势程度:
Figure BDA0002426245780000034
式中,Q(st,at)为Q值函数,V(st)为值函数,γ为折扣因子,πω为决策卸载方法;
对决策网络参数进行迭代更新直到决策网络的奖赏函数收敛,迭代更新公式为:
Figure BDA0002426245780000035
式中,πw(st,at)表示在状态st下选择动作at的概率,θ为决策网络的参数,E为均值函数,▽w为梯度算子。
进一步地,步骤4所述根据得到的任务分类器和决策网络进行多无线体域网的任务卸载,具体过程包括:在每个时刻,利用训练好的任务分类器进行任务分类,再根据分类结果将多体域网系统状态输入决策网络,由该网络输出用户信道接入基站和基站计算资源分配的结果。
多无线体域网环境中基于A3C算法的任务卸载系统,所述系统包括:
网络构建模块,用于构建多个无线体域网的网络架构,并初始化网络参数;
任务分类器生成模块,用于采集用户生理数据,并根据这些数据训练分类器,获得任务分类器;
决策网络生成模块,用于利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络;
任务卸载模块,用于根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。
本发明与现有技术相比,其显著优点为:1)综合考虑了无线体域网中的数据特点和用户的移动特点,减少了系统任务卸载的时延和能耗;2)采用基于深度强化学习的A3C算法优化多无线体域网的任务卸载过程,能够在系统环境未知的情况下实现系统智能自主的动态卸载。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为一个实施例中多无线体域网环境中基于A3C算法的任务卸载方法流程图。
图2为一个实施例中训练任务分类器的流程图。
图3为一个实施例中多无线体域网网络架构图。
图4为一个实施例中A3C算法的训练效益变化图。
图5为一个实施例中基于贪婪算法的训练效益变化图。
具体实施方式
在一个实施例中,结合图1,提供了一种多无线体域网环境中基于A3C算法的任务卸载方法,该方法包括以下步骤:
步骤1,构建多个无线体域网的网络架构,并初始化网络参数;
步骤2,采集用户生理数据,并根据这些数据训练分类器,获得任务分类器;
步骤3,利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络;
步骤4,根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。
进一步地,在其中一个实施例中,步骤1中的多个无线体域网的网络架构,其网络参数包括用户集合
Figure BDA0002426245780000043
基站集合
Figure BDA0002426245780000044
用户的RGMM移动模型参数、基站位置ls=(xs,ys)、信道增益hd,s(t)、数据传输速率Rd,s、任务类别βd∈{0,1}、任务卸载能耗ed和任务卸载时延td
进一步地,在其中一个实施例中,结合图2,步骤2中训练分类器,获得用户任务分类器,具体过程包括:
步骤2-1,利用t-分布估计每一种生理特征的平稳区间;针对某一个生理特征x,其平稳区间的上限xup和下限xlow分别为:
Figure BDA0002426245780000041
Figure BDA0002426245780000042
式中,
Figure BDA0002426245780000051
和sx分别为x对应的均值和标准差,n为生理特征x对应的生理数据样本数,tα,n-1代表样本大小为n时的t-分布系数;
步骤2-2,针对每一种生理特征,为其对应的生理数据样本添加标签,具体包括:对平稳区间内的生理数据样本添加标签0,表示正常任务;对平稳区间外的生理数据样本添加标签1,表示紧急任务。
步骤2-3,将步骤2-2处理后的生理数据样本输入支持向量机分类器进行训练,获得任务分类器,即输入一种数据即可输出其任务类别。
进一步地,在其中一个实施例中,步骤3中利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络,具体过程包括:
步骤3-1,将资源分配问题转化为马尔科夫决策问题,马尔科夫决策问题模型即决策网络具体包括:状态St、动作at和奖赏值rt
将状态St设置为{bd(t),βd(t),ld(t),Ed(t)},其中前两项bd(t)、βd(t)为与任务数据相关的两个量,分别表示任务的数据量和任务类别标志;第三项ld(t)为用户d的位置状态;第四项Ed(t)为能量状态;
将动作at设置为αd,s∈{0,1}和fd,s,αd,s表示是否将用户d的任务卸载到基站s上,fd,s表示基站s分配给用户d的计算资源,
Figure BDA0002426245780000056
将奖赏值rt设置为:
Figure BDA0002426245780000052
式中,Kd为系统效益,tstatic和estatic分别表示静态分配方法下的时延和能耗,td和ed分别表示用户d任务完成的时间和总能耗,
Figure BDA0002426245780000053
分别为时延和能耗的权重因子,满足
Figure BDA0002426245780000054
Figure BDA0002426245780000055
步骤3-2,对决策网络进行训练,具体包括:根据确定的状态st,由决策网络确定该状态下的动作at,即各个用户应接入的基站和基站分配的计算资源,之后进入新的状态得到奖赏rt,获得经验序列(st,at,rt),定义优势函数A(st,at)表示状态st下动作at的优势程度:
Figure BDA0002426245780000061
式中,Q(st,at)为Q值函数,V(st)为值函数,γ为折扣因子,πω为决策卸载方法;
对决策网络参数进行迭代更新直到决策网络的奖赏函数收敛,迭代更新公式为:
Figure BDA0002426245780000062
式中,πw(st,at)表示在状态st下选择动作at的概率,θ为决策网络的参数,E为均值函数,▽w为梯度算子。
进一步地,在其中一个实施例中,步骤4中根据得到的任务分类器和决策网络进行多无线体域网的任务卸载,具体过程包括:在每个时刻,利用训练好的任务分类器进行任务分类,再根据分类结果将多体域网系统状态输入决策网络,由该网络输出用户信道接入基站和基站计算资源分配的结果。
多无线体域网环境中基于A3C算法的任务卸载系统,该系统包括:
网络构建模块,用于构建多个无线体域网的网络架构,并初始化网络参数;
任务分类器生成模块,用于采集用户生理数据,并根据这些数据训练分类器,获得任务分类器;
决策网络生成模块,用于利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络;
任务卸载模块,用于根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。
进一步地,在其中一个实施例中,上述任务分类器生成模块包括:
平稳区间设定单元,用于利用t-分布估计每一种生理特征的平稳区间;针对某一个生理特征x,其平稳区间的上限xup和下限xlow分别为:
Figure BDA0002426245780000063
Figure BDA0002426245780000064
式中,
Figure BDA0002426245780000065
和sx分别为x对应的均值和标准差,n为生理特征x对应的生理数据样本数,tα,n-1代表样本大小为n时的t-分布系数;
任务标注单元,用于针对每一种生理特征,为其对应的生理数据样本添加标签,具体包括:对平稳区间内的生理数据样本添加标签0,表示正常任务;对平稳区间外的生理数据样本添加标签1,表示紧急任务。
分类器训练单元,用于将任务标注单元处理后的生理数据样本输入支持向量机分类器进行训练,获得任务分类器,即输入一种数据即可输出其任务类别。
进一步地,在其中一个实施例中,上述决策网络生成模块包括:
决策网络构建单元,用于将资源分配问题转化为马尔科夫决策问题,马尔科夫决策问题模型即决策网络具体包括:状态St、动作at和奖赏值rt
将状态St设置为{bd(t),βd(t),ld(t),Ed(t)},其中前两项bd(t)、βd(t)为与任务数据相关的两个量,分别表示任务的数据量和任务类别标志;第三项ld(t)为用户d的位置状态;第四项Ed(t)为能量状态;
将动作at设置为αd,s∈{0,1}和fd,s,αd,s表示是否将用户d的任务卸载到基站s上,fd,s表示基站s分配给用户d的计算资源,
Figure BDA0002426245780000076
将奖赏值rt设置为:
Figure BDA0002426245780000071
式中,Kd为系统效益,tstatic和estatic分别表示静态分配方法下的时延和能耗,td和ed分别表示用户d任务完成的时间和总能耗,
Figure BDA0002426245780000072
分别为时延和能耗的权重因子,满足
Figure BDA0002426245780000073
Figure BDA0002426245780000074
决策网络训练单元,用于对决策网络进行训练,具体包括:根据确定的状态st,由决策网络确定该状态下的动作at,即各个用户应接入的基站和基站分配的计算资源,之后进入新的状态得到奖赏rt,获得经验序列(st,at,rt),定义优势函数A(st,at)表示状态st下动作at的优势程度:
Figure BDA0002426245780000075
式中,Q(st,at)为Q值函数,V(st)为值函数,γ为折扣因子,πω为决策卸载方法;
对决策网络参数进行迭代更新直到决策网络的奖赏函数收敛,迭代更新公式为:
Figure BDA0002426245780000081
式中,πw(st,at)表示在状态st下选择动作at的概率,θ为决策网络的参数,E为均值函数,▽w为梯度算子。
在一个实施例中,作为一种具体示例,对本发明进行进一步说明和验证,具体内容包括:
首先按图3的架构建立多无线体域网网络系统,并进行网络参数的初始化。然后根据采集的人体生理数据进行上述步骤2中的平稳区间计算、数据标签添加和分类器训练。根据这些数据集进行基于A3C算法的任务卸载方法的训练。
根据上述步骤3-1对实施例中任务卸载问题的状态st、动作at、奖赏rt进行建模,对于以健康监测为目标的体域网来说时延有着更严苛的要求,因此步骤3-1中时延和能耗的权重因子设置为
Figure BDA0002426245780000082
然后根据步骤3-2采用A3C算法训练决策网络。算法中参数设置为:折扣因子γ=0.99,学习速率为0.001。
在训练阶段,每次任务卸载完成后,计算系统的状态向量st,再将该向量输入决策网络,输出下一个时刻的卸载方法进行任务的卸载,将时延和能耗以奖赏值的形式反馈给决策网络,记录这些值并计算优势函数A(st,at),然后进行决策网络的参数更新,直至平均奖赏收敛。
图4和图5为本实施例分别采用传统的卸载方法和本发明的基于A3C的卸载方法(A3C-based Offloading and Joint Resource Allocation,AOJRA)后的系统时延和能耗效益变化图。传统的卸载方法为基于贪婪思想的卸载方法(Greedy Offloading and JointResource Allocation,GOJRA)。
在图4中,AOJRA方法在3000次训练中开始训练时系统效益在0.8附近,在不断的训练下迅速提升,大约在2000个训练周期时稳定在7附近。根据步骤3-1中对系统效益函数的定义,效益值在7表示相对于SORA方法,系统时延和能耗的总收益为7。考虑到实施例中系统用户数为20,将总效益平均分配给每个用户为0.35,表示相对于SORA方法,本发明的AOJRA方法平均将每个用户的时延和能耗性能提升了35%。经过类似的分析,相对于SORA方法来说图5中的GOJRA方法平均能将每个用户的时延和能耗性能提升29%。
通过以上对比可知,相对于传统的GOJRA方法,本发明的AOJRA方法能更多地提升用户的时延和能耗性能,其在任务卸载时不仅考虑了信道增益的影响,还进一步考虑了不同用户同时进行数据传输时相互之间的干扰,能够有效避免同一时间内大量用户选择同一个基站进行数据传输造成网络拥堵和基站计算资源短缺导致的时延和能耗增加。
综上所述,本发明方法在考虑无线体域网数据特点和用户移动特点的情况下减少了系统任务卸载的时延和能耗。本发明能提高无线体域网更快捷地服务人类生活的能力,可以被广泛应用于远程医疗、健康监测等体域网实际应用场景。

Claims (8)

1.多无线体域网环境中基于A3C算法的任务卸载方法,其特征在于,所述方法包括以下步骤:
步骤1,构建多个无线体域网的网络架构,并初始化网络参数;
步骤2,采集用户生理数据,并根据这些数据训练分类器,获得任务分类器;
步骤3,利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络;
步骤4,根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。
2.根据权利要求1所述的多无线体域网环境中基于A3C算法的任务卸载方法,其特征在于,步骤1所述的多个无线体域网的网络架构,其网络参数包括用户集合
Figure FDA0002426245770000011
基站集合
Figure FDA0002426245770000012
用户的RGMM移动模型参数、基站位置ls=(xs,ys)、信道增益hd,s(t)、数据传输速率Rd,s、任务类别βd∈{0,1}、任务卸载能耗ed和任务卸载时延td
3.根据权利要求1或2所述的多无线体域网环境中基于A3C算法的任务卸载方法,其特征在于,步骤2所述训练分类器,获得用户任务分类器,具体过程包括:
步骤2-1,利用t-分布估计每一种生理特征的平稳区间;针对某一个生理特征x,其平稳区间的上限xup和下限xlow分别为:
Figure FDA0002426245770000013
Figure FDA0002426245770000014
式中,
Figure FDA0002426245770000015
和sx分别为x对应的均值和标准差,n为生理特征x对应的生理数据样本数,tα,n-1代表样本大小为n时的t-分布系数;
步骤2-2,针对每一种生理特征,为其对应的生理数据样本添加标签,具体包括:对平稳区间内的生理数据样本添加标签0,表示正常任务;对平稳区间外的生理数据样本添加标签1,表示紧急任务。
步骤2-3,将步骤2-2处理后的生理数据样本输入支持向量机分类器进行训练,获得任务分类器,即输入一种数据即可输出其任务类别。
4.根据权利要求3所述的多无线体域网环境中基于A3C算法的任务卸载方法,其特征在于,步骤3所述利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络,具体过程包括:
步骤3-1,将资源分配问题转化为马尔科夫决策问题,马尔科夫决策问题模型即决策网络具体包括:状态St、动作at和奖赏值rt
将状态St设置为{bd(t),βd(t),ld(t),Ed(t)},其中前两项bd(t)、βd(t)为与任务数据相关的两个量,分别表示任务的数据量和任务类别标志;第三项ld(t)为用户d的位置状态;第四项Ed(t)为能量状态;
将动作at设置为αd,s∈{0,1}和fd,s,αd,s表示是否将用户d的任务卸载到基站s上,fd,s表示基站s分配给用户d的计算资源,
Figure FDA0002426245770000021
将奖赏值rt设置为:
Figure FDA0002426245770000022
式中,Kd为系统效益,tstatic和estatic分别表示静态分配方法下的时延和能耗,td和ed分别表示用户d任务完成的时间和总能耗,
Figure FDA0002426245770000023
分别为时延和能耗的权重因子,满足
Figure FDA0002426245770000024
Figure FDA0002426245770000025
步骤3-2,对决策网络进行训练,具体包括:根据确定的状态st,由决策网络确定该状态下的动作at,即各个用户应接入的基站和基站分配的计算资源,之后进入新的状态得到奖赏rt,获得经验序列(st,at,rt),定义优势函数A(st,at)表示状态st下动作at的优势程度:
Figure FDA0002426245770000026
式中,Q(st,at)为Q值函数,V(st)为值函数,γ为折扣因子,πω为决策卸载方法;
对决策网络参数进行迭代更新直到决策网络的奖赏函数收敛,迭代更新公式为:
Figure FDA0002426245770000027
式中,πw(st,at)表示在状态st下选择动作at的概率,θ为决策网络的参数,E为均值函数,
Figure FDA0002426245770000028
为梯度算子。
5.根据权利要求4所述的多无线体域网环境中基于A3C算法的任务卸载方法,其特征在于,步骤4所述根据得到的任务分类器和决策网络进行多无线体域网的任务卸载,具体过程包括:在每个时刻,利用训练好的任务分类器进行任务分类,再根据分类结果将多体域网系统状态输入决策网络,由该网络输出用户信道接入基站和基站计算资源分配的结果。
6.多无线体域网环境中基于A3C算法的任务卸载系统,其特征在于,所述系统包括:
网络构建模块,用于构建多个无线体域网的网络架构,并初始化网络参数;
任务分类器生成模块,用于采集用户生理数据,并根据这些数据训练分类器,获得任务分类器;
决策网络生成模块,用于利用A3C算法对任务卸载时的资源分配问题进行训练,获得决策网络;
任务卸载模块,用于根据得到的任务分类器和决策网络进行多无线体域网的任务卸载。
7.根据权利要求6所述的多无线体域网环境中基于A3C算法的任务卸载系统,其特征在于,所述任务分类器生成模块包括:
平稳区间设定单元,用于利用t-分布估计每一种生理特征的平稳区间;针对某一个生理特征x,其平稳区间的上限xup和下限xlow分别为:
Figure FDA0002426245770000031
Figure FDA0002426245770000032
式中,
Figure FDA0002426245770000033
和sx分别为x对应的均值和标准差,n为生理特征x对应的生理数据样本数,tα,n-1代表样本大小为n时的t-分布系数;
任务标注单元,用于针对每一种生理特征,为其对应的生理数据样本添加标签,具体包括:对平稳区间内的生理数据样本添加标签0,表示正常任务;对平稳区间外的生理数据样本添加标签1,表示紧急任务。
分类器训练单元,用于将任务标注单元处理后的生理数据样本输入支持向量机分类器进行训练,获得任务分类器,即输入一种数据即可输出其任务类别。
8.根据权利要求7所述的多无线体域网环境中基于A3C算法的任务卸载系统,其特征在于,所述决策网络生成模块包括:
决策网络构建单元,用于将资源分配问题转化为马尔科夫决策问题,马尔科夫决策问题模型即决策网络具体包括:状态St、动作at和奖赏值rt
将状态St设置为{bd(t),βd(t),ld(t),Ed(t)},其中前两项bd(t)、βd(t)为与任务数据相关的两个量,分别表示任务的数据量和任务类别标志;第三项ld(t)为用户d的位置状态;第四项Ed(t)为能量状态;
将动作at设置为αd,s∈{0,1}和fd,s,αd,s表示是否将用户d的任务卸载到基站s上,fd,s表示基站s分配给用户d的计算资源,
Figure FDA0002426245770000041
将奖赏值rt设置为:
Figure FDA0002426245770000042
式中,Kd为系统效益,tstatic和estatic分别表示静态分配方法下的时延和能耗,td和ed分别表示用户d任务完成的时间和总能耗,
Figure FDA0002426245770000043
分别为时延和能耗的权重因子,满足
Figure FDA0002426245770000044
Figure FDA0002426245770000045
决策网络训练单元,用于对决策网络进行训练,具体包括:根据确定的状态st,由决策网络确定该状态下的动作at,即各个用户应接入的基站和基站分配的计算资源,之后进入新的状态得到奖赏rt,获得经验序列(st,at,rt),定义优势函数A(st,at)表示状态st下动作at的优势程度:
Figure FDA0002426245770000046
式中,Q(st,at)为Q值函数,V(st)为值函数,γ为折扣因子,πω为决策卸载方法;
对决策网络参数进行迭代更新直到决策网络的奖赏函数收敛,迭代更新公式为:
Figure FDA0002426245770000047
式中,πw(st,at)表示在状态st下选择动作at的概率,θ为决策网络的参数,E为均值函数,
Figure FDA0002426245770000048
为梯度算子。
CN202010221507.5A 2020-03-26 2020-03-26 多无线体域网环境中基于a3c算法的任务卸载方法及系统 Active CN111465032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010221507.5A CN111465032B (zh) 2020-03-26 2020-03-26 多无线体域网环境中基于a3c算法的任务卸载方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010221507.5A CN111465032B (zh) 2020-03-26 2020-03-26 多无线体域网环境中基于a3c算法的任务卸载方法及系统

Publications (2)

Publication Number Publication Date
CN111465032A true CN111465032A (zh) 2020-07-28
CN111465032B CN111465032B (zh) 2023-04-21

Family

ID=71680230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010221507.5A Active CN111465032B (zh) 2020-03-26 2020-03-26 多无线体域网环境中基于a3c算法的任务卸载方法及系统

Country Status (1)

Country Link
CN (1) CN111465032B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241295A (zh) * 2020-10-28 2021-01-19 深圳供电局有限公司 一种基于深度强化学习的云边端协同计算卸载方法及系统
CN113645637A (zh) * 2021-07-12 2021-11-12 中山大学 超密集网络任务卸载方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109219101A (zh) * 2018-09-21 2019-01-15 南京理工大学 无线体域网中基于二次移动平均预测法的路由建立方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109219101A (zh) * 2018-09-21 2019-01-15 南京理工大学 无线体域网中基于二次移动平均预测法的路由建立方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241295A (zh) * 2020-10-28 2021-01-19 深圳供电局有限公司 一种基于深度强化学习的云边端协同计算卸载方法及系统
CN113645637A (zh) * 2021-07-12 2021-11-12 中山大学 超密集网络任务卸载方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111465032B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
Yu et al. Computation offloading for mobile edge computing: A deep learning approach
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN109302463B (zh) 一种面向边缘计算的自组云架构与优化方法及系统
CN110928654B (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
CN113568675B (zh) 一种基于分层强化学习的车联网边缘计算任务卸载方法
CN108924936B (zh) 无人机辅助无线充电边缘计算网络的资源分配方法
CN113286329B (zh) 基于移动边缘计算的通信和计算资源联合优化方法
Zhou et al. Computation bits maximization in UAV-assisted MEC networks with fairness constraint
CN112835715B (zh) 基于强化学习的无人机任务卸载策略的确定方法和装置
CN113286317B (zh) 一种基于无线供能边缘网络的任务调度方法
Muslim et al. Reinforcement learning based offloading framework for computation service in the edge cloud and core cloud
CN111836284B (zh) 基于移动边缘计算的能耗优化计算、卸载方法和系统
CN111026548A (zh) 一种逆向深度强化学习的电力通信设备测试资源调度方法
CN111465032A (zh) 多无线体域网环境中基于a3c算法的任务卸载方法及系统
Yang Low-latency cloud-fog network architecture and its load balancing strategy for medical big data
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
CN114567895A (zh) 一种mec服务器集群的智能协同策略的实现方法
CN112988285A (zh) 任务卸载方法和装置、电子设备及存储介质
Chen et al. Augmented deep reinforcement learning for online energy minimization of wireless powered mobile edge computing
Bouzidi et al. HADAS: Hardware-aware dynamic neural architecture search for edge performance scaling
Zhang et al. Resource allocation for multi-user MEC system: machine learning approaches
Chen et al. Traffic prediction-assisted federated deep reinforcement learning for service migration in digital twins-enabled MEC networks
CN112667406A (zh) 一种云边融合异构网络中任务卸载与数据缓存方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN115473896A (zh) 基于dqn算法的电力物联网卸载策略和资源配置优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant