[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114866429B - 联合路由决策和网内聚合的分布式模型训练方法和装置 - Google Patents

联合路由决策和网内聚合的分布式模型训练方法和装置 Download PDF

Info

Publication number
CN114866429B
CN114866429B CN202210460232.XA CN202210460232A CN114866429B CN 114866429 B CN114866429 B CN 114866429B CN 202210460232 A CN202210460232 A CN 202210460232A CN 114866429 B CN114866429 B CN 114866429B
Authority
CN
China
Prior art keywords
network
intra
parameter server
distributed
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210460232.XA
Other languages
English (en)
Other versions
CN114866429A (zh
Inventor
赵功名
陆俊宏
徐宏力
翟宇同
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Original Assignee
Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Institute Of Higher Studies University Of Science And Technology Of China filed Critical Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Priority to CN202210460232.XA priority Critical patent/CN114866429B/zh
Publication of CN114866429A publication Critical patent/CN114866429A/zh
Application granted granted Critical
Publication of CN114866429B publication Critical patent/CN114866429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种联合路由决策和网内聚合的分布式模型训练方法和装置。其中,该方法包括:根据分布式训练网络中的网络资源为联合路由和网内聚合问题确定资源约束条件;根据所述资源约束条件对分布式训练模型进行划分,以确定各个参数服务器上分布式训练模型的分配比例;根据所述分配比例简化所述资源约束条件,并根据简化后的资源约束条件确定分布式训练模型的路由决策与网内聚合方案。本实施例的技术方案,通过联合路由方案和网内聚合方案的制定,充分考虑了梯度的路由选择和网内聚合的位置,充分的利用了网络资源,进一步提升了分布式训练的速度。

Description

联合路由决策和网内聚合的分布式模型训练方法和装置
技术领域
本发明实施例涉及分布式模型训练技术领域,尤其涉及一种联合路由决策和网内聚合的分布式模型训练方法和装置。
背景技术
过去的十年中,人工智能在多个应用领域(如计算机视觉,自然语言处理)中的需求发展迅速。而标志性成果的出现往往伴随着具有大量参数和训练数据的精细的深度学习模型。训练这类深度学习模型费时且需要大量计算。因此,为加速训练过程,分布式训练方案被广泛采用。分布式训练往往包含多轮迭代。在每一轮迭代中,工作节点计算得到本地梯度数据,并通过网络将其发往参数服务器处聚合。上述两个过程被分别称作梯度计算和梯度聚合。一方面,考虑到模型往往有大量的参数,分布式训练会产出G字节级别的数据需要传输;另一方面,随着硬件加速器的快速发展(如GPU,FPGA),计算的速度已经得到了快速的发展。因此,我们可以得到这样的结论:分布式训练的瓶颈已经从计算速度转变为了网内通信的速度。
现存工作主要专注于通过数据压缩或者是通信调度,从而降低通信瓶颈对分布式训练的限制。然而,梯度数据压缩会无法避免的导致性能的下降,而通信调度则并不会直接降低通信规模且仍遭受通信带宽的限制。网内聚合的出现则为解决通信资源限制这一问题提供了极大的可能。随着一些可编程网络设备(如可编程交换机,智能网卡)的出现,将一些梯度聚合任务分配给它们已经被视为一种有效的训练加速方案。例如,将参数提前在交换机上聚合后再将它们发送给参数服务器可以减轻网内流量拥塞,同时降低参数服务器的进入带宽。
通过网内聚合来加速分布式训练的方案十分复杂,当前仅有少量的研究工作,例如:SwitchML在单机架结构中,通过在工作节点的ToR交换机聚合梯度来降低通信开销;ATP则使用新兴的可编程交换机硬件来支持现在多机架,多任务设置的网内聚合;P4COM则通过在可编程交换机上识别包中的关键字,为一些应用提供网内计算。然而,上述工作更多的是关注如何在交换机上更高效的实现网内聚合,忽视了路由选择和聚合位置的选择将对带宽的利用产生极大的影响,从而导致它们在复杂的网络中的分布式训练并不高效。
事实上,为了获得高效的网内聚合,路由和聚合位置的选择是十分重要的。但在现实状况中,大量系统参数和表现/资源消耗的考虑使得同时考虑路由和聚合这一问题极具挑战。
发明内容
为了解决现有技术中的问题,本发明提供一种联合路由决策和网内聚合的分布式模型训练方法和装置,以通过联合路由方案和网内聚合来更好地加速分布式训练。
第一方面,本发明实施例提供了一种联合路由决策和网内聚合的分布式模型训练方法,由控制器执行,包括:
S1、根据分布式训练网络中的网络资源为联合路由和网内聚合问题确定资源约束条件;
S2、根据所述资源约束条件对分布式训练模型进行划分,以确定各个参数服务器上分布式训练模型的分配比例;
S3、根据所述分配比例简化所述资源约束条件,并根据简化后的资源约束条件确定分布式训练模型的路由决策与网内聚合方案。
可选的,所述S1中的资源约束条件包括模型并行约束、网内聚合约束、交换机能力约束、链路能力约束以及参数服务器处理能力约束。
可选的,所述S2包括:在不考虑所述资源约束条件中链路能力约束、假设每条流将在交换机上进行聚合、且每条流可分并能在多个交换机上聚合的基础上,采用广义的拉格朗日乘子法以得到各个参数服务器上分布式训练模型的分配比例。
可选的,所述S3包括:在假设各个梯度将在一条路径上发送并在一台交换机上聚合的基础上,采用线性规划解决器对联合路由和网内聚合问题在多项式时间解决,并由随机舍入算法得到路径及聚合位置结果。
第二方面,本发明实施例还提供了一种联合路由决策和网内聚合的分布式模型训练装置,配置在控制器中,包括:
资源约束条件确定模块,用于根据分布式训练网络中的网络资源为联合路由和网内聚合问题确定资源约束条件;
分配比例确定模块,用于根据所述资源约束条件对分布式训练模型进行划分,以确定各个参数服务器上分布式训练模型的分配比例;
方案确定模块,用于根据所述分配比例简化所述资源约束条件,并根据简化后的资源约束条件确定分布式训练模型的路由决策与网内聚合方案。
本发明的有益效果:
1.本发明通过联合路由方案和网内聚合方案的制定,考虑了各类网络资源的约束,与仅考虑如何提高交换机上梯度聚合的速率,而忽视对网络资源更高效分配的现有技术相比,充分考虑了梯度的路由选择和网内的聚合位置,充分的利用了网络资源,提高了网络资源的利用率和分布式训练的速度。
2.在联合考虑路由和网内聚合选择后,本发明加快了工作节点的梯度发送速度。
3.网络资源的充分利用和工作节点梯度发送速度的提高,使得梯度在网络内的通信时间减少,从而大大加速了分布式训练的过程。
4.该方法也可以与加速可编程交换机上聚合速度的方法进一步结合以节省分布式训练网内通信的时间,具有很广阔的应用前景。
附图说明
图1为本发明实施例提供的一种联合路由决策和网内聚合的分布式模型训练方法的流程图;
图2为本实施例提供的分布式训练网络的完整网络拓扑;
图3为本实施例提供的在目标为参数服务器1的流量负载情况图;
图4为本实施例提供的在目标为参数服务器2的流量负载情况图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的一种联合路由决策和网内聚合的分布式模型训练方法的流程图,具体包括如下步骤:
S1、根据分布式训练网络中的网络资源为联合路由和网内聚合问题确定资源约束条件。
其中,上述网络资源包括分布式训练网络中包括参数服务器数量、工作节点数量、可编程交换机数量、链路带宽、交换机处理能力以及参数服务器处理能力等。根据上述网络资源建立为路由决策和网内聚合方案制定资源约束条件。
具体的,该资源约束条件包括:(1)模型并行约束条件:由于分布式训练模型并行,将分布式训练模型拆为子集并将各子集放在各台参数服务器上训练,并保证原有模型可通过拆散的子集恢复;(2)网内聚合约束:梯度只能在可编程交换机上进行聚合,或者直接发送给参数服务器进行聚合;(3)交换机能力约束:由于交换机可能进行网内聚合,在各台交换机上的聚合开销需不超过它的处理能力;(4)链路能力约束:各条链路上的流量需不超过它自身的负载能力;(5)参数服务器处理能力约束:由于参数服务器自身的计算能力限制,到达其聚合的梯度速率需不超过它自身的处理能力。资源约束条件可形式化如下:
其中各个符号的含义为:
S2、根据所述资源约束条件对分布式训练模型进行划分,以确定各个参数服务器上分布式训练模型的分配比例。
本实施例中,为了简化联合路由与网内聚合问题,本实施例中暂不用考虑链路能力的约束。同时,假设每条流将在交换机上进行聚合,其可分并能在多个交换机上聚合,从而原问题能被转化为一个非线性规划问题。由此,本实施中通过设计一种广义的拉格朗日乘子法以得到各个参数服务器上的模型划分方案。
S3、根据所述分配比例简化所述资源约束条件,并根据简化后的资源约束条件确定分布式训练模型的路由决策与网内聚合方案。
本实施例中,由于各台参数服务器上模型的分配比例已经在S2中得到,可以暂不考虑模型并行的约束并将原问题转化为一个整数线性规划问题。
通过假设各个梯度将在一条可行路径上发送并在一台交换机上聚合,各个梯度可拆分,可以经过许多条可行路径并在多台不同交换机上聚合。可以采用线性规划解决器对该问题在多项式时间对其解决,并由随机舍入算法得到路由方案及聚合位置结果。
本实施例的技术方案,通过联合路由方案和网内聚合方案的制定,充分考虑了梯度的路由选择和网内的聚合位置,可以更充分的利用网络资源,进一步提升了分布式训练的速度。该方法也可以与加速可编程交换机上聚合速度的方法进一步结合以节省分布式训练网内通信的时间,具有很广阔的应用前景。
实施例
本实施例提供一种通过联合路由和网内聚合来加速分布式训练的方法,其中工作环境是云平台,包含多台参数服务器,工作节点以及可编程交换机,该方法由控制器执行。
控制器首先根据分布式训练网络中的网络资源指定资源约束条件。参见图2,控制器获取资源状况为:网络拓扑包含2台参数服务器,5台工作节点,2台可编程交换机;链路带宽,交换机处理能力,参数服务器处理能力均设置为30。由上述信息,控制器设置资源约束条件。
具体的,控制器在所得资源约束条件下,对分布式训练模型进行划分。暂不考虑链路能力的约束,并假设每条流将在交换机上进行聚合,其可分并能在多个交换机上聚合,从而原问题能被转化为非线性规划问题。由此,本实施例中设计了一种广义的拉格朗日乘子法,得到各个参数服务器上的模型划分方案为参数服务器1:75%,参数服务器2:25%。
具体的,控制器简化资源约束条件,并由此制定联合路由和网内聚合方案。暂不考虑模型并行的约束并将原问题转化为一个线性规划问题,假设各个梯度将在一条路径上发送并在一台交换机上聚合,由此梯度可拆分,在许多条可行路径并在多台交换机上聚合。由此,可以采用线性规划解决器对该问题在多项式时间解决,并由随机舍入算法得到路径及聚合位置结果。
具体参见图3和图4,路由与聚合位置结果为:来自工作节点1,2,3发往参数服务器1的梯度在交换机1上聚合;来自工作节点4,5发往参数服务器1的梯度在交换机2上聚合;来自工作节点1-4发往参数服务器2的梯度在交换机2上聚合;来自工作节点5发往参数服务器2的梯度遵循路径:工作节点5->交换机2->参数服务器2。
从上述实例,可以获得在所给约束条件下的工作节点发送梯度速率最大值20,缩小了网内聚合的时间,从而加速了分布式训练的过程。
本发明实施例还提供了一种联合路由决策和网内聚合的分布式模型训练装置,配置在控制器中,包括:
资源约束条件确定模块,用于根据分布式训练网络中的网络资源为联合路由和网内聚合问题确定资源约束条件;
分配比例确定模块,用于根据所述资源约束条件对分布式训练模型进行划分,以确定各个参数服务器上分布式训练模型的分配比例;
方案确定模块,用于根据所述分配比例简化所述资源约束条件,并根据简化后的资源约束条件确定分布式训练模型的路由决策与网内聚合方案。
其中,所述资源约束条件包括模型并行约束、网内聚合约束、交换机能力约束、链路能力约束以及参数服务器处理能力约束。
可选的,分配比例确定模块具体用于:在不考虑所述资源约束条件中链路能力约束、假设每条流将在交换机上进行聚合、且每条流可分并能在多个交换机上聚合的基础上,采用广义的拉格朗日乘子法以得到各个参数服务器上分布式训练模型的分配比例。
可选的,方案确定模块具体用于:在假设各个梯度将在一条路径上发送并在一台交换机上聚合的基础上,采用线性规划解决器对联合路由和网内聚合问题在多项式时间解决,并由随机舍入算法得到路径及聚合位置结果。
本发明实施例所提供的联合路由决策和网内聚合的分布式模型训练装置可执行本发明任意实施例所提供的联合路由决策和网内聚合的分布式模型训练方法,具备执行方法相应的功能模块和有益效果,不再进行赘述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (5)

1.一种联合路由决策和网内聚合的分布式模型训练方法,由控制器执行,其特征在于,包括:
S1、根据分布式训练网络中的网络资源为联合路由和网内聚合问题确定资源约束条件;
所述资源约束条件可形式化如下:
max f
其中,S.t.是subject to的缩写,表示约束条件;
f为梯度传送速率,xs为参数服务器s上的模型分配比例;
S参数服务器集合、s为参数服务器、W为工作节点集合、w为工作节点、V为可编程交换机集合、v为可编程交换机、e为网络链接、p为可行路径;ys,w为工作节点w到参数服务器s的梯度是否在网内聚合,是取0否取1;为工作节点w到参数服务器s的梯度是否在交换机v上聚合v,是取1否取0;
Ps,w为参数服务器s和工作节点w间的可行路径集合、为参数服务器s到工作节点w间的经过聚合的梯度梯度是否经过可行路径p,是取1否取0;
Pv,w为可编程交换机v和工作节点w间的可行路径集合、为可编程交换机v到工作节点w间的经过聚合的梯度梯度是否经过可行路径p,是取1否取0;
Ps,v为参数服务器s和可编程交换机v间的可行路径集合、为参数服务器s到可编程交换机v的经过聚合的梯度是否经过可行路径p,是取1否取0;
D(v)为可编程交换机v的处理能力、C(e)为网络链接e的负载能力、F(s)为参数服务器s的处理能力;zs,w为从可编程交换机v到参数服务器s是否有聚合的梯度,是取1否取0;
S2、根据所述资源约束条件对分布式训练模型进行划分,以确定各个参数服务器上分布式训练模型的分配比例;
S3、根据所述分配比例简化所述资源约束条件,并根据简化后的资源约束条件确定分布式训练模型的路由决策与网内聚合方案。
2.根据权利要求1所述的方法,其特征在于,所述S1中的资源约束条件包括模型并行约束、网内聚合约束、交换机能力约束、链路能力约束以及参数服务器处理能力约束。
3.根据权利要求2所述的方法,其特征在于,所述S2包括:
在不考虑所述资源约束条件中链路能力约束、假设每条流将在交换机上进行聚合、且每条流可分并能在多个交换机上聚合的基础上,采用广义的拉格朗日乘子法以得到各个参数服务器上分布式训练模型的分配比例。
4.根据权利要求2所述的方法,其特征在于,所述S3包括:
在假设各个梯度将在一条路径上发送并在一台交换机上聚合的基础上,采用线性规划解决器对联合路由和网内聚合问题在多项式时间解决,并由随机舍入算法得到路径及聚合位置结果。
5.一种联合路由决策和网内聚合的分布式模型训练装置,配置在控制器中,用于执行权利要求1-4中任一项所述的联合路由决策和网内聚合的分布式模型训练方法,其特征在于,包括:
资源约束条件确定模块,用于根据分布式训练网络中的网络资源为联合路由和网内聚合问题确定资源约束条件;
分配比例确定模块,用于根据所述资源约束条件对分布式训练模型进行划分,以确定各个参数服务器上分布式训练模型的分配比例;
方案确定模块,用于根据所述分配比例简化所述资源约束条件,并根据简化后的资源约束条件确定分布式训练模型的路由决策与网内聚合方案。
CN202210460232.XA 2022-04-28 2022-04-28 联合路由决策和网内聚合的分布式模型训练方法和装置 Active CN114866429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210460232.XA CN114866429B (zh) 2022-04-28 2022-04-28 联合路由决策和网内聚合的分布式模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210460232.XA CN114866429B (zh) 2022-04-28 2022-04-28 联合路由决策和网内聚合的分布式模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN114866429A CN114866429A (zh) 2022-08-05
CN114866429B true CN114866429B (zh) 2023-07-18

Family

ID=82634388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210460232.XA Active CN114866429B (zh) 2022-04-28 2022-04-28 联合路由决策和网内聚合的分布式模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN114866429B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135575A (zh) * 2017-12-29 2019-08-16 英特尔公司 用于分布式机器学习的通信优化
CN110795228A (zh) * 2018-08-03 2020-02-14 伊姆西Ip控股有限责任公司 使用加速器混合集的分布式深度学习的自适应批量数据集划分
CN110929878A (zh) * 2019-10-30 2020-03-27 同济大学 一种分布式随机梯度下降方法
CN111079948A (zh) * 2019-12-27 2020-04-28 电子科技大学 一种基于sdn的分布式机器学习训练加速方法
WO2020095678A1 (ja) * 2018-11-06 2020-05-14 日本電信電話株式会社 分散処理システムおよび分散処理方法
CN111444021A (zh) * 2020-04-02 2020-07-24 电子科技大学 基于分布式机器学习的同步训练方法、服务器及系统
CN112702267A (zh) * 2021-01-21 2021-04-23 广东工业大学 分布式训练路由方法、系统、储存介质及计算机设备
CN112862111A (zh) * 2021-04-26 2021-05-28 之江实验室 一种加速分布式机器学习梯度汇聚的方法和装置
CN113011602A (zh) * 2021-03-03 2021-06-22 中国科学技术大学苏州高等研究院 一种联邦模型训练方法、装置、电子设备和存储介质
WO2021158313A1 (en) * 2020-02-03 2021-08-12 Intel Corporation Systems and methods for distributed learning for wireless edge dynamics

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210357800A1 (en) * 2020-05-13 2021-11-18 Seagate Technology Llc Distributed decentralized machine learning model training

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135575A (zh) * 2017-12-29 2019-08-16 英特尔公司 用于分布式机器学习的通信优化
CN110795228A (zh) * 2018-08-03 2020-02-14 伊姆西Ip控股有限责任公司 使用加速器混合集的分布式深度学习的自适应批量数据集划分
WO2020095678A1 (ja) * 2018-11-06 2020-05-14 日本電信電話株式会社 分散処理システムおよび分散処理方法
CN110929878A (zh) * 2019-10-30 2020-03-27 同济大学 一种分布式随机梯度下降方法
CN111079948A (zh) * 2019-12-27 2020-04-28 电子科技大学 一种基于sdn的分布式机器学习训练加速方法
WO2021158313A1 (en) * 2020-02-03 2021-08-12 Intel Corporation Systems and methods for distributed learning for wireless edge dynamics
CN111444021A (zh) * 2020-04-02 2020-07-24 电子科技大学 基于分布式机器学习的同步训练方法、服务器及系统
CN112702267A (zh) * 2021-01-21 2021-04-23 广东工业大学 分布式训练路由方法、系统、储存介质及计算机设备
CN113011602A (zh) * 2021-03-03 2021-06-22 中国科学技术大学苏州高等研究院 一种联邦模型训练方法、装置、电子设备和存储介质
CN112862111A (zh) * 2021-04-26 2021-05-28 之江实验室 一种加速分布式机器学习梯度汇聚的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IN-NETWORK AGGREGATION FOR SHARED MACHINE LEARNING CLUSTERS;Nadeen Gebara ,Paolo Costa ,Manya Ghobadi;《https://proceedings.mlsys.org/paper/2021/file/eae27d77ca20db309e056e3d2dcd7d69-Paper.pdf》;1-16 *
Scaling Distributed Machine Learning with In-Network Aggregation;Amedeo Sapio,Marco Canini,Chen-Yu Ho,Jacob Nelson,et al.;《http://arXiv:1903.06701v2》;1-25 *
分布式深度学习系统网络 通信优化技术;董德尊,欧阳硕;《https://kns.cnki.net/kcms/detail/34.1228.TN.20200924.1853.004.html》;2-8 *

Also Published As

Publication number Publication date
CN114866429A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
Zhang et al. Adaptive interference-aware VNF placement for service-customized 5G network slices
Qureshi et al. A distributed software defined networking model to improve the scalability and quality of services for flexible green energy internet for smart grid systems
CN108566659B (zh) 一种基于可靠性的5g网络切片在线映射方法
Chen et al. An integrated framework for software defined networking, caching, and computing
CN107729147A (zh) 流计算系统中的数据处理方法、控制节点及流计算系统
Tajiki et al. CECT: computationally efficient congestion-avoidance and traffic engineering in software-defined cloud data centers
CN105009521A (zh) 消息处理方法和网关
CN116389365B (zh) 一种交换机数据处理方法及系统
Choudhury et al. Shareon: Shared resource dynamic container migration framework for real-time support in mobile edge clouds
Zhu et al. Double-agent reinforced vNFC deployment in EONs for cloud-edge computing
Routaib et al. Modeling and evaluating a cloudlet-based architecture for mobile cloud computing
CN110932920B (zh) 一种网络拓扑结构
Rzepka et al. SDN-based fog and cloud interplay for stream processing
Xiang et al. Deep Reinforcement Learning-based load balancing strategy for multiple controllers in SDN
CN114866429B (zh) 联合路由决策和网内聚合的分布式模型训练方法和装置
WO2024146193A1 (zh) 一种基于sdn的路由路径选择方法、装置及存储介质
Skirelis et al. Performance analysis of edge computing in IoT
CN114531389A (zh) 一种路由表优化方法、控制器以及路由器
CN105190599A (zh) 云应用带宽建模
CN117119043A (zh) 一种边缘网络拓扑感知的微服务部署方法
Rossi et al. Dynamic network bandwidth resizing for big data applications
CN112822233B (zh) 流量重定向方法及装置
CN116455817A (zh) 一种软件定义云网融合架构及路由实现方法
Chen et al. B-scale: Bottleneck-aware VNF scaling and flow routing in edge clouds
Ren et al. Path computing scheme with low-latency and low-power in hybrid cloud-fog network for IIoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant