CN116455824A

CN116455824A - 基于强化学习的网络流量负载均衡方法

Info

Publication number: CN116455824A
Application number: CN202310288167.1A
Authority: CN
Inventors: 张凌; 罗应鑫
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-07-18

Abstract

本发明公开了一种基于强化学习的网络流量负载均衡方法，包括：1)软件定义网络SDN控制器获取交换机流表信息，构建端到端的流量矩阵和网络拓扑；2)基于网络拓扑和流量矩阵，采用线性规划模型求解以最小化最大链路带宽利用率为目标的最优化问题，并将结果以数据对形式存储到数据库；3)建立以最优带宽利用率和最小业务扰动为目标的强化学习模型，提取数据库中数据来训练；4)采集实际流量转发需求，送入强化学习模型，得到关键数据流集合，并用线性规划模型解得关键数据流的重路由方案；5)将重路由方案解析为传输路径；6)根据传输路径更新网络配置，优化链路负载。本发明在实现负载均衡的同时兼顾对业务的影响，具有较好的应用前景。

Description

基于强化学习的网络流量负载均衡方法

技术领域

本发明涉及网络流量调度的技术领域，尤其是指一种基于强化学习的网络流量负载均衡方法。

背景技术

随着互联网的飞速发展，数据中心的流量呈爆发式增长，且业务流量需求呈不均匀分布，为了提高数据中心的处理能力，通过流量工程来优化路由，实现网络中各链路负载均衡是一种可行的解决方案。传统的流量工程方案通过重路由尽可能多的数据流来实现最佳或接近最佳的性能；但重路由带来的数据包乱序问题、时延抖动对业务有影响。为了在均衡链路负载的同时降低对业务的影响，可以采用部分重路由的方案，只对少部分的关键数据流进行重路由。

部分重路由方案中，关键数据流的选择策略需要随着网络结构和业务种类的变化进行动态调整，而主流的启发式流量负载均衡方法在关键数据流的选择上，无法随着网络结构变化作出自适应的调整。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于强化学习的网络流量负载均衡方法，实现负载均衡的同时兼顾对业务的影响，尽可能通过重路由尽量少的业务流、重路由时延不敏感型业务流来实现较好的均衡效果，从而提高网络的处理能力与效率。

为实现上述目的，本发明所提供的技术方案为：基于强化学习的网络流量负载均衡方法，包括以下步骤：

1)软件定义网络SDN控制器获取交换机流表信息，构建端到端的流量矩阵和网络拓扑；

2)基于网络拓扑和流量矩阵，采用线性规划模型求解以最小化最大链路带宽利用率为目标的最优化问题，并将结果以数据对形式存储到数据库；

3)建立以最优带宽利用率和最小业务扰动为优化目标的强化学习模型，并提取数据库中的数据来训练；

4)采集实际流量转发需求，送入强化学习模型，得到关键数据流集合，并用线性规划模型解得关键数据流集合的重路由方案；

5)将重路由方案解析为传输路径；

6)根据传输路径更新网络配置，优化链路负载。

进一步，在步骤1)中，软件定义网络SDN控制器获取交换机流表信息，构建端到端的流量矩阵和网络拓扑，过程如下：

SDN控制器遍历每个交换机的流表项，收到交换机回复的FlowStatsReply报文后，提取报文的IP字段和ByteCount字段，根据IP字段所映射的接入交换机id进行流量聚合，得到当前交换机发送给其它交换机的累积数据总量；在t1时刻获取到数据总量ByteCountTotal1，在t2时刻获取到数据总量ByteCountTotal2，通过数据量差值ByteDiff＝ByteCountTotal2-ByteCountTotal1与统计时间差值TimeDiff＝t2-t1，计算出当前交换机发送到其它交换机的流量速率，处理完所有交换机流表就能够得到全网的流量矩阵；对于网络拓扑，SDN控制器通过监听交换机及其端口的接入与退出事件来构建网络拓扑图。

进一步，在步骤2)中，所述线性规划模型的情况如下：

G(V,E)有向图表示网络拓扑，V代表交换机节点，E代表交换机之间的链路，i,j,k代表交换机节点的编号；

c_i,j表示链路<i,j>的容量带宽，<i,j>∈E；

l_i,j表示链路<i,j>的总负载，<i,j>∈E；

表示链路<i,j>的初始负载，<i,j>∈E；

D_s,d表示流量矩阵中从源交换机节点s到目的交换机节点d的带宽需求，s,d∈V,s≠d；

表示s到d的流量通过链路<i,j>进行传输的概率，s,d∈V,s≠d,<i,j>∈E；

最小化最大链路带宽利用率问题建模如下：

目标：最小化最大带宽利用率U；

约束：链路负载i,j:<i,j>∈E；

负载约束l_i,j≤c_i,j·U；i,j:<i,j>∈E；

路径约束

表示s到d的流量通过以节点k为起点的链路<k,i>进行传输的概率，/>表示s到d的流量通过以节点k为终点的链路<i,k>进行传输的概率。

进一步，在步骤3)中，将关键流选择问题建模为马尔科夫决策过程，包括执行动作、更新状态和获得奖励，其对应的动作空间A、状态空间S′和奖励函数R三要素具体定义如下：

动作空间A：以节点对<s,d>,s≠d作为动作空间，在给定N个节点的网络中，动作空间大小为N*(N-1)，每次交互选择其中的M个元素，将该M个元素的集合作为选择的动作；

状态空间S′：以流量矩阵作为状态空间，每一项代表源节点到目的节点的流量传输需求，在给定N个节点的网络中，状态空间大小为N*N；

奖励函数R：对选择M个节点对在流量矩阵中所对应的数据流F_m＝(f₁,f₂,...,f_m)，f_m为第m个节点对，采用步骤2)的线性规划模型求解，此时为去除数据流(f₁,f₂,...,f_m)之后的链路负载，得出优化后的带宽利用率指标U；同时对数据流(f₁,f₂,...,f_m)进行评估，得出时延敏感数据流占比P₁＝时延敏感数据流个数C/数据流总数M；奖励值/>ε为微小常量，用来消除P₁为0带来的异常；

采用深度神经网络作为强化学习模型来逼近最优策，初始时随机设置动作空间元素的概率值，为了提高网络的整体性能，将最大化奖励作为训练目标，采用梯度上升的方法来更新神经网络参数，同时在训练过程中引入Baseline和信息熵来优化模型，加速模型的收敛；

所述深度神经网络是通过一个卷积层来提取流量矩阵的特征信息，再以全连接层来实现网络的表达能力，得出的策略为流量矩阵中节点对的概率值，选择其中概率最大的前M项作为需要重新路由的关键数据流集合F″_m。

进一步，所述步骤4)包括以下步骤：

4.1)通过同步骤1)的方法收集当前网络中的流量转发需求；

4.2)通过同步骤3)的强化学习模型筛选出关键数据流集合F″_m；

4.3)通过同步骤2)的线性规划模型求解出关键数据流集合的重路由方案<s,d>∈F″_m。

进一步，所述步骤5)包括以下步骤：

5.1)去除solu中值为0的元素；

5.2)选择关键数据流集合F″_m中的一条数据流f_y，确定其源节点和目的节点<s_y,d_y>，并从solu中筛选出数据流f_y所对应的路由方案子集同时创建三个空队列q₁、q₂、q₃，将源节点s_y加入到队列q₁，记录当前节点值s_t＝s_y；

5.3)从中选择一个元素/>将节点s_j加入到队列q₁，节点概率值/>加入到q₂，记录当前节点为s_t＝s_j；

5.4)如果当前节点s_t为目的节点d_y，将q₁中的路径加入到q₃，并记录该路径概率将q₁、q₂的末尾元素弹出，回到步骤5.3)；

5.5)根据路径概率从q₃队列中选择数据流f_y的重路由路径Path；

5.6)依次选择下一条数据流，按照步骤5.2)到5.5)的步骤处理，得到关键数据流集合F′_m的重路由后的传输路径Paths；

进一步，在步骤6)中，根据得到的传输路径更新网络配置的过程如下：

将得出的传输路径Paths，在Ryu控制器转化成相应的流表修改指令FlowMod，通过南向接口下发给交换机，达到流量负载均衡效果。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明提高了流量负载均衡的效率，重路由少量的关键数据流就可以实现接近最优的网络负载均衡效果，同时缩短了计算出优化方案的时间，更适用于实时优化网络数据流传输的场景。

2、本发明减少了流量负载均衡过程对业务的扰动，重路由关键流的选择过程中，引入了数据流重要程度的概念，通过对数据流的分类与评估，优先选择时延不敏感的数据流进行重路由，在优化负载均衡效果的同时尽可能降低对业务的影响。

3、本发明方法完成了从理论优化到路由部署的探索，在计算机网络流量调度领域具有较好的应用前景。

附图说明

图1为本发明的逻辑流程示意图。

图2为深度神经网络的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供了一种基于强化学习的网络流量负载均衡方法，包括以下步骤：

1)采集流量矩阵和网络拓扑信息：在给定N个节点的网络中，流量矩阵为大小为N*N的二维矩阵T，其中的元素项T_[i][j]表示以i为源节点，j为目的节点的数据流的带宽需求。采集时，SDN控制器通过Openflow协议周期性地遍历每个交换机的流表项，收到交换机回复的FlowStatsRequest报文后，提取报文的IP字段和ByteCount字段，根据IP字段所映射的接入交换机id进行流量聚合，得到当前交换机发送给其它交换机的累积数据总量。在t1时刻获取到数据总量ByteCountTotal1，在t2时刻获取到数据总量ByteCountTotal2，通过数据量差值ByteDiff＝ByteCountTotal2-ByteCountTotal1与统计时间差值TimeDiff＝t2-t1，计算出当前交换机发送到其它交换机的流量速率(ByteDiff/TimeDiff)，处理完所有交换机流表就能够得到全网的流量矩阵；同时SDN控制器通过监听交换机及其端口的接入与退出事件来构建网络拓扑图。

2)得出最小化最大带宽利用率：根据步骤1)得到的流量矩阵和网络拓扑，采用线性规划模型求解以最小化最大带宽利用率为目标的最优化问题，线性规划模型的情况具体如下：

c_i,j表示链路<i,j>的容量带宽，<i,j>∈E；

l_i,j表示链路<i,j>总的负载，<i,j>∈E；

表示链路<i,j>的初始负载，<i,j>∈E；

D_s,d表示流量矩阵中从源节点s到目的节点d的带宽需求，s,d∈V,s≠d；

表示s到d的流量通过链路<i,j>进行传输的概率s,d∈V,s≠d,<i,j>∈E；

最小化最大链路带宽利用率问题建模如下：

目标：最小化最大带宽利用率U；

约束：链路负载i,j:<i,j>∈E；

负载约束l_i,j≤c_i,j·U i,j:<i,j>∈E；

路径约束

表示s到d的流量通过以节点k为起点的链路<k,i>进行传输的概率，/>表示s到d的流量通过以节点k为终点的链路<i,k>进行传输的概率；

求解得到最小化最大带宽利用率U后，将其和流量矩阵以数据对的形式存储到数据库中。

3)将关键流选择问题建模为马尔科夫决策过程，包括执行动作、更新状态、获得奖励，其对应的动作空间A、状态空间S′和奖励函数R三要素具体定义为：

采用深度神经网络作为强化学习模型来逼近最优策略，初始时随机设置动作空间元素的概率值；为了提高网络的整体性能，将最大化奖励作为训练目标，采用梯度上升的方法来更新神经网络参数，同时在训练过程中引入Baseline和信息熵来优化模型，加速模型的收敛；

从数据库中取出步骤2)所得到的流量矩阵和最小化最大带宽利用率组成的数据对集合输入到深度神经网络，网络的结构如图2所示，通过一个卷积层来提取流量矩阵T的特征信息，再以全连接层来实现模型的表达能力，得出的策略为流量矩阵中节点对的概率值P″，选择其中概率最大的前M项作为需要重新路由的关键数据流集合F′_m。

4)求解关键数据流集合的重路由方案：采集的实际流量传输需求，送入深度神经网络，得出关键数据流，并使用线性规划模型得到关键数据流集合的重路由方案<s,d>∈F′_m。

5)解析重路由方案：根据步骤4)得出的重路由方案，采用回溯算法解析为传输路径，具体为：

5.1)去除solu中值为0的元素；

5.6)依次选择下一条数据流，按照步骤5.2)到5.5)的步骤处理，得到关键数据流集合F′_m的重路由后的传输路径Paths。

6)下发配置：根据步骤5)解析出的传输路径Paths，在Ryu控制器转化成相应的流表修改指令FlowMod，通过南向接口下发给交换机，完成配置更新，实现较好的负载均衡效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于强化学习的网络流量负载均衡方法，其特征在于，包括以下步骤：

5)将重路由方案解析为传输路径；

6)根据传输路径更新网络配置，优化链路负载。

2.根据权利要求1所述的基于强化学习的网络流量负载均衡方法，其特征在于，在步骤1)中，软件定义网络SDN控制器获取交换机流表信息，构建端到端的流量矩阵和网络拓扑，过程如下：

3.根据权利要求2所述的基于强化学习的网络流量负载均衡方法，其特征在于，在步骤2)中，所述线性规划模型的情况如下：

c_i,j表示链路＜i,j＞的容量带宽，<i,j>∈E；

l_i,j表示链路＜i,j＞的总负载，＜i,j＞∈E；

表示链路＜i,j＞的初始负载，＜i,j＞∈E；

表示s到d的流量通过链路＜i,j＞进行传输的概率，s,d∈V,s≠d,＜i,j＞∈E；

最小化最大链路带宽利用率问题建模如下：

目标：最小化最大带宽利用率U；

约束：链路负载

负载约束l_i,j≤c_i,j·U；i,j:＜i,j＞∈E；

路径约束

表示s到d的流量通过以节点k为起点的链路<k,i>进行传输的概率，/>表示s到d的流量通过以节点k为终点的链路＜i,k＞进行传输的概率。

4.根据权利要求3所述的基于强化学习的网络流量负载均衡方法，其特征在于，在步骤3)中，将关键流选择问题建模为马尔科夫决策过程，包括执行动作、更新状态和获得奖励，其对应的动作空间A、状态空间S′和奖励函数R三要素具体定义如下：

所述深度神经网络是通过一个卷积层来提取流量矩阵的特征信息，再以全连接层来实现网络的表达能力，得出的策略为流量矩阵中节点对的概率值，选择其中概率最大的前M项作为需要重新路由的关键数据流集合F′_m。

5.根据权利要求4所述的基于强化学习的网络流量负载均衡方法，其特征在于，所述步骤4)包括以下步骤：

4.1)通过同步骤1)的方法收集当前网络中的流量转发需求；

4.2)通过同步骤3)的强化学习模型筛选出关键数据流集合F′_m；

4.3)通过同步骤2)的线性规划模型求解出关键数据流集合的重路由方案＜s,d＞∈F′_m。

6.根据权利要求5所述的基于强化学习的网络流量负载均衡方法，其特征在于，所述步骤5)包括以下步骤：

5.1)去除solu中值为0的元素；

5.2)选择关键数据流集合F′_m中的一条数据流f_y，确定其源节点和目的节点＜s_y,d_y＞，并从solu中筛选出数据流f_y所对应的路由方案子集同时创建三个空队列q₁、q₂、q₃，将源节点s_y加入到队列q₁，记录当前节点值s_t＝s_y；

5.4)如果当前节点s_t为目的节点d_y，将q₁中的路径加入到q₃，并记录该路径概率p_yi＝min(q₂)，将q₁、q₂的末尾元素弹出，回到步骤5.3)；

5.5)根据路径概率p_yi从q₃队列中选择数据流f_y的重路由路径Path；

7.根据权利要求6所述的基于强化学习的网络流量负载均衡方法，其特征在于，在步骤6)中，根据得到的传输路径更新网络配置的过程如下：