CN118316726A - 多特征域应用流量分类方法、装置、电子设备及存储介质 - Google Patents
多特征域应用流量分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118316726A CN118316726A CN202410580566.XA CN202410580566A CN118316726A CN 118316726 A CN118316726 A CN 118316726A CN 202410580566 A CN202410580566 A CN 202410580566A CN 118316726 A CN118316726 A CN 118316726A
- Authority
- CN
- China
- Prior art keywords
- domain
- classification
- classification result
- metadata
- adopting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种多特征域应用流量分类方法、装置、电子设备及存储介质,该多特征域应用流量分类方法包括:根据流量分类请求,获取目标分类应用流量的特征域;对元数据域采用元数据域模型进行分类,得到元数据域分类结果;对字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对文本域采用文本域模型进行分类,得到文本域分类结果;对时序域采用时序分类模型进行分类,得到时序域分类结果;将元数据域分类结果、字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。本发明的有益效果为:能够适用于加密和非加密流量的识别,表征不依赖于协议格式,提高了流量分类的适用范围。
Description
技术领域
本发明涉及计算机网络数据处理技术领域,尤其涉及一种多特征域应用流量分类方法、装置、电子设备及存储介质。
背景技术
网络流包含诸多特征域的信息,但现有方法大多只利用单一特征域信息,对多特征域信息利用不足,影响分析准确度。
现有方法大多是端到端方法,没有对模型决策机理进行分析,方法可解释性较弱,现有一些方法只适用于特定类型的流量(如TLS加密流量)。
发明内容
本发明实施例的主要目的在于提出一种多特征域应用流量分类方法、装置、电子设备及存储介质,提高了多特征域应用流量的普适性。
本发明的一方面提供了一种多特征域应用流量分类方法,包括:
根据流量分类请求,获取目标分类应用流量的特征域,所述特征域包括元数据域、字节分布域、文本域及时序域;
对所述元数据域采用元数据域模型进行分类,得到元数据域分类结果;对所述字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对所述文本域采用文本域模型进行分类,得到文本域分类结果;对所述时序域采用时序分类模型进行分类,得到时序域分类结果;
将所述元数据域分类结果、所述字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。
根据所述的多特征域应用流量分类方法,其中元数据域采用元数据域模型进行分类,包括:
基于随机森林算法构建所述元数据域模型,通过所述元数据域模型通过对所述目标分类应用流量的日志进行特征提取,得到元数据域的上行数据包、下行数据包、数据包数量、字节数量及持续时间。
根据所述的多特征域应用流量分类方法,其中字节分布域采用字节分布域模型进行分类,包括:
通过对所述目标分类应用流量的上行负载和下行负载进行字节统计,得到两个字节统计向量,将两个字节统计向量进行拼接,得到拼接向量;
通过XGBoost算法构建所述字节分布域模型,以拼接向量作为输入,得到字节分布域分类结果。
根据所述的多特征域应用流量分类方法,其中文本域采用文本域模型进行分类,得到文本域分类结果,包括:
通过对所述目标分类应用流量的上行负载和下行负载进行分离,对上行负载的文本信息域进行提取,得到上行文本域信息,对下行负载的文本信息域进行提取,得到下行文本域信息;
将上行文本域信息和下行文本域信息分别通过一维卷积神经网络进行特征融合,得到文本域分类结果,其中一维卷积神经网络采用监督方式进行训练,并采用交叉熵作为损失函数,损失函数为
其中,yic为真实标签,pic为第i个样本属于c类别的概率,其中为训练集。
根据所述的多特征域应用流量分类方法,其中对所述时序域采用时序分类模型进行分类,包括:
将所述目标分类应用流量的数据包划分为整数序列,其中整数序列包括为正长度的上行数据包和为负长度的下行数据包,将整数序列通过采用基于双向多层RNN结构的时序分类模型进行文本域特征提取;
其中,基于双向多层RNN结构的时序分类模型的训练包括:
输入样本数据,以及,选择与样本数据类别相同的正样本和类别不同的负样本进行输入;
通过双向多层RNN结构对样本数据、正样本及负样本进行处理,并在处理时使样本数据与正样本距离拉近,得到第一Triplet损失,以及使样本数据与负样本距离远离,得到第二Triplet损失,其中Triplet损失计算方式为
其中m为边界值,D表示为欧式距离;
通过多任务学习完成基于双向多层RNN结构的时序分类模型的训练。
根据所述的多特征域应用流量分类方法,其中将所述元数据域分类结果、所述字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行处理,得到最终分类结果,包括:
采用SHAP算法进行特征归因处理,其中SHAP算法通过每种分类结果所采用的输入特征计算贡献度,通过贡献度确定分类结果;
根据所述的多特征域应用流量分类方法,其中方法还包括:
采用积分梯度算法进行特征归因处理,包括采用反向传播算法得到输入样本的梯度,对输入单元的重要性进行计算,通过重要性确定分类结果。
本发明实施例的另一方面提供了一种多特征域应用流量分类装置,包括:
第一模块,用于根据流量分类请求,获取目标分类应用流量的特征域,所述特征域包括元数据域、字节分布域、文本域及时序域;
第二模块,用于对所述元数据域采用元数据域模型进行分类,得到元数据域分类结果;对所述字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对所述文本域采用文本域模型进行分类,得到文本域分类结果;对所述时序域采用时序分类模型进行分类,得到时序域分类结果;
第三模块,用于将所述元数据域分类结果、所述字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。
本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前文所描述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文所描述的方法。
本发明的有益效果为:将网络流信息分为基本信息、字节统计信息、文本信息、时序信息,对不同特征域分别训练模型,避免特征域之间互相影响;对多特征域模型进行集成,得到最终识别结果;根据识别结果,在不同特征域上进行特征归因。能够适用于加密和非加密流量的识别,表征不依赖于协议格式,尤其是文本域特征,特征域之间相互补充(如缺失)、相互促进的作用,提高了流量分类的适用范围。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的多特征域信息的可解释流量识别框架示意图。
图2是本发明实施例的多特征域应用流量分类流程示意图。
图3是本发明实施例的字节分布域模型的分类流程示意图。
图4是本发明实施例的文本域模型分类流程示意图。
图5是本发明实施例的基于1D-CNN的文本域模型示意图。
图6是本发明实施例的时序分类模型分类流程示意图。
图7是本发明实施例的双向多层RNN结构示意图。
图8是本发明实施例的多特征域应用流量分类装置示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本发明的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参考图1,其中图1是本发明实施例的多特征域信息的可解释流量识别框架示意图。本发明实施例的可解释流量识别框架对于原始网络流,记录其元数据信息(元数据域)、字节统计值(字节分布域)、负载字节流(文本域)以及数据包序列(时序域)。在四个特征域上分别构建基于单特征域的分类模型。面对待检测网络流,这些模型分别给出在其特征域上的识别结果。通过对这些识别结果进行集成,从而得到对待检测网络流的最终识别结果。另外,还应用了可解释方法在不同的特征域进行特征归因,从而为分析人员提供模型内在的决策依据,以提高模型检测结果的可信度。
图2是本发明实施例的多特征域应用流量分类流程示意图,其包括但不限于步骤S100~S300:
S100,根据流量分类请求,获取目标分类应用流量的特征域,特征域包括元数据域、字节分布域、文本域及时序域。
在一些实施例中,元数据域表示元数据信息,字节分布域用于表示字节统计值,文本域用于表征负载字节流,时序域表示数据包序列。
S200,对元数据域采用元数据域模型进行分类,得到元数据域分类结果;对字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对文本域采用文本域模型进行分类,得到文本域分类结果;对时序域采用时序分类模型进行分类,得到时序域分类结果。
在一些实施例中,网络流基本信息是反映网络流最基本的整体性特征,而且诸多日志类型(如:Netflow)都会进行记录,可用于流量识别。提取的特征包括:上/下行数据包/字节量,持续时间,这些特征通常被记录在日志中;元数据域模型Basis-RF用于源数据的分类,其基于随机森林算法构建元数据域模型,通过元数据域模型通过对目标分类应用流量的日志进行特征提取,得到元数据域的上行数据包、下行数据包、数据包数量、字节数量及持续时间。
在一些实施例中,参考图3所示的字节分布域模型的分类流程示意图,其包括但不限于步骤S221~S222:
S221,通过对目标分类应用流量的上行负载和下行负载进行字节统计,得到两个字节统计向量,将两个字节统计向量进行拼接,得到拼接向量;
S222,通过XGBoost算法构建字节分布域模型,以拼接向量作为输入,得到字节分布域分类结果
在一些实施例中,字节分布域模型BD-boost用于记录和分析网络流传输的所有文本信息是高代价的。而且对加密流量来说,分析加密负载字节流意义不大。本发明实施例用负载字节分布来反映负载的整体特性。尤其对于非加密流量来说,字节分布可以反应网络流负载的相关信息,如是否加密、传输文件类型等。
在一些实施例中,将网络流负载分成上行负载与下行负载,分别对两个负载进行字节统计,从而生成两个256维向量。将两者的字节统计向量进行拼接,从而构成BD-RF的输入特征向量(512维)。
在一些实施例中,参考图4所示的文本域模型分类流程示意图,其包括但不限于步骤S231~S232:
S231,通过对目标分类应用流量的上行负载和下行负载进行分离,对上行负载的文本信息域进行提取,得到上行文本域信息,对下行负载的文本信息域进行提取,得到下行文本域信息;
S232,将上行文本域信息和下行文本域信息分别通过一维卷积神经网络进行特征融合,得到文本域分类结果,其中一维卷积神经网络采用监督方式进行训练,并采用交叉熵作为损失函数。
在一些实施例中,对于文本域模型Text-Net,流量虽然进行了加密,但是前期少量明文信息交互是必要的。这些明文信息可用于流量识别。这些信息主要集中网络流前几个数据包中。诸多研究表明,网络流前几个数据包在流量识别中能起到更大作用。
在一些实施例中,参考图5所示的基于1D-CNN的文本域模型Text-Ne,可以理解的是网络流中上下行负载分别由客户端和服务端产生,因此通常具有不同特性。为了避免上下行负载混杂对表征学习的干扰,在特征提取时需要对上下行负载进行分离,并之后再进行特征融合。本发明实施例将上行负载和下行负载分别输入到该网络结构中,从而实现对其文本域信息的分别提取。将两者的输出结果进行拼接后,输入到DNN网络进行特征融合,从而得到对网络流文本域信息的表征结果。将表征结果输入到分类器中。
使用有监督方式训练Text-Net。针对分类任务,使用交叉熵作为损失函数
其中yic为真实标签,pic为第i个样本属于c类别的概率。
在一些实施例中,参考图6所示的时序分类模型分类流程示意图,其包括但不限于步骤S241:
S241,将目标分类应用流量的数据包划分为整数序列,其中整数序列包括为正长度的上行数据包和为负长度的下行数据包,将整数序列通过采用基于双向多层RNN结构的时序分类模型进行文本域特征提取。
在一些实施例中,其中时序分类模型的训练流程包括:输入样本数据,以及,选择与样本数据类别相同的正样本和类别不同的负样本进行输入;通过双向多层RNN结构对样本数据、正样本及负样本进行处理,并在处理时使样本数据与正样本距离拉近,得到第一Triplet损失,以及使样本数据与负样本距离远离,得到第二Triplet损失;通过多任务学习完成基于双向多层RNN结构的时序分类模型的训练。
在一些实施例中,对于时序域,其尤其针对加密流量,交互过程无法看到具体明文信息。但是交互过程中产生序列信息(如:包长序列)能够反映一定的网络行为信息,也可用于流量识别。
本发明实施例使用网络流的数据包长度序列作为PS-Net的输入。利用表征学习的方式,从网络流的数据包序列中自动提取文本域特征。本发明实施例设置最大包长MTU为1500,即设置超长数据包的包长为1500。为了区别数据包的方向,本发明实施例设置上行数据包长度为正,下行数据包长度为负。因此,数据包序列被转化成了在区间[-MTU,+MTU]的整数序列。
在一些实施例中,参考图7所示的双向多层RNN结构示意图,采用PS-Net是基于双向多层RNN结构进行学习,其中PS-Net的训练流程包括:
对于输入样本,本发明实施例还会随机选择一个与其类别相同的正样本和一个与其类别不同的负样本。通过PS-Net网络后,得到各自的特征向量。本发明实施例尽可能让输入样本与正样本的距离接近,而与负样本的距离拉远。这个对比过程的损失通过Triplet损失来实现:
其中m为边界值,D表示为欧式距离。
最终,本发明实施例通过多任务学习方式实现对PS-Net的训练,其损失函数即为分类损失与对比损失的加权和,即:
其中α为权重参数。
在一些实施例中,基于四个特征域的模型的识别结果,本发明实施例通过软投票的方式实现对待检测网络流所属类别的最终判定。每个模型的投票值即为其识别概率。相比于直接投票的集成方法,软投票可以避免单个模型的低置信度识别结果对最终决策产生干扰。
考虑到不同模型的识别性能,本发明实施例还为模型设置不同的投票权重,这是更为合理的。因此,最终投票结果即为各个模型识别概率的加权和。
其中,模型权重是基于训练集数据得到的。寻找最优模型权重的问题可以转化为约束最优化问题,即:
其中⊙表示矩阵的Hadamard积。因此,最终的识别结果可以表示为:
S300,将元数据域分类结果、字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。
在一些实施例中,对于最终的检测结果,可以通过可解释方法对其在网络流四个特征域上进行特征归因。该方案使用的可解释方法包括SHAP算法和积分梯度算法。
SHAP算法是基于Shapley值对不同输入特征来计算贡献度。SHAP算法对输入为表格型数据的机器学习模型具有良好的适应性。在本方案中,使用SHAP算法来对Basis-RF和BD-boost模型进行解释,从而实现对网络流识别结果在元数据域和字节分布域的特征归因。其中,特征归因结果以特征权重直方图形式展现。
积分梯度(Integral Gradient,IG)算法,该算法直接基于传统反向传播算法所得到的输入样本上的梯度,对各个输入单元的重要性进行计算。积分梯度算法对基于表征学习的神经网络模型具有良好的适应性。在本方案中,使用积分梯度算法来对Text-Net和PS-Net模型进行解释,从而实现对网络流识别结果在文本域和时序域的特征归因。其中,特征归因结果以特征权重热力图形式展现。
图8是本发明实施例的多特征域应用流量分类装置图。该装置包括了第一模块810、第二模块820及第三模块830。
其中,第一模块,用于根据流量分类请求,获取目标分类应用流量的特征域,特征域包括元数据域、字节分布域、文本域及时序域;第二模块,用于对元数据域采用元数据域模型进行分类,得到元数据域分类结果;对字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对文本域采用文本域模型进行分类,得到文本域分类结果;对时序域采用时序分类模型进行分类,得到时序域分类结果;第三模块,用于将元数据域分类结果、字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。
示例性地,在装置中的第一模块、第二模块、第三模块的合作下,实施例装置可以实现前述的任意一种多特征域应用流量分类方法,即根据流量分类请求,获取目标分类应用流量的特征域,特征域包括元数据域、字节分布域、文本域及时序域;对元数据域采用元数据域模型进行分类,得到元数据域分类结果;对字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对文本域采用文本域模型进行分类,得到文本域分类结果;对时序域采用时序分类模型进行分类,得到时序域分类结果;将元数据域分类结果、字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。本发明的有益效果为:将网络流信息分为基本信息、字节统计信息、文本信息、时序信息,对不同特征域分别训练模型,避免特征域之间互相影响;对多特征域模型进行集成,得到最终识别结果;根据识别结果,在不同特征域上进行特征归因。能够适用于加密和非加密流量的识别,表征不依赖于协议格式,尤其是文本域特征,特征域之间相互补充(如缺失)、相互促进的作用,提高了流量分类的适用范围。
本发明实施例还提供了一种电子设备,该电子设备包括处理器以及存储器;
存储器存储有程序;
处理器执行程序以执行前述的多特征域应用流量分类方法;该电子设备具有搭载并运行本发明实施例提供的多特征域应用流量分类的软件系统的功能,例如,个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的多特征域应用流量分类方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的多特征域应用流量分类方法。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种多特征域应用流量分类方法,其特征在于,包括:
根据流量分类请求,获取目标分类应用流量的特征域,所述特征域包括元数据域、字节分布域、文本域及时序域;
对所述元数据域采用元数据域模型进行分类,得到元数据域分类结果;对所述字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对所述文本域采用文本域模型进行分类,得到文本域分类结果;对所述时序域采用时序分类模型进行分类,得到时序域分类结果;
将所述元数据域分类结果、所述字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。
2.根据权利要求1所述的多特征域应用流量分类方法,其特征在于,所述元数据域采用元数据域模型进行分类,包括:
基于随机森林算法构建所述元数据域模型,通过所述元数据域模型通过对所述目标分类应用流量的日志进行特征提取,得到元数据域的上行数据包、下行数据包、数据包数量、字节数量及持续时间。
3.根据权利要求1所述的多特征域应用流量分类方法,其特征在于,所述字节分布域采用字节分布域模型进行分类,包括:
通过对所述目标分类应用流量的上行负载和下行负载进行字节统计,得到两个字节统计向量,将两个字节统计向量进行拼接,得到拼接向量;
通过XGBoost算法构建所述字节分布域模型,以拼接向量作为输入,得到字节分布域分类结果。
4.根据权利要求1所述的多特征域应用流量分类方法,其特征在于,所述文本域采用文本域模型进行分类,得到文本域分类结果,包括:
通过对所述目标分类应用流量的上行负载和下行负载进行分离,对上行负载的文本信息域进行提取,得到上行文本域信息,对下行负载的文本信息域进行提取,得到下行文本域信息;
将上行文本域信息和下行文本域信息分别通过一维卷积神经网络进行特征融合,得到文本域分类结果,其中一维卷积神经网络采用监督方式进行训练,并采用交叉熵作为损失函数,损失函数为
其中,yic为真实标签,pic为第i个样本属于c类别的概率,其中为训练集。
5.根据权利要求1所述的多特征域应用流量分类方法,其特征在于,对所述时序域采用时序分类模型进行分类,包括:
将所述目标分类应用流量的数据包划分为整数序列,其中整数序列包括为正长度的上行数据包和为负长度的下行数据包,将整数序列通过采用基于双向多层RNN结构的时序分类模型进行文本域特征提取;
其中,基于双向多层RNN结构的时序分类模型的训练包括:
输入样本数据,以及,选择与样本数据类别相同的正样本和类别不同的负样本进行输入;
通过双向多层RNN结构对样本数据、正样本及负样本进行处理,并在处理时使样本数据与正样本距离拉近,得到第一Triplet损失,以及使样本数据与负样本距离远离,得到第二Triplet损失,其中Triplet损失计算方式为
其中m为边界值,D表示为欧式距离;
通过多任务学习完成基于双向多层RNN结构的时序分类模型的训练。
6.根据权利要求1所述的多特征域应用流量分类方法,其特征在于,所述将所述元数据域分类结果、所述字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行处理,得到最终分类结果,包括:
采用SHAP算法进行特征归因处理,其中SHAP算法通过每种分类结果所采用的输入特征计算贡献度,通过贡献度确定分类结果。
7.根据权利要求6所述的多特征域应用流量分类方法,其特征在于,所述方法还包括:
采用积分梯度算法进行特征归因处理,包括采用反向传播算法得到输入样本的梯度,对输入单元的重要性进行计算,通过重要性确定分类结果。
8.一种多特征域应用流量分类装置,其特征在于,包括:
第一模块,用于根据流量分类请求,获取目标分类应用流量的特征域,所述特征域包括元数据域、字节分布域、文本域及时序域;
第二模块,用于对所述元数据域采用元数据域模型进行分类,得到元数据域分类结果;对所述字节分布域采用字节分布域模型进行分类,得到字节分布域分类结果;对所述文本域采用文本域模型进行分类,得到文本域分类结果;对所述时序域采用时序分类模型进行分类,得到时序域分类结果;
第三模块,用于将所述元数据域分类结果、所述字节分布域分类结果、文本域分类结果及时序域分类结果采用软投票进行特征归因处理,得到最终分类结果。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-7中任一项所述的多特征域应用流量分类方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-7中任一项所述的多特征域应用流量分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410580566.XA CN118316726A (zh) | 2024-05-11 | 2024-05-11 | 多特征域应用流量分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410580566.XA CN118316726A (zh) | 2024-05-11 | 2024-05-11 | 多特征域应用流量分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118316726A true CN118316726A (zh) | 2024-07-09 |
Family
ID=91733648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410580566.XA Pending CN118316726A (zh) | 2024-05-11 | 2024-05-11 | 多特征域应用流量分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118316726A (zh) |
-
2024
- 2024-05-11 CN CN202410580566.XA patent/CN118316726A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109831392B (zh) | 半监督网络流量分类方法 | |
US8631331B2 (en) | Apparatus for network traffic classification benchmark | |
CN112367273B (zh) | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 | |
CN109033833B (zh) | 一种基于多特征与特征选择的恶意代码分类方法 | |
CN111556016B (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN112434178A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN110011990B (zh) | 内网安全威胁智能分析方法 | |
CN103310235B (zh) | 一种基于参数识别与估计的隐写分析方法 | |
KR102359090B1 (ko) | 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템 | |
CN111024147A (zh) | 基于CNNs的元件安装检测方法、装置、电子设备及存储介质 | |
CN114915575B (zh) | 一种基于人工智能的网络流量检测装置 | |
CN115361195A (zh) | 一种基于时空代价成本的大规模物联网流量多分类方法 | |
CN114329050A (zh) | 视觉媒体数据去重处理方法、装置、设备和存储介质 | |
CN111126501B (zh) | 一种图像识别方法、终端设备及存储介质 | |
CN112949778A (zh) | 基于局部敏感哈希的智能合约分类方法、系统及电子设备 | |
CN118316726A (zh) | 多特征域应用流量分类方法、装置、电子设备及存储介质 | |
CN113746707B (zh) | 一种基于分类器及网络结构的加密流量分类方法 | |
CN116720183A (zh) | 一种融合用户多维特征的内部威胁行为检测方法及系统 | |
CN114722240A (zh) | 一种用于堡垒机录屏审计的视频分类方法和系统 | |
CN112613521A (zh) | 基于数据转换的多层次数据分析系统及方法 | |
CN113569879A (zh) | 异常识别模型的训练方法、异常账号识别方法及相关装置 | |
CN111917847A (zh) | 基于5g与人工智能的信息处理方法及大数据云计算中心 | |
Guo et al. | Spatial-Temporal Graph Neural Network for the Detection of Container Escape Events | |
CN113869182B (zh) | 一种视频异常检测网络及其训练方法 | |
RU2779408C1 (ru) | Способ создания комбинированных каскадов нейронных сетей с едиными слоями извлечения признаков и с несколькими выходами, которые обучаются на разных датасетах одновременно |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |