CN111949803B

CN111949803B - 一种基于知识图谱的网络异常用户检测方法、装置和设备

Info

Publication number: CN111949803B
Application number: CN202010850232.1A
Authority: CN
Inventors: 孙强强; 连耿雄; 陈昊; 丘惠军; 陈霖; 匡晓云; 杨祎巍
Original assignee: China South Power Grid International Co ltd; Shenzhen Power Supply Bureau Co Ltd
Current assignee: China South Power Grid International Co ltd; Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2024-05-28
Anticipated expiration: 2040-08-21
Also published as: CN111949803A

Abstract

本申请公开了一种基于知识图谱的网络异常用户检测方法、装置和设备，其中方法包括：基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱；基于网络行为图谱和网络日志提取各访问用户的访问行为特征；将各访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，预置随机森林模型为访问用户的访问行为特征与用户类型的关系映射模型，解决了现有技术均是针对单条日志进行分析，即单个访问行为的相关属性，存在异常用户检测结果精度不高的技术问题。

Description

一种基于知识图谱的网络异常用户检测方法、装置和设备

技术领域

本申请涉及网络安全技术领域，尤其涉及一种基于知识图谱的网络异常用户检测方法、装置和设备。

背景技术

网络日志是网站的用户点击信息和其他访问行为的汇总，详细地记录了网站行为的相关属性。在网站遭受攻击后，网络管理者通常会查看相关的网络访问日志的信息。因此，网络日志成为网络管理者发现并防御网络入侵者的攻击行为的重要凭据。然而，为了逃避追查，入侵者通常会让攻击行为产生的日志信息和正常访问行为产生的日志信息尽可能相似，使得网络管理者发现入侵者的难度加大。

目前，现有的基于网络日志的异常行为分析方法，主要通过网络日志构建模型，试图找到正常日志内容和攻击日志内容的特点与差异，但现有方法均是针对单条日志进行分析，即单个访问行为的相关属性，存在异常用户检测结果精度不高的问题。

发明内容

本申请提供了一种基于知识图谱的网络异常用户检测方法、装置和设备，用于解决现有技术均是针对单条日志进行分析，即单个访问行为的相关属性，存在异常用户检测结果精度不高的技术问题。

有鉴于此，本申请第一方面提供了一种基于知识图谱的网络异常用户检测方法，包括：

基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱；

基于所述网络行为图谱和所述网络日志提取各所述访问用户的访问行为特征；

将各所述访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，所述预置随机森林模型为所述访问用户的访问行为特征与用户类型的关系映射模型。

可选的，所述基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱，包括：

在获取访问用户的网络日志后，将所述网络日志内的访问地址作为节点，根据所述网络日志获取所述节点之间的访问关系，并基于所述节点和所述访问关系构建用户访问行为的知识图谱，得到网络行为图谱；

其中，所述网络行为图谱中具有所述访问关系的两个节点之间连接有一条边，所述边的权重为所述两个节点之间的访问次数。

可选的，所述基于所述网络行为图谱和所述网络日志提取各所述访问用户的访问行为特征，包括：

基于所述网络行为图谱提取各所述访问用户的第一网络访问特征，并基于所述网络日志提取各所述访问用户的第二网络访问特征，得到各所述访问用户的访问行为特征；

其中，所述第一网络访问特征包括：用户路径规模特征、用户日志数量特征或用户访问频率特征，第二网络访问特征包括：URL长度特征、请求参数数量特征、特殊字符频率特征或字符熵特征。

可选的，基于所述网络行为图谱提取各所述访问用户的用户路径规模特征，包括：

在提取所述网络行为图谱中各所述访问用户所有的访问路径的权重后，计算各所述访问用户所有的访问路径的权重之和与所述网络行为图谱中所有所述访问用户所有的访问路径的权重之和的比值，得到各所述访问用户的用户路径规模特征。

可选的，所述预置随机森林模型的配置过程包括：

获取正常访问用户和异常访问用户的历史网络日志；

基于所述历史网络日志构建的网络行为图谱和所述历史网络日志提取所述正常访问用户和所述异常访问用户的访问行为特征；

对所述正常访问用户和所述异常访问用户的访问行为特征进行类别标记，得到训练集；

通过所述训练集对随机森林进行训练，直至所述随机森林收敛，得到所述预置随机森林模型。

本申请第二方面提供了一种基于知识图谱的网络异常用户检测装置，包括：

构建单元，用于基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱；

特征提取单元，用于基于所述网络行为图谱和所述网络日志提取各所述访问用户的访问行为特征；

检测单元，用于将各所述访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，所述预置随机森林模型为所述访问用户的访问行为特征与用户类型的关系映射模型。

可选的，所述构建单元具体用于：

可选的，所述特征提取单元具体用于：

可选的，还包括：配置单元；

所述配置单元用于：

获取正常访问用户和异常访问用户的历史网络日志；

本申请第三方面提供了一种基于知识图谱的网络异常用户检测设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于知识图谱的网络异常用户检测方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种基于知识图谱的网络异常用户检测方法，包括：基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱；基于网络行为图谱和网络日志提取各访问用户的访问行为特征；将各访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，预置随机森林模型为访问用户的访问行为特征与用户类型的关系映射模型。

本申请中的基于知识图谱的网络异常用户检测方法，基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱，通过多条网络日志来共同体现访问用户的行为，而不仅仅是通过一条网络日志来体现访问用户的行为，通过网络行为图谱可以分析得到更为准确的访问行为特征；并且，基于网络行为图谱和网络日志来提取访问用户的访问行为特征，从两个方面提取访问行为特征，可以得到更全面和更准确的特征表示，有助于提高网络异常用户检测的准确率；通过预置随机森林模型自动对输入的访问行为特征进行用户类型检测，提高检测效率，从而解决了现有技术均是针对单条日志进行分析，即单个访问行为的相关属性，存在异常用户检测结果精度不高的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种基于知识图谱的网络异常用户检测方法的一个流程示意图；

图2为本申请实施例提供的一种基于知识图谱的网络异常用户检测装置的一个结构示意图；

图3为本申请实施例提供的一个网络行为图谱的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中采用机器学习方法来构建异常日志或正常日志的模型，试图从中找到正常日志和异常日志的特点与差异，但是现有方法都是针对单条日志，即单个访问行为的相关属性。然而，在网站的访问过程中，被同一个用户主导的访问行为之间，访问同一个路径的不同的用户之间，以及用户和访问路径之间并非是完全独立的，都存在复杂的关系。基于此，为解决上述问题，本申请提供了一种基于知识图谱的网络异常用户检测方法。

为了便于理解，请参阅图1，本申请提供的一种基于知识图谱的网络异常用户检测方法的一个实施例，包括：

步骤101、基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱。

网络日志的原始数据包含的信息很多，其中部分信息在异常用户检测中没有价值。因此，可以对网络日志进行预处理，将对于异常用户检测中无用的信息去除，保留有价值的信息，可以提高数据处理效率。基于处理后的网络日志构建用户访问行为的知识图谱，得到网络行为图谱。其中，可以根据每个访问用户的网络日志数据构建每一个访问用户的小型网络行为图谱；也可以根据所有访问用户的网络日志数据构建一个包含所有访问用户的访问行为的网络行为图谱，该网络行为图谱可以看成是单个访问用户的网络行为图谱的叠加。

进一步，构建得到网络行为图谱的具体过程包括：在获取访问用户的网络日志后，将网络日志内的访问地址作为节点，根据网络日志获取节点之间的访问关系，并基于节点和访问关系构建用户访问行为的知识图谱，得到网络行为图谱；其中，网络行为图谱中具有访问关系的两个节点之间连接有一条边，边的权重为两个节点之间的访问次数。请参考图3，节点1、2和3分别表示不同的3个访问地址，节点到节点之间的边为访问路径，w₁₂为节点1和节点2之间的访问路径的权重，该权重等于节点1和节点2之间的访问次数。其他节点类似，在此不再进行赘述。

步骤102、基于网络行为图谱和网络日志提取各访问用户的访问行为特征。

在构建好网络行为图谱后，从网络行为图谱和网络日志中提取多个特征作为访问用户的访问行为特征，得到更为全面和更准确的特征表示，有助于提高后续的异常用户检测的准确率。

进一步，各访问用户的访问行为特征的提取过程具体包括：基于网络行为图谱提取各访问用户的第一网络访问特征，并基于网络日志提取各访问用户的第二网络访问特征，得到各访问用户的访问行为特征。其中，第一网络访问特征包括：用户路径规模特征、用户日志数量特征或用户访问频率特征，第二网络访问特征包括：URL长度特征、请求参数数量特征、特殊字符频率特征或字符熵特征，本申请实施例中优选采用上述全部特征作为访问行为特征。

各特征的提取过程如下：

(1)用户路径规模特征P₁：

在提取网络行为图谱中各访问用户所有的访问路径的权重后，计算各访问用户所有的访问路径的权重之和与网络行为图谱中所有访问用户所有的访问路径的权重之和的比值，得到各访问用户的用户路径规模特征，该特征指标用于衡量访问用户的访问路径的范围。具体的，对于访问用户c，记访问用户c访问的短路径集合为SP_c，由访问用户c访问的路径组成的网络行为图谱记为由所有访问用户组成的网络行为图谱为N₂，访问用户c的用户路径网络规模特征P₁ ^c的计算公式为：

式中，e_ij为节点i与节点j的边，为由访问用户c访问的路径组成的网络行为图谱中节点i与节点j的边e_ij的权重，w_ij为由所有访问用户访问的路径组成的网络行为图谱中节点i与节点j的边e_ij的权重。当P₁ ^c很大时，该访问用户c很有可能是扫描器，意图了解该网络应用的整体架构，该类型的访问用户可能并没有发起实际的攻击，然而，大多数都在探测网络，试图发现网络结构中的脆弱节点，这些节点的产生是由于开发人员安全意识不足，或者是和网络基础设施相关，也有可能是与网络应用依赖的其他组件的脆弱性相关。

(2)用户日志数量特征P₂：

该特征指标从另外一个不同的角度衡量了访问用户的访问范围。路径网络的范围关注于用户访问日志的广度和深度，而用户日志数量特征该特征指标更关注于用户访问产生网络日志的数量。

(3)用户访问频率特征P₃：

采用用户访问频率特征指标可以有效识别出恶意软件。为了得到访问用户的访问频率，可以先选取一个时间区间，然后计算在这个时间区间内用户访问产生的网络日志的个数，进而将网络日志的个数除以时间区间就可以计算得到访问用户在这个时间区间内的用户访问频率特征。因为用户的访问频率在这个时间区间内会变化，所以计算得到的用户访问频率特征是在这个时间区间内访问的平均频率。该特征指标是为了找出访问频率高的异常访问用户。理论上，时间区间越小，得到的结果就越准确，然而，计算量也会急剧上升。本申请实施例中为了平衡结果的准确性和计算量，优选采用时间区间为100秒，对于每个访问用户，分别计算每100秒用户的访问频率，将该访问用户最大的访问频率作为该用户的用户访问频率特征。

(4)第二网络访问特征

第二网络访问特征包括：URL长度特征、请求参数数量特征、特殊字符频率特征或字符熵特征，其中字符熵的计算公式为：

式中，E_i为第i个访问用户的字符熵，为第i个访问用户在请求中的第k个字符出现的次数。

步骤103、将各访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，预置随机森林模型为访问用户的访问行为特征与用户类型的关系映射模型。

通过预先配置好的预置随机森林模型对输入的访问行为特征自动进行用户类型检测，根据输入的访问行为特征检测对应的访问用户类型是属于异常还是正常，最终将用户类型为异常的访问用户输出，达到检测网络异常用户的目的。可以一小时累积的网络日志作为一次计算的对象，根据上述步骤提取相应的访问行为特征，进而通过预置随机森林模型进行检测。

进一步，预置随机森林模型的配置过程包括：

1、获取正常访问用户和异常访问用户的历史网络日志；

2、基于历史网络日志构建的网络行为图谱和历史网络日志提取正常访问用户和异常访问用户的访问行为特征；

3、对正常访问用户和异常访问用户的访问行为特征进行类别标记，得到训练集；

4、通过训练集对随机森林进行训练，直至随机森林收敛，得到预置随机森林模型。

本申请实施例中的基于知识图谱的网络异常用户检测方法，基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱，通过多条网络日志来共同体现访问用户的行为，而不仅仅是通过一条网络日志来体现访问用户的行为，通过网络行为图谱可以分析得到更为准确的访问行为特征；并且，基于网络行为图谱和网络日志来提取访问用户的访问行为特征，从两个方面提取访问行为特征，可以得到更全面和更准确的特征表示，有助于提高网络异常用户检测的准确率；通过预置随机森林模型自动对输入的访问行为特征进行用户类型检测，提高检测效率，从而解决了现有技术均是针对单条日志进行分析，即单个访问行为的相关属性，存在异常用户检测结果精度不高的技术问题。

以上为本申请提供的一种基于知识图谱的网络异常用户检测方法的一个实施例，以下为本申请提供的一种基于知识图谱的网络异常用户检测装置的一个实施例。

为了便于理解，请参阅图2，本申请提供的一种基于知识图谱的网络异常用户检测装置的一个实施例，包括：

构建单元201，用于基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱。

特征提取单元202，用于基于网络行为图谱和网络日志提取各访问用户的访问行为特征。

检测单元203，用于将各访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，预置随机森林模型为访问用户的访问行为特征与用户类型的关系映射模型。

作为进一步地改进，构建单元201具体用于：

在获取访问用户的网络日志后，将网络日志内的访问地址作为节点，根据网络日志获取节点之间的访问关系，并基于节点和访问关系构建用户访问行为的知识图谱，得到网络行为图谱；

其中，网络行为图谱中具有访问关系的两个节点之间连接有一条边，边的权重为两个节点之间的访问次数。

作为进一步地改进，特征提取单元202具体用于：

基于网络行为图谱提取各访问用户的第一网络访问特征，并基于网络日志提取各访问用户的第二网络访问特征，得到各访问用户的访问行为特征；

其中，第一网络访问特征包括：用户路径规模特征、用户日志数量特征或用户访问频率特征，第二网络访问特征包括：URL长度特征、请求参数数量特征、特殊字符频率特征或字符熵特征。

作为进一步地改进，还包括：配置单元204；

配置单元204用于：

获取正常访问用户和异常访问用户的历史网络日志；

基于历史网络日志构建的网络行为图谱和历史网络日志提取正常访问用户和异常访问用户的访问行为特征；

对正常访问用户和异常访问用户的访问行为特征进行类别标记，得到训练集；

通过训练集对随机森林进行训练，直至随机森林收敛，得到预置随机森林模型。

本申请实施例还提供了一种基于知识图谱的网络异常用户检测设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述的基于知识图谱的网络异常用户检测方法实施例的基于知识图谱的网络异常用户检测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于知识图谱的网络异常用户检测方法，其特征在于，包括：

将各所述访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，所述预置随机森林模型为所述访问用户的访问行为特征与用户类型的关系映射模型；

所述基于获取的访问用户的网络日志构建用户访问行为的知识图谱，得到网络行为图谱，包括：

其中，所述网络行为图谱中具有所述访问关系的两个节点之间连接有一条边，所述边的权重为所述两个节点之间的访问次数；

所述预置随机森林模型的配置过程包括：

获取正常访问用户和异常访问用户的历史网络日志；

通过所述训练集对随机森林进行训练，直至所述随机森林收敛，得到所述预置随机森林模型；

所述基于所述网络行为图谱和所述网络日志提取各所述访问用户的访问行为特征，包括：

其中，所述第一网络访问特征包括：用户路径规模特征、用户日志数量特征或用户访问频率特征，第二网络访问特征包括：URL长度特征、请求参数数量特征、特殊字符频率特征或字符熵特征；

基于所述网络行为图谱提取各所述访问用户的用户路径规模特征，包括：

2.一种基于知识图谱的网络异常用户检测装置，其特征在于，包括：

检测单元，用于将各所述访问用户的访问行为特征输入预置随机森林模型进行用户类型检测，输出用户类型为异常的访问用户，所述预置随机森林模型为所述访问用户的访问行为特征与用户类型的关系映射模型；

所述构建单元具体用于：

配置单元，用于获取正常访问用户和异常访问用户的历史网络日志；

所述特征提取单元具体用于：

3.一种基于知识图谱的网络异常用户检测设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1所述的基于知识图谱的网络异常用户检测方法。