CN114095391B

CN114095391B - 一种数据检测方法、基线模型构建方法及电子设备

Info

Publication number: CN114095391B
Application number: CN202111338918.3A
Authority: CN
Inventors: 徐钟豪; 陈伟; 谢忱; 刘伟
Original assignee: Shanghai Douxiang Information Technology Co ltd
Current assignee: Shanghai Douxiang Information Technology Co ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2024-01-12
Anticipated expiration: 2041-11-12
Also published as: CN114095391A

Abstract

本申请提供一种数据检测方法、基线模型构建方法及电子设备。数据检测方法包括：获取待测HTTP数据；将待测HTTP数据的特征参数与预设的基线模型的特征参数进行比对，确定待测HTTP数据的可疑得分；输出异常数据；其中，异常数据为可疑得分大于预设阈值的待测HTTP数据。与现有技术中通过简单的字符串比对方式来进行数据检测相比，该方式可以提高检测的可靠性及异常数据的检出率，以及降低HTTP数据检测误报率。

Description

一种数据检测方法、基线模型构建方法及电子设备

技术领域

本申请涉及数据监控技术领域，具体而言，涉及一种数据检测方法、基线模型构建方法及电子设备。

背景技术

HTTP(Hyper Text Transfer Protocol，超文本传输协议)是一个请求-响应协议，它通常运行在TCP(Transmission Control Protocol，传输控制协议)之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。目前，对于HTTP数据的检测，采用的方式为简单的字符串进行比对，但是该方式过于绝对，误报率较高。

发明内容

本申请实施例的目的在于提供一种数据检测方法、基线模型构建方法及电子设备，以降低HTTP数据检测的误报率，提高异常数据的检出率。

本发明是这样实现的：

第一方面，本申请实施例提供一种数据检测方法，包括：获取待测HTTP数据；将所述待测HTTP数据的特征参数与预设的基线模型的特征参数进行比对，确定所述待测HTTP数据的可疑得分；输出异常数据；其中，所述异常数据为可疑得分大于预设阈值的待测HTTP数据。

在本申请实施例中，预先构建基线模型，然后将待测HTTP数据的特征参数与基线模型中的特征参数进行比对，进而确定出待测HTTP数据的可疑得分，最后基于可疑得分来判断该待测HTTP数据是否为异常数据。与现有技术中通过简单的字符串比对方式来进行数据检测相比，该方式可以提高检测的可靠性及异常数据的检出率，以及降低HTTP数据检测误报率。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，通过如下步骤构建所述基线模型：采集预设时间段内的正常HTTP数据；对所述正常HTTP数据进行聚合；其中，具有相同URL参数的正常HTTP数据聚合为同一类；提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成所述基线模型。

在本申请实施例中，通过采集预设时间段内的正常HTTP数据；然后对正常HTTP数据进行聚合，最后提取每一类的正常HTTP数据的特征参数，构建URL画像，进而得到基线模型。通过该方式所建立的基线模型能够将每一类正常HTTP数据的特征参数进行统计，以便于后续对待测HTTP数据进行特征参数比对。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述将所述待测HTTP数据的特征参数与预设的基线模型的特征参数进行比对，确定所述待测HTTP数据的可疑得分，包括：确定所述待测HTTP数据在所述基线模型中的所属类别；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分。

在检查过程中，首先确定出待测HTTP数据的所属类别，然后，再将待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以便确定出待测HTTP数据是否为该类别中的正常数据。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分，包括：获取初始可信度分值；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以对所述初始可信度分值进行更新；其中，若所述待测HTTP数据中的特征参数在该类别的特征参数中，则将所述初始可信度分值加一，若所述待测HTTP数据中的特征参数不在该类别的特征参数中，则将所述初始可信度分值减一；基于更新后的初始可信度分值得到所述待测HTTP数据的可疑得分。

在特征参数的比对过程中，若待测HTTP数据中的特征参数在该类别的特征参数中，则将初始可信度分值加一，若待测HTTP数据中的特征参数不在该类别的特征参数中则将初始可信度分值减一，通过该方式，以便于准确地确定出待测HTTP数据的可信度，进而准确地确定出待测HTTP数据的可疑得分。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述URL画像还包括每个参数名的出现次数；相应的，所述将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分，包括：基于每个所述参数名的出现次数，确定每个所述参数名的出现概率；将所述待测HTTP数据与该类别中的特征参数进行比对，以基于每个所述参数名的出现概率，确定所述待测HTTP数据中的特征参数的可信度概率；基于所述待测HTTP数据中的特征参数的可信度概率确定所述待测HTTP数据的可疑得分。

在本申请实施例中，URL画像中统计了每个参数名的出现次数，进而在特征参数的比对过程中，电子设备基于每个参数名的出现次数，确定每个参数名的出现概率；然后将待测HTTP数据与该类别中的特征参数进行比对，以基于每个参数名的出现概率，确定待测HTTP数据中的特征参数的可信度概率。可信度概率能够准确的表示HTTP数据的可信度，进而可以准确地确定出待测HTTP数据的可疑得分。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，当所述基线模型中不存在与所述待测HTTP数据对应的类别时，所述方法还包括：确定所述待测HTTP数据为所述异常数据，并将所述异常数据进行输出。

在本申请实施例中，当基线模型中不存在与待测HTTP数据对应的类别时，则直接确定该数据为异常数据并输出。通过该方式，提高了异常数据的检出率。

第二方面，本申请实施例提供一种基线模型构建方法，包括：采集预设时间段内的正常HTTP数据；对所述正常HTTP数据进行聚合；其中，具有相同URL参数的正常HTTP数据聚合为同一类；提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成所述基线模型。

第三方面，本申请实施例提供一种数据检测装置，包括：获取模块，用于获取待测HTTP数据；处理模块，用于将所述待测HTTP数据的特征参数与预设的基线模型的特征参数进行比对，确定所述待测HTTP数据的可疑得分；输出模块，用于输出异常数据；其中，所述异常数据为可疑得分大于预设阈值的待测HTTP数据。

第四方面，本申请实施例提供一种基线模型构建装置，包括：采集模块，用于采集预设时间段内的正常HTTP数据；聚合模块，用于对所述正常HTTP数据进行聚合；其中，具有相同相同URL参数的正常HTTP数据聚合为同一类；构建模块，用于提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成所述基线模型。

第五方面，本申请实施例提供一种电子设备，包括：处理器和存储器，所述处理器和所述存储器连接；所述存储器用于存储程序；所述处理器用于调用存储在所述存储器中的程序，执行如上述第一方面实施例和/或第二方面实施例提供的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或第二方面实施例提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的模块框图。

图2为本申请实施例提供的一种基线模型构建方法的流程图。

图3为本申请实施例提供的一种数据检测方法的流程图。

图4为本申请实施例提供的一种数据检测装置的模块框图。

图5为本申请实施例提供的一种基线模型构建装置的模块框图。

图标：100-电子设备；110-处理器；120-存储器；300-数据检测装置；310-获取模块；320-处理模块；330-输出模块；400-基线模型构建装置；410-采集模块；420-聚合模块；430-构建模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参阅图1，本申请实施例提供的一种应用数据检测方法和/或基线模型构建方法的电子设备100的示意性结构框图。本申请实施例中，电子设备100可以是终端或者服务器，终端可以是，但不限于个人计算机(Personal Computer，PC)、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动上网设备(Mobile Internet Device，MID)等。服务器可以是但不限于网络服务器、数据库服务器、云服务器或由多个子服务器构成的服务器集成等。当然，上述列举的设备仅用于便于理解本申请实施例，其不应作为对本实施例的限定。

在结构上，电子设备100可以包括处理器110和存储器120。

处理器110与存储器120直接或间接地电性连接，以实现数据的传输或交互，例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。数据检测装置和基线模型构建装置包括至少一个可以软件或固件(Firmware)的形式存储在存储器120中或固化在电子设备100的操作系统(Operating System，OS)中的软件模块。处理器110用于执行存储器120中存储的可执行模块，例如，数据检测装置所包括的软件功能模块及计算机程序等，以实现数据检测方法。又例如，基线模型构建装置所包括的软件功能模块及计算机程序等，以实现基线模型构建方法。处理器110可以在接收到执行指令后，执行计算机程序。

其中，处理器110可以是一种集成电路芯片，具有信号处理能力。处理器110也可以是通用处理器，例如，可以是中央处理器(Central Processing Unit，CPU)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、分立门或晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外，通用处理器可以是微处理器或者任何常规处理器等。

存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory，EPROM)，以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)。存储器120用于存储程序，处理器110在接收到执行指令后，执行该程序。

需要说明的是，图1所示的结构仅为示意，本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件，或是具有与图1所示不同的配置。此外，图1所示的各组件可以通过软件、硬件或其组合实现。

本申请实施例提供一种数据检测方法，首先获取待测HTTP数据；然后将待测HTTP数据的特征参数与预设的基线模型的特征参数进行比对，确定待测HTTP数据的可疑得分；最后输出异常数据；其中，异常数据为可疑得分大于预设阈值的待测HTTP数据。与现有技术中通过简单的字符串比对方式来进行数据检测相比，该方式可以提高检测的可靠性及异常数据的检出率，以及降低HTTP数据检测误报率。

为了便于理解上述方法，首先对本上述基线模型的构建方法进行说明。请参阅图2，图2为本申请实施例提供的基线模型构建方法的步骤流程图，该方法应用于图1所示的电子设备100。需要说明的是，本申请实施例提供的基线模型构建方法不以图2及以下所示的顺序为限制，该方法包括：步骤S101-步骤S103。

步骤S101：采集预设时间段内的正常HTTP数据。

其中，预设时间段可以指的距离当前时间之前的一周的时间，也可以指的距离当前时间之前的三天的时间，还可以指的距离当前时间之前的一个月的时间。当然，预设时间段也可以指的过去某一周的时间，对此，本申请不作限定。

正常HTTP数据可以由工作人员进行筛选，也可以采用常规的数据检测方式所确定。当然，在采集到正常HTTP数据之后，也可以通过如下方式进一步地筛选，比如对正常HTTP数据集进行处理，以去除脏数据。其中，脏数据包括SQL(Structured Query Language，结构化查询语言)注入攻击数据、XSS(跨站脚本攻击)攻击数据、恶意Payload(有效负载)攻击数据等。通过该方式可以进一步地去除异常数据或非法数据。

步骤S102：对正常HTTP数据进行聚合；其中，具有相同URL(Uniform ResourceLocator,统一资源定位器)参数的正常HTTP数据聚合为同一类。

然后，将正常HTTP数据进行聚合，得到知识图谱(可以显示数据之间的聚合结果)。其中，上述相同URL参数可以是但不限于Host、Uri(Uniform resource identifier，统一资源标识符)。需要说明的是，在互联网协议中，Host表示能够同其他机器互相访问的本地计算机。

于本申请实施例中，通过Host+Uri来进行数据的聚合，也即，将URL参数Host和URL参数Uri都相同的正常HTTP数据聚合到一起。

步骤S103：提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成基线模型。

然后针对聚合后的每一类的大量数据进行统计分析，即提取每一类的正常HTTP数据的特征参数，以构建URL画像。

示例性的，该URL画像包括以下十三类特征参数。

特征参数一：URL传参分布。

特征参数二：URL传参个数分布。

特征参数三：StatusCode状态码分布。

特征参数四：Method分布。

特征参数五：Request Header键值对分布。

特征参数六：Response Header键值对分布。

特征参数七：Cookie键值对分布。

特征参数八：Cookie键值对个数分布。

特征参数九：Request ContentType分布。

特征参数十：Response ContentType分布。

特征参数十一：RequestBody数据格式分布。

特征参数十二：ResponseBody数据格式分布。

特征参数十三：Refer中URL分布。

需要说明的是，以上的URL传参、StatusCode、Method、Request Header、ResponseHeader、Cookie、Request ContentType、Response ContentType、RequestBody、ResponseBody、Refer均为本领域所熟知的字段、参数，因此，本申请不作过多说明。

一实施例中，URL画像还包括每个参数名的出现次数。相应的，URL画像中的十三类特征参数包括：

特征参数一：URL传参分布，每个URL传参出现次数。

特征参数二：URL传参个数分布，不同传参个数的数量出现的次数。

特征参数三：StatusCode状态码分布。

特征参数四：Method分布；GET/POST等出现次数。

特征参数五：Request Header键值对分布；Header中每个Key的出现次数。

特征参数六：Response Header键值对分布；Header中每个Key的出现次数。

特征参数七：Cookie键值对分布，Cookie中每个Key的出现次数。

特征参数八：Cookie键值对个数分布，Cookie中不同键值对的数量出现次数。

特征参数九：Request ContentType分布，每个Key出现的次数，每个Key对应的Value的数据类型的出现次数。

特征参数十：Response ContentType分布，每个Key出现的次数，每个Key对应的Value的数据类型的出现次数。

特征参数十一：RequestBody数据格式分布，格式为Xml、Json、Base64的出现次数。

特征参数十二：ResponseBody数据格式分布，格式为Xml、Json、Base64的出现次数。

特征参数十三：Refer中URL分布，Refer中不同URL的出现次数。

示例性的，对于某一类别的数据中的URL aaa.com/search.php有以下4种情况：

aaa.com/search.php？key＝aaa&sort＝desc；

aaa.com/search.php？key＝bbb；

aaa.com/search.php？key＝ccc&sort＝asc；

aaa.com/search.php？key＝ccc&sort＝asc&limit＝10。

在特征参数一中，传参key出现次数为4次，传参sort出现次数为3次，传参limit出现次数为1次。

在特征参数二中，参数为两个，出现次数为两次。参数为一个，出现次数为一次，参数为三个，出现次数为一个。

以上仅以特征参数一和特征参数二作为示例，由于其他特征参数中的参数名也为本领域所熟知，因此，本申请不作过多举例。

在基线模型构建完成后，将该模型应用于本申请实施例所提供的数据检测方法中。请参阅图3，本申请实施例提供的数据检测方法具体包括：步骤S201～步骤S203。

步骤S201：获取待测HTTP数据。

其中，待测HTTP数据可以为电子设备实时检测的HTTP数据，也可以是历史的HTTP数据，本申请不作限定。

步骤S202：将待测HTTP数据的特征参数与预设的基线模型的特征参数进行比对，确定待测HTTP数据的可疑得分。

在获取到待测HTTP数据后，将待测HTTP数据的特征参数与通过上述方式构建的基线模型中的特征参数进行比对。首先，确定待测HTTP数据在基线模型中的所属类别，即确定出与待测HTTP数据相同的Host+Uri的分类。在确定出待测HTTP数据所属类别后，将待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定待测HTTP数据的可疑得分。

作为一种实施方式，确定待测HTTP数据的可疑得分的过程为：获取初始可信度分值；将待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以对初始可信度分值进行更新；基于更新后的初始可信度分值得到所述待测HTTP数据的可疑得分。

其中，初始可信度分值可以根据情况进行设定，比如可以是0、5、10等等。上述的更新方式为若待测HTTP数据中的特征参数在该类别的特征参数中，则将初始可信度分值加一，若待测HTTP数据中的特征参数不在该类别的特征参数中，则将所述初始可信度分值减一。也即，依次对比待测HTTP数据中的十三项特征参数是否出现在对应类别的特征参数中，如果出现则将初始可信度分值加一，如果未出现，则将可信度减一。

示例性的，待测HTTP数据中的传参sort出现在了对应类别的特征参数中，则将初始可信度分值加1。假如初始可信度分值为5，则更新后的初始可信度分值为6。

最后将更新后的初始可信度分值进行归一化，可得到一个小数。需要说明的是，归一化的最大值1即为可信度分值可以增加到的最大值，而归一化的最小值0即为可信度分值可以减小到的最小值。在得到小数后，即可基于该小数得到可疑得分。其中，可疑得分＝1-归一化后的更新的初始可信度分值。示例性的，当更新的初始可信度分值的归一化结果为0.2，则可疑得分＝1-0.2＝0.8。

可见，在上述特征参数的比对过程中，若待测HTTP数据中的特征参数在该类别的特征参数中，则将初始可信度分值加一，若待测HTTP数据中的特征参数不在该类别的特征参数中则将初始可信度分值减一，通过该方式，以便于准确地确定出待测HTTP数据的可信度，进而准确地确定出待测HTTP数据的可疑得分。

作为又一种实施方式，URL画像还包括每个参数名的出现次数。相应的，确定待测HTTP数据的可疑得分的过程为：基于每个参数名的出现次数，确定每个参数名的出现概率；将待测HTTP数据与该类别中的特征参数进行比对，以基于每个参数名的出现概率，确定待测HTTP数据中的特征参数的可信度概率；基于待测HTTP数据中的特征参数的可信度概率确定待测HTTP数据的可疑得分。

aaa.com/search.php？key＝aaa&sort＝desc；

aaa.com/search.php？key＝bbb；

aaa.com/search.php？key＝ccc&sort＝asc；

aaa.com/search.php？key＝ccc&sort＝asc&limit＝10。

在特征参数一中，传参key出现次数为4次，则传参key出现概率为100％。传参sort出现次数为3次，则传参sort出现次数为75％。传参limit出现次数为1次，则传参limit出现概率为25％。

在特征参数二中，参数为两个，出现次数为两次，则出现概率为50％。参数为一个，出现次数为一次，则出现概率为25％。参数为三个，出现次数为一个，则出现概率为25％。

然后将待测HTTP数据与该类别中的特征参数进行比对，以基于每个参数名的出现概率，确定待测HTTP数据中的特征参数的可信度概率。

以待测HTTP数据包括aaa.com/search.php？key＝ccc&sort＝asc&limit＝10为例。由于其包含传参key、传参sort和传参limit，则特征参数一对应的概率为(100％+75％+25％)/3＝67％。由于其包含三个参数，则特征参数二对应的概率25％。然后，将二者相加取平均即可得到待测HTTP数据中的特征参数的可信度概率。最后，在基于可信度概率确定待测HTTP数据的可疑得分。其中，可疑得分＝1-可信度概率。

可见，在本申请实施例中，URL画像中统计了每个参数名的出现次数，进而在特征参数的比对过程中，电子设备基于每个参数名的出现次数，确定每个参数名的出现概率；然后将待测HTTP数据与该类别中的特征参数进行比对，以基于每个参数名的出现概率，确定待测HTTP数据中的特征参数的可信度概率。可信度概率能够准确的表示HTTP数据的可信度，进而可以准确地确定出待测HTTP数据的可疑得分。

此外，需要说明的是，上述两种方式可以进行结合，也即，通过第一种方式得到第一可疑得分，通过第二种方式得到第二可疑得分，而最终的可疑得分＝(第一可疑得分+第二可疑得分)/2。

步骤S203：输出异常数据；其中，异常数据为可疑得分大于预设阈值的待测HTTP数据。

在确定出可疑得分后，即可基于可疑得分，来确定待测HTTP数据是否为异常数据。于本申请实施例中，当可疑得分大于预设阈值时，则将该数据确定为异常数据并输出。

上述的预设阈值可以根据实际情况而定，比如可以是0.7、0.8等等，本申请不作限定。

此外，当基线模型中不存在与待测HTTP数据对应的类别时，上述方法还包括：确定待测HTTP数据为所述异常数据，并将异常数据进行输出。

请参阅图4，基于同一发明构思，本申请实施例还提供一种数据检测装置300，该装置包括：获取模块310、处理模块320和输出模块330。

获取模块310用于获取待测HTTP数据。

处理模块320用于将所述待测HTTP数据的特征参数与预设的基线模型的特征参数进行比对，确定所述待测HTTP数据的可疑得分。

输出模块330用于输出异常数据；其中，所述异常数据为可疑得分大于预设阈值的待测HTTP数据。

可选地，该装置还包括模型构建模块。该模块用于采集预设时间段内的正常HTTP数据；对所述正常HTTP数据进行聚合；其中，具有相同URL参数的正常HTTP数据聚合为同一类；提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成所述基线模型。

可选地，处理模块320具体用于确定所述待测HTTP数据在所述基线模型中的所属类别；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分。

可选地，处理模块320还具体用于获取初始可信度分值；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以对所述初始可信度分值进行更新；其中，若所述待测HTTP数据中的特征参数在该类别的特征参数中，则将所述初始可信度分值加一，若所述待测HTTP数据中的特征参数不在该类别的特征参数中，则将所述初始可信度分值减一；基于更新后的初始可信度分值得到所述待测HTTP数据的可疑得分。

可选地，所述URL画像还包括每个参数名的出现次数。处理模块320还具体用于基于每个所述参数名的出现次数，确定每个所述参数名的出现概率；将所述待测HTTP数据与该类别中的特征参数进行比对，以基于每个所述参数名的出现概率，确定所述待测HTTP数据中的特征参数的可信度概率；基于所述待测HTTP数据中的特征参数的可信度概率确定所述待测HTTP数据的可疑得分。

可选地，处理模块320还用于当所述基线模型中不存在与所述待测HTTP数据对应的类别时，确定所述待测HTTP数据为所述异常数据，并将所述异常数据进行输出。

请参阅图5，基于同一发明构思，本申请实施例还提供一种基线模型构建装置400，该装置包括：采集模块410、聚合模块420及构建模块430。

采集模块410用于采集预设时间段内的正常HTTP数据。

聚合模块420用于对所述正常HTTP数据进行聚合；其中，具有相同相同URL参数的正常HTTP数据聚合为同一类。

构建模块430用于提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成所述基线模型。

需要说明的是，由于所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被运行时执行上述实施例中提供的方法。

该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据检测方法，其特征在于，包括：

获取待测HTTP数据；

确定所述待测HTTP数据在基线模型中的所属类别；

将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分，其中，所述特征参数包含一个或多个，所述基线模型基于聚合为同一类的具有相同URL参数的正常HTTP数据得到；

输出异常数据；其中，所述异常数据为可疑得分大于预设阈值的待测HTTP数据；

其中，确定所述待测HTTP数据的可疑得分包括：

获取初始可信度分值；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以对所述初始可信度分值进行更新；其中，若所述待测HTTP数据中的特征参数在该类别的特征参数中，则将所述初始可信度分值加一，若所述待测HTTP数据中的特征参数不在该类别的特征参数中，则将所述初始可信度分值减一；基于更新后的初始可信度分值得到所述待测HTTP数据的第一可疑得分；

获取URL画像中统计的每个参数名的出现次数；基于每个所述参数名的出现次数，确定每个所述参数名的出现概率；将所述待测HTTP数据与该类别中的特征参数进行比对，以基于每个所述参数名的出现概率，确定所述待测HTTP数据中的特征参数的可信度概率；基于所述待测HTTP数据中的特征参数的可信度概率确定所述待测HTTP数据的第二可疑得分；所述URL画像是由与该类别为同一类的具有相同URL参数的正常HTTP数据的特征参数构建得到；

计算所述第一可疑得分与所述第二可疑得分之间的平均值，得到所述可疑得分。

2.根据权利要求1所述的方法，其特征在于，通过如下步骤构建所述基线模型：

采集预设时间段内的正常HTTP数据；

对所述正常HTTP数据进行聚合；其中，具有相同URL参数的正常HTTP数据聚合为同一类。

3.根据权利要求2所述的方法，其特征在于，当所述基线模型中不存在与所述待测HTTP数据对应的类别时，所述方法还包括：

确定所述待测HTTP数据为所述异常数据，并将所述异常数据进行输出。

4.一种基线模型构建方法，其特征在于，包括：

采集预设时间段内的正常HTTP数据；

对所述正常HTTP数据进行聚合；其中，具有相同URL参数的正常HTTP数据聚合为同一类；

提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成所述基线模型；其中，所述基线模型用于确定待检测HTTP数据在基线模型中的所属类别，以便将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分；其中，确定所述待测HTTP数据的可疑得分包括：获取初始可信度分值；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以对所述初始可信度分值进行更新；其中，若所述待测HTTP数据中的特征参数在该类别的特征参数中，则将所述初始可信度分值加一，若所述待测HTTP数据中的特征参数不在该类别的特征参数中，则将所述初始可信度分值减一；基于更新后的初始可信度分值得到所述待测HTTP数据的第一可疑得分；获取URL画像中统计的每个参数名的出现次数；基于每个所述参数名的出现次数，确定每个所述参数名的出现概率；将所述待测HTTP数据与该类别中的特征参数进行比对，以基于每个所述参数名的出现概率，确定所述待测HTTP数据中的特征参数的可信度概率；基于所述待测HTTP数据中的特征参数的可信度概率确定所述待测HTTP数据的第二可疑得分；所述URL画像是由与该类别为同一类的具有相同URL参数的正常HTTP数据的特征参数构建得到；计算所述第一可疑得分与所述第二可疑得分之间的平均值，得到所述可疑得分。

5.一种数据检测装置，其特征在于，包括：

获取模块，用于获取待测HTTP数据；

处理模块，用于确定所述待测HTTP数据在基线模型中的所属类别，将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分，其中，所述特征参数包含一个或多个，所述基线模型基于聚合为同一类的具有相同URL参数的正常HTTP数据得到；

输出模块，用于输出异常数据；其中，所述异常数据为可疑得分大于预设阈值的待测HTTP数据；

其中，确定所述待测HTTP数据的可疑得分包括：获取初始可信度分值；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以对所述初始可信度分值进行更新；其中，若所述待测HTTP数据中的特征参数在该类别的特征参数中，则将所述初始可信度分值加一，若所述待测HTTP数据中的特征参数不在该类别的特征参数中，则将所述初始可信度分值减一；基于更新后的初始可信度分值得到所述待测HTTP数据的第一可疑得分；获取URL画像中统计的每个参数名的出现次数；基于每个所述参数名的出现次数，确定每个所述参数名的出现概率；将所述待测HTTP数据与该类别中的特征参数进行比对，以基于每个所述参数名的出现概率，确定所述待测HTTP数据中的特征参数的可信度概率；基于所述待测HTTP数据中的特征参数的可信度概率确定所述待测HTTP数据的第二可疑得分；所述URL画像是由与该类别为同一类的具有相同URL参数的正常HTTP数据的特征参数构建得到；计算所述第一可疑得分与所述第二可疑得分之间的平均值，得到所述可疑得分。

6.一种基线模型构建装置，其特征在于，包括：

采集模块，用于采集预设时间段内的正常HTTP数据；

聚合模块，用于对所述正常HTTP数据进行聚合；其中，具有相同URL参数的正常HTTP数据聚合为同一类，得到属于不同类别的正常HTTP数据；

构建模块，用于提取每一类的正常HTTP数据的特征参数，构建URL画像，以生成所述基线模型；其中，所述基线模型用于确定待检测HTTP数据在基线模型中的所属类别，以便将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，确定所述待测HTTP数据的可疑得分；其中，确定所述待测HTTP数据的可疑得分包括：获取初始可信度分值；将所述待测HTTP数据中的特征参数与该类别中的特征参数进行比对，以对所述初始可信度分值进行更新；其中，若所述待测HTTP数据中的特征参数在该类别的特征参数中，则将所述初始可信度分值加一，若所述待测HTTP数据中的特征参数不在该类别的特征参数中，则将所述初始可信度分值减一；基于更新后的初始可信度分值得到所述待测HTTP数据的第一可疑得分；获取URL画像中统计的每个参数名的出现次数；基于每个所述参数名的出现次数，确定每个所述参数名的出现概率；将所述待测HTTP数据与该类别中的特征参数进行比对，以基于每个所述参数名的出现概率，确定所述待测HTTP数据中的特征参数的可信度概率；基于所述待测HTTP数据中的特征参数的可信度概率确定所述待测HTTP数据的第二可疑得分；所述URL画像是由与该类别为同一类的具有相同URL参数的正常HTTP数据的特征参数构建得到；计算所述第一可疑得分与所述第二可疑得分之间的平均值，得到所述可疑得分。

7.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器和所述存储器连接；

所述存储器用于存储程序；

所述处理器用于运行存储在所述存储器中的程序，执行如权利要求1-3中任一项所述的方法，和/或权利要求4所述的方法。