CN109413063B - 一种基于大数据的白名单更新方法、装置及电子设备 - Google Patents
一种基于大数据的白名单更新方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109413063B CN109413063B CN201811239659.7A CN201811239659A CN109413063B CN 109413063 B CN109413063 B CN 109413063B CN 201811239659 A CN201811239659 A CN 201811239659A CN 109413063 B CN109413063 B CN 109413063B
- Authority
- CN
- China
- Prior art keywords
- white list
- initial
- pure white
- initial threshold
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明主要涉及大数据技术领域,揭示了一种基于大数据的白名单更新方法、装置及电子设备,包括:确定白名单用户的流量数据的若干个特征以及每一特征对应的初始阈值集合;计算与初始阈值集合中某一初始阈值对应的初始纯白名单用户的流量异常占比值以及初始非纯白名单用户的流量异常占比值,获取初始纯白名单用户的流量异常占比值以及初始非纯白名单用户的流量异常占比值之间的差值的绝对值作为某一初始阈值对应的参考值,遍历初始阈值集合,从中选取所有参考值中取值最大的参考值对应的初始阈值将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。此方法下,基于大数据分析筛选纯白名单用户,白名单的纯净性提高得以实现。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种基于大数据的白名单更新方法、装置及电子设备。
背景技术
目前,随着互联网用户的日益增多,互联网领域正面临着大流量数据的挑战。大流量数据中难免会出现异常流量,这些异常流量会给互联网带来巨大的冲击与损失,例如,黑色产业形成的木马播种、流量交易和虚拟财产套现等诸多黑色产业链都会产生大量的异常流量。
目前采用用户划分的方式来区别用户发出的流量是否异常,其中一种用户划分方式为将用户划分为黑名单用户、白名单用户和不确定用户。黑名单用户是事先已知其从事黑色产业、或以前有过异常流量行为的用户;白名单用户是不太可能出现从事黑色产业、或有异常流量行为的用户;不确定用户是指除黑名单用户和白名单用户之外的用户。
然而,在上述白名单用户中,也存在黑色产业用户伪装成白名单用户欺诈的情况,需要进一步甄别。因此,在白名单用户中进一步甄别出黑色产业用户,得到更纯净的白名单集合,成为目前迫切需要解决的问题。
发明内容
为了解决相关技术中存在的白名单纯净性低的技术问题,本发明提供了一种基于大数据的白名单更新方法、装置及电子设备。
一种基于大数据的白名单更新方法,所述方法包括:
a)确定白名单用户的流量数据的若干个特征以及所述特征对应的初始阈值集合,所述初始阈值集合包括若干初始阈值,所述白名单用户包括初始纯白名单用户以及初始非纯白名单用户;
b)根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一初始阈值,获得所述初始非纯白名单用户的流量异常占比值;
c)获取所述初始纯白名单用户的流量异常占比值与所述初始非纯白名单用户的流量异常占比值的差值的绝对值,作为所述某一初始阈值对应的参考值;
d)遍历所述初始阈值集合,执行b)和c);
e)当遍历完所述初始阈值集合时,获得数量与所述初始阈值集合中所述初始阈值数量相等的参考值;
f)以获得的所有所述参考值中取值最大的参考值所对应的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
一种基于大数据的白名单更新装置,所述装置包括:
确定单元,用于确定白名单用户的流量数据的若干个特征以及所述特征对应的初始阈值集合,所述初始阈值集合包括若干初始阈值,所述白名单用户包括初始纯白名单用户以及初始非纯白名单用户;
第一获取单元,用于根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一个初始阈值,获得所述初始非纯白名单用户的流量异常占比值;
第二获取单元,用于获取所述初始纯白名单用户的流量异常占比值与所述初始非纯白名单用户的流量异常占比值的差值的绝对值,作为所述某一初始阈值对应的参考值;
遍历单元,用于遍历所述初始阈值集合,并触发所述第一获取单元根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一个初始阈值,获得所述初始非纯白名单用户的流量异常占比值,以及触发第二获取单元获取所述初始纯白名单用户的流量异常占比值与所述初始非纯白名单用户的流量异常占比值的差值的绝对值,作为所述某一初始阈值对应的参考值;
第三获取单元,用于当遍历完所述初始阈值集合时,获得数量与所述初始阈值集合中所述初始阈值数量相等的参考值;
划分单元,用于以获得的所有所述参考值中取值最大的参考值所对应的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行如前所述的方法。
一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的通信方法包括如下步骤,a)确定白名单用户的流量数据的若干个特征以及所述特征对应的初始阈值集合,所述初始阈值集合包括若干初始阈值,所述白名单用户包括初始纯白名单用户以及初始非纯白名单用户;b)根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一初始阈值,获得所述初始非纯白名单用户的流量异常占比值;c)获取所述初始纯白名单用户的流量异常占比值与所述初始非纯白名单用户的流量异常占比值的差值的绝对值,作为所述某一初始阈值对应的参考值;d)遍历所述初始阈值集合,执行b)和c);e)当遍历完所述初始阈值集合时,获得数量与所述初始阈值集合中所述初始阈值数量相等的参考值;f)以获得的所有所述参考值中取值最大的参考值所对应的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
此方法下,获得每一初始阈值对应的初始纯白名单用户的流量异常占比值以及初始非纯白名单用户的流量异常占比值,并计算初始纯白名单用户的流量异常占比值以及初始非纯白名单用户的流量异常占比值之间的差值的绝对值,最大的绝对值对应的初始阈值就是区分效果最好的阈值,以该初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户,基于大数据分析筛选纯白名单用户,提高了从白名单用户中筛选纯白名单用户的准确率,从而提高了白名单的纯净性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于大数据的白名单更新装置的示意图;
图2是根据一示例性实施例示出的一种基于大数据的白名单更新方法的流程图;
图3是根据图2对应实施例示出的步骤220的细节的流程图;
图4是根据图2对应实施例示出的步骤260的细节的流程图;
图5是根据图2对应实施例示出的步骤210的细节的流程图;
图6是根据一示例性实施例示出的一种基于大数据的白名单更新装置的框图;
图7是根据一示例性实施例示出的一种基于大数据的白名单更新装置的框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的实施环境可以是便携移动设备,例如智能手机、平板电脑、台式电脑。本发明实施例所公开的基于大数据的白名单更新方法可以适用于运行于便携移动设备上的任意应用程序。
图1是根据一示例性实施例示出的一种基于大数据的白名单更新装置的示意图。装置100可以是上述便携移动设备。如图1所示,装置100可以包括以下一个或多个组件:处理组件102,存储器104,电源组件106,多媒体组件108,音频组件110,传感器组件114以及通信组件116。
处理组件102通常控制装置100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件102可以包括一个或多个模块,用于便于处理组件102和其他组件之间的交互。例如,处理组件102可以包括多媒体模块,用于以方便多媒体组件108和处理组件102之间的交互。
存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器104中还存储有一个或多个模块,用于该一个或多个模块被配置成由该一个或多个处理器118执行,以完成如下所示方法中的全部或者部分步骤。
电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统,一个或多个电源,及其他与为装置100生成、管理和分配电力相关联的组件。
多媒体组件108包括在所述装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件110被配置为输出和/或输入音频信号。例如,音频组件110包括一个麦克风(Microphone,简称MIC),当装置100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中,音频组件110还包括一个扬声器,用于输出音频信号。
传感器组件114包括一个或多个传感器,用于为装置100提供各个方面的状态评估。例如,传感器组件114可以检测到装置100的打开/关闭状态,组件的相对定位,传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中,该传感器组件114还可以包括磁传感器,压力传感器或温度传感器。
通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络,如WiFi(Wireless-Fidelity,无线保真)。在一个示例性实施例中,通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件116还包括近场通信(Near FieldCommunication,简称NFC)模块,用于以促进短程通信。例如,在NFC模块可基于射频识别(Radio Frequency Identification,简称RFID)技术,红外数据协会(Infrared DataAssociation,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
图2是根据一示例性实施例示出的一种基于大数据的白名单更新方法的流程图。如图2所示,此方法包括以下步骤。
步骤210,确定白名单用户的流量数据的若干个特征以及特征对应的初始阈值集合,初始阈值集合包括若干初始阈值,白名单用户包括初始纯白名单用户以及初始非纯白名单用户。
本发明实施例中,白名单用户可以包括纯白名单用户以及非纯白名单用户。其中,白名单用户中每个用户的流量数据事先被规定若干个特征,例如,这些特征可以包括路径重复度、设备前后端登录埋点占比、ip访问账号数、ip访问次数、周期内手机号段用户登录均值和方差等特征,这些特征可以用于识别一条流量数据是否是异常流量数据。并且,某一用户的流量数据中特征对应的特征值大于初始阈值时,认为该用户的该特征值为异常特征值,以此来识别该特征值对应的流量数据为异常流量数据。
作为一种可选的实施方式,在确定白名单用户的流量数据的若干个特征以及特征对应的初始阈值集合之前,还可以执行以下步骤:
按照预设用户群划分标准将白名单用户划分为初始纯白名单用户以及初始非纯白名单用户。
本发明实施例中,预设用户群划分标准可以为实现规定的某种划分用户群的规则,例如,可以将白名单用户中职业为寿险内勤的用户划分至初始纯白名单用户,将白名单用户中其他的用户划分至初始非纯白名单用户。
通过实施这种可选的实施方式,可以人工将可靠的用户群体划分至初始纯白名单用户,得到初始纯白名单用户以及初始非纯白名单用户,以此减少迭代更新次数,更快地获取最终划分得到的目标纯白名单用户以及目标非纯白名单用户。
步骤220,根据初始纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一初始阈值,获得初始纯白名单用户的流量异常占比值,以及根据初始非纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一初始阈值,获得初始非纯白名单用户的流量异常占比值。
步骤230,获取初始纯白名单用户的流量异常占比值与初始非纯白名单用户的流量异常占比值的差值的绝对值,作为某一初始阈值对应的参考值。
本发明实施例中,该参考值的取值越大,说明该某一初始阈值使得初始纯白用户的流量数据中的流量异常占比值足够小,而使得初始非纯白用户的流量数据中的流量异常占比值足够大,且初始纯白名单用户的流量异常占比值与初始非纯白名单用户的流量异常占比值的差值的绝对值越大,说明该某一初始阈值的区分效果越好。
步骤240,遍历初始阈值集合。
步骤250,当未遍历完初始阈值集合时,执行步骤220至步骤240;当遍历完初始阈值集合时,获得数量与初始阈值集合中初始阈值数量相等的参考值。
本发明实施例中,当遍历完初始阈值集合时,获得初始阈值集合中每一初始阈值对应的参考值,也即是,获得与初始阈值集合中初始阈值数量相等的参考值。
步骤260,以获得的所有参考值中取值最大的参考值所对应的初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
上述方法下,获得每一初始阈值对应的初始纯白名单用户的流量异常占比值以及初始非纯白名单用户的流量异常占比值,并计算初始纯白名单用户的流量异常占比值以及初始非纯白名单用户的流量异常占比值之间的差值的绝对值,最大的绝对值对应的初始阈值就是区分效果最好的阈值,以该初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户,基于大数据分析筛选纯白名单用户,提高了从白名单用户中筛选纯白名单用户的准确率,从而提高了白名单的纯净性。
图3是根据图2对应实施例示出的步骤220的细节的流程图。如图3所示,步骤220包括:
步骤221,在初始纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第一异常数量,以及在初始非纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第二异常数量。
本发明实施例中,白名单用户中包含若干个用户,且与每一用户对应有该用户的流量数据,且流量数据包含若干个特征,与每一特征对应着有该特征对应的特征值;初始纯白名单用户中某一用户的流量数据中的某一特征对应有特征值,若初始纯白名单用户中包含若干个用户,则在初始纯白名单用户的流量数据中的某一特征对应有若干个特征值;初始非纯白名单用户中某一用户的流量数据中的某一特征对应有特征值,若初始非纯白名单用户中包含若干个用户,则在初始非纯白名单用户的流量数据中的某一特征对应有若干个特征值,在初始纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第一异常数量,以及在初始非纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第二异常数量。其中,特征值大于某一初始阈值,认为该特征值异常,统计异常的特征值数量,该异常的特征值数量也即是异常的流量数据数量。
步骤222,计算第一异常数量与初始纯白名单用户的流量数据的比值,获得初始纯白名单用户的流量异常占比值,以及计算第二异常数量与初始非纯白名单用户的流量数据的比值,获得初始非纯白名单用户的流量异常占比值。
本发明实施例中,第一异常数量即是初始纯白名单用户中异常的流量数据数量,计算第一异常数量与初始纯白名单用户的流量数据的总数量的比值,获得初始纯白名单用户的流量异常占比值。第二异常数量即是初始非纯白名单用户中异常的流量数据数量,计算第二异常数量与初始非纯白名单用户的流量数据的总数量的比值,获得初始非纯白名单用户的流量异常占比值。
图4是根据图2对应实施例示出的步骤260的细节的流程图。如图4所示,步骤260包括:
步骤261,将白名单用户的流量数据的若干个特征对应的特征值进行归一化处理,获得归一化特征值。
作为一种可选的实施方式,将白名单用户的流量数据的若干个特征对应的特征值进行归一化处理,获得归一化特征值可以包括:
确定出白名单用户的流量数据的若干个特征对应的若干个特征值;
从上述若干特征值中确定出流量数据的该特征的最小特征值和中位特征值;
根据最小特征值和中位特征值,对上述特征值执行归一化操作,获得归一化特征值。
在一示例性实施例中,上述中位特征值可以是指上述若干特征值中大于99%的特征值的某一特征值,若用x、xmin、xmax以及分别表示流量数据的特征值、最小特征值,中位特征值和归一化特征值,那么,的计算公式可以包括:
其中,执行归一化操作的特征值可以是指上述若干特征值中的部分特征值也可以是指上述若干特征值中的全部特征值,本发明实施例不做限定。利用中位特征值对特征值进行归一化操作可以避免偶然出现的较大特征值的影响。
步骤262,将获得的所有参考值中取值最大的参考值所对应的初始阈值设置为特征对应的目标初始阈值。
步骤263,当在预设时间段内白名单用户中某一用户的每一个流量数据的特征对应的归一化特征值小于或者等于特征对应的目标初始阈值时,将某一用户划分至目标纯白名单用户。
作为一种可选的实施方式,在执行完步骤261之后,还可以执行以下步骤:
当在预设时间段内白名单用户中某一用户有一个流量数据的一个特征的归一化特征值超出与该特征对应的目标初始阈值时,将该用户划分至非纯白名单用户;
当在预设时间段内白名单用户中某一用户有大于等于两个流量数据存在特征对应的归一化特征值大于该特征对应的目标初始阈值时,将该用户划分至非纯白名单用户;
当在预设时间段内白名单用户中某一用户有一个流量数据存在两个或者两个以上的特征对应的归一化特征值大于该特征对应的目标初始阈值时,将该用户划分至非纯白名单用户;
当在预设时间段内白名单用户中某一用户有两个或者两个以上的流量数据存在两个或者两个以上的特征对应的归一化特征值大于该特征对应的目标初始阈值时,将该用户划分至非纯白名单用户。
通过实施这种可选的实施方式,可以采用不同的划分方式来划分纯白名单用户与非纯白名单用户,例如,当在预设时间段内白名单用户中某一用户有一个流量数据的一个特征的归一化特征值超出与该特征对应的初始阈值时,将该用户划分至非纯白名单用户,这种划分方式也即是步骤263的划分方式,相对比较严格,只要该用户有一个流量数据的一个特征的归一化特征值超出与该特征对应的初始阈值时,将该用户划分至非纯白名单用户,也就是说,只有用户的所有流量数据的所有特征的归一化特征值都小于等于与该特征对应的初始阈值时,将该用户划分至纯白名单用户。多种划分方式满足用户的多种划分需求,适用面更广。
在另一示例性实施例中,步骤211可以包括:
在初始纯白名单用户的流量数据中的特征对应的若干个归一化特征值中统计归一化特征值大于特征对应的某一初始阈值的第一异常数量,以及在初始非纯白名单用户的流量数据中的特征对应的若干个归一化特征值中统计归一化特征值大于特征对应的某一初始阈值的第二异常数量。
在另一示例性实施例中,步骤260可以包括:
确定获得的所有参考值中取值最大的目标参考值;
当目标参考值的数量为两个或者两个以上时,确定所有目标参考值所对应的初始阈值中初始纯白名单用户的流量异常占比值;
以初始纯白名单用户的流量异常占比值取值最小的初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
本发明实施例中,有可能出现获得的所有参考值中取值最大的参考值的数量为两个或者两个以上,例如,初始阈值为5时,初始纯白用户的流量异常占比值为5%,初始非纯白用户的流量异常占比值为25%,参考值为20%;初始阈值为10时,初始纯白用户的流量异常占比值为2%,初始非纯白用户的流量异常占比值为22%,参考值为20%。此时,当初始阈值为5或者10时,都可以使参考值的取值最大,即为20%,由于初始纯白名单用户的流量异常占比值取值较小时,且初始纯白名单用户的流量异常占比值与初始非纯白名单用户的流量异常占比值之差的绝对值(参考值)相同,初始非纯白名单用户的流量异常占比值也较小,将两个较小的数值拉开某一差值比起将两个较大的数值拉开差值更能说明该初始阈值的区分效果好,此时,可以将初始纯白名单用户的流量异常占比值取值最小的初始阈值作为依据来将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
图5是根据图2对应实施例示出的步骤210的细节的流程图。如图5所示,步骤210包括:
步骤211,确定白名单用户的流量数据的若干个特征以及特征对应的第一初始阈值,并将第一初始阈值加入初始阈值集合。
步骤212,按照预设增幅增加第一初始阈值得到第二初始阈值,并将第二初始阈值加入初始阈值集合。
步骤213,当第二初始阈值未达到预设初始阈值时,将第二初始阈值更新为第一初始阈值,并执行步骤212;当第二初始阈值达到预设初始阈值时,获取初始阈值集合。
以下是本发明的装置实施例。
图6是根据一示例性实施例示出的一种基于大数据的白名单更新装置的框图。如图6所示,该装置包括:
确定单元610,用于确定白名单用户的流量数据的若干个特征以及特征对应的初始阈值集合,初始阈值集合包括若干初始阈值,白名单用户包括初始纯白名单用户以及初始非纯白名单用户。
第一获取单元620,用于根据初始纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一初始阈值,获得初始纯白名单用户的流量异常占比值,以及根据初始非纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一个初始阈值,获得初始非纯白名单用户的流量异常占比值。
第二获取单元630,用于获取初始纯白名单用户的流量异常占比值与初始非纯白名单用户的流量异常占比值的差值的绝对值,作为某一初始阈值对应的参考值。
遍历单元640,用于遍历初始阈值集合,并触发第一获取单元620根据初始纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一初始阈值,获得初始纯白名单用户的流量异常占比值,以及根据初始非纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一个初始阈值,获得初始非纯白名单用户的流量异常占比值,以及触发第二获取单元630获取初始纯白名单用户的流量异常占比值与初始非纯白名单用户的流量异常占比值的差值的绝对值,作为某一初始阈值对应的参考值。
第三获取单元650,用于当遍历完初始阈值集合时,获得数量与初始阈值集合中初始阈值数量相等的参考值。
划分单元660,用于以获得的所有参考值中取值最大的参考值所对应的初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
图7是根据一示例性实施例示出的一种基于大数据的白名单更新装置的框图。图7是在图6基础上优化得到的,与图6所示的基于大数据的白名单更新装置相比,在图7所示的装置中:
划分单元660,还用于在确定单元610确定白名单用户的流量数据的若干个特征以及特征对应的初始阈值集合之前,按照预设用户群划分标准将白名单用户划分为初始纯白名单用户以及初始非纯白名单用户。
具体的,在划分单元660按照预设用户群划分标准将白名单用户划分为初始纯白名单用户以及初始非纯白名单用户之后,划分单元660向确定单元610发送触发指令,以触发确定单元610确定白名单用户的流量数据的若干个特征以及特征对应的初始阈值集合。
可选的,第一获取单元620用于根据初始纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一初始阈值,获得初始纯白名单用户的流量异常占比值,以及根据初始非纯白名单用户的流量数据中特征对应的若干个特征值与特征对应的某一个初始阈值,获得初始非纯白名单用户的流量异常占比值的方式具体为:
第一获取单元620,用于在初始纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第一异常数量,以及在初始非纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第二异常数量;计算第一异常数量与初始纯白名单用户的流量数据的比值,获得初始纯白名单用户的流量异常占比值,以及计算第二异常数量与初始非纯白名单用户的流量数据的比值,获得初始非纯白名单用户的流量异常占比值。
进一步可选的,划分单元660用于以获得的所有参考值中取值最大的参考值所对应的初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户的方式具体为:
划分单元660,用于将白名单用户的流量数据的若干个特征对应的特征值进行归一化处理,获得归一化特征值;将获得的所有参考值中取值最大的参考值所对应的初始阈值设置为特征对应的目标初始阈值;当在预设时间段内白名单用户中某一用户的每一个流量数据的特征对应的归一化特征值小于或者等于特征对应的目标初始阈值时,将某一用户划分至目标纯白名单用户。
进一步可选的,第一获取单元620用于在初始纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第一异常数量,以及在初始非纯白名单用户的流量数据中的特征对应的若干个特征值中统计特征值大于特征对应的某一初始阈值的第二异常数量的方式具体为:
第一获取单元620,用于在初始纯白名单用户的流量数据中的特征对应的若干个归一化特征值中统计归一化特征值大于特征对应的某一初始阈值的第一异常数量,以及在初始非纯白名单用户的流量数据中的特征对应的若干个归一化特征值中统计归一化特征值大于特征对应的某一初始阈值的第二异常数量。
进一步可选的,划分单元660用于以获得的所有参考值中取值最大的参考值所对应的初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户的方式具体为:
划分单元660,用于确定获得的所有参考值中取值最大的目标参考值;当目标参考值的数量为两个或者两个以上时,确定所有目标参考值所对应的初始阈值中初始纯白名单用户的流量异常占比值;以初始纯白名单用户的流量异常占比值取值最小的初始阈值为依据,将白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
进一步可选的,确定单元610用于确定白名单用户的流量数据的若干个特征以及特征对应的初始阈值集合,初始阈值集合包括若干初始阈值,白名单用户包括初始纯白名单用户以及初始非纯白名单用户的方式具体为:
确定单元610,用于确定白名单用户的流量数据的若干个特征以及特征对应的第一初始阈值,并将第一初始阈值加入初始阈值集合;按照预设增幅增加第一初始阈值得到第二初始阈值,并将第二初始阈值加入初始阈值集合;当第二初始阈值未达到预设初始阈值时,将第二初始阈值更新为第一初始阈值,并执行按照预设增幅增加第一初始阈值得到第二初始阈值的操作。
本发明还提供一种电子设备,该电子设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所示的基于大数据的白名单更新方法。
该电子设备可以是图1所示基于大数据的白名单更新装置100。
在一示例性实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所示的基于大数据的白名单更新方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于大数据的白名单更新方法,其特征在于,所述方法包括:
a)确定白名单用户的流量数据的若干个特征以及所述特征对应的初始阈值集合,所述初始阈值集合包括若干初始阈值,所述白名单用户包括初始纯白名单用户以及初始非纯白名单用户;
b)根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一初始阈值,获得所述初始非纯白名单用户的流量异常占比值;
c)获取所述初始纯白名单用户的流量异常占比值与所述初始非纯白名单用户的流量异常占比值的差值的绝对值,作为所述某一初始阈值对应的参考值;
d)遍历所述初始阈值集合,执行b)和c);
e)当遍历完所述初始阈值集合时,获得数量与所述初始阈值集合中所述初始阈值数量相等的参考值;
f)以获得的所有所述参考值中取值最大的参考值所对应的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
2.根据权利要求1所述的方法,其特征在于,在所述确定白名单用户的流量数据的若干个特征以及所述特征对应的初始阈值集合之前,所述方法还包括:
按照预设用户群划分标准将所述白名单用户划分为初始纯白名单用户以及初始非纯白名单用户。
3.根据权利要求2所述的方法,其特征在于,所述根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一个初始阈值,获得所述初始非纯白名单用户的流量异常占比值,包括:
在所述初始纯白名单用户的流量数据中的所述特征对应的若干个特征值中统计特征值大于所述特征对应的某一初始阈值的第一异常数量,以及在所述初始非纯白名单用户的流量数据中的所述特征对应的若干个特征值中统计特征值大于所述特征对应的所述某一初始阈值的第二异常数量;
计算所述第一异常数量与所述初始纯白名单用户的流量数据的比值,获得所述初始纯白名单用户的流量异常占比值,以及计算所述第二异常数量与所述初始非纯白名单用户的流量数据的比值,获得所述初始非纯白名单用户的流量异常占比值。
4.根据权利要求3所述的方法,其特征在于,所述以获得的所有所述参考值中取值最大的参考值所对应的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户,包括:
将所述白名单用户的流量数据的若干个特征对应的特征值进行归一化处理,获得归一化特征值;
将获得的所有所述参考值中取值最大的参考值所对应的初始阈值设置为所述特征对应的目标初始阈值;
当在预设时间段内所述白名单用户中某一用户的每一个流量数据的特征对应的归一化特征值小于或者等于所述特征对应的目标初始阈值时,将所述某一用户划分至所述目标纯白名单用户。
5.根据权利要求4所述的方法,其特征在于,所述在所述初始纯白名单用户的流量数据中的所述特征对应的若干个特征值中统计特征值大于所述特征对应的某一初始阈值的第一异常数量,以及在所述初始非纯白名单用户的流量数据中的所述特征对应的若干个特征值中统计特征值大于所述特征对应的所述某一初始阈值的第二异常数量,包括:
在所述初始纯白名单用户的流量数据中的所述特征对应的若干个归一化特征值中统计归一化特征值大于所述特征对应的某一初始阈值的第一异常数量,以及在所述初始非纯白名单用户的流量数据中的所述特征对应的若干个归一化特征值中统计归一化特征值大于所述特征对应的所述某一初始阈值的第二异常数量。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述以获得的所有所述参考值中取值最大的参考值所对应的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户,包括:
确定获得的所有所述参考值中取值最大的目标参考值;
当所述目标参考值的数量为两个或者两个以上时,确定所有所述目标参考值所对应的初始阈值中所述初始纯白名单用户的流量异常占比值;
以所述初始纯白名单用户的流量异常占比值取值最小的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
7.根据权利要求6所述的方法,其特征在于,所述确定白名单用户的流量数据的若干个特征以及所述特征对应的初始阈值集合,包括:
确定白名单用户的流量数据的若干个特征以及所述特征对应的第一初始阈值,并将所述第一初始阈值加入初始阈值集合;
按照预设增幅增加所述第一初始阈值得到第二初始阈值,并将所述第二初始阈值加入所述初始阈值集合;
当所述第二初始阈值未达到预设初始阈值时,将所述第二初始阈值更新为所述第一初始阈值,并执行所述的按照预设增幅增加所述第一初始阈值得到第二初始阈值。
8.一种基于大数据的白名单更新装置,其特征在于,所述装置包括:
确定单元,用于确定白名单用户的流量数据的若干个特征以及所述特征对应的初始阈值集合,所述初始阈值集合包括若干初始阈值,所述白名单用户包括初始纯白名单用户以及初始非纯白名单用户;
第一获取单元,用于根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一个初始阈值,获得所述初始非纯白名单用户的流量异常占比值;
第二获取单元,用于获取所述初始纯白名单用户的流量异常占比值与所述初始非纯白名单用户的流量异常占比值的差值的绝对值,作为所述某一初始阈值对应的参考值;
遍历单元,用于遍历所述初始阈值集合,并触发所述第一获取单元根据所述初始纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的某一初始阈值,获得所述初始纯白名单用户的流量异常占比值,以及根据所述初始非纯白名单用户的流量数据中所述特征对应的若干个特征值与所述特征对应的所述某一个初始阈值,获得所述初始非纯白名单用户的流量异常占比值,以及触发第二获取单元获取所述初始纯白名单用户的流量异常占比值与所述初始非纯白名单用户的流量异常占比值的差值的绝对值,作为所述某一初始阈值对应的参考值;
第三获取单元,用于当遍历完所述初始阈值集合时,获得数量与所述初始阈值集合中所述初始阈值数量相等的参考值;
划分单元,用于以获得的所有所述参考值中取值最大的参考值所对应的初始阈值为依据,将所述白名单用户划分为目标纯白名单用户以及目标非纯白名单用户。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811239659.7A CN109413063B (zh) | 2018-10-23 | 2018-10-23 | 一种基于大数据的白名单更新方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811239659.7A CN109413063B (zh) | 2018-10-23 | 2018-10-23 | 一种基于大数据的白名单更新方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109413063A CN109413063A (zh) | 2019-03-01 |
CN109413063B true CN109413063B (zh) | 2022-01-18 |
Family
ID=65468838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811239659.7A Active CN109413063B (zh) | 2018-10-23 | 2018-10-23 | 一种基于大数据的白名单更新方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109413063B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084408B (zh) * | 2020-09-08 | 2023-11-21 | 中国平安财产保险股份有限公司 | 名单数据筛选方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009087226A (ja) * | 2007-10-02 | 2009-04-23 | Kddi Corp | ウェブサイト判定装置およびウェブサイト判定プログラム |
US8112485B1 (en) * | 2006-11-22 | 2012-02-07 | Symantec Corporation | Time and threshold based whitelisting |
CN104468631A (zh) * | 2014-12-31 | 2015-03-25 | 国家电网公司 | 基于ip终端异常流量及黑白名单库的网络入侵识别方法 |
CN105094280A (zh) * | 2015-07-07 | 2015-11-25 | 北京奇虎科技有限公司 | 一种提高智能终端待机性能的方法、装置和系统 |
CN105684391A (zh) * | 2013-11-04 | 2016-06-15 | 伊尔拉米公司 | 基于标签的访问控制规则的自动生成 |
CN106506497A (zh) * | 2016-11-04 | 2017-03-15 | 广州华多网络科技有限公司 | 伪造白名单ip地址检测方法、装置及服务器 |
CN107508822A (zh) * | 2017-09-06 | 2017-12-22 | 迈普通信技术股份有限公司 | 访问控制方法及装置 |
CN107800673A (zh) * | 2016-09-07 | 2018-03-13 | 武汉安天信息技术有限责任公司 | 一种白名单的维护方法及装置 |
CN107992398A (zh) * | 2017-12-22 | 2018-05-04 | 宜人恒业科技发展(北京)有限公司 | 一种业务系统的监控方法和监控系统 |
-
2018
- 2018-10-23 CN CN201811239659.7A patent/CN109413063B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8112485B1 (en) * | 2006-11-22 | 2012-02-07 | Symantec Corporation | Time and threshold based whitelisting |
JP2009087226A (ja) * | 2007-10-02 | 2009-04-23 | Kddi Corp | ウェブサイト判定装置およびウェブサイト判定プログラム |
CN105684391A (zh) * | 2013-11-04 | 2016-06-15 | 伊尔拉米公司 | 基于标签的访问控制规则的自动生成 |
CN104468631A (zh) * | 2014-12-31 | 2015-03-25 | 国家电网公司 | 基于ip终端异常流量及黑白名单库的网络入侵识别方法 |
CN105094280A (zh) * | 2015-07-07 | 2015-11-25 | 北京奇虎科技有限公司 | 一种提高智能终端待机性能的方法、装置和系统 |
CN107800673A (zh) * | 2016-09-07 | 2018-03-13 | 武汉安天信息技术有限责任公司 | 一种白名单的维护方法及装置 |
CN106506497A (zh) * | 2016-11-04 | 2017-03-15 | 广州华多网络科技有限公司 | 伪造白名单ip地址检测方法、装置及服务器 |
CN107508822A (zh) * | 2017-09-06 | 2017-12-22 | 迈普通信技术股份有限公司 | 访问控制方法及装置 |
CN107992398A (zh) * | 2017-12-22 | 2018-05-04 | 宜人恒业科技发展(北京)有限公司 | 一种业务系统的监控方法和监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109413063A (zh) | 2019-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299387B (zh) | 一种基于智能推荐的消息推送方法、装置及终端设备 | |
US11233810B2 (en) | Multi-signal analysis for compromised scope identification | |
CN108632081B (zh) | 网络态势评估方法、装置及存储介质 | |
EP2960823B1 (en) | Method, device and system for managing authority | |
CN109257354B (zh) | 基于模型树算法的异常流量分析方法及装置、电子设备 | |
CN110191085B (zh) | 基于多分类的入侵检测方法、装置及存储介质 | |
US10303577B2 (en) | Method, device and storage medium for determining health state of information system | |
CN105653323A (zh) | 应用程序管理方法及装置 | |
CN108469893B (zh) | 显示屏的控制方法、装置、设备及计算机可读存储介质 | |
CN111428032B (zh) | 内容质量评价方法及装置、电子设备、存储介质 | |
CN110460583B (zh) | 一种敏感信息记录方法及装置、电子设备 | |
CN113569992B (zh) | 异常数据识别方法及装置、电子设备和存储介质 | |
CN109165738B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
CN111242188B (zh) | 入侵检测方法、装置及存储介质 | |
CN109670313B (zh) | 系统运行中进行风险评估的方法、装置和可读存储介质 | |
US20180375883A1 (en) | Automatically detecting insider threats using user collaboration patterns | |
CN110717509A (zh) | 基于树分裂算法的数据样本分析方法及装置 | |
CN109413063B (zh) | 一种基于大数据的白名单更新方法、装置及电子设备 | |
CN110059548B (zh) | 目标检测方法及装置 | |
CN109447258B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
CN109284307B (zh) | 一种流量数据的聚类处理方法、装置及电子设备 | |
CN110070046B (zh) | 人脸图像识别方法及装置、电子设备和存储介质 | |
CN109525548B (zh) | 一种基于代价函数的白名单更新方法、装置及电子设备 | |
CN113810328A (zh) | 异常账户确定方法、装置及存储介质 | |
US11811815B2 (en) | IP-based security control method and system thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |