CN111880986A - 一种数据检测方法及装置 - Google Patents
一种数据检测方法及装置 Download PDFInfo
- Publication number
- CN111880986A CN111880986A CN202010632128.5A CN202010632128A CN111880986A CN 111880986 A CN111880986 A CN 111880986A CN 202010632128 A CN202010632128 A CN 202010632128A CN 111880986 A CN111880986 A CN 111880986A
- Authority
- CN
- China
- Prior art keywords
- target
- time period
- preset time
- time intervals
- executing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000000546 chi-square test Methods 0.000 claims abstract description 38
- 238000003062 neural network model Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000000306 component Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例提供一种数据检测方法及装置,涉及计算机技术领域,能够提升数据检测设备确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平的合理性,进而提升数据检测设备确定是否存在异常执行目标任务的事件的准确性。该方法包括:确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值;获取目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数;进行卡方检验以确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平小于预设显著性水平阈值,则确定存在异常执行目标任务的事件。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据检测方法及装置。
背景技术
目前,在计算机技术领域,异常检测设备可以获取(或统计)某一时间区间的业务日志,以确定该时间区间是否出现异常状况。示例性的,异常检测设备从该时间区间的业务日志中获取到某一营业员(可以理解为该营业员所使用的设备)在该时间区间内办理业务A的次数为10次,而该业务A在该时间区间的办理次数阈值为8次,异常检测设备确定该营业员在该时间区间内办理业务A的次数大于该业务A在该时间区间的办理次数阈值,进而,异常检测确定该营业员在该时间区间内办理业务A时出现异常,该异常状态可能为该营业员非法获取了与该业务A相关的某些信息或该业务A相关的某些信息已被泄露等。
但是,上述方法中,某一类业务(例如业务A)在某一时间区间的办理次数阈值是基于主观经验确定的,缺乏数据的客观性,可能存在异常检测不合理的现象。
发明内容
本发明实施例提供一种数据检测方法及装置,能够提升数据检测设备确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平的合理性,进而提升数据检测设备确定是否存在异常执行目标任务的事件的准确性。
第一方面,本发明实施例提供一种数据检测方法,包括:基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值;获取目标对象在第二预设时间段的多个时间区间内分别执行该目标任务的次数;对该参考对象在该第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到该参考对象在该第一预设时间段的多个时间区间分别对应的标准化值,并且对该目标对象在该第二预设时间段的多个时间区间分别执行该目标任务的次数进行数据标准化处理,得到该目标对象在该第二预设时间段的多个时间区间内分别对应的标准化值;将该参考对象在该第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将该目标对象在该第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平;若该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平小于预设显著性水平阈值,则确定存在异常执行该目标任务的事件;若该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平大于或等于该预设显著性水平阈值,则确定不存在异常执行该目标任务的事件。
第二方面,本发明实施例提供一种数据检测装置,包括:确定模块和获取模块;该确定模块,用于基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值;该获取模块,用于获取目标对象在第二预设时间段的多个时间区间内分别执行该目标任务的次数;该确定模块,还用于对该参考对象在该第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到该参考对象在该第一预设时间段的多个时间区间分别对应的标准化值,并且对该目标对象在该第二预设时间段的多个时间区间分别执行该目标任务的次数进行数据标准化处理,得到该目标对象在该第二预设时间段的多个时间区间内分别对应的标准化值;该确定模块,还用于将该参考对象在该第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将该目标对象在该第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平;该确定模块,还用于若该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平小于预设显著性水平阈值,则确定存在异常执行该目标任务的事件;若该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平大于或等于该预设显著性水平阈值,则确定不存在异常执行该目标任务的事件。
第三方面,本发明实施例提供另一种数据检测装置,包括:处理器、存储器、总线和通信接口;存储器用于存储计算机执行指令,处理器与存储器通过总线连接,当数据检测装置运行时,处理器执行上述存储器存储的上述计算机执行指令,以使数据检测装置执行如上述第一方面所提供的数据检测方法。
第四方面,本发明实施例提供一种计算机可读存储介质,包括指令,当其在数据检测装置上运行时,使得数据检测装置执行上述第一方面所提供的一种数据检测方法。
第五方面,本发明实施例提供了一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述第一方面及其任意一种实现方式的数据检测方法。
本发明实施例所提供的数据检测方法及装置,数据检测设备基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值,并且获取目标对象在第二预设时间段的多个时间区间内分别执行该目标任务的次数;然后数据检测设备对该参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到参考对象在第一预设时间段的多个时间区间分别对应的标准化值,并且对目标对象在第二预设时间段的多个时间区间分别执行目标任务的次数进行数据标准化处理,得到目标对象在第二预设时间段的多个时间区间内分别对应的标准化值;进而数据检测设备将参考对象在第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将目标对象在第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定该目标对象在该第二预设时间段内执行目标任务的次数的显著性水平;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平小于预设显著性水平阈值,则数据检测设备确定存在异常执行目标任务的事件;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平大于或等于预设显著性水平阈值,则数据检测设备确定不存在异常执行目标任务的事件。本发明实施例中,数据检测设备对基于神经网络模型确定的参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值以及获取的目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数进行数据标准化处理,如此,数据检测设备可以得到可信度高且数量级相同的两组数据(即标准量和观察量);然后,数据检测设备再进行卡方检验以确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平,能够提升数据检测设备确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平的合理性,进而提升数据检测设备确定是否存在异常执行目标任务的事件的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种服务器的硬件示意图;
图2为本发明实施例提供的一种数据检测方法的示意图一;
图3为本发明实施例提供的一种目标神经网络模型的训练过程示意图;
图4为本发明实施例提供的一种神经网络模型的示意图;
图5为本发明实施例提供的一种参考对象在预设时间段的多个时间区间分别执行目标任务的次数的示意图;
图6为本发明实施例提供的一种卡方检验临界值表部分的示意图;
图7为本发明实施例提供的一种数据检测方法的示意图二;
图8为本发明实施例提供的一种参考对象在预设时间段的多个时间区间分别对应的标准化值的分布情况和目标对象在预设时间段的多个时间区间分别对应的标准化值的分布情况的示意图;
图9为本发明实施例提供的一种数据检测装置的结构示意图一;
图10为本发明实施例提供的一种数据检测装置的结构示意图二。
具体实施方式
本申请的描述中所提到的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请中所述“和/或”,包括用两种方法中的任意一种或者同时使用两种方法。
在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
下面对本发明实施例提供的一种数据检测方法及装置所涉及的一些概念做解释说明。
神经网络模型,是一种由大量的节点(或神经元)相互联接构成的运算模型。神经网络模型可以基于神经网络中不同的连接方式和/或不同的权重值输出不同的结果。本发明实施例中,数据检测设备可以基于神经网络模型,预测参考对象在第一预设时间段的多个时间区间分别执行目标任务的次数对应的标准值。
数据标准化,在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级,例如,本发明实施例中参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的数量级可能是上百万次,而目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数对应的数量级可能是上百次。当评价指标的数量级不同时,如果直接使用原始的评价指标,则可能会削弱数量级较低的评价指标(例如目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数)的作用。因此,为了保证评价结果的有效性及可靠性,需要对评价指标进行数据标准化处理。本发明实施例中,数据检测设备通过对参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值和目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数进行数据标准化处理,确定参考对象在第一预设时间段的多个时间区间分别对应的标准化值和目标对象在第二预设时间段的多个时间区间内分别对应的标准化值。
卡方检验,是一种假设检验方法,主要是比较两个或两个以上样本率(构成比)以及两个分类变量的关联性分析。其基本思想在于比较理论频数(即标准量)和实际频数(即观察量)的偏离程度,标准量与观察量之间的偏离程度决定卡方值的大小,如果卡方值越大,则二者偏离程度越大;如果卡方值越小,则二者偏离程度越小。本发明实施例中,数据检测设备通过卡方检验,以确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平,进而确定是否存在异常执行该目标任务的事件。
基于背景技术存在的问题,本发明实施例提供一种数据检测方法及装置,数据检测设备基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值,并且获取目标对象在第二预设时间段的多个时间区间内分别执行该目标任务的次数;然后数据检测设备对该参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到参考对象在第一预设时间段的多个时间区间分别对应的标准化值,并且对目标对象在第二预设时间段的多个时间区间分别执行目标任务的次数进行数据标准化处理,得到目标对象在第二预设时间段的多个时间区间内分别对应的标准化值;进而数据检测设备将参考对象在第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将目标对象在第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定该目标对象在该第二预设时间段内执行目标任务的次数的显著性水平;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平小于预设显著性水平阈值,则数据检测设备确定存在异常执行目标任务的事件;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平大于或等于预设显著性水平阈值,则数据检测设备确定不存在异常执行目标任务的事件。本发明实施例中,数据检测设备对基于神经网络模型确定的参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值以及获取的目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数进行数据标准化处理,如此,数据检测设备可以得到可信度高且数量级相同的两组数据(即标准量和观察量);然后,数据检测设备再进行卡方检验以确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平,能够提升数据检测设备确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平的合理性,进而提升数据检测设备确定是否存在异常执行目标任务的事件的准确性。
本发明实施例提供一种数据检测装置,该数据检测装置可以为服务器,图1为执行本发明实施例提供的数据检测方法的服务器的硬件示意图,如图1所示,该服务器10可以包括处理器101、存储器102以及网络接口103等。
其中,处理器101是服务器10的核心部件,处理器101用于运行服务器10的操作系统与该服务器10上的应用程序(包括系统应用程序和第三方应用程序),以实现该服务器10进行数据检测方法。
本发明实施例中,处理器101可以是一个中央处理器(central processing unit,CPU),微处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合,其能够实现或执行结合本发明实施例公开的内容所描述的各种示例性的逻辑方框,模块和电路;处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
可选地,服务器10的处理器101包括一个或多个CPU,该CPU为单核CPU(single-CPU)或多核CPU(multi-CPU)。
存储器102包括但不限于是随机存取存储器(random access memory,RAM)、只读存储器(read only memory,ROM)、可擦除可编程只读存储器(erasable programmableread-only memory,EPROM)、快闪存储器、或光存储器等。存储器102中保存有操作系统的代码。
可选地,处理器101通过读取存储器102中保存的指令实现本发明实施例中的数据检测方法,或者,处理器101通过内部存储的指令实现本发明实施例提供的数据检测方法。在处理器101通过读取存储器保存的执行实现本发明实施例提供的数据检测方法的情况下,存储器中保存实现本发明实施例提供的数据检测方法的指令。
网络接口103是有线接口,例如光纤分布式数据接口(fiber distributed datainterface,FDDI)、千兆以太网(gigabit ethernet,GE)接口。或者,网络接口103是无线接口。网络接口103用于服务器10与其他设备通信。
存储器102用于存储历史时间段内的多个时间区间。可选地,存储器102还用于存储参考对象在历史时间段内的多个时间区间内分别执行目标任务的次数等。至少一个处理器101进一步根据存储器102保存的历史时间段内的多个时间区间和参考对象在历史时间段内的多个时间区间内分别执行目标任务的次数来执行本发明实施例所描述的方法。处理器101实现上述功能的更多细节请参考下述各个方法实施例中的描述。
可选地,服务器10还包括总线,上述处理器101、存储器102通过总线104相互连接,或采用其他方式相互了解。
可选地,服务器10还包括输入输出接口105,输入输出接口105用于与输入设备连接,接收用户通过输入设备输入的目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数。输入设备包括但不限于键盘、触摸屏、麦克风等等。输入输出接口105还用于与输出设备连接,输出处理器101的数据检测结果(即确定是否存在异常执行目标任务的事件)。输出设备包括但不限于显示器、打印机等等。
本发明实施例提供的数据检测方法及装置,应用于运营商或运营商的数据检测设备确定是否存在异常执行目标任务的事件的场景中。当数据检测设备需要确定是否存在异常执行目标任务的事件的情况下,具体为确定目标对象是否存在异常执行目标任务的情况,可以依据本发明实施例提供的方法,对目标对象的数据(具体为目标对象在第二预设时间段的多个时间区间分别执行目标任务的次数)进行检测。
如图2所示,本发明实施例提供的数据检测方法可以包括S101-S105:
S101、数据检测设备基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值。
应理解,上述参考对象可以为一个营业员或多个营业员,多个营业员可以属于一个营业厅,也可以属于多个营业厅。当参考对象为多个营业员时,该参考对象在第一预设时间段的一个时间区间内执行目标任务的次数是该多个营业员在预设时间段的该时间区间内执行目标任务的次数之和。参考对象执行目标任务的次数可以为营业员操作某项业务的次数,例如,营业员办理通信套餐的次数。
可以理解的是,为了提升目标神经网络模型的训练(或收敛)速度,可以对目标神经网络模型的输入进行标准化处理,如此,基于(或通过)该目标神经网络模型确定的值(或该目标神经网络模型的输出)也可以理解为一种标准化的值,即参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值。
需要说明的是,上述第一预设时间段可以为1天,1周或1个月等,上述一个时间区间可以为1小时,1天或1周等,本发明实施例不做具体限定。并且,第一预设时间段的时间长度应大于该第一预设时间段的一个时间区间的时间长度,例如,当第一预设时间段为1天(或某1天)时,第一预设时间段的一个时间区间应小于1天(例如1小时)。
在一种实现方式中,上述步骤S101中,数据检测设备可以在目标神经网络模型已经训练完成的情况下直接使用,即基于该目标神经网络模型,确定的参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数。
在本发明实施例的另一种实现方式中,数据检测设备还可以基于历史日志数据进行神经网络训练,得到上述目标神经网络模型。其中,历史日志数据包括历史时间段内的多个时间区间和参考对象在该历史时间段内的多个时间区间内分别执行目标任务的次数。
本发明实施例中,历史时间段内的多个时间区间中,时间区间的数量与第一预设时间段内的多个时间区间中,时间区间的数量应相同。例如,假设历史时间段为M天,1个小时为一个时间区间,1天有24个小时,则该历史时间段内的多个时间区间代表该M天中每天的24个小时,例如0时-1时为一个时间区间。又假设第一预设时间段为N天,则该第一预设时间段内的多个时间区间代表该N天中每天的24小时,即历史时间段对应的时间区间的数量与第一预设时间段对应的时间区间的数量均为24小时。
以下,为本发明实施例中数据检测设备如何对历史日志数据进行训练,并得到目标神经网络模型的过程,如图3所示,该过程具体包括S201-S204:
S201、数据检测设备获取历史时间日志数据。
示例性的,以历史时间段的粒度为天,时间区间的粒度为小时为例,假设历史时间段为2020年5月1日-2020年5月30日,1个小时代表1个时间区间,则1天对应24个时间区间,该24个时间区间包括0时-1时、1时-2时、……23时-24时(24时即0时),如此,数据检测设备获取到5月份的30天(即2020年5月1日-2020年5月30日)内每天的24个时间区间,以及该30天内每天的24个时间区间内分别执行目标任务的次数。
S202、数据检测设备为神经网络模型配置相关参数。
应理解,神经网络模型包括输入层、输出层以及至少一个隐层,其中,神经网络模型的相关参数可以包括输入层的节点个数,隐层(或隐含层)的层数,隐层中的节点个数以及输出层的节点个数。具体的,数据检测设备可以为初始神经网络模型(为了便于描述,以下将初次训练的神经网络模型均称为初始神经网络模型)确定批尺度(batch size),该批尺度的大小即为输入层中包含的节点个数,示例性的,假设数据检测设备确定的批尺度为a与24(即每天24个小时区间)的乘积,则输入层中包含的节点个数也为a与24的乘积,a为大于或等于1的整数。
可以理解的是,神经网络模型的相关参数还可以包括节点之间(包括输入层节点与隐层节点之间、隐层与隐层节点之间以及隐层与输出层之间)的权重和偏置,不同层之间的激活函数以及神经网络模型的训练(或迭代)次数等。
S203、数据检测设备训练神经网络模型,并达到目标训练次数。
下面,以一个示例,神经网络模型的1次训练过程。
假设数据检测设备确定的批尺度为10*24,则确定初始神经网络模型的输入层的节点个数为240个,即初始神经网络模型包括240个输入层节点,又假设隐层的层数为1层,该隐层的节点个数为5个(即5个隐层节点),输出层的节点个数为24个(即24个输出层节点),可以得到如图4所述的神经网络模型示意图。
又假设,表示输入层的第i个节点与隐层的第j个节点权重,表示隐层的第j个节点与输出层的第k个基点之间的权重,表示隐层第j个节点的偏置,表示输出层第k个节点的偏置,xi表示输入层第i个节点的输入值,表示隐层第j个节点的输入值,表示输出层第k个节点的输入值,表示隐层第j个节点经过激活函数θ(x)后的输出值,yk表示输出层第k个节点的输出值,i为小于或等于240的整数,j为小于或等于5的整数,k为小于或等于24的整数。
如此,隐层第j个节点的输入值满足:
具体的,隐层第1个节点的输入值满足:
并且,隐层第1个节点经过激活函数θ(x)后的输出值具体为:
而输出层第k个节点的输入值满足:
具体的,输出层第1个节点的输入值满足:
即输出层第1个节点的输出值满足:
应理解,在第一次训练时,可以零初始化上述各个权重和偏置,即将上述各个权重和偏置配置为0,之后再通过使用优化器(例如Adam Optimizer)以及配置相应的学习率,更新和计算上述各个权重和偏置。进而将更新和计算后的权重和偏置作为下一次训练时的初始值,在下一次训练时采用同样的方法完成预设的训练(或迭代)次数之后,使权重和偏置达到最优值,得到目标神经网络模型。上述输入层输入的测试数据通过训练完成的目标神经网络模型可以得到更接近于真实值的测试值。
S204、数据检测设备将第一预设时间段的多个时间区间对应的标准值输入目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值。
应理解,在上述目标神经网络模型训练完成之后,可以将与上述批尺度大小相等的时间信息(即第一预设时间段的多个时间区间,例如10(或a)天中,每天的24个小时)对应的标准值(即进行标准化处理的输入值)输入到该目标神经网络模型,通过该目标神经网络模型预测参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值。
在本发明实施例的一种实现方式中,数据检测设备可以对上述参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行反标准化,以确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数。
示例性的,如图5所示,为数据检测设备对参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行反标准化后确定的参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数的一种示例。其中,多个时间区间为上述24个时间区间。
从图5中可以确定,参考对象在前5个时间区间(即0时-1时、1时-2时、2时-3时、3时-4时以及4时-5时)分别执行目标任务的次数为零,从第6个时间区间(即5时-6时)开始,参考对象执行目标任务的次数呈逐渐上升的趋势,然后在大概第10个时间区间(即9时-10时)达到该24个时间区间中参考对象执行目标任务的次数的最大值(在1500000次以上,也可以理解为本示意图中的第一个波峰),并且在11个时间区间(即10时-11时)呈下降趋势,之后到第14个时间区间(即13时-14时)再次呈上升趋势,并且在第17个时间区间(即16时-17时)达到第二个波峰,再然后一直呈下降趋势直到最后一个时间区间(即第24个时间区间,23时-24时)。
S102、数据检测设备获取目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数。
应理解,类似上述对参考对象的描述,目标对象也可以为一个营业员或多个营业员,多个营业员可以属于一个营业厅,也可以属于多个营业厅。当目标对象为多个营业员时,该目标对象在第二预设时间段的一个时间区间内执行目标任务的次数是该多个营业员在第二预设时间段的该时间区间内执行目标任务的次数之和。
本发明实施例中,第一预设时间段与第二预设时间段可以不同。例如,第一预设时间段可以为2020年6月1日-2020年6月30日,第二预设时间段可以为2020年7月(即2020年7月1日-2020年7月31日)中的任意B天,B为大于或等于1,并且小于或等于31的整数。
需要说明的是,本发明实施例可以不限制上述S101与S102的执行顺序。例如,可以先执行S101后执行S102,或者可以先执行S102后执行S101,或者可以同时执行S101和S102。
S103、数据检测设备对参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数进行数据标准化处理,得到参考对象在第一预设时间段的多个时间区间分别对应的标准化值,并且对目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数进行数据标准化处理,得到目标对象在第二预设时间段的多个时间区间分别对应的标准化值。
可以理解的是,参考对象的数量级(或粒度)与目标对象的数量级(或粒度)可能不相同,如此可能导致参考对象执行目标任务的次数的数量级(或粒度)与目标对象执行目标任务的次数的数量级(或粒度)也不相同。例如当参考对象为多个营业员,目标对象为一个营业员时,参考对象执行目标任务的次数的数量级可能是上百万次,而目标对象执行目标任务的次数的数量级可能为上百次。并且,参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值,是在标准化处理后的输入值输入到目标神经网络模型后得到的值(该值的对应反标准化值为该参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数),而目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数与该标准化值所代表的物理量并不相同。如此,数据检测设备可以对该参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值(以下简称参考对象的目标数据)和该目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数(以下简称目标对象的目标数据)进行数据标准化处理,以使得参考对象的目标数据和目标对象的目标数据处于同一数量级,提升了数据分析及数据检测的有效性和可靠性。
具体的,数据检测设备对参考对象的目标数据和目标对象的目标数据进行数据标准化处理的方法包括最小-最大标准化处理和z-score标准化处理。
对于最小-最大标准化处理,参考对象的目标数据经最小-最大标准化处理后可以确定参考对象在第一预设时间段的多个时间区间分别对应的标准化值,该标准化值满足:
其中,y'k表示参考对象在第一预设时间段的第k个时间区间对应的标准化值,yk表示参考对象在第一预设时间段的第k个时间区间内执行目标任务的次数对应的标准值,ymin表示参考对象在第一预设时间段的多个时间区间内执行目标任务的次数的最小值对应的标准值,ymax表示参考对象在第一预设时间段的多个时间区间内执行目标任务的次数的最大值对应的标准值,k为小于或等于24的正整数。
对于z-score标准化处理,参考对象在第一预设时间段的多个时间区间分别对应的标准化值满足:
其中,μ表示参考对象在第一预设时间段的多个时间区间内执行目标任务的次数对应的标准值的平均值,σ表示参考对象在第一预设时间段的多个时间区间内执行目标任务的次数对应的标准值的标准差。
需要说明的是,目标对象的目标数据经数据标准化处理的过程,与上述参考对象的目标数据经数据标准化处理的过程是相同或类似的,再此不做赘述。
S104、将参考对象在第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将目标对象在第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定目标对象在预设时间段内执行目标任务的次数的显著性水平。
结合上述对卡方检验的描述,应理解,本发明实施例中,通过对标准量和观察量进行卡方检验,可以确定目标对象在第二预设时间段的多个时间区间分别对应的标准化值与参考对象在第一预设时间段的多个时间区间分别对应的标准化值的偏离程度,进而确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平。
在本发明实施例的一种实现方式中,通过卡方检验确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平具体包括步骤1-步骤2:
步骤1、数据检测设备将参考对象在第一预设时间段的多个时间区间分别对应的标准化值作为标准量,并将目标对象在第二预设时间段的多个时间区间分别对应的标准化值作为观察量,确定卡方检验对应的卡方值和自由度。
具体的,卡方检验对应的卡方值满足:
其中,X2表示卡方检验对应的卡方值,f(i)表示目标对象在第二预设时间段的第i个时间区间对应的标准化值,F(i)表示参考对象在第一预设时间段的第i个时间区间对应的标准化值,l表示多个时间区间的数量,l为大于或等于1的正整数。
卡方检验对应的自由度满足:
df=(h-1)×(l-1);
其中,df表示卡方检验对应的自由度,h表示对象的个数,l表示多个时间区间的数量。
本发明实施例中,数据检测设备可以将参考对象作为1个完整的对象,将目标对象作为1个对象,即上述h的值为2,假设多个时间区间的数量为24个,即上述l的值为24,则可以确定如下表1所示的参考对象在第一预设时间段的多个时间区间分别对应的标准化值(即标准量)与目标对象在第二预设时间段的多个时间区间分别对应的标准化值(即观察量)的一种示例。
表1
结合上述步骤1中的公式以及表1,可以确定上述卡方检验对应的卡方值和自由度分别为0.379和23。
步骤2、数据检测设备从卡方检验临界值表中确定与卡方值和自由度对应的显著性水平。
如图6所示,为《卡方检验临界值表》中部分的示例,由于上述步骤1中示例的卡方检验对应的自由度为23,卡方值为0.379(小于22.337),因此可以确定与该卡方值和该自由度对应(即目标对象在第二预设时间段内执行目标任务的次数)的显著性水平(a)大于0.5。
S105、若目标对象在第二预设时间段内执行目标任务的次数的显著性水平小于预设显著性水平阈值,则数据检测设备确定存在异常执行目标任务的事件;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平大于或等于预设显著性水平阈值,则数据检测设备确定不存在异常执行目标任务的事件。
应理解,目标对象在第二预设时间内执行目标任务的次数的显著性水平越小说明目标对象在第二预设时间内执行目标任务时与参考对象在第一预设时间内执行目标任务时的差异越大(即偏离程度越大)。数据检测设备确定存在异常执行目标任务的事件,即数据检测设备确定目标对象在第二预设时间内执行目标任务时存在异常情况;同理,数据检测设备确定不存在异常执行目标任务的事件,为数据检测设备确定目标对象在第二预设时间内执行目标任务时不存在异常情况。
结合上述步骤2中的示例,假设预设显著性水平阈值为0.05,则数据检测设备确定(目标对象在第二预设时间内)不存在异常执行目标任务的事件。
本发明实施例中,数据检测设备基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值,并且获取目标对象在第二预设时间段的多个时间区间内分别执行该目标任务的次数;然后数据检测设备对该参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到参考对象在第一预设时间段的多个时间区间分别对应的标准化值,并且对目标对象在第二预设时间段的多个时间区间分别执行目标任务的次数进行数据标准化处理,得到目标对象在第二预设时间段的多个时间区间内分别对应的标准化值;进而数据检测设备将参考对象在第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将目标对象在第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定该目标对象在该第二预设时间段内执行目标任务的次数的显著性水平;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平小于预设显著性水平阈值,则数据检测设备确定存在异常执行目标任务的事件;若目标对象在第二预设时间段内执行目标任务的次数的显著性水平大于或等于预设显著性水平阈值,则数据检测设备确定不存在异常执行目标任务的事件。本发明实施例中,数据检测设备对基于神经网络模型确定的参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值以及获取的目标对象在第二预设时间段的多个时间区间内分别执行目标任务的次数进行数据标准化处理,如此,数据检测设备可以得到可信度高且数量级相同的两组数据(即标准量和观察量);然后,数据检测设备再进行卡方检验以确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平,能够提升数据检测设备确定目标对象在第二预设时间段内执行目标任务的次数的显著性水平的合理性,进而提升数据检测设备确定是否存在异常执行目标任务的事件的准确性。
如图7所示,在一种实现方式中,本发明实施例提供的数据检测方法包括S301-S305:
S301、数据检测设备基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值。
S302、数据检测设备获取多个目标对象在第二预设时间段内分别执行目标任务的次数。
其中,一个目标对象在第二预设时间段内执行目标任务的次数包括该目标对象在该第二预设时间段的多个时间区间内分别执行该目标任务的次数。
S303、数据检测设备对参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到参考对象在第一预设时间段的多个时间区间分别对应的标准化值,并且对多个目标对象在第二预设时间段内分别执行目标任务的次数进行数据标准化处理,得到多个目标对象在第二预设时间段的标准化值。
其中,一个目标对象在第二预设时间段的标准化值包括该目标对象在该第二预设时间段的多个时间区间分别对应的标准化值。
S304、数据检测设备确定多个目标对象在第二预设时间段内各自执行目标任务的次数的显著性水平。
需要说明的是,关于S301-S304的过程的描述与上述S101-S104中的过程的描述是相同或类似的,在此不做赘述。
S305、数据检测设备确定多个目标对象在第二预设时间段内各自执行目标任务的次数的显著性水平中,小于预设显著性水平阈值的N个显著性水平所对应的目标对象存在异常执行目标任务的事件。
其中,N为大于或等于1的正整数。
应理解,当N个显著性水平小于预设显著性水平阈值,则数据检测设备可以确定该N个显著性水平对应的目标对象(即N个目标对象)存在异常执行目标任务的事件。
示例性的,以下表2为多个目标对象在第二预设时间内各自执行目标任务的次数的显著性水平的示例。
表2
假设预设显著性水平阈值为0.05,则数据检测设备确定目标对象3和目标对象4存在异常执行目标任务的事件,即上述N为2。
在本发明实施例的另一种实现方式中,在上述S304之后,数据检测设备还可以将多个目标对象在第二预设时间段内各自执行目标任务的次数的显著性水平中,最小的M个显著性水平所对应的目标对象,确定为存在异常执行目标任务的对象,M为大于或等于1的正整数。
示例性的,结合上述表2中的示例,假设M为3,则数据检测设备可以确定目标对象2、目标对象3以及目标对象4为存在异常执行目标任务的对象。
结合上述实施例的描述,应理解,在数据检测设备将参考对象在第一预设时间段的多个时间区间分别对应的标准化值作为标准量,并将目标对象在第二预设时间段的多个时间区间分别对应的标准化值作为观察量,确定卡方检验对应的卡方值和自由度的情况下,任意一个目标对象(具体为任意一个目标对象与参考对象进行卡方检验)对应的自由度是相同的(即在上述多个时间区间的数量为24时,任一个目标对象对应的自由度均为23),并且,从《卡方检验临界值表》中可以确定,自由度相同时,卡方值越大,显著性水平越小。
如此,在本发明实施例的一种实现方式中,数据检测设备还可以配置相应的预设卡方值阈值,若目标对象在第二预设时间内执行目标任务的次数的卡方值(具体为目标对象在第二预设时间内多个时间区间分别对应的标准化值与参考对象在第一预设时间内多个时间区间分别对应的标准化值对应的卡方值)大于预设卡方值阈值,则确定存在异常执行目标任务的事件;若目标对象在第二预设时间内执行目标任务的次数的卡方值小于或等于预设卡方值阈值,则确定不存在异常执行目标任务的事件。
示例性的,以下表3为多个目标对象在第二预设时间内各自执行目标任务的次数的卡方值的示例。
表3
假设预设卡方值阈值为1.0000,则数据检测设备确定目标对象2为存在异常执行目标任务的事件的对象。
在本发明实施例的另一种实现方式中,数据检测设备还可以基于参考对象在第一预设时间段的多个时间区间分别对应的标准化值与目标对象在第二预设时间段的多个时间区间分别对应的标准化值所形成的标准化值分布图,分析目标对象可能存在异常执行目标任务的事件的原因。
如图8所示,假设曲线1为参考对象在第一预设时间段的多个时间区间分别对应的标准化值的分布情况,曲线2为目标对象在第二预设时间段的多个时间区间分别对应的标准化值的分布情况。由图8可以确定,曲线1分别在第9个时间区间(即8时-9时)和第16个时间区间(即15时-16时)分别出现了两次波峰,在第12个时间区间(即11时-12时)出现了1次波谷;对于曲线2,可以确定其分别在第12个时间区间和第18个时间区间(即17时-18时)分别出现了两次波峰,并且在第16个时间区间出现了一次波谷。
基于图8中的曲线1可以确定参考对象的两个波峰均出现在工作时间(即8时-9时和15时-16时),该曲线1的波谷出现接近休息的时间(即11时-12时),而曲线2的两个波峰出现在本应该接近休息的时间(即11时-12时和17时-18时),其波谷出现在了工作时间(即15时-16时)。如此,数据检测设备可以分析出目标对象在本应执行目标任务的工作时间执行了其他任务,并在非工作时间执行了目标任务,如此,导致目标对象存在异常执行目标任务的事件。
本发明实施例可以根据上述方法示例对数据检测设备等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图9示出了上述实施例中所涉及的数据检测装置的一种可能的结构示意图,如图9所示,数据检测装置20可以包括:确定模块201和获取模块202。
确定模块201,用于基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值。
获取模块202,用于获取目标对象在第二预设时间段的多个时间区间内分别执行该目标任务的次数。
确定模块201,还用于对该参考对象在该第一预设时间段的多个时间区间内分别执行目标任务的次数进行数据标准化处理,得到该参考对象在该第一预设时间段的多个时间区间分别对应的标准化值,并且对该目标对象在该第二预设时间段的多个时间区间分别执行该目标任务的次数进行数据标准化处理,得到该目标对象在该第二预设时间段的多个时间区间内分别对应的标准化值。
确定模块201,还用于将该参考对象在该第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将该目标对象在该第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定该目标对象在该预设时间段内执行该目标任务的次数的显著性水平。
确定模块201,还用于若该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平小于预设显著性水平阈值,则确定存在异常执行该目标任务的事件;若该目标对象在该第二预设时间段内执行该目标任务的次数的显著性水平大于或等于该预设显著性水平阈值,则确定不存在异常执行该目标任务的事件。
可选地,确定模块201,具体用于将该参考对象在该第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将该目标对象在该第二预设时间段的多个时间区间分别对应的标准化值作为观察量,确定卡方检验对应的卡方值和自由度;并且从卡方检验临界值表中确定与该卡方值和该自由度对应的显著性水平。
可选地,确定模块201,还用于对历史日志数据进行神经网络训练,得到该目标神经网络模型;其中,该历史日志数据包括历史时间段内的该多个时间区间和该参考对象在该历史时间段内的多个时间区间内分别执行该目标任务的次数。
可选地,确定模块201,还用于确定多个目标对象在该第二预设时间段内各自执行该目标任务的次数的显著性水平;并且确定该多个目标对象在该第二预设时间段内各自执行该目标任务的次数的显著性水平中,小于该预设显著性水平阈值的N个显著性水平所对应的目标对象存在异常执行该目标任务的事件,N为大于或等于1的正整数。
在采用集成的单元的情况下,图10示出了上述实施例中所涉及的数据采集装置的一种可能的结构示意图。如图10所示,数据采集装置30可以包括:处理模块301和通信模块302。处理模块301可以用于对数据采集装置30的动作进行控制管理,例如,处理模块301可以用于支持数据采集装置30执行上述方法实施例中的S101、S103、S104、S105。通信模块302可以用于支持数据采集装置30与其他实体的通信,例如,通信模块302可以用于支持数据采集装置30执行上述方法实施例中的S102。可选地,如图10所示,该数据采集装置30还可以包括存储模块303,用于存储数据采集装置30的程序代码和数据。
其中,处理模块301可以是处理器或控制器(例如可以是上述如图1所示的处理器101)。通信模块302可以是收发器、收发电路或通信接口等(例如可以是上述如图1所示的网络接口103)。存储模块303可以是存储器(例如可以是上述如图1所示的存储器102)。
其中,当处理模块301为处理器,通信模块302为收发器,存储模块303为存储器时,处理器、收发器和存储器可以通过总线连接。总线可以是外设部件互连标准(peripheralcomponent interconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户终端线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据检测方法,其特征在于,所述方法包括:
基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值;
获取目标对象在第二预设时间段的多个时间区间内分别执行所述目标任务的次数;
对所述参考对象在所述第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到所述参考对象在所述第一预设时间段的多个时间区间分别对应的标准化值,并且对所述目标对象在所述第二预设时间段的多个时间区间分别执行所述目标任务的次数进行数据标准化处理,得到所述目标对象在所述第二预设时间段的多个时间区间内分别对应的标准化值;
将所述参考对象在所述第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将所述目标对象在所述第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定所述目标对象在所述第二预设时间段内执行所述目标任务的次数的显著性水平;
若所述目标对象在所述第二预设时间段内执行所述目标任务的次数的显著性水平小于预设显著性水平阈值,则确定存在异常执行所述目标任务的事件;若所述目标对象在所述第二预设时间段内执行所述目标任务的次数的显著性水平大于或等于所述预设显著性水平阈值,则确定不存在异常执行所述目标任务的事件。
2.根据权利要求1所述的方法,其特征在于,通过卡方检验确定所述目标对象在所述第二预设时间段内执行所述目标任务的次数的显著性水平具体包括:
将所述参考对象在所述第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将所述目标对象在所述第二预设时间段的多个时间区间分别对应的标准化值作为观察量,确定卡方检验对应的卡方值和自由度;
从卡方检验临界值表中确定与所述卡方值和所述自由度对应的显著性水平。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对历史日志数据进行神经网络训练,得到所述目标神经网络模型;其中,所述历史日志数据包括历史时间段内的所述多个时间区间和所述参考对象在所述历史时间段内的多个时间区间内分别执行所述目标任务的次数。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
确定多个目标对象在所述第二预设时间段内各自执行所述目标任务的次数的显著性水平;
确定所述多个目标对象在所述第二预设时间段内各自执行所述目标任务的次数的显著性水平中,小于所述预设显著性水平阈值的N个显著性水平所对应的目标对象存在异常执行所述目标任务的事件,N为大于或等于1的正整数。
5.一种数据检测装置,其特征在于,包括:确定模块和获取模块;
所述确定模块,用于基于目标神经网络模型,确定参考对象在第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值;
所述获取模块,用于获取目标对象在第二预设时间段的多个时间区间内分别执行所述目标任务的次数;
所述确定模块,还用于对所述参考对象在所述第一预设时间段的多个时间区间内分别执行目标任务的次数对应的标准值进行数据标准化处理,得到所述参考对象在所述第一预设时间段的多个时间区间分别对应的标准化值,并且对所述目标对象在所述第二预设时间段的多个时间区间分别执行所述目标任务的次数进行数据标准化处理,得到所述目标对象在所述第二预设时间段的多个时间区间内分别对应的标准化值;
所述确定模块,还用于将所述参考对象在所述第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将所述目标对象在所述第二预设时间段的多个时间区间分别对应的标准化值作为观察量,进行卡方检验以确定所述目标对象在所述预设时间段内执行所述目标任务的次数的显著性水平;
所述确定模块,还用于若所述目标对象在所述第二预设时间段内执行所述目标任务的次数的显著性水平小于预设显著性水平阈值,则确定存在异常执行所述目标任务的事件;若所述目标对象在所述第二预设时间段内执行所述目标任务的次数的显著性水平大于或等于所述预设显著性水平阈值,则确定不存在异常执行所述目标任务的事件。
6.根据权利要求5所述的装置,其特征在于,
所述确定模块,具体用于将所述参考对象在所述第一预设时间段的多个时间区间分别对应的标准化值作为标准量,将所述目标对象在所述第二预设时间段的多个时间区间分别对应的标准化值作为观察量,确定卡方检验对应的卡方值和自由度;并且从卡方检验临界值表中确定与所述卡方值和所述自由度对应的显著性水平。
7.根据权利要求6所述的装置,其特征在于,
所述确定模块,还用于对历史日志数据进行神经网络训练,得到所述目标神经网络模型;其中,所述历史日志数据包括历史时间段内的所述多个时间区间和所述参考对象在所述历史时间段内的多个时间区间内分别执行所述目标任务的次数。
8.根据权利要求5至7任一项所述的装置,其特征在于,
所述确定模块,还用于确定多个目标对象在所述第二预设时间段内各自执行所述目标任务的次数的显著性水平;并且确定所述多个目标对象在所述第二预设时间段内各自执行所述目标任务的次数的显著性水平中,小于所述预设显著性水平阈值的N个显著性水平所对应的目标对象存在异常执行所述目标任务的事件,N为大于或等于1的正整数。
9.一种数据检测装置,其特征在于,所述数据检测装置包括:处理器、存储器、总线和通信接口;所述存储器用于存储计算机执行指令,当所述数据检测装置运行时,所述处理器执行上述存储器存储的所述计算机执行指令,以使所述数据检测装置执行权利要求1至3任一项所述的数据检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令在数据检测装置上运行时,使得所述数据检测装置执行如权利要求1至3任一项所述的数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010632128.5A CN111880986A (zh) | 2020-07-03 | 2020-07-03 | 一种数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010632128.5A CN111880986A (zh) | 2020-07-03 | 2020-07-03 | 一种数据检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111880986A true CN111880986A (zh) | 2020-11-03 |
Family
ID=73150215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010632128.5A Pending CN111880986A (zh) | 2020-07-03 | 2020-07-03 | 一种数据检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111880986A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580861A (zh) * | 2022-02-17 | 2022-06-03 | 珠海格力电器股份有限公司 | 能源数据异常检测方法、装置及能源系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483775A (zh) * | 2009-06-30 | 2012-05-30 | 生命扫描有限公司 | 被分析物测试方法和系统 |
CN102694696A (zh) * | 2012-05-14 | 2012-09-26 | 中国科学院计算机网络信息中心 | Dns服务器异常检测的方法及装置 |
CN108009036A (zh) * | 2017-11-17 | 2018-05-08 | 亚信科技(中国)有限公司 | 一种定位导致数据异常的操作的方法及服务器 |
CN108833409A (zh) * | 2018-06-15 | 2018-11-16 | 北京网思科平科技有限公司 | 基于深度学习和半监督学习的webshell检测方法及装置 |
CN110377491A (zh) * | 2019-07-10 | 2019-10-25 | 中国银联股份有限公司 | 一种数据异常检测方法及装置 |
CN110503204A (zh) * | 2018-05-17 | 2019-11-26 | 国际商业机器公司 | 识别用于机器学习任务的迁移模型 |
CN110535864A (zh) * | 2019-08-30 | 2019-12-03 | 北京达佳互联信息技术有限公司 | 服务异常检测方法、装置、设备及存储介质 |
CN111199244A (zh) * | 2019-12-19 | 2020-05-26 | 北京航天测控技术有限公司 | 一种数据的分类方法、装置、存储介质及电子装置 |
-
2020
- 2020-07-03 CN CN202010632128.5A patent/CN111880986A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483775A (zh) * | 2009-06-30 | 2012-05-30 | 生命扫描有限公司 | 被分析物测试方法和系统 |
CN102694696A (zh) * | 2012-05-14 | 2012-09-26 | 中国科学院计算机网络信息中心 | Dns服务器异常检测的方法及装置 |
CN108009036A (zh) * | 2017-11-17 | 2018-05-08 | 亚信科技(中国)有限公司 | 一种定位导致数据异常的操作的方法及服务器 |
CN110503204A (zh) * | 2018-05-17 | 2019-11-26 | 国际商业机器公司 | 识别用于机器学习任务的迁移模型 |
CN108833409A (zh) * | 2018-06-15 | 2018-11-16 | 北京网思科平科技有限公司 | 基于深度学习和半监督学习的webshell检测方法及装置 |
CN110377491A (zh) * | 2019-07-10 | 2019-10-25 | 中国银联股份有限公司 | 一种数据异常检测方法及装置 |
CN110535864A (zh) * | 2019-08-30 | 2019-12-03 | 北京达佳互联信息技术有限公司 | 服务异常检测方法、装置、设备及存储介质 |
CN111199244A (zh) * | 2019-12-19 | 2020-05-26 | 北京航天测控技术有限公司 | 一种数据的分类方法、装置、存储介质及电子装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580861A (zh) * | 2022-02-17 | 2022-06-03 | 珠海格力电器股份有限公司 | 能源数据异常检测方法、装置及能源系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI819385B (zh) | 異常告警方法、裝置、設備及存儲介質 | |
EP2453381B1 (en) | System for an engine for forecasting cyber threats and method for forecasting cyber threats using the system | |
CN112395179B (zh) | 一种模型训练方法、磁盘预测方法、装置及电子设备 | |
CN108681496A (zh) | 磁盘故障的预测方法、装置及电子设备 | |
CN113296836B (zh) | 训练模型的方法、测试方法、装置、电子设备及存储介质 | |
CN110837852A (zh) | 一种轧机齿轮箱的故障诊断方法、装置及终端设备 | |
CN113837596A (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN113515399A (zh) | 数据异常检测方法及装置 | |
CN114997607A (zh) | 一种基于工程检测数据的异常评估预警方法及系统 | |
CN110930218A (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN108280608B (zh) | 产品寿命分析方法及终端设备 | |
CN114399321A (zh) | 一种业务系统稳定性分析方法、装置和设备 | |
CN111880986A (zh) | 一种数据检测方法及装置 | |
CN116560794A (zh) | 虚拟机的异常处理方法和装置、介质和计算机设备 | |
CN116414653A (zh) | 一种主机故障的检测方法、装置、电子设备及存储介质 | |
JP2015184818A (ja) | サーバ、モデル適用可否判定方法およびコンピュータプログラム | |
CN110457349B (zh) | 信息流出的监控方法及监控装置 | |
CN118886761A (zh) | 一种基于距离公式fahp-critic组合权重效能评估方法 | |
CN113468014A (zh) | 一种运维数据的异常检测方法及装置 | |
CN110955587A (zh) | 一种待更换设备确定方法及装置 | |
CN110704614A (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
CN102902838A (zh) | 基于趋势的过程控制目标设定方法和系统 | |
CN114445122A (zh) | 一种用户流失率的预测方法、装置及电子设备 | |
CN110827144B (zh) | 用户的申请风险评估方法、申请风险评估装置及电子设备 | |
CN115185649A (zh) | 资源调度的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |