CN107528824A - 一种基于二维度稀疏化的深度信念网络入侵检测方法 - Google Patents
一种基于二维度稀疏化的深度信念网络入侵检测方法 Download PDFInfo
- Publication number
- CN107528824A CN107528824A CN201710534587.8A CN201710534587A CN107528824A CN 107528824 A CN107528824 A CN 107528824A CN 201710534587 A CN201710534587 A CN 201710534587A CN 107528824 A CN107528824 A CN 107528824A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- msup
- mover
- rbm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000000007 visual effect Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000006855 networking Effects 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 4
- 238000000265 homogenisation Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- External Artificial Organs (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于二维度稀疏化的深度信念网络入侵检测方法,包括:稀疏化数据集的第一维度稀疏化方法和稀疏化隐层单元的第二维度稀疏化方法。第一维度稀疏化是指对输入训练数据进行稀疏判断并将数据集转换为稀疏数据集;第二维度稀疏化是指通过对RBM隐层单元进行余弦相似度分组并且在训练RBM的目标函数中引入分组稀疏惩罚项来迫使隐层单元从数据中学习到不同的特征。将训练好的RBM堆叠成DBN形成一种新的二维稀疏化深度信念网路,并将其用于入侵检测系统。本方法同时考虑到数据集稀疏化程度和特征同质化对RBM训练的影响,使优化后的DBN用于入侵检测系统具有更高的准确率和更低的误检率,且能够提高检测的效率。
Description
技术领域
本发明涉及入侵检测网络安全领域,特别涉及一种基于二维度稀疏化的深度信念网络入侵检测方法
背景技术
入侵检测技术是对企图入侵,正在进行入侵或是已经发生的入侵行为进行识别,其本质是对大量的攻击数据进行威胁分析,以往的研究有在入侵检测中引入机器学习的方法并取得了突破性的进展。但是由于传统的机器学习方法大都是浅层学习,并不适用于海量数据的分析。因此设计出一个面向海量数据的高效入侵检测系统是一个亟待解决的问题。
深度信念网络(DBN)是由多个受限玻尔兹曼机(RBM)堆叠而成,以模拟人脑的多层结构为原理的深度学习网络模型。它可以从具体的高维,非线性数据抽取维数较低的特征,是一个强大的生成模型,通过逐层训练的RBM可以发现数据的深层结构信息,所以是解决入侵检测速度慢和分类性能低的一种极有前景的方法。
传统的RBM训练并没有充分考虑到算法的性能受到数据集稀疏性的影响,导致稀疏化层度不同的数据在算法的性能上存在较大的差异。并且RBM在训练过程中由于学习到的特征过于相似,表现在模型链接权值的相似度过高,导致训练后的隐层单元并不是完全独立的,进而出现特征同质化化的现象。目前常用的方法是在训练过程中添加惩罚因子来调节隐层单元的稀疏性,但是却没有提出有效的惩罚方案来降低隐层单元学习到相同特征的概率。
发明内容
本发明为克服上述现有技术的至少一种缺陷(不足),提出了一种基于二维度稀疏化的深度信念网络入侵检测方法,此方法从输入数据集稀疏化和隐层单元稀疏化两个维度来改进现有的RBM算法,构成改进的深度信念网络;将其应用到入侵检测系统中相比以往的入侵检测技术具有更高的准确率和更低的误检率,且能够提高检测的效率。
为达到上述目的,本发明的技术方案具体为:
一种基于二维度稀疏化的深度信念网络入侵检测方法,包括以下步骤:
第一步,对训练数据集进行第一维度稀疏化,根据定义的稀疏系数对输入数据集进行判定,若为稠密数据集则将其数值反转为稀疏数据集,否则保留原训练数据集不变,将经过第一维度稀疏化后数据集称为稀疏化数据集;
将训练数据集的稀疏系数定义为s:
其中,表示第n个训练样本的第m维数值,其中训练样本数据值N表示训练样本的数目,V表示训练样本的维度。定义一个稀疏性阈值对于归一化到[0,1]之间的数据通常选取当时将训练数据集定义为稠密数据集,并可通过数值反转实现训练数据集的稀疏化;当时定义为稀疏数据集,并保持不变。定义训练样本数据值xi的第一维度稀疏化表达zi为:
其中为预设的稀疏度阈值;
令常数则
此时记为稀疏化数据集中的一个样本数据,其中V为样本的维度,也即是第一层RBM可视层的节点个数,用初始化第一层RBM的可视层
第二步,将稀疏化数据集里的第一个样本作为DBN第一层RBM可视层的输入特征变量,进行RBM训练后根据该层RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
第一次训练用正态分布初始化权值矩阵,可视层和隐层的偏置均初始化为0,本方法训练RBM时采用基于对比散度的快速学习算法(CD算法),当初始化RBM可视层的节点后仅需要K(一般K=1)步吉布斯采样就可以很好地重构可视层数据。即首先由原始可视单元映射到隐层单元其次由隐层单元重构为新的可视单元再次由新的可视单元映射为新的隐层单元为调节隐层单元的稀疏性,利用此时RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
第二维度稀疏化方法为:RBM连接权值的列向量对应于隐层单元,而隐层单元状态即是学习到的特征,进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度,根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组,分组步骤为:
1)任意选取连接权值的一列j,如果对应的隐层单元没有参与分组,则计算j列与连接权值矩阵其他i列的相似度,记为Sj-i;
2)比较分组参数β与Sj-i的大小,如果Sj-i≥β则在连接权值矩阵中的i列和j列就合并为一组,否则不合并;
3)重复上述两个过程,直到连接权值矩阵中的所有列向量分组完毕。
定义余弦相似度Sj-i:
其中m表示可视层单元个数,即权值矩阵的行数,n表示隐层单元个数,即权值矩阵的列数,W.j、W.i分别表示权值矩阵中的第j列和第i列,ωkj表示第j列的第k个元素,ωk表示第列的第k个元素。
分组参数定义为权值矩阵的列平均相关系数,n为权值矩阵列向量数,有下式:
对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度,是组内隐单元的学习过程不再条件独立,保证组内隐单元的相关性,迫使隐单元从训练数据中学习到不同的特征。引入分组稀疏惩罚项为:
其中T为隐层单元分组的个数,Gt为第t个隐层单元组的单元个数,为对可视层单元状态的第t个隐层单元组激活概率的二范数,而则为T个隐层单元组激活概率的一范数。
第三步,在该层RBM的隐层,利用带惩罚项的似然函数作为RBM的训练目标函数,先用CD快速学习方法计算极大似然假设梯度,再对分组稀疏惩罚项进行梯度下降直到参数收敛,并更新该层RBM模型参数θ;
更新为:
其中λ为分组稀疏惩罚系数,μ表示学习率;以上是用来初始化第一层RBM的可视层的稀疏化数据集中的样本。zi (0)表示初始化时第一层RBM可视层单元状态,zi (1)为经过CD快速学习算法后重构的可视层单元状态。
第四步,再按顺序依次输入稀疏化数据集中的其他样本,按照第二步、第三步的步骤训练RBM,直到训练完所有的样本,并且达到最大训练周期,此时第一层RBM训练结束。当充分训练完第一层RBM后需要将隐层偏置更新为:其中是第一维度稀疏化数据集后的常数项。
第五步,充分训练第一层RBM后,固定第一层RBM的权重和偏移量,然后将其隐层节点的状态作为第二层RBM可视层的节点向量,训练该层RBM,训练完成后根据该层RBM连接权值的列对隐层单元进行相似度分组,再根据第三步的方法更新该层RBM模型参数,直到充分训练第二层RBM后将其堆叠在第一层RBM的上方。
更新除第一层RBM以外的模型参数为:
同样的,μ表示学习率,λ为分组稀疏惩罚系数。此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量,所以与更新第一层RBM相比,差别在于只需进行第二维度稀疏化,并将RBM可视层单元状态重新用来表示。
第六步,固定第二层RBM的权重和偏移量,采用与第五步相同的方式训练第三层RBM,并堆叠在第二层的上方,采用同样的方式对其它层RBM进行处理,直至训练到第L-1层RBM;初始化第L层RBM的模型参数,用数据的标签值作为输出层,利用softmax多分类器对学习到的特征多分类,使用BP算法对模型参数进行微调,最终形成一个训练好的二维度稀疏化DBN深度学习训练模型。
第七步,将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中,进行快速学习并得到每条测试数据的入侵类别。
通过从输入数据稀疏化和隐层单元稀疏化两个维度同时对RBM算法进行改进,更大规模并且更全面的更新RBM模型参数,使得RBM学习到更有效的特征,有效降低了特征值同化的现象,提高分类质量。将其应用到入侵检测系统更能准确地识别出入侵类别。
相对于现有技术,本发明具有如下优点和有益效果:
该二维度稀疏化算法充分考虑到算法的性能受到数据集稀疏性的影响并且克服RBM在训练过程中由于学习到的特征过于相似的缺点,考虑到先进行第一维度稀疏化处理即对输入数据集进行稀疏化处理,再在每一层RBM算法加入分组稀疏化惩罚项来进行第二维度稀疏化。经过对RBM算法稀疏化优化能够有效降低特征质同化的影响,学习到更有效的特征。这既能考虑到了数据集稀疏性的影响,又能够实现对RBM内部结构单元的稀疏化。降低了数据间的相关性从而抑制模型的过拟合现象,提高系统的鲁棒性,为提高入侵检测准确率提供一种有效途径。用优化后的算法来训练RBM并构成DBN模型,将训练好的DBN模型用于入侵检测,具有更高的准确率和更低的误检率,且能够提高检测的效率。
附图说明
图1为二维度稀疏化训练第一层RBM的流程图。
图2为堆叠稀疏化RBM训练整个DBN的流程图。
具体实现方式
附图仅用于示例性说明,不能理解为对本专利的限制,为了更好说明本实施例,附图某些分会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域的技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实例对本发明的技术方案做进一步说明。
第一步,将预处理后的NSL-KDD数据集分为训练数据集和测试数据集,将训练数据集进行第一维度稀疏化,根据定义的稀疏系数对输入数据集进行判定,若为稠密数据集则将其数值反转为稀疏数据集,否则保留原训练数据集不变,将经过第一维度稀疏化后数据集称为稀疏化数据集;
将训练数据集的稀疏系数定义为s:
其中,表示第n个训练样本的第m维数值,NSL-KDD数据集经过符号特征数值化和归一化的预处理操作后分出训练数据集,其中训练样本数据值N表示训练样本的数目,V表示训练样本的维度。定义一个稀疏性阈值对于归一化到[0,1]之间的数据通常选取当时将训练数据集定义为稠密数据集,并可通过数值反转实现训练数据集的稀疏化;当时定义为稀疏数据集,并保持不变。定义训练样本数据值xi的第一维度稀疏化表达zi为:
其中是预设的稀疏度阈值;
令常数则
此时记为稀疏化数据集中的一个样本数据,其中V为样本的维度,也即是第一层RBM可视层的节点个数,用初始化第一层RBM的可视层
第二步,将稀疏化数据集里的第一个样本作为DBN第一层RBM可视层的输入特征变量,进行RBM训练后根据该层RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
根据经过第一维度稀疏化后的样本数据,RBM的能量函数变为:
其中为需要训练模型参数,V是可视层单元个数,H是隐层单元个数,W是RBM的权值矩阵,是RBM可视层偏置,为RBM隐层偏置。
采用sigmoid函数作为激活函数,在给定可视层节点状态的情况下,第j个隐层节点的激活的概率为:
同样地,第j个可视层节点的激活概率为:
将式(3)带入式(4)得到经过第一维度稀疏化后RBM的能量函数变为:
第一次训练用正态分布初始化权值矩阵,可视层和隐层的偏置均初始化为0,本方法训练RBM时采用基于对比散度的快速学习算法(CD算法),当初始化RBM可视层的节点后仅需要K(一般K=1)步吉布斯采样就可以很好地重构可视层数据。即首先由原始可视单元映射到隐层单元其次由隐层单元重构为新的可视单元再次由新的可视单元映射为新的隐层单元为调节隐层单元的稀疏性,利用此时RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
第二维度稀疏化方法为:RBM连接权值的列向量对应于隐层单元,而隐层单元状态即是学习到的特征,进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度,根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组,分组步骤为:
1)任意选取连接权值的一列j,如果对应的隐层单元没有参与分组,则计算j列与连接权值矩阵其他i列的相似度,记为Sj-i;
2)比较分组参数β与Sj-i的大小,如果Sj-i≥β则在连接权值矩阵中的i列和j列就合并为一组,否则不合并;
3)重复上述两个过程,直到连接权值矩阵中的所有列向量分组完毕。
相似度Sj-i用欧式距离来定义:
其中m表示可视层单元个数,即权值矩阵的行数,n表示隐层单元个数,即权值矩阵的列数,W.j、W.i分别表示权值矩阵中的第j列和第i列,ωkj表示第j列的第k个元素,ωk表示第列的第k个元素。
分组参数定义为权值矩阵的列平均相关系数即:
对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度,是组内隐单元的学习过程不再条件独立,保证组内隐单元的相关性,迫使隐单元从训练数据中学习到不同的特征。引入分组稀疏惩罚项为:
其中T为隐层单元分组的个数,Gt为第t个隐层单元组的单元个数,为对可视层单元状态的第t个隐层单元组激活概率的二范数,而则为T个隐层单元组激活概率的一范数。
第三步,在该层RBM的隐层,利用带惩罚项的似然函数作为RBM的训练目标函数,先用CD快速学习方法计算极大似然假设梯度,再对分组稀疏惩罚项进行梯度下降直到参数收敛,并更新该层RBM模型参数θ;
更新为:
ωij=ωij+Δ1ωij+Δ2ωij (11)
ai=ai+Δ1ai+Δ2ai (12)
bj=bj+Δ1bj+Δ2bj (13)
其中:
以上为为根据CD算法得到的更新参数,其中μ为学习率。接下来用经过CD快速训练得到的隐层单元状态进行第二维度稀疏化,并利用分组稀疏惩罚项进行梯度下降直到收敛来再一次更新模型参数,如下:
Δ2ai=0 (18)
其中,表示的是第一次输入RBM可视层单元状态,是经过CD快速学习算法重构后的可视层单元的状态。
综上,每一个样本经过二维度稀疏化RBM后参数更新为:
其中λ为分组稀疏惩罚系数;以上是用来初始化第一层RBM的可视层的稀疏化数据集中的样本。
第四步,再按顺序依次输入稀疏化数据集中的其他样本,按照第二步、第三步的步骤训练RBM,直到训练完所有的样本,并且达到最大训练周期,此时第一层RBM训练结束。当充分训练完第一层RBM后需要将隐层偏置更新为:其中是第一维度稀疏化数据集后的常数项;设置每一层RBM都有相同最大训练周期,可设为30,并且每一层RBM都有相同的学习率μ=0.05,整个过程如图1所示。
第五步,充分训练第一层RBM后,固定第一层RBM的权重和偏移量,然后将其隐层节点的状态作为第二层RBM可视层的节点向量,训练该层RBM,训练完成后根据该层RBM连接权值的列对隐层单元进行相似度分组,再根据第三步的方法更新该层RBM模型参数,直到充分训练第二层RBM后将其堆叠在第一层RBM的上方。
更新除第一层RBM以外的模型参数为:
同样的,μ表示学习率,λ为分组稀疏惩罚系数;此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量,所以与更新第一层RBM相比,差别在于只需进行第二维度稀疏化,并将RBM可视层单元状态重新用来表示。
第六步,固定第二层RBM的权重和偏移量,采用与第五步相同的方式训练第三层RBM,并堆叠在第二层的上方,采用同样的方式对其它层RBM进行处理,直至训练到第L-1层RBM;初始化第L层RBM的模型参数,用数据的标签值作为输出层,利用softmax多分类器对学习到的特征多分类,使用BP算法对模型参数进行微调,最终形成一个训练好的二维度稀疏化DBN深度学习训练模型。
用BP算法对模型参数进行微调时可令训练周期为300,并且微调算法的学习率设为0.05。以上整个过程如图2所示。
第七步,将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中,进行快速学习并得到每条测试数据的入侵类别。
本发明提出了一种基于二维度稀疏化的深度信念网络入侵检测方法,通过从输入数据稀疏化和隐层单元稀疏化两个维度同时对RBM算法进行改进,更大规模并且更全面的更新RBM参数模型,使得RBM学习到更有效的特征,有效克服了特征同质化的现象,提高分类质量,将其应用到入侵检测系统更能准确地识别出入侵类别。显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于二维度稀疏化的深度信念网络入侵检测方法,其特征在于,主要包括以下几个步骤:
步骤一,对训练数据集进行第一维度稀疏化,根据定义的稀疏系数对输入数据集进行判定,若为稠密数据集则将其数值反转为稀疏数据集,否则保留原训练数据集不变,将经过第一维度稀疏化后的数据集称为稀疏化数据集;
步骤二,将稀疏化数据集里的第一个样本作为DBN第一层RBM可视层的输入特征变量,进行RBM训练后根据该层RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化;
步骤三,在该层RBM的隐层,利用带惩罚项的似然函数作为RBM的训练目标函数,先用CD快速学习方法计算极大似然假设梯度,再对分组稀疏惩罚项进行梯度下降直到参数收敛,并更新该层RBM模型参数θ;
步骤四,再按顺序依次输入稀疏化数据集中的其他样本,按照第二步、第三步的步骤训练RBM,直到训练完所有的样本,并且达到最大训练周期,此时第一层RBM训练结束;
步骤五,充分训练第一层RBM后,固定第一层RBM的权重和偏移量,然后将其隐层节点的状态作为第二层RBM可视层的节点向量,训练该层RBM,训练完成后根据该层RBM连接权值的列对隐层单元进行相似度分组,再根据步骤三的方法更新该层RBM模型参数,直到充分训练第二层RBM后将其堆叠在第一层RBM的上方;
步骤六,固定第二层RBM的权重和偏移量,采用与第五步相同的方式训练第三层RBM,并堆叠在第二层的上方,采用同样的方式对其它层RBM进行处理,直至训练到第L-1层RBM;初始化第L层RBM的模型参数,用数据的标签值作为输出层,利用softmax多分类器对学习到的特征多分类,使用BP算法对模型参数进行微调,最终形成一个训练好的二维度稀疏化DBN深度学习训练模型;
步骤七,将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中,进行快速学习并得到每条测试数据的入侵类别。
2.根据权利要求1所述方法,其特征在于,步骤一的第一维度稀疏化过程为:将训练数据集的稀疏系数定义为s:
<mrow>
<mi>s</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>N</mi>
<mo>&CenterDot;</mo>
<mi>V</mi>
</mrow>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>V</mi>
</munderover>
<msubsup>
<mi>x</mi>
<mi>m</mi>
<mi>n</mi>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,表示第n个训练样本的第m维数值,定义训练样本数据值xi的第一维度稀疏化表达zi为:
<mrow>
<msub>
<mi>Z</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mo>&GreaterEqual;</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mo><</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中为预设的稀疏性阈值;
令常数则
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>z</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>-</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mo>-</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>-</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mo>(</mo>
<mrow>
<mi>s</mi>
<mo>-</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>-</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<mi>C</mi>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
此时记为稀疏化数据集中的一个样本数据,其中V为样本的维度,也即第一层RBM可视层的节点个数,用初始化第一层RBM的可视层
3.根据权利要求1所述方法,其特征在于,步骤二的相似度分组及第二维度稀疏化方法为:RBM连接权值的列向量对应于隐层单元,而隐层单元状态是学习到的特征,进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度,根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组,分组步骤为:
1)任意选取连接权值的一列j,如果对应的隐层单元没有参与分组,则计算j列与连接权值矩阵其他i列的相似度,记为Sj-i;
2)比较分组参数β与Sj-i的大小,如果Sj-i≥β则连接权值矩阵中的i列和j列就合并为一组,否则不合并;
3)重复上述两个过程,直到连接权值矩阵中的所有列向量分组完毕;
对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度,使组内隐单元的学习过程不再条件独立,保证组内隐单元的相关性,迫使隐单元从训练数据中学习到不同的特征;引入分组稀疏惩罚项为:
<mrow>
<msub>
<mi>P</mi>
<mrow>
<msub>
<mi>L</mi>
<mn>1</mn>
</msub>
<mo>&CenterDot;</mo>
<msub>
<mi>L</mi>
<mn>2</mn>
</msub>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<msup>
<mrow>
<mo>{</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>G</mi>
<mi>t</mi>
</msub>
</munderover>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>}</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中T为隐层单元分组的个数,Gt为第t个隐层单元组的单元个数,为对可视层单元状态的第t个隐层单元组激活概率的二范数,而则为T个隐层单元组激活概率的一范数。
4.根据权利要求3所述方法,其特征在于,相似度及分组参数定义为:
余弦相似度Sj-i:
<mrow>
<msub>
<mi>S</mi>
<mrow>
<mi>j</mi>
<mo>-</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>=</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>W</mi>
<mrow>
<mo>.</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>W</mi>
<mrow>
<mo>.</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mi>cos</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>k</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
<mrow>
<msqrt>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msup>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>k</mi>
<mi>j</mi>
</mrow>
</msub>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<msqrt>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msup>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mrow>
</mfrac>
<mo>,</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中m表示可视层单元个数,即权值矩阵的行数,n表示隐层单元个数,即权值矩阵的列数,W.j、W.i分别表示权值矩阵中的第j列和第i列,ωkj表示第j列的第k个元素,ωik表示第i列的第k个元素;
分组参数定义为权值矩阵的列平均相关系数,n为权值矩阵列向量数,有下式:
<mrow>
<mi>&beta;</mi>
<mo>=</mo>
<mfrac>
<mn>2</mn>
<mrow>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>S</mi>
<mrow>
<mi>j</mi>
<mo>-</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
5.根据权利要求1所述方法,其特征在于,所述步骤三的RBM模型参数更新为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>+</mo>
<mi>&mu;</mi>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
<mo>-</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<msup>
<msub>
<mi>z</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>-</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<msup>
<msub>
<mi>z</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<mi>&lambda;</mi>
<mfrac>
<mn>1</mn>
<msup>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>G</mi>
<mi>t</mi>
</msub>
</munderover>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>n</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
</mfrac>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>0</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<mi>&mu;</mi>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mover>
<mi>s</mi>
<mo>&OverBar;</mo>
</mover>
<mo>-</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>b</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<msub>
<mi>b</mi>
<mi>j</mi>
</msub>
<mo>+</mo>
<mi>&mu;</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>-</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>&lambda;</mi>
<mfrac>
<mn>1</mn>
<msup>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>G</mi>
<mi>t</mi>
</msub>
</munderover>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>n</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
</mrow>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
</mfrac>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>0</mn>
<mo>|</mo>
<msup>
<mover>
<mi>z</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中λ为分组稀疏惩罚系数,μ为学习率;以上是用来初始化第一层RBM的可视层的稀疏化数据集中的样本,zi (0)表示初始化时第一层RBM可视层单元状态,zi (1)为经过CD快速学习算法后重构的可视层单元状态。
6.根据权利要求1所述方法,其特征在于,步骤四中当充分训练完第一层RBM后需要将隐层偏置更新为:其中是对数据集进行第一维度稀疏化后得到的常数项。
7.根据权利要求1所述方法,其特征在于,步骤五中更新除第一层RBM以外的模型参数为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>+</mo>
<mi>&mu;</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<msup>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>-</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<msup>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<mi>&lambda;</mi>
<mfrac>
<mn>1</mn>
<msup>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>G</mi>
<mi>t</mi>
</msub>
</munderover>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>n</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
</mfrac>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>0</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<mi>&mu;</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>v</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>v</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>b</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<msub>
<mi>b</mi>
<mi>j</mi>
</msub>
<mo>+</mo>
<mi>&mu;</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>-</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>&lambda;</mi>
<mfrac>
<mn>1</mn>
<msup>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>G</mi>
<mi>t</mi>
</msub>
</munderover>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>h</mi>
<mi>n</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
</mfrac>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mn>0</mn>
<mo>|</mo>
<msup>
<mover>
<mi>v</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
同样的,μ表示学习率,λ为分组稀疏惩罚系数;此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量,所以与更新第一层RBM相比,差别在于只需进行第二维度稀疏化,并将RBM可视层单元状态重新用来表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710534587.8A CN107528824B (zh) | 2017-07-03 | 2017-07-03 | 一种基于二维度稀疏化的深度信念网络入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710534587.8A CN107528824B (zh) | 2017-07-03 | 2017-07-03 | 一种基于二维度稀疏化的深度信念网络入侵检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107528824A true CN107528824A (zh) | 2017-12-29 |
CN107528824B CN107528824B (zh) | 2020-08-04 |
Family
ID=60748786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710534587.8A Expired - Fee Related CN107528824B (zh) | 2017-07-03 | 2017-07-03 | 一种基于二维度稀疏化的深度信念网络入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107528824B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805167A (zh) * | 2018-05-04 | 2018-11-13 | 江南大学 | 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法 |
CN108958217A (zh) * | 2018-06-20 | 2018-12-07 | 长春工业大学 | 一种基于深度学习的can总线报文异常检测方法 |
CN109506942A (zh) * | 2018-12-04 | 2019-03-22 | 重庆大学 | 一种大数据分析发动机冷试检测数据与工位相关性的方法 |
CN110061961A (zh) * | 2019-03-05 | 2019-07-26 | 中国科学院信息工程研究所 | 一种基于受限波尔兹曼机的抗追踪网络拓扑智能构建方法和系统 |
CN111083151A (zh) * | 2019-12-23 | 2020-04-28 | 深圳供电局有限公司 | 基于深度信念网络的攻击识别方法及风电管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN104091181A (zh) * | 2014-07-15 | 2014-10-08 | 中国科学院合肥物质科学研究院 | 基于深度受限玻尔兹曼机的害虫图像自动识别方法及系统 |
CN104331706A (zh) * | 2014-10-29 | 2015-02-04 | 西安电子科技大学 | 基于rbm和svm的极化sar图像分类 |
CN106503654A (zh) * | 2016-10-24 | 2017-03-15 | 中国地质大学(武汉) | 一种基于深度稀疏自编码网络的人脸情感识别方法 |
-
2017
- 2017-07-03 CN CN201710534587.8A patent/CN107528824B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN104091181A (zh) * | 2014-07-15 | 2014-10-08 | 中国科学院合肥物质科学研究院 | 基于深度受限玻尔兹曼机的害虫图像自动识别方法及系统 |
CN104331706A (zh) * | 2014-10-29 | 2015-02-04 | 西安电子科技大学 | 基于rbm和svm的极化sar图像分类 |
CN106503654A (zh) * | 2016-10-24 | 2017-03-15 | 中国地质大学(武汉) | 一种基于深度稀疏自编码网络的人脸情感识别方法 |
Non-Patent Citations (2)
Title |
---|
YANYAN MU ET AL: ""Sparse Image Reconstruction by Two Phase RBM Learning:"", 《2015 14TH IAPR INTERNATIONAL CONFERENCE ON MACHINE VISION APPLICATIONS(MVA)》 * |
康丽萍等: ""受限玻尔兹曼机的稀疏化特征学习"", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805167A (zh) * | 2018-05-04 | 2018-11-13 | 江南大学 | 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法 |
CN108805167B (zh) * | 2018-05-04 | 2022-05-13 | 江南大学 | 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法 |
CN108958217A (zh) * | 2018-06-20 | 2018-12-07 | 长春工业大学 | 一种基于深度学习的can总线报文异常检测方法 |
CN109506942A (zh) * | 2018-12-04 | 2019-03-22 | 重庆大学 | 一种大数据分析发动机冷试检测数据与工位相关性的方法 |
CN110061961A (zh) * | 2019-03-05 | 2019-07-26 | 中国科学院信息工程研究所 | 一种基于受限波尔兹曼机的抗追踪网络拓扑智能构建方法和系统 |
CN110061961B (zh) * | 2019-03-05 | 2020-08-25 | 中国科学院信息工程研究所 | 一种基于受限波尔兹曼机的抗追踪网络拓扑智能构建方法和系统 |
CN111083151A (zh) * | 2019-12-23 | 2020-04-28 | 深圳供电局有限公司 | 基于深度信念网络的攻击识别方法及风电管理系统 |
CN111083151B (zh) * | 2019-12-23 | 2021-05-25 | 深圳供电局有限公司 | 基于深度信念网络的攻击识别方法及风电管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107528824B (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107528824B (zh) | 一种基于二维度稀疏化的深度信念网络入侵检测方法 | |
CN109063724B (zh) | 一种增强型生成式对抗网络以及目标样本识别方法 | |
CN113657561B (zh) | 一种基于多任务解耦学习的半监督夜间图像分类方法 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN110197205A (zh) | 一种多特征来源残差网络的图像识别方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN107132516A (zh) | 一种基于深度置信网络的雷达一维距离像目标识别方法 | |
CN105447569A (zh) | 一种基于深度学习的乳腺癌细胞特征分析系统 | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
CN109492075B (zh) | 一种基于循环生成对抗网络的迁移学习排序方法 | |
CN103942749B (zh) | 一种基于修正聚类假设和半监督极速学习机的高光谱地物分类方法 | |
Guo et al. | Wishart RBM based DBN for polarimetric synthetic radar data classification | |
CN107886123A (zh) | 一种基于辅助判决更新学习的合成孔径雷达目标识别方法 | |
CN112200262B (zh) | 支持多任务和跨任务的小样本分类训练方法及装置 | |
CN108596327A (zh) | 一种基于深度学习的地震速度谱人工智能拾取方法 | |
CN113221852B (zh) | 一种目标识别方法及装置 | |
CN106127240A (zh) | 一种基于非线性重构模型的植物图像集的分类识别方法 | |
CN112766283B (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN113901448B (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
CN106886798A (zh) | 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法 | |
CN111144500A (zh) | 基于解析高斯机制的差分隐私深度学习分类方法 | |
CN114387473A (zh) | 一种基于基类样本特征合成的小样本图像分类方法 | |
CN115601583A (zh) | 一种双通道注意力机制的深度卷积网络目标识别方法 | |
CN113179276B (zh) | 基于显式和隐含特征学习的智能入侵检测方法和系统 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200804 |