CN110009013B - 编码器训练及表征信息提取方法和装置 - Google Patents
编码器训练及表征信息提取方法和装置 Download PDFInfo
- Publication number
- CN110009013B CN110009013B CN201910219343.XA CN201910219343A CN110009013B CN 110009013 B CN110009013 B CN 110009013B CN 201910219343 A CN201910219343 A CN 201910219343A CN 110009013 B CN110009013 B CN 110009013B
- Authority
- CN
- China
- Prior art keywords
- loss
- sample data
- image
- data
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 100
- 238000000605 extraction Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 48
- 230000000875 corresponding effect Effects 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 230000002596 correlated effect Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims 2
- 238000012512 characterization method Methods 0.000 abstract description 43
- 230000000694 effects Effects 0.000 abstract description 11
- 230000009466 transformation Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 18
- 238000005070 sampling Methods 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 14
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000736199 Paeonia Species 0.000 description 1
- 235000006484 Paeonia officinalis Nutrition 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 241000220317 Rosa Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请属于数据处理的技术领域,公开了编码器训练及表征信息提取方法和装置,本申请公开的编码器训练及表征信息提取方法包括,分别针对原始样本数据和原始样本数据的至少两个损失数据,分别采用模型参数相同的编码器获得相应的编码特征,并采用相应解码器解码特征,并基于各编码特征、原始样本数据以及各解码特征获得预测损失;若预测损失符合预设的收敛条件,则采用上述模型参数初始化目标编码器,并采用目标编码器获得数据的表征信息。这样,提高了编码器训练的训练效率和效果,提高了提取的表征信息提取的有效性。
Description
技术领域
本申请涉及数据处理的技术领域,尤其涉及编码器训练及表征信息提取方法和装置。
背景技术
机器学习:是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为机器学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
机器学习任务,例如分类问题,通常都要求输入在数学上或者在计算上都非常便于处理。然而,在我们现实世界中的数据例如图片、视频,以及传感器的测量值都非常的复杂,冗余并且多变。那么,如何有效的提取出特征并且将其表达出来就显得非常重要。
由于传统的手动提取特征需要大量的人力并且依赖于非常专业的知识,同时,还不便于推广,因此,表征学习应运而生。所谓表征学习是学习一个特征的技术的集合,即将原始样本数据转换成为能够被机器学习的有效开发的数据的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征。
现有技术下,表征学习时,通常采用融合多种任务同时学习或鉴别性学习等方式训练编码器,以通过训练好的编码器提取数据的表征信息,进而基于训练好的编码器搭建所需要的目标模型,并采用目标模型进行数据处理,如,利用表征信息进一步进行迁移学习等。
由于提取表征信息的编码器是机器学习中数据处理的一个关键环节,因此,如何提高编码器的训练效率和效果是目前需要考虑的问题。
发明内容
本申请实施例提供编码器训练及表征信息提取方法和装置,用以提高编码器的训练效率和效果,以及提取的表征信息的有效性。
一方面,提供一种编码器训练方法,包括:
对原始样本数据进行噪声叠加处理,获得至少两个损失数据;
针对原始样本数据和至少两个损失数据,分别采用模型参数相同的编码器进行编码处理获得相应的编码特征;
采用相应的解码器对获得的编码特征进行解码处理,获得相应的解码特征;
基于各编码特征获得判别损失,并基于原始样本数据以及各解码特征获得重建损失;
根据原始样本数据,获得相应的三元组训练数据;
分别针对原始样本数据的三元组训练数据中的每一训练数据,分别采用具有模型参数的编码器进行特征提取处理,获得相应的特征向量;
确定表征各特征向量之间距离关系的三元组损失;
基于重建损失、判别损失以及三元组损失,获得预测损失,预测损失与重建损失、判别损失以及三元组损失均呈正相关;
若预测损失符合预设的收敛条件,则将模型参数确定为编码器目标参数的参考值,若预测损失不符合预设的收敛条件,则调整模型参数直至预测损失符合预设的收敛条件。
一方面,提供一种表征信息提取方法,包括:
采用上述一种编码器训练方法获得的编码器目标参数的参考值,获得目标编码器的目标模型参数;
根据目标模型参数初始化目标编码器;
采用目标编码器获得数据的表征信息。
一方面,提供一种编码器训练装置,包括:
叠加单元,用于对原始样本数据进行噪声叠加处理,获得至少两个损失数据;
编码单元,用于针对原始样本数据和至少两个损失数据,分别采用模型参数相同的编码器进行编码处理获得相应的编码特征;
解码单元,用于采用相应的解码器对获得的编码特征进行解码处理,获得相应的解码特征;
第一获得单元,用于基于各编码特征获得判别损失,并基于原始样本数据以及各解码特征获得重建损失;
第二获得单元,用于根据原始样本数据,获得相应的三元组训练数据;
提取单元,用于分别针对原始样本数据的三元组训练数据中的每一训练数据,分别采用具有模型参数的编码器进行特征提取处理,获得相应的特征向量;
第一确定单元,用于确定表征各特征向量之间距离关系的三元组损失;
预测单元,用于基于重建损失、判别损失以及三元组损失,获得预测损失,预测损失与重建损失、判别损失以及三元组损失均呈正相关;
第二确定单元,用于若预测损失符合预设的收敛条件,则将模型参数确定为编码器目标参数的参考值,若预测损失不符合预设的收敛条件,则调整模型参数直至预测损失符合预设的收敛条件。
一方面,提供一种表征信息提取装置,包括:
获得单元,用于上述一种编码器训练方法获得的编码器目标参数的参考值,获得目标编码器的目标模型参数;
设置单元,用于根据目标模型参数初始化目标编码器;
提取单元,用于采用目标编码器获得数据的表征信息。
一方面,提供一种控制设备,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用存储器中存储的程序指令,按照获得的程序指令执行上述任一种编码器训练方法或表征信息提取方法的步骤。
一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种编码器训练方法或表征信息提取方法的步骤。
本申请实施例提供的编码器训练及表征信息提取方法和装置中,分别针对原始样本数据和原始样本数据的至少两个损失数据,获得相应的编码特征和解码特征,并基于各编码特征获得判别损失,基于原始样本数据以及各解码特征获得重建损失;分别获得原始样本数据的三元组训练数据中的每一训练数据的特征向量,并确定表征各特征向量之间距离关系的三元组损失;基于重建损失、判别损失以及三元组损失,获得预测损失;若预测损失符合预设的收敛条件,则采用上述模型参数初始化目标编码器,并采用目标编码器获得数据的表征信息。这样,提高了编码器训练的训练效率和效果,不需要对需要提取表征信息的数据进行特殊处理,可以运用多种数据格式和模态,适用范围广,提高了提取的表征信息提取的有效性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施方式中一种编码器训练的原理示意图;
图2为本申请实施方式中一种编码器训练方法的实施流程图;
图3a为本申请实施方式中一种损失数据获取的示意图;
图3b为本申请实施方式中一种噪声叠加示意图;
图3c为本申请实施方式中一种噪声叠加效果示意图;
图3d为本申请实施方式中一种图像随机扭曲处理的示意图;
图3e为本申请实施方式中一种表征学习结果对比示例图;
图4为本申请实施方式中一种表征信息提取方法的实施流程图;
图5a为本申请实施方式中一种编码器训练装置的结构示意图;
图5b为本申请实施方式中一种表征信息提取装置的结构示意图;
图6为本申请实施方式中一种控制设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
首先,对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
机器学习:主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
表征学习:是学习一个特征的技术的集合,即将原始样本数据转换成为能够被机器学习的有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征。
拉普拉斯变换:是工程数学中常用的一种积分变换,又名拉氏变换。拉氏变换是一个线性变换,可将一个有参数实数t(t≥0)的函数转换为一个参数为复数s的函数。
监督学习:是从标记的训练数据来推断一个功能的机器学习任务。监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型一般形式为决策函数Y=f(X)或者条件概率分布P(Y|X)。
无监督学习:在机器学习过程中,不借助任何人为标注的学习形式,对立于”监督学习”。
空间域:又称数据空间(image space),由数据像元组成的空间。在数据空间中以长度(距离)为自变量直接对像元值进行处理称为空间域处理。
高斯金字塔:为在数据处理、计算机视觉、信号处理上所使用的一项技术。高斯金字塔本质上为信号的多尺度表示法,亦即将同一信号或图片多次的进行高斯模糊,并且向下取样,藉以产生不同尺度下的多组信号或图片以进行后续的处理。
拉普拉斯金字塔:用高斯金字塔的每一层数据减去其上一层数据上采样并高斯卷积之后的预测数据,得到一系列的差值数据。由于在高斯金字塔的运算过程中,数据经过卷积和下采样操作会丢失部分高频细节信息,为描述这些高频信息,人们定义了拉普拉斯金字塔。
仿射变换:两个向量空间之间的仿射变换,由一个非奇异的线性变换以及一个平移变换组成。
判别模型:是一种对未观测数据与已观测数据之间关系进行建模的方法。在概率框架内,已知输入变量x,判别模型通过求解条件概率分布P(y|x),预测输出y。
卷积神经网络(Convolutional Neural Network,CNN):是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型数据处理。卷积神经网络包括卷积层和池化层。
生成对抗网络(Generative Adversarial Network,GAN):由一个生成网络与一个判别网络组成。生成网络从潜在空间中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。
下面介绍本申请实施例的设计思想。
随着社会迈入数字化信息时代,现实世界中的数据(如,图片、视频,以及传感器的测量值)也越来越复杂和多变,这给数据管理和分析带来了巨大挑战。例如,机器学习任务通常需要输入的数据在数学上或计算上都非常便于处理,这就需要预先提取出有效的特征并且将其表达出来。
由于传统的手动提取特征需要大量的人力并且依赖于非常专业的知识,同时,还不便于推广,因此,表征学习应运而生。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征。例如,视觉表征学习就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的数据。它可以应用在视觉对象识别,如,Web数据自动标注、海量数据搜索、数据内容过滤、医学远程会诊等多种领域;也可以应用在视觉对象的检测,如,工业机器人和无人驾驶汽车等领域;还可以应用在视觉对象跟踪,如,对视频监控中的可以人物进行识别和跟踪等。
传统方案中,表征学习时,主要采用以下几种方式:
第一种方式为:通过重建原始样本数据,学习压缩的特征。但是,采用这种方式,由于重建数据任务较为简单,学习到的表征效果较弱。
第二种方式为:通过定义不同的相关任务进行表征学习,例如,预测数据块的相对位置关系、预测数据的旋转角度等。但是,采用这种方式,需要很强的先验知识,并且对输入数据的格式和模态有特定的要求。
第三种方式为:通过融合多种任务同时学习,实现表征学习。例如,将相对关系任务、上色任务、模板任务以及运动分割任务融合到一个框架中。但是,由于每个任务都对应各自的目标函数,因此,输入数据均需要特殊的处理以进行多任务学习。
第四种方式为:采用鉴别性学习,实现表征学习。例如,利用孪生网络或三元孪生网络结构来区别不同的样本。但是,采用这种方式,需要大规模的标注,适用范围较小,并且会耗费大量的人力和物力。
申请人对传统技术进行分析后发现,提取表征信息的编码器是数据处理的一个关键环节,而传统技术中并没有提供一种可以直接提取原始数据的有效表征信息的编码器的技术方案,因此,因此,编码器的训练效率和效果是一个需要考虑的问题。
鉴于此,申请人考虑到可以采用拉普拉斯变换以及噪声叠加,获得原始样本数据的多个损坏数据,并可以采用鉴别性推理方法对原始样本数据进行随机扭曲处理,进而获得包含原始数据的三元组训练数据,以及采用原始样本数据、损坏数据以及三元组训练数据对基于卷积神经网络创立的编码器进行训练,从而获得目标编码器,使得可以根据目标编码器提取数据的表征信息。
鉴于以上分析和考虑,本申请实施例中提供了编码器训练及表征信息提取的技术方案,该方案中,对原始样本数据采用拉普拉斯变换以及噪声叠加,获得原始样本数据的多个损坏数据;采用鉴别性推理方法对原始样本数据进行随机扭曲处理,获得正样本数据,并获得包含锚点样本数据即原始样本数据、正样本数据以及负样本数据的三元组训练数据;根据原始样本数据的至少两个损坏数据,分别采用模型参数相同的编码器获得原始样本数据的判别损失和重建损失;分别采用模型参数相同的编码器获得三元组训练数据中各训练数据的特征向量,并确定表征各特征向量之间距离关系的三元组损失;若基于重建损失、判别损失以及三元组损失获得的预测损失符合收敛条件,则根据上述编码参数获得目标编码器,否则,对上述模型参数进行调整,返回上述“对原始样本数据采用拉普拉斯变换以及噪声叠加”的步骤。进一步地,采用目标编码器提取数据的表征信息。这样,提高了编码器训练的训练效率和效果,不需要对需要提取表征信息的数据进行特殊处理,可以运用多种数据格式和模态,适用范围广,提高了提取的表征信息提取的有效性。
本申请实施例中供的编码器训练及表征信息提取的技术方案,可以获得用于精确提取表征信息的目标编码器,进一步地,基于该目标编码器可以搭建应用于图像分类、目标检测、自动驾驶以及机器人等领域的目标模型。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
参阅图1所示,为本申请提供的一种编码器训练的原理示意图。编码器训练的主要原理如下:
S101:通过拉普拉斯蒸馏模块101,获得原始样本数据和各损坏数据的各编码特征和各解码特征,并通过鉴别性推理模块102获得三元组训练数据中各训练数据对应的特征向量。
其中,损坏数据是对原始样本数据进行拉普拉斯变换以及噪声叠加后获得的。三元组训练数据包括:锚点样本数据、正样本数据以及负样本数据。锚点样本数据为原始样本数据。正样本数据为对原始样本数据进行随机扭曲处理获得的数据。负样本数据为与原始样本数据不同的数据。
S102:通过各编码特征,获得判别损失;通过各解码特征以及原始样本数据获得重建损失;根据各特征向量获得三元组损失。
S103:根据判别损失、重建损失以及三元组损失,获得预测损失。
S104:若预测损失符合预设的收敛条件,则基于各编码器的模型参数,获得目标编码器,否则,根据预测损失对拉普拉斯蒸馏模块101和鉴别性推理模块102的模型参数进行调整。可选的,预测损失符合预设的收敛条件,可以为预测损失低于预设门限值。
其中,拉普拉斯蒸馏模块101:用于对原始样本数据进行拉普拉斯变换以及噪声叠加处理,获得至少两个损坏数据;分别针对原始样本数据以及各损坏数据,分别采用模型参数相同的编码器进行编码处理获得相应的编码特征;分别对每一编码特征,采用相应的解码器进行解码处理,获得相应的解码特征。
其中,鉴别性推理模块102:用于对原始样本数据进行随机扭曲处理,获得正样本数据;将正样本数据、负样本数据以及锚点数据组合为三元组训练数据;采用编码器分别对三元组训练数据中的每一训练数据进行编码处理和全连接,获得相应的特征向量。
其中,图1中,以图像“狗”为原始样本数据,以图像猫为负样本数据,并以随机噪声、信息去除噪声以及模糊化噪声作为三种不同的叠加噪声为例进行说明。实际应用中,可以根据实际需求选择原始样本数据、负样本数据,以及噪声类型。例如,噪声类型还可以为真实的随机噪声、多尺度的模糊或信息损失等,在此不做限制。编码器集合103中的各编码器的模型参数共享。
参阅图2所示,为本申请提供的一种编码器训练方法的实施流程图。该方法的具体流程如下:
步骤201:控制设备获取待处理的原始样本数据以及负样本数据。
具体的,执行步骤201时,负样本数据为与原始样本数据不同的数据。可选的,可以在数据集合中选取任意一个与原始样本数据不同的数据。原始样本数据可以为图像,视频以及多帧数据等格式的数据。
例如,原始样本数据为牡丹图像,负样本数据为玫瑰图像。
步骤202:控制设备对原始样本数据进行拉普拉斯变换以及噪声叠加,获得至少两个损坏数据。
具体的,参阅图3a所示,为一种损失数据获取的示意图。
S2021:控制设备对原始样本数据进行高斯变换,获得高斯金字塔。
其中,高斯金字塔为在编码器训练的、计算机视觉、信号处理上所使用的一项技术。高斯金字塔本质上为信号的多尺度表示法,亦即将同一信号或图片多次的进行高斯模糊,并且向下取样,藉以产生不同尺度下的多组信号或图片以进行后续的处理。
S2022:控制设备对高斯金字塔进行拉普拉斯变换,获得拉普拉斯金字塔。
由于在高斯金字塔的运算过程中,数据经过卷积和下采样操作会丢失部分高频细节信息,为描述这些高频信息,人们定义了拉普拉斯金字塔。拉普拉斯金字塔为:用高斯金字塔的每一层数据减去其上一层数据上采样并高斯卷积之后的预测数据,得到一系列的差值数据。拉普拉斯金字塔包含至少两层采样数据。
S2022:控制设备分别针对噪声集合中的每一噪声类型的噪声,执行以下步骤:在拉普拉斯金字塔中随机选取的一层采样数据中叠加一种噪声类型的噪声,并对叠加噪声后的拉普拉斯金字塔进行拉普拉斯反变换,获得相应的损失数据。
可选的,针对叠加的不同的噪声类型,获得损失数据时,还可以采用以下公式:
具体的,基于随机噪声获得损失数据时,可以采用以下公式:
具体的,基于信息去除噪声获得损失数据时,可以采用以下公式:
具体的,基于模糊化噪声获得损失数据时,可以采用以下公式:
可选的,若原始样本数据为图像数据,则可以将原始样本数据调整为设定的长宽,并进行随机裁剪。例如,设定长宽为256x256,随机裁剪后的长宽为227x227。
本申请实施例中,噪声集合的噪声类型以随机噪声、信息去除噪声、模糊化噪声为例进行说明。噪声类型还可以为真实的随机噪声、多尺度的模糊或信息损失等。在此不作限制。
可选的,随机噪声可以选取设定方差(如,25)的高斯随机噪声,对随机噪声进行叠加时,是从拉普拉斯金字塔中随机选取一层采样图像进行叠加。
可选的,信息去除噪声,可以随机去除设定百分比的像素点,对信息去除噪声进行叠加时,是从拉普拉斯金字塔中随机选取一层采样图像进行叠加。
其中,模糊化噪声,是指通过去除高斯金字塔的最底层信息,实现高频信息的移除。
本申请实施例中,将原始样本数据构建成拉普拉斯金字塔,并通过多种噪声类型的噪声,分别在拉普拉斯金字塔中进行噪声叠加,进而将叠加噪声后的拉普拉斯金字塔重建为损失数据。即将空间域的原始样本数据,通过拉普拉斯变换,转换为拉普拉斯域的拉普拉斯金字塔,再反变换为空间域的损失数据。
这样,在拉普拉斯域中进行噪声叠加,而不是在传统方式中的空间域叠加噪声,使得数据的改变带有全局语义信息,而非仅仅局部语义信息。由于仅局部语义信息难以捕捉到非局部的语义概念,因此,本申请实施例中,通过全局语义信息,可以学到更好的表征。
进一步地,本申请实施例中,并行采用多种噪声类型的噪声进行噪声叠加,使得编码器可以学到更难的任务,得到更强的学习能力,进而可以学到更好的表征信息。
参阅图3b所示,为一种噪声叠加示意图,图3b展示了在不同拉普拉斯金字塔层级进行噪声叠加的结果。图3b中所示的各图像依次为:原始样本数据,采用传统方式叠加噪声(即直接在空间域叠加噪声)获得的传统数据、叠加噪声的层级(Laplacian PyramidScale,LPS)为4的损失数据、LPS为6的损失数据,以及LPS=8的损失数据。
由图3b可知,与传统方式中直接在空间域叠加噪声的方式相比,在拉普拉斯变换域叠加噪声的方式获得的损失数据,不仅关注局部信息,更关注全局信息。并且采用不同LPS层级叠加噪声获得的损失数据,在干扰尺度上也体现出不同的范围,能够在后续的步骤中获得更好的用于提取表征信息的编码器。
参阅图3c所示,为一种噪声叠加效果示意图。图3c中所示的各图像依次为:原始样本数据、叠加随机噪声的损失数据、叠加信息去除噪声的损失数据、叠加模糊化噪声的损失数据。图3c可知,叠加不同噪声类型的噪声,产生的噪声效果不同,但各图像都反应了结合局部和全局信息的特征。
步骤203:控制设备根据原始样本数据和负样本数据,获得三元组训练数据。
具体的,三元组训练数据包括:锚点样本数据、正样本数据以及负样本数据。锚点样本数据为原始样本数据。正样本数据为对原始样本数据进行随机扭曲处理获得的。负样本数据为与原始样本数据不同的数据。随机扭曲处理可以采用透视变换、仿射变换以及旋转变换等方式,在此不做限制。
其中,控制设备获得正样本数据时,可以采用以下步骤:
S2031:将原始样本数据进行随机采样,获得随机采样数据。
具体的,将原始样本数据进行归一化,并在指定区域进行随机采样,获得各随机采样数据。
S2032:根据随机采样数据和目标数据,获得仿射变换矩阵。
具体的,仿射变换矩阵满足以下条件:仿射变换矩阵与随机采样数据乘积为目标数据。
若原始样本数据为原始图像,则将原始图像的长宽进行归一化(例如,256x256),并分别在原始图像的指定区域(如,四个角处的100x100)内进行随机采样,获得随机采样坐标点,得到四边形区域。则仿射变换矩阵满足以下公式:
其中,M为仿射变换矩阵,i随机采样坐标点的序号为0,1,2,3……,t为变换系数,随机采样坐标点src(i)=(xi,yi),xi,yi分别为随机采样坐标点的横坐标和纵坐标。目标点的坐标点dst(i)=(xi′,yi′),xi′,yi′分别为目标点的坐标点的横坐标和纵坐标。
S2033:根据仿射变换矩阵,对原始样本数据进行随机扭曲,并将随机扭曲后的原始样本数据进行裁剪和缩放,获得正样本数据。
具体的,由于仿射变换矩阵满足以下条件:仿射变换矩阵与随机采样数据乘积为目标数据,因此,可以将原始样本数据采用仿射变换矩阵,实现原始样本数据的随机扭曲。进而可以对随机扭曲后的原始数据的边缘进行裁剪以及填充,并缩放为原尺寸。
可选的,获得正样本数据时,可以采用以下公式:
xp=Pers(x);
其中,x为原始样本数据,xp为正样本数据,Pers()为随机扭曲处理函数。可选的,随机扭曲处理函数可以采用仿射变换矩阵或透视变换函数等。
例如,参阅图3d所示,为一种图像随机扭曲处理的示意图。图3d所示的各图像依次为:原始样本数据,原始样本数据进行随机采样,对原始样本数据进行透视变换,正样本数据。
如图3d所示,控制设备在原始样本数据中进行随机采样,获得各随机采样坐标点,并根据随机采样坐标点和目标点的坐标点,对原始样本数据进行透视变换,获得正样本数据。
本申请实施例中,将原始样本数据作为锚点数据,并通过对原始样本数据进行变换,获得正样本数据,并选取与原始样本数据不同的样本作为负样本数据。通过锚点数据、正样本数据和负样本数据组合成三元组训练数据。这样,原始样本数据进行随机扭曲处理后,尽管正样本数据与原始样本数据相比,发生了较大的形变和扭曲(如图3d中图像中的狗),但是,正样本数据中保留了原始样本数据中的主要语义信息。
本申请实施例中,仅以先执行步骤202,后执行步骤203为例进行说明,实际应用中,步骤202和步骤203的执行顺序可以先后执行,也可以同时执行,对此不作限制。
步骤204:控制设备获得原始样本数据和各损坏数据的编码特征和解码特征,并获得三元组训练数据中各训练数据的特征向量。
具体的,控制设备通过CNN建立CNN模型,并采用CNN模型获得原始样本数据和各损坏数据的编码特征和解码特征,并获得三元组训练数据中各训练数据的特征向量。CNN模型主要包括编码器和解码器。
其中,获得原始样本数据和各损坏数据的编码特征时,可以采用以下步骤:分别针对每一个损坏数据以及原始样本数据,分别采用模型参数相同的编码器进行编码处理,获得相应的编码特征。
其中,获得原始样本数据和各损坏数据的解码特征时,可以采用以下步骤:分别针对每一编码特征,采用相应的解码器进行解码处理,获得相应的解码特征。
其中,获得三元组训练数据中各训练数据的特征向量时,可以采用以下步骤:
分别针对三元组训练数据中的每一训练数据,分别采用模型参数相同的编码器进行编码处理以及特征全连接处理,获得相应的特征向量。本申请实施例中,各编码器的模型参数是共享的。
其中,CNN模型主体可以采用任何结构,本申请实施例中,以AlexNet结构为例进行说明。编码器采用AlexNet,解码器为三层反卷积(deconv)层,用以将编码器得到的编码特征,解码重建为与原始样本数据同样尺寸的数据结构。编码器还用于提取训练数据的特征向量。
如图1所示,本申请实施例中,由于采用了三种噪声类型的噪声对原始样本数据进行噪声叠加处理,因此,采用三个相同结构的AlexNet对各损失数据分别进行编码处理,并采用三个解码器对获得的各编码特征分别进行解码。其中,各编码器中的模型参数共享,各解码器中的模型参数可以不共享。针对三元组训练数据中的每一训练数据,通过全连接层将编码器输出的特征向量进行全连接,获得全连接后的特征向量。
其中,一组好的表征对应的一组好的模型参数,因此,模型学习到的表征主要体现在编码器的模型参数,通过验证模型参数的性能,可以验证表征的好坏。
步骤205:控制设备根据原始样本数据、各编码特征、各解码特征以及各特征向量,获得预测损失。
具体的,控制设备通过各编码特征,获得判别损失,并通过各解码特征以及原始样本数据获得重建损失,以及根据各特征向量获得三元组损失,并根据判别损失、重建损失以及三元组损失,获得预测损失。
其中,判别损失表示编码器输出的编码特征与原始样本数据的编码特征在特征分布上的相似程度。重建损失用于判断解码器的输出数据与原始样本数据在空间域的相似程度。三元组损失用于表示:三元组训练数据中各训练数据的特征向量之间距离关系的三元组损失。
其中,获得判别损失时,可以采用判别子函数:
LD=Ex[logD(G(x))]+∑c∈CEc[log(1-D(G(Lapc)))];
其中,LD为判别损失,x为原始样本数据,G(x)为原始样本数据的编码特征,G(Lapc)为损失数据的编码特征,D()为判别器网络,E为数据期望,c为噪声集合C中的一种噪声类型。
本申请实施例中,判别子函数参考GAN的思想,将CNN模型当做生成器G,采用4层卷积(conv)层实现,并将编码器的输出作为判别子函数的输入。传统方式中,GAN网络通常将判别器用于图像域,本申请实施例中,将判别器用于特征域,以期望获得特征面的相似性。这样,可以保证编码器得到的编码特征与原始样本数据得到的编码特征在特征分布上保持一致性,即数据分布的相似性。
其中,获得重建损失时,可以采用重建子函数:
Lrec=∑c∈CEx‖x-zc‖2+Ex‖x-zx‖2;
其中,Lrec为重建损失,E为数学期望,x为原始样本数据,zc为噪声类型c对应的损失数据的解码特征,zx为原始样本数据的解码特征,c为噪声集合C中的一种噪声类型。
这样,重建子函数根据各损失数据以及原始样本数据的重建数据即解码特征,对所有重建过程的性能进行综合评判。
其中,获得三元组损失时,可以采用三元损失函数:
Ltrip=|d(Fθ(x),Fθ(xp))-d(Fθ(x),Fθ(y))+δ|+;
其中,Ltrip为三元组损失,x为原始样本数据,y为负样本数据,xp为正样本数据,Fθ为特征向量,|·|+表示取正函数,即当函数值为负值时取0,为非负值时保持不变,d()为距离函数,可选的,可以采用欧式距离,δ表示正样本数据的特征向量与负样本数据的特征向量的最小边界,可选的,δ可以设置为20。
其中,预测损失可以采用以下公式获得:
其中,L为预测损失,Ltrip为三元组损失,Lrec为重建损失,LD为判别损失,G为生成器,用于获得编码特征,D()为判别器网络。
步骤206:控制设备判断预测损失是否符合预设的收敛条件,若是,则执行步骤207,否则,执行步骤208。
步骤207:控制设备将模型参数确定为编码器目标参数的参考值。
步骤208:控制设备根据预测损失对编码器和解码器的模型参数进行调整,执行步骤201。
具体的,执行步骤206-步骤208时,若预测损失符合预设的收敛条件,则控制设备将模型参数确定为编码器目标参数的参考值。若预测损失不符合预设的收敛条件,则控制设备调整模型参数直至预测损失符合预设的收敛条件。
在获得编码器目标参数的参考值之后,就可以根据编码器目标参数的参考值初始化目标编码器,并采用目标编码器获得数据的表征信息。参阅图4所示,为一种表征信息提取方法的实施流程图。该方法的具体流程如下:
步骤401:控制设备编码器目标参数的参考值,获得目标编码器的目标模型参数。
步骤402:控制设备根据编码器目标参数的参考值初始化目标编码器,并采用目标编码器获得数据的表征信息。
进一步地,控制设备可以根据目标编码器搭建所需的目标模型,并采用目标模型进行数据处理。
其中,目标模型主要为需要提取数据的表征信息并根据表征信息进行数据处理的模型,可以应用于图像分类、目标检测、自动驾驶、视觉对象跟踪、Web数据自动标注、海量数据搜索、数据内容过滤、医学远程会诊以及机器人等领域。
例如,目标模型可以为分类模型,目标检测模型以及语义分割模型等。目标任务可以为分类任务,目标检测任务以及语义分割任务。
本申请实施例中,分别从卷积层输出、模型初始化以及迁移学习的角度,对目标编码器提取的表征信息的有效性进行评估。
评估场景一,根据卷积层输出的编码特征进行评估。参阅图3e所示,为一种表征学习结果对比示例图。图3e中的(a)图为:采用传统的全监督表征学习方法对图像进行编码特征提取时,第一层卷积层输出的编码特征。图3e中的(b)图为:采用本申请实施例中的方案获得目标编码器对图像进行编码特征提取时,第一层卷积层输出的编码特征。
显然,图3e中的(b)图与(a)图较为相近,即目标编码器可以获得与传统的全监督表征学习方法相近的编码特征,可以很好的学到更精确的边缘滤波器和色彩滤波器。
表1.
评估场景二,从模型初始化的角度进行评估。参阅表1所示,为模型初始化评估表。表1中包含5种初始化方式,依次为:随机初始化、空间域初始化、拉普拉斯初始化、鉴别性推理初始化,以及本方案目标编码器。即分别通过随机、空间域、拉普拉斯、鉴别性推理以及本方案中的方式训练获得的编码器。
具体的,基于表1中的5种方式获得各编码器,分别将每一编码器(如,AlexNet)的5个卷积层的每一层都接出一个线性分类器,评估其在数据(如,图像网络集合(ImageNet)数据集)的分类性能,即分类准确率。
通过表1可知,在分类性能上,本方案获得的目标编码器明显高于其它各方式获得的编码器。
应用场景三,从迁移学习的角度进行评估,即检测获得的编码器是否能够帮助其他数据以及任务的表征学习。
参阅表2所示,为一种迁移学习评估表。表2中的数值表示任务评分。依次采用如表2所示的5种方式获得各编码器,并分别基于各编码器,获得相应的分类模型、目标检测模型以及语义分割模型,以执行分类、目标检测以及语义分割任务。
表2.
其中,Fc6-8是指在训练分类模型的编码器时,编码器的前5层卷积的模型参数固定不更新,而只对全连接层Fc6-8的模型系数进行更新。相应的,ALL则是指进行编码器训练时,对所有的模型参数均进行更新学习。由表2可知,基于本方案的目标编码器搭建的各模型执行任务的任务评分明显高于其它各方式的任务评分,即本方案明显优于其它方案。
本申请实施例中,一方面,对原始样本数据进行拉普拉斯变换,将空间域的原始样本数据转换为拉普拉斯域的拉普拉斯金字塔,并在拉普拉斯金字塔的随机一层叠加噪声,获得损失数据,实现了底层表征与高层表征的结合,可以学习对边缘特征敏感的特征;
另一方面,通过鉴别性推理方法即对数据进行随机扭曲处理,以及获得三元组训练数据的特征向量之间距离关系的三元组损失,在特征空间增大不同内容的距离同时缩小相似内容的差距,使得编码器还可以获取数据的高层的语义信息。
再者,获得原始样本数据的判别损失和重建损失,三元组训练数据的三元组损失,并基于判别损失、重建损失以及三元组损失获得预测损失,使得本方案同时兼顾了空间域和特征域分布上的相似性,以及正样本数据和负样本数据之间的特征向量相似性,共同约束训练过程,采用多任务学习(如,多种噪声叠加)使得训练获得的表征信息更加鲁棒。
本申请实施例对输入数据没有强约束,可以运用多种数据格式和模态,对输入数据不要求任何特殊处理,适用性更广,可以提取更多底层语义信息,获得更加鲁棒和更具有代表性的模型参数,以用于后续应用。例如,可以不依赖于有标注的大规模数据集进行模型训练,进行目标模型的模型初始化,而是采用本申请实施例中提供的编码器的训练方式,通过训练获得的编码器搭建应用于图像分类、目标检测、自动驾驶、视觉对象跟踪、Web数据自动标注、海量数据搜索、数据内容过滤、医学远程会诊以及机器人等领域的目标模型。
模型初始化。
基于同一发明构思,本申请实施例中还提供了一种编码器训练装置,由于上述装置及设备解决问题的原理与一种编码器训练方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图5a示,其为本申请实施例提供的一种编码器训练装置的结构示意图。一种编码器训练装置包括:
叠加单元510,用于对原始样本数据进行噪声叠加处理,获得至少两个损失数据;
编码单元511,用于针对原始样本数据和至少两个损失数据,分别采用模型参数相同的编码器进行编码处理获得相应的编码特征;
解码单元512,用于采用相应的解码器对获得的编码特征进行解码处理,获得相应的解码特征;
第一获得单元513,用于基于各编码特征获得判别损失,并基于原始样本数据以及各解码特征获得重建损失;
第二获得单元514,用于根据原始样本数据,获得相应的三元组训练数据;
提取单元515,用于分别针对原始样本数据的三元组训练数据中的每一训练数据,分别采用具有模型参数的编码器进行特征提取处理,获得相应的特征向量;
第一确定单元516,用于确定表征各特征向量之间距离关系的三元组损失;
预测单元517,用于基于重建损失、判别损失以及三元组损失,获得预测损失,预测损失与重建损失、判别损失以及三元组损失均呈正相关;
第二确定单元518,用于若预测损失符合预设的收敛条件,则将模型参数确定为编码器目标参数的参考值,若预测损失不符合预设的收敛条件,则调整模型参数直至预测损失符合预设的收敛条件。
较佳的,两个损坏数据是原始样本数据进行拉普拉斯变换并叠加噪声后获得的;
三元组训练数据包括:锚点样本数据、正样本数据以及负样本数据,锚点样本数据为原始样本数据,正样本数据为对原始样本数据进行随机扭曲处理获得的,负样本数据为与原始样本数据不同的数据。
较佳的,第一确定单元516用于:
确定锚点样本数据的特征向量与正样本数据的特征向量之间的第一距离;
确定锚点样本数据的特征向量与负样本数据的特征向量之间的第二距离;
基于第一距离以及第二距离之间的差值,确定三元组损失。
较佳的,第一获得单元513用于:
采用预设的判别函数,分别获得原始样本数据的编码特征的原始判别值,以及每一损失函数的编码特征的损失判别值;
基于原始判别值,以及各损失判别值,确定判别损失;
其中,判别损失表示编码器输出的编码特征与原始样本数据的编码特征在特征分布上的相似程度,判别损失与原始判别值呈正相关,并与损失判别值均呈负相关。
较佳的,第一获得单元513用于:
分别确定每一解码特征与原始样本数据之间的解码差值;
基于各解码差值,获得重建损失;
其中,重建损失用于判断解码器的输出数据与原始样本数据在空间域的相似程度。
基于同一发明构思,本申请实施例中还提供了一种表征信息提取装置,由于上述装置及设备解决问题的原理与一种表征信息提取方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图5b示,其为本申请实施例提供的一种表征信息提取装置的结构示意图。一种表征信息提取装置包括:
获得单元521,用于上述一种编码器训练方法获得的编码器目标参数的参考值,获得目标编码器的目标模型参数;
设置单元522,用于根据目标模型参数初始化目标编码器;
提取单元523,用于采用目标编码器获得数据的表征信息。
本申请实施例提供的编码器训练及表征信息提取方法和装置中,分别针对原始样本数据和原始样本数据的至少两个损失数据,获得相应的编码特征和解码特征,并基于各编码特征获得判别损失,基于原始样本数据以及各解码特征获得重建损失;分别获得原始样本数据的三元组训练数据中的每一训练数据的特征向量,并确定表征各特征向量之间距离关系的三元组损失;基于重建损失、判别损失以及三元组损失,获得预测损失;若预测损失符合预设的收敛条件,则采用上述模型参数初始化目标编码器,并采用目标编码器获得数据的表征信息。这样,提高了编码器训练的训练效率和效果,不需要对需要提取表征信息的数据进行特殊处理,可以运用多种数据格式和模态,适用范围广,提高了提取的表征信息提取的有效性。
参阅图6所示,为一种控制设备的结构示意图。基于同一技术构思,本申请实施例还提供了一种控制设备,可以包括存储器601和处理器602。
所述存储器601,用于存储处理器602执行的计算机程序。存储器601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。处理器602,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等。本申请实施例中不限定上述存储器601和处理器602之间的具体连接介质。本申请实施例在图6中以存储器601和处理器602之间通过总线603连接,总线603在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器601可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器601也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器601可以是上述存储器的组合。
处理器602,用于调用所述存储器601中存储的计算机程序时执行如图2中所示的实施例提供的编码器训练方法和如图4所示的实施例提供的表征信息提取方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意方法实施例中的编码器训练方法和表征信息提取方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台控制设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种用于图像处理的编码器训练方法,其特征在于,包括:
对图像样本数据进行噪声叠加处理,获得至少两个图像损失数据,其中,所述两个图像损失数据是所述图像样本数据进行拉普拉斯变换并叠加噪声后获得的;
针对所述图像样本数据和所述至少两个图像损失数据,分别采用模型参数相同的编码器进行编码处理获得相应的图像编码特征;
采用相应的解码器对获得的图像编码特征进行解码处理,获得相应的图像解码特征;
基于各图像编码特征获得判别损失,并基于所述图像样本数据以及各图像解码特征获得重建损失;
根据所述图像样本数据,获得相应的三元组图像训练数据;
分别针对所述图像样本数据的三元组图像训练数据中的每一训练数据,分别采用具有所述模型参数的编码器进行特征提取处理,获得相应的特征向量;
确定表征各特征向量之间距离关系的三元组损失;
基于所述重建损失、所述判别损失以及所述三元组损失,获得预测损失,所述预测损失与所述重建损失、所述判别损失以及所述三元组损失均呈正相关;
若所述预测损失符合预设的收敛条件,则将所述模型参数确定为编码器目标参数的参考值,若所述预测损失不符合预设的收敛条件,则调整所述模型参数直至所述预测损失符合预设的收敛条件。
2.如权利要求1所述的方法,其特征在于,所述三元组图像训练数据包括:锚点样本数据、正样本数据以及负样本数据,所述锚点样本数据为所述图像样本数据,所述正样本数据为对所述图像样本数据进行随机扭曲处理获得的,所述负样本数据为与所述图像样本数据不同的数据。
3.如权利要求2所述的方法,其特征在于,确定表征各特征向量之间距离关系的三元组损失,包括:
确定所述锚点样本数据的特征向量与所述正样本数据的特征向量之间的第一距离;
确定所述锚点样本数据的特征向量与所述负样本数据的特征向量之间的第二距离;
基于所述第一距离以及所述第二距离之间的差值,确定三元组损失。
4.如权利要求1、2或3所述的方法,其特征在于,基于各图像编码特征获得判别损失,包括:
采用预设的判别函数,分别获得所述图像样本数据的图像编码特征的原始判别值,以及每一损失函数的图像编码特征的损失判别值;
基于所述原始判别值,以及各损失判别值,确定判别损失;
其中,所述判别损失表示编码器输出的图像编码特征与图像样本数据的图像编码特征在特征分布上的相似程度,所述判别损失与所述原始判别值呈正相关,并与所述损失判别值均呈负相关。
5.如权利要求1、2或3所述的方法,其特征在于,基于所述图像样本数据以及各图像解码特征获得重建损失,包括:
分别确定每一图像解码特征与所述图像样本数据之间的解码差值;
基于各解码差值,获得重建损失;
其中,所述重建损失用于判断解码器的输出数据与图像样本数据在空间域的相似程度。
6.一种图像表征信息提取方法,其特征在于,包括:
采用如权利要求1~5任一项所述的方法获得的编码器目标参数的参考值,获得目标编码器的目标模型参数;
根据所述目标模型参数初始化所述目标编码器;
采用所述目标编码器获得图像数据的图像表征信息。
7.一种用于图像处理的编码器的训练装置,其特征在于,包括:
叠加单元,用于对图像样本数据进行噪声叠加处理,获得至少两个图像损失数据,其中所述两个图像损失数据是所述图像样本数据进行拉普拉斯变换并叠加噪声后获得的;
编码单元,用于针对所述图像样本数据和所述至少两个图像损失数据,分别采用模型参数相同的编码器进行编码处理获得相应的图像编码特征;
解码单元,用于采用相应的解码器对获得的图像编码特征进行解码处理,获得相应的图像解码特征;
第一获得单元,用于基于各图像编码特征获得判别损失,并基于所述图像样本数据以及各图像解码特征获得重建损失;
第二获得单元,用于根据所述图像样本数据,获得相应的三元组图像训练数据;
提取单元,用于分别针对所述图像样本数据的三元组图像训练数据中的每一训练数据,分别采用具有所述模型参数的编码器进行特征提取处理,获得相应的特征向量;
第一确定单元,用于确定表征各特征向量之间距离关系的三元组损失;
预测单元,用于基于所述重建损失、所述判别损失以及所述三元组损失,获得预测损失,所述预测损失与所述重建损失、所述判别损失以及所述三元组损失均呈正相关;
第二确定单元,用于若所述预测损失符合预设的收敛条件,则将所述模型参数确定为编码器目标参数的参考值,若所述预测损失不符合预设的收敛条件,则调整所述模型参数直至所述预测损失符合预设的收敛条件。
8.如权利要求7所述的装置,其特征在于,所述三元组图像训练数据包括:锚点样本数据、正样本数据以及负样本数据,所述锚点样本数据为所述图像样本数据,所述正样本数据为对所述图像样本数据进行随机扭曲处理获得的,所述负样本数据为与所述图像样本数据不同的数据。
9.如权利要求8所述的装置,其特征在于,所述第一确定单元用于:
确定所述锚点样本数据的特征向量与所述正样本数据的特征向量之间的第一距离;
确定所述锚点样本数据的特征向量与所述负样本数据的特征向量之间的第二距离;
基于所述第一距离以及所述第二距离之间的差值,确定三元组损失。
10.如权利要求7、8或9所述的装置,其特征在于,所述第一获得单元用于:
采用预设的判别函数,分别获得所述图像样本数据的图像编码特征的原始判别值,以及每一损失函数的图像编码特征的损失判别值;
基于所述原始判别值,以及各损失判别值,确定判别损失;
其中,所述判别损失表示编码器输出的图像编码特征与图像样本数据的图像编码特征在特征分布上的相似程度,所述判别损失与所述原始判别值呈正相关,并与所述损失判别值均呈负相关。
11.如权利要求7、8或9所述的装置,其特征在于,所述第一获得单元用于:
分别确定每一图像解码特征与所述图像样本数据之间的解码差值;
基于各解码差值,获得重建损失;
其中,所述重建损失用于判断解码器的输出数据与图像样本数据在空间域的相似程度。
12.一种图像表征信息提取装置,其特征在于,包括:
获得单元,用于采用如权利要求1~5任一项所述的方法获得的编码器目标参数的参考值,获得目标编码器的目标模型参数;
设置单元,用于根据所述目标模型参数初始化所述目标编码器;
提取单元,用于采用所述目标编码器获得图像数据的图像表征信息。
13.一种控制设备,其特征在于,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述权利要求1-5或6任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5或6任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910219343.XA CN110009013B (zh) | 2019-03-21 | 2019-03-21 | 编码器训练及表征信息提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910219343.XA CN110009013B (zh) | 2019-03-21 | 2019-03-21 | 编码器训练及表征信息提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110009013A CN110009013A (zh) | 2019-07-12 |
CN110009013B true CN110009013B (zh) | 2021-04-27 |
Family
ID=67167770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910219343.XA Active CN110009013B (zh) | 2019-03-21 | 2019-03-21 | 编码器训练及表征信息提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110009013B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442804A (zh) * | 2019-08-13 | 2019-11-12 | 北京市商汤科技开发有限公司 | 一种对象推荐网络的训练方法、装置、设备及存储介质 |
CN110910982A (zh) * | 2019-11-04 | 2020-03-24 | 广州金域医学检验中心有限公司 | 自编码模型训练方法、装置、设备及存储介质 |
CN110889338A (zh) * | 2019-11-08 | 2020-03-17 | 中国铁道科学研究院集团有限公司基础设施检测研究所 | 无监督式的铁路道床异物检测、样本构造方法及装置 |
CN111046655B (zh) * | 2019-11-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN113159288B (zh) * | 2019-12-09 | 2022-06-28 | 支付宝(杭州)信息技术有限公司 | 防止隐私数据泄漏的编码模型训练方法及装置 |
CN113033582B (zh) * | 2019-12-09 | 2023-09-26 | 杭州海康威视数字技术股份有限公司 | 模型训练方法、特征提取方法及装置 |
CN111400754B (zh) * | 2020-03-11 | 2021-10-01 | 支付宝(杭州)信息技术有限公司 | 保护用户隐私的用户分类系统的构建方法及装置 |
CN111291190B (zh) * | 2020-03-23 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
CN111489803B (zh) * | 2020-03-31 | 2023-07-21 | 重庆金域医学检验所有限公司 | 基于自回归模型的报告单编码模型生成方法、系统和设备 |
CN111768457B (zh) * | 2020-05-14 | 2022-10-04 | 北京航空航天大学 | 图像数据压缩方法、装置、电子设备和存储介质 |
CN111639684B (zh) * | 2020-05-15 | 2024-03-01 | 北京三快在线科技有限公司 | 一种数据处理模型的训练方法及装置 |
CN111723812B (zh) * | 2020-06-05 | 2023-07-07 | 南强智视(厦门)科技有限公司 | 一种基于序列知识蒸馏的实时语义分割方法 |
CN111680787B (zh) * | 2020-06-12 | 2022-12-09 | 中国人民解放军战略支援部队信息工程大学 | 一种侧信道曲线的处理方法、装置及电子设备 |
CN111710346B (zh) * | 2020-06-18 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备以及存储介质 |
CN111738351B (zh) * | 2020-06-30 | 2023-12-19 | 创新奇智(重庆)科技有限公司 | 模型训练方法、装置、存储介质及电子设备 |
CN112288699B (zh) * | 2020-10-23 | 2024-02-09 | 北京百度网讯科技有限公司 | 图像相对清晰度的评估方法、装置、设备和介质 |
CN112565763A (zh) * | 2020-11-30 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 异常图像样本生成方法及装置、图像检测方法及装置 |
CN112541944B (zh) * | 2020-12-10 | 2022-07-12 | 山东师范大学 | 基于条件变分编码器的概率孪生目标跟踪方法及系统 |
CN114625871B (zh) * | 2020-12-14 | 2023-06-23 | 四川大学 | 一种基于注意力位置联合编码的三元组分类方法 |
CN113268631B (zh) * | 2021-04-21 | 2024-04-19 | 北京点众快看科技有限公司 | 一种基于大数据的视频筛选方法和装置 |
CN113240021B (zh) * | 2021-05-19 | 2021-12-10 | 推想医疗科技股份有限公司 | 一种筛选目标样本的方法、装置、设备及存储介质 |
CN113836866B (zh) * | 2021-06-04 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 文本编码方法、装置、计算机可读介质及电子设备 |
CN113378921B (zh) * | 2021-06-09 | 2024-11-05 | 北京百度网讯科技有限公司 | 数据筛选方法、装置及电子设备 |
CN113592769B (zh) * | 2021-06-23 | 2024-04-12 | 腾讯医疗健康(深圳)有限公司 | 异常图像的检测、模型的训练方法、装置、设备及介质 |
CN113470758B (zh) * | 2021-07-06 | 2023-10-13 | 北京科技大学 | 基于因果发现和多结构信息编码的化学反应收率预测方法 |
CN114429179B (zh) * | 2022-01-11 | 2024-02-09 | 中国人民解放军国防科技大学 | 一种面向无人平台的能力计算方法及系统 |
CN114418069B (zh) * | 2022-01-19 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、装置及存储介质 |
CN114490950B (zh) * | 2022-04-07 | 2022-07-12 | 联通(广东)产业互联网有限公司 | 编码器模型的训练方法及存储介质、相似度预测方法及系统 |
CN114915786B (zh) * | 2022-04-26 | 2023-07-28 | 哈尔滨工业大学(深圳) | 一种面向物联网场景的非对称语义图像压缩方法 |
CN115116451B (zh) * | 2022-06-15 | 2024-11-08 | 腾讯科技(深圳)有限公司 | 音频解码、编码方法、装置、电子设备及存储介质 |
CN118133992B (zh) * | 2024-05-10 | 2024-08-13 | 鹏城实验室 | 模型训练方法、对象识别方法、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437077A (zh) * | 2017-08-04 | 2017-12-05 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的旋转面部表示学习的方法 |
CN107862668A (zh) * | 2017-11-24 | 2018-03-30 | 河海大学 | 一种基于gnn的文物图像复原方法 |
CN109002488A (zh) * | 2018-06-26 | 2018-12-14 | 北京邮电大学 | 一种基于元路径上下文的推荐模型训练方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980641B (zh) * | 2017-02-09 | 2020-01-21 | 上海媒智科技有限公司 | 基于卷积神经网络的无监督哈希快速图片检索系统及方法 |
US10255681B2 (en) * | 2017-03-02 | 2019-04-09 | Adobe Inc. | Image matting using deep learning |
US10574959B2 (en) * | 2017-07-05 | 2020-02-25 | Qualcomm Incorporated | Color remapping for non-4:4:4 format video content |
US11734955B2 (en) * | 2017-09-18 | 2023-08-22 | Board Of Trustees Of Michigan State University | Disentangled representation learning generative adversarial network for pose-invariant face recognition |
CN108537742B (zh) * | 2018-03-09 | 2021-07-09 | 天津大学 | 一种基于生成对抗网络的遥感图像全色锐化方法 |
CN108428221A (zh) * | 2018-03-26 | 2018-08-21 | 广东顺德西安交通大学研究院 | 一种基于shearlet变换的邻域双变量阈值去噪方法 |
CN108226892B (zh) * | 2018-03-27 | 2021-09-28 | 天津大学 | 一种基于深度学习的复杂噪声环境下的雷达信号恢复方法 |
CN108600750A (zh) * | 2018-04-10 | 2018-09-28 | 山东师范大学 | 基于ksvd的多描述编码、解码方法及系统 |
CN108829685A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于单语语料库训练的蒙汉互译方法 |
CN109033938A (zh) * | 2018-06-01 | 2018-12-18 | 上海阅面网络科技有限公司 | 一种基于可区分性特征融合的人脸识别方法 |
CN108875818B (zh) * | 2018-06-06 | 2020-08-18 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN109063731B (zh) * | 2018-06-26 | 2020-11-10 | 北京航天自动控制研究所 | 一种景象适配性准则训练样本集生成方法 |
CN109145129B (zh) * | 2018-09-07 | 2020-03-31 | 深圳码隆科技有限公司 | 基于层次三元组损失函数的深度度量学习方法及其装置 |
-
2019
- 2019-03-21 CN CN201910219343.XA patent/CN110009013B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437077A (zh) * | 2017-08-04 | 2017-12-05 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的旋转面部表示学习的方法 |
CN107862668A (zh) * | 2017-11-24 | 2018-03-30 | 河海大学 | 一种基于gnn的文物图像复原方法 |
CN109002488A (zh) * | 2018-06-26 | 2018-12-14 | 北京邮电大学 | 一种基于元路径上下文的推荐模型训练方法及装置 |
Non-Patent Citations (2)
Title |
---|
"Exploring Aaymmetric Encoder-Decoder Structure for Context-based Sentence Representation Learning";Shuai Tang,at el.;《arXiv》;20180601;全文 * |
"Recent Adcaces in Autoencoder-Based Representation Learning";Michael Tschannen,at el.;《arXiv》;20181212;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110009013A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009013B (zh) | 编码器训练及表征信息提取方法和装置 | |
CN111209952B (zh) | 基于改进ssd和迁移学习的水下目标检测方法 | |
Fu et al. | Removing rain from single images via a deep detail network | |
Zhang et al. | Adaptive residual networks for high-quality image restoration | |
CN109948796B (zh) | 自编码器学习方法、装置、计算机设备及存储介质 | |
CN112132959B (zh) | 数字岩心图像处理方法、装置、计算机设备及存储介质 | |
Shi et al. | Unsharp mask guided filtering | |
Zhang et al. | Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement | |
Zhao et al. | A deep cascade of neural networks for image inpainting, deblurring and denoising | |
CN114170184A (zh) | 一种基于嵌入特征向量的产品图像异常检测方法及装置 | |
CN110490814A (zh) | 基于光滑秩约束的混合噪声去除方法、系统及存储介质 | |
CN111199197A (zh) | 一种人脸识别的图像提取方法及处理设备 | |
Wang et al. | An efficient remote sensing image denoising method in extended discrete shearlet domain | |
Tuba et al. | Image denoising by discrete wavelet transform with edge preservation | |
Kratzwald et al. | Improving video generation for multi-functional applications | |
Zin et al. | Local image denoising using RAISR | |
Yang et al. | Infrared image super-resolution with parallel random Forest | |
Tan et al. | Affine-Transformation-Invariant Image Classification by Differentiable Arithmetic Distribution Module | |
Wyzykowski et al. | A Universal Latent Fingerprint Enhancer Using Transformers | |
Zhang et al. | Se-dcgan: a new method of semantic image restoration | |
Viriyavisuthisakul et al. | Parametric regularization loss in super-resolution reconstruction | |
Yang et al. | Single frame image super resolution via learning multiple anfis mappings | |
Pahwa et al. | LVRNet: Lightweight image restoration for aerial images under low visibility | |
CN108416756B (zh) | 一种基于机器学习的区域感知图像去噪方法 | |
Khan et al. | Perceptual adversarial non-residual learning for blind image denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40008583 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |