CN110009013B

CN110009013B - 编码器训练及表征信息提取方法和装置

Info

Publication number: CN110009013B
Application number: CN201910219343.XA
Authority: CN
Inventors: 焦剑波; 暴林超; 魏云超; 石宏辉; 刘永雄; 刘威; 黄煦涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2021-04-27
Anticipated expiration: 2039-03-21
Also published as: CN110009013A

Abstract

本申请属于数据处理的技术领域，公开了编码器训练及表征信息提取方法和装置，本申请公开的编码器训练及表征信息提取方法包括，分别针对原始样本数据和原始样本数据的至少两个损失数据，分别采用模型参数相同的编码器获得相应的编码特征，并采用相应解码器解码特征，并基于各编码特征、原始样本数据以及各解码特征获得预测损失；若预测损失符合预设的收敛条件，则采用上述模型参数初始化目标编码器，并采用目标编码器获得数据的表征信息。这样，提高了编码器训练的训练效率和效果，提高了提取的表征信息提取的有效性。

Description

编码器训练及表征信息提取方法和装置

技术领域

本申请涉及数据处理的技术领域，尤其涉及编码器训练及表征信息提取方法和装置。

背景技术

机器学习：是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为机器学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

机器学习任务，例如分类问题，通常都要求输入在数学上或者在计算上都非常便于处理。然而，在我们现实世界中的数据例如图片、视频，以及传感器的测量值都非常的复杂，冗余并且多变。那么，如何有效的提取出特征并且将其表达出来就显得非常重要。

由于传统的手动提取特征需要大量的人力并且依赖于非常专业的知识，同时，还不便于推广，因此，表征学习应运而生。所谓表征学习是学习一个特征的技术的集合，即将原始样本数据转换成为能够被机器学习的有效开发的数据的一种形式。它避免了手动提取特征的麻烦，允许计算机学习使用特征的同时，也学习如何提取特征。

现有技术下，表征学习时，通常采用融合多种任务同时学习或鉴别性学习等方式训练编码器，以通过训练好的编码器提取数据的表征信息，进而基于训练好的编码器搭建所需要的目标模型，并采用目标模型进行数据处理，如，利用表征信息进一步进行迁移学习等。

由于提取表征信息的编码器是机器学习中数据处理的一个关键环节，因此，如何提高编码器的训练效率和效果是目前需要考虑的问题。

发明内容

本申请实施例提供编码器训练及表征信息提取方法和装置，用以提高编码器的训练效率和效果，以及提取的表征信息的有效性。

一方面，提供一种编码器训练方法，包括：

对原始样本数据进行噪声叠加处理，获得至少两个损失数据；

针对原始样本数据和至少两个损失数据，分别采用模型参数相同的编码器进行编码处理获得相应的编码特征；

采用相应的解码器对获得的编码特征进行解码处理，获得相应的解码特征；

基于各编码特征获得判别损失，并基于原始样本数据以及各解码特征获得重建损失；

根据原始样本数据，获得相应的三元组训练数据；

分别针对原始样本数据的三元组训练数据中的每一训练数据，分别采用具有模型参数的编码器进行特征提取处理，获得相应的特征向量；

确定表征各特征向量之间距离关系的三元组损失；

基于重建损失、判别损失以及三元组损失，获得预测损失，预测损失与重建损失、判别损失以及三元组损失均呈正相关；

若预测损失符合预设的收敛条件，则将模型参数确定为编码器目标参数的参考值，若预测损失不符合预设的收敛条件，则调整模型参数直至预测损失符合预设的收敛条件。

一方面，提供一种表征信息提取方法，包括：

采用上述一种编码器训练方法获得的编码器目标参数的参考值，获得目标编码器的目标模型参数；

根据目标模型参数初始化目标编码器；

采用目标编码器获得数据的表征信息。

一方面，提供一种编码器训练装置，包括：

叠加单元，用于对原始样本数据进行噪声叠加处理，获得至少两个损失数据；

编码单元，用于针对原始样本数据和至少两个损失数据，分别采用模型参数相同的编码器进行编码处理获得相应的编码特征；

解码单元，用于采用相应的解码器对获得的编码特征进行解码处理，获得相应的解码特征；

第一获得单元，用于基于各编码特征获得判别损失，并基于原始样本数据以及各解码特征获得重建损失；

第二获得单元，用于根据原始样本数据，获得相应的三元组训练数据；

提取单元，用于分别针对原始样本数据的三元组训练数据中的每一训练数据，分别采用具有模型参数的编码器进行特征提取处理，获得相应的特征向量；

第一确定单元，用于确定表征各特征向量之间距离关系的三元组损失；

预测单元，用于基于重建损失、判别损失以及三元组损失，获得预测损失，预测损失与重建损失、判别损失以及三元组损失均呈正相关；

第二确定单元，用于若预测损失符合预设的收敛条件，则将模型参数确定为编码器目标参数的参考值，若预测损失不符合预设的收敛条件，则调整模型参数直至预测损失符合预设的收敛条件。

一方面，提供一种表征信息提取装置，包括：

获得单元，用于上述一种编码器训练方法获得的编码器目标参数的参考值，获得目标编码器的目标模型参数；

设置单元，用于根据目标模型参数初始化目标编码器；

提取单元，用于采用目标编码器获得数据的表征信息。

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述任一种编码器训练方法或表征信息提取方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种编码器训练方法或表征信息提取方法的步骤。

本申请实施例提供的编码器训练及表征信息提取方法和装置中，分别针对原始样本数据和原始样本数据的至少两个损失数据，获得相应的编码特征和解码特征，并基于各编码特征获得判别损失，基于原始样本数据以及各解码特征获得重建损失；分别获得原始样本数据的三元组训练数据中的每一训练数据的特征向量，并确定表征各特征向量之间距离关系的三元组损失；基于重建损失、判别损失以及三元组损失，获得预测损失；若预测损失符合预设的收敛条件，则采用上述模型参数初始化目标编码器，并采用目标编码器获得数据的表征信息。这样，提高了编码器训练的训练效率和效果，不需要对需要提取表征信息的数据进行特殊处理，可以运用多种数据格式和模态，适用范围广，提高了提取的表征信息提取的有效性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施方式中一种编码器训练的原理示意图；

图2为本申请实施方式中一种编码器训练方法的实施流程图；

图3a为本申请实施方式中一种损失数据获取的示意图；

图3b为本申请实施方式中一种噪声叠加示意图；

图3c为本申请实施方式中一种噪声叠加效果示意图；

图3d为本申请实施方式中一种图像随机扭曲处理的示意图；

图3e为本申请实施方式中一种表征学习结果对比示例图；

图4为本申请实施方式中一种表征信息提取方法的实施流程图；

图5a为本申请实施方式中一种编码器训练装置的结构示意图；

图5b为本申请实施方式中一种表征信息提取装置的结构示意图；

图6为本申请实施方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

机器学习：主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

表征学习：是学习一个特征的技术的集合，即将原始样本数据转换成为能够被机器学习的有效开发的一种形式。它避免了手动提取特征的麻烦，允许计算机学习使用特征的同时，也学习如何提取特征。

拉普拉斯变换：是工程数学中常用的一种积分变换，又名拉氏变换。拉氏变换是一个线性变换，可将一个有参数实数t(t≥0)的函数转换为一个参数为复数s的函数。

监督学习：是从标记的训练数据来推断一个功能的机器学习任务。监督学习的任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出。这个模型一般形式为决策函数Y＝f(X)或者条件概率分布P(Y|X)。

无监督学习：在机器学习过程中，不借助任何人为标注的学习形式，对立于”监督学习”。

空间域：又称数据空间(image space)，由数据像元组成的空间。在数据空间中以长度(距离)为自变量直接对像元值进行处理称为空间域处理。

高斯金字塔：为在数据处理、计算机视觉、信号处理上所使用的一项技术。高斯金字塔本质上为信号的多尺度表示法，亦即将同一信号或图片多次的进行高斯模糊，并且向下取样，藉以产生不同尺度下的多组信号或图片以进行后续的处理。

拉普拉斯金字塔：用高斯金字塔的每一层数据减去其上一层数据上采样并高斯卷积之后的预测数据，得到一系列的差值数据。由于在高斯金字塔的运算过程中，数据经过卷积和下采样操作会丢失部分高频细节信息，为描述这些高频信息，人们定义了拉普拉斯金字塔。

仿射变换：两个向量空间之间的仿射变换，由一个非奇异的线性变换以及一个平移变换组成。

判别模型：是一种对未观测数据与已观测数据之间关系进行建模的方法。在概率框架内，已知输入变量x，判别模型通过求解条件概率分布P(y|x)，预测输出y。

卷积神经网络(Convolutional Neural Network，CNN)：是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型数据处理。卷积神经网络包括卷积层和池化层。

生成对抗网络(Generative Adversarial Network，GAN)：由一个生成网络与一个判别网络组成。生成网络从潜在空间中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

下面介绍本申请实施例的设计思想。

随着社会迈入数字化信息时代，现实世界中的数据(如，图片、视频，以及传感器的测量值)也越来越复杂和多变，这给数据管理和分析带来了巨大挑战。例如，机器学习任务通常需要输入的数据在数学上或计算上都非常便于处理，这就需要预先提取出有效的特征并且将其表达出来。

由于传统的手动提取特征需要大量的人力并且依赖于非常专业的知识，同时，还不便于推广，因此，表征学习应运而生。它避免了手动提取特征的麻烦，允许计算机学习使用特征的同时，也学习如何提取特征。例如，视觉表征学习就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的数据。它可以应用在视觉对象识别，如，Web数据自动标注、海量数据搜索、数据内容过滤、医学远程会诊等多种领域；也可以应用在视觉对象的检测，如，工业机器人和无人驾驶汽车等领域；还可以应用在视觉对象跟踪，如，对视频监控中的可以人物进行识别和跟踪等。

传统方案中，表征学习时，主要采用以下几种方式：

第一种方式为：通过重建原始样本数据，学习压缩的特征。但是，采用这种方式，由于重建数据任务较为简单，学习到的表征效果较弱。

第二种方式为：通过定义不同的相关任务进行表征学习，例如，预测数据块的相对位置关系、预测数据的旋转角度等。但是，采用这种方式，需要很强的先验知识，并且对输入数据的格式和模态有特定的要求。

第三种方式为：通过融合多种任务同时学习，实现表征学习。例如，将相对关系任务、上色任务、模板任务以及运动分割任务融合到一个框架中。但是，由于每个任务都对应各自的目标函数，因此，输入数据均需要特殊的处理以进行多任务学习。

第四种方式为：采用鉴别性学习，实现表征学习。例如，利用孪生网络或三元孪生网络结构来区别不同的样本。但是，采用这种方式，需要大规模的标注，适用范围较小，并且会耗费大量的人力和物力。

申请人对传统技术进行分析后发现，提取表征信息的编码器是数据处理的一个关键环节，而传统技术中并没有提供一种可以直接提取原始数据的有效表征信息的编码器的技术方案，因此，因此，编码器的训练效率和效果是一个需要考虑的问题。

鉴于此，申请人考虑到可以采用拉普拉斯变换以及噪声叠加，获得原始样本数据的多个损坏数据，并可以采用鉴别性推理方法对原始样本数据进行随机扭曲处理，进而获得包含原始数据的三元组训练数据，以及采用原始样本数据、损坏数据以及三元组训练数据对基于卷积神经网络创立的编码器进行训练，从而获得目标编码器，使得可以根据目标编码器提取数据的表征信息。

鉴于以上分析和考虑，本申请实施例中提供了编码器训练及表征信息提取的技术方案，该方案中，对原始样本数据采用拉普拉斯变换以及噪声叠加，获得原始样本数据的多个损坏数据；采用鉴别性推理方法对原始样本数据进行随机扭曲处理，获得正样本数据，并获得包含锚点样本数据即原始样本数据、正样本数据以及负样本数据的三元组训练数据；根据原始样本数据的至少两个损坏数据，分别采用模型参数相同的编码器获得原始样本数据的判别损失和重建损失；分别采用模型参数相同的编码器获得三元组训练数据中各训练数据的特征向量，并确定表征各特征向量之间距离关系的三元组损失；若基于重建损失、判别损失以及三元组损失获得的预测损失符合收敛条件，则根据上述编码参数获得目标编码器，否则，对上述模型参数进行调整，返回上述“对原始样本数据采用拉普拉斯变换以及噪声叠加”的步骤。进一步地，采用目标编码器提取数据的表征信息。这样，提高了编码器训练的训练效率和效果，不需要对需要提取表征信息的数据进行特殊处理，可以运用多种数据格式和模态，适用范围广，提高了提取的表征信息提取的有效性。

本申请实施例中供的编码器训练及表征信息提取的技术方案，可以获得用于精确提取表征信息的目标编码器，进一步地，基于该目标编码器可以搭建应用于图像分类、目标检测、自动驾驶以及机器人等领域的目标模型。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

参阅图1所示，为本申请提供的一种编码器训练的原理示意图。编码器训练的主要原理如下：

S101：通过拉普拉斯蒸馏模块101，获得原始样本数据和各损坏数据的各编码特征和各解码特征，并通过鉴别性推理模块102获得三元组训练数据中各训练数据对应的特征向量。

其中，损坏数据是对原始样本数据进行拉普拉斯变换以及噪声叠加后获得的。三元组训练数据包括：锚点样本数据、正样本数据以及负样本数据。锚点样本数据为原始样本数据。正样本数据为对原始样本数据进行随机扭曲处理获得的数据。负样本数据为与原始样本数据不同的数据。

S102：通过各编码特征，获得判别损失；通过各解码特征以及原始样本数据获得重建损失；根据各特征向量获得三元组损失。

S103：根据判别损失、重建损失以及三元组损失，获得预测损失。

S104：若预测损失符合预设的收敛条件，则基于各编码器的模型参数，获得目标编码器，否则，根据预测损失对拉普拉斯蒸馏模块101和鉴别性推理模块102的模型参数进行调整。可选的，预测损失符合预设的收敛条件，可以为预测损失低于预设门限值。

其中，拉普拉斯蒸馏模块101：用于对原始样本数据进行拉普拉斯变换以及噪声叠加处理，获得至少两个损坏数据；分别针对原始样本数据以及各损坏数据，分别采用模型参数相同的编码器进行编码处理获得相应的编码特征；分别对每一编码特征，采用相应的解码器进行解码处理，获得相应的解码特征。

其中，鉴别性推理模块102：用于对原始样本数据进行随机扭曲处理，获得正样本数据；将正样本数据、负样本数据以及锚点数据组合为三元组训练数据；采用编码器分别对三元组训练数据中的每一训练数据进行编码处理和全连接，获得相应的特征向量。

其中，图1中，以图像“狗”为原始样本数据，以图像猫为负样本数据，并以随机噪声、信息去除噪声以及模糊化噪声作为三种不同的叠加噪声为例进行说明。实际应用中，可以根据实际需求选择原始样本数据、负样本数据，以及噪声类型。例如，噪声类型还可以为真实的随机噪声、多尺度的模糊或信息损失等，在此不做限制。编码器集合103中的各编码器的模型参数共享。

参阅图2所示，为本申请提供的一种编码器训练方法的实施流程图。该方法的具体流程如下：

步骤201：控制设备获取待处理的原始样本数据以及负样本数据。

具体的，执行步骤201时，负样本数据为与原始样本数据不同的数据。可选的，可以在数据集合中选取任意一个与原始样本数据不同的数据。原始样本数据可以为图像，视频以及多帧数据等格式的数据。

例如，原始样本数据为牡丹图像，负样本数据为玫瑰图像。

步骤202：控制设备对原始样本数据进行拉普拉斯变换以及噪声叠加，获得至少两个损坏数据。

具体的，参阅图3a所示，为一种损失数据获取的示意图。

S2021：控制设备对原始样本数据进行高斯变换，获得高斯金字塔。

其中，高斯金字塔为在编码器训练的、计算机视觉、信号处理上所使用的一项技术。高斯金字塔本质上为信号的多尺度表示法，亦即将同一信号或图片多次的进行高斯模糊，并且向下取样，藉以产生不同尺度下的多组信号或图片以进行后续的处理。

S2022：控制设备对高斯金字塔进行拉普拉斯变换，获得拉普拉斯金字塔。

由于在高斯金字塔的运算过程中，数据经过卷积和下采样操作会丢失部分高频细节信息，为描述这些高频信息，人们定义了拉普拉斯金字塔。拉普拉斯金字塔为：用高斯金字塔的每一层数据减去其上一层数据上采样并高斯卷积之后的预测数据，得到一系列的差值数据。拉普拉斯金字塔包含至少两层采样数据。

S2022：控制设备分别针对噪声集合中的每一噪声类型的噪声，执行以下步骤：在拉普拉斯金字塔中随机选取的一层采样数据中叠加一种噪声类型的噪声，并对叠加噪声后的拉普拉斯金字塔进行拉普拉斯反变换，获得相应的损失数据。

可选的，针对叠加的不同的噪声类型，获得损失数据时，还可以采用以下公式：

其中，

为损失数据，x为原始样本数据，

为对拉普拉斯金字塔的第l层采样数据叠加噪声后获得的l层采样数据，c为噪声集合C中的一种噪声类型。

具体的，基于随机噪声获得损失数据时，可以采用以下公式：

其中，

为损失数据，x为原始样本数据，

为对拉普拉斯金字塔的第l层采样数据叠加噪声后获得的l层采样数据。Dn表示随机噪声。

具体的，基于信息去除噪声获得损失数据时，可以采用以下公式：

其中，

为损失数据，x为原始样本数据，

为对拉普拉斯金字塔的第l层采样数据叠加噪声后获得的l层采样数据。In表示信息去除噪声。

具体的，基于模糊化噪声获得损失数据时，可以采用以下公式：

其中，

为损失数据，x为原始样本数据，

为对拉普拉斯金字塔的第l层采样数据叠加噪声后获得的l层采样数据。SR表示模糊化噪声。

可选的，若原始样本数据为图像数据，则可以将原始样本数据调整为设定的长宽，并进行随机裁剪。例如，设定长宽为256x256，随机裁剪后的长宽为227x227。

本申请实施例中，噪声集合的噪声类型以随机噪声、信息去除噪声、模糊化噪声为例进行说明。噪声类型还可以为真实的随机噪声、多尺度的模糊或信息损失等。在此不作限制。

可选的，随机噪声可以选取设定方差(如，25)的高斯随机噪声，对随机噪声进行叠加时，是从拉普拉斯金字塔中随机选取一层采样图像进行叠加。

可选的，信息去除噪声，可以随机去除设定百分比的像素点，对信息去除噪声进行叠加时，是从拉普拉斯金字塔中随机选取一层采样图像进行叠加。

其中，模糊化噪声，是指通过去除高斯金字塔的最底层信息，实现高频信息的移除。

本申请实施例中，将原始样本数据构建成拉普拉斯金字塔，并通过多种噪声类型的噪声，分别在拉普拉斯金字塔中进行噪声叠加，进而将叠加噪声后的拉普拉斯金字塔重建为损失数据。即将空间域的原始样本数据，通过拉普拉斯变换，转换为拉普拉斯域的拉普拉斯金字塔，再反变换为空间域的损失数据。

这样，在拉普拉斯域中进行噪声叠加，而不是在传统方式中的空间域叠加噪声，使得数据的改变带有全局语义信息，而非仅仅局部语义信息。由于仅局部语义信息难以捕捉到非局部的语义概念，因此，本申请实施例中，通过全局语义信息，可以学到更好的表征。

进一步地，本申请实施例中，并行采用多种噪声类型的噪声进行噪声叠加，使得编码器可以学到更难的任务，得到更强的学习能力，进而可以学到更好的表征信息。

参阅图3b所示，为一种噪声叠加示意图，图3b展示了在不同拉普拉斯金字塔层级进行噪声叠加的结果。图3b中所示的各图像依次为：原始样本数据，采用传统方式叠加噪声(即直接在空间域叠加噪声)获得的传统数据、叠加噪声的层级(Laplacian PyramidScale，LPS)为4的损失数据、LPS为6的损失数据，以及LPS＝8的损失数据。

由图3b可知，与传统方式中直接在空间域叠加噪声的方式相比，在拉普拉斯变换域叠加噪声的方式获得的损失数据，不仅关注局部信息，更关注全局信息。并且采用不同LPS层级叠加噪声获得的损失数据，在干扰尺度上也体现出不同的范围，能够在后续的步骤中获得更好的用于提取表征信息的编码器。

参阅图3c所示，为一种噪声叠加效果示意图。图3c中所示的各图像依次为：原始样本数据、叠加随机噪声的损失数据、叠加信息去除噪声的损失数据、叠加模糊化噪声的损失数据。图3c可知，叠加不同噪声类型的噪声，产生的噪声效果不同，但各图像都反应了结合局部和全局信息的特征。

步骤203：控制设备根据原始样本数据和负样本数据，获得三元组训练数据。

具体的，三元组训练数据包括：锚点样本数据、正样本数据以及负样本数据。锚点样本数据为原始样本数据。正样本数据为对原始样本数据进行随机扭曲处理获得的。负样本数据为与原始样本数据不同的数据。随机扭曲处理可以采用透视变换、仿射变换以及旋转变换等方式，在此不做限制。

其中，控制设备获得正样本数据时，可以采用以下步骤：

S2031：将原始样本数据进行随机采样，获得随机采样数据。

具体的，将原始样本数据进行归一化，并在指定区域进行随机采样，获得各随机采样数据。

S2032：根据随机采样数据和目标数据，获得仿射变换矩阵。

具体的，仿射变换矩阵满足以下条件：仿射变换矩阵与随机采样数据乘积为目标数据。

若原始样本数据为原始图像，则将原始图像的长宽进行归一化(例如，256x256)，并分别在原始图像的指定区域(如，四个角处的100x100)内进行随机采样，获得随机采样坐标点，得到四边形区域。则仿射变换矩阵满足以下公式：

其中，M为仿射变换矩阵，i随机采样坐标点的序号为0，1，2，3……，t为变换系数，随机采样坐标点src(i)＝(x_i，y_i)，x_i，y_i分别为随机采样坐标点的横坐标和纵坐标。目标点的坐标点dst(i)＝(x_i′，y_i′)，x_i′，y_i′分别为目标点的坐标点的横坐标和纵坐标。

S2033：根据仿射变换矩阵，对原始样本数据进行随机扭曲，并将随机扭曲后的原始样本数据进行裁剪和缩放，获得正样本数据。

具体的，由于仿射变换矩阵满足以下条件：仿射变换矩阵与随机采样数据乘积为目标数据，因此，可以将原始样本数据采用仿射变换矩阵，实现原始样本数据的随机扭曲。进而可以对随机扭曲后的原始数据的边缘进行裁剪以及填充，并缩放为原尺寸。

可选的，获得正样本数据时，可以采用以下公式：

x^p＝Pers(x)；

其中，x为原始样本数据，x^p为正样本数据，Pers()为随机扭曲处理函数。可选的，随机扭曲处理函数可以采用仿射变换矩阵或透视变换函数等。

例如，参阅图3d所示，为一种图像随机扭曲处理的示意图。图3d所示的各图像依次为：原始样本数据，原始样本数据进行随机采样，对原始样本数据进行透视变换，正样本数据。

如图3d所示，控制设备在原始样本数据中进行随机采样，获得各随机采样坐标点，并根据随机采样坐标点和目标点的坐标点，对原始样本数据进行透视变换，获得正样本数据。

本申请实施例中，将原始样本数据作为锚点数据，并通过对原始样本数据进行变换，获得正样本数据，并选取与原始样本数据不同的样本作为负样本数据。通过锚点数据、正样本数据和负样本数据组合成三元组训练数据。这样，原始样本数据进行随机扭曲处理后，尽管正样本数据与原始样本数据相比，发生了较大的形变和扭曲(如图3d中图像中的狗)，但是，正样本数据中保留了原始样本数据中的主要语义信息。

本申请实施例中，仅以先执行步骤202，后执行步骤203为例进行说明，实际应用中，步骤202和步骤203的执行顺序可以先后执行，也可以同时执行，对此不作限制。

步骤204：控制设备获得原始样本数据和各损坏数据的编码特征和解码特征，并获得三元组训练数据中各训练数据的特征向量。

具体的，控制设备通过CNN建立CNN模型，并采用CNN模型获得原始样本数据和各损坏数据的编码特征和解码特征，并获得三元组训练数据中各训练数据的特征向量。CNN模型主要包括编码器和解码器。

其中，获得原始样本数据和各损坏数据的编码特征时，可以采用以下步骤：分别针对每一个损坏数据以及原始样本数据，分别采用模型参数相同的编码器进行编码处理，获得相应的编码特征。

其中，获得原始样本数据和各损坏数据的解码特征时，可以采用以下步骤：分别针对每一编码特征，采用相应的解码器进行解码处理，获得相应的解码特征。

其中，获得三元组训练数据中各训练数据的特征向量时，可以采用以下步骤：

分别针对三元组训练数据中的每一训练数据，分别采用模型参数相同的编码器进行编码处理以及特征全连接处理，获得相应的特征向量。本申请实施例中，各编码器的模型参数是共享的。

其中，CNN模型主体可以采用任何结构，本申请实施例中，以AlexNet结构为例进行说明。编码器采用AlexNet，解码器为三层反卷积(deconv)层，用以将编码器得到的编码特征，解码重建为与原始样本数据同样尺寸的数据结构。编码器还用于提取训练数据的特征向量。

如图1所示，本申请实施例中，由于采用了三种噪声类型的噪声对原始样本数据进行噪声叠加处理，因此，采用三个相同结构的AlexNet对各损失数据分别进行编码处理，并采用三个解码器对获得的各编码特征分别进行解码。其中，各编码器中的模型参数共享，各解码器中的模型参数可以不共享。针对三元组训练数据中的每一训练数据，通过全连接层将编码器输出的特征向量进行全连接，获得全连接后的特征向量。

其中，一组好的表征对应的一组好的模型参数，因此，模型学习到的表征主要体现在编码器的模型参数，通过验证模型参数的性能，可以验证表征的好坏。

步骤205：控制设备根据原始样本数据、各编码特征、各解码特征以及各特征向量，获得预测损失。

具体的，控制设备通过各编码特征，获得判别损失，并通过各解码特征以及原始样本数据获得重建损失，以及根据各特征向量获得三元组损失，并根据判别损失、重建损失以及三元组损失，获得预测损失。

其中，判别损失表示编码器输出的编码特征与原始样本数据的编码特征在特征分布上的相似程度。重建损失用于判断解码器的输出数据与原始样本数据在空间域的相似程度。三元组损失用于表示：三元组训练数据中各训练数据的特征向量之间距离关系的三元组损失。

其中，获得判别损失时，可以采用判别子函数：

L_D＝E_x[logD(G(x))]+∑_c∈CE_c[log(1-D(G(Lap_c)))]；

其中，L_D为判别损失，x为原始样本数据，G(x)为原始样本数据的编码特征，G(Lap_c)为损失数据的编码特征，D()为判别器网络，E为数据期望，c为噪声集合C中的一种噪声类型。

本申请实施例中，判别子函数参考GAN的思想，将CNN模型当做生成器G，采用4层卷积(conv)层实现，并将编码器的输出作为判别子函数的输入。传统方式中，GAN网络通常将判别器用于图像域，本申请实施例中，将判别器用于特征域，以期望获得特征面的相似性。这样，可以保证编码器得到的编码特征与原始样本数据得到的编码特征在特征分布上保持一致性，即数据分布的相似性。

其中，获得重建损失时，可以采用重建子函数：

L_rec＝∑_c∈CE_x‖x-z_c‖²+E_x‖x-z_x‖²；

其中，L_rec为重建损失，E为数学期望，x为原始样本数据，z_c为噪声类型c对应的损失数据的解码特征，z_x为原始样本数据的解码特征，c为噪声集合C中的一种噪声类型。

这样，重建子函数根据各损失数据以及原始样本数据的重建数据即解码特征，对所有重建过程的性能进行综合评判。

其中，获得三元组损失时，可以采用三元损失函数：

L_trip＝|d(F_θ(x)，F_θ(x^p))-d(F_θ(x)，F_θ(y))+δ|₊；

其中，L_trip为三元组损失，x为原始样本数据，y为负样本数据，x^p为正样本数据，F_θ为特征向量，|·|₊表示取正函数，即当函数值为负值时取0，为非负值时保持不变，d()为距离函数，可选的，可以采用欧式距离，δ表示正样本数据的特征向量与负样本数据的特征向量的最小边界，可选的，δ可以设置为20。

其中，预测损失可以采用以下公式获得：

其中，L为预测损失，L_trip为三元组损失，L_rec为重建损失，L_D为判别损失，G为生成器，用于获得编码特征，D()为判别器网络。

步骤206：控制设备判断预测损失是否符合预设的收敛条件，若是，则执行步骤207，否则，执行步骤208。

步骤207：控制设备将模型参数确定为编码器目标参数的参考值。

步骤208：控制设备根据预测损失对编码器和解码器的模型参数进行调整，执行步骤201。

具体的，执行步骤206-步骤208时，若预测损失符合预设的收敛条件，则控制设备将模型参数确定为编码器目标参数的参考值。若预测损失不符合预设的收敛条件，则控制设备调整模型参数直至预测损失符合预设的收敛条件。

在获得编码器目标参数的参考值之后，就可以根据编码器目标参数的参考值初始化目标编码器，并采用目标编码器获得数据的表征信息。参阅图4所示，为一种表征信息提取方法的实施流程图。该方法的具体流程如下：

步骤401：控制设备编码器目标参数的参考值，获得目标编码器的目标模型参数。

步骤402：控制设备根据编码器目标参数的参考值初始化目标编码器，并采用目标编码器获得数据的表征信息。

进一步地，控制设备可以根据目标编码器搭建所需的目标模型，并采用目标模型进行数据处理。

其中，目标模型主要为需要提取数据的表征信息并根据表征信息进行数据处理的模型，可以应用于图像分类、目标检测、自动驾驶、视觉对象跟踪、Web数据自动标注、海量数据搜索、数据内容过滤、医学远程会诊以及机器人等领域。

例如，目标模型可以为分类模型，目标检测模型以及语义分割模型等。目标任务可以为分类任务，目标检测任务以及语义分割任务。

本申请实施例中，分别从卷积层输出、模型初始化以及迁移学习的角度，对目标编码器提取的表征信息的有效性进行评估。

评估场景一，根据卷积层输出的编码特征进行评估。参阅图3e所示，为一种表征学习结果对比示例图。图3e中的(a)图为：采用传统的全监督表征学习方法对图像进行编码特征提取时，第一层卷积层输出的编码特征。图3e中的(b)图为：采用本申请实施例中的方案获得目标编码器对图像进行编码特征提取时，第一层卷积层输出的编码特征。

显然，图3e中的(b)图与(a)图较为相近，即目标编码器可以获得与传统的全监督表征学习方法相近的编码特征，可以很好的学到更精确的边缘滤波器和色彩滤波器。

表1.

评估场景二，从模型初始化的角度进行评估。参阅表1所示，为模型初始化评估表。表1中包含5种初始化方式，依次为：随机初始化、空间域初始化、拉普拉斯初始化、鉴别性推理初始化，以及本方案目标编码器。即分别通过随机、空间域、拉普拉斯、鉴别性推理以及本方案中的方式训练获得的编码器。

具体的，基于表1中的5种方式获得各编码器，分别将每一编码器(如，AlexNet)的5个卷积层的每一层都接出一个线性分类器，评估其在数据(如，图像网络集合(ImageNet)数据集)的分类性能，即分类准确率。

通过表1可知，在分类性能上，本方案获得的目标编码器明显高于其它各方式获得的编码器。

应用场景三，从迁移学习的角度进行评估，即检测获得的编码器是否能够帮助其他数据以及任务的表征学习。

参阅表2所示，为一种迁移学习评估表。表2中的数值表示任务评分。依次采用如表2所示的5种方式获得各编码器，并分别基于各编码器，获得相应的分类模型、目标检测模型以及语义分割模型，以执行分类、目标检测以及语义分割任务。

表2.

其中，Fc6-8是指在训练分类模型的编码器时，编码器的前5层卷积的模型参数固定不更新，而只对全连接层Fc6-8的模型系数进行更新。相应的，ALL则是指进行编码器训练时，对所有的模型参数均进行更新学习。由表2可知，基于本方案的目标编码器搭建的各模型执行任务的任务评分明显高于其它各方式的任务评分，即本方案明显优于其它方案。

本申请实施例中，一方面，对原始样本数据进行拉普拉斯变换，将空间域的原始样本数据转换为拉普拉斯域的拉普拉斯金字塔，并在拉普拉斯金字塔的随机一层叠加噪声，获得损失数据，实现了底层表征与高层表征的结合，可以学习对边缘特征敏感的特征；

另一方面，通过鉴别性推理方法即对数据进行随机扭曲处理，以及获得三元组训练数据的特征向量之间距离关系的三元组损失，在特征空间增大不同内容的距离同时缩小相似内容的差距，使得编码器还可以获取数据的高层的语义信息。

再者，获得原始样本数据的判别损失和重建损失，三元组训练数据的三元组损失，并基于判别损失、重建损失以及三元组损失获得预测损失，使得本方案同时兼顾了空间域和特征域分布上的相似性，以及正样本数据和负样本数据之间的特征向量相似性，共同约束训练过程，采用多任务学习(如，多种噪声叠加)使得训练获得的表征信息更加鲁棒。

本申请实施例对输入数据没有强约束，可以运用多种数据格式和模态，对输入数据不要求任何特殊处理，适用性更广，可以提取更多底层语义信息，获得更加鲁棒和更具有代表性的模型参数，以用于后续应用。例如，可以不依赖于有标注的大规模数据集进行模型训练，进行目标模型的模型初始化，而是采用本申请实施例中提供的编码器的训练方式，通过训练获得的编码器搭建应用于图像分类、目标检测、自动驾驶、视觉对象跟踪、Web数据自动标注、海量数据搜索、数据内容过滤、医学远程会诊以及机器人等领域的目标模型。

模型初始化。

基于同一发明构思，本申请实施例中还提供了一种编码器训练装置，由于上述装置及设备解决问题的原理与一种编码器训练方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5a示，其为本申请实施例提供的一种编码器训练装置的结构示意图。一种编码器训练装置包括：

叠加单元510，用于对原始样本数据进行噪声叠加处理，获得至少两个损失数据；

编码单元511，用于针对原始样本数据和至少两个损失数据，分别采用模型参数相同的编码器进行编码处理获得相应的编码特征；

解码单元512，用于采用相应的解码器对获得的编码特征进行解码处理，获得相应的解码特征；

第一获得单元513，用于基于各编码特征获得判别损失，并基于原始样本数据以及各解码特征获得重建损失；

第二获得单元514，用于根据原始样本数据，获得相应的三元组训练数据；

提取单元515，用于分别针对原始样本数据的三元组训练数据中的每一训练数据，分别采用具有模型参数的编码器进行特征提取处理，获得相应的特征向量；

第一确定单元516，用于确定表征各特征向量之间距离关系的三元组损失；

预测单元517，用于基于重建损失、判别损失以及三元组损失，获得预测损失，预测损失与重建损失、判别损失以及三元组损失均呈正相关；

第二确定单元518，用于若预测损失符合预设的收敛条件，则将模型参数确定为编码器目标参数的参考值，若预测损失不符合预设的收敛条件，则调整模型参数直至预测损失符合预设的收敛条件。

较佳的，两个损坏数据是原始样本数据进行拉普拉斯变换并叠加噪声后获得的；

三元组训练数据包括：锚点样本数据、正样本数据以及负样本数据，锚点样本数据为原始样本数据，正样本数据为对原始样本数据进行随机扭曲处理获得的，负样本数据为与原始样本数据不同的数据。

较佳的，第一确定单元516用于：

确定锚点样本数据的特征向量与正样本数据的特征向量之间的第一距离；

确定锚点样本数据的特征向量与负样本数据的特征向量之间的第二距离；

基于第一距离以及第二距离之间的差值，确定三元组损失。

较佳的，第一获得单元513用于：

采用预设的判别函数，分别获得原始样本数据的编码特征的原始判别值，以及每一损失函数的编码特征的损失判别值；

基于原始判别值，以及各损失判别值，确定判别损失；

其中，判别损失表示编码器输出的编码特征与原始样本数据的编码特征在特征分布上的相似程度，判别损失与原始判别值呈正相关，并与损失判别值均呈负相关。

较佳的，第一获得单元513用于：

分别确定每一解码特征与原始样本数据之间的解码差值；

基于各解码差值，获得重建损失；

其中，重建损失用于判断解码器的输出数据与原始样本数据在空间域的相似程度。

基于同一发明构思，本申请实施例中还提供了一种表征信息提取装置，由于上述装置及设备解决问题的原理与一种表征信息提取方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5b示，其为本申请实施例提供的一种表征信息提取装置的结构示意图。一种表征信息提取装置包括：

获得单元521，用于上述一种编码器训练方法获得的编码器目标参数的参考值，获得目标编码器的目标模型参数；

设置单元522，用于根据目标模型参数初始化目标编码器；

提取单元523，用于采用目标编码器获得数据的表征信息。

参阅图6所示，为一种控制设备的结构示意图。基于同一技术构思，本申请实施例还提供了一种控制设备，可以包括存储器601和处理器602。

所述存储器601，用于存储处理器602执行的计算机程序。存储器601可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。处理器602，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。本申请实施例中不限定上述存储器601和处理器602之间的具体连接介质。本申请实施例在图6中以存储器601和处理器602之间通过总线603连接，总线603在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线603可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器601可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器601也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器601可以是上述存储器的组合。

处理器602，用于调用所述存储器601中存储的计算机程序时执行如图2中所示的实施例提供的编码器训练方法和如图4所示的实施例提供的表征信息提取方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意方法实施例中的编码器训练方法和表征信息提取方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台控制设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用于图像处理的编码器训练方法，其特征在于，包括：

对图像样本数据进行噪声叠加处理，获得至少两个图像损失数据，其中，所述两个图像损失数据是所述图像样本数据进行拉普拉斯变换并叠加噪声后获得的；

针对所述图像样本数据和所述至少两个图像损失数据，分别采用模型参数相同的编码器进行编码处理获得相应的图像编码特征；

采用相应的解码器对获得的图像编码特征进行解码处理，获得相应的图像解码特征；

基于各图像编码特征获得判别损失，并基于所述图像样本数据以及各图像解码特征获得重建损失；

根据所述图像样本数据，获得相应的三元组图像训练数据；

分别针对所述图像样本数据的三元组图像训练数据中的每一训练数据，分别采用具有所述模型参数的编码器进行特征提取处理，获得相应的特征向量；

确定表征各特征向量之间距离关系的三元组损失；

基于所述重建损失、所述判别损失以及所述三元组损失，获得预测损失，所述预测损失与所述重建损失、所述判别损失以及所述三元组损失均呈正相关；

若所述预测损失符合预设的收敛条件，则将所述模型参数确定为编码器目标参数的参考值，若所述预测损失不符合预设的收敛条件，则调整所述模型参数直至所述预测损失符合预设的收敛条件。

2.如权利要求1所述的方法，其特征在于，所述三元组图像训练数据包括：锚点样本数据、正样本数据以及负样本数据，所述锚点样本数据为所述图像样本数据，所述正样本数据为对所述图像样本数据进行随机扭曲处理获得的，所述负样本数据为与所述图像样本数据不同的数据。

3.如权利要求2所述的方法，其特征在于，确定表征各特征向量之间距离关系的三元组损失，包括：

确定所述锚点样本数据的特征向量与所述正样本数据的特征向量之间的第一距离；

确定所述锚点样本数据的特征向量与所述负样本数据的特征向量之间的第二距离；

基于所述第一距离以及所述第二距离之间的差值，确定三元组损失。

4.如权利要求1、2或3所述的方法，其特征在于，基于各图像编码特征获得判别损失，包括：

采用预设的判别函数，分别获得所述图像样本数据的图像编码特征的原始判别值，以及每一损失函数的图像编码特征的损失判别值；

基于所述原始判别值，以及各损失判别值，确定判别损失；

其中，所述判别损失表示编码器输出的图像编码特征与图像样本数据的图像编码特征在特征分布上的相似程度，所述判别损失与所述原始判别值呈正相关，并与所述损失判别值均呈负相关。

5.如权利要求1、2或3所述的方法，其特征在于，基于所述图像样本数据以及各图像解码特征获得重建损失，包括：

分别确定每一图像解码特征与所述图像样本数据之间的解码差值；

基于各解码差值，获得重建损失；

其中，所述重建损失用于判断解码器的输出数据与图像样本数据在空间域的相似程度。

6.一种图像表征信息提取方法，其特征在于，包括：

采用如权利要求1～5任一项所述的方法获得的编码器目标参数的参考值，获得目标编码器的目标模型参数；

根据所述目标模型参数初始化所述目标编码器；

采用所述目标编码器获得图像数据的图像表征信息。

7.一种用于图像处理的编码器的训练装置，其特征在于，包括：

叠加单元，用于对图像样本数据进行噪声叠加处理，获得至少两个图像损失数据，其中所述两个图像损失数据是所述图像样本数据进行拉普拉斯变换并叠加噪声后获得的；

编码单元，用于针对所述图像样本数据和所述至少两个图像损失数据，分别采用模型参数相同的编码器进行编码处理获得相应的图像编码特征；

解码单元，用于采用相应的解码器对获得的图像编码特征进行解码处理，获得相应的图像解码特征；

第一获得单元，用于基于各图像编码特征获得判别损失，并基于所述图像样本数据以及各图像解码特征获得重建损失；

第二获得单元，用于根据所述图像样本数据，获得相应的三元组图像训练数据；

提取单元，用于分别针对所述图像样本数据的三元组图像训练数据中的每一训练数据，分别采用具有所述模型参数的编码器进行特征提取处理，获得相应的特征向量；

预测单元，用于基于所述重建损失、所述判别损失以及所述三元组损失，获得预测损失，所述预测损失与所述重建损失、所述判别损失以及所述三元组损失均呈正相关；

第二确定单元，用于若所述预测损失符合预设的收敛条件，则将所述模型参数确定为编码器目标参数的参考值，若所述预测损失不符合预设的收敛条件，则调整所述模型参数直至所述预测损失符合预设的收敛条件。

8.如权利要求7所述的装置，其特征在于，所述三元组图像训练数据包括：锚点样本数据、正样本数据以及负样本数据，所述锚点样本数据为所述图像样本数据，所述正样本数据为对所述图像样本数据进行随机扭曲处理获得的，所述负样本数据为与所述图像样本数据不同的数据。

9.如权利要求8所述的装置，其特征在于，所述第一确定单元用于：

10.如权利要求7、8或9所述的装置，其特征在于，所述第一获得单元用于：

基于所述原始判别值，以及各损失判别值，确定判别损失；

11.如权利要求7、8或9所述的装置，其特征在于，所述第一获得单元用于：

基于各解码差值，获得重建损失；

12.一种图像表征信息提取装置，其特征在于，包括：

获得单元，用于采用如权利要求1～5任一项所述的方法获得的编码器目标参数的参考值，获得目标编码器的目标模型参数；

设置单元，用于根据所述目标模型参数初始化所述目标编码器；

提取单元，用于采用所述目标编码器获得图像数据的图像表征信息。

13.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-5或6任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-5或6任一所述方法的步骤。