CN112990390B

CN112990390B - 一种图像识别模型的训练方法、图像识别的方法及装置

Info

Publication number: CN112990390B
Application number: CN202110547585.9A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-06
Anticipated expiration: 2041-05-19
Also published as: CN112990390A

Abstract

本申请公开了一种基于机器学习技术实现的模型训练方法，本申请包括获取待训练内容样本图像及待训练风格样本图像；根据待训练内容样本图像以及待训练风格样本图像生成待训练模拟样本图像；通过待训练图像识别模型获取待训练模拟样本图像的第一预测场景标签及第一预测风格标签；通过待训练图像识别模型获取待训练风格样本图像的第二预测场景标签及第二预测风格标签；根据预测标签和标注标签对待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型。本申请还提供图像识别的方法及装置。本申请利用已标注的图像样本扩展出更多属于目标域的样本图像，满足目标域中不同场景数据的收集需求，提升图像识别模型的泛化能力。

Description

一种图像识别模型的训练方法、图像识别的方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种图像识别模型的训练方法、图像识别的方法及装置。

背景技术

视频理解和图像理解的首要任务是进行场景识别，场景识别是一种用计算机实现人的视觉功能的技术，它的目的是使计算机能够对图像或视频进行处理，自动识别图像或视频中的场景。随着深度学习的发展，使用深度学习方法训练图像识别模型，以解决场景识别问题已越来越普遍。

在场景识别中存在领域问题，即常规场景训练数据是真人场景下的图像，而且一部分场景是动画、漫画和漫画（Animation Comics Games，ACG）类型的，在新领域中的场景特征有时会跟原领域差异非常大。考虑到ACG场景的样本量不足，如何有效利用大量真实图像样本提升图像识别模型的泛化能力是一个重要问题。目前，可采用基于降雨图像生成对抗网络（Image De-raining Using a Conditional Generative Adversarial Network，ID-CGAN），即通过下雨场景生成不下雨场景的方法。

然而，ID-CGAN方法过于定制化，单个模型只能完成一种特定性场景（例如，雨景）的转换，对于一个特定场景而言，需要大量的数据训练，如果扩展到ACG中的多个场景，则需要的标注数量规模会非常大，无法满足ACG中各式各样场景的数据收集需求，因此，训练得到的图像识别模型往往具有较差的泛化能力。

发明内容

本申请实施例提供了一种图像识别模型的训练方法、图像识别的方法及装置，在无需人力标注样本图像的情况下，有效利用已标注的图像样本扩展出更多属于目标域的样本图像，由此，满足属于目标域中不同场景数据的收集需求，从而有助于提升图像识别模型的泛化能力。

有鉴于此，本申请一方面提供一种图像识别模型的训练方法，包括：

获取待训练内容样本图像以及待训练风格样本图像，其中，待训练内容样本图像具有已标注的第一场景标签以及已标注的第一风格标签，待训练风格样本图像具有已标注的第二场景标签以及已标注的第二风格标签，第一风格标签与第二风格标签属于不同的风格标签类型；

根据待训练内容样本图像以及待训练风格样本图像，生成待训练模拟样本图像，其中，待训练模拟样本图像具有第一场景标签以及第二风格标签；

基于待训练模拟样本图像，通过待训练图像识别模型获取待训练模拟样本图像的第一预测场景标签以及第一预测风格标签；

基于待训练风格样本图像，通过待训练图像识别模型获取待训练风格样本图像的第二预测场景标签以及第二预测风格标签；

根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签以及第二预测风格标签，对待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型。

本申请另一方面提供一种图像识别的方法，包括：

获取待识别图像；

基于待识别图像，通过图像识别模型获取预测场景标签以及预测风格标签，其中，图像识别模型为采用上述方面的方法训练得到的；

根据预测场景标签以及预测风格标签，确定待识别图像的图像识别结果。

本申请另一方面提供一种图像识别模型训练装置，包括：

获取模块，用于获取待训练内容样本图像以及待训练风格样本图像，其中，待训练内容样本图像具有已标注的第一场景标签以及已标注的第一风格标签，待训练风格样本图像具有已标注的第二场景标签以及已标注的第二风格标签，第一风格标签与第二风格标签属于不同的风格标签类型；

生成模块，用于根据待训练内容样本图像以及待训练风格样本图像，生成待训练模拟样本图像，其中，待训练模拟样本图像具有第一场景标签以及第二风格标签；

获取模块，还用于基于待训练模拟样本图像，通过待训练图像识别模型获取待训练模拟样本图像的第一预测场景标签以及第一预测风格标签；

获取模块，还用于基于待训练风格样本图像，通过待训练图像识别模型获取待训练风格样本图像的第二预测场景标签以及第二预测风格标签；

训练模块，用于根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签以及第二预测风格标签，对待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

获取模块，具体用于获取内容样本图像集合，其中，内容样本图像集合包括M个内容样本图像，M为大于1的整数；

将内容样本图像集合中的一个内容样本图像作为待训练内容样本图像；

获取风格样本图像集合，其中，风格样本图像集合包括N个风格样本图像，N为大于1的整数；

将风格样本图像集合中的一个风格样本图像作为待训练风格样本图像。

获取模块，具体用于获取待处理风格样本图像集合，其中，待处理风格样本图像集合包括K个待处理风格样本图像，K为大于N的整数；

针对于待处理风格样本图像集合中的每个待处理风格样本图像，获取每个待处理风格样本图像所对应的嵌入向量特征；

根据第一聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对K个待处理风格样本图像进行聚类处理，得到P个第一聚类中心，其中，第一聚类数量为P，P为大于或等于1，且小于K的整数；

根据第二聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对K个待处理风格样本图像进行聚类处理，得到Q个第二聚类中心，其中，第二聚类数量为Q，Q为大于P的整数，且小于K的整数；

获取距离每个第一聚类中心最近的嵌入向量特征，得到P个嵌入向量特征；

获取距离每个第二聚类中心最近的嵌入向量特征，得到Q个嵌入向量特征；

根据P个嵌入向量特征中每个嵌入向量特征所对应的待处理风格样本图像，以及Q个嵌入向量特征中每个嵌入向量特征所对应的待处理风格样本图像，生成风格样本图像集合。

根据第一聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对K个待处理风格样本图像进行聚类处理，得到T个第一聚类结果，其中，第一聚类数量为T，T为大于1，且小于K的整数；

根据第二聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对每个第一聚类结果中的待处理风格样本图像进行聚类处理，得到W个第二聚类结果，其中，第二聚类数量为W，W为大于1，且小于K的整数；

根据每个第一聚类结果所包括的W个第二聚类结果，确定(T*W)个聚类中心；

获取距离每个聚类中心最近的嵌入向量特征，得到(T*W)个嵌入向量特征；

根据(T*W)个嵌入向量特征中每个嵌入向量特征所对应的待处理风格样本图像，生成风格样本图像集合。

获取模块，具体用于针对于待处理风格样本图像集合中的每个待处理风格样本图像，通过特征提取网络所包括的卷积层获取每个待处理风格样本图像所对应的特征图；

通过特征提取网络所包括的池化层获取每个待处理风格样本图像所对应的嵌入向量特征。

生成模块，具体用于基于待训练内容样本图像以及待训练风格样本图像，通过风格转换模型所包括的特征提取器网络，获取待训练内容样本图像所对应的第一特征空间，以及待训练风格样本图像所对应的第二特征空间；

基于第一特征空间以及第二特征空间，通过风格转换模型所包括的样式变换层获取目标特征空间；

基于目标特征空间，通过风格转换模型所包括的解码器网络获取待训练模拟样本图像。

生成模块，具体用于根据待训练风格样本图像所对应第二风格标签，确定风格转换模型；

基于待训练内容样本图像，通过风格转换模型获取待训练模拟样本图像。

训练模块，具体用于根据待训练模拟样本图像的第一场景标签以及第一预测场景标签，确定第一场景损失值；

根据待训练模拟样本图像的第二风格标签以及第一预测风格标签，确定第一风格损失值；

根据待训练风格样本图像的第二场景标签以及第二预测场景标签，确定第二场景损失值；

根据待训练风格样本图像的第二风格标签以及第二预测风格标签，确定第二风格损失值；

对第一场景损失值、第一风格损失值、第二场景损失值以及第二风格损失值进行求和，得到目标损失值；

采用目标损失值对待训练图像识别模型的模型参数进行更新。

获取模块，还用于基于待训练内容样本图像，通过待训练图像识别模型获取待训练内容样本图像的第三预测场景标签以及第三预测风格标签；

训练模块，具体用于根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签、第二预测风格标签、待训练内容样本图像的第一场景标签、第三预测场景标签、待训练内容样本图像的第一风格标签以及第三预测风格标签，对待训练图像识别模型的模型参数进行更新。

根据待训练内容样本图像的第一场景标签以及第三预测场景标签，确定第三场景损失值；

根据待训练内容样本图像的第一风格标签以及第三预测风格标签，确定第三风格损失值；

对第一场景损失值、第一风格损失值、第二场景损失值、第二风格损失值、第三场景损失值以及第三风格损失值进行求和，得到目标损失值；

本申请另一方面提供一种图像识别装置，包括：

获取模块，用于获取待识别图像；

获取模块，还用于基于待识别图像，通过图像识别模型获取预测场景标签以及预测风格标签，其中，图像识别模型为采用上述方面的方法训练得到的；

识别模块，用于根据预测场景标签以及预测风格标签，确定待识别图像的图像识别结果。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面所提供的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种图像识别模型的训练方法，首先获取待训练内容样本图像以及待训练风格样本图像，然后根据待训练内容样本图像以及待训练风格样本图像，生成待训练模拟样本图像，待训练模拟样本图像具有与待训练内容样本图像相同的第一场景标签，以及与待训练风格样本图像相同的第二风格标签。基于此，通过待训练图像识别模型获取待训练模拟样本图像的第一预测场景标签以及第一预测风格标签，并且通过待训练图像识别模型获取待训练风格样本图像的第二预测场景标签以及第二预测风格标签。最后，结合预测标签和真实标签对待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型。通过上述方式，在属于源域的待训练内容样本图像数量较多，而属于目标域的待训练风格样本图像数量较少的情况下，借助待训练风格样本图像和待训练内容样本图像学习得到新的待训练模拟样本图像，其中，待训练模拟样本图像具有与待训练风格样本图像相同的图像风格，并且具有与待训练内容样本图像相同的图像内容，因此，在无需人力标注样本图像的情况下，有效利用已标注的图像样本扩展出更多属于目标域的样本图像，由此，满足属于目标域中不同场景数据的收集需求，从而有助于提升图像识别模型的泛化能力。

附图说明

图1为本申请实施例中图像识别模型的一个学习框架示意图；

图2为本申请实施例中基于图像识别的一个应用场景示意图；

图3为本申请实施例中图像识别模型训练方法的一个流程示意图；

图4为本申请实施例中抽取待训练内容样本图像的一个流程示意图；

图5为本申请实施例中抽取待训练风格样本图像的一个流程示意图；

图6为本申请实施例中基于聚类算法生成风格样本图像集合的一个示意图；

图7为本申请实施例中基于聚类算法生成风格样本图像集合的另一个示意图；

图8为本申请实施例中残差模块的一个结构示意图；

图9为本申请实施例中基于风格转换模型生成待训练模拟样本图像的一个示意图；

图10为本申请实施例中训练风格转换模型的一个示意图；

图11为本申请实施例中基于风格转换模型生成待训练模拟样本图像的另一个示意图；

图12为本申请实施例中训练风格转换模型的另一个示意图；

图13为本申请实施例中图像识别方法的一个流程示意图；

图14为本申请实施例中图像识别方法的一个应用架构示意图；

图15为本申请实施例中图像识别模型训练装置的一个示意图；

图16为本申请实施例中图像识别装置的一个示意图；

图17为本申请实施例中服务器的一个结构示意图；

图18为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

移动互联网、智能手机以及社交网络的发展带来了海量的图片和视频，图片和视频因不受地域和语言的限制，逐渐成为了传词达意的主要媒介。相比于文字，图片和视频能够为用户提供更加生动且容易理解的信息，这也为基于机器的视频理解和图像理解增加了难度。机器视觉之于人工智能（Artificial Intelligence，AI）的意义就是视觉之于人类的意义，而决定这机器视觉的就是图像识别技术。更重要的是，在某些应用场景中，机器视觉比人类的生理视觉更具有优势，它更加准确、客观且稳定。无论对于图片还是视频，通常可采用训练好的图像识别模型进行识别，因此，训练得到一个具有较高识别精度的图像识别模型尤为重要。

图像识别模型的训练需要有相应领域的训练集，但是对于一些较新的领域（例如，ACG领域以及素描领域等）而言，通常难以采集到大量被标注好的训练集。以ACG领域为例，在AGC领域中的场景特征有时会跟原领域（即真实领域）差异非常大，例如，ACG的幼稚园场景跟真实领域的幼儿园效果有差异。大规模收集ACG场景数据需要较高的人力，而且耗时较长，因此，在学习前期的数据积累阶段，仅有少量标注的ACG图像和大量前期已经标注好的真人场景图像。在此情况下，由于标注ACG的样本图像数量不足，可能导致针对于ACG场景使用的图像识别模型召回很低。所以在新领域场景识别上，如何有效利用现有的大批真实图像样本提升模型的泛化能力是一个重要问题。

基于此，本申请提出了一种基于领域迁移的图像识别模型训练方法，利用有标注的源域图像以及目标域图像，让模型进行风格特征学习，从而从扩充模型对目标域（例如，ACG领域）的特征学习能力，提升模型在目标域的辨识度以及目标域的召回能力。下面将结合图1介绍基于风格生产的场景迁移学习方案，请参阅图1，图1为本申请实施例中图像识别模型的一个学习框架示意图，如图所示，学习过程中利用了源域标注数据、目标域标注数据以及生产域数据，其中，生产域与目标域应一致。例如，源域标注数据为真实领域中海边场景的图像，目标域标注数据为ACG领域中教室场景的图像，生产域数据为ACG领域中海边场景的图像。对属于源域标注数据的待训练内容样本图像进行深度特征提取，得到嵌入向量特征1，对属于目标域标注数据的待训练风格样本图像进行深度特征提取，得到嵌入向量特征2，对属于生产域数据的待训练模拟样本图像进行深度特征提取，得到嵌入向量特征3。基于此，对这些样本图像进行风格类别的识别，以此得到分类损失1，类似地，对这些样本图像进行场景类别的识别，以此得到分类损失2，结合分类损失1和分类损失2对图像识别模型进行训练。

由此可知，以目标域为ACG领域为例，针对于ACG领域的场景识别任务，从有监督的源域标注数据和少量有标注的目标域标注数据出发，通过对生成的风格图训练让模型对ACG领域的特征具有感知能力。

需要说明的是，图像识别模型训练方法主要涉及到机器学习（Machine Learning，ML）技术，其中，ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML是AI的核心，是使计算机具有智能的根本途径，其应用遍及AI的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

ML属于AI的一个分支，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

利用已训练得到的图像识别模型，可以对属于目标域的图像和视频进行场景识别。为了便于理解，下面将结合图2对图像识别的一个应用场景进行介绍。请参阅图2，图2为本申请实施例中基于图像识别的一个应用场景示意图，如图所示，内容提供方可通过终端设备向服务器上传图片或者视频，服务器调用训练好的图像识别模型对图片或者视频进行识别，并输出场景标签。根据场景标签可确定内容提供方上传的图片或者视频是否属于合法内容，如果图片或视频是合法内容，则服务器将该图片推送至多媒体平台，内容消费方可从多媒体平台上下载相应的图片。反之，如果图片或视频是非法内容，则服务器通知内容提供方本次上传失败。由此，在内容提供方自由上传和分享内容的同时，还能够对不适宜的内容进行屏蔽，有助于建设绿色健康的社交网络环境。

其中，本申请涉及的终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。其中，客户端部署于终端设备上。本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器和终端设备的数量也不做限制。

如本申请所公开的图像识别模型训练方法可由多个服务器执行，其中，多个服务器可组成为一区块链，而服务器为区块链上的节点。如本申请所公开的图像识别方法，其中，预测得到的标签可保存于区块链上。

结合上述介绍，下面将对本申请中图像识别模型的训练方法进行介绍，请参阅图3，本申请实施例中图像识别模型训练方法的一个实施例包括：

101、获取待训练内容样本图像以及待训练风格样本图像，其中，待训练内容样本图像具有已标注的第一场景标签以及已标注的第一风格标签，待训练风格样本图像具有已标注的第二场景标签以及已标注的第二风格标签，第一风格标签与第二风格标签属于不同的风格标签类型；

本实施例中，图像识别模型训练装置获取待训练内容样本图像以及待训练风格样本图像，待训练内容样本图像和待训练风格样本图像均为经过标注的图像，其中，待训练内容样本图像具有已标注的第一场景标签以及已标注的第一风格标签，假设第一场景标签为“海边场景”，可表示为“3”，或者表示为独热（one-hot）编码的形式，如，（0,0,1,0），此处不做限定。假设第一风格标签为“真实风格”，可表示为“0”。类似地，待训练风格样本图像具有已标注的第二场景标签以及已标注的第二风格标签，假设第二场景标签为“幼稚园场景”，可表示为“2”，或者表示为one-hot编码的形式，如，（0,1,0,0），此处不做限定。假设第二风格标签为“ACG风格”，可表示为“1”。

可见，第一风格标签与第二风格标签属于不同的风格标签类型，因此，后续可进行图像的风格迁移。

需要说明的是，图像识别模型训练装置可部署于服务器，或者，部署于终端设备，又或者部署于由服务器和终端设备组成的系统，此处不做限定。

102、根据待训练内容样本图像以及待训练风格样本图像，生成待训练模拟样本图像，其中，待训练模拟样本图像具有第一场景标签以及第二风格标签；

本实施例中，图像识别模型训练装置可对待训练内容样本图像以及待训练风格样本图像进行图片风格迁移，即结合待训练内容样本图像的内容和待训练风格样本图像的风格，生成待训练模拟样本图像。待训练模拟样本图像的内容与待训练内容样本图像的内容接近，而待训练模拟样本图像的风格与待训练风格样本图像的风格接近，因此，待训练模拟样本图像在未标注的情况下，可将第一场景标签作为其场景的标签，并将第二风格标签作为其风格的标签。

具体地，可采用生成式对抗网络（Generative Adversarial Networks，GAN）所包括的生成模型输出待训练模拟样本图像，例如，通过风格迁移的GAN生产出源域（例如，真实领域）对目标域（例如，ACG领域）的模拟数据，即得到待训练模拟样本图像。其中，GAN是一种深度学习模型，其主要包含判别模型和生成模型。判别模型需要输入变量通过模型来产生隐变量，生成模型是给定某种隐含信息，来随机产生观测数据。例如，判别模型给定一张图，判断这张图里的动物是猫还是狗，而生成模型通过给一系列猫的图片，生成一张新的猫咪（即不在原来的数据集里）。

需要说明的是，为了便于介绍，本实施例以一个待训练内容样本图像以及一个待训练风格样本图像为例进行介绍，在实际应用中，可根据多个待训练内容样本图像以及多个待训练风格样本图像生成多个待训练模拟样本图像，此处一一穷举。

103、基于待训练模拟样本图像，通过待训练图像识别模型获取待训练模拟样本图像的第一预测场景标签以及第一预测风格标签；

本实施例中，图像识别模型训练装置将待训练模拟样本图像输入至待训练图像识别模型，通过待训练图像识别模型输出第一预测场景标签以及第一预测风格标签。

104、基于待训练风格样本图像，通过待训练图像识别模型获取待训练风格样本图像的第二预测场景标签以及第二预测风格标签；

本实施例中，图像识别模型训练装置将待训练风格样本图像输入至待训练图像识别模型，通过待训练图像识别模型输出第二预测场景标签以及第二预测风格标签。

需要说明的是，本申请不对步骤104与步骤103之间的执行顺序进行限定。

105、根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签以及第二预测风格标签，对待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型。

本实施例中，图像识别模型训练装置结合待训练模拟样本图像的第一场景标签与第一预测场景标签之间的损失值，待训练模拟样本图像的第二风格标签与第一预测风格标签之间的损失值，待训练风格样本图像的第二场景标签与第二预测场景标签之间的损失值，以及待训练风格样本图像的第二风格标签与第二预测风格标签之间的损失值，计算得到一个总的损失值（即目标损失值），并反向传播到待训练图像识别模型，通过随机梯度下降（Stochastic Gradient Descent，SGD）法更新待训练图像识别模型的模型参数，从而实现模型参数优化。

具体地，一种情况下，如果模型参数迭代更新的次数达到迭代次数阈值，则确定满足模型训练条件，由此固定更新后的模型参数，即得到图像识别模型。另一种情况下，如果总的损失值（即目标损失值）收敛，则确定满足模型训练条件，由此固定更新后的模型参数，即得到图像识别模型。

借助源域内容和目标域风格的模拟图像，建立源域的图像模型到目标域的图像识别模型之间的学习桥梁。将源域的样本图像保持内容不变，生成相同内容的目标域图像，使得模型在不受风格干扰的前提下学习到内容识别相关的特征，作为特征迁移的过渡。

本申请实施例中，提供了一种图像识别模型的训练方法。通过上述方式，在属于源域的待训练内容样本图像数量较多，而属于目标域的待训练风格样本图像数量较少的情况下，借助待训练风格样本图像和待训练内容样本图像学习得到新的待训练模拟样本图像，其中，待训练模拟样本图像具有与待训练风格样本图像相同的图像风格，并且具有与待训练内容样本图像相同的图像内容，因此，在无需人力标注样本图像的情况下，有效利用已标注的图像样本扩展出更多属于目标域的样本图像，由此，满足属于目标域中不同场景数据的收集需求，从而有助于提升图像识别模型的泛化能力。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，获取待训练内容样本图像以及待训练风格样本图像，具体可以包括：

获取内容样本图像集合，其中，内容样本图像集合包括M个内容样本图像，M为大于1的整数；

本实施例中，介绍了一种抽取待训练内容样本图像和待训练风格样本图像的方式。为了使得用于生产图像的风格模型能够覆盖到尽量多的目标域样本，还可以构建内容样本图像集合和风格样本图像集合，然后从内容样本图像集合中抽取任意一个内容样本图像作为待训练内容样本图像，并且从风格样本图像集合中抽取任意一个风格样本图像作为待训练风格样本图。

具体地，以获取内容样本图像集合为例，请参阅图4，图4为本申请实施例中抽取待训练内容样本图像的一个流程示意图，如图所示，可采用基于开源大规模通用图像分类数据集训练的残差网络（Residual Network，ResNet）模型，该数据集可以是大型通用物体识别开源数据集（ImageNet），该ResNet模型可以是ResNet-101模型。在步骤A1中，将源域无标注数据输入至ResNet模型中，通过前向计算得到嵌入向量特征，并保存源域无标注数据中各个图像的嵌入向量特征。在步骤A2中，对这些图像的嵌入（embedding）向量特征进行自动聚类，然后在步骤A3中，将聚类对应类中心样本作为内容样本图像，最终得到M个内容样本图像的内容样本图像集合。基于此，可以从内容样本图像集合中选择一个内容样本图像作为待训练内容样本图像。

以获取内容样本图像集合为例，请参阅图5，图5为本申请实施例中抽取待训练风格样本图像的一个流程示意图，如图所示，类似地，在步骤B1中，将目标域无标注数据输入至ResNet模型中，通过前向计算得到嵌入向量特征，并保存目标域无标注数据中各个图像的嵌入向量特征。在步骤B2中，对这些图像的嵌入向量特征进行自动聚类，然后在步骤B3中，将聚类对应类中心样本作为风格样本图像，最终得到N个风格样本图像的风格样本图像集合。基于此，可以从风格样本图像集合中选择一个风格样本图像作为待训练风格样本图像。

其次，本申请实施例中，提供了一种抽取待训练内容样本图像和待训练风格样本图像的方式，通过上述方式，在生成模拟样本图像的过程中，可随机从内容样本图像集合中取出待训练内容样本图像，以及从风格样本图像集合中取出待训练风格样本图像，由此，可以增加模拟样本图像的多样性，通过同时学习风格样本图像以及风格相似的模拟样本图像提高模型泛化能力。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，获取风格样本图像集合，具体可以包括：

获取待处理风格样本图像集合，其中，待处理风格样本图像集合包括K个待处理风格样本图像，K为大于N的整数；

本实施例中，介绍了一种基于k均值（K-means）聚类算法得到风格样本图像的方式。由前述实施例可知，首先需要获取待处理风格样本图像集合，其中，待处理风格样本图像集合包括K个待处理风格样本图像，然后通过聚类的方式得到内容样本图像集合。

具体地，首先针对于待处理风格样本图像集合中的每个待处理风格样本图像，将每个待处理风格样本图像输入至ResNet模型中，并通过池化层输出每个待处理风格样本图像所对应的嵌入向量特征。为了便于理解，请参阅图6，图6为本申请实施例中基于聚类算法生成风格样本图像集合的一个示意图，如图所示，假设待处理风格样本图像集合包括30个待处理风格样本图像，于是，根据第一聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对K个待处理风格样本图像进行聚类处理，得到P个第一聚类中心。并且根据第二聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对K个待处理风格样本图像进行聚类处理，得到Q个第二聚类中心。

假设第一聚类数量P为2，那么经过聚类后得到的聚类结果1和聚类结果2，其中，在聚类结果1中，“6号”嵌入向量特征与聚类结果1中的第一聚类中心距离最近，因此，认为该嵌入向量特征对应的待处理风格样本图像能够代表聚类结果，于是，将“6号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。类似地，将“27号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。

假设第二聚类数量Q为4，那么经过聚类后得到的聚类结果3、聚类结果4、聚类结果5和聚类结果6，类似地，将“17号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。将“15号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。将“11号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。将“4号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。

对于聚类结果而言，可更重视占大部分数据量的头部风格图像，多采用头部风格的图像作为风格样图像，具体视具体情况而定。需要说明的是，嵌入向量特征与聚类中心的距离可采用L2距离，也可以可采用欧式距离、曼哈顿距离、切比雪夫距离或者余弦距离等，此处不做限定。需要说明的是，图6所示的聚类方式仅为一个示意，且第一聚类数量P可设置为10类，第二聚类数量Q可设置为100类，此处不做限定。

可以理解的是，基于K-means聚类算法还可以得到内容样本图像，且对内容样本图像聚类的方式与对风格样本图像聚类的方式类似，故此处不做赘述。此外，需要说明的是，除了采用K-means聚类算法，还可以根据数据分布情况采取其他类型的聚类算法，包含但不仅限于基于密度的聚类方法以及均值漂移聚类等，此处仅为一个示意，不应理解为对本申请的限定。

再次，本申请实施例中，提供了一种基于K-means聚类算法得到风格样本图像的方式，通过上述方式，考虑到每个场景类别可能会有多种细分风格不同的表现形式，因此，对大量的风格样本图像进行并行聚类，即分别得到一个细粒度的聚类和更细粒度的聚类，由此，能够得到类型更加丰富的风格样本图像，越丰富的风格样本图像越能够使得模型泛化到更全面的目标域特征学习中。

本实施例中，介绍了另一种基于K-means聚类算法得到风格样本图像的方式。由前述实施例可知，首先需要获取待处理风格样本图像集合，其中，待处理风格样本图像集合包括K个待处理风格样本图像，然后通过聚类的方式得到内容样本图像集合。

具体地，首先针对于待处理风格样本图像集合中的每个待处理风格样本图像，将每个待处理风格样本图像输入至ResNet模型中，并通过池化层输出每个待处理风格样本图像所对应的嵌入向量特征。为了便于理解，请参阅图7，图7为本申请实施例中基于聚类算法生成风格样本图像集合的另一个示意图，如图所示，假设待处理风格样本图像集合包括30个待处理风格样本图像，于是，根据第一聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对K个待处理风格样本图像进行聚类处理，得到T个第一聚类结果。在此基础上，根据第二聚类数量以及每个待处理风格样本图像所对应的嵌入向量特征，对每个第一聚类结果中的待处理风格样本图像进行聚类处理，得到W个第二聚类结果。

假设第一聚类数量T为2，第二聚类数量W也为2，那么经过聚类后得到的第一聚类结果1和第一聚类结果2，于是，分别对第一聚类结果1和第一聚类结果2再进行聚类，得到(T*W)个第二聚类结果对应的聚类中心，即得到4个聚类中心。其中，在第二聚类结果1中，“17号”嵌入向量特征与第二聚类结果1中的聚类中心距离最近，因此，认为该嵌入向量特征对应的待处理风格样本图像能够代表聚类结果，于是，将“17号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。

类似地，将“6号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。将“27号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。将“4号”嵌入向量特征对应的待处理风格样本图像作为风格样本图像集合中的风格样本图像。

对于聚类结果而言，可更重视占大部分数据量的头部风格图像，多采用头部风格的图像作为风格样图像，具体视具体情况而定。需要说明的是，嵌入向量特征与聚类中心的距离可采用L2距离，也可以可采用欧式距离、曼哈顿距离、切比雪夫距离或者余弦距离等，此处不做限定。需要说明的是，图6所示的聚类方式仅为一个示意，且第一聚类数量T可设置为10类，第二聚类数量W可设置为100类，此处不做限定。

可以理解的是，基于K-means聚类算法还可以得到内容样本图像，且对内容样本图像聚类的方式与对风格样本图像聚类的方式类似，故此处不做赘述。此外，需要说明的是，除了采用K-means聚类算法，还可以根据数据分布情况采取其他类型的聚类算法，包含但不仅限于基于密度的聚类方法以及均值漂移聚类等，

再次，本申请实施例中，提供了另一种基于K-means聚类算法得到风格样本图像的方式，通过上述方式，考虑到每个场景类别可能会有多种细分风格不同的表现形式，因此，对大量的风格样本图像进行两次聚类，即得到较细粒度的聚类，由此，能够得到类型更加丰富的风格样本图像，越丰富的风格样本图像越能够使得模型泛化到更全面的目标域特征学习中。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，针对于待处理风格样本图像集合中的每个待处理风格样本图像，获取每个待处理风格样本图像所对应的嵌入向量特征，具体可以包括：

针对于待处理风格样本图像集合中的每个待处理风格样本图像，通过特征提取网络所包括的卷积层获取每个待处理风格样本图像所对应的特征图；

本实施例中，介绍了一种基于残差网络提取嵌入向量特征的方式。由前述实施例可知，可采用ResNet模型输出图像的嵌入向量特征，本申请以ResNet-101模型为例进行介绍，需要说明的是，这不应理解为对模型类型的限定。

具体地，ResNet-101模型的特征模块结构如下表1所示，请参阅表1。

表1

由表1可知，卷积层（Conv1）至卷积层（Conv5）采用基于ImageNet数据集预训练得到的 ResNet-101是参数。以卷积层2为例，其中包括3个残差模块（block），为了便于理解，请参阅图8，图8为本申请实施例中残差模块的一个结构示意图，如图所示，通过残差模块中的第一个1×1卷积层，将256维通道数的特征图降到64维通道数的特征图。然后采用残差模块中的第二个3×3卷积层对64维通道数的特征图进行卷积。最后采用残差模块中的第三个1×1卷积层，将64维通道数的特征图恢复到256维通道数的特征图。

经过卷积层（Conv1）至卷积层（Conv5）之后，添加池化层和全连接层，全连接层可采用方差为0.01，均值为0的高斯分布进行初始化，请参阅表2，表2为场景分类模块结构的一个示意。

表2

其中，全连接层1对应于场景标签的C分类，全连接层2对应于风格标签的二分类。

结合表1和表2的模块结构，特征提取网络包括表1所示的5个卷积层以及表2所示的池化层，基于此，对于待处理风格样本图像集合中的每个待处理风格样本图像而言，通过特征提取网络所包括的卷积层提取对应的特征图，然后通过特征提取网络所包括的池化层获取每个待处理风格样本图像所对应的嵌入向量特征。

可以理解的是，在实际应用中，还可以采用ResNet-34或者ResNet-50等网络提取图像的嵌入向量特征，上述例子仅为一个示意，不应理解为对本申请的限定。

进一步地，本申请实施例中，提供了一种基于残差网络提取嵌入向量特征的方式，通过上述方式，利用残差网络很好地解决了深度神经网络的退化问题，并且在同等层数的前提下残差网络也收敛得更快。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据待训练内容样本图像以及待训练风格样本图像，生成待训练模拟样本图像，具体可以包括：

基于待训练内容样本图像以及待训练风格样本图像，通过风格转换模型所包括的特征提取器网络，获取待训练内容样本图像所对应的第一特征空间，以及待训练风格样本图像所对应的第二特征空间；

本实施例中，介绍了一种基于自适应实例规范化（Adaptive InstanceNormalization，AdaIN）模型生成待训练模拟样本图像的方式。图像风格迁移的一种实现方式为，通过待训练内容样本图像和待训练风格样本图像分别解码后得到风格和内容的特征，通过让内容特征分布的均值方差与风格特征分别的均值方差一致（作为监督信息），使得待训练内容样本图像具有待训练风格样本图像的风格特征。

具体地，为了便于理解，请参阅图9，图9为本申请实施例中基于风格转换模型生成待训练模拟样本图像的一个示意图，如图所示，假设白色边框表示待训练内容样本图像的风格，黑色边框表示待训练风格样本图像的风格，灰色内部表示待训练内容样本图像的内容，白色内部表示待训练风格样本图像的内容。将待训练内容样本图像以及待训练风格样本图像一起输入至风格转换模型所包括的特征提取器网络，其中，特征提取器网络可采用计算机视觉组（Visual Geometry Group Network，VGG）网络。通过特征提取器网络分别提取待训练内容样本图像所对应的第一特征空间，以及待训练风格样本图像所对应的第二特征空间，从而达到样本图像从图像空间转换到特征空间的目的。

然后将第一特征空间以及第二特征空间共同输入风格转换模型所包括的样式变换层，其中，样式变换层即为AdaIN层，AdaIN层能够将第一特征空间的通道平均值和方差与第二特征空间的通道平均值和方差对齐，得到归一化的结果，即得到目标特征空间。变换方式可参阅如下公式：

；

其中，

表示待训练内容样本图像，

表示待训练风格样本图像，

表示待训练内容样本图像的方差，

表示待训练风格样本图像的方差，

表示待训练内容样本图像在通道上的均值，

表示待训练风格样本图像在通道上的均值。

风格转换模型所包括的解码器网络是一个将特征空间转成图像空间的网络，这部分网络通常采用和特征提取器网络对称的网络结构。将目标特征空间输入至风格转换模型所包括的解码器网络后，即可得到待训练模拟样本图像。

基于图9所示的风格转换模型，下面将介绍风格转换模型的训练方式。为了便于理解，请参阅图10，图10为本申请实施例中训练风格转换模型的一个示意图，如图所示，训练过程中，需要计算待训练模拟样本图像的均值和方差与待训练风格样本图像的均值和方差的差异Ls，并且计算待训练模拟样本图像的均值和方差与监督特征的差异Lc，将Ls和Lc共同作为最终的监督信息。即，采用如下方式计算Ls和Lc：

；

；

其中，

表示待训练模拟样本图像的均值和方差与待训练风格样本图像的均值和方差的差异，

表示通道上的均值，

表示方差，

表示内容图像，

表示AdaIN层输出的深度特征，

表示解码器网络输出的模拟图像，

表示风格图像，

表示特征提取器网络。

其次，本申请实施例中，提供了一种基于AdaIN模型生成待训练模拟样本图像的方式，通过上述方式，输入任意待训练内容样本图像以及待训练风格样本图像，都能够完成风格迁移，从而实现多风格迁移。此外，虽然样式交换操作耗时较多，且占用内存，但是样式变换层与实例规范化（Instance Normalization，IN）层类似，其结构简单，几乎不增加计算成本。

根据待训练风格样本图像所对应第二风格标签，确定风格转换模型；

本实施例中，介绍了一种基于快速风格迁移生成待训练模拟样本图像的方式。图像风格迁移的另一种实现方式为，根据待训练风格样本图像的第二风格标签，选择相应的风格转换模型，该风格转换模型为快速图像风格迁移模型。然后将待训练内容样本图像输入至风格转换模型，由此生成待训练模拟样本图像。

具体地，为了便于理解，请参阅图11，图11为本申请实施例中基于风格转换模型生成待训练模拟样本图像的另一个示意图，如图所示，风格转换模型包括卷积网络、残差网络以及反卷积网络，其中，卷积网络可包括三个卷积层，残差网络可包括五个残差层，反卷积网络可包括两个反卷积层。将待训练内容样本图像输入至风格转换模型之后，输出相应的待训练模拟样本图像。

基于图11所示的风格转换模型，下面将介绍风格转换模型的训练方式。为了便于理解，请参阅图12，图12为本申请实施例中训练风格转换模型的另一个示意图，训练过程中需要加入损失网络，损失网络具体可以是VGG16标准的深度卷积神经网络。该损失网络具有高级语义特征，只需要一次前向传播获得特征层特征图。将内容图像输入至待训练的风格转换模型，得到模拟图像，将模拟图像输入至固定的损失网络，分别与目标内容图像以及目标风格图像的指定特征层计算损失值，通过最小化损失值来训练风格转换模型。

其次，本申请实施例中，提供了一种基于快速风格迁移生成待训练模拟样本图像的方式，通过上述方式，可以预先训练一个或多个单风格快速迁移的风格转换模型，在实际应用中，选择相应的风格转换模型进行图像风格的转换，从而增加方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签以及第二预测风格标签，对待训练图像识别模型的模型参数进行更新，具体可以包括：

根据待训练模拟样本图像的第一场景标签以及第一预测场景标签，确定第一场景损失值；

本实施例中，介绍了一种基于目标损失值实现模型参数更新的方式。由前述实施例可知，总的损失值（即目标损失值）由两部分组成，分别为场景类别损失和风格类别损失。对于待训练模拟样本图像和待训练风格样本图像而言，均需要区分场景类别和风格类别。

具体地，场景类别损失包括第一场景损失值和第二场景损失值，可采用二进制交叉熵（binary cross entropy，BCE）计算第一场景损失值或第二场景损失值，计算方式如下：

；

其中，

表示场景损失值（例如，第一场景损失值或第二场景损失值），

表示真实的场景标签，

表示模型预测的场景标签，

表示场景标签的类别数量。

风格类别损失包括第一风格损失值和第二风格损失值，可采用交叉熵（crossentropy，CE）计算第一风格损失值或第二风格损失值，计算方式如下：

；

其中，

表示风格损失值（例如，第一风格损失值或第二风格损失值），

表示真实的风格标签，

表示模型预测的风格标签。

最后，基于上述式子分别计算得到第一场景损失值、第一风格损失值、第二场景损失值以及第二风格损失值，再对第一场景损失值、第一风格损失值、第二场景损失值以及第二风格损失值进行求和之后，即可得到目标损失值，由此，可采用目标损失值对待训练图像识别模型的模型参数进行更新。

其次，本申请实施例中，提供了一种基于目标损失值实现模型参数更新的方式，通过上述方式，基于分类损失函数分别计算待训练模拟样本图像和待训练风格样本图像的相关损失值，基于这些损失值对模型参数进行收敛，提升模型训练效率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，还可以包括：

基于待训练内容样本图像，通过待训练图像识别模型获取待训练内容样本图像的第三预测场景标签以及第三预测风格标签；

根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签以及第二预测风格标签，对待训练图像识别模型的模型参数进行更新，具体可以包括：

根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签、第二预测风格标签、待训练内容样本图像的第一场景标签、第三预测场景标签、待训练内容样本图像的第一风格标签以及第三预测风格标签，对待训练图像识别模型的模型参数进行更新。

本实施例中，介绍了一种结合待训练内容样本图像训练图像识别模型的方式。为了提升图像识别模型对于源域和目标域的辨识能力，在模型训练过程中，还可以加入待训练内容样本图像的标注结果和预测结果之间的损失值，作为总的损失值（即目标损失值）的一部分。

具体地，图像识别模型将待训练内容样本图像输入至待训练图像识别模型，通过待训练图像识别模型输出第三预测场景标签以及第三预测风格标签，于是，图像识别模型训练装置结合待训练模拟样本图像的第一场景标签与第一预测场景标签之间的损失值，待训练模拟样本图像的第二风格标签与第一预测风格标签之间的损失值，待训练风格样本图像的第二场景标签与第二预测场景标签之间的损失值，待训练风格样本图像的第二风格标签与第二预测风格标签之间的损失值，以及待训练内容样本图像的第三风格标签与第三预测风格标签之间的损失值，计算得到一个总的损失值（即目标损失值），并反向传播到待训练图像识别模型，通过SGD法更新待训练图像识别模型的模型参数，从而实现模型参数优化。经过多轮迭代训练后，即可得到满足模型训练条件的图像识别模型。

可以理解的是，待训练图像识别模型的模型参数包括神经网络模型的卷积模板参数和偏置参数，把模型的所有参数都设为需要学习状态。

对于图像识别模型而言，利用源域数据和目标域数据进行联合学习，建立在混合风格的场景间共性的学习能力，并且建立模型对风格辨识能力，使得特征具备风格识别和场景区分能力，从而对最终的特定风格场景具备识别。

其次，本申请实施例中，提供了一种结合待训练内容样本图像训练图像识别模型的方式，通过上述方式，进一步加入待训练内容样本图像的预测风格标签和预测场景标签进行训练，能够增强图像识别模型对于风格和场景的辨识程度，进一步提升图像识别模型的泛化能力。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签、第二预测风格标签、待训练内容样本图像的第一场景标签、第三预测场景标签、待训练内容样本图像的第一风格标签以及第三预测风格标签，对待训练图像识别模型的模型参数进行更新，包括：

具体地，场景类别损失包括第一场景损失值、第二场景损失值和第三场景损失，可采用BCE计算第一场景损失值、第二场景损失值或第三场景损失，计算方式如下：

；

其中，

表示场景损失值（例如，第一场景损失值、第二场景损失值或第三场景损失），

表示真实的场景标签，

表示模型预测的场景标签，

表示场景标签的类别数量。

风格类别损失包括第一风格损失值、第二风格损失值和第三风格损失值，可采用CE计算第一风格损失值、第二风格损失值或第三风格损失值，计算方式如下：

；

其中，

表示风格损失值（例如，第一风格损失值、第二风格损失值或第三风格损失值），

表示真实的风格标签，

表示模型预测的风格标签。

最后，基于上述式子分别计算得到第一场景损失值、第一风格损失值、第二场景损失值、第二风格损失值、第三场景损失值以及第三风格损失值，再对第一场景损失值、第一风格损失值、第二场景损失值、第二风格损失值第三场景损失值以及第三风格损失值进行求和之后，即可得到目标损失值，由此，可采用目标损失值对待训练图像识别模型的模型参数进行更新。

再次，本申请实施例中，提供了一种基于目标损失值实现模型参数更新的方式，通过上述方式，基于分类损失函数分别计算待训练模拟样本图像、待训练风格样本图像以及待训练内容样本图像的相关损失值，基于这些损失值对模型参数进行收敛，提升模型训练效率。

结合上述介绍，下面将对本申请中图像识别的方法进行介绍，请参阅图13，本申请实施例中图像识别方法的一个实施例包括：

201、获取待识别图像；

本实施例中，图像识别装置获取待识别图像，其中，该待识别图像可以是目标域下的图像，例如，ACG领域下的图像。也可以是源域下的图像，例如，真实领域下的图像。

需要说明的是，图像识别装置可部署于服务器，或者，部署于终端设备，又或者部署于由服务器和终端设备组成的系统，此处不做限定。

202、基于待识别图像，通过图像识别模型获取预测场景标签以及预测风格标签，其中，图像识别模型为采用上述实施例提供的训练方法训练得到的；

本实施例中，图像识别装置将待识别图像输入至训练好的图像识别模型中，通过图像识别模型输出预测场景标签以及预测风格标签。具体地，预测场景标签可以为“海边场景”，预测风格标签可以为“ACG风格”。

需要说明的是，该图像识别模型是采用上述图3对应的各个实施例训练得到的，故此处不做赘述。

203、根据预测场景标签以及预测风格标签，确定待识别图像的图像识别结果。

本实施例中，图像识别装置根据预测场景标签以及预测风格标签，确定待识别图像的图像识别结果。进一步地，还可以显示图像识别结果，例如，预测场景标签为“海边场景”，预测风格标签为“ACG风格”。

具体地，图像识别模型可用于视频应用平台，提供对视频进行识别的服务，也可用于手机拍照的场景识别或者互联网图片场景识别等方面。为了便于理解，请参阅图14，图14为本申请实施例中图像识别方法的一个应用架构示意图，如图所示，属于前端的终端设备A接收待识别图像，其中，待识别图像可以是视频解析后得到的图片，也可以是用户输入的图片。由终端设备A将待识别图像上传至后端的服务器，由服务器调用训练好的图像识别模型对待识别图像进行识别，得到图像识别结果。最后，服务器将图像识别结果反馈至前端的终端设备B。可以理解的是，终端设备A和终端设备B可以是同一个终端设备，或者是不同的终端设备，此处不做限定。

本申请实施例中，提供了一种图像识别的方法，通过上述方式，利用图像识别模型可对目标域下的图像进行识别，且目标域可以是新的领域，从而增加了图像识别的准确性和灵活性。

下面对本申请中的图像识别模型训练装置进行详细描述，请参阅图15，图15为本申请实施例中图像识别模型训练装置的一个实施例示意图，图像识别模型训练装置30包括：

获取模块301，用于获取待训练内容样本图像以及待训练风格样本图像，其中，待训练内容样本图像具有已标注的第一场景标签以及已标注的第一风格标签，待训练风格样本图像具有已标注的第二场景标签以及已标注的第二风格标签，第一风格标签与第二风格标签属于不同的风格标签类型；

生成模块302，用于根据待训练内容样本图像以及待训练风格样本图像，生成待训练模拟样本图像，其中，待训练模拟样本图像具有第一场景标签以及第二风格标签；

获取模块301，还用于基于待训练模拟样本图像，通过待训练图像识别模型获取待训练模拟样本图像的第一预测场景标签以及第一预测风格标签；

获取模块301，还用于基于待训练风格样本图像，通过待训练图像识别模型获取待训练风格样本图像的第二预测场景标签以及第二预测风格标签；

训练模块303，用于根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签以及第二预测风格标签，对待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型。

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，在属于源域的待训练内容样本图像数量较多，而属于目标域的待训练风格样本图像数量较少的情况下，借助待训练风格样本图像和待训练内容样本图像学习得到新的待训练模拟样本图像，其中，待训练模拟样本图像具有与待训练风格样本图像相同的图像风格，并且具有与待训练内容样本图像相同的图像内容，因此，在无需人力标注样本图像的情况下，有效利用已标注的图像样本扩展出更多属于目标域的样本图像，由此，满足属于目标域中不同场景数据的收集需求，从而有助于提升图像识别模型的泛化能力。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的图像识别模型训练装置30的另一实施例中，

获取模块301，具体用于获取内容样本图像集合，其中，内容样本图像集合包括M个内容样本图像，M为大于1的整数；

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，在生成模拟样本图像的过程中，可随机从内容样本图像集合中取出待训练内容样本图像，以及从风格样本图像集合中取出待训练风格样本图像，由此，可以增加模拟样本图像的多样性，通过同时学习风格样本图像以及风格相似的模拟样本图像提高模型泛化能力。

获取模块301，具体用于获取待处理风格样本图像集合，其中，待处理风格样本图像集合包括K个待处理风格样本图像，K为大于N的整数；

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，考虑到每个场景类别可能会有多种细分风格不同的表现形式，因此，对大量的风格样本图像进行并行聚类，即分别得到一个细粒度的聚类和更细粒度的聚类，由此，能够得到类型更加丰富的风格样本图像，越丰富的风格样本图像越能够使得模型泛化到更全面的目标域特征学习中。

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，考虑到每个场景类别可能会有多种细分风格不同的表现形式，因此，对大量的风格样本图像进行两次聚类，即得到较细粒度的聚类，由此，能够得到类型更加丰富的风格样本图像，越丰富的风格样本图像越能够使得模型泛化到更全面的目标域特征学习中。

获取模块301，具体用于针对于待处理风格样本图像集合中的每个待处理风格样本图像，通过特征提取网络所包括的卷积层获取每个待处理风格样本图像所对应的特征图；

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，利用残差网络很好地解决了深度神经网络的退化问题，并且在同等层数的前提下残差网络也收敛得更快。

生成模块302，具体用于基于待训练内容样本图像以及待训练风格样本图像，通过风格转换模型所包括的特征提取器网络，获取待训练内容样本图像所对应的第一特征空间，以及待训练风格样本图像所对应的第二特征空间；

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，输入任意待训练内容样本图像以及待训练风格样本图像，都能够完成风格迁移，从而实现多风格迁移。此外，虽然样式交换操作耗时较多，且占用内存，但是样式变换层与实例规范化（InstanceNormalization，IN）层类似，其结构简单，几乎不增加计算成本。

生成模块302，具体用于根据待训练风格样本图像所对应第二风格标签，确定风格转换模型；

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，可以预先训练一个或多个单风格快速迁移的风格转换模型，在实际应用中，选择相应的风格转换模型进行图像风格的转换，从而增加方案的可行性和可操作性。

训练模块303，具体用于根据待训练模拟样本图像的第一场景标签以及第一预测场景标签，确定第一场景损失值；

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，基于分类损失函数分别计算待训练模拟样本图像和待训练风格样本图像的相关损失值，基于这些损失值对模型参数进行收敛，提升模型训练效率。

获取模块301，还用于基于待训练内容样本图像，通过待训练图像识别模型获取待训练内容样本图像的第三预测场景标签以及第三预测风格标签；

训练模块303，具体用于根据待训练模拟样本图像的第一场景标签、第一预测场景标签、待训练模拟样本图像的第二风格标签、第一预测风格标签、待训练风格样本图像的第二场景标签、第二预测场景标签、待训练风格样本图像的第二风格标签、第二预测风格标签、待训练内容样本图像的第一场景标签、第三预测场景标签、待训练内容样本图像的第一风格标签以及第三预测风格标签，对待训练图像识别模型的模型参数进行更新。

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，进一步加入待训练内容样本图像的预测风格标签和预测场景标签进行训练，能够增强图像识别模型对于风格和场景的辨识程度，进一步提升图像识别模型的泛化能力。

本申请实施例中，提供了一种图像识别模型训练装置，采用上述装置，基于分类损失函数分别计算待训练模拟样本图像、待训练风格样本图像以及待训练内容样本图像的相关损失值，基于这些损失值对模型参数进行收敛，提升模型训练效率。

下面对本申请中的图像识别装置进行详细描述，请参阅图16，图16为本申请实施例中图像识别装置的一个实施例示意图，图像识别装置40包括：

获取模块401，用于获取待识别图像；

获取模块401，还用于基于待识别图像，通过图像识别模型获取预测场景标签以及预测风格标签，其中，图像识别模型为采用上述方面的方法训练得到的；

识别模块402，用于根据预测场景标签以及预测风格标签，确定待识别图像的图像识别结果。

本申请实施例中，提供了一种图像识别装置，采用上述装置，利用图像识别模型可对目标域下的图像进行识别，且目标域可以是新的领域，从而增加了图像识别的准确性和灵活性。

本申请实施例还提供了另一种图像识别模型训练装置，以及另一种图像识别装置，可部署于服务器。图17是本申请实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（centralprocessing units，CPU）522（例如，一个或一个以上处理器）和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。

本申请实施例还提供了另一种图像识别模型训练装置，以及另一种图像识别装置，可部署于终端设备。如图18所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。在本申请实施例中，以终端设备为智能手机为例进行说明：

图18示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图18，智能手机包括：射频（radio frequency，RF）电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真（wireless fidelity，WiFi）模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图18中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图18对智能手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（low noiseamplifier，LNA）、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（globalsystem of mobile communication，GSM）、通用分组无线服务（general packet radioservice，GPRS）、码分多址（code division multiple access，CDMA）、宽带码分多址（wideband code division multiple access, WCDMA）、长期演进（long termevolution，LTE）、电子邮件、短消息服务（short messaging service，SMS）等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器（liquidcrystal display，LCD）、有机发光二极管（organic light-emitting diode，OLED）等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图18中，触控面板631与显示面板641是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与智能手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一智能手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图18示出了WiFi模块670，但是可以理解的是，其并不属于智能手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

智能手机还包括给各个部件供电的电源690（比如电池），可选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图18所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

获取待训练内容样本图像以及待训练风格样本图像，其中，所述待训练内容样本图像具有已标注的第一场景标签以及已标注的第一风格标签，所述待训练风格样本图像具有已标注的第二场景标签以及已标注的第二风格标签，所述第一风格标签与所述第二风格标签属于不同的风格标签类型；

根据所述待训练内容样本图像以及所述待训练风格样本图像，生成待训练模拟样本图像，其中，所述待训练模拟样本图像具有所述第一场景标签以及所述第二风格标签；

基于所述待训练模拟样本图像，通过待训练图像识别模型获取所述待训练模拟样本图像的第一预测场景标签以及第一预测风格标签；

基于所述待训练风格样本图像，通过所述待训练图像识别模型获取所述待训练风格样本图像的第二预测场景标签以及第二预测风格标签；

根据所述待训练模拟样本图像的所述第一场景标签、所述第一预测场景标签、所述待训练模拟样本图像的所述第二风格标签、所述第一预测风格标签、所述待训练风格样本图像的所述第二场景标签、所述第二预测场景标签、所述待训练风格样本图像的所述第二风格标签以及所述第二预测风格标签，对所述待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型；

其中，所述根据所述待训练模拟样本图像的所述第一场景标签、所述第一预测场景标签、所述待训练模拟样本图像的所述第二风格标签、所述第一预测风格标签、所述待训练风格样本图像的所述第二场景标签、所述第二预测场景标签、所述待训练风格样本图像的所述第二风格标签以及所述第二预测风格标签，对所述待训练图像识别模型的模型参数进行更新，包括：

根据所述待训练模拟样本图像的所述第一场景标签以及所述第一预测场景标签，确定第一场景损失值；

根据所述待训练模拟样本图像的所述第二风格标签以及所述第一预测风格标签，确定第一风格损失值；

根据所述待训练风格样本图像的所述第二场景标签以及所述第二预测场景标签，确定第二场景损失值；

根据所述待训练风格样本图像的所述第二风格标签以及所述第二预测风格标签，确定第二风格损失值；

对所述第一场景损失值、所述第一风格损失值、所述第二场景损失值以及所述第二风格损失值进行求和，得到目标损失值；

采用所述目标损失值对所述待训练图像识别模型的模型参数进行更新。

2.根据权利要求1所述的训练方法，其特征在于，所述获取待训练内容样本图像以及待训练风格样本图像，包括：

获取内容样本图像集合，其中，所述内容样本图像集合包括M个内容样本图像，所述M为大于1的整数；

将所述内容样本图像集合中的一个内容样本图像作为所述待训练内容样本图像；

获取风格样本图像集合，其中，所述风格样本图像集合包括N个风格样本图像，所述N为大于1的整数；

将所述风格样本图像集合中的一个风格样本图像作为所述待训练风格样本图像。

3.根据权利要求2所述的训练方法，其特征在于，所述获取风格样本图像集合，包括：

获取待处理风格样本图像集合，其中，所述待处理风格样本图像集合包括K个待处理风格样本图像，所述K为大于所述N的整数；

针对于所述待处理风格样本图像集合中的每个待处理风格样本图像，获取所述每个待处理风格样本图像所对应的嵌入向量特征；

根据第一聚类数量以及所述每个待处理风格样本图像所对应的嵌入向量特征，对所述K个待处理风格样本图像进行聚类处理，得到P个第一聚类中心，其中，所述第一聚类数量为所述P，所述P为大于或等于1，且小于所述K的整数；

根据第二聚类数量以及所述每个待处理风格样本图像所对应的嵌入向量特征，对所述K个待处理风格样本图像进行聚类处理，得到Q个第二聚类中心，其中，所述第二聚类数量为所述Q，所述Q为大于所述P且小于所述K的整数；

获取距离所述每个第一聚类中心最近的嵌入向量特征，得到P个嵌入向量特征；

获取距离所述每个第二聚类中心最近的嵌入向量特征，得到Q个嵌入向量特征；

根据所述P个嵌入向量特征中每个嵌入向量特征所对应的待处理风格样本图像，以及所述Q个嵌入向量特征中每个嵌入向量特征所对应的待处理风格样本图像，生成所述风格样本图像集合。

4.根据权利要求2所述的训练方法，其特征在于，所述获取风格样本图像集合，包括：

根据第一聚类数量以及所述每个待处理风格样本图像所对应的嵌入向量特征，对所述K个待处理风格样本图像进行聚类处理，得到T个第一聚类结果，其中，所述第一聚类数量为所述T，所述T为大于1，且小于所述K的整数；

根据第二聚类数量以及所述每个待处理风格样本图像所对应的嵌入向量特征，对所述每个第一聚类结果中的待处理风格样本图像进行聚类处理，得到W个第二聚类结果，其中，所述第二聚类数量为所述W，所述W为大于1，且小于所述K的整数；

根据所述每个第一聚类结果所包括的所述W个第二聚类结果，确定T*W个聚类中心；

获取距离所述每个聚类中心最近的嵌入向量特征，得到T*W个嵌入向量特征；

根据所述T*W个嵌入向量特征中每个嵌入向量特征所对应的待处理风格样本图像，生成所述风格样本图像集合。

5.根据权利要求3或4所述的训练方法，其特征在于，所述针对于所述待处理风格样本图像集合中的每个待处理风格样本图像，获取所述每个待处理风格样本图像所对应的嵌入向量特征，包括：

针对于所述待处理风格样本图像集合中的每个待处理风格样本图像，通过特征提取网络所包括的卷积层获取所述每个待处理风格样本图像所对应的特征图；

通过所述特征提取网络所包括的池化层获取所述每个待处理风格样本图像所对应的嵌入向量特征。

6.根据权利要求1所述的训练方法，其特征在于，所述根据所述待训练内容样本图像以及所述待训练风格样本图像，生成待训练模拟样本图像，包括：

基于所述待训练内容样本图像以及所述待训练风格样本图像，通过风格转换模型所包括的特征提取器网络，获取所述待训练内容样本图像所对应的第一特征空间，以及所述待训练风格样本图像所对应的第二特征空间；

基于所述第一特征空间以及所述第二特征空间，通过所述风格转换模型所包括的样式变换层获取目标特征空间；

基于所述目标特征空间，通过所述风格转换模型所包括的解码器网络获取所述待训练模拟样本图像。

7.根据权利要求1所述的训练方法，其特征在于，所述根据所述待训练内容样本图像以及所述待训练风格样本图像，生成待训练模拟样本图像，包括：

根据所述待训练风格样本图像所对应所述第二风格标签，确定风格转换模型；

基于所述待训练内容样本图像，通过所述风格转换模型获取所述待训练模拟样本图像。

8.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：

基于所述待训练内容样本图像，通过所述待训练图像识别模型获取所述待训练内容样本图像的第三预测场景标签以及第三预测风格标签；

所述根据所述待训练模拟样本图像的所述第一场景标签、所述第一预测场景标签、所述待训练模拟样本图像的所述第二风格标签、所述第一预测风格标签、所述待训练风格样本图像的所述第二场景标签、所述第二预测场景标签、所述待训练风格样本图像的所述第二风格标签以及所述第二预测风格标签，对所述待训练图像识别模型的模型参数进行更新，包括：

根据所述待训练模拟样本图像的所述第一场景标签、所述第一预测场景标签、所述待训练模拟样本图像的所述第二风格标签、所述第一预测风格标签、所述待训练风格样本图像的所述第二场景标签、所述第二预测场景标签、所述待训练风格样本图像的所述第二风格标签、所述第二预测风格标签、所述待训练内容样本图像的所述第一场景标签、所述第三预测场景标签、所述待训练内容样本图像的所述第一风格标签以及所述第三预测风格标签，对所述待训练图像识别模型的模型参数进行更新。

9.根据权利要求8所述的训练方法，其特征在于，所述根据所述待训练模拟样本图像的所述第一场景标签、所述第一预测场景标签、所述待训练模拟样本图像的所述第二风格标签、所述第一预测风格标签、所述待训练风格样本图像的所述第二场景标签、所述第二预测场景标签、所述待训练风格样本图像的所述第二风格标签、所述第二预测风格标签、所述待训练内容样本图像的所述第一场景标签、所述第三预测场景标签、所述待训练内容样本图像的所述第一风格标签以及所述第三预测风格标签，对所述待训练图像识别模型的模型参数进行更新，包括：

根据所述待训练内容样本图像的所述第一场景标签以及所述第三预测场景标签，确定第三场景损失值；

根据所述待训练内容样本图像的所述第一风格标签以及所述第三预测风格标签，确定第三风格损失值；

对所述第一场景损失值、所述第一风格损失值、所述第二场景损失值、所述第二风格损失值、所述第三场景损失值以及所述第三风格损失值进行求和，得到目标损失值；

10.一种图像识别的方法，其特征在于，包括：

获取待识别图像；

基于所述待识别图像，通过图像识别模型获取预测场景标签以及预测风格标签，其中，所述图像识别模型为采用如上述权利要求1至9中任一项训练方法训练得到的；

根据所述预测场景标签以及预测风格标签，确定所述待识别图像的图像识别结果。

11.一种图像识别模型训练装置，其特征在于，包括：

获取模块，用于获取待训练内容样本图像以及待训练风格样本图像，其中，所述待训练内容样本图像具有已标注的第一场景标签以及已标注的第一风格标签，所述待训练风格样本图像具有已标注的第二场景标签以及已标注的第二风格标签，所述第一风格标签与所述第二风格标签属于不同的风格标签类型；

生成模块，用于根据所述待训练内容样本图像以及所述待训练风格样本图像，生成待训练模拟样本图像，其中，所述待训练模拟样本图像具有所述第一场景标签以及所述第二风格标签；

所述获取模块，还用于基于所述待训练模拟样本图像，通过待训练图像识别模型获取所述待训练模拟样本图像的第一预测场景标签以及第一预测风格标签；

所述获取模块，还用于基于所述待训练风格样本图像，通过所述待训练图像识别模型获取所述待训练风格样本图像的第二预测场景标签以及第二预测风格标签；

训练模块，用于根据所述待训练模拟样本图像的所述第一场景标签、所述第一预测场景标签、所述待训练模拟样本图像的所述第二风格标签、所述第一预测风格标签、所述待训练风格样本图像的所述第二场景标签、所述第二预测场景标签、所述待训练风格样本图像的所述第二风格标签以及所述第二预测风格标签，对所述待训练图像识别模型的模型参数进行更新，直至满足模型训练条件，输出图像识别模型；

其中，所述训练模块具体用于：

12.一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；

所述获取模块，还用于基于所述待识别图像，通过图像识别模型获取预测场景标签以及预测风格标签，其中，所述图像识别模型为采用如上述权利要求1至9中任一项训练方法训练得到的；

确定模块，用于根据所述预测场景标签以及预测风格标签，确定所述待识别图像的图像识别结果。

13.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至9中任一项所述的训练方法，或，执行权利要求10所述的图像识别的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的训练方法，或，执行权利要求10所述的图像识别的方法。