CN114943746A

CN114943746A - 一种利用深度信息辅助和轮廓增强损失的运动迁移方法

Info

Publication number: CN114943746A
Application number: CN202210670980.0A
Authority: CN
Inventors: 张泽远; 夏贵羽; 罗冬; 马芙蓉
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-08-26

Abstract

本发明公开了一种利用深度信息辅助和轮廓增强损失的运动迁移方法，基于轮廓注意力GAN的深度图像生成器、基于自注意力机制的运动图像生成器、根据目标人物骨架和源人物骨架按照比例调整的姿态归一化、根据姿态归一化后的骨架实现运动迁移。本发明采用基于轮廓注意力GAN结合深度信息辅助的生成器，以弥补缺乏深度信息的缺陷并提高生成的轮廓细节的准确性，使用的自注意机制的生成器，提高了生成的纹理细节的质量，生成的运动图像具有可靠的深度信息和合理的轮廓。

Description

一种利用深度信息辅助和轮廓增强损失的运动迁移方法

技术领域

本发明涉及一种利用深度信息辅助和轮廓增强损失的运动迁移方法，属于图像处理技术领域。

背景技术

人体姿态迁移是近几年计算机视觉领域的研究热点，在人工智能的产业中有着许多应用场景，比如电影制作、在线娱乐、行人再识别。传统的运动迁移是通过计算机图形学技术，通过模拟复杂的物理模型实现的，会造成昂贵的时间和计算成本。现有的运动迁移任务是给定源图像的姿态关键点信息，利用生成对抗网络生成目标姿态对应的人图像，生成的图像在人的姿态动作上与目标姿态对应，纹理信息上与初始姿态图像纹理信息保持一致。由于生成神经网络的发展，用生成网络模拟计算机图形技术成为可能。通过GAN网络捕获外观纹理的概率分布情况，生成逼真的图像和视频。为我们的运动迁移任务的实现带来推动作用。

基于图像和视频的人体运动可以被看作是人的外表的变形过程，因此运动转移通常被看作是一个姿势引导的图像生成任务，可以通过基于GAN的框架来解决。然而，真实的运动发生在三维空间，在二维平面上生成的图像不可避免地缺乏原始运动的深度信息引导，这将导致不同身体部位深度的混淆。此外，GAN并不擅长处理区域统一的任务，而且对抗性损失对轮廓的细节没有很强的约束作用。势必会造成生成的运动图像轮廓变形或者缺失，细节模糊。

因此，人体姿态迁移中出现的轮廓变形或者缺失和图像细节模糊是本领域技术人员急需要解决的技术问题。

发明内容

目的：为了克服现有技术中存在的轮廓变形或者缺失和图像细节模糊的不足，本发明提供一种利用深度信息辅助和轮廓增强损失的运动迁移方法。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种利用深度信息辅助和轮廓增强损失的运动迁移方法，包括如下步骤：

利用目标人的骨架图和深度图对一阶段基于轮廓注意力GAN进行训练，获得训练好的一阶段基于轮廓注意力GAN的深度图像生成器。

将目标人的骨架图输入训练好的一阶段基于轮廓注意力GAN的深度图像生成器，输出目标人的一阶段深度图。

利用目标人的一阶段深度图和目标人的骨架图对二阶段基于自注意力机制GAN进行训练，获得训练好的二阶段基于自注意力机制GAN的运动图像生成器。

获取各姿态下源人物的骨架图，根据目标人的骨架图中骨段调整源人物的骨架图的每个骨段长度，得到源人物各姿态对应的归一化后源人物的骨架图。

将归一化后源人物的骨架图输入训练好的深度图像生成器，得到各姿态下的目标人物的深度图，再将各姿态下的目标人物的深度图与归一化后源人物的骨架图输入训练好的运动图像生成器，得到目标人物做源人物动作的运动图像。

作为优选方案，所述一阶段基于轮廓注意力GAN包括：深度图像生成器、HED网络、判别器D1，所述深度图像生成器用于根据输入的骨架图，生成深度图；所述HED网络用于从深度图中提取骨架图；所述判别器D1用于判别深度图像生成器生成的深度图是Real还是Fake。

作为优选方案，所述深度图像生成器包括：编码器、解码器，编码器与解码器之间设置有n对残差块、空间注意力块，n≥1。

作为优选方案，利用目标人的骨架图和深度图对一阶段基于轮廓注意力GAN进行训练，包括：深度图像生成器训练，判别器D1训练。

深度图像生成器训练时，在每次迭代中，将深度图像生成器的输出放入判别器D1中计算一阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述深度图像生成器的网络参数，直至达到训练次数上限，获得训练好的深度图像生成器。

判别器D1训练时，在每次迭代中，分别从训练数据和深度图像生成器的输出中取出一张图像，进行缩放后，同时输入判别器D1中，获得一阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述判别器D1的网络参数，直至达到训练次数上限，获得训练好的判别器D1。

作为优选方案，所述一阶段的总体损失函数计算公式如下：

其中，L_DEP(G₁)为轮廓损失，L_GAN1(G₁，D₁)为一阶段基于轮廓注意力GAN的损失，L_FM(G₁，D₁)为判别器D1的特征匹配损失，L_VGG(G₁)是深度图像生成器感知重建损失，λ_DEP、λ_FM、λ_VGG均为权重参数，

为深度图像生成器最小化损失函数、

为判别器D1最大化损失函数。

作为优选方案，所述二阶段基于自注意力机制GAN包括：运动图像生成器、判别器D2，所述运动图像生成器用于根据输入的深度图和骨架图，生成运动图像；所述判别器D2用于判别运动图像生成器生成的运动图像是Real还是Fake。

作为优选方案，所述运动图像生成器包括：编码器、解码器，编码器与解码器之间设置有m对残差块、自注意力层，m≥1。

作为优选方案，利用目标人的一阶段深度图和目标人的骨架图对二阶段基于自注意力机制GAN进行训练，包括：运动图像生成器训练，判别器D2训练。

深度图像生成器训练时，在每次迭代中，将运动图像生成器的输出放入判别器D2中计算二阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述运动图像生成器的网络参数，直至达到训练次数上限，获得训练好的运动图像生成器。

判别器D2训练时，在每次迭代中，分别从训练数据和运动图像生成器的输出中取出一张图像，进行缩放后，同时输入判别器D2中，获得二阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述判别器D2的网络参数，直至达到训练次数上限，获得训练好的判别器D2。

作为优选方案，所述二阶段的总体损失函数的计算公式如下：

其中，

为全局对抗损失，L_FM(G₂，D₂)为判别器D2的特征匹配损失，L_VGG(G₂)为运动图像生成器感知重建损失，λ_FM、λ_VGG均为权重参数，

为运动图像生成器最小化损失函数、

为判别器D2最大化损失函数。

有益效果：本发明提供的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，在第一阶段，使用一个带有轮廓增强损失的轮廓注意力GAN来生成目标人物的深度图。这不仅带来了三维空间中原始运动的深度信息，而且还将身体区域与可靠的轮廓对齐，以便于接下来的人物图像生成，采用基于轮廓注意力GAN结合深度信息辅助的生成器，以弥补缺乏深度信息的缺陷并提高生成的轮廓细节的准确性。在第二阶段，使用一个自我注意的GAN，以第一阶段生成的目标姿势和深度图为输入，生成最终的运动图像。所使用的自注意机制的生成器，提高了生成的纹理细节的质量，生成的运动图像具有可靠的深度信息和合理的轮廓。

附图说明

图1为本发明方法的流程示意图。

图2为一阶段基于轮廓注意力GAN网络训练示意图。

图3为二阶段基于自注意力机制GAN网络训练示意图。

图4为本发明运动迁移的流程示意图。

具体实施方式

下面结合具体实施例对本发明作更进一步的说明。

如图1所示，一种利用深度信息辅助和轮廓增强损失的运动迁移方法，包括如下步骤：

第一种实施例：

选取自己做的数据集对本发明进行验证分析，本文模型采取Python语言对模型进行架构，下面结合附图对本发明的技术方案做进一步的详细说明：

步骤1：获取目标人的运动图像S，作为一阶段基于轮廓注意力GAN网络、二阶段基于自注意力机制GAN网络的训练数据。

训练的数据是目标人物的视频帧。在拍摄视频的过程中，相机或者手机的位置是固定的。每个视频帧都是以512×512的分辨率剪切和排列形成目标人的运动图像S。将目标人的运动图像S采用当下较为成熟且准确的openpose网络来提取目标人的骨架图P。深度信息方面采用BMD网络提取高分辨率的目标人的深度图H。将目标人的骨架图P和深度图H作为训练数据。

步骤2：利用目标人的骨架图P和深度图H对一阶段基于轮廓注意力GAN进行训练，获得训练好的一阶段基于轮廓注意力GAN的深度图像生成器G1。

一阶段基于轮廓注意力GAN训练的过程，如图3所示。设计一个从骨架图P生成目标人的一阶段深度图He的模型来引入深度信息。

一阶段基于轮廓注意力GAN包括：深度图像生成器G1、HED网络、判别器D1，深度图像生成器G1采用的是编码解码的架构，并且中间添加的残差块和空间注意力块，输入目标人的骨架图P，输出目标人的一阶段深度图He。为了保证生成的深度图轮廓信息的准确性，还通过HED网络提取生成的目标人的一阶段深度图He和目标人的深度图H的骨架图Ye和骨架图Y两者做loss求得轮廓损失L_DEP(G₁)来约束深度图像生成器G1生成轮廓信息准确的深度图。判别器D1判别目标人的一阶段生成的深度图He是Real还是Fake，是一个二分类问题。G1、D1二者单独交替训练，同时定义迭代次数，交替迭代停止。不断的训练过程中进行博弈，同时提高G1、D1的能力，最终达到期望的动态平衡。

在轮廓损失的约束下，图像生成的时候，深度图像生成器G1中的空间注意力块会多聚焦在图像人物的轮廓部分，极大程度上解决了形变带来的轮廓丢失问题，提高网络的计算效率，确保生成图像的质量。

引入的空间注意力机制，将一阶段深度图像生成器G1中下采样后的featuremap作为空间注意力块的输入，将输入的featuremap最大池化和平均池化后的结果拼接在一块，经过一层卷积降维为单通道，再经过sigmoid生成空间注意力的权重，最后将权重和输入featuremap做乘法，得到经过注意力块后的特征。

为了生成的深度图具有较为准确的轮廓信息来保证与运动图像具有空间一致性。训练过程在轮廓损失的约束下，空间注意力侧重于轮廓是信息部分，沿着通道轴进行池化操作可以有效地突出显示信息区域。

使用卷积层来生成空间注意力图M_S(F)∈R^H×W。通过两个池化操作来聚合特征映射的通道信息，生成一个二维映射：

和

分别表示通道上的平均池化特征和最大池化特征。将它们连接然后通过卷积生成2D空间注意力图。空间注意力的计算如下：

这里的σ表示的是sigmoid函数，f^7×7代表滤波为7×7的滤波运算。

一阶段基于轮廓注意力GAN的深度图像生成器G1的结构为编码器，中间结构为每层残差块Residual block后都添加了一层空间注意力Spatial attention block，解码器，则经过残差块提取特征后的featuremap经过空间注意力块可以表示为：

F＝Res(f)M_S(f) (2)

这里的f是经过下采样的featuremap，Res(f)是经过残差块的featuremap，M_S(.)是计算出空间注意力的权重，计算得出的F既是上一层注意力层的输出，也作为下一层残差块的输入。

全局对抗损失对形状细节的约束比较弱，所以加入轮廓损失也就是传统的L2损失来强制一阶段基于轮廓注意力GAN模型关注身体的形状，旨在减少目标人的深度图真实样本H和生成的目标人的一阶段深度图He之间的差异。

在训练的过程中，因为在一阶段基于轮廓注意力GAN的深度图像生成器G1中添加的空间注意力模块会增大在轮廓信息上面的权重，起到相辅相成的作用，以便最终生成的深度图有更准确的形状信息。轮廓损失的公式如下：

其中HED(.)是提取轮廓的一种准确的方法，G1是一阶段基于轮廓注意力GAN的深度图像生成器，G1(P)是目标人的骨架图p生成的深度图，H是目标人的深度图的真实样本，E(·)表示数学期望。

深度图像生成器G1的主要工作是捕获真实样本H全局身体形状的分布和深度分布，并生成轮廓较为正确的深度图。

一阶段基于轮廓注意力GAN的损失公式如下：

L_GAN1(G₁，D₁)＝E_(P，H)[log D₁(P，H)]+E_p[log(1-D₁(P，G₁(P)))] (4)

E(·)表示数学期望，D₁(P，H)表示P作为条件，H为真实样本两者拼接作为判别器输入得出的概率值，G₁(P)表示P经过生成器后生成的样本，D₁(P，G₁(P))则是P作为条件，G₁(P)为假样本两者拼接作为判别器输入得出的概率值。

为了保证图像内容的全局一致性，采用了特征匹配损失和感知重建损失。L_FM(G₁，D₁)是判别器D1的特征匹配损失，如公式5所示。生成的深度图像被输入到判别器D1，以比较不同层特征之间的差异。D₁ ⁽ⁱ⁾表示判别器D₁中的第i层特征提取器。N_i表示每层中元素的数量，T它表示层的总数。

L_VGG(G₁)是G1感知重建损失，生成的图像和真实图像被输入预先训练的VGG网络，以比较不同层的特征。F⁽ⁱ⁾表示VGG网络的第三层特征提取器。M_i表示每层中的元素数，N表示总层数。

为了生成的深度图和真实样本之间的差异足够小，训练的过程中要最小化轮廓损失，特征匹配损失和感知重建损失。

一阶段的总体损失函数如下：

特征匹配损失和感知重建损失权重参数设置为：λ_FM＝λ_VGG＝20，最小化轮廓损失的权重参数设置为λ_DEP＝20，

为深度图像生成器最小化损失函数、

为判别器D1最大化损失函数。

在对一阶段基于轮廓注意力GAN训练时，包括深度图像生成器G1训练，判别器D1训练。

深度图像生成器G1训练时，在每次迭代中，将深度图像生成器G1的输出放入判别器D1中计算一阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述深度图像生成器G1的网络参数，直至达到训练次数上限，获得训练好的深度图像生成器G1。

判别器D1训练时，在每次迭代中，分别从训练数据和深度图像生成器G1的输出中取出一张图像，进行缩放后，同时输入判别器D1中，获得一阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述判别器D1的网络参数，直至达到训练次数上限，获得训练好的判别器D1。

步骤3：利用目标人的一阶段深度图He和目标人的骨架图P对二阶段基于自注意力机制GAN进行训练，获得训练好的二阶段基于自注意力机制GAN的运动图像生成器G2。

二阶段基于自注意力机制GAN训练的过程，如图3所示。将步骤2生成的目标人的一阶段深度图H和目标人的骨架图P拼接作为二阶段基于自注意力机制GAN的运动图像生成器G2输入，输出目标人的二阶段运动图像Se。

通过弥补的深度信息和形状信息，二阶段基于自注意力机制GAN可以更准确地估计整体特征的统计分布。二阶段基于自注意力机制GAN包括：运动图像生成器G2、判别器D2，为了进一步提高生成的质量，运动图像生成器G2中加入了自注意力机制。判别器D2判别目标人的二阶段运动图像Se是Real还是Fake，是一个二分类问题。G2、D2二者单独交替训练，同时定义迭代次数，交替迭代停止。不断的训练过程中进行博弈，同时提高G2、D2的能力，最终达到期望的动态平衡。

生成器G2的结构为编码器，中间结构为每层残差块Residual block后都添加了一层自注意力层，解码器。注意力机制将运动图像生成器G2下采样后CxHxW维度的featuremap2作为输入，C表示通道，H表示高，W表示宽，经过全局建模模块将全局信息压缩成Cx1x1维度的featuremap2，然后经过瓶颈层变换模块捕获通道上的依赖，最后将变换后的特征维度为Cx1x1加到输入CxHxW维度的featuremap2中，将全局信息公用到每一个点上。具体公式如下：

将

也就是目标人的一阶段深度图He和目标人的骨架图P拼接后经过运动图像生成器G2下采样后的CxHxW维度的特征图作为输入，Z为运动图像生成器G2输出。C_p是featuremap2里面的位置数，(例如对于图片来说有H×W个)，i，j，m是query的位置索引。W_k，W_v1，W_v2表示的是线性变换矩阵(例如1×1的卷积)。这里的

是全局注意力的权重值，δ(.)＝W_v2ReLu(LN(W_v1(.)))表示的是瓶颈层变换模块的过程，LN(.)表示层归一化，ReLu为激活函数。经过G2中每层残差块Residual block和自注意力层输出后得到的特征经过解码器上采样得出生成的运动图像Se。

相应地二阶段基于自注意力机制GAN损失函数如下：

运动图像生成器G2的最终目标是为了生成与真实的目标人的运动图像全局分布一致的目标人的二阶段运动图像Se，全局对抗损失如下：

E(·)表示数学期望，D₂(P，H，S)表示P，H作为条件，S为真实样本三者拼接作为判别器输入得出的概率值，G₂(P，H)表示P，H经过生成器后生成的样本，D₂(P，H，G₂(P，H))则是P，H作为条件，G₂(P，H)为假样本三者拼接作为判别器输入得出的概率值。

同样地，在二阶段为了保证图像内容的全局一致性，我们采用了特征匹配损失和感知重建损失。L_FM(G₂，D₂)是判别器D2的特征匹配损失，如公式10所示。生成的运动图像被输入到判别器D2，以比较不同层特征之间的差异。D₂ ⁽ⁱ⁾表示是判别器D₂中的第i层特征提取器。N_i表示每层中元素的数量，T它表示层的总数。

L_VGG(G₂)是G2感知重建损失，生成的运动图像和真实运动图像被输入预先训练的VGG网络，以比较不同层的特征。F⁽ⁱ⁾表示VGG网络的第三层特征提取器。M_i表示每层中的元素数，N表示总层数。

二阶段的总损失如下；

二阶段的特征匹配损失和感知重建损失权重参数设置为：λ_FM＝λ_VCG＝20，

为运动图像生成器最小化损失函数、

为判别器D2最大化损失函数。

在对一阶段自注意力机制GAN训练时，包括运动图像生成器G2训练，判别器D2训练。

深度图像生成器G2训练时，在每次迭代中，将运动图像生成器G2的输出放入判别器D2中计算二阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述运动图像生成器G2的网络参数，直至达到训练次数上限，获得训练好的运动图像生成器G2。

判别器D2训练时，在每次迭代中，分别从训练数据和运动图像生成器G2的输出中取出一张图像，进行缩放后，同时输入判别器D2中，获得二阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述判别器D2的网络参数，直至达到训练次数上限，获得训练好的判别器D2。

步骤4：如图4所示，获取源人物运动图像X，利用openpose网络从源人物运动图像X中提取源人物的骨架图X_p，调整源人物的骨架图X_p的每个骨段长度，使其接近目标人。二维运动的表示是三维运动的投影，因此图像中骨骼段的长度不是固定的。经过2D投影后，不同方向的骨骼段显示不同的长度，因此很难准确知道骨骼段的确切长度。

投影骨段的最大长度最接近真实长度，因此使用训练数据集中的最大投影骨段长度来近似真实长度。源人物新姿势的实际骨骼段长度可以用同样的方法来与目标人物的骨骼段长度近似。然后，根据目标人物的姿势和源人物新姿势之间的比例来调整相应的骨骼段长度。

d_i表示新姿势的第i个关节坐标，

表示其第个i父关节坐标。d_i由

进行调整，其中

和

分别表示目标人的骨架图P中第i个关节与其父关节之间的最大骨段长度、源人物的骨架图X_p中第i个关节与其父关节之间的最大骨段长度。通过该方法得到各姿势下归一化后源人物的骨架图X_pn。

步骤5：本发明提出了利用深度信息辅助和轮廓增强损失的运动迁移方法，包含两个阶段的GAN，分别通过一阶段基于轮廓注意力GAN的深度图像生成器G1、二阶段基于自注意力机制GAN的运动图像生成器G2来完成的动作迁移。

将归一化后源人物的骨架图X_pn输入训练好的深度图像生成器G1，得到各姿态下的目标人物的深度图D_pn，再将各姿态下的目标人物的深度图D_pn与归一化后源人物的骨架图X_pn输入训练好的运动图像生成器G2，得到目标人物做源人物动作的运动图像Y，从而完成整个由源人物到目标人物运动迁移的过程。

本发明考虑到当今社会基于短视频和电影制作的新兴视觉技术可以极大增强用户体验，为视频文化注入新的活力，本发明的应用范围如下：

(1)在文娱领域我们可以通过我们的模型让普通人模仿专业舞者的动作，提升用户体验，增加生活幸福感。

(2)在电影制作领域，可以用低成本做出高难度的特技动作。

(3)在行人重识别领域，我们可以用我们的方法扩充某个人不同姿态下的数据集，提高行人重识别的准确性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：包括如下步骤：

利用目标人的骨架图和深度图对一阶段基于轮廓注意力GAN进行训练，获得训练好的一阶段基于轮廓注意力GAN的深度图像生成器；

将目标人的骨架图输入训练好的一阶段基于轮廓注意力GAN的深度图像生成器，输出目标人的一阶段深度图；

利用目标人的一阶段深度图和目标人的骨架图对二阶段基于自注意力机制GAN进行训练，获得训练好的二阶段基于自注意力机制GAN的运动图像生成器；

获取各姿态下源人物的骨架图，根据目标人的骨架图中骨段调整源人物的骨架图的每个骨段长度，得到源人物各姿态对应的归一化后源人物的骨架图；

2.根据权利要求1所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：所述一阶段基于轮廓注意力GAN包括：深度图像生成器、HED网络、判别器D1，所述深度图像生成器用于根据输入的骨架图，生成深度图；所述HED网络用于从深度图中提取骨架图；所述判别器D1用于判别深度图像生成器生成的深度图是Real还是Fake。

3.根据权利要求2所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：所述深度图像生成器包括：编码器、解码器，编码器与解码器之间设置有n对残差块、空间注意力块，n≥1。

4.根据权利要求2所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：利用目标人的骨架图和深度图对一阶段基于轮廓注意力GAN进行训练，包括：深度图像生成器训练，判别器D1训练；

深度图像生成器训练时，在每次迭代中，将深度图像生成器的输出放入判别器D1中计算一阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述深度图像生成器的网络参数，直至达到训练次数上限，获得训练好的深度图像生成器；

5.根据权利要求4所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：所述一阶段的总体损失函数计算公式如下：

为深度图像生成器最小化损失函数、

为判别器D1最大化损失函数。

6.根据权利要求1所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：所述二阶段基于自注意力机制GAN包括：运动图像生成器、判别器D2，所述运动图像生成器用于根据输入的深度图和骨架图，生成运动图像；所述判别器D2用于判别运动图像生成器生成的运动图像是Real还是Fake。

7.根据权利要求6所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：所述运动图像生成器包括：编码器、解码器，编码器与解码器之间设置有m对残差块、自注意力层，m≥1。

8.根据权利要求6所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：利用目标人的一阶段深度图和目标人的骨架图对二阶段基于自注意力机制GAN进行训练，包括：运动图像生成器训练，判别器D2训练；

深度图像生成器训练时，在每次迭代中，将运动图像生成器的输出放入判别器D2中计算二阶段的总体损失函数，进行反向传播，利用随机梯度下降法更新所述运动图像生成器的网络参数，直至达到训练次数上限，获得训练好的运动图像生成器；

9.根据权利要求8所述的一种利用深度信息辅助和轮廓增强损失的运动迁移方法，其特征在于：所述二阶段的总体损失函数的计算公式如下：

其中，

为运动图像生成器最小化损失函数、

为判别器D2最大化损失函数。