CN109190581A

CN109190581A - 图像序列目标检测识别方法

Info

Publication number: CN109190581A
Application number: CN201811080439.4A
Authority: CN
Inventors: 龚如宾
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2019-01-11
Anticipated expiration: 2038-09-17
Also published as: CN109190581B

Abstract

本发明属于图像检测识别技术领域，可以用于自动驾驶，无人机视觉目标检测和识别以及动漫视频检测等和图像序列处理相关的领域。首先通过基于运动补偿的卷绕图像计算(Image Warping)对输入图像进行变换,然后将卷绕图像输入深度卷积神经网络提取深度卷积特征地图,在此基础上对前后图像序列的深度卷积特征地图进行融合，最后将融合后的深度卷积特征地图用于目标定位，目标识别或者区域推荐等目标检测模块。发明主要技术特征包括组合了前期的基于运动补偿的卷绕图像计算模块和后期的对前后图像序列的深度卷积特征地图进行融合模块两部分。该发明可以克服由于单张图像由于部分遮挡，运动模糊以及检测目标发生大变形引起的检测精度低甚至无法检测的问题。

Description

图像序列目标检测识别方法

技术领域

本发明属于图像检测识别技术领域，具体涉及一种图像序列目标的检测识别方法。

背景技术

在图像理解领域，深度学习技术广泛用于图像分类，图像目标检测，人脸识别等方面，以Faster R-CNN为代表的网络模型在图像目标检测应用中取得了良好的识别效果。在图像视频应用中,深度学习技术广泛应用于汽车的无人驾驶领域、视频监控，无人机的目标检测和识别等领域。由于场景中会出现目标的部分遮挡、运动过快而产生的模糊以及目标发生大的变形等原因,往往会导致目标检测精度低或者根本无法检测等问题。而在动漫视频检测识别中，由于动漫人物夸张，无法稳定提取低层特征，动漫图像绘制风格不同等原因，因此动漫图像的理解和识别还面临着巨大的挑战。

目前以Faster R-CNN为代表的网络模型，如图1所示，在单张图像目标检测中取得了广泛的应用，输入图像通过卷积层神经网络，提取出卷积特征地图，然后利用卷积特征地图，进行区域推荐，分类和位置定位，参见美国专利参考文献[1]。但是在实际应用环境中部署时，由于运动模糊，图像画质降低，检测目标受到部分遮挡,以及检测目标发生大的变形，造成输入图像部分信息丢失，输入图像受到噪音干扰，使用传统的Faster R-CNN算法，往往会出现无法检测到目标，在实际应用中会造成不同的损失。

参考文献[2]中使用了卷积特征地图融合技术，但是没有对输入图像进行基于运动补偿的图像变换。虽然参考文献[2]在卷积特征地图上进行了基于运动补偿的变换，但是该运动补偿信息来自于原输入图像序列，卷积特征地图的空间域维度一般来说比原来图像维度缩小了16倍以上，所得到的基于像素的光流场无法精确转换成卷积特征地图上的光流场，使用近似方法将基于像素的运动向量转换成卷积特征地图上空间域单元间的运动向量，会丢失大量的细节运动信息。通过不精确的运动向量来对卷积特征地图进行运动补偿变换，会影响检测和识别的精度，参考文献[2]中没有对这点进行分析。

本发明扩展现有的基于深度卷积神经网络的单张图像目标检测算法，扩展到视频图像序列中，通过计算图像序列中图像间的光流场，获得各图像中像素的精确运动向量，可以精细利用细节运动信息，来对图像进行变换和校正。再对变换和校正的图像计算卷积特征地图，在此基础上融合各卷积特征地图，最后利用该融合的卷积特征地图来进行目标检测和识别。可以克服因为遮挡，运动模糊以及目标发生大变形等造成的单张图像信息不充分的问题，提高目标检测的精度，从而降低经济和社会损失。

参考文献

1、Jian Sun,Beijing(CN)；Ross Girshick,Seattle,WA(US)；ShaoqingRen,Beijing(CN)；Kaiming He,Beijing(CN)，OBJECT DETECTION AND CLASSIFICATION IN MAGES,United States Patent Application Publication,Pub.No.:US2017/0206431A1

2、Xizhou Zhu,Yujie Wang,Jifeng Dai,Lu Yuan,Yichen Wei,Flow-Guided FeatureAggregation for Video Object Detection,The IEEE International Conference onComputer Vision(ICCV)2017.

3、A.Dosovitskiy et al.,"FlowNet:Learning Optical Flow with ConvolutionalNetworks".IEEE International Conference on Computer Vision(ICCV),Santiago,Chile,pp.2758-2766,2016.

4、E.Ilg,N.Mayer,T.Saikia,M.Keuper,A.Dosovitskiy,T.Brox.FlowNet 2.0:Evolution of Optical Flow Estimation with Deep Networks.IEEE Conference inComputer Vision and Pattern Recognition(CVPR),2017.

发明内容

鉴于在运动模糊，图像画质降低，检测目标受到部分遮挡,以及检测目标发生大的变形等情况下，目前基于单张图像的深度卷积神经网络目标检测算法无法高精度检测到目标，本发明扩展现有的单张图像目标检测算法，通过融合前后多帧图像的不同信息，克服单张图像目标检测算法中出现的由于信息缺失或者信息受到噪音干扰等原因而造成的目标检测精度低或者甚至无法检测的问题，通过利用多张图像来提高目标检测的精度。

本发明包括如下的技术方案：S1:输入待处理图像序列，截取含有目标对象的图像，计算该图像序列当前帧和相邻帧的光流场；S2：根据光流场的运动向量计算相邻帧相对于当前帧的卷绕图像；S3.将当前帧和相邻帧的卷绕图像分别输入卷积神经网络计算卷积特征地图；S4.在得到当前帧和相邻帧的卷积特征地图后，进行卷积特征地图的融合，得到融合后的卷积特征地图；S5.根据融合后的卷积特征地图进行目标检测和识别，并输出检测和识别结果。

有益效果

本发明通过：

(1)基于运动补偿的卷绕图像作为深度卷积神经网络输入用于提取深度卷积特征地图；

(2)基于深度卷积特征地图进行融合；

两种方法的组合能够生成更鲁棒的融合卷积特征地图，提高检测和识别精度。

附图说明

图1单幅的Faster R-CNN的示意图；

图2Faster R-CNN的时序扩展；

图3根据光流场的运动向量计算相邻帧相对于当前帧的卷绕图像；

图4使用卷绕图像进行特征提取和基于深度卷积特征地图进行融合；

图5对卷积特征地图进行变换后进行相似度计算；

图6检测实例效果对比；

图7训练模块流程图；

图8定义检测网络；

图9卷积特征地图融合流程图。

具体实施方式

在前期调研的基础上，从自动驾驶的多障碍物检测中得到启发，扩展以Faster R-CNN为代表的单张图像目标检测算法，在视频时序列图像上进行检测。模型架构如图2所示，最底层是视频的每一帧图像，这些图像分别输入共享卷积网络，计算出各帧的卷积特征地图后(Feature Map)，然后通过融合算法将当前帧的卷积特征地图(Feature Map)和前后多帧的卷积特征地图(Feature Map)融合。将生成的融合卷积特征地图(Feature Map)输入区域推荐网络(Region ProposalNetwork)，RPN(Region Proposal Network)网络利用滑动窗口在融合后的卷积特征地图(Feature Map)上滑动，生成区域推荐结果。RPN网络输出结果包括分类结果和回归结果，分类结果将物体分为前景和背景，回归结果标出物体的可能位置。在训练阶段回归层的物体区域和真实的物体区域进行IoU(Intersection over Union)评估，大于一定阈值的前景的区域将输入RoIP(Region of Interest Pooling)，RoIP根据区域推荐在卷积特征地图(Feature Map)上筛选出高质量的特征，最后这些特征被用于物体分类和位置回归。

由于图像中目标处于运动之中，不同时刻运动物体处于图像中的不同位置。如果通过简单的加权求和融合，会在不同的位置形成重影。本发明对于输入图像，采用基于运动补偿的卷绕变换(Image Warping)方法，得到运动补偿后的卷绕图像，然后将卷绕图像输入卷积神经网络，得到卷积特征地图(FeatureMap)。具体实施方法如下：

步骤1：输入待处理图像序列，计算该图像序列的相邻帧和当前帧之间的光流场：

当空间中物体移动或相机移动时，拍摄的两幅连续图像上会反映出物体的运动或者相机的运动的光流。在二维图像上，光流可以使用2D运动向量来表示，表示从第一帧到第二帧间点的移动。两幅图像中每个像素的移动向量组成的集合称为光流场。光流场在视频图像运动3D复原，图像压缩和图像增强等领域有广泛的应用。图像序列相邻帧是指当前帧的前K帧以及当前帧的后K帧,共2K帧，作为相邻帧，K为正整数，取值范围[1,20]。

为了根据目标对象的运动信息来计算卷绕图像，本文使用基于深度卷积神经网络技术FlowNet，参见参考文献[3，4]，来计算当前帧和相邻帧之间光流场(Optical Flow)。对于输入图像I_j和I_i，通过公式(1)来预测两幅图像之间的光流场，该网络的具体架构和可以采用文献[4]中的FlowNet2-s或FlowNet2等来实现。此处的θ是深度卷积网络中需要学习的参数，通过调节θ，使该网络具有光流场预测的能力。

M_j→i＝OpticalFlowNet(θ,I_j,I_i) (1)

步骤2：根据光流场的运动向量计算相邻帧相对于当前帧的卷绕图像：

计算相邻图像之间的光流场，M_j→i＝OpticalFlowNet(I_j,I_i)，来得到图像I_j相对于图像I_i的各像素间的运动偏移。根据像素间的运动偏移，通过双线性插值图像卷绕变换(Image Warping)，得到卷绕变换后的图像，过程如公式(2)所示，此处的BiLinearWarp是一个双线性插值变换，用来生成变换后的卷绕图像(Warped Image)

双线性插值变换的计算过程如图(3)所示，对于预测图像I_pred中每一像素，根据光流场M_j→i得到它在原图像I中的对应点(x+Δx,y+Δy)，此点并不对应真实像素，而在真实像素围成的矩形内，如图(3)所示，此对应点属于4个像素Pa,Pb,Pc,Pd所围的矩形内。为了计算该点的颜色值，可根据该相邻4个像素的颜色值使用双线性插值方法来计算。

虽然此处使用双线形插值计算卷绕图像，通过使用最近邻插值，兰索斯插值(lanczos)，双三次插值等空间插值变换也都包含在本发明的实施范围内。

步骤3.将各卷绕图像输入卷积神经网络计算卷积特征地图：

卷绕图像的卷积特征地图提取，计算出相邻帧相对于当前帧的基于运动补偿的卷绕图像后，输入卷积神经网络，来计算卷积特征地图(Feature Map)，如公式(3)所示。由于卷绕图像使用光流场提供的运动信息来对图像中运动物体的像素进行了运动补偿(MotionCompensation)，相比于使用原始图像输入，使用卷绕图像来进行特征提取，由于通过运动补偿的计算，在前后帧图像中同一运动目标大体处于同一位置，计算出来的卷积特征也应该大体处于同一位置，为后期的特征融合打好了基础。

公式(3)对于卷绕图像(Warped Image)通过使用卷积神经网络ConvNet来提取卷积特征地图F_j。在此基础上，如图4所示，对前后相邻帧的卷积特征地图{F_j}来进行融合，计算融合后的卷积特征地图。

步骤4.在得到当前帧和相邻帧的卷积特征地图后，进行卷积特征地图的融合，得到融合后的卷积特征地图：

关于卷积特征地图的融合算法可以使用不同方法，下面列举两种卷积特征的融合算法。

(1)卷积特征地图的融合算法1

通过公式(4)计算融合的卷积特征地图，此处有关于权重w_j的设置，一般离当前帧距离越近，图像目标和当前帧的目标相关性越大，对应的权重w_j越大；离当前帧距离越远，图像目标和当前帧的目标相关性越小，对应的权重w_j也越小。此处可按照高斯函数Gaussian(0,σ)的正规化来设置权重w_j，由于输入的卷绕图像经过了运动补偿处理，检测结果对于高斯的标准偏差值σ并不敏感。

(2)卷积特征地图的融合算法2

卷积特征融合算法1中每一帧采用同一权重来进行加权求和，对于帧内有遮挡或者存在大的变形的情况，不适合整帧使用同一权重。比如对于静止的背景，对权重系数不敏感，但是对于帧中有部分遮挡的物体，该帧中被遮挡的部分应该设置一个较低的权重，以便融合时能充分利用前后帧的未遮挡的物体信息。第2种融合算法提供基于卷积特征地图单元级别的权重。假设卷积特征地图F_j是一个[w,h,depth]的张量，其中w,h表示卷积特征地图空间域的宽度和高度(对于Resnet-50残差卷积网络，其值可以是原图像宽和高的1/16)，depth表示通道数，此处的卷积特征地图单元是指空间域上的某个维度为1x1xdepth向量，例如图5中位置p对应的向量。对于第j帧的卷积特征地图位置p，使用系数weightMap[j][p]来设置权重。对于不同卷积特征地图位置p，设置不同的权重weightMap[j][p]，来计算融合卷积特征地图，此处要求有公式(5)成立。

本实施方案拟通过如下方法计算。假设卷积特征地图F_j是一个[w,h,depth]的张量，通过嵌入式卷积神经网络进行变换处理。该嵌入式网络结构如下：

(1)通过1x1xnc的卷积变换进行降维处理；

(2)然后进行3x3xnc的卷积变换；

(3)最后进行1x1xdepth的卷积变换恢复到原有的维度。

此处nc表示嵌入式网络降维的通道数，nc取值为2ⁿ(比如可取512)，这样通过深度神经网络的学习算法，能够学习到该嵌入式网络的权重，该嵌入式网络可以对原有卷积特征地图F_j进行变换得到使得变换后的卷积特征地图更适合度量相邻帧的卷积特征地图单元之间的相似度，记此相似度为SimMap[j；i]，如图5所示。

此处相似度按照下面原则定义：1)如果两个单元来自同一目标的同一部分，透射到相机上具有较高的颜色相似度，也具有较相似的卷积特征值，赋予较高的相似度值；如果两个单元来自不同目标或者同一目标不同部分，一般来讲颜色会有较大不同，卷积特征值也会有较大不同，赋予较低的相似度值；2)相似度值具有对称性。本发明对于相似度计算方法不做限制，只要符合上述相似度原则，都可以采用。

具体实施相似度值计算，可以使用两个向量之间的离散余弦距离、欧式距离、皮尔逊相关性、明可夫斯基距离等来度量。相似度的度量包括但不限于上述度量方法。比如j＝i的情况，相似度SimMap[j；i][p]值应该取最大值，如果使用离散余弦距离，相似度SimMap[i；i][p]＝1。如果采用的某度量距离越小，而相似度却越大，比如对于欧式距离和明可夫斯基距离，则可以取其相反数进行后续计算。

在计算出SimMap之后，对于每个位置p，可以使用SoftMax函数将SimMap相似度值归一化到[0,1]之间，得到weightMap，如公式(6)所示:

weightMap[j][p]＝SoftMax({SimMap[j；i][p]}),i-k≤j≤i+k (6)

在计算得到weightMap后，则可以通过weightMap计算融合后的卷积特征地图，如公式(7)所示。

使用此方法计算的卷积特征地图，由于部分遮挡等引起的来自不同物体图像区域的卷积特征地图单元被赋予较低的权重系数，对融合后的卷积特征地图的贡献较低，因此较少受遮挡，目标发生大变形等情况的影响。

步骤5：根据融合后的卷积特征地图进行目标检测和识别，并输出检测和识别结果具体实现可以采用传统单张图像使用卷积特征地图进行目标检测的实现，比如采用参考文献[1]中Faster R-CNN的区域推荐网络，位置边框回归网络和类别分类网络。也可以采用类似于SSD(single shot multibox detector)中的目标检测实现来进行检测。

基于融合卷积特征地图的检测算法总结

下面总结一下基于融合卷积特征地图的检测算法,如算法1所示。算法1中i表示当前处理帧序号，K表示前后相邻帧的范围，j表示某相邻帧。算法1首先计算相邻帧相对于当前帧的卷绕图像(Warped Image)。然后通过将卷绕图像输入卷积神经网络来计算各卷绕图像的卷积特征地图(Feature Map)。为了能够处理运动模糊，变形大以及遮挡等问题，通过融合前后帧的特征地图来得到更鲁棒的卷积特征地图。具体来说通过将各帧的特征地图加权后进行累加，得到融合后的卷积特征地图(Fusion Feature Map)。此处融合处理也可以按照卷积特征地图单元来进行融合。并将此融合后的特征地图作为区域推荐网络(RegionProposal Network)的输入，得到的ROI(Region of Interest)区域。最后将ROI区域作为分类网络和位置回归网络的输入，最终得到检测结果。本发明检测识别算法的伪代码如下所示。

基于融合卷积特征地图的训练算法总结

基于Feature Map融合的训练算法是可微分的，因此上述架构可以按照端到端的方式来进行训练。其中如公式(2)所示，不论是对于图像像素本身还是对于光流场都是微分可导的。公式(3)对于各帧的卷绕图像的像素是微分可导的。公式(4)对于卷积特征地图(Feature Map)是微分可导的。在训练阶段，由于显卡内存等原因，前后相邻帧的数目设置一个较小的值(如Ktrain＝2)。在训练阶段，可以从前后较大范围(比如K＝5)的相邻帧中进行随机采样Ktrain帧进行训练，采用类似于神经网络训练中的dropout方法。具体包括如下：

1.准备数据集

训练模块的数据选择人工收集，人工收集数据集分为以下几步，选择视频，截取含有目标的图像，标注目标位置，将图像、目标位置和目标名称信息存放到一个文本文件中。

2.训练模块设计

训练模块总体处理流程图如图7所示，训练主要分以下6步进行。

(1)配置网络参数。由于网络参数比较多，而且变动不太大，因此可以定义一个配置类。然后将这个类存到文件中，便于移植和重复使用，避免了重复定义相同的参数这么繁杂的工作。

(2)预处理数据集。物体检测所需要的信息比较多，不仅需要物体的类别信息，还需要物体的位置信息。为了将上述信息一次性输入到网络中训练，本课题使用python脚本对整理好的图像和标注进行进一步的处理。将图像的路径，需要标注的目标的位置(目标的包围框)和目标的名称提取到一个文本文件中，在训练模块只需读入这一个文件便可以获取数据集所有的信息。另外，因为训练时需要边训练边，所以有必要将数据集分成训练集和验证集。

(3)定义网络。网络是模型的基础，实现卷绕图像计算模块和特征融合模块的基础上，先把所有的网络定义好。如图8所示，这里按顺序，先定义光流场网络和卷绕图像计算模块,然后定义共享卷积网络shared_layers，然后定义深度卷积特征地图的融合算法，接着定义区域推荐网络RPN，最后定义全连接网络用于分类和边框回归。

(4)构建模型。有了网络之后，就可以使用Keras构建网络架构模型，并编译好模型，准备训练。

(5)训练。模型训练一共进行epoch次，每一次迭代一定数量的训练数据，训练策略采用的可以采用类似Faster R-CNN训练中的的四步交替迭代训练,也可以使用端到端的方法进行训练。

(6)保存训练结果。训练结束将会产生很多实验数据，其中权重模型文件至关重要，因此训练过程需要将权重保存到文件中。其次就是训练中验证集的精度等数据，这些数据可以帮助实验分析训练的过程，评估训练的结果，为改进网络和进一步研究算法提供了参考。

模型配置

模型配置需要事先定义好一些模型参数，比如说训练是否采用平移、旋转等手段扩大数据集，RoI的数量，训练出来的权重文件保存到哪里，配置文件的名字等等。模型配置需要定义大量的属性，定义一个配置文件专门记录这些参数。

定义损失函数

损失函数是训练优化的基础，定义合理的模型函数不仅可以大大减少训练过程中的计算量，而且还能取得一个比较好的训练结果。实现设计了四个损失函数，分别是RPN回归损失函数，RPN分类损失函数，全连接网络回归损失函数和全连接网络分类损失函数，用于不同阶段的训练。

网络架构

检测网络的架构包含五个部分，卷绕图像计算部分，共享卷积神经网络，深度卷积特征融合部分，区域推荐部分，全连接回归和分类网络部分。其中深度卷积特征地图融合部分通过融合各卷绕图像生成深度卷积特征地图，获得更鲁棒的深度卷积特征地图，比FasterR-CNN基于单张图像提取的卷积特征地图更少受到遮挡和目标发生大变形以及运动模糊等的影响。与文献[2]中方法相比，增加了卷绕图像计算部分，生成的卷积特征地图更精确反应了目标物体运动信息，可以得到质量更高的深度卷积特征地图。

3.检测模块设计

这个模块主要是使用训练好的权重文件检测用户上传的视频或图像，检测并标注出目标对象的名字和位置，主要步骤如下：

(1)读入视频或图片。分别准备视频和图片测试集，输入含有多种目标对象的视频和图片均可以检测。

(2)载入模型和配置信息。这里的模型是训练模块训练好的可以用于检测的模型，这里只需要从文件中载入即可，另外配置信息也基本在训练模块规定好了，这里只需要从文件中载入即可。

(3)定义网络。需要根据图8中网络的定义，先把所有的网络定义好。

这里按顺序，先定义光流场网络和卷绕图像计算模块,然后定义共享卷积网络shared_layers，然后定义深度卷积特征地图的融合算法，接着定义区域推荐网络RPN，最后定义全连接网络用于分类网络和边框回归网络。

(4)判断输入的是图片还是视频。如果是图片就直接输入检测网络进行检测，获得检测结果；如果是视频就需要使用OpenCV将视频转换为一帧帧的图片分别输入到本网络进行检测，检测好的图片再转换为视频。

卷积特征地图(Feature Map)融合模块设计

根据上述的卷积特征地图融合算法，如图9所示，对卷积特征地图的融合模块进行设计。首先计算相邻帧和当前帧之间的光流场，通过光流场找到相邻帧和当前帧的像素运动向量，然后相邻帧可以根据光流场的运动向量来计算卷绕图像，在此基础上将卷绕图像输入卷积神经网络，提取卷积特征地图，最后融合前后多帧的卷积特征地图，融合具体算法可以参考卷积特征地图的融合算法1或者卷积特征地图的融合算法2来实现。最终得到的卷积特征地图结合了前后多帧的目标全局信息，可以克服因为遮挡、变形和运动模糊带来检测精度下降或者根本无法检测到目标的问题。

本发明技术方案带来的有益效果

经过在动漫图像上测试，使用时序扩展的方法，在变形较大的动漫图像上普遍提高了检测精度。如图6所示，检测精度左边图是Mickey_Mouse的Faster R-CNN检测结果(63％)，右边图是Mickey_Mouse的时序Faster R-CNN融合的检测结果(84％)，和前后帧相比，在此图像中，卡通人物发生了很大的变形，可以看到，使用基于时序扩展的目标检测方法，检测精度从63％提高到84％。

Claims

1.一种图像序列目标检测和识别方法，其特征在于，该方法包括以下步骤：

S1.输入待处理图像序列，截取含有目标对象的图像，计算该图像序列当前帧和相邻帧的光流场；

S2.根据光流场的运动向量计算相邻帧相对于当前帧的卷绕图像；

使用双线形插值计算卷绕图像，通过使用最近邻插值，兰索斯插值，双三次插值空间插值变换；

S3.将当前帧和相邻帧的卷绕图像分别输入卷积神经网络计算卷积特征地图；

S4.在得到当前帧和相邻帧的卷积特征地图后，进行卷积特征地图的融合，得到融合后的卷积特征地图：

S5.根据融合后的卷积特征地图进行目标检测和识别，并输出检测和识别结果。

2.根据权利要求1所述的一种图像序列目标检测和识别方法，其特征在于：图像序列相邻帧是指当前帧的前K帧以及当前帧的后K帧,共2K帧，作为相邻帧，K为正整数，取值范围[1,20]。

3.根据权利要求1所述的一种图像序列目标检测和识别方法，其特征在于：步骤S4中的卷积特征地图的融合算法包括两种，其一为：通过公式(4)计算融合的卷积特征地图，需满足关于权重w_j的设置，按照正规化的高斯函数Gaussian(0,σ)来设置权重w_j：

4.根据权利要求1所述的一种图像序列目标检测和识别方法，其特征在于：步骤S4第二种卷积特征地图的融合算法是，第2种融合算法提供基于卷积特征地图单元级别的权重，设卷积特征地图F_j是一个[w,h,depth]的张量，其中w,h表示卷积特征地图空间域的宽度和高度，depth表示通道数，此处的卷积特征地图单元是指空间域上的某个1x1xdepth维的向量；对于第j帧的卷积特征地图位置p，使用系数weightMap[j][p]来设置权重；为了对不同卷积特征地图位置p，设置不同的权重weightMap[j][p],来计算融合卷积特征地图，此处要求有公式(5)成立：

卷积特征地图F_j是一个[w,h,depth]的张量，通过嵌入式卷积神经网络进行变换处理；该嵌入式网络结构如下：

(1)通过1x1xnc的卷积变换进行降维处理；

(2)然后进行3x3xnc的卷积变换；

(3)最后进行1x1xdepth的卷积变换恢复到原有的维度；

此处nc表示嵌入式网络降维的通道数，取值为2ⁿ(比如可取512)，这样通过深度神经网络的学习算法，能够学习到该嵌入式网络的权重，该嵌入式网络可以对原有卷积特征地图F_j进行变换得到使得变换后的卷积特征地图更适合度量相邻帧的卷积特征地图单元之间的相似度；相邻帧j相对于当前帧i的卷积特征地图之间的相似度记为SimMap[j；i]，相似度计算可使用两个向量之间的离散余弦距离、皮尔逊相关性、取相反数的欧式距离、取相反数的明可夫斯基距离来度量；

在计算出SimMap之后，对于每个位置p，可以使用SoftMax函数将SimMap相似度值归一化到[0,1]之间，得到weightMap，如公式(6)所示：

weightMap[j][p]＝SoftMax({SimMap[j；i][p]}),i-k≤j≤i+k (6)

在计算得到weightMap后，则可以通过weightMap计算融合后的卷积特征地图，如公式(7)所示：