CN112070181A

CN112070181A - 一种基于图像流的协同检测方法及装置、存储介质

Info

Publication number: CN112070181A
Application number: CN202011274877.1A
Authority: CN
Inventors: 杨洋
Original assignee: Shenzhen Huahan Weiye Technology Co ltd
Current assignee: Shenzhen Huahan Weiye Technology Co ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2020-12-11
Anticipated expiration: 2040-11-16
Also published as: CN112070181B

Abstract

本申请涉及一种基于图像流的协同检测方法及装置、存储介质，其中协同检测方法包括：从图像流中获取目标对象的多幅样本图像；提取多幅样本图像的特征，得到每幅样本图像的单张特有特征和多幅样本图像的组间共有特征；对单张特有特征和组间共有特征进行融合，得到每幅样本图像的语义检测结果。技术方案不仅会考虑了通道间的注意力机制，还会考虑尺度和位置间的注意力机制，从而保留有效特征信息，剔除单张图像的噪声信息，如此利于提高特征提取的准确性和图像检测的准确率。

Description

一种基于图像流的协同检测方法及装置、存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于图像流的协同检测方法及装置、存储介质。

背景技术

当前，基于图像的深度学习检测和识别算法，多数是采用一张图像做输入，获取图像中的低级特征和高级特征，进而完成检测和识别，但是对于一些应用场景，仅仅考虑一张图片将无法做出来准确的判断。例如，在人脸识别中对于正脸很容易识别出来，但是对于侧脸或者一些斜视角度进行识别，其就存在一些问题和难度。对于物体表面的检测也存在一样的问题，例如划痕在某一个方向的照射下，可以在图像中获得清晰的呈现，在另外一个方向上就无法清晰成像，此时将对物体表面检测带来困难。

传统的协同检测，主要利用色彩信息、纹理以及SIFT特征描述子方式进行特征的融合，该方法依赖于工程师的先验经验，特征的选择过于主观；并且，将特征提取和检测被动的分割为两个独立的过程，致使特征的提取并不能够很好地为后续的检测做准备。

发明内容

本发明主要解决的技术问题是：如何克服现有图像检测中存在的检测准确率低的技术缺陷。为解决上述技术问题，本申请一种基于图像流的协同检测方法及装置、存储介质。

根据第一方面，一种实施例中提供一种基于图像流的协同检测方法，其包括：从图像流中获取目标对象的多幅样本图像；提取所述多幅样本图像的特征，得到每幅所述样本图像的单张特有特征和所述多幅样本图像的组间共有特征；对所述单张特有特征和所述组间共有特征进行融合，得到每幅所述样本图像的语义检测结果。

所述提取所述多幅样本图像的特征，得到每幅所述样本图像的单张特有特征和所述多幅样本图像的组间共有特征，包括：对所述多幅样本图像分别进行卷积网络处理，得到每幅所述样本图像对应的特征数据；对每幅所述样本图像对应的特征数据进行高级语义特征的抽取，得到每幅所述样本图像的单张特有特征；通过注意力机制对各幅所述样本图像对应的特征数据进行统一抽取，得到所述多幅样本图像的组间共有特征。

所述对每幅所述样本图像对应的特征数据进行高级语义特征的抽取，得到每幅所述样本图像的单张特有特征，包括：构建第一变换关系f ₁，且满足公式

；

设定X _n为任意所述样本图像对应的特征数据，在输入至所述第一变换关系f ₁后计算得到每幅所述样本图像的单张特有特征，且表示为S _n；其中，

，

为尺寸是H×W×C的所述样本图像中图像特征的集合，n为所述样本图像的序号，

为所述样本图像的网络权重系数向量。

所述通过注意力机制对各幅所述样本图像对应的特征数据进行统一抽取，得到所述多幅样本图像的组间共有特征，包括：通过注意力机制构建第二变换关系f ₂，且满足公式

；

利用所述第二变换关系f ₂对各幅所述样本图像对应的特征数据进行迭代变换，计算得到所述多幅样本图像的组间共有特征，且表示为G _N；其中，

为X _n的集合，N为所述多幅样本图像的数目，

为各幅所述样本图像之间的网络权重系数向量。

所述利用所述第二变换关系f ₂对各幅所述样本图像对应的特征数据进行迭代变换，计算得到所述多幅样本图像的组间共有特征，包括：对各幅所述样本图像的特征数据分别进行噪声抑制，得到对应的去噪数据，所述去噪数据表示为

；

其中，

为第一门控函数，W _d为迭代网络权重系数向量，符号

表示元素对应相乘的运算；利用各幅所述样本图像分别对应的去噪数据参与迭代计算，迭代过程表示为

；

其中，

，

；

为第二门控函数，

，

，ReLU为线性整流函数；将N次迭代计算的结果作为所述多幅样本图像的组间共有特征。

所述对所述单张特有特征和所述组间共有特征进行融合，得到每幅所述样本图像的语义检测结果，包括：获取每幅所述样本图像进行卷积网络处理时的池化层特征，且表示为

；构建第三变换关系f ₃，且满足公式

；

将每幅所述样本图像对应的池化层特征和单张特有特征输入至所述第三变换关系f ₃，计算得到每幅所述样本图像对应的融合特征，且表示为

；其中，

为特征之间的融合权重系数向量；对每幅所述样本图像对应的融合特征进行卷积运算和上采样运算，计算得到每幅所述样本图像的语义检测结果，且表示为R _n。

所述将每幅所述样本图像对应的池化层特征和单张特有特征输入至所述第三变换关系f ₃，计算得到每幅所述样本图像对应的融合特征，包括：对每幅所述样本图像对应的池化层特征和单张特有特征进行FPN网络的处理，将处理后的特征与所述多幅样本图像的组间共有特征进行特征组合，得到组合特征，且表示为D _n;对所述组合特征进行卷积运算和上采样运算，计算得到所述每幅所述样本图像对应的融合特征。

在得到每幅所述样本图像的语义检测结果之后，还包括训练步骤：根据每幅所述样本图像的语义检测结果建立对应的第一目标函数，且用公式表示为

；

其中，

为N幅所述样本图像I _n的集合，

为N幅所述样本图像的标注信息的集合；根据各幅所述样本图像的语义检测结果建立第二目标函数，且用公式表示为

；

其中，

表示综合的特征信息，b为预设偏置量，

为所述样本图像的语义检测结果中的前景信息，

为所述样本图像的标注前景信息，

为所述样本图像的标注背景信息，i、j均为所述样本图像的序号，Dist( )为距离加权函数；根据所述第一目标函数和所述第二目标函数建立一网络模型的损失函数，且用公式表示为

；

其中，

表示所述网络模型的网络权重系数向量，为所述第二目标函数的权重系数；利用所述多幅样本图像参与训练所述损失函数，学习得到所述网络模型的网络参数。

在得到所述网络模型之后还包括检测步骤：获取所述目标对象的待检测图像；将所述待检测图像输入至所述网络模型，处理得到所述目标对象的识别结果；所述识别结果包括所述目标对象所在图像区域内每个像素点的所属类别和置信度。

根据第二方面，一种实施例中提供一种图像检测装置，其包括；图像采集部件，用于采集目标对象的多幅样本图像和待检测图像；处理器，与所述图像采集部件连接，用于通过上述第一方面中所述的方法对所述多幅样本图像和所述待检测图像进行处理。

根据第三方面，一种实施例中提供一种计算机可读存储介质，其包括程序，所述程序能够被处理器执行以实现如上述第一方面中所述的方法。

本申请的有益效果是：

依据上述实施例的一种基于图像流的协同检测方法及装置、存储介质，其中协同检测方法包括：从图像流中获取目标对象的多幅样本图像；提取多幅样本图像的特征，得到每幅样本图像的单张特有特征和多幅样本图像的组间共有特征；对单张特有特征和组间共有特征进行融合，得到每幅样本图像的语义检测结果。第一方面，由于考虑到同类物体的尺度变化和位置变化情况，在图像流中可多个角度或者多个照射条件下对目标对象进行取像，从而通过一组样本图像来解决目标对象表面质量的稳定检测问题；第二方面，不仅提取得到每幅样本图像的单张特有特征，还提取得到多幅样本图像的组间共有特征，利于图像语义分析时综合考虑到单张图像信息和同组内其它环境下的图像信息；第三方面，由于抽取并学习了多幅样本图像的共有特征，那么利于建立多张图像综合并共同贡献于检测的机制，从而提高图像检测准确率；第四方面，由于通过特征融合得到每幅样本图像的语义检测结果，则在后续的训练和特征学习过程中，不仅能够反映各样本图像本身的特征信息，还反映了各样本图像之间的共有特征信息；第五方面，方案不仅会考虑了通道间的注意力机制，还会考虑尺度和位置间的注意力机制，从而保留有效特征信息，剔除单张图像的噪声信息，如此利于提高特征提取的准确性；第六方面，本申请通过使用通道、位置和尺度协同注意力描述符，使得多幅样本图像之间通过注意力的互相引导，有效且正确地选择了图像前景，保证组内图像协同分割的准确性，减少背景对通道描述符的影响，有效保证描述符对其它特征图引导的正确性；第七方面，技术方案充分利用不同角度和不同照射条件下所获得的物体与背景图像之间的相关性，以及同一图像上物体与背景之间所应具有的差异性等有效的先验信息，能够实现完全高效率、高可靠的物体检测功能。

附图说明

图1为本申请实施例一中基于图像流的协同检测方法的流程图；

图2为提取得到单张图像特征和组间共有特征的流程图；

图3为融合得到每幅样本图像的语义检测结果的流程图；

图4为本申请实施例二中训练步骤和检测步骤的流程图；

图5为协同检测方法的原理示意图；

图6为CNN网络的结构示意图；

图7为图像特征提取和融合处理的原理示意图；

图8为本申请实施例三中图像检测装置的结构示意图；

图9为本申请实施例四中图像检测装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接（联接）。

为准确理解本申请技术方案，这里将对一些术语进行说明。

视觉注意力，是指机器对人类感知行为中的注意力进行模拟以提高机器感知能力的手段。对于人工神经网络中的注意力模型，其目的是通过计算注意力概率分布，让神经网络在获得数据语义表示时能体现语义的位置特性，从而可重点关注那些需要注意的信息。

本申请技术方案的发明构思是：在图像特征的提取和检测中，综合考虑同组图像中的共性信息，同时保留不同图像的个性信息，从而提高检测准确率。技术方案模仿人了的注意力机制，给不同的图像赋予不同的权重，而权重的学习和训练需要综合考虑当前的图像信息，也需要考虑组间信息。技术方案可以模仿人的眼睛，从不同方位和角度对目标对象进行检测和识别，提取图像特征时涉及到了视觉注意力模型，尤其是协同视觉注意力机制，解决两个以上图像的特征提取问题，从而实现组间图像的训练和学习。技术方案是针对现有图像检测中存在的检测准确率低的技术缺陷，采用多幅样本图像输入，提取图像之间的相关性，并根据相关性引导对样本图像中需要关注的视觉信息进行加强处理，以提高后续处理效果。

接下来将结合一些实施例对本申请技术方案进行详细说明。

实施例一、

请参考图1，本实施例中公开一种基于图像流的协同检测方法，其包括步骤S100-S300，下面分别说明。

步骤S100，从图像流中获取目标对象的多幅样本图像。这里的图像流可以是从不同角度和不同照射条件下对目标对象拍摄的一帧帧图像，那么目标对象的多幅样本图像就是图像流中选取的若干帧图像。

需要说明的是，这里的目标对象可以是流水线上的产品、工具台上的零件，还可以是人、动物、植物等物体，这里不做具体限定。

需要说明的是，本实施例中由于考虑到同类物体的尺度变化和位置变化情况，在图像流中可多个角度或者多个照射条件下对目标对象进行取像，从而通过一组样本图像来解决目标对象表面质量的稳定检测问题。

步骤S200，提取多幅样本图像的特征，得到每幅样本图像的单张特有特征和多幅样本图像的组间共有特征。

由于多幅样本图像中均包含有目标对象的成像信息，那么该些样本图像可以归为一组样本图像，对其中的每个样本图像进行特有语义信息提取后便可得到针对该幅样本图样的单张特有特征，对一组内所有样本图像进行共有语义信息提取后便可得到针对该组样本图像的组间共有特征。

可以理解，这里不仅提取得到每幅样本图像的单张特有特征，还提取得到多幅样本图像的组间共有特征，那么利于图像语义分析时综合考虑到单张图像信息和同组内其它环境下的图像信息。并且，由于抽取并学习了多幅样本图像的共有特征，那么利于建立多张图像综合并共同贡献于检测的机制，从而提高图像检测准确率。此外，技术方案不仅会考虑了通道间的注意力机制，还会考虑尺度和位置间的注意力机制，从而保留有效特征信息，剔除单张图像的噪声信息，如此利于提高特征提取的准确性。

步骤S300，对单张特有特征和组间共有特征进行融合，得到每幅样本图像的语义检测结果。

由于每幅样本图像的单张特有特征反映的是单幅图像自身的特征信息，多幅样本图像的组间共有特征反映的是多幅图像共有的特征信息，那么将单张特有特征与组间共有特征进行融合后，既使得每幅样本图像的语义检测结果学习了该幅样本图像的特有特征信息，还学习了其它样本图像的共有特征信息，从而强化了每幅样本图像的特征表征性能，减少图像背景信息对目标对象区域的影响，保证组内图像协同分割的准确性，利于形成高质量的样本类图像，进而为网络模型的训练学习提供了很好的训练条件。

需要说明的是，本实施例中通过特征融合得到每幅样本图像的语义检测结果，则在后续的训练和特征学习过程中，不仅能够反映各样本图像本身的特征信息，还反映了各样本图像之间的共有特征信息。本实施例技术方案通过使用通道、位置和尺度协同注意力描述符，使得多幅样本图像之间通过注意力的互相引导，有效且正确地选择了图像前景，保证组内图像协同分割的准确性，减少背景对通道描述符的影响，有效保证描述符对其它特征图引导的正确性；并且，技术方案充分利用不同角度和不同照射条件下所获得的物体与背景图像之间的相关性，以及同一图像上物体与背景之间所应具有的差异性等有效的先验信息，能够实现完全高效率、高可靠的物体检测功能。

在本实施例中，参见图2，上述的步骤S200主要涉及提取得到单张特有特征和组间共有特征的过程，其可以具体包括步骤S210-S230，下面分别说明。

步骤S210，对多幅样本图像分别进行卷积网络处理，得到每幅样本图像对应的特征数据。

参见图5，对于以牛（Cow）作为目标对象的多幅样本图像，可以用

进行统一表示，其中I表示样本图像，n表示图像序号，N表示图像数目。那么，可以将样本图像I ₁、I ₂、…、I _N分别输入至卷积神经网络（CNN）进行语义特征的初步提取，在通过卷积网络处理之后分别得到每幅样本图像对应的特征数据，即低级语义特征。比如图5，对样本图像I ₁进行卷积网络处理之后将得到对应的特征数据X ₁，对样本图像I ₂进行卷积网络处理之后将得到对应的特征数据X ₂，以此类推，最终对样本图像I _N进行卷积网络处理之后将得到对应的特征数据X _N。

在一个实施例中，卷积神经网络（CNN）的网络结构可以参考图6，其分为六个网络模块，每个网络模块具有不同的尺度和通道数据，比如采用表1所示的网络模块和网络层构建卷积神经网络。

表1 卷积神经网络的网络模块和网络层参数

在表1中，Conv2D表示卷积+ReLU的运算处理过程，MaxPooling2D表示最大池化的运算处理过程；其中，ReLU为线性整流函数。

步骤S220，对每幅样本图像对应的特征数据进行高级语义特征的抽取，得到每幅样本图像的单张特有特征。由于每幅样本图像对应的特征数据是低级的语义特征，可能包含很多噪声信息，此时进行特征抽取，容易避免噪声信息的干扰，从而得到高级语义特征，也就是得到每幅样本图像的单张特有特征。

在一个具体实施例中，为实现高级语义特征的抽取操作，可以构建第一变换关系f ₁，且满足公式

；

其中，X _n为任意样本图像对应的特征数据，且满足

，

为尺寸是H×W×C的样本图像中图像特征的集合，n为样本图像的序号，

为样本图像的网络权重系数向量；H、W、C分别为样本图像的高度、宽度和通道数。

那么参见图5，将第n幅样本图像对应的特征数据 X _n输入至第一变换关系f ₁后，即可计算得到每幅样本图像的单张特有特征，且表示为S _n。比如，样本图像I ₁的特征数据X ₁经过第一变换关系f ₁处理后得到对应的单张特有特征S ₁，样本图像I ₂的特征数据X ₂经过第一变换关系f ₁处理后得到对应的单张特有特征S ₂，以此类推，最终样本图像I _N的特征数据X _N经过第一变换关系f ₁处理后得到对应的单张特有特征S _N。

步骤S230，通过注意力机制对各幅样本图像对应的特征数据进行统一抽取，得到多幅样本图像的组间共有特征。由于各幅样本图像均包含有目标对象的成像信息，那么归为一组样本图像时各样本图像之间将存在一些共有特征信息，通过协同视觉的注意力机制就可以解决这些样本图像的共有特征提取问题，从而得到多幅样本图像的组间共有特征。

在一个实施例中，为实现共有特征信息的统一抽取操作，可以通过注意力机制构建第二变换关系f ₂，且满足公式

；

其中，

为X _n的集合，N为多幅样本图像的数目，

为各幅样本图像之间的网络权重系数向量。

那么，利用第二变换关系f ₂对各幅样本图像对应的特征数据进行迭代变换，即可计算得到多幅样本图像的组间共有特征，且表示为G _N。

在一个实施例中，参见图5，为计算得到多幅样本图像的组间共有特征G _N时，可以具体采用如下方法：

（1）对各幅样本图像的特征数据分别进行噪声抑制，得到对应的去噪数据，这里去噪数据表示为

；

其中，

为第一门控函数，W _d为迭代网络权重系数向量，符号“

”表示元素对应相乘的运算。

需要说明的是，为了控制数据的流通和运算，设置的第一门控函数主要用来抑制单张图像的噪声信号，抑制过程表示为

。

（2）利用各幅样本图像分别对应的去噪数据参与迭代计算，迭代过程表示为

；

其中，

，

；

为第二门控函数，

，

，ReLU为线性整流函数；并且，这里的

分别为三个不同的注意力权重向量。

需要说明的是，第二门控函数

用来控制

两个权重，也就是通过注意力机制控制的输出；如果这里定义权重

，那么权重

，因此得到

。

在某些情况下，考虑到

和

的差别比较小，说明组间可以保留上一次的组间特征，因此权重应该比较大，这里从这个方面来考虑组间共有特征与单张特有特征的融合。那么，对于权重

而言，其影响因素较多，若重点考虑空间特性和通道间的特性带来的影响，设空间带来的影响为

，通道带来的影响为

，综合考虑后定义

。其中，

和

可以分别用公式表示为：

；

。

（3）将N次迭代计算的结果作为多幅样本图像的组间共有特征。

参见图5，在迭代计算的过程中，可以先将样本图像I ₁的特征数据X ₁输入第二变换关系f ₂，经过

计算后得到对应的共有特征G ₁；然后将样本图像I ₂的特征数据X ₂输入至第二变换关系f ₂，结合共有特征G ₁并经过

计算后得到对应的共有特征G ₂；以此类推，最终将样本图像I _N的特征数据X _N输入至第二变换关系f ₂，结合共有特征G _N-1并经过

计算后得到对应的共有特征G _N。那么，此时可以将计算的G _N作为多幅样本图像的组间共有特征。

需要说明的是，本实施例中以幅样本图像作为输入，通过模型产生的检测分割结果为

，因此整个问题可以描述为

，其中

是模型函数且以一系列样本图像和对应的标注信息作为输入，

为模型参数且通过端到端的训练获取。那么，基于分割结果就可以构建一个高效的网络结构，从而决定检测模型的适应性和能力。

在本实施例中，参见图3，上述的步骤S300主要涉及融合得到每幅样本图像的语义检测结果的过程，其可以具体包括步骤S310-S330，下面分别说明。

步骤S310，获取每幅样本图像进行卷积网络处理时的池化层特征，且表示为

。

参见图5、图6、图7和表1，卷积神经网络（CNN）包括多个网络模块，且每个网络模块内包括卷积单元和最大池化单元，对于Block3、Block4、Block5中的最大池化运算处理过程，可以用池化层3、池化层4、池化层5进行分别表示，其中，

表示的是池化层3和池化层4输出（其中，

为池化层4的输出，

为池化层3的输出），

表示的是池化层5的输出。那么，将样本图像I ₁输入卷积神经网络后处理得到的池化层特征为

，将样本图像I ₂输入卷积神经网络后处理得到的池化层特征为

，以此类推，将样本图像I _N输入卷积神经网络后处理得到的池化层特征为

。

步骤S320，为实现特征融合操作，可以构建第三变换关系f ₃，且满足公式

；

其中，

为特征之间的融合权重系数向量。

那么，只需要将每幅样本图像对应的池化层特征

和单张特有特征S _n输入至第三变换关系f ₃，即可计算得到每幅样本图像对应的融合特征，且表示为

。

在一个具体实施例中，参见图7，计算得到每幅样本图像对应的融合特征过程采用以下方法：

（1）对每幅样本图像对应的池化层特征

（即池化层3、池化层4的输出）和单张特有特征S _n（（即池化层5的输出）进行FPN网络的处理，将处理后的特征与多幅样本图像的组间共有特征G _N进行特征组合，得到组合特征，且表示为D _n。

将池化层5的输出经过FPN网络处理后得到Pool5，其与组间共有特征G _N进行特征组合，在通过卷积运算（Cov）处理后即可得到组合特征

；将池化层4的输出经过FPN网络处理后得到FPN1，其与组间共有特征G _N进行特征组合，并通过卷积运算（Cov）处理后即可得到组合特征

；将池化层3的输出经过FPN网络处理后得到FPN2，其与组间共有特征G _N进行特征组合，并通过卷积运算（Cov）处理后即可得到组合特征

。

需要说明的是，特征图金字塔网络（Feature Pyramid Networks，简称FPN）主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。由于低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略；所以可以采用多尺度特征融合的方式，对融合后的特征做预测。

（2）对组合特征进行卷积运算和上采样运算，计算得到每幅样本图像对应的融合特征。

参见图5，对于样本图像I _n，其对应的组合特征表示为

，进行卷积运算（Cov）和上采样运算（up）之后即可得到对应的融合特征，且表示为

。

步骤S330，对每幅样本图像对应的融合特征进行卷积运算和上采样运算，计算得到每幅样本图像的语义检测结果，且表示为R _n。

参见图5和图7，对于样本图像I _n，其对应的融合特征为

，进行卷积运算（Cov）和上采样运算（up）之后即可得到样本图像I _n的语义检测结果R _n。那么，样本图像I ₁经过特征提取和融合处理后的语义检测结果为R ₁，样本图像I ₂经过特征提取和融合处理后的语义检测结果为R ₂，以此类推，最终样本图像I _N经过特征提取和融合处理后的语义检测结果为R _N。

需要说明的是，得到各幅样本图像对应的语义检测结果之后，就可对图像中的目标对象进行分割。比如图5，若目标对象是牛，则在语义分割结果中，Cow表示牛，Grass表示草地，Sky表示天空，Tress表示树木。此外，由于语义检测结果中对图像特征信息进行了准确的标注，那么可以利用语义检测结果进行网络模型的训练，从而得到准确度高的图像识别模型，以便对待检测图像内的物体进行准确识别和分割。

实施例二、

本实施例对实施例一中公开的协同检测方法进行了改进，在得到每幅样本图像的语义检测结果之后，还包括训练步骤和检测步骤。

在本实施例中，参见图4，协同检测方法包括步骤S410-S430，下面分别说明。

步骤S410，处理得到每幅样本图像的语义检测结果。

对于多幅样本图像I ₁、I ₂、…、I _N，处理得到语义检测结果的过程可以参考实施例一中的步骤S100-S300，这里不再进行赘述。

步骤S420，根据每幅样本图像的语义检测结果建立网络模型的损失函数，以及通过样本训练学习得到网络模型的网络参数。

在一个具体实施例中，该步骤S420采用以下方法进行实现：

（1）根据每幅样本图像的语义检测结果建立对应的第一目标函数，且用公式表示为

；

其中，

为N幅样本图像I _n的集合，

为N幅样本图像的标注信息的集合，上标T为标注之意，log( )表示对数运算。

（2）根据各幅样本图像的语义检测结果建立第二目标函数，且用公式表示为

；

其中，

表示综合的特征信息，b为预设偏置量，

为任意样本图像的语义检测结果中的前景信息，

为任意样本图像的标注前景信息，

为任意样本图像的标注背景信息，i、j均为样本图像的序号，Dist( )为距离加权函数。

对于输入图像

，由于检测得到的语义检测结果（即Mask信息）为

，对应的标注信息为

，则检测结果和标注信息可以表示为

，对应的特征可以整体表示为

，其中，

为综合考虑函数

的结果。对于单幅样本图像而言，需要尽可能地与标注信息接近，因此可以把单张特有特征的数据看成结果的中心，也就是说检测组间共有特征的结果应该围绕在单张特有特征的结果中心进行分布，并且方差应该尽可能越小越好。那么，第二目标函数

可以很好地满足这一要求。

需要说明的是，由于距离加权函数Dist( )为表示的是两个特征向量的相似性，所以在采用余弦相似度或者马氏距离进行计算时，余弦相似度可以表示为

。

（3）根据第一目标函数和第二目标函数建立一网络模型的损失函数，且用公式表示为

；

其中，

表示网络模型的网络权重系数向量，为第二目标函数的权重系数。

（4）利用多幅样本图像参与训练损失函数，学习得到网络模型的网络参数。在得到网络模型的损失函数L的情况下，将多幅样本图像输入至网络模型进行模型训练，即可对损失函数L进行参数校正，从而学习得到网络模型的网络参数。可以理解，此时网络模型已经训练完成，接下来就可以借助该网络模型对待检测图像进行目标对象的检测处理。

需要说明的是，训练使用的网络模型可以采用深度神经网络（DNN），当然也可以采用其它的网络，比如CNN、VGG等，这里不做具体限定。

步骤S430，获取目标对象的待检测图像，根据构建的网络模型处理得到目标对象的识别结果。

在一个具体实施例中，为了对目标对象进行识别，这里需要首选获取目标对象的待检测图像，而目标对象需要和网络模型中训练识别的对象一致，比如为人、动物、植物、汽车等物体。接下来，只需要将待检测图像输入至网络模型，即可处理得到目标对象的识别结果。

需要说明的是，这里的识别结果包括目标对象所在图像区域内每个像素点的所属类别和置信度；在待检测图像内，如果某一像素区域内的各像素点具有同一所属类别且高置信度，那么能够确定该像素区域表示为同一个物体（比如图5中的牛），从而在待检测图像中分割出物体，进而完成了物体识别和像素分割。

实施例三、

在实施例一和实施例二中公开的协同检测方法的基础上，本实施例中公开一种图像检测装置，请参考图8，该图像检测装置包括图像采集部件11和处理器12。下面分别说明。

图像采集部件11可以采用摄像机、相机等设备，主要用于采集目标对象的多幅样本图像和待检测图像。

需要说明的是，目标对象的多幅样本图像用来构建网络模型和参与模型训练，而目标对象的待检测图像用来输入网络模型以识别出图像中存在的目标对象。此外，涉及的目标对象可以是流水线上的产品、工具台上的零件，还可以是人、动物、植物等物体，这里不做具体限定。

处理器12与图像采集部件11连接，用于通过上述实施例一中公开的协同检测方法对采集的多幅样本图像进行处理，和/或，通过上述实施二中公开的协同检测方法对采集的待检测图像进行处理。

在一个实施例中，参见图8，图像检测装置还包括显示器13，该显示器13与处理器12连接，用于对处理器12的处理结果进行显示，比如显示多幅样本图像和待检测图像，以及显示待检测图像中目标对象的识别结果。

实施例四、

在实施例一和实施例二中公开的基于图像流的协同检测方法的基础上，本实施例中公开一种图像检测装置。

请参考图9，图像检测装置2主要包括存储器21和处理器22。其中，存储器21作为计算机可读存储介质，用于存储程序，该程序可以是实施例一中协同检测方法S100-S300对应的程序代码，还可以是实施例二中协同检测方法S410-S430对应的程序代码。

处理器22与存储器21连接，用于执行存储器21中存储的程序以实现协同检测方法。处理器22实现的功能可以参考实施例三中的处理器12，这里不再进行详细说明。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于图像流的协同检测方法，其特征在于，包括：

从图像流中获取目标对象的多幅样本图像；

提取所述多幅样本图像的特征，得到每幅所述样本图像的单张特有特征和所述多幅样本图像的组间共有特征；

对所述单张特有特征和所述组间共有特征进行融合，得到每幅所述样本图像的语义检测结果。

2.如权利要求1所述的方法，其特征在于，所述提取所述多幅样本图像的特征，得到每幅所述样本图像的单张特有特征和所述多幅样本图像的组间共有特征，包括：

对所述多幅样本图像分别进行卷积网络处理，得到每幅所述样本图像对应的特征数据；

对每幅所述样本图像对应的特征数据进行高级语义特征的抽取，得到每幅所述样本图像的单张特有特征；

通过注意力机制对各幅所述样本图像对应的特征数据进行统一抽取，得到所述多幅样本图像的组间共有特征。

3.如权利要求2所述的方法，其特征在于，所述对每幅所述样本图像对应的特征数据进行高级语义特征的抽取，得到每幅所述样本图像的单张特有特征，包括：

构建第一变换关系f ₁，且满足公式

；

设定X _n为任意所述样本图像对应的特征数据，在输入至所述第一变换关系f ₁后计算得到每幅所述样本图像的单张特有特征，且表示为S _n；

其中，

，

为所述样本图像的网络权重系数向量。

4.如权利要求3所述的方法，其特征在于，所述通过注意力机制对各幅所述样本图像对应的特征数据进行统一抽取，得到所述多幅样本图像的组间共有特征，包括：

通过注意力机制构建第二变换关系f ₂，且满足公式

；

利用所述第二变换关系f ₂对各幅所述样本图像对应的特征数据进行迭代变换，计算得到所述多幅样本图像的组间共有特征，且表示为G _N；

其中，

为X _n的集合，N为所述多幅样本图像的数目，

为各幅所述样本图像之间的网络权重系数向量。

5.如权利要求4所述的方法，其特征在于，所述利用所述第二变换关系f ₂对各幅所述样本图像对应的特征数据进行迭代变换，计算得到所述多幅样本图像的组间共有特征，包括：

对各幅所述样本图像的特征数据分别进行噪声抑制，得到对应的去噪数据，所述去噪数据表示为

；

其中，

为第一门控函数，W _d为迭代网络权重系数向量，符号

表示元素对应相乘的运算；

利用各幅所述样本图像分别对应的去噪数据参与迭代计算，迭代过程表示为

；

其中，

，

；

为第二门控函数，

，

，ReLU为线性整流函数；

将N次迭代计算的结果作为所述多幅样本图像的组间共有特征。

6.如权利要求5所述的方法，其特征在于，所述对所述单张特有特征和所述组间共有特征进行融合，得到每幅所述样本图像的语义检测结果，包括：

获取每幅所述样本图像进行卷积网络处理时的池化层特征，且表示为

；

构建第三变换关系f ₃，且满足公式

；

；其中，

为特征之间的融合权重系数向量；

对每幅所述样本图像对应的融合特征进行卷积运算和上采样运算，计算得到每幅所述样本图像的语义检测结果，且表示为R _n。

7.如权利要求6所述的方法，其特征在于，所述将每幅所述样本图像对应的池化层特征和单张特有特征输入至所述第三变换关系f ₃，计算得到每幅所述样本图像对应的融合特征，包括：

对每幅所述样本图像对应的池化层特征和单张特有特征进行FPN网络的处理，将处理后的特征与所述多幅样本图像的组间共有特征进行特征组合，得到组合特征，且表示为D _n；

对所述组合特征进行卷积运算和上采样运算，计算得到所述每幅所述样本图像对应的融合特征。

8.如权利要求6所述的方法，其特征在于，在得到每幅所述样本图像的语义检测结果之后，还包括训练步骤：

根据每幅所述样本图像的语义检测结果建立对应的第一目标函数，且用公式表示为

；

其中，

为N幅所述样本图像I _n的集合，

为N幅所述样本图像的标注信息的集合；

根据各幅所述样本图像的语义检测结果建立第二目标函数，且用公式表示为

；

其中，

表示综合的特征信息，b为预设偏置量，

为所述样本图像的语义检测结果中的前景信息，

为所述样本图像的标注前景信息，

为所述样本图像的标注背景信息，i、j均为所述样本图像的序号，Dist( )为距离加权函数；

根据所述第一目标函数和所述第二目标函数建立一网络模型的损失函数，且用公式表示为

；

其中，

表示所述网络模型的网络权重系数向量，

为所述第二目标函数的权重系数；

利用所述多幅样本图像参与训练所述损失函数，学习得到所述网络模型的网络参数。

9.如权利要求8所述的方法，其特征在于，在得到所述网络模型之后还包括检测步骤：

获取所述目标对象的待检测图像；

将所述待检测图像输入至所述网络模型，处理得到所述目标对象的识别结果；所述识别结果包括所述目标对象所在图像区域内每个像素点的所属类别和置信度。

10.一种图像检测装置，其特征在于，包括；

图像采集部件，用于采集目标对象的多幅样本图像和待检测图像；

处理器，与所述图像采集部件连接，用于通过权利要求1-8中任一项所述的方法对所述多幅样本图像进行处理，和/或通过权利要求9中所述的方法对所述待检测图像进行处理。

11.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-9中任一项所述的方法。