CN108154153A

CN108154153A - 场景分析方法和系统、电子设备

Info

Publication number: CN108154153A
Application number: CN201611097543.5A
Authority: CN
Inventors: 石建萍; 赵恒爽
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2018-06-12
Anticipated expiration: 2036-12-02
Also published as: CN108154153B

Abstract

本发明实施例公开了一种场景分析方法和系统、电子设备，其中，场景分析方法包括：利用深度神经网络对待分析的图像进行卷积操作，获得第一特征图，该第一特征图包括所述图像中各像素的特征；对第一特征图进行池化操作，获得至少一个第二特征图，所述第二特征图的大小小于所述第一特征图；根据第一特征图与至少一个第二特征图对图像进行场景分析，获得图像的场景分析结果，其中包括图像中各像素的类别。本发明实施例可以提升分析结果的准确性。

Description

场景分析方法和系统、电子设备

技术领域

本发明涉及计算机视觉技术，尤其是一种场景分析方法和系统、电子设备。

背景技术

场景分析(Scene parsing)是基于语义分割，对描述场景的图像中的每一个像素赋予一个类别，并对不同的类别标注不同的颜色。场景分析是目标识别、图像检索、视频标注等的基础，近年来已成为计算机视觉领域的研究热点。

发明内容

本发明实施例提供一种用于对图像进行场景分析的技术方案。

本发明实施例的一个方面，提供一种场景分析方法，包括：

利用深度神经网络对待分析的图像进行卷积操作，获得第一特征图，所述第一特征图包括所述图像中各像素的特征；

对所述第一特征图进行池化操作，获得至少一个第二特征图，所述第二特征图的大小小于所述第一特征图；

根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析，获得所述图像的场景分析结果，所述场景分析结果包括所述图像中各像素的类别。

基于上述方法的另一实施例中，所述第二特征图的数量为多个，多个第二特征图中不同第二特征图的大小不同。

基于上述方法的另一实施例中，所述多个第二特征图中各第二特征图的大小依次递增。

基于上述方法的另一实施例中，对所述第一特征图进行池化操作，获得至少一个第二特征图，包括：

利用所述深度神经网络中的第一池化层，分别以多个大小不同的池化窗口分别对所述第一特征图进行下采样，获得多个第二特征图。

基于上述方法的另一实施例中，所述根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析之前，还包括：

通过所述深度神经网络中的卷积层对所述第二特征图进行降维处理。

基于上述方法的另一实施例中，根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析之前，还包括：

利用所述深度神经网络中的第二池化层分别对所述至少一个第二特征图进行上采样，以将各所述第二特征图分别放大至所述第一特征图的大小。

基于上述方法的另一实施例中，所述根据所述第一特征图与所述第二特征图对所述图像进行场景分析包括：

利用所述深度神经网络中的连接层，将放大后的各第二特征图与所述第一特征图进行连接，获得第三特征图；

利用所述深度神经网络中的分类层，通过所述第三特征图，预测所述图像中各像素的类别，获得所述图像的场景分析结果。

基于上述方法的另一实施例中，还包括：

利用样本图像，采用误差反向传播方法对初始设置的深度神经网络模型进行网络训练，获得所述深度神经网络。

基于上述方法的另一实施例中，所述利用样本图像，采用误差反向传播方法对深度神经网络模型进行网络训练包括：

在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得所述深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果；

确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异、以及所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异；

在反向传播过程中，根据所述第一差异调整第一网络层的参数、并根据所述第一差异和所述第二差异调整第二网络层的参数；其中：所述第一网络层包括所述深度神经网络模型中位于所述中间网络层和所述末个网络层之间的至少一网络层，所述第二网络层包括所述深度神经网络模型中至少一除所述第一网络层之外的其他网络层。

基于上述方法的另一实施例中，所述中间网络层包括所述深度神经网络模型中的多个网络层；不同的中间网络层进行参数调整的网络层不同。

基于上述方法的另一实施例中，所述深度神经网络模型的网络层数量为N，所述中间网络层为所述深度神经网络模型中在前向传播方向上的第M层；其中，N的取值为大于2的整数，M的取值为大于2、且小于N的整数。

基于上述方法的另一实施例中，M的取值大于N/2。

基于上述方法的另一实施例中，根据所述第一差异和所述第二差异调整各第二网络层的参数，包括：

为所述第一差异和所述第二差异确定不同的权重；

根据所述第一差异及其权重、所述第二差异及其权重调整所述第二网络层的参数。

基于上述方法的另一实施例中，所述第一差异的权重大于所述第二差异的权重。

基于上述方法的另一实施例中，所述中间网络层包括辅助分类层；

所述第一场景分析预测结果包括所述辅助分类层输出的对所述样本图像中各像素的场景分类预测结果。

基于上述方法的另一实施例中，所述方法还包括：

对所述深度神经网络模型网络训练完成后，去除所述辅助分类层。

基于上述方法的另一实施例中，确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异，包括：

利用第一分类代价函数层获取所述第一场景分析预测结果和所述场景分析标注信息中对所述样本图像中各像素的场景分类预测结果之间的差异，作为所述第一差异；

对所述深度神经网络模型网络训练完成后，去除所述第一分类代价函数层。

基于上述方法的另一实施例中，所述第二场景分析预测结果包括所述末个网络层输出的对所述样本图像中各像素的场景分类预测结果。

基于上述方法的另一实施例中，确定所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异包括：

利用分类代价函数层获取第二场景分析预测结果和所述场景分析标注信息中对所述样本图像中各像素的场景分类预测结果之间的差异，作为所述第二差异。

基于上述方法的另一实施例中，所述方法还包括：

对所述深度神经网络模型网络训练完成后，去除所述第二分类代价函数层。

基于上述方法的另一实施例中，所述第一分类代价函数层包括：回归softmax损失函数、熵函数或者支持向量机SVM代价函数；和/或所述第二分类代价函数层包括：回归softmax损失函数、熵函数或者支持向量机SVM代价函数。

本发明实施例的另一个方面，提供的一种所述场景分析系统，包括：

特征提取单元，用于对待分析的图像进行卷积操作，获得第一特征图，所述第一特征图包括所述图像中各像素的特征；

池化单元，用于对所述第一特征图进行池化操作，获得至少一个第二特征图，所述第二特征图的大小小于所述第一特征图；

分类层，用于根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析，获得所述图像的场景分析结果，所述场景分析结果包括所述图像中各像素的类别。

基于上述系统的另一实施例中，所述第二特征图的数量为多个，多个第二特征图中不同第二特征图的大小不同。

基于上述系统的另一实施例中，所述多个第二特征图中各第二特征图的大小依次递增。

基于上述系统的另一实施例中，所述池化单元包括：

第一池化层，用于分别以多个大小不同的池化窗口，对所述第一特征图进行下采样，获得多个第二特征图。

基于上述系统的另一实施例中，所述池化单元还包括：

卷积层，用于对所述第二特征图进行降维处理。

基于上述系统的另一实施例中，所述池化单元还包括：

第二池化层，用于分别对所述至少一个第二特征图进行上采样，以将各所述第二特征图分别放大至所述第一特征图的大小；

连接层，用于将放大后的各第二特征图与所述第一特征图进行连接，获得第三特征图；

所述分类层，具体用于通过所述第三特征图，预测所述图像中各像素的类别，生成所述图像的分析结果。

本发明实施例的又一个方面，提供的一种电子设备，包括：处理器、存储器、通信部和通信总线，所述处理器、所述存储器和所述通信部通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述场景分析方法对应的操作

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：利用深度神经网络对待分析的图像进行卷积操作，获得第一特征图的指令，所述第一特征图包括所述图像中各像素的特征；

对所述第一特征图进行池化操作，获得至少一个第二特征图的指令，所述第二特征图的大小小于所述第一特征图；

根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析，获得所述图像的场景分析结果的指令，所述场景分析结果包括所述图像中各像素的类别。

基于本发明上述实施例提供的场景分析方法和系统、数据处理装置和电子设备，对待分析的图像进行卷积操作，获得包括该图像中各像素的特征第一特征图，对该第一特征图进行池化操作，获得至少一个大小小于第一特征图的第二特征图，根据第一特征图与上述至少一个第二特征图，对图像进行场景分析，获得图像的场景分析结果。

本发明人在实现本发明的过程中通过研究发现，场景分析任务中每个像素对周边信息依赖比较强，本发明实施例在对图像进行场景分析的过程中，由于第一特征图包括了图像中各像素的特征，第二特征图由对第一特征图进行池化操作获得且大于第一特征图，则第二特征图中每个特征对应的图像区域大于第一特征图中每个特征对应的图像区域，由此，第二特征图中的各特征体现了图像中对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)。因此本发明实施例对图像进行场景分析时，不止考虑了各像素自身的语义信息，同时参考了整个图像不同像素的语义上下文信息和/或空间上下文信息等上下文信息，使得对各像素类别的预测更准确，相对传统仅基于当前像素的信息进行类别预测的技术而言，有效提升了场景分析结果的准确性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明场景分析方法一个实施例的流程图。

图2为本发明实施例场景分析方法另一个实施例的流程图。

图3为本发明实施例中场景分析方法一个应用示例图。

图4为本发明实施例中对初始深度神经网络模型进行网络训练一个实施例的流程图。

图5为本发明场景分析系统一个实施例的结构示意图。

图6为本发明场景分析系统另一个实施例的结构示意图。

图7为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统、服务器、终端设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统、服务器、终端设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本发明的过程中，发明人通过研究发现，现有的场景分析方法仅基于各像素的信息预测图像中各像素的类别，针对复杂的场景分析任务，会存在以下问题：

不匹配的相对关系。例如，错误地将水面上的船预测为小轿车；

存在易混淆的类别。例如，将摩天大楼的部分预测为建筑物，这对于精细分类来说是不合格的；

易忽视不显眼的物体。例如，忽视了床上与床单颜色纹理均很相似的枕头，由于床上的枕头由于和床单颜色、纹理太像而没有被预测出来，而这些是机器感知领域非常重视的问题。

图1为本发明场景分析方法一个实施例的流程图。如图1所示，该实施例的场景分析方法包括：

102，利用深度神经网络对待分析的图像进行卷积操作，提取待进行场景分析的图像中各像素的特征，获得第一特征图。

其中，该第一特征图包括图像中各像素的特征。

104，对第一特征图进行池化操作，获得至少一个第二特征图。

其中，每个第二特征图包括多个特征，由于第二特征图中的每个特征由对第一特征图进行池化操作获得、且第二特征图大于第一特征图，则第二特征图中每个特征对应的图像区域大于第一特征图中每个特征对应的图像区域，第二特征图中的各特征体现了图像对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)，由此，基于第二特征图可以获知每个特征对应的图像区域的语义上下文信息和空间上下文信息等上下文信息。

106，根据第一特征图与上述至少一个第二特征图，对图像进行场景分析，获得该图像的场景分析结果，该场景分析结果中包括图像中各像素的类别。

本发明人通过研发发现，场景分析任务中每个像素对周边信息依赖比较强，本发明实施例在对图像进行场景分析的过程中，由于第一特征图包括了图像中各像素的特征，第二特征图由对第一特征图进行池化操作获得且其大小小于第一特征图，则第二特征图中每个特征对应的图像区域大于第一特征图中每个特征对应的图像区域，由此，第二特征图中的各特征体现了图像中对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)。因此本发明实施例对图像进行场景分析时，不止考虑了各像素自身的语义信息，同时参考了整个图像不同像素的语义上下文信息和/或空间上下文信息等上下文信息，使得对各像素类别的预测更准确，相对传统仅基于当前像素的信息进行类别预测的技术而言，有效提升了场景分析结果的准确性。

具体应用中，上述操作104中获得的第二特征图可以是一个，也可以包括多个，第二特征图有多个时，多个第二特征图中不同第二特征图的大小不同。多个第二特征图中各第二特征图的大小可以依次递增，从而形成金字塔结构，由此，该金字塔结构的第二特征图包括了整个图像中各像素在大小依次变化的不同视觉感受野的信息，根据第一特征图与该金字塔结构的第二特征图，同时基于图像中各像素的特征及各像素在不同视觉感受野的信息，对图像进行场景分析，使得对各像素类别的预测更准确。

第二特征图有多个时，上述操作104具体可以通过如下方式实现：利用深度神经网络中的第一池化层，分别以多个大小不同的池化窗口，例如，分别以1*1、2*2、3*3、6*6的池化窗口，对第一特征图进行下采样，生成多个第二特征图，每个第二特征图包括多个特征，每个特征用于表示图像中对应的区域的不同像素的上下文信息(如语义上下文信息和/或空间上下文信息等)。

另外，第二特征图是一个时，上述操作104具体也可以通过同样的方式实现：利用深度神经网络中的第一池化层，以设定的池化窗口大小对第一特征图进行下采样，生成一个第二特征图，该第二特征图包括多个特征，每个特征用于表示图像中对应区域中像素的语义上下文信息和空间上下文信息等。

图2为本发明实施例场景分析方法另一个实施例的流程图。如图2所述，与图1所示的实施例相比，该实施例的场景分析方法包括：

202，利用深度神经网络中的卷积层对待分析的图像进行卷积操作，提取待分析图像的卷积特征，获得第一特征图，其中包括图像中各像素的卷积特征。

204，利用深度神经网络中的第一池化层，分别以多个大小不同的池化窗口，例如，分别以1*1、2*2、3*3、6*6的池化窗口，对第一特征图进行下采样(maxpooling)，获得多个大小不同的第二特征图。

其中的第二特征图包括多个特征，以每个池化窗口下采样一次获得一个特征，每个特征分别表示图像对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)。由此，基于第二特征图可以获知每个特征对应的图像区域的语义上下文信息和/或空间上下文信息等上下文信息。

其中多个第二特征图中按照大小依次排序时，可以形成金字塔结构，由此，该金字塔结构的第二特征图包括了整个图像中各像素在大小依次变化的不同视觉感受野的信息，根据第一特征图与该金字塔结构的第二特征图，同时基于图像中各像素的特征及各像素在不同视觉感受野的信息，对图像进行场景分析，使得对各像素类别的预测更准确。

206，利用深度神经网络中的第二池化层分别对上述多个第二特征图进行上采样，将第二特征图放大至第一特征图的大小，以便确定第二特征图与第一特征图在图像各像素位置上的对应关系。

208，利用深度神经网络中的连接层，将放大后的多个第二特征图与第一特征图，例如在垂直于池化窗口的方向，进行连接，获得第三特征图。

这样，第三特征图便包括了图像中各原始像素的特征和一系列对应图像区域中各像素的特征。

210，利用深度神经网络中的分类层，通过第三特征图，预测图像中各像素的类别，获得图像的场景分析结果。

其中的场景分析结果中包括图像中各像素的类别。

本发明实施例中，基于图像的第一特征图和呈金字塔结构分布的多个第二特征图生成的第三特征图进行场景分析，每个像素类别信息的判读不仅基于当前像素的信息，还基于整张图像中各像素在不同视觉感受野的信息，使得对各像素类别的预测更准确，相对传统仅基于当前像素的信息进行类别预测的技术而言，有效提升了场景分析结果的准确性。

通过实验证明，基于本发明实施例的场景分析方法对包含床单和枕头、且二者颜色纹理均很相似的图像进行场景分析，获得的场景分析结果与场景分析标注信息基本一致，避免了现有技术针对图像中由于颜色、纹理相似而无法被预测出来的问题。

如图3所示，为本发明实施例中场景分析方法一个应用示例图，示例性的示出了基于本发明实施例对图像进行处理的一个过程示例。

另外，在本发明上述各实施例的场景分析方法中，生成第二特征图之后，还可以通过深度神经网络中的卷积层对各第二特征图进行降维度(也称为：降维)处理。相应地，后续操作中，具体结合第一特征图与上述至少一个降维后的第二特征图，对图像进行场景分析。

所谓特征降维，即采用一个低纬度的特征来表示高纬度。具体地，本发明实施例可以通过例如特征选择和特征抽取的方式进行特征降维。其中，第二特征图包括的特征作为高纬度的特征，则通过特征选择的方式进行特征降维时，从第二特征图包括的高纬度的特征中选择其中的一个子集来作为新的特征。通过特征抽取的方式进行特征降维时，将第二特征图包括的高纬度的特征经过预设的函数映射至低纬度作为新的特征。

获得第二特征图后，如果第二特征图的特征维数太多，经常会导致特征匹配时过于复杂，消耗计算资源，本发明实施例在将第一特征图与第二特征图进行连接前先对第二特征图进行降维，可以提高特征匹配效率，节省计算资源；并且，避免了第二特征图中特征(场景图像的全局特征)的维度太高的导致第一特征图中的特征(即各像素自身的特征)在深度神经网络模型训练反向传播过程中对网络参数调整的影响变小，有效保证在深度神经网络模型训练反向传播过程中，第一特征图中的特征对网络参数调整的影响作用。

进一步地，在本发明上述实施例的场景分析方法之前，还可以基于样本图像，采用误差反向传播方法，对初始设置的深度神经网络模型进行网络训练，获得本发明上述各实施例中使用的深度神经网络。

对于神经网络，可以明显发现，网络的表达能力和性能随着网络深度的增加而增强。然而，网络并非越深越好。除了计算代价问题，在网络深度较深时，继续增加网络层数有时并不能提高网络性能，反而可能退化。另外，对于深度很深的神经网络，由于梯度消失等原因，如何训练一个深度很深的神经网络却一直是一个困扰人们的问题。

在实现本发明的过程中，发明人通过研究发现，深度神经网络中存在的一个问题是网络深度过深会导致误差难以向前传递，结构难以得到最佳的优化，使得神经网络的训练仍然呈现了退化(degradation)的现象，即：随着网络深度的增加，网络的性能反而下降，例如，56层的神经网络在训练误差和测试误差上都要比20层的神经网络大。

本发明各实施例中的样本图像为具有预先通过人工标注的、作为准确的场景分析结果的图像，其中，人工标注的场景分析结果在本发明各实施例中称为场景分析标注信息，可作为标准，用于衡量深度神经网络模型中相应网络层输出的场景分析预测结果的准确性。

其中，深度神经网络模型的网络层数量为N，N的取值为大于2的整数。其中，N的取值较大时，深度神经网络的深度较深，即为深度神经网络或深度神经网络，实际应用中，深度神经网络中的网络层数量N的取值都较高，通常为几十、上百、甚至上千。

N的取值较大，例如大于预设值N0时，深度神经网络即作为深度神经网络，其中，N0的取值可以根据实际情况设置并且可以根据需要更新。参见图4，本发明实施例对初始深度神经网络模型进行网络训练的一个实施例包括如下操作：

302，在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果。

304，确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异、以及第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异。

306，在反向传播过程中，根据第一差异调整第一网络层的参数、并根据第一差异和第二差异调整第二网络层的参数。

其中，第一网络层包括深度神经网络模型中位于该中间网络层和末个网络层之间的至少一网络层，第二网络层包括深度神经网络模型中至少一除第一网络层之外的其他网络层。

通常，一个深度神经网络模型的网络训练过程通常包括多次迭代训练直至满足预定的训练完成条件，例如，第一差异和/或第二差异满足预设的差异阈值，或者迭代训练的次数达到预设次数阈值。每次迭代训练的过程可以分为两个阶段：前向传播和反向传播。如无相反说明，本发明各实施例中，首个网络层、中间网络层和末个网络层是按照网络训练的前向传播方向对深度神经网络模型中各网络层进行的排序。

本发明实施例在深度神经网络模型过程中，引入了深度神经网络模型的中间网络层输出的第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异，同时基于该第一差异和末个网络侧层输出的第二场景分析预测结果与样本图像的场景分析标注信息之间的第二差异，联合优化深度神经网络模型中位于该中间网络层和末个网络层之间的至少一网络层的参数，基于上述第二差异来调整深度神经网络模型中至少一除上述第一网络层之外的其他网络层参数，因此该中间网络层及其之前的各网络层可以受到更好的监督，使得深度神经网络模型优化更加彻底，能够获得更好的网络模型优化结果。

本发明人通过研发发现，如果M值较小，则深度神经网络模型中在该中间网络层前面的网络层较少，由首个网络层到该中间网络层形成的深度神经网络太浅，网络表达能力有限，通过第一差异对该中间网络层和末个网络层之间的至少一网络层进行训练的效果可能不好，从而限制了该第一差异的辅助训练效果。针对于此，在本发明一个具体示例中，M的取值例如可以大于N/2，即：可以在深度神经网络模型中前向传播方向上的后半部分网络层设置一个中间网络层。例如，在一个具体应用中，本发明实施例的中间网络层可以设置在池化层之后，用于对池化层输出的特征图进行场景分析检测。

另外，可以根据实际需求，仅在深度神经网络模型中设置一个中间网络层，还可以根据进行网络训练的深度神经网络模型的网络层数量N，确定需要的中间网络层的数量L，其中，L的取值为大于0且小于N的整数。可以规定，深度神经网络模型的网络层数量N越大，即网络越深，中间网络层的数量越大。

在本发明神经网络训练方法实施例的一个具体示例中，上述图4所示实施例的操作306中，根据上述第一差异和上述第二差异调整第二网络层的参数，具体可以通过如下方式实现：

为第一差异和第二差异分别为第一差异和第二差异确定不同的权重W1和W2；

根据第一差异及其权重W1、第二差异及其权重W2调整上述第二网络层的参数。

具体地，在实际应用中，可以设置第一差异的权重W1小于第二差异的权重W2，即：W1与W2的比值大于0且小于1，以实现第一差异对深度神经网络模型网络优化的主导作用，由第一差异辅助对深度神经网络模型网络进行优化，在整体上保障整个深度神经网络模型的优化效果。

在本发明上述各方法实施例的一个具体实例中，中间网络层具体可以是一个辅助分类层，上述第一场景分析预测结果包括该辅助分类层输出的对样本图像中各像素的场景分类预测结果。进一步地，可以在对深度神经网络模型的网络训练完成后，去除该辅助分类层，以简化网络结构。

在本发明上述各方法实施例的另一个具体示例中，上述操作304中，确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异时，具体可以利用第一分类代价函数层获取第一场景分析预测结果和场景分析标注信息中对样本图像中各像素的场景分类预测结果之间的差异，作为第一差异。

其中，在对深度神经网络模型网络训练完成后，可以去除上述第一分类代价函数层。

在本发明上述各方法实施例的另一个具体示例中，第二场景分析预测结果具体包括末个网络层输出的对样本图像中各像素的场景分类预测结果。

相应地，在上述操作304中，确定第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异时，具体可以利用第二分类代价函数层获取第二场景分析预测结果和场景分析标注信息中对样本图像中各像素的场景分类预测结果之间的差异，作为第二差异。

同样，在对深度神经网络模型网络训练完成后，可以去除上述第二分类代价函数层。

示例性地，上述第一分类代价函数层、第二分类代价函数层，例如具体可以是以下任意一种：回归(softmax)损失函数、熵函数或者支持向量机(SVM)代价函数。

图5为本发明场景分析系统一个实施例的结构示意图。该实施例的场景分析装置可用于实现本发明上述各场景分析方法实施例。如图5所示，该实施例的场景分析系统包括：特征提取单元，池化单元和分类层。其中：

特征提取单元，用于对待分析图像进行卷积操作，获得第一特征图，该第一特征图包括图像中各像素的特征。其中的特征提取单元具体可以是一个卷积层。

池化单元，用于对第一特征图进行池化操作，获得至少一个第二特征图，该第二特征图的大小小于第一特征图。

具体应用中，生成的第二特征图可以是一个，也可以包括多个。第二特征图有多个时，多个第二特征图中不同第二特征图的大小不同，各第二特征图的大小可以依次递增，从而成金字塔结构分布，由此，该金字塔结构的第二特征图包括了整个图像中各像素在大小依次变化的不同视觉感受野的信息，根据第一特征图与该金字塔结构的第二特征图，同时基于图像中各像素的特征及各像素在不同视觉感受野的信息，对图像进行场景分析，使得对各像素类别的预测更准确。

分类层，用于根据第一特征图与第二特征图，对上述图像进行场景分析，获得该图像的场景分析结果，该场景分析结果中包括图像中各像素的类别。

本发明实施例的场景分析系统对图像进行场景分析的过程中，由于第一特征图包括了图像中各像素的特征，第二特征图由对第一特征图进行池化操作获得且小于第一特征图，则第二特征图中每个特征对应的图像区域大于第一特征图中每个特征对应的图像区域，由此，第二特征图中的各特征体现了图像中对应区域的上下文信息(如语义上下文信息和/或空间上下文信息等)。因此本发明实施例对图像进行场景分析时，不止考虑了各像素自身的语义信息，同时参考了整个图像中不同区域的语义上下文信息和/或空间上下文信息等上下文信息，使得对各像素类别的预测更准确，相对传统仅基于当前像素的信息进行类别预测的技术而言，有效提升了场景分析结果的准确性。

图6为本发明场景分析系统另一个实施例的结构示意图。如图6所示，与图5所示的实施例相比，该实施例中，池化单元具体包括第一池化层，用于对第一特征图进行下采样，获得第二特征图，其中的第二特征图包括多个特征，以每个池化窗口下采样一次获得一个特征，每个特征分别表示图像对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)。由此，基于第二特征图可以获知图像对应区域中像素的语义上下文信息和空间上下文信息等。

其中，第一池化层可以是一个或多个，第一池化层为多个时，多个第一池化层的池化窗口大小各不相同，可以分别用于以设定大小的池化窗口，对第一特征图进行下采样，获得多个第二特征图。第一池化层是一个时，可以分别以多个大小不同的池化窗口，对第一特征图进行下采样，获得多个第二特征图。

另外，再参见图6，在又一个实施例中，池化单元还可以包括卷积层，用于对第二特征图进行降维处理。相应地，该实施例中，分类层具体用于根据第一特征图与降维后的第二特征图，对图像进行场景分析。

进一步地，再参见图6，在另一个实施例中，池化单元还可以包括第二池化层和连接层。其中：

第二池化层，用于分别对上述至少一个第二特征图进行上采样，以将各第二特征图分别放大至第一特征图的大小，以便确定第二特征图与第一特征图在图像各像素位置上的对应关系。

连接层，用于将放大后的各第二特征图与第一特征图进行连接，例如将放大后的各第二特征图与第一特征图在垂直于池化窗口的方向进行连接，获得第三特征图。

相应地，该实施例中，分类层具体用于通过第三特征图，预测图像中各像素的类别，生成图像的分析结果，其中的场景分析结果中包括图像中各像素的类别。

进一步地，在本发明上述各实施例的场景分析系统中，还可以设置一个网络训练单元，用于利用样本图像，采用误差反向传播方法对初始设置的深度神经网络模型进行网络训练，以获得上述深度神经网络。本发明实施例中，网络训练单元具体可以基于本发明上述实施例中记载的任一方法或其组合得到的方法，来实现对深度神经网络模型的网络训练。此处不再赘述。

具体地，本发明实施例的场景分析系统可以是任意具有数据处理功能的装置，例如可以包括但不限于：进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。

另外，本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该电子设备设置有本发明上述任一实施例的场景分析系统。

具体地，本发明一个实施例的电子设备，包括：处理器、存储器、通信部和通信总线，所述处理器、所述存储器和所述通信部通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本发明上述任一实施例的场景分析方法对应的操作。

基于本发明上述实施例提供的电子设备，包括本发明上述数据处理系统，从而包括本发明上述任一实施例提供的场景分析系统，对各像素类别的预测更准确，可以有效避免仅基于当前像素的信息进行类别预测可能存在的类别预测错误的问题，提升了场景分析结果的准确性。

图7为本发明电子设备一个实施例的结构示意图。下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图：如图7所示，计算机系统包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，利用深度神经网络对待分析的图像进行卷积操作，获得第一特征图，所述第一特征图包括所述图像中各像素的特征；对所述第一特征图进行池化操作，获得至少一个第二特征图，所述第二特征图的大小小于所述第一特征图；根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析，获得所述图像的场景分析结果，所述场景分析结果包括所述图像中各像素的类别。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：利用深度神经网络对待分析的图像进行卷积操作，获得第一特征图的指令，所述第一特征图包括所述图像中各像素的特征；对所述第一特征图进行池化操作，获得至少一个第二特征图的指令，所述第二特征图的大小小于所述第一特征图；根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析，获得所述图像的场景分析结果的指令，所述场景分析结果包括所述图像中各像素的类别。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于装置、系统、电子设备实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、装置、系统、电子设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、装置、系统、电子设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种场景分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第二特征图的数量为多个，多个第二特征图中不同第二特征图的大小不同。

3.根据权利要求2所述的方法，其特征在于，所述多个第二特征图中各第二特征图的大小依次递增。

4.根据权利要求2或3所述的方法，其特征在于，对所述第一特征图进行池化操作，获得至少一个第二特征图，包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析之前，还包括：

6.根据权利要求1至5任意一项所述的方法，其特征在于，根据所述第一特征图与所述至少一个第二特征图对所述图像进行场景分析之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一特征图与所述第二特征图对所述图像进行场景分析包括：

8.根据权利要求1至7任意一项所述的方法，其特征在于，还包括：

9.一种场景分析系统，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器、存储器、通信部和通信总线，所述处理器、所述存储器和所述通信部通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至8任意一项所述的场景分析方法对应的操作。