CN110569696A

CN110569696A - 用于车辆部件识别的神经网络系统、方法和装置

Info

Publication number: CN110569696A
Application number: CN201811014381.3A
Authority: CN
Inventors: 郭清沛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-12-13
Also published as: US20200074178A1; WO2020047420A1; SG11202012512RA; TW202011282A; TWI742382B; US11475660B2; EP3844669A1

Abstract

本说明书实施例提供一种通过计算机执行的、用于车辆部件识别的神经网络系统，该系统包括：卷积层，配置为接收车辆图片，对车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图；区域生成网络RPN，配置为基于所述卷积特征图，确定以车辆部件为潜在目标的多个候选区域；分类回归层，配置为针对各个候选区域，基于该候选区域自身的区域特征，确定该候选区域对应的部件类别和边框；以及条件随机场CRF组件，配置为获取各个候选区域的部件类别和边框，并提取所述多个候选区域的关联特征，基于所述关联特征，修正所述各个候选区域的部件类别和边框。

Description

用于车辆部件识别的神经网络系统、方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及利用机器学习，通过神经网络自动识别车辆部件的方法和装置。

背景技术

在传统车险理赔场景中,保险公司需要派出专业的查勘定损人员到事故现场进行现场查勘定损，给出车辆的维修方案和赔偿金额，并拍摄现场照片，定损照片留档以供后台核查人员核损核价。由于需要人工查勘定损，保险公司需要投入大量的人力成本，和专业知识的培训成本。从普通用户的体验来说，理赔流程由于等待人工查勘员现场拍照、定损员在维修地点定损、核损人员在后台核损，理赔周期长达1-3天，用户的等待时间较长，体验较差。

针对需求背景中提到的这一人工成本巨大的行业痛点，开始设想将人工智能和机器学习应用到车辆定损的场景中，希望能够利用人工智能领域计算机视觉图像识别技术，根据普通用户拍摄的现场损失图片，自动识别图片中反映的车损状况，并自动给出维修方案。如此，无需人工查勘定损核损，大大减少了保险公司的成本，提升了普通用户的车险理赔体验。

在车损检测识别过程中，往往需要对车辆部件进行识别。目前的智能定损方案中，车辆部件识别的准确度还有待进一步提高。

因此，希望能有改进的方案，可以更准确地对车辆部件进行识别，从而提高智能定损的准确度。

发明内容

本说明书一个或多个实施例描述了一种车辆部件识别的神经网络系统和识别方法，其中通过建立条件随机场，在多个候选区域之间建立信息流动，来修正独立检测的结果，从而提高部件识别准确度。

根据第一方面，提供了一种通过计算机执行的、用于车辆部件识别的神经网络系统，包括：

至少一个卷积层，接收车辆图片，对所述车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图；

区域生成网络RPN，基于所述卷积特征图，确定以车辆部件为潜在目标的多个候选区域；

分类回归层，针对各个候选区域，基于该候选区域自身的区域特征，确定该候选区域对应的部件类别和边框；

条件随机场CRF组件，获取各个候选区域的部件类别和边框，并提取所述多个候选区域的关联特征，基于所述关联特征，修正所述各个候选区域的部件类别和边框。

根据一种实施方式，所述区域生成网络RPN为全卷积网络，包括卷积处理层，边框分类层，边框回归层，

其中所述卷积处理层在所述卷积特征图中，以滑动窗口对各个卷积映射位置进行卷积算子处理，得到各个位置的特征向量；

所述边框分类层通过各个位置的特征向量，预测各个位置对于预定的多个锚点是否构成前景目标；

所述边框回归层预测各个位置上对应于各个锚点的区域边界。

在一个实施例中，多个候选区域的关联特征包括以下中的至少一项：候选区域大小、候选区域之间的位置关系、候选区域的距离、候选区域的交并比。

根据一种可能的设计，所述条件随机场CRF组件配置为，确定条件随机场CRF的能量函数以及对应的概率函数，求解概率函数最小化时的能量函数，所述能量函数包括数据项和平滑项，所述数据项基于各个候选区域属于各个部件类别的概率，所述平滑项基于各个候选区域之间的关联特征。

进一步地，在一个实施例中，条件随机场CRF组件包括循环神经网络RNN，所述求解概率函数最小化时的能量函数包括，通过所述循环神经网络RNN执行多次迭代操作，逼近所述概率函数，所述迭代操作包括，通过预先训练的兼容性矩阵，更新各个候选区域属于各个部件类别的概率，所述兼容性矩阵示出，车辆各个部件类别之间兼容的概率。

根据一种实施方式，基础卷积层，区域生成网络RPN，分类回归层，条件随机场CRF组件中的参数通过训练样本端到端联合训练。

进一步地，在一个实施例中，所述端到端联合训练包括，

将训练样本输入所述基础卷积层，从所述条件随机场CRF组件的输出获得预测结果，所述预测结果包括多个目标区域的预测部件类别和预测边框；

根据所述预测结果以及训练样本的部件类别标签和边框标签，确定各个目标区域的预测误差，并基于所述预测误差确定损失函数，所述损失函数包括所述多个目标区域的预测误差的交叉项；

基于所述损失函数将预测误差反向传播，所述反向传播包括，将所述多个目标区域中的第一目标区域的预测误差反向传播到与第一目标区域相关的其他目标区域。

根据第二方面，提供一种通过神经网络系统进行车辆部件识别的方法，包括：

获取车辆图片；

对所述车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图；

基于所述卷积特征图，确定以车辆部件为潜在目标的多个候选区域；

针对各个候选区域，基于该候选区域自身的区域特征，确定该候选区域的部件类别和边框；

提取所述多个候选区域的关联特征；

基于所述关联特征，修正各个候选区域的部件类别和边框。

根据第三方面，提供一种进行车辆部件识别的装置，包括：

卷积处理单元，配置为获取车辆图片，对所述车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图；

区域生成单元，配置为基于所述卷积特征图，确定以车辆部件为潜在目标的多个候选区域；

目标检测单元，配置为针对各个候选区域，基于该候选区域自身的区域特征，确定该候选区域的部件类别和边框；

修正单元，配置为提取所述多个候选区域的关联特征，基于所述关联特征，修正各个候选区域的部件类别和边框。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的神经网络系统。

通过本说明书实施例提供的神经网络系统，方法和装置，在采用目标检测算法识别出多个部件的分类的基础上，采用条件随机场CRF，让候选区域之间的信息流相互之间流动，从而结合各个候选区域之间的关联关系，共同决定候选区域中车辆部件的类别，从而优化部件识别结果的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的神经网络系统的结构示意图；

图3示出根据一个实施例的区域生成网络RPN的结构示意图；

图4示出9种尺度的锚点的示例图；

图5示出根据一个实施例的车辆部件识别方法的流程图；

图6示出根据一个实施例的部件识别装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

为了对车辆定损图片中的车损状况进行识别，业界普遍采用的方法是，通过与海量历史数据库进行比对得到相似的图片,来决定图片上的损伤部件及其程度。然而，这样的方式损伤识别准确率不够理想。

根据监督学习的思路，开始采用模型训练的方式，从含有车损信息的图片中进行车损识别。根据一种实施方案，车损识别可以分为车辆部件识别，和损伤类型识别，最后将部件识别结果和损伤类型识别结果进行结合，作为车损检测结果。为此，考虑训练专门的车辆部件识别模型，从而准确地进行车辆部件识别。

图1为本说明书披露的一个实施例的实施场景示意图。如图1所示，利用带标注的车辆图片形成训练样本集，其中带标注的车辆图片可以是受损的车辆图片，也可以是无损的车辆图片，其中的标注包括对车辆图片中各个部件的部件类别和部件所在边框区域的标注。计算平台可以用这样的训练样本集训练车辆部件识别模型。

在训练得到部件识别模型之后，对于用户拍摄的现场图片，就可以将现场图片发送到计算平台，利用该部件识别模型，自动识别图片中的车辆部件，用于与损伤信息相结合，确定车损状况。

具体地，根据本说明书的实施例，上述车辆部件识别模型可以采用神经网络来实现，是基于神经网络的识别模型。该模型被训练为，可以基于单张车辆图片，识别出其中的多个车辆部件，也就是可以进行多目标同时检测。为了实现多目标检测，根据一种目标检测算法，首先识别出多个候选的感兴趣区域，或称为候选区域，然后确定各个候选区域对应的目标对象的类别和边框。根据本说明书的实施例，为了更为精准地进行多目标检测，同时识别出多个车辆部件，上述神经网络模型在采用目标检测算法识别出多个部件的分类的基础上，采用条件随机场CRF，让候选区域之间的信息流相互之间流动，从而结合各个候选区域之间的关联关系，共同决定候选区域中车辆部件的类别，从而优化部件识别结果的准确度。

下面描述实现部件识别模型的神经网络系统的具体结构和执行过程。

图2示出根据一个实施例的神经网络系统的结构示意图，该神经网络系统用于进行车辆部件识别。可以理解，该神经网络系统可以通过任何具有计算、处理能力的设备、装置、平台、设备集群来实现，例如图1所示的计算平台。如图2所示，神经网络系统包括，卷积层21，区域生成网络RPN 22，分类回归层23，以及条件随机场CRF组件24，这些网络层共同作用，实现部件识别模型的算法，从而对车辆图片进行部件识别。下面描述以上各个层的实现方式。

首先，神经网络系统在网络最前端包含卷积层21，用于接收车辆图片，对所述车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图。从实现的角度，卷积层21也可以认为是一个卷积神经网络CNN(Convolutional Neural Network)。

卷积神经网络CNN是图像处理领域常常采用的一种网络结构，其中包括若干卷积层，用于对图像进行卷积处理。卷积处理是对图像进行分析常常采用的一种处理操作。具体地，卷积处理是使用一个卷积核，对图像中的每个像素进行一系列操作。卷积核(算子)是用来做图像处理时的矩阵,是与原图像素做运算的参数。卷积核通常是一个四方形的网格结构(例如3*3的矩阵或像素区域)，每个网格都有一个权重值。使用卷积核对图片进行卷积计算时，将卷积核在图片的像素矩阵上滑动，每滑动一个步长，对卷积核中每个元素和其覆盖的图像像素值进行乘积并求和，如此得到的新的特征值矩阵构成卷积特征图，即featuremap。卷积运算可以从原始图片的像素矩阵中，提取出抽象的特征，根据卷积核的设计，这些抽象特征例如可以反映，原始图片中一个区域的线条形状、颜色分布等更加全局的特征。

在一个实施例中，上述卷积层21包括一个或多个卷积层，每个卷积层对图像进行一次卷积处理。经过这些卷积层处理，得到原车辆图片对应的卷积特征图(feature map)。

在一个实施例中，卷积层21包括多个卷积层，在这多个卷积层之间或在某些卷积层之后，还包括至少一个ReLU(The Rectified Linear Unit，修正线性单元)激励层，用于把卷积层输出结果做非线性映射。非线性映射的结果可以被输入下一卷积层继续进行卷积处理，或者可以作为卷积特征图输出。

在一个实施例中，卷积层21包括多个卷积层，在这多个卷积层之间，还包括至少一个池化层(pooling)，用于把卷积层输出结果进行池化操作。池化操作的结果可以被输入下一卷积层，继续进行卷积操作。

本领域技术人员了解，根据需要，卷积层21可以被设计为包括一个或多个卷积层，并可以选择性地在多个卷积层之间添加ReLU激励层和/或池化层。卷积层21对原始车辆图片进行卷积处理后，输出该图片对应的卷积特征图。

接着，基于卷积层21所生成的卷积特征图，区域生成网络RPN 22可以确定以车辆部件为潜在目标的多个候选区域。

候选区域RP(Region Proposal)是图片中目标可能出现的区域，在有些情况下又称为感兴趣区域ROI(Region Of Interest),候选区域的确定为后续目标的分类和边框的回归确定提供基础。

在用于进行目标检测和识别的R-CNN(Region CNN)网络模型和Fast R-CNN网络模型中都是采用选择性搜索(selective search)的方式提取候选区域RP。而在进一步的Faster R-CNN中，提出了区域生成网络RPN(region proposal network)，专用于生成或建议候选区域RP。

区域生成网络RPN是一种全卷积网络(fully-convolutional network)，基于基础网络(即包括前述的卷积层21)返回的卷积特征图，通过全卷积的方式高效实现候选区域RP的建议和生成。

图3示出根据一个实施例的区域生成网络RPN的结构示意图。如图所示，RPN包括卷积处理层221，边框分类层222，边框回归层223。

卷积处理层221可以配置为，在之前卷积层输出的卷积特征图中，以滑动窗口对各个卷积映射位置进行卷积算子处理，得到各个卷积映射位置的特征向量。

换而言之，在卷积处理层221，使用一个小网络(类似于卷积核)在之前卷积层输出的卷积特征图上进行滑动扫描，这个滑动窗口每次与特征图上一定大小的窗口全连接(类似于卷积算子)，然后映射到一个低维向量，即作为这个窗口中心位置的特征向量。

RPN网络中要用到锚点(anchor)的概念。如前所述用滑动窗口滑过各个位置进行扫描是为了确定每个滑窗中心对应感受野内存在目标与否。由于目标大小和长宽比例不一，因此就需要多个尺度的窗。锚点即给出一个基准窗大小，按照倍数和长宽比例得到不同大小的窗。例如最为经典的，基准窗大小为16，在此基础上给出(8、16、32)三种倍数和(0.5、1、2)三种比例的窗，这样能够得到一共9种尺度的锚点。

图4示出9种尺度的锚点的示例图。注意在该图中，为了清楚示出各个尺度的锚点，锚点中心并不对应同一位置。

需要了解，锚点对应于原始图片中的不同尺度的窗，而进行卷积运算的滑动窗口是作用于卷积特征图，卷积特征图中的每个卷积映射位置(取决于卷积处理的次数和每次处理卷积核大小)对应于原图中较大的区域。例如，图4中的整体区域40可以是作用于卷积特征图上的一个滑动窗口所对应的原图像素区域。而锚点是以滑动窗口(卷积核)中心点所对应的原图上位置为中心，在原图中框出的多尺度的窗口。

如上，以滑动窗口滑过各个位置进行处理，得到各个位置对于的特征向量。

这样的特征向量被输入到边框分类层222和边框回归层223。

边框分类层222通过各个位置的特征向量，预测各个位置对于预定的各个锚点是否构成前景目标。更具体地，边框分类层222针对每个位置，输出对于某个锚点的目标性分数(objectness score)，该分数示出这个位置对于当前锚点是前景目标的概率。目标性分数只是为了区分这个位置是目标或者不是目标，而不对目标本身进行分类。

边框回归层223配置为，预测各个位置上对应于各个锚点的区域边界。更具体地，该回归层针对每个卷积映射位置，输出这个位置上多种尺度和长宽比的多个区域建议的回归边界。在上述9种不同尺度锚点的情况下，对每个位置，输出9种回归边界。

综合边框分类层222和边框回归层223的结果，区域生成网络RPN可以直接基于卷积特征图，生成以车辆部件为潜在目标的多个候选区域。

如图2中示例性示出，在一个例子中，区域生成网络RPN在卷积特征图中建议出3个候选区域的区域边框，分别表示为区域A，B，C。

接着，卷积特征图以及基于该特征图的多个候选区域的生成结果被输入到分类回归层23。分类回归层23针对各个候选区域，基于该候选区域自身的区域特征，确定其中部件类别和边框。

根据一种实施方式，分类回归层23是一个全连接层，基于前一层输入的各个区域的区域特征，进行部件类别分类和边框回归。更具体地，分类回归层23可以包含多个分类器，各个分类器被训练以识别候选区域中不同类别的目标。在车辆部件检测的场景下，各个分类器被训练以识别不同类别的车辆部件，例如保险杠，车前门，引擎盖，大灯，尾灯等等。分类回归层23还包括回归器，用于对识别出的目标对应的边框进行回归，确定出包围该目标的最小矩形区域为边框(bounding box)。

以上的卷积层21，区域生成网络RPN 22和分类回归层23，构成Faster R-CNN的主体网络结构。通过这样的网络结构，可以对输入的车辆图片进行初步的部件识别，标注出部件类别，以及部件所在区域的边框。

如前所述，分类回归层23是基于每个候选区域自身的特征，确定该区域中部件的类别和边框。换而言之，对于各个候选区域是单独考虑，独立处理的。例如，对于图2示例的候选区域A，分类回归层23提取该候选区域A的特征，基于该特征判断该候选区域A中的目标是否为某个预先训练的部件类别，如果是，输出区域A目标的类别标签和边框作为预测结果。在对候选区域A进行目标识别时，仅考虑该候选区域A的特征，而与其他候选区域无关。如此，通过Faster R-CNN网络结构输出初步的部件识别结果。

根据本说明书的实施例，考虑到对于车辆部件识别而言，部件位置关系决定了部件类别相互之间存在约束关系，因此，在神经网络系统中还添加了条件随机场CRF组件，通过捕获和处理候选区域之间的关联特征，对分类回归层23得出的初步识别结果进行修正和优化，从而进一步提高部件检测的准确度。

如图2所示，条件随机场CRF组件一方面从分类回归层23获取各个候选区域的部件类别和回归边框，另一方面还从卷积特征图中提取各个候选区域的关联关系特征，让部件之间通过CRF组件建立一个随机场，让各个候选区域之间的信息流相互之间流动，由周围的候选区域的特征共同决定当前候选区域应该是什么类别，如此修正各个候选区域的部件类别结果。

具体地说，CRF即条件随机场，是一个无向图的概率模型，顶点代表变量，顶点之间的边代表两个变量之间的依赖关系。所有变量特征可以进行全局归一化，得到全局最优解。

在图像处理领域，CRF可以用于图像语义分割。具体地，图像可以认为是像素点的集合，图像分割也就是要确定各个像素点所属的类别标签。该图像可以映射为无向图模型，图模型的每个顶点对应一个像素点。在图像分割场景下，可以定义隐变量Xi为像素点i的分类标签，它的取值范围就是要分类的语义标签L＝{l1,l2,l3……}；Yi为每个随机变量Xi的观测值，也就是每个像素点的颜色值。在此基础上定义CRF的能量函数E(x)和概率函数P。

图像分割的能量函数包括数据项和平滑项，数据项基于每个像素属于各个类别的概率，平滑项是基于像素对之间的能量，例如灰度值差异和空间距离。条件随机场的图像语义分割的目标就是，使得能量函数E(x)最小化，这对应于后验概率函数P的最大化，此时得到的各个像素的类别标签即对应于最优分割结果。

借鉴CRF在图像分割中的应用，在本说明书的实施例中，使用条件随机场CRF组件来优化部件检测。主体思想是，在进行图像分割时，CRF组件可以通过捕捉像素之间的位置关系和关联(体现为在能量函数中存在平滑项)，利用像素周围的一些信息，得到更精准的像素级分割，也就是哪个像素是属于哪个分类。部件检测和分割的区别在于，分割需要确定哪个像素属于哪个部件，部件检测只需要确定，哪个区域是属于哪个部件，不需要知道各个像素的分类。因此，可以借鉴图像分割的应用方式，捕获候选区域的检测框之间的关联关系，利用周围的候选区域的特征，更精准地确定各个候选区域中部件的类别检测结果。

为此，在将CRF组件用于部件检测优化时，将条件随机场CRF能量函数E定义为，包括数据项和平滑项，所述数据项基于各个候选区域属于各个部件类别的概率，所述平滑项基于各个候选区域之间的关联特征。然后，基于该能量函数确定条件随机场的概率函数，并求解概率函数最小化时，能量函数对应的各个候选区域属于各个部件类别的概率。

在一个实施例中，CRF组件实现为预先建立的模型，通过求解上述概率函数和能量函数，更新之前Faster R-CNN的分类回归层输出的部件识别结果。

在另一实施例中，CRF组件通过循环神经网络RNN实现，即CRF as RNN组件，如此使得，CRF组件成为一个可学习、可训练的网络组件，可以直接嵌入到已有的网络模型中。

具体地，在CRF as RNN组件中，可以将能量函数E(x)定义为：

E(x)＝∑_iψ_u(x_i)+∑_i≠jψ_p(x_i，x_j) (1)

其中，ψ_u(x_i)是数据项，表示各个候选区域xi属于对应部件类别的概率，ψ_p(x_i，x_j)是平滑项，表示候选区域xi和xj之间的关联特征。更具体地，平滑项可以表示为若干个高斯函数的和。

在一个实施例中，候选区域之间的关联特征包括，候选区域大小、候选区域之间的位置关系、候选区域的距离、候选区域的交并比(IoU)等等。可以基于这些关联特征，确定以上平滑项。

基于以上的能量函数，可以确定条件随机场CRF的概率函数为：

对公式(1)中的E(x)最小化对应着对后验概率P(x)的最大化，从而得到最优部件检测结果。

由于直接计算概率函数P(x)比较困难，可以通过一个比较方便计算的概率函数Q(x)来近似得到P(x)：

Q(X)＝∏_iQ_i(X_i)

可以通过迭代计算的方式，让Q(X)最大限度接近P(x)。

由于循环神经网络RNN的时序特性和记忆特性，因此可以通过RNN中的网络层来实现迭代计算过程。每次迭代操作都包括，消息传递，滤波权重输出，类别兼容性转换，数据项的添加，以及概率归一化。

具体地，在CRF as RNN组件应用于车辆部件识别的情况下，在类别兼容性转换步骤中，通过兼容性矩阵，更新各个候选区域属于各个部件类别的概率。更具体地，兼容性矩阵可以示出，车辆各个部件类别之间兼容的概率。例如，部件A为门把手，如果相邻部件为车门，则二者之间的兼容概率对应于较高的值；如果相邻部件为保险杆，则二者之间的兼容概率较低。该兼容性矩阵中的兼容概率值可以通过预先的训练而获得。也就是说，通过大量标注有车辆部件的图片进行训练，可以学习到在同一车辆中，各种部件之间的位置关系和兼容关系，并通过兼容性矩阵中的兼容概率值表示所学习到的位置关系。

通过以上的方式，不断进行迭代操作，从而逼近概率函数P(x)，确定出概率函数P(x)最大情况下，各个候选区域所对应的各个部件类别的概率，据此优化部件检测结果。

综合以上，通过CRF组件，在卷积特征图上构建条件随机场，提取各个候选区域之间的关联特征，让不同候选区域之间具有能量和特征信息的流动，由多个候选区域共同决定某个候选区域的部件类别。如此，对之前的网络层中独立地基于单个候选区域进行部件检测的检测结果进行进一步修正和优化，提高部件识别的准确度。

如上所述，图2中卷积层21，区域生成网络RPN 22，分类回归层23，以及条件随机场CRF组件24共同构成用于部件检测的神经网络系统。由于该神经网络系统包括多个网络部分，这些网络部分例如是CRF组件，作为子网络的区域生成网络RPN，在一个实施例中，这些网络部分可以单独训练，确定模型参数。

在一个实施例中，对整个神经网络系统进行端到端的训练，联合训练神经网络系统中的各个网络部分。

具体地，可以通过以下方式进行端到端联合训练。首先，将训练样本输入整个神经网络系统，其中训练样本可以是包含车辆部件的图片，其中车辆部件具有已经标注的部件类别标签和部件边框作为标注数据(Ground Truth)。训练样本在神经网络系统中，通过卷积层21的卷积处理得到卷积特征图，经过区域生成网络RPN 22处理得到候选区域，然后经过分类回归层23处理，得到各个候选区域中部件类别和边框的初步结果。之后，条件随机场CRF组件对初步结果进行优化，输出整个网络的预测结果，所述预测结果包括多个目标区域的预测部件类别和预测边框。

然后，根据网络的预测结果以及训练样本的标注数据(部件类别标签和边框标签)，确定各个目标区域的预测误差，并基于所述预测误差确定损失函数。在一个实施例中，损失函数包括多个目标区域的预测误差的交叉项。这与CRF组件中在多个候选区域之间建立关联，基于关联特征决定某个候选区域的预测结果相对应。

在此基础上，基于上述损失函数将预测误差反向传播，以此调整和确定神经网络系统中的网络参数。由于损失函数包括多个目标区域的预测误差的交叉项，因此在进行误差的梯度反向传播时，可以将某个目标区域的预测误差反向传播到与该目标区域相关的其他目标区域，如此优化与候选区域的关联特征计算相关的网络参数。

通过这样的方式，训练得到深度学习的神经网络系统。该神经网络系统可以基于单张车辆图片，同时检测图中包含的多个车辆部件。由于引入了条件随机场CRF组件，基于各个候选区域之间的关联特征进行部件检测，使得检测过程考虑了车辆独有的部件之间的位置约束关系，从而使得检测结果更加精确。

根据说明书另一方面的实施例，还提供一种通过神经网络系统进行车辆部件识别的方法。图5示出根据一个实施例的车辆部件识别方法的流程图。该方法可以由任何具有计算、处理能力的设备、装置、平台、设备集群来实现，例如图1所示的计算平台。如图5所示，该方法包括：步骤51，获取车辆图片；步骤52，对所述车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图；步骤53，基于所述卷积特征图，确定以车辆部件为潜在目标的多个候选区域；步骤54，针对各个候选区域，基于该候选区域自身的区域特征，确定该候选区域的部件类别和边框；步骤55，提取所述多个候选区域的关联特征；步骤56，基于所述关联特征，修正各个候选区域的部件类别和边框。

在一个实施例中，确定多个候选区域的步骤53进一步包括：在卷积特征图中，以滑动窗口对各个卷积映射位置进行卷积算子处理，得到各个位置的特征向量；通过各个位置的特征向量，预测各个位置对于预定的多个锚点是否构成前景目标；以及，预测各个位置上对应于各个锚点的区域边界。

根据一种实施方式，上述多个候选区域的关联特征包括以下中的至少一项：候选区域大小、候选区域之间的位置关系、候选区域的距离、候选区域的交并比。

在一个实施例中，修正各个候选区域的部件类别和边框的步骤56包括，确定条件随机场CRF的能量函数以及对应的概率函数，求解概率函数最小化时的能量函数，所述能量函数包括数据项和平滑项，所述数据项基于各个候选区域属于各个部件类别的概率，所述平滑项基于各个候选区域之间的关联特征。

更具体而言，在一个例子中，可以通过循环神经网络RNN执行多次迭代操作，逼近所述概率函数，所述迭代操作包括，通过预先训练的兼容性矩阵，更新各个候选区域属于各个部件类别的概率，所述兼容性矩阵示出，车辆各个部件类别之间兼容的概率。

在一个实施例中，实现车辆部件识别方法的神经网络系统通过训练样本端到端联合训练。

具体地，在一个例子中，神经网络系统的端到端联合训练包括，

将训练样本输入所述神经网络系统，获得预测结果，所述预测结果包括多个目标区域的预测部件类别和预测边框；

根据另一方面的实施例，还提供一种进行车辆部件识别的装置。图6示出根据一个实施例的部件识别装置的示意性框图。如图6所示，该识别装置600包括：卷积处理单元61，配置为获取车辆图片，对所述车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图；区域生成单元62，配置为基于所述卷积特征图，确定以车辆部件为潜在目标的多个候选区域；目标检测单元63，配置为针对各个候选区域，基于该候选区域自身的区域特征，确定该候选区域的部件类别和边框；以及修正单元64，配置为提取所述多个候选区域的关联特征，基于所述关联特征，修正各个候选区域的部件类别和边框。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图2所示的神经网络系统。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种通过计算机执行的、用于车辆部件识别的神经网络系统，包括：

至少一个卷积层，该卷积层接收车辆图片，对所述车辆图片进行卷积处理，生成与该车辆图片对应的卷积特征图；

区域生成网络RPN，该RPN基于所述卷积特征图，确定以车辆部件为潜在目标的多个候选区域；

分类回归层，该分类回归层针对各个候选区域，基于该候选区域自身的区域特征，确定该候选区域对应的部件类别和边框；

条件随机场CRF组件，该CRF组件获取各个候选区域的部件类别和边框，并提取所述多个候选区域的关联特征，基于所述关联特征，修正所述各个候选区域的部件类别和边框。

2.根据权利要求1所述的系统，其中所述区域生成网络RPN为全卷积网络，包括卷积处理层，边框分类层，边框回归层，

3.根据权利要求1所述的系统，其中所述多个候选区域的关联特征包括以下中的至少一项：候选区域大小、候选区域之间的位置关系、候选区域的距离、候选区域的交并比。

4.根据权利要求1所述的系统，其中所述条件随机场CRF组件确定条件随机场CRF的能量函数以及对应的概率函数，求解概率函数最小化时的能量函数，所述能量函数包括数据项和平滑项，所述数据项基于各个候选区域属于各个部件类别的概率，所述平滑项基于各个候选区域之间的关联特征。

5.根据权利要求4所述的系统，其中所述条件随机场CRF组件包括循环神经网络RNN，所述求解概率函数最小化时的能量函数包括，通过所述循环神经网络RNN执行多次迭代操作，逼近所述概率函数，所述迭代操作包括，通过预先训练的兼容性矩阵，更新各个候选区域属于各个部件类别的概率，所述兼容性矩阵示出，车辆各个部件类别之间兼容的概率。

6.根据权利要求1所述的系统，其中所述基础卷积层，区域生成网络RPN，分类回归层，条件随机场CRF组件中的参数通过训练样本端到端联合训练。

7.根据权利要求6所述的系统，其中所述端到端联合训练包括，

8.一种通过神经网络系统进行车辆部件识别的方法，包括：

获取车辆图片；

提取所述多个候选区域的关联特征；

基于所述关联特征，修正各个候选区域的部件类别和边框。

9.根据权利要求8所述的方法，其中确定以车辆部件为潜在目标的多个候选区域包括，

在所述卷积特征图中，以滑动窗口对各个卷积映射位置进行卷积算子处理，得到各个位置的特征向量；

通过各个位置的特征向量，预测各个位置对于预定的多个锚点是否构成前景目标；以及

预测各个位置上对应于各个锚点的区域边界。

10.根据权利要求8所述的方法，其中所述多个候选区域的关联特征包括以下中的至少一项：候选区域大小、候选区域之间的位置关系、候选区域的距离、候选区域的交并比。

11.根据权利要求8所述的方法，其中基于所述关联特征，修正各个候选区域的部件类别和边框包括，确定条件随机场CRF的能量函数以及对应的概率函数，求解概率函数最小化时的能量函数，所述能量函数包括数据项和平滑项，所述数据项基于各个候选区域属于各个部件类别的概率，所述平滑项基于各个候选区域之间的关联特征。

12.根据权利要求11所述的方法，其中所述求解概率函数最小化时的能量函数包括，通过循环神经网络RNN执行多次迭代操作，逼近所述概率函数，所述迭代操作包括，通过预先训练的兼容性矩阵，更新各个候选区域属于各个部件类别的概率，所述兼容性矩阵示出，车辆各个部件类别之间兼容的概率。

13.根据权利要求1所述的方法，其中所述神经网络系统通过训练样本端到端联合训练。

14.根据权利要求13所述的方法，其中所述端到端联合训练包括，

15.一种进行车辆部件识别的装置，包括：

16.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的神经网络系统。