CN111814593B

CN111814593B - 交通场景解析方法和设备、存储介质

Info

Publication number: CN111814593B
Application number: CN202010564684.3A
Authority: CN
Inventors: 郑幽娴
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2024-08-06
Anticipated expiration: 2040-06-19
Also published as: CN111814593A

Abstract

本发明公开了一种场景、交通场景解析方法和设备、存储介质通过将待处理交通图像输入到交通场景网络模型，利用交通场景网络模型的第一解析通道得到待处理交通图像的第一结果，利用交通场景网络模型的第二解析通道得到待处理交通图像的第二结果，利用交通场景网络模型的第三解析通道得到待处理交通图像的道路目标结果，其中道路目标结果包括车道线结果、标识线结果、道路边缘结果，然后将第一结果、第二结果和道路目标结果融合，得到待处理交通图像的场景解析结果。该技术方案克服了现有技术中语义分割存在的后处理困难计算量大，实例分割存在的分割精度差问题，解析结果中车道线等标识线难以精确分割的问题。

Description

交通场景解析方法和设备、存储介质

技术领域

本发明涉及计算机视觉处理技术域，具体是涉及一种交通场景解析方法和设备、存储介质。

背景技术

随着人工智能和图像技术的发展，场景解析技术在自动驾驶、交通事件检测等交通业务中的应用越来越广泛。比如像素级的场景解析可以自动识别事件检测中需要的证据，有效辅助交通场景的结构化，从而大幅减少甚至免去交通事件识别的配置规则。

现有技术中主要是使用语义分割和实例分割，由于现实交通场景中的实例形态多种多样，导致分割形成的车道线不可靠，最终拟合的结果会出现斜率偏差或者彻底偏离实际车道线的问题。而且语义分割存在的后处理困难计算量大，实例分割存在的分割精度差问题，解析结果中车道线难以精确分割的问题。

发明内容

本发明需要解决的现有的技术问题针对现实交通场景语义分割存在的后处理困难计算量大，实例分割存在的分割精度差问题，解析结果中车道线等标识线难以精确分割的问题。

为了解决上述技术问题本发明提供一种交通场景解析方法，包括：获取待处理交通图像，将待处理交通图像输入到交通场景网络模型；利用交通场景网络模型的第一解析通道得到待处理交通图像的第一结果，利用交通场景网络模型的第二解析通道得到待处理交通图像的第二结果；利用交通场景网络模型的第三解析通道得到待处理交通图像的道路目标结果；将第一结果、第二结果和道路目标结果融合，得到待处理交通图像的场景解析结果。

进一步地，第一结果包括关注目标和非关注目标结果，第二结果包括关注目标结果，关注目标结果包括标识线、车道线、交通设施、行人、机动车和非机动车，非关注目标结果包括天空、路面和树。

进一步地，获取待处理交通图像，将待处理交通图像输入到交通场景网络模型的步骤包括：通过交通场景网络模型对待处理交通图像进行特征提取，以获得待处理交通图像的共享特征图。

进一步地，通过交通场景网络模型对待处理交通图像进行特征提取，以获得待处理交通图像的共享特征图的步骤包括：采用基于VGG16模型的卷积池化结构作为骨干网络框架，将VGG16模型的最大通道数调节为256，利用反卷积恢复VGG16模型的下采样倍数为8，对待处理交通图像进行特征提取，以获得共享特征图。

进一步地，利用交通场景网络模型的第一解析通道得到待处理交通图像的第一结果，利用交通场景网络模型的第二解析通道得到待处理交通图像的第二结果的步骤之前包括：将共享特征图利用交通场景网络模型的区域候选网络获得候选框，将共享特征图通过感兴趣区域对齐RoIAlign网络层进行池化获得候选框内的池化特征，进而获得固定大小的感兴趣区域特征图。

进一步地，区域候选网络对共享特征图增加了标识线、车道线和交通设施的锚点比例和尺度。

进一步地，第一解析通道采用全卷积神经网络FCN框架，共享特征图通过全卷积神经网络FCN框架的多层卷积和反卷积得到包括关注目标和非关注目标的第一结果。

进一步地，第二解析通道以Mask R-CNN结构为框架，将感兴趣区域特征图通过Mask R-CNN结构的全连接层分别进行实例框的分类位置回归，获得关注目标的检测矩形结果，将检测矩形结果再次通过RoIAlign网络层，在共享特征图上重新获取实际实例矩形对应的感兴趣区域特征，通过卷积与反卷积扩大特征图大小，获得实例分割结果特征图，实例分割结果特征图学习训练使用的交叉熵损失函数中对非当前实例遮罩的像素做了加权，第二结果由检测矩形结果和实例分割结果特征图组成。

进一步地，利用交通场景网络模型的第三解析通道得到待处理交通图像的道路目标结果的步骤包括：第三解析通道将述感兴趣区域特征图经过卷积、反卷积和上采样获取热图，通过对热图取峰值获取车道线结果、标识线结果和道路边缘结果的上边界中点和下边界中点的关键点。

进一步地，将第一结果、第二结果和道路目标结果融合，得到待处理交通图像的场景解析结果的步骤包括：获取第一结果中对应第二结果的检测矩形结果的语义分割特征图，将语义分割特征图的关注目标和第二解析通道输出的第二结果相加获取关注目标的细化实例分割结果，将第一结果中的非关注目标结果与细化实例分割结果进行合并获得合并结果，将道路目标结果作为附加信息，与合并结果共同输出为待处理交通图像的场景解析结果。

还提供了一种交通场景解析设备，包括：相互耦接的处理器和存储器；存储器用于存储实现如上的交通场景解析方法的程序指令，处理器用于执行存储器存储的程序指令。

还提供了一种计算机可读存储介质，存储有程序文件，程序文件能够被执行以实现如上的交通场景解析方法。

本发明通过将待处理交通图像输入到交通场景网络模型，利用交通场景网络模型的第一解析通道得到待处理交通图像的第一结果，利用交通场景网络模型的第二解析通道得到待处理交通图像的第二结果，利用交通场景网络模型的第三解析通道得到待处理交通图像的道路目标结果，其中道路目标结果包括车道线结果、标识线结果、道路边缘结果，然后将第一结果、第二结果和道路目标结果融合，得到待处理交通图像的场景解析结果。该技术方案克服了现有技术中语义分割存在的后处理困难计算量大，实例分割存在的分割精度差问题，解析结果中车道线等标识线难以精确分割的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明交通场景解析方法方法第一实施例的流程示意图；

图2是本发明交通场景解析方法第二实施例的流程示意图；

图3是本发明交通场景解析方法中交通场景网络模型的方框示意图；

图4是本发明交通场景解析设备一实施例的框架示意图；

图5是本发明计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。本申请实施例中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或组件。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，是本发明交通场景解析方法第一实施例的流程示意图。

步骤S01，获取待处理交通图像，将待处理交通图像输入到交通场景网络模型。

在本实施例中交通场景网络模型采用基于VGG16模型的卷积池化结构作为骨干网络框架，待处理交通图像可以是任何需要进行全景分割的图像。待处理图像可以是静态图像，也可以是视频中的视频帧。待处理图像可以是图像采集装置采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。待处理交通图像获取的方式可以是在普通电警卡口道路设置电警卡口摄像头进行拍摄所得，也可以是自动驾驶车载摄像头拍摄所得。

将待处理交通图像输入基于VGG16模型的骨干网络进行卷积、激活、池化等操作获得共享特征图。

步骤S02，利用交通场景网络模型的第一解析通道得到待处理交通图像的第一结果，利用交通场景网络模型的第二解析通道得到待处理交通图像的第二结果。

在本实施例中第一解析通道为语义分割通道，第二解析通道为实例分割通道。将步骤S01中得到的共享特征图通过语义分割通道得到待处理图像的第一结果也就是语义分割结果，语义分割结果中待处理图像相同类别的目标用同一个标签表示，不同类别的目标用不同标签表示。例如树木和天空是两种不同的标签，所有行人都是同一个标签。语义分割中包括关注目标和非关注目标结果。其中关注目标结果可以为标识线、车道线、交通设施、行人、机动车和非机动车等，非关注目标结果可以为电线杆、树木和天空等。将步骤S01中得到的共享特征图通过实例分割通道得到待处理图像的第二结果也就是实例分割结果，实例分割结果包括关注目标结果，可以区分待处理图像中的每一个目标。

步骤S03，利用交通场景网络模型的第三解析通道得到待处理交通图像的道路目标结果。

将步骤S01中的共享特征图通过第三解析通道得到道路目标结果，道路目标结果中包括了交通场景的中重要目标，可以为交通场景中的车道线结果、标识线结果和道路边缘结果等。

步骤S04，将第一结果、第二结果和道路目标结果融合，得到待处理交通图像的场景解析结果。

将获取第一结果中对应第二结果中关注目标结果的检测矩形结果的语义分割特征图，将语义分割特征图的关注目标和第二解析通道输出的第二结果相加获取关注目标的细化实例分割结果，将第一结果中的非关注目标结果与细化实例分割结果进行合并获得合并结果，将道路目标结果作为附加信息，道路目标结果可以是车道线结果、标识线结果和道路边缘结果其中的一个或者任意的组合，将道路目标结果与合并结果共同输出为待处理交通图像的场景解析结果。

本发明所采用的交通场景解析方法也可用于其他场景，如展馆等室内场景或景区等室外场景。不同的是，不同场景的解析模型的训练方法与参数不同，各关注目标的关键点也不相同。

请参阅图2，是本发明交通场景解析方法第二实施例的流程示意图。请参阅图3，是本发明交通场景解析方法中交通场景网络模型的方框示意图。

步骤S11，获取待处理交通图像，将待处理交通图像输入到交通场景网络模型，通过交通场景网络模型对待处理交通图像进行特征提取，以获得待处理交通图像的共享特征图。

在本实施例中交通场景网络模型采用基于VGG16模型的卷积池化结构作为骨干网络框架，待处理交通图像可以是任何需要进行全景分割的图像。待处理交通图像可以是静态图像，也可以是视频中的视频帧。将待处理交通图像输入基于VGG16模型的骨干网络进行卷积、激活、池化等操作进行特征提取，获得待处理交通图像的共享特征图。常规的VGG16模型的最大通道数为512，在本实施例中将VGG16模型的最大通道数调节为256，利用反卷积恢复VGG16模型的下采样倍数为8，减少了计算量同时也保证了精度损失，在其他实施例中还可以将最大通道数调节为其他数值，对待处理交通图像进行特征提取，以获得共享特征图。

步骤S12，将共享特征图利用交通场景网络模型的区域候选网络获得候选框，将候选框中的共享特征图通过感兴趣区域对齐RoIAlign网络层进行池化获得固定大小的感兴趣区域特征图。

交通场景网络模型中包括了区域候选网络和感兴趣区域对齐RoIAlign网络层，首先共享特征图通过区域候选网络生成大量的候选框，然后对候选框进行目标类别分类。在一实施例中可以调节区域候选网络中的道路目标相关的锚点比例和尺寸，增加类似于极窄停止线或者跨图像高度的车道线的极端锚点比例和尺寸，便于第二解析通道和第三解析通道输出分割清晰精确的第二结果和道路目标结果。同时区域候选网络的类别训练时采用focal loss函数，即在softmax交叉熵损失的基础上对待处理交通图像的前背景和难易样本进行了加权，减少大量负样本锚点和简单正样本的损失权重，使得交通场景网络模型能更好地学习正样本和难正样本锚点的分类，整体上明显提高待处理交通图像锚点的召回率。

然后将已经分类好的候选框和共享特征图输入到感兴趣区域对齐RoIAlign网络层中进行对齐池化，获得固定大小(14×14)的感兴趣区域特征图。

步骤S13，利用交通场景网络模型的第一解析通道得到待处理交通图像的第一结果，利用交通场景网络模型的第二解析通道得到待处理交通图像的第二结果。

在本实施例中第一解析通道为语义分割通道，第二解析通道为实例分割通道。将步骤S11中得到的共享特征图通过语义分割通道得到待处理交通图像的第一结果也就是语义分割结果。将步骤S12中得到的感兴趣区域特征图通过实例分割通道得到待处理交通图像的第二结果也就是实例分割结果。

第一解析通道即语义分割通道采用全卷积神经网络FCN框架，共享特征图通过全卷积神经网络FCN框架的多层卷积和反卷积得到包括关注目标和非关注目标的第一结果，其中关注目标结果包括标识线、车道线、交通设施、行人、机动车和非机动车等，非关注目标结果包含了天空、路面和树木等。

第二解析通道即实例分割通道以Mask R-CNN结构为框架，将感兴趣区域特征图通过Mask R-CNN结构的全连接层分别进行实例框的分类位置回归，获得关注目标的检测矩形结果。将检测矩形结果再次通过RoIAlign网络层，在共享特征图上重新获取实际实例矩形对应的感兴趣区域特征，通过卷积与反卷积扩大特征图大小，获得实例分割结果特征图，并且实例分割结果特征图学习训练使用的sigmoid交叉熵损失函数中对非当前实例遮罩的像素做了加权，有效区分了当前实例遮罩和非当前实例遮罩，然后将检测矩形结果和实例分割结果特征图组合形成第二结果。

步骤S14，利用交通场景网络模型的第三解析通道得到待处理交通图像的道路目标结果。

将步骤S12中的感兴趣区域特征图通过第三解析通道得到道路目标结果。由于现实交通场景中的目标线比较复杂，单独的检测和分割会导致输出结果中的目标线不精确，在本步骤中感兴趣区域特征图经过卷积、反卷积和上采样获取热图，通过对热图取峰值获取车道线结果、标识线结果和道路边缘结果的上边界中点和下边界中点的关键点，进而获取道路目标结果。

步骤S15，将第一结果、第二结果和道路目标结果融合，得到待处理交通图像的场景解析结果。

在交通场景网络模型模型中将获取第一结果中对应第二结果中关注目标结果的检测矩形结果的语义分割特征图，将语义分割特征图和第二解析通道输出的第二结果相加获取关注目标的细化实例分割结果，将第一结果中的非关注目标结果与细化实例分割结果进行合并获得合并结果，将道路目标结果作为附加信息，道路目标结果可以是车道线结果、标识线结果和道路边缘结果其中的一个或者任意的组合，将道路目标结果与合并结果共同输出为待处理交通图像的场景解析结果。

本实施例通过将待处理交通图像输入到交通场景网络模型，利用交通场景网络模型的第一解析通道得到待处理交通图像的第一结果，利用交通场景网络模型的第二解析通道得到待处理交通图像的第二结果，利用交通场景网络模型的第三解析通道得到待处理交通图像的道路目标结果，其中道路目标结果包括车道线结果、标识线结果、道路边缘结果，然后将第一结果、第二结果和道路目标结果融合，得到待处理交通图像的场景解析结果。该技术方案克服了现有技术中语义分割存在的后处理困难计算量大，实例分割存在的分割精度差问题，解析结果中车道线等标识线难以精确分割的问题。

请参阅图4，是本发明交通场景解析设备一实施例的框架示意图。交通场景解析设备80包括相互耦接的处理器81和存储器82，处理器81用于执行存储器82存储的程序指令以实现上述任一方法实施例中的步骤或者上述任一方法实施例中交通场景解析方法对应执行的步骤。

具体而言，处理器81用于控制其自身以及存储器82以实现上述任一交通场景解析方法实施例中的步骤。处理器81还可以称为CPU(Central Processing Unit，中央处理单元)。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器81、数字信号处理器81(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器81可以由多个集成电路芯片共同实现。

请参阅图5，是本发明计算机可读存储介质一实施例的结构示意图。计算机可读存储介质60包括计算机可读存储介质60上存储的计算机程序601，所述计算机程序601被上述处理器执行时实现上述任一方法实施例中的步骤或者上述方法实施例中交通场景解析设备对应执行的步骤。

具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质60中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质60中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质60包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种交通场景解析方法，其特征在于，包括：

获取待处理交通图像，将所述待处理交通图像输入到交通场景网络模型；

通过所述交通场景网络模型对所述待处理交通图像进行特征提取，以获得所述待处理交通图像的共享特征图；

将所述共享特征图利用所述交通场景网络模型的区域候选网络获得候选框，将所述共享特征图通过感兴趣区域对齐RoIAlign网络层进行池化获得所述候选框内的池化特征，进而获得固定大小的感兴趣区域特征图；

利用所述交通场景网络模型的第一解析通道得到所述待处理交通图像的第一结果，利用所述交通场景网络模型的第二解析通道得到所述待处理交通图像的第二结果；其中，所述第二解析通道以Mask R-CNN结构为框架，将所述感兴趣区域特征图通过所述Mask R-CNN结构的全连接层分别进行实例框的分类位置回归，获得关注目标的检测矩形结果，将所述检测矩形结果再次通过RoIAlign网络层，在所述共享特征图上重新获取实际实例矩形对应的感兴趣区域特征，通过卷积与反卷积扩大特征图大小，获得实例分割结果特征图，所述第二结果由所述检测矩形结果和所述实例分割结果特征图组成；

利用所述交通场景网络模型的第三解析通道得到所述待处理交通图像的道路目标结果；

将所述第一结果、所述第二结果和所述道路目标结果融合，得到所述待处理交通图像的场景解析结果。

2.根据权利要求1所述的交通场景解析方法，其特征在于，所述第一结果包括关注目标和非关注目标结果，所述第二结果包括关注目标结果，所述关注目标结果包括标识线、车道线、交通设施、行人、机动车和非机动车，所述非关注目标结果包括天空、路面和树。

3.根据权利要求1所述的交通场景解析方法，其特征在于，所述通过所述交通场景网络模型对所述待处理交通图像进行特征提取，以获得所述待处理交通图像的共享特征图的步骤包括：采用基于VGG16模型的卷积池化结构作为骨干网络框架，将所述VGG16模型的最大通道数调节为256，利用反卷积恢复所述VGG16模型的下采样倍数为8，对所述待处理交通图像进行特征提取，以获得共享特征图。

4.根据权利要求3所述的交通场景解析方法，其特征在于，所述区域候选网络对所述共享特征图增加了标识线、车道线和交通设施的锚点比例和尺度。

5.根据权利要求3所述的交通场景解析方法，其特征在于，所述第一解析通道采用全卷积神经网络FCN框架，所述共享特征图通过所述全卷积神经网络FCN框架的多层卷积和反卷积得到包括关注目标和非关注目标的所述第一结果。

6.根据权利要求3所述的交通场景解析方法，其特征在于，所述实例分割结果特征图学习训练使用的交叉熵损失函数中对非当前实例遮罩的像素做了加权。

7.根据权利要求3所述的交通场景解析方法，其特征在于，所述利用所述交通场景网络模型的第三解析通道得到所述待处理交通图像的道路目标结果的步骤包括：所述第三解析通道将所述感兴趣区域特征图经过卷积、反卷积和上采样获取热图，通过对热图取峰值获取车道线结果、标识线结果和道路边缘结果的上边界中点和下边界中点的关键点。

8.根据权利要求6所述的交通场景解析方法，其特征在于，所述将所述第一结果、所述第二结果和所述道路目标结果融合，得到所述待处理交通图像的场景解析结果的步骤包括：获取所述第一结果中对应所述第二结果的检测矩形结果的语义分割特征图，将所述语义分割特征图的关注目标和所述第二解析通道输出的第二结果相加获取关注目标的细化实例分割结果，将所述第一结果中的非关注目标结果与细化实例分割结果进行合并获得合并结果，将所述道路目标结果作为附加信息，与所述合并结果共同输出为所述待处理交通图像的场景解析结果。

9.一种交通场景解析设备，其特征在于，包括：相互耦接的处理器和存储器；

所述存储器用于存储实现如权利要求1-8任意一项所述的交通场景解析方法的程序指令，所述处理器用于执行所述存储器存储的所述程序指令。

10.一种计算机可读存储介质，其特征在于，存储有程序文件，所述程序文件能够被执行以实现如权利要求1-8任意一项所述的交通场景解析方法。