[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113468978B - 基于深度学习的细粒度车身颜色分类方法、装置和设备 - Google Patents

基于深度学习的细粒度车身颜色分类方法、装置和设备 Download PDF

Info

Publication number
CN113468978B
CN113468978B CN202110649327.1A CN202110649327A CN113468978B CN 113468978 B CN113468978 B CN 113468978B CN 202110649327 A CN202110649327 A CN 202110649327A CN 113468978 B CN113468978 B CN 113468978B
Authority
CN
China
Prior art keywords
body color
vehicle body
color classification
classification
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110649327.1A
Other languages
English (en)
Other versions
CN113468978A (zh
Inventor
傅慧源
马华东
王英瑾
王川铭
郑宇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Publication of CN113468978A publication Critical patent/CN113468978A/zh
Application granted granted Critical
Publication of CN113468978B publication Critical patent/CN113468978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • G08G1/0175Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开提供一种基于深度学习的细粒度车身颜色分类方法、装置和设备,其中的方法包括:将获取的待分类车辆图像输入到预设的细粒度车身颜色分类模型,以得到所述待分类车辆图像对应的类别标签。本公开通过构建基于深度残差神经网络的细粒度车身颜色分类模型,提高了监控道路场景中细粒度车身颜色分类的准确性。

Description

基于深度学习的细粒度车身颜色分类方法、装置和设备
技术领域
本公开涉及智能识别技术领域,尤其涉及一种基于深度学习的细粒度车身颜色分类方法、装置和设备。
背景技术
家用汽车作为服务于家庭单位的便捷性交通工具,在我国人民的出行方式中已然成为了主流,近几年,智能交通系统的概念被提出,旨在发展将智能技术与现有交通系统相结合的下一代交通系统。在车辆颜色、型号、车牌等常见被研究属性中,对于长时间车辆视频追踪任务,车辆颜色属性以其车身占比大,抗干扰性强(模糊、遮挡或视角变化)以及识别专业性低等特点,被视作更具有价值的属性信息。如果智能监控平台可以精准且尽可能细粒度的识别车辆颜色,则会对车辆追踪等任务产生巨大帮助。
在车身颜色分类方面,大规模引入神经网络之前,人工选择并提取特征进而与分类器结合的方法占据主流地位:有些方法考虑了各种颜色空间内不同分量的所有可能组合,以此作为特征集,同时分别结合了多种不同的分类方法;有些方法使用HSI颜色空间替换RGB颜色空间,首先计算相对误差距离,进而根据匹配结果完成车辆的颜色分类任务;有些方法使用HS二维直方图,其根据车辆运动方向定位颜色识别关键区域。上述传统方法的技术存在一定的弊端,如人工提取的特征适应性不强,在不同的任务中难以有稳定的表达性能,提取的特征之间关联性低,另外,进行特征工程也会耗费大量的人力资源。近年来,深度学习技术在图像处理领域取得很大进展,深度学习技术也被广泛应用于车身颜色分类领域。有些方法通过对比试验首次证明了卷积神经网络可用于车身颜色识别;有些方法采用深度学习的思想,并在原始的卷积神经网络中融合了空间金字塔策略。然而,上述两种方法所设计的网络均过于简单,难以准确定位车辆图像中包含主体颜色的关键性区域,尤其对于细粒度级别的车身颜色分类会产生较大误差。
发明内容
有鉴于此,本公开的目的在于提出一种基于深度学习的细粒度车身颜色分类方法、装置和设备。
基于上述目的,本公开提供了一种基于深度学习的细粒度车身颜色分类方法,包括:
将获取的待分类车辆图像输入到预设的细粒度车身颜色分类模型,以得到所述待分类车辆图像对应的类别标签;
其中,所述细粒度车身颜色分类模型基于深度残差神经网络得到,所述深度残差神经网络包括局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络,构建所述细粒度车身颜色分类模型包括:
将基于监控场景的车辆图像作为训练样本,输入到所述车身颜色分类网络后得到融合特征信息;
将所述融合特征信息输入车身颜色分类网络,得到不同粒度的车身颜色标签;
根据所述车身颜色分类网络输出的车身颜色标签和对应真实颜色标签之间的差异,调整所述局部特征提取网络以及所述车身颜色分类网络的参数,当迭代次数达到预设次数时,终止训练,得到所述细粒度车身颜色分类模型。
结合上述说明,在本公开实施例另一种可能的实施方式中,所述得到所述待分类车辆图像对应的类别标签包括:
将所述待分类车辆图像输入到所述局部特征提取网络,对待分类车辆图像进行预设卷积运算,以将待分类车辆图像映射到编码空间,得到固定尺度大小的特征图像;
将所述固定尺度大小的特征图像按照像素点为单位切分,重新排列后得到固定长度的像素点序列,再添加位置编码与分类标志位,输入到所述车身颜色分类网络,所述车身颜色分类网络对最后三层编码器提取的特征信息进行特征融合,得到融合后的特征信息;
将所述融合后的特征信息输入到车身颜色分类网络的后续层中,结合线性操作与非线性操作得到两种不同粒度的车身颜色标签。
结合上述说明,在本公开实施例另一种可能的实施方式中,所述嵌入自注意力编码器的车身颜色分类网络包括自注意力编码器以及特征融合分类模块,输入的固定长度像素点序列经过注意力编码器,得到各层转换编码器子模块对应的分类标志位,将最后三层编码器的分类标志位输入到特征融合分类模块,得到融合后的特征信息,将所述融合后的特征信息输入到后续分类层中,以得到两种不同粒度的车身颜色标签。
结合上述说明,在本公开实施例另一种可能的实施方式中,所述车身颜色分类网络的自注意力编码器包括若干个转换编码器子模块堆叠而成,所述转换编码器子模块由多头自注意力模块和前向传播网络组成,输入的固定长度像素点序列在多个不同的子空间进行融合,以得到任意两个特征像素点之间的关联权重关系,以通过所述关联权重关系使拼接的子空间信息得到充分融合。
结合上述说明,在本公开实施例另一种可能的实施方式中,所述前向传播网络包括双层线性变换以及GeLU激活函数,其中的双层线性变换用于降维和升维,同时GeLU激活函数通过非线性变换用于增强模型表达能力。
结合上述说明,在本公开实施例另一种可能的实施方式中,所述局部特征提取网络包括多个卷积层,所述待分类车辆图像每经过一个卷积层都会得到一个特定尺度的特征图像,最终得到包括有原始图像高层特征的特征图像。
结合上述说明,在本公开实施例另一种可能的实施方式中,所述将所述融合后的特征信息输入到后续分类层中,以得到两种不同粒度的车身颜色标签,包括:
将最后三层编码器的分类标志位进行维度拼接操作,再传入后续分类层进行颜色类别分类,经过预设卷积操作得到对应不同粒度的两个结果向量,以对应于两种不同粒度的车身颜色标签。
第二方面,本公开还提供了一种基于深度学习的细粒度车身颜色分类装置,包括:
图像获取模块,用于获取待分类车辆图像;
车身颜色分类模块,用于将获取的待分类车辆图像输入到预设的细粒度车身颜色分类模型,以得到所述待分类车辆图像对应的类别标签;
其中,所述细粒度车身颜色分类模型基于深度残差神经网络得到,所述深度残差神经网络包括局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络,构建所述细粒度车身颜色分类模型包括:
将基于监控场景的车辆图像作为训练样本,输入到所述车身颜色分类网络后得到融合特征信息;
将所述融合特征信息输入车身颜色分类网络,得到不同粒度的车身颜色标签;
根据所述车身颜色分类网络输出的车身颜色标签和对应真实颜色标签之间的差异,调整所述局部特征提取网络以及所述车身颜色分类网络的参数,当迭代次数达到预设次数时,终止训练,得到所述细粒度车身颜色分类模型。
第三方面,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于深度学习的细粒度车身颜色分类方法。
第四方面,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行上述的基于深度学习的细粒度车身颜色分类方法。
从上面所述可以看出,本公开提供的基于深度学习的细粒度车身颜色分类方法、装置和设备,通过构建基于深度残差神经网络的细粒度车身颜色分类模型,提高了监控道路场景中细粒度车身颜色分类的准确性。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施基于深度学习的细粒度车辆颜色分类方法的流程示意图;
图2为本公开实施例细粒度车身颜色分类模型输入输出流程示意图示意图;
图3为本公开实施例的训练样本的车辆图像信息示意图;
图4为本公开实施例的颜色标签分类的具体流程示意图;
图5为本公开实施例特征提取网络基础结构示意图;
图6为本公开实施例的特征提取网络改进后的残差结构示意图;
图7为本公开实施例的编码器子模块结构示意图;
图8为本公开实施例编码器处理流程示意图;
图9为本公开实施例并行的全连接分类网络流程示意图;
图10为本公开实施例的细粒度车身颜色分类模型初始化运行流程示意图;
图11为本公开实施例的基于深度学习的细粒度车身颜色分类装置示意图;
图12为本公开实施例的设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。
结合图1所示,为本公开示例性实施例一种基于深度学习的细粒度车辆颜色分类方法的流程示意图,所述方法包括:
在步骤110中,获取待分类车辆图像;
在步骤120中,将获取的待分类车辆图像输入到预设的细粒度车身颜色分类模型,以得到所述待分类车辆图像对应的类别标签;
本公开示例性实施例的实施方式中,即构建细粒度车身颜色分类模型后,基于训练好的细粒度车身颜色分类模型,将获得的待分类车辆图像输入到训练好的细粒度车身颜色分类模型中,获得车辆图像对应的颜色类别标签。其中,细粒度车身颜色分类模型为包含局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络。
具体地,结合图2所示,为本公开的细粒度车身颜色分类模型输入输出流程示意图,所述细粒度车身颜色分类模型基于深度残差神经网络得到,所述深度残差神经网络包括局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络,将获得的待分类车辆图像输入到训练好的细粒度车身颜色分类模型中,分别进行特征提取、像素切分和位置编码并拼接后进行分类,最终获得车辆图像对应的颜色类别标签。其中,细粒度车身颜色分类模型为包含局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络。
具体地,构建所述细粒度车身颜色分类模型的过程包括:将基于监控场景的车辆图像作为训练样本,作为示例性地,部分的训练样本的图像信息如图3所示,为通过摄像装置拍摄的各种类型车辆的图像信息;结合图2所示,将所述训练样本输入到所述车身颜色分类网络后得到融合特征信息;将所述融合特征信息输入车身颜色分类网络,得到不同粒度的车身颜色标签;根据所述车身颜色分类网络输出的车身颜色标签和对应真实颜色标签之间的差异,调整所述局部特征提取网络以及所述车身颜色分类网络的参数,当迭代次数达到预设次数时,终止训练,得到所述细粒度车身颜色分类模型。
进一步地,本公开示例性实施例的一种实施方式中,如图4所示,为获取车辆图像的分类标签的流程示意图,这一过程包括:
在步骤410中,将待分类车辆图像输入到所述局部特征提取网络,对待分类车辆图像进行预设卷积运算,从而将待分类车辆图像映射到编码空间,得到固定尺度大小的特征图像。
在一种实施方式中,特征提取网络确定为ResNet26-D卷积神经网络。特征提取网络通过连续的局部卷积操作不断扩大感受视野,提取到输入图像的高层特征信息。所述高层特征信息为相对于低层特征信息而言的,一般而言,低层特征信息为目标位置准确且特征语义信息较少的图像信息,高层特征信息为通过低层特征信息在不断扩大感受视野的前提下提到的,其特征语义信息较低层特征信息多且目标位置较为粗略。
ResNet网络通过引入残差块实现残差连接,进一步促进了卷积神经网络的发展,允许网络尽可能的加深而不会发生模型退化现象。其中,特征提取网络在预设卷积运算过程中,卷积层数、每层的卷积核大小、卷积步长以及残差块的具体表现形式可以根据具体的场景设定。在本公开的示例性实施例中,采用ResNet26-D卷积神经网络对待分类车辆颜色图像进行预设卷积运算,ResNet26-D由ResNet18网络改进而来。
如图5示,为ResNet18的具体网络结构,其中,ResNet18中数字18指定的是带有权重的18层,包括卷积层和全连接层,不包括池化层和批归一化层。ResNet18网络结构共由三部分组成,分别为输入部分、输出部分以及四组中间残差结构,输入部分使用64个7x7卷积核进行步长为2的卷积操作,中间残差结构通过四组残差块的堆叠来实现特征的提取,在ResNet网络结构中,残差块主要存在两种形式,一种称为Basic-Block,其将输入数据分别传入两条路径,一条路径经过两个3×3卷积,另一条路径直接跳跃连接,两条路径的结果相加且经过ReLU激活函数的处理后输出;另一种形式称为Bottle-Neck,其引入了1×1卷积,与Basic-Block的区别在于将其中一条路径中的两个3×3卷积变为两个1×1卷积与一个3×3卷积。在ResNet18中,就采用了Basic-Block的形式,通过3×3卷积的堆叠来实现特征的提取,最后在输出部分,通过引入平均池化和全连接网络进行后续分类等操作。
如图6所示,为特征提取网络改进后的残差结构图,其中,对残差结构的改进主要包括两个步骤,第一步将Basic-block残差结构改为Bottle-neck残差结构,通道输出数目由512增加到了2048,这时整个网络变为了26层,可以称为resnet26,第二步改进共有两处,第一处将卷积支路中的下采样操作从第一个1x1卷积转移到了后续3x3卷积中,第二处是将短连支路中的下采样操作从步长为2的1x1卷积转移到了平均池化层中。
在步骤420中,将所述固定尺度大小的特征图像以可训练的线性投影方式在通道维度上由原通道数映射成全新的固定通道数,对得到的特征图像按照像素点为单位切分,重新排列后得到固定长度的像素点序列,再添加位置编码与分类标志位,得到符合Transformer编码器输入要求的像素点编码序列,即降维后升维操作。在本示例性实施例中,特征图通道数由2048映射为768,得到的特征图像尺寸为768*12*12,因此得到的像素点序列的固定长度为144。
其中,进行维度变换一方面可以遵循原始Transformer模块的设计规则,其编码维度固定为768,另一方面全连接操作也可以进一步融合特征通道间的信息。添加位置编码的作用是保留特征图中各个像素点的位置信息,通过采用与标准Bert模型中相同的随机初始化且可学习的一维位置编码方式,为了便于与像素块编码按位相加,位置编码的维度同样设定为768。为了更好的执行后续分类任务,本公开的方法中设计一个稳定的标志位来表示从所有像素块中学习到的特征,然后将该标志位提供给后续两个颜色分类网络,由此本公开将[CLS]分类标志位放置于像素块序列的首部,该分类标志位本身没有语义,经过12层编码器堆叠可以更公平地集成每个像素块中的特征信息。
在步骤430中,将得到的符合Transformer编码器(转换编码器)输入要求的像素点编码序列输入到所述嵌入自注意力编码器的车身颜色分类网络,在编码器的不同层得到代表不同级别特征信息的分类标志位。其中自注意力编码器主要指代所述嵌入自注意力编码器的车身颜色分类网络中的Transformer编码器,Transformer编码器共堆叠了12个子模块,每个模块由多头自注意力部分连接前馈神经网络部分组成,两部分之间应用残差连接,同时应用Layer Normalization(图层规范化)进行归一化。
Transformer编码器每个子模块的结构图如图7所示,其中的多层感知机用于进行特征融合,为后续颜色分类发挥作用。
Transformer编码器的处理流程如图8所示,流程包括:Transformer编码器接收基于CNN的像素嵌入网络的输出,将生成的特征图以像素点为单位,以可训练的线性投影方式映射成固定维度D(D=768)的向量并添加位置编码与分类标志位[CLS],共同输入Transformer模块中。Transformer总体以迭代方式运行,前一个编码器的输出将作为输入传送到下一个编码器,不同层的编码器捕获了不同级别的语义和结构信息,最后我们选择了最高三层编码器输出的标志位[CLS]进行拼接,为下一步的两个分类网络做准备。主要作用:利用Transformer中的自注意力机制获取全局信息,对于细粒度级别的分类任务,能够获取图像中各个区域之间的位置关系,有利于定位图像中的关键性区域,取得更好的分类效果。
本公开示例性实施例中,多头自注意力机制是Transformer模型在诸多任务领域中取得突破的关键部分。多头是指将模型分为h个子空间,可以让模型去关注h个不同方面的信息,最终再将各个方面的信息综合起来,以达到模型增强的作用;自注意力机制是一种通过自身和自身相关联的注意力机制,从而得到对自身的更好表达。在本公开示例性实施例的模型中,像素序列中的每个像素块分别和该序列中的所有像素块进行注意力计算,其对应的多头自注意力机制的计算公式如下所示。
MultiHeadAtt(Q,K,V)=Concat(head1,…,headh)WO
其中分别对应Q,K,V的可学习的计算参数,/>上述公式目的是学习序列内部的像素块依赖关系,捕捉全局信息,其中QKT为点积相乘,可以实现任意两个像素点之间的权重关系,其值经过Softmax函数之后和为1。Softmax函数的分数决定了每个像素点在各个位置的表达情况,再与V向量相乘即可以得到加权的权重,最终结果将使相关像素点的值尽可能接近于1,并淹没无关的像素点(无限趋近于0)。另外在上式中,dk表示K向量的维度,dk越大则Q和K的点积就会越大,导致将Softmax函数推向梯度消失的位置,式中除以/>可以防止反向传播时梯度过小导致参数无法更新。Wo目的是使得拼接的子空间信息得到充分融合。
其中,所述前馈神经网络由双层线性变换以及GeLU激活函数组成,双层线性变换中的第一层将特征映射到更大的空间,提升模型上限,第二层将特征映射回原空间,整体操作通过降维和升维起到了特征融合的作用,同时GeLU激活函数通过非线性变换进一步增强Transformer模型表达能力,计算流程如公式所示:
FFN(x)=GELU(xW1+b1)W2+b2
在步骤440中,将最后三层编码器的分类标志位进行特征融合,得到融合后的特征信息。其中特征融合是指将输出的三个分类标志位进行顺序拼接操作。
在步骤450中,将所述特征融合后的特征信息输入到车身颜色分类网络的后续分类层中,结合线性操作(两组并行的全连接网络)与非线性操作(softmax函数)得到两种不同粒度的车身颜色标签,流程如图9所示。
其中在本公开示例性实施例中,考虑了两种不同粒度的车身颜色标签,原因在于使用的数据集中每张车辆图像有两种粒度的颜色标签。本公开的算法解决的主要目标为细粒度级别的车辆颜色分类任务,但由于各个主类别颜色之间的类间差别较大,识别准确度更高,因此主类别颜色的识别情况可以在优化阶段辅助细粒度颜色类别的分类,并据此本公开的方法采用两个并列的全连接分类网络,分别对车辆颜色主类别以及细粒度类别进行分类。
作为本发明示例性实施例的一种实施方式,如图10所示,上述车身颜色细分类模型的训练方式包括:
在步骤101中,初始化细粒度车身颜色分类模型,包括分别初始化预训练好的局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络。
在本公开示例性实施例中,可以基于深度学习框架Pytorch构建初始细粒度车身颜色分类模型。
在步骤102中,获取基于监控场景的车辆图像作为训练样本,训练样本如图3所示,训练样本由原始图像及其对应的真实颜色标签构成。
车辆图像的信息样本通过道路卡口监控拍摄采集,为保证车辆颜色分类模型的鲁棒性和准确性,需要在不同光照条件和天气状态下采集大量的图像样本。由于深度学习是一种监督学习,可以采用对训练图像人工标注颜色标签,得到标注有粗粒度车辆颜色标签以及细粒度车辆颜色标签的图像。
在步骤103中,将所述训练样本中的原始图像输入到局部特征提取网络中,进行多层预设卷积运算操作,得到原始图像固定尺寸大小的特征图像。
在步骤104中,将所述固定尺度大小的特征图像按照像素点为单位切分,重新排列后得到固定长度的像素点序列,再添加位置编码与分类标志位,输入到所述嵌入自注意力编码器的车身颜色分类网络,所述车身颜色分类网络对最后三层编码器提取的特征信息进行特征融合,得到融合后的特征信息。
在步骤105中,将所述特征融合后的特征信息输入到车身颜色分类网络的后续分类层中,结合线性操作与非线性操作得到两种不同粒度的车身颜色标签。
在步骤106中,根据所述车身颜色分类网络输出的颜色标签和对应真实颜色标签之间的差异,调整所述局部特征提取网络、嵌入自注意力编码器的车身颜色分类网络的参数。当迭代次数达到预设次数时,终止训练,得到训练好的车身颜色分类模型。
获取两种不同粒度的车身颜色标签后,使用基于多类别交叉熵损失函数的层级损失函数作为损失函数衡量车身颜色的真实细粒度标签与预测细粒度标签的差异,调整车身颜色分类模型的参数,使得两者之间的差异尽可能小。
Loss=CE(Pred1,Label1)+CE(Pred2,Label2)
其中CE是应用于多分类任务的交叉熵损失函数,Label1是当前图片对应的主颜色类别标签,Label2是当前图片对应的细粒度颜色类别标签;Pred1是模型预测当前图片属于各个主颜色类别的概率值,Pred2是模型预测当前图片属于各个细粒度颜色类别的概率值。
其中C是样本标签的种类数;p=[p0,…,pC-1]是一个概率分布,其中每个元素pi的值在0到1之间,表示样本在预测结果中属于第i类的概率值;y=[y0,…,yC*1]是样本标签的独热编码表示,当样本属于第i个类别时yi=1,否则yi=0。
当迭代次数达到预设迭代次数时,说明车身颜色分类模型已经有了较好的特征提取能力和裂缝检测能力。其中预设迭代次数可以是5000、10000等,其迭代次数可根据具体的场景设定。
基于同一发明构思,与上述任意实施例的基于深度学习的车身颜色细粒度分类方法相对应的,本公开还提供了一种基于深度学习的车身颜色细粒度分类装置。如图11所示,为本公开示例性实施例的一种基于深度学习的车身颜色细粒度分类装置的结构示意图,所述装置包括:
图像获取模块1110,用于获取待分类车辆图像。
车身颜色分类模块1120,用于用于将获取的待分类车辆图像输入到预设的细粒度车身颜色分类模型,以得到所述待分类车辆图像对应的类别标签;
其中,所述细粒度车身颜色分类模型基于深度残差神经网络得到,所述深度残差神经网络包括局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络,构建所述细粒度车身颜色分类模型包括:
将基于监控场景的车辆图像作为训练样本,输入到所述车身颜色分类网络后得到融合特征信息;
将所述融合特征信息输入车身颜色分类网络,得到不同粒度的车身颜色标签;
根据所述车身颜色分类网络输出的车身颜色标签和对应真实颜色标签之间的差异,调整所述局部特征提取网络以及所述车身颜色分类网络的参数,当迭代次数达到预设次数时,终止训练,得到所述细粒度车身颜色分类模型。
进一步地,所述车身颜色分类模块1120包括:
车身颜色分类构建单元,用于构建初始细粒度车身颜色分类模型,其中所述的细粒度车身颜色分类模型包括初始局部特征提取网络和嵌入自注意力模块编码器的车身颜色分类网络,并且所述嵌入自注意力模块编码器的车身颜色分类网络包括多层自注意力编码器网络和特征融合网络。
图像样本获取单元,用于获取待分类汽车图像和对应两种不同粒度的车身颜色的标注标签。
特征获取单元,用于将所述待分类汽车图像样本输入到所述局部特征提取网络,对所述待分类汽车图像进行预设卷积运算,得到固定尺度大小的特征图像。
车身颜色分类单元,用于将所述特征图像输入到所述车身颜色分类网络中,对所述特征图像按照像素点为单位划分,排列后得到固定长度的像素点序列,对像素点序列添加位置编码与分类标志位,输入到多层自注意力编码器单元中,得到不同级别的特征信息。将不同特征信息通过特征融合单元进行融合,结合线性操作与非线性操作得到两种不同粒度的车身颜色标签。
多层自注意力编码器单元,用于将输入的特征图像进行预设线性运算操作和非线性运算操作,所述输入特征图像会在多个子空间进行自注意力机制,不同层会得到不同级别的特征信息。
特征融合单元,用于将不同级别的特征信息融合,最后结合全连接线性操作与Softmax非线性操作得到两种不同粒度的车身颜色标签。
参数调整单元,根据所述车身颜色分类网络输出的两种不同粒度的车身颜色标签和实际车身颜色标签之间的差异,调整所述局部特征提取网络、多层自注意力编码器网络和特征融合网络的参数。当迭代次数达到预设次数时,终止训练,得到训练好的车身颜色分类模型。
本公开能够支持75种车辆颜色的细粒度分类,较之于传统技术中最多只能支持十余种车辆颜色分类任务,颜色识别的准确率得到了大幅提升,且本公开利用其中的自注意力机制能够获取车辆图像中的全局信息。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的基于深度学习的细粒度车身颜色分类装置用于实现前述任一实施例中相应的基于深度学习的细粒度车身颜色分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于深度学习的细粒度车身颜色分类方法。
图12示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于深度学习的细粒度车身颜色分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于深度学习的细粒度车身颜色分类方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于深度学习的细粒度车身颜色分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种基于深度学习的细粒度车身颜色分类方法,包括:
将获取的待分类车辆图像输入到预设的细粒度车身颜色分类模型,以得到所述待分类车辆图像对应的类别标签;
其中,所述细粒度车身颜色分类模型基于深度残差神经网络得到,所述深度残差神经网络包括局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络,构建所述细粒度车身颜色分类模型包括:
将基于监控场景的车辆图像作为训练样本,输入到所述车身颜色分类网络后得到融合特征信息;
将所述融合特征信息输入车身颜色分类网络,得到不同粒度的车身颜色标签;
根据所述车身颜色分类网络输出的车身颜色标签和对应真实颜色标签之间的差异,调整所述局部特征提取网络以及所述车身颜色分类网络的参数,当迭代次数达到预设次数时,终止训练,得到所述细粒度车身颜色分类模型;
其中,所述嵌入自注意力编码器的车身颜色分类网络包括自注意力编码器以及特征融合分类模块,输入的固定长度像素点序列经过注意力编码器,得到各层转换编码器子模块对应的分类标志位,将最后三层编码器的分类标志位输入到特征融合分类模块,得到融合后的特征信息,将所述融合后的特征信息输入到后续分类层中,以得到两种不同粒度的车身颜色标签;
其中,所述车身颜色分类网络的自注意力编码器包括若干个转换编码器子模块堆叠而成,所述转换编码器子模块由多头自注意力模块和前向传播网络组成,输入的固定长度像素点序列在多个不同的子空间进行融合,以得到任意两个特征像素点之间的关联权重关系,以通过所述关联权重关系使拼接的子空间信息得到充分融合。
2.根据权利要求1所述的基于深度学习的细粒度车身颜色分类方法,其中,所述得到所述待分类车辆图像对应的类别标签包括:
将所述待分类车辆图像输入到所述局部特征提取网络,对待分类车辆图像进行预设卷积运算,以将待分类车辆图像映射到编码空间,得到固定尺度大小的特征图像;
将所述固定尺度大小的特征图像按照像素点为单位切分,重新排列后得到固定长度的像素点序列,再添加位置编码与分类标志位,输入到所述车身颜色分类网络,所述车身颜色分类网络对最后三层编码器提取的特征信息进行特征融合,得到融合后的特征信息;
将所述融合后的特征信息输入到车身颜色分类网络的后续层中,结合线性操作与非线性操作得到两种不同粒度的车身颜色标签。
3.根据权利要求1所述的基于深度学习的细粒度车身颜色分类方法,其中,所述前向传播网络包括双层线性变换以及GeLU激活函数,其中的双层线性变换用于降维和升维,同时GeLU激活函数通过非线性变换用于增强模型表达能力。
4.根据权利要求1所述的基于深度学习的细粒度车身颜色分类方法,其中,所述局部特征提取网络包括多个卷积层,所述待分类车辆图像每经过一个卷积层都会得到一个特定尺度的特征图像,最终得到包括有原始图像高层特征的特征图像。
5.根据权利要求1所述的基于深度学习的细粒度车身颜色分类方法,其中,所述将所述融合后的特征信息输入到后续分类层中,以得到两种不同粒度的车身颜色标签,包括:
将最后三层编码器的分类标志位进行维度拼接操作,再传入后续分类层进行颜色类别分类,经过预设卷积操作得到对应不同粒度的两个结果向量,以对应于两种不同粒度的车身颜色标签。
6.一种基于深度学习的细粒度车身颜色分类装置,包括:
图像获取模块,用于获取待分类车辆图像;
车身颜色分类模块,用于将获取的待分类车辆图像输入到预设的细粒度车身颜色分类模型,以得到所述待分类车辆图像对应的类别标签;
其中,所述细粒度车身颜色分类模型基于深度残差神经网络得到,所述深度残差神经网络包括局部特征提取网络和嵌入自注意力编码器的车身颜色分类网络,构建所述细粒度车身颜色分类模型包括:
将基于监控场景的车辆图像作为训练样本,输入到所述车身颜色分类网络后得到融合特征信息;
将所述融合特征信息输入车身颜色分类网络,得到不同粒度的车身颜色标签;
根据所述车身颜色分类网络输出的车身颜色标签和对应真实颜色标签之间的差异,调整所述局部特征提取网络以及所述车身颜色分类网络的参数,当迭代次数达到预设次数时,终止训练,得到所述细粒度车身颜色分类模型;
其中,所述嵌入自注意力编码器的车身颜色分类网络包括自注意力编码器以及特征融合分类模块,输入的固定长度像素点序列经过注意力编码器,得到各层转换编码器子模块对应的分类标志位,将最后三层编码器的分类标志位输入到特征融合分类模块,得到融合后的特征信息,将所述融合后的特征信息输入到后续分类层中,以得到两种不同粒度的车身颜色标签;
其中,所述车身颜色分类网络的自注意力编码器包括若干个转换编码器子模块堆叠而成,所述转换编码器子模块由多头自注意力模块和前向传播网络组成,输入的固定长度像素点序列在多个不同的子空间进行融合,以得到任意两个特征像素点之间的关联权重关系,以通过所述关联权重关系使拼接的子空间信息得到充分融合。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的基于深度学习的细粒度车身颜色分类方法。
8.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至5任一所述的基于深度学习的细粒度车身颜色分类方法。
CN202110649327.1A 2021-05-26 2021-06-10 基于深度学习的细粒度车身颜色分类方法、装置和设备 Active CN113468978B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021105814951 2021-05-26
CN202110581495 2021-05-26

Publications (2)

Publication Number Publication Date
CN113468978A CN113468978A (zh) 2021-10-01
CN113468978B true CN113468978B (zh) 2023-11-24

Family

ID=77869548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110649327.1A Active CN113468978B (zh) 2021-05-26 2021-06-10 基于深度学习的细粒度车身颜色分类方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113468978B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155496B (zh) * 2021-11-29 2024-04-26 西安烽火软件科技有限公司 一种基于自注意力的车辆属性多任务协同识别方法
CN114494782B (zh) * 2022-01-26 2023-08-08 北京百度网讯科技有限公司 图像处理方法、模型训练方法、相关装置及电子设备
CN114332825B (zh) * 2022-03-10 2022-06-17 中汽信息科技(天津)有限公司 基于深度学习的道路地形分布识别方法、设备和存储介质
CN115274124B (zh) * 2022-07-22 2023-11-14 江苏先声医学诊断有限公司 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法
CN115471724A (zh) * 2022-11-02 2022-12-13 青岛杰瑞工控技术有限公司 一种基于自适应归一化的细粒度鱼类疫病识别融合算法
CN117114910A (zh) * 2023-09-22 2023-11-24 浙江河马管家网络科技有限公司 一种基于机器学习的票务自动入账系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067011A (zh) * 2017-03-20 2017-08-18 北京邮电大学 一种基于深度学习的车辆颜色识别方法与装置
WO2019169816A1 (zh) * 2018-03-09 2019-09-12 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN110555464A (zh) * 2019-08-06 2019-12-10 高新兴科技集团股份有限公司 一种基于深度学习模型的车辆颜色识别方法
CN110689043A (zh) * 2019-08-22 2020-01-14 长沙千视通智能科技有限公司 一种基于多重注意力机制的车辆细粒度识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140438A1 (en) * 2014-11-13 2016-05-19 Nec Laboratories America, Inc. Hyper-class Augmented and Regularized Deep Learning for Fine-grained Image Classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067011A (zh) * 2017-03-20 2017-08-18 北京邮电大学 一种基于深度学习的车辆颜色识别方法与装置
WO2019169816A1 (zh) * 2018-03-09 2019-09-12 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN110555464A (zh) * 2019-08-06 2019-12-10 高新兴科技集团股份有限公司 一种基于深度学习模型的车辆颜色识别方法
CN110689043A (zh) * 2019-08-22 2020-01-14 长沙千视通智能科技有限公司 一种基于多重注意力机制的车辆细粒度识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
车辆属性识别及跨场景标注方案;董振江;高燕;吴文熙;;中兴通讯技术(第04期);全文 *

Also Published As

Publication number Publication date
CN113468978A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN113468978B (zh) 基于深度学习的细粒度车身颜色分类方法、装置和设备
Wang et al. Improved YOLOv5 network for real-time multi-scale traffic sign detection
CN112233097B (zh) 基于空时域多维融合的道路场景他车检测系统和方法
Sazara et al. Detecting floodwater on roadways from image data with handcrafted features and deep transfer learning
Wang et al. Regional detection of traffic congestion using in a large-scale surveillance system via deep residual TrafficNet
Parmar et al. Deeprange: deep‐learning‐based object detection and ranging in autonomous driving
CN115601692A (zh) 数据处理方法、神经网络模型的训练方法及装置
CN113537462A (zh) 数据处理方法、神经网络的量化方法及相关装置
CN114708437A (zh) 目标检测模型的训练方法、目标检测方法、装置和介质
CN117409412A (zh) 一种基于细节增强的双分辨率实时语义分割方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN118155171A (zh) 一种基于改进YOLOv8的商用车远距离目标检测感知网络模型及检测方法
CN111461181B (zh) 一种车辆细粒度分类方法及装置
Lakmal et al. Illuminating the roads: Night-to-day image translation for improved visibility at night
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
Pan et al. A hybrid deep learning algorithm for the license plate detection and recognition in vehicle-to-vehicle communications
Zhang et al. Bus passenger flow statistics algorithm based on deep learning
CN116030507A (zh) 一种电子设备、识别图像中人脸是否佩戴口罩的方法
CN115988260A (zh) 一种图像处理方法、装置及电子设备
Toha et al. DhakaNet: unstructured vehicle detection using limited computational resources
Kalyan et al. Object Detection Using Yolo And Tensor Flow
CN114332800B (zh) 一种用于自动驾驶的街道场景解析语义分割方法
Li et al. Enhancing Real-time Target Detection in Smart Cities: YOLOv8-DSAF Insights
CN116524203B (zh) 一种基于注意力和双向加权特征融合的车辆目标检测方法
CN112990070B (zh) 一种车辆颜色检测方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant