【发明内容】
为克服目前的检测识别方法在目标尺寸敏感时检测识别准确率低的缺陷,本发明提供一种图像检测识别方法及系统、电子设备、图像分类网络优化方法及系统为了解决上述技术问题提供一种图像检测识别方法,包括如下步骤:S1、提供具有至少一个待识别目标的待测图像;S2、利用检测分类模型将所述待测图像中的待识别目标进行检测以获得与所述待识别目标对应的掩膜图像;S3、将所述步骤S1中的待测图像和所述步骤S2中的掩膜图像进行合并以获得多通道图像;及S4、将所述多通道图像输入训练好的分类网络进行检测以对所述待识别目标进行分类。
优选地,所述步骤S2具体包括如下步骤:步骤S21、定位与每个待识别目标对应的矩形框;步骤S22、根据所述矩形框获得与所述待识别目标对应的掩膜图像。
优选地,所述步骤S2还包括在所述步骤S21和所述步骤S22之间执行的如下步骤:步骤S21A、获得与每个矩形框对应的置信度;步骤S21B、根据置信度与预设阈值之间的大小关系,判定所述矩形框是否合格;若是,则对应执行步骤S22;若否,则重新返回步骤S21。
优选地,若判定所述矩形框为合格,则在所述上述步骤S21B及步骤S22之间还包括步骤S21C,将所述矩形框按照预设的缩放比例进行缩放以获得与每个待识别目标对应的多个尺寸不相同的矩形框。
优选地,在所述步骤S22中,将所述矩形框内的像素值设置为255,将所述矩形框以外的区域的像素值设置为0以获得二值图像,所述二值图像为所述掩膜图像。
优选地,在所述步骤S3中,基于所述掩膜图像的通道数、宽度以及高度和所述待测图像的通道数、宽度以及高度做合并以获得所述多通道图像,所述待测图像的通道数对应为n,合并后的多通道图像的通道数对应为n+1。
为了解决上述技术问题,本发明还提供一种图像分类网络优化方法,包括如下步骤:T1、提供具有至少一个待识别目标的待测图像;T2、利用检测分类模型将所述待测图像中的待识别目标进行检测以获得与所述待识别目标对应的掩膜图像;T3、将所述步骤S1中的待测图像和所述步骤S2中的掩膜图像进行合并以获得多通道图像;及T4、将所述多通道图像作为训练集输入训练好的分类网络进行训练以获得优化后的分类网络。
为了解决上述技术问题,本发明还提供一种图像检测识别系统,包括:图像获取单元,用于获取具有至少一个待识别目标的待测图像;检测单元,用于将所述待测图像中的待识别目标进行检测以获得与每个待识别目标对应的掩膜图像;合并单元,用于将所述待测图像和所述掩膜图像进行合并以获得多通道图像;分类单元,用于将所述多通道图像输入训练好的分类网络进行检测以对所述待识别目标进行分类。
为了解决上述技术问题,本发明还提供一种图像分类网络优化系统,其特征在于,包括:图像获取单元,用于获取具有至少一个待识别目标的待测图像;检测单元,用于将所述待测图像中的待识别目标进行检测以获得与每个待识别目标对应的掩膜图像;合并单元,用于将所述待测图像和所述掩膜图像进行合并以获得多通道图像;训练单元,用于将所述多通道图像输入训练好的分类网络进行训练以获得优化后的分类网络。
本发明为了解决上述技术问题,还提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被设置为运行时执行如上所述的图像检测识别方法;所述处理器被设置为通过所述计算机程序执行如上所述的图像检测识别方法。
相对于现有技术,在对待测图片的检测开始时,利用检测分类模型预测获取掩膜图像,掩膜图像将待识别的目标与背景进行区分,以提高检测分类模型对待识别目标的识别效率,同时进一步将掩膜图像与待测图像进行合并以获得多通道图像,由于多通道图像相对于待测图像代表了待识别目标更全面的信息,将其输入训练好的分类网络进行检测以对所述待识别目标进行分类,能很好的提高检测的准确率且能获得更细致的分类结果。
根据置信度与预设的阈值之间的大小关系判定所述矩形框是否合格,以在获得多通道图像的初期进行管控,进一步提高对待测图片检测分类的准确性。
当所述定位框合格时,按照预设的缩放比例对矩形框进行缩放以获得与每个待识别目标对应的多个尺寸不同的矩形框,因此,获得的多个多通道图像,提高了分类的准备性,同时丰富训练分类网络的数据集,进一步提高训练后的分类网络的性能。
还利用多通道图像作为训练集对训练好的分类网络进行训练优化获得优化后的分类网络,提升分类网络的模型性能,以在后续的图片检测识别过程中获得更加准确的检测分类结果
本发明提供的图像分类网络优化方法、电子设备具有和所述图像检测识别方法相同的有益效果。
【附图说明】
图1是本发明第一实施例图像检测识别方法的流程示意图;
图2是本发明第一实施例图像检测识别方法的步骤S2的细节流程示意图;
图2a是本发明第一实施例图像检测识别方法中在步骤S21中定位与待识别目标对应的矩形框的示意图;
图3是本发明第一实施例图像检测识别方法的变形实施例中步骤S2的细节流程示意图;
图4是本发明第一实施例图像检测识别方法的又一变形实施例中步骤S2的细节流程示意图;
图5是本发明第二实施例提供的图像分类网络优化方法的流程示意图;
图6是本发明第三实施例图像检测识别系统的模块示意图;
图7是本发明第三实施例图像检测识别系统中检测单元的模块示意图;
图8是本发明第四实施例提供的图像分类网络优化系统的模块示意图;
图9是本发明第五实施例电子设备的模块示意图;
图10是第六实施例提供的适于用来实现本发明实施例的服务器的计算机系统的结构示意图;
附图标记说明:
100、图像检测识别系;101、图像获取单元;102、检测单元;1021、定位框生成单元;1022、掩膜图像生成单元;103、合并单元;104、分类单元;200、图像分类网络优化系统;205、训练单元;700、电子设备;701、存储器;702、处理器;800、计算机系统;801、中央处理单元(CPU);802、存储器(ROM);803、RAM;804、总线;805、I/O接口;806、输入部分;807、输出部分;808、存储部分;809、通信部分;810、驱动器;811、可拆卸介质。
【具体实施方式】
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种图像检测识别方法,包括如下步骤:
S1、获取具有至少一个待识别目标的待测图像;
S2、利用检测分类模型将所述待测图像中的待识别目标进行检测以获得与所述待识别目标对应的掩膜图像;
S3、将所述步骤S1中的待测图像和所述步骤S2中的掩膜图像进行合并以获得多通道图像;及S4、将所述多通道图像输入训练好的分类网络进行检测以对所述待识别目标进行分类。
在所述步骤S1中,所述待测图像为通过相机拍摄获得的图片或者视频。当为视频时,所述待测图像为从视频中截取出来的每一帧图像。可以理解,根据设定的分析任务,在每个待测图像中可以包括一个待识别目标或者多个待识别目标。比如,一张图片中有1瓶矿泉水和3瓶可乐,当需要对矿泉水进行检测识别时,其待识别目标为1个,当需要对可乐进行检测识别时,其待识别目标为3个。
请参阅图2,在所述步骤S2中,利用检测分类模型将所述待测图像中的待识别目标进行检测以获得与所述待识别目标对应的掩膜图像。具体包括如下步骤:
步骤S21、定位与每个待识别目标对应的矩形框;及
步骤S22、根据所述矩形框获得与所述待识别目标对应的掩膜图像。
在所述步骤S21中,通过检测分类模型定位与所述每个待识别目标对应的矩形框,该矩形框内包含了待识别目标的最大边界所在的矩形区域,如图2a中所示,以瓶装饮料为例,待测图像20中具有第一饮料200和第二饮料300,矩形框400分别精确定位第一饮料200和第二饮料300最大边界所在的矩形区域。可以理解,常用的检测分类模型的检测算法通常包括Faster R-CNN、Cascade R-CNN和Mask R-CNN中的任一种,在此不再赘述。
在所述步骤S22中,根据所述矩形框获得与所述待识别目标对应的掩膜图像,其具体操作如下:在本步骤中,基于经验值或者预处理图像的特点可设定一个阈值,以此阈值来进行二值化处理,所有灰度大于或者等于阈值的像素被判定为属于气泡的边缘,其灰度值为255(即相对于为白色)表示,将所述矩形框内的像素值设置为255;否则这些像素点被排除在物体区域以外,灰度值为0(即相对于为黑色)表示,也即将所述矩形框以外的区域的像素值设置为0。其可以通过OpenCV算法中的两个函数对预处理图像进行二值化处理,所述的两个函数如下:
(1)cvThreshold(dst,dst,230,255,CV_THRESH_BINARY_INV);
(2)cvAdaptiveThreshold(dst,dst,255,CV_ADAPTIVE_THRESH_MEAN_C,CV_THRESH_BINARY,9,-10)
因此,所述二值图像为所述掩膜图像,如图2a所示。
请参阅图3,所述步骤S2进一步包括在所述步骤S21和所述步骤S22之间执行的如下步骤:
步骤S21A、获得与每个矩形框对应的置信度;
步骤S21B、步骤S21B、根据置信度与预设阈值之间的大小关系,判定所述矩形框是否合格;
若是,则对应执行步骤S22;
若否,则重新返回步骤S21。
在所述步骤S21A中,获取的与每个矩形框对应的置信度也是通过在步骤S21中使用的检测分类模型获得的。也即,同样是通过算法Faster R-CNN、Cascade R-CNN和Mask R-CNN中的任一种获得的。
在所述步骤S21B中,根据所述置信度判定所述矩形框是否合格,是通过设定一个阈值,若所述置信度大于或者等于设定的阈值,则认为所述矩形框合格,否则认为所述矩形框不合格。可以理解的是:所述矩形框合格就代表所述矩形框能将所述待识别目标进行很好的框定,比如,将待识别目标100%框定在所述矩形框内,或者,80%-95%的区域的待识别目标被框定在所述矩形框内,否则认为所述矩形框不合格。当所述矩形框不合格时,需要重新返回步骤S21。
请参阅图4,所述步骤S2还包括步骤S21C,
若是,也即当所述矩形框合格时,则对应执行步骤S21C:将所述矩形框按照预设的缩放比例进行缩放以获得与每个待识别目标对应的多个尺寸不相同的矩形框;所述步骤S21C在所述步骤S21B和所述步骤S22之间。通常在步骤21定位的矩形框为一个待识别目标对应一个矩形框,当通过对所述每个矩形框按照预设的缩放比例进行缩放之后获得与每个待识别目标对应的多个尺寸不同的矩形框,以形成多张具有不同尺寸的矩形框大小的待测图像。可选地,所述缩放比例为根据经验值进行设定的,比如:可以是步骤21中的矩形框的0.8倍、0.85倍、0.9倍、1.05倍、1.1倍、1.2倍或者其他数值。将所述矩形框按照预设的缩放比例进行缩放以获更多的代表每个待识别目标的待测图像集,使得基于该待测图像集训练的分类网络获得更好的分类检测效果。
请参阅图1,在所述步骤S3中,将所述步骤S1中的待测图像和所述步骤S2中的掩膜图像进行合并以获得多通道图像是基于所述掩膜图像的通道数、宽度以及高度和所述待测图像的通道数、宽度以及高度做合并以获得所述多通道图像。所述待测图像的通道数对应为n,合并后的多通道图像的通道数对应为n+1。比如,待测图像的宽度、高度以及通道数分别为:W1、H1和n;掩膜图像的宽度、高度以及通道数分别为:W2、H2和1,在将两者进行合并时,分别是将所述宽度、高度以及通道数进行叠加。合并后的多通道图像的宽度、高度以及通道数分别为:W1+W2、H1+H2和n+1。可以理解的是,待测图像通常为彩色图像,其为RGB三通道图像,即其通道数为3。可以理解的是,由于在步骤21C中将所述矩形框按照预设的缩放比例进行缩放以获得与待识别目标对应的多个尺寸不相同矩形框,因此,在本步骤中,与每张待测图像对应的多通道图像为多个。
请再次参阅图1,在所述步骤S4中,S4、将所述多通道图像输入训练好的分类网络进行检测以对所述待识别目标进行分类。在本步骤中,所述训练好的分类网络是现有的常用的分类网络,如SSD、yolo、faster-rcnn和mask-rcnn或者其他分类网络中的任一种。
请参阅图5,本发明第二实施例提供一种图像分类网络优化方法,其包括第一实施例提供的步骤S1-步骤S3和步骤:T4、将所述多通道图像作为训练集输入训练好的分类网络进行训练以获得优化后的分类网络。
在所述步骤T4中,所述训练好的分类网络为现有的常用的分类网络,如SSD、yolo、faster-rcnn和mask-rcnn或者其他分类网络中的任一种。
请参阅图6,本发明的第三实施例提供一种图像检测识别系统100,其包括:图像获取单元101、检测单元102、合并单元103和分类单元104。
图像获取单元101,用于获取具有至少一个待识别目标的待测图像;
检测单元102,用于将所述待测图像中的待识别目标进行检测以获得与每个待识别目标对应的掩膜图像;
合并单元103,用于将所述待测图像和所述掩膜图像进行合并以获得多通道图像;
分类单元104,用于将所述多通道图像输入训练好的分类网络进行检测以对所述待识别目标进行分类。
请参阅图7,所述检测单元102包括:定位框生成单元1021以及掩膜图像生成单元1022。
其中,定位框生成单元1021,用于生成与每个待识别目标对应的矩形框;
掩膜图像生成单元1022,用于根据所述矩形框获得与每个待识别目标对应的掩膜图像。
请参阅图8,本发明的第四实施例提供的图像分类网络优化系统200,其包括第三实施例提供的检测单元102、合并单元103和训练单元205。所述训练单元205用于将所述多通道图像输入训练好的分类网络进行训练以获得优化后的分类网络。
请参阅图9,本发明的第五实施例提供一种电子设备700,包括存储器701和处理器702,所述存储器701中存储有计算机程序,所述计算机程序被设置为运行时执行如第一实施例所述的图像检测识别方法;
所述处理器702被设置为通过所述计算机程序执行如第一实施例所述的图像检测识别方法。
下面参考图10,其示出了适于用来实现本申请实施例的终端设备/服务器的计算机系统800的结构示意图。图8示出的终端设备/服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有系统800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“如“语言或类似的程序设计语言。程序代码可以完全地在管理端计算机上执行、部分地在管理端计算机上执行、作为一个独立的软件包执行、部分在管理端计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到管理端计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
相对于现有技术,在检测开始时,利用检测分类模型预测获取掩膜图像,掩膜图像将待识别的目标与背景进行区分,以提高检测分类模型对待识别目标的识别效率,同时进一步将掩膜图像与待测图像进行合并以获得多通道图像,多通道图像相对于待测图像代表了待识别目标更全面的信息,将其输入训练好的分类网络进行检测以对所述待识别目标进行分类,能很好的提高检测的准确率且能获得更细致的分类结果。
根据置信度与预设的阈值之间的大小关系判定所述矩形框是否合格,以在获得多通道图像的初期进行管控,进一步提高对待测图片检测分类的准确性。
当所述定位框合格时,按照预设的缩放比例对矩形框进行缩放以获得与每个待识别目标对应的多个尺寸不同的矩形框,因此,获得的多个多通道图像,提高了分类的准备性,同时丰富训练分类网络的数据集,进一步提高训练后的分类网络的性能。
还利用多通道图像作为训练集对训练好的分类网络进行训练优化获得优化后的分类网络,提升分类网络的模型性能,以在后续的图片检测识别过程中获得更加准确的检测分类结果
本发明提供图像检测识别系统、电子设备具有和所述图像检测识别方法相同的有益效果。
以上所述仅为本发明较佳实施例而已,并不用以限制本发明,凡在本发明原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。