CN109118490B - 一种图像分割网络生成方法及图像分割方法 - Google Patents
一种图像分割网络生成方法及图像分割方法 Download PDFInfo
- Publication number
- CN109118490B CN109118490B CN201810691302.6A CN201810691302A CN109118490B CN 109118490 B CN109118490 B CN 109118490B CN 201810691302 A CN201810691302 A CN 201810691302A CN 109118490 B CN109118490 B CN 109118490B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- layer
- segmentation
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于对双目图像中的人像进行分割处理的图像分割网络生成方法、图像分割方法、计算设备及移动终端,图像分割网络生成方法包括:构建分割处理网络,所述分割处理网络包括多个处理块、下采样层和上采样层;构建视差计算网络,所述视差计算网络包括多个第一卷积层、转置卷积层和第二卷积层;根据预先生成的第一图像数据集合对所述分割处理网络进行训练,根据预先生成的第二图像数据集合对所述视差计算网络进行训练;将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络;根据所述第一图像数据集合对所述图像分割网络进行训练,以便所述图像分割网络的输出指示输入图像所对应的人像掩膜图像。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种用于对双目图像中的人像进行分割处理的图像分割网络生成方法、图像分割方法、计算设备及移动终端。
背景技术
图像分割是指依据图像的灰度、纹理和形状等特征,把图像划分成若干的互相没有重合的区域,主要应用于对人像、动物以及自然场景以及各种带有明显语义信息的事物的分割。
目前,主流的分割算法都是基于一张图像输入到卷积神经网络中进行分割,已经取得了较好的效果,但并不适用于对具有双目摄像头的手机所拍摄出的双目图像进行分割处理。双目相机相对于传统单目相机的优势在于,其能够依据双目相机本身的几何关系以及左右相机图像之间的细微不同来计算物体相对于相机的距离。一旦计算出该距离,就能够为目前的分割算法提供很大的辅助,尤其针对误检测情况,完全可以利用深度信息进行完全的消除。
现在应用双目图像进行分割的有2017年在《IEEE Computer Society》上发表的一篇名为“High-Quality Correspondence and Segmentation Estimation for Dual-LensSmart-Phone Portraits”的论文,该文章的做法建立在HS(Horn-Schunck)Flow和FCN(Fully Convolutional Networks)Segment的基础之上,前者计算两张图中人物的细微变化,后者则依据语义信息分割出图像的人物所在位置,然而两者都不够精确。前者只能够分辨低层次的像素级别的特征,会将很多移动的特征都识别为前景,后者依据语义特征,但精度较差,会有很多被误分割。上述文章利用CRF(Conditional Random Field,条件随机场)方法将两者结果融合,取得了相对不错的结果。但CRF方法具有较多的参数需要调节,同一个参数并不能适用于大多数图片,因此其不能被真正落实到产品之中,并且该网络计算量较大,在手机端无法做到实时计算。
发明内容
为此,本发明提供一种用于对双目图像中的人像进行分割处理的图像分割网络生成方案,并提出了基于该图像分割网络的图像分割方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种用于对双目图像中的人像进行分割处理的图像分割网络生成方法,适于在计算设备中执行,该方法包括如下步骤:首先,构建分割处理网络,分割处理网络包括多个处理块、下采样层和上采样层;构建视差计算网络,视差计算网络包括多个第一卷积层、转置卷积层和第二卷积层;根据预先生成的第一图像数据集合对分割处理网络进行训练,根据预先生成的第二图像数据集合对视差计算网络进行训练;将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络;根据第一图像数据集合对图像分割网络进行训练,以便图像分割网络的输出指示输入图像所对应的人像掩膜图像。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,构建分割处理网络的步骤包括:构建处理块,处理块包括卷积层;分别构建上采样层和下采样层;按照预设的第一连接规则,将各处理块、下采样层和上采样层进行相连,以生成以一个处理块为输入、以另一个处理块为输出的分割处理网络。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,构建处理块的步骤还包括:分别构建激活层和图像叠加层;按照预设的处理块构建规则,将一个或多个卷积层、激活层和图像叠加层进行相连,以生成以一个激活层为输入、以另一个激活层为输出的处理块。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,视差计算网络还包括第一激活层和损失计算层,构建视差计算网络的步骤包括:分别构建第一卷积层、转置卷积层和第二卷积层;分别构建第一激活层和损失计算层;按照预设的第二连接规则,将各第一卷积层、转置卷积层、第二卷积层、第一激活层和损失计算层进行相连,以生成以第一卷积层为输入、以第一激活层为输出的视差计算网络。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,第一图像数据集合包括多个第一图像组,每个第一图像组包括第一双目视图和对应的人像掩膜图,根据预先生成的第一图像数据集合对分割处理网络进行训练的步骤包括:对每一个提取出的第一图像组,以该第一图像组所包括的第一双目视图为分割处理网络中第一个处理块的输入,以该第一图像组所包括的人像掩膜图为分割处理网络中最后一个处理块的输出,对分割处理网络进行训练。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,第二图像数据集合包括多个第二图像组,每个第二图像组包括第二双目视图和对应的视差图,根据预先生成的第二图像数据集合对视差计算网络进行训练的步骤包括:对每一个提取出的第二图像组,以该第二图像组所包括的第二双目视图为视差计算网络中第一个第一卷积层的输入,以该第二图像组所包括的视差图为视差计算网络中最后一个第一激活层的输出,对视差计算网络进行训练。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络的步骤包括:对训练好的分割处理网络中的每一个下采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该下采样层输出的特征图尺寸相等的第一卷积层,将该第一卷积层与该下采样层的输出进行合并,将合并结果作为与该下采样层相连的下一个处理块的输入;对训练好的分割处理网络中的每一个上采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该上采样层输出的特征图尺寸相等的转置卷积层,将该转置卷积层与该上采样层的输出进行合并,将合并结果作为与该上采样层相连的下一个处理块的输入,以生成图像分割网络。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,第一图像数据集合包括多个第一图像组,每个第一图像组包括第一双目视图和对应的人像掩膜图,根据第一图像数据集合对图像分割网络进行训练的步骤包括:对每一个提取出的第一图像组,以该第一图像组所包括的第一双目视图分别为图像分割网络中第一个处理块和第一个第一卷积层的输入,以该第一图像组所包括的人像掩膜图为图像分割网络中最后一个处理块的输出,对图像分割网络进行训练。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,处理块的数量为14,下采样层和上采样层的数量均为3。
可选地,在根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法中,卷积层的数量为3,激活层的数量为4,图像叠加层的数量为1。
根据本发明的又一个方面,提供一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法的指令。
根据本发明的又一个方面,提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法。
根据本发明的又一个方面,提供一种图像分割方法,适于在移动终端中执行,该方法基于用于对双目图像中的人像进行分割处理的图像分割网络生成方法中、训练好的图像分割网络对图像中的人像进行分割处理,包括如下步骤:首先,对待处理双目图像进行缩放处理以获取满足预设尺寸的待分割双目图像;将待分割双目图像输入到训练好的图像分割网络中进行人像分割;获取训练好的图像分割网络中最后一个处理块的输出;根据该输出确定待处理双目图像对应的人像掩膜图像。
根据本发明的又一个方面,提供一种移动终端,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的图像分割方法的指令。
根据本发明的又一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由移动终端执行时,使得移动终端执行根据本发明的图像分割方法。
根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成的技术方案,首先构建分割处理网络和视差计算网络,再根据第一图像数据集合训练分割处理网络,以及根据第二图像数据集合训练视差计算网络,将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络,最后根据第一图像数据集合对图像分割网络进行训练,以便图像分割网络的输出指示输入图像所对应的人像掩膜图像。在上述技术方案中,分割处理网络包括多个处理块、下采样层和上采样层,处理块是基于图像都在低维度的流形上的假设,将中间层的卷积层数大大降低,可以在几乎不损失网络精度的基础之上,很大程度上提高网络的运算速度,而各上采样层和各下采样层之间一一对应,使得整个网络能够学习到全局的有效信息。视差计算网络包括多个第一卷积层、转置卷积层和第二卷积层,可见该网络结构在不断缩小图像特征图的基础之上不断增加图像的特征图个数,并分别在不同的尺度上和有效的正确分类数据上进行损失计算,有助于由粗到精的训练。当分割处理网络和视差计算网络训练完成后,向训练好的分割处理网络融合视差计算网络的信息,使得形成的图像分割网络既能够学习到人物的语义信息,又能够顾及到像素级别的特征微小的不同特征。在图像分割网络训练完成后,其即可作为图像分割模型移植到移动终端来应用。
进而,根据本发明的图像分割方案,将待分割双目图像输入到已训练好的图像分割网络中,根据图像分割网络中最后一个处理块的输出确定相应的人像掩膜图像,不仅降低了被误分割的概率,结果精度有了较大提升,且具有参数较少,无需大量计算服务,鲁棒性较高,极大程度上提高了用户体验。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的示意图;
图2示出了根据本发明的一个实施例的用于对双目图像中的人像进行分割处理的图像分割网络生成方法200的流程图;
图3示出了根据本发明的一个实施例的处理块的结构示意图;
图4示出了根据本发明的一个实施例的分割处理网络的结构示意图;
图5A示出了根据本发明的一个实施例的用于训练分割处理网络的第一双目视图中的左视图;
图5B示出了根据本发明的一个实施例的用于训练分割处理网络的第一双目视图中的右视图;
图5C示出了根据本发明的一个实施例的用于训练分割处理网络的人像掩模图;
图6A示出了根据本发明的一个实施例的用于训练视差计算网络的第二双目视图中的左视图;
图6B示出了根据本发明的一个实施例的用于训练视差计算网络的第二双目视图中的右视图;
图6C示出了根据本发明的一个实施例的用于训练视差计算网络的视差图;
图7示出了根据本发明的一个实施例的移动终端700的示意图;以及
图8示出了根据本发明的一个实施例的图像分割方法800的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
在一些实施例中,计算设备100被配置为执行根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法200。其中,计算设备100的一个或多个程序122包括用于执行根据本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法200的指令。
图2示出了根据本发明一个实施例的用于对双目图像中的人像进行分割处理的图像分割网络生成方法200的流程图。用于对双目图像中的人像进行分割处理的图像分割网络生成方法200适于在计算设备(例如图1所示的计算设备100)中执行。
如图2所示,方法200始于步骤S210。在步骤S210中,构建分割处理网络,分割处理网络包括多个处理块、下采样层和上采样层。根据本发明的一个实施例,可通过如下方式构建分割处理网络。首先,构建处理块,处理块包括卷积层。为了控制过拟合现象,并尽可能多学习全局的有效信息,在该实施方式中,在构建处理块时,还可以分别构建激活层和图像叠加层,按照预设的处理块构建规则,将一个或多个卷积层、激活层和图像叠加层进行相连,以生成以一个激活层为输入、以另一个激活层为输出的处理块。其中,卷积层的数量为3,激活层的数量为4,图像叠加层的数量为1。对激活层而言,采用PReLU(Parametric RectifiedLinear Unit)函数作为激活函数,以调整经过卷积层的输出,避免下一层的输出为上一层的线性组合而无法逼近任意函数。
具体的,按照预设的处理块构建规则将3个卷积层、4个激活层和1个图像叠加层进行相连,以生成以4个激活层中的一个激活层为输入、另一个激活层为输出的处理块。图3示出了根据本发明的一个实施例的处理块的结构示意图。如图3所示,在处理块中,是以激活层A1为输入端,激活层A1的输出分两路,一路输入到卷积层B1中,卷积层B1后面依次相连激活层A2、卷积层B2、激活层A3、卷积层B3和图像叠加层C1,另一路直接输入到图像叠加层C1,卷积层B3和激活层A1的输出在图像叠加层C1进行相加处理后输入到激活层A4,激活层A4为处理块的输出端。图3所示出的各处理单元的连接顺序,即为按照预设的处理块构建规则来设置的。关于处理块构建规则的预先设置,可根据实际应用场景、网络训练情况、系统配置和性能要求等进行适当调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。表1示出了根据本发明的一个实施例的处理块的参数设置示例。其中,对表1里边界补零这一参数的值来说,“-”表示不进行边界补零操作,“1”表示将处理单元所输入特征图的边缘向外1个像素单位的各行与各列以0填充,“2”表示将处理单元所输入特征图的边缘向外2个像素单位的各行与各列以0填充,“3”表示将处理单元所输入特征图的边缘向外3个像素单位的各行与各列以0填充,以此类推。若无特别指出,以下涉及边界补零的内容均以上述说明为准。
表1中的内容具体如下所示:
处理单元 | 卷积核尺寸 | 边界补零 | 步长 | 卷积核数量 |
卷积层B1 | 3×3 | 1 | 1 | 128 |
卷积层B2 | 3×3 | 1 | 1 | 32 |
卷积层B3 | 3×3 | 1 | 1 | 128 |
表1
在构建完处理块后,分别构建上采样层和下采样层。其中,下采样层即为池化层,池化利用图像局部相关性的原理,对图像进行子抽样,从而减少数据处理下并保留有用信息。上采样层可以理解为对输入的特征图进行二维插值,在将特征图放大后再剪去多余的部分,使其保持需求的尺寸以便计算各个像素的值。关于上采样和下采样的具体处理过程,为现有的成熟技术手段,此处不与赘述。表2示出了根据本发明的一个实施例的下采样层E1~E3的参数设置示例,下采样层E1~E3均为最大池化层,相应参数具体如下所示:
表2
接下来,按照预设的第一连接规则,将各处理块、下采样层和上采样层进行相连,以生成以一个处理块为输入、以另一个处理块为输出的分割处理网络。根据本发明的一个实施例,处理块的数量为14,下采样层和上采样层的数量均为3。在该实施方式中,按照预设的第一连接规则将14个处理块、3个下采样层和3个上采样层进行相连,从而生成以14个处理块中的一个为输入、另一个为输出的分割处理网络。
图4示出了根据本发明的一个实施例的分割处理网络的结构示意图。如图4所示,在分割处理网络中,是以处理块D1为输入端,后面依次相连处理块D2、下采样层E1、处理块D3、处理块D4、下采样层E2、处理块D5、处理块D6、下采样层E3、处理块D7、处理块D8、上采样层F1、处理块D9、处理块D10、上采样层F2、处理块D11、处理块D12、上采样层F3、处理块D13和处理块D14,其中处理块D14为输出端。图4所示出的各处理单元的连接顺序,即为按照预设的第一连接规则来设置的。关于第一连接规则的预先设置,可根据实际应用场景、网络训练情况、系统配置和性能要求等进行适当调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
构建好分割处理网络后,进入步骤S220,构建视差计算网络,视差计算网络包括多个第一卷积层、转置卷积层和第二卷积层。根据本发明的一个实施例,视差计算网络还包括第一激活层和损失计算层,并可通过如下方式来构建视差计算网络。首先,分别构建第一卷积层、转置卷积层和第二卷积层,再分别构建第一激活层和损失计算层,按照预设的第二连接规则,将各第一卷积层、转置卷积层、第二卷积层、第一激活层和损失计算层进行相连,以生成以第一卷积层为输入、以第一激活层为输出的视差计算网络。其中,转置卷积层是对输入的特征图进行反卷积或是后卷积处理,来使得输出的特征图较输入时尺寸变大,这一处理手段为现有成熟技术,此处不再赘述。此外,第一激活函数同样采用PReLU函数,进一步缓解过拟合问题。
在该实施方式中,第一卷积层的数量为10,转置卷积层和第二卷积层的数量均为5,第一激活层和损失计算层的数量均为6。则,按照预设的第二连接规则将10个第一卷积层、5个转置卷积层、5个第二卷积层、5个第一激活层和5个损失计算层进行相连,以生成以1个第一卷积层为输入、以1个第一激活层为输出的视差计算网络。表3示出了根据本发明的一个实施例的视差计算网络中各处理单元的连接关系及相应参数设置示例。表3的内容具体如下所示:
表3
如表3所示,在视差计算网络中,是以第一卷积层G1为输入端、以第一激活层J1为输出端。表3示出的各处理单元的连接顺序,即为按照预设的第二连接规则来设置的。关于第一连接规则的预先设置,可根据实际应用场景、网络训练情况、系统配置和性能要求等进行适当调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
接下来,在步骤S230中,根据预先生成的第一图像数据集合对分割处理网络进行训练,根据预先生成的第二图像数据集合对视差计算网络进行训练。根据本发明的一个实施例,第一图像数据集合包括多个第一图像组,每个第一图像组包括第一双目视图和对应的人像掩膜图,具体可通过如下方式对分割处理网络进行训练。在该实施方式中,对每一个提取出的第一图像组,以该第一图像组所包括的第一双目视图为分割处理网络中第一个处理块的输入,以该第一图像组所包括的人像掩膜图为分割处理网络中最后一个处理块的输出,对分割处理网络进行训练。其中,第一双目视图为双目摄像头拍摄到的左视图与右视图形成的图像,左视图和右视图均为RGB三通道图像,所形成的第一双目视图即为六通道图像,包括左视图和右视图分别在RGB三个通道中的特征图。人像掩模图为根据第一双目视图而分割形成的包含有人像特征的单通道图像,其尺寸与第一双目视图一样,均满足预设尺寸640px×480px。
下面将以第一图像数据集合中的一个第一图像组X为例,对分割处理网络的训练过程进行说明。第一图像组X包括第一双目视图X1和其对应的人像掩膜图X2,第一双目视图X1和人像掩膜图X2的尺寸为640px×480px。图5A示出了根据本发明的一个实施例的用于训练分割处理网络的第一双目视图中的左视图,图5B示出了根据本发明的一个实施例的用于训练分割处理网络的第一双目视图中的右视图,图5C示出了根据本发明的一个实施例的用于训练分割处理网络的人像掩模图。第一双目视图X1即由图5A中的左视图和图5B中的右视图形成,人像掩模图X2即为图5C中的人像掩模图。在训练时,是以第一双目视图X1为处理块D1的输入、人像掩模图X2为处理块D14的输出进行分割处理网络的训练。
具体的,先将第一双目视图X1输入到处理块D1中,第一双目视图X1为六通道图像,尺寸为640px×480px。处理块D1中的激活层A1对第一双目视图X1进行激活处理后,得到的输出是128张640px×480px的特征图,进而将这128张特征图分别输入到卷积层B1和图像叠加层C1。对卷积层B1来说,其具有128个卷积核,每个卷积核的参数个数为3×3,相当于128个3×3大小的卷积核进行卷积,步长为1。将该卷积层B1所输入特征图的边缘向外1个像素单位的各行与各列以0填充,则经过其卷积处理后,根据 和可知,此时得到的图像的尺寸为640px×480px,即获得128张640px×480px大小的特征图,其中表示向下取整。
随后,将卷积层B1输出的128张640px×480px的特征图输入到激活层A2中,可得激活层A2的输出为128张640px×480px的特征图。再将激活层A2输出的这128张特征图输入到卷积层B2中,卷积层B2有32个卷积核,每个卷积核的参数个数为3×3,相当于32个1×1大小的卷积核进行卷积,步长为1。将该卷积层B2所输入特征图的边缘向外1个像素单位的各行与各列以0填充,则经过其卷积处理后,根据和 可知,此时得到的图像的尺寸为640px×480px,即获得32张640px×480px大小的特征图。
接下来,进入激活层A3,激活层A3对卷积层B2输出的32张640px×480px的特征图进行激活处理后,输出32张640px×480px的特征图。将激活层A3输出的32张640px×480px的特征图输入到卷积层B3中,卷积层B3有128个卷积核,每个卷积核的参数个数为3×3,相当于128个1×1大小的卷积核进行卷积,步长为1。将该卷积层B3所输入特征图的边缘向外1个像素单位的各行与各列以0填充,则经过其卷积处理后,根据 和可知,此时得到的图像的尺寸为640px×480px,即获得128张640px×480px大小的特征图。
此时,图像叠加层C1的输入来源有两路,一路是卷积层B3的输出,为128张640px×480px的特征图,另一路是激活层A1的输出,为128张640px×480px的特征图,将激活层A1输出的各特征图相应叠加到卷积层B3输出的各特征图上,比如激活层A1输出的第1张特征图叠加到卷积层B3输出的第1张特征图上,激活层A1输出的第2张特征图叠加到卷积层B3输出的第2张特征图上,依次类推,激活层A1输出的第128张特征图叠加到卷积层B3输出的第128张特征图上,最终得到图像叠加层C1的输出为128张640px×480px大小的特征图。最后,图像叠加层C1输出的128张640px×480px的特征图经过激活层A4的处理后,可得处理块D1的输出为128张640px×480px的特征图。基于此,可知对处理块D1来说,其输出的特征图尺寸与输入的特征图尺寸一致,同理可知处理块D2~D14所输出的特征图尺寸与其输入的特征图尺寸一致。
此后,进入处理块D2,参考处理块D1的图像处理过程,可得处理块D2的输出为128张640px×480px的特征图。将处理块D2输出的128张640px×480px的特征图输入到下采样层E1,下采样层E1采用的最大非重叠池化,即对640px×480px的特征图进行分块,每个块的大小为2×2,步长为2,并统计每个块的最大值,作为池化后图像的像素值。根据和 可知,池化后的特征图尺寸为320px×240px,则经过该下采样层E1之后,获得128张320px×240px的特征图。
将下采样层E1的输出输入到处理块D3后,经过后续处理单元的相关处理,得到处理块D8的输出为128张80px×60px的特征图。需要说明的是,处理块D3~D8对图像的相关处理可参照如上处理块D2的处理过程,下采样层E2~E3对图像的相关处理可参照如上下采样层E1的处理过程,只是在参数的设置上,如卷积核的数量及尺寸、池化分块尺寸、步长、是否边界补零等可能存在不同,此处不再赘述。
将处理块D8的所输出的128张80px×60px的特征图输入到上采样层F1,经过上采样层F1的处理,将输入特征图的尺寸放大一倍,从而输出了128张160px×120px的特征图。将上采样层F1的输出输入到处理块D9后,经过后续处理单元的相关处理,得到处理块D14的输出为128张640px×480px的特征图。值得注意的是,处理块D9~D14对图像的相关处理可参照如上处理块D2的处理过程,上采样层F2~F3对图像的相关处理可参照如上上采样层F1的处理过程,只是在参数的设置上,如卷积核的数量及尺寸、池化分块尺寸、步长、是否边界补零等可能存在不同,此处不再赘述。为了训练分割处理网络,通常会将处理块D14输出的128张640px×480px的特征图进行二次处理,如将这128张特征图叠加后求平均值,以获取1张单通道的640px×480px大小的图像,以便能够将输入的第一双目视图X1对应的人像掩膜图X2作为处理块D14之后经过二次处理所得到的输出,按极小化误差的方法反向传播以调整分割处理网络中的各参数。经过第一图像数据集合中大量的第一图像组进行训练后,获得训练好的分割处理网络。
根据本发明的一个实施例,第二图像数据集合包括多个第二图像组,每个第二图像组包括第二双目视图和对应的视差图,具体可通过如下方式对视差计算网络进行训练。在该实施方式中,对每一个提取出的第二图像组,以该第二图像组所包括的第二双目视图为视差计算网络中第一个第一卷积层的输入,以该第二图像组所包括的视差图为视差计算网络中最后一个第一激活层的输出,对视差计算网络进行训练。其中,第二双目视图为双目摄像头拍摄到的左视图与右视图形成的图像,左视图和右视图均为RGB三通道图像,所形成的第二双目视图即为六通道图像,包括左视图和右视图分别在RGB三个通道中的特征图。视差图为根据第二双目视图进行视差计算得出的单通道图像,其尺寸为第二双目视图的一半。
下面将以第二图像数据集合中的一个第二图像组Y为例,对视差计算网络的训练过程进行说明。第二图像组Y包括第二双目视图Y1和其对应的视差图Y2,第二双目视图Y1的尺寸为640px×480px,视差图Y1的尺寸为320px×240px。图6A示出了根据本发明的一个实施例的用于训练视差计算网络的第二双目视图中的左视图,图6B示出了根据本发明的一个实施例的用于训练视差计算网络的第二双目视图中的右视图,图6C示出了根据本发明的一个实施例的用于训练视差计算网络的视差图。第二双目视图Y1即由图6A中的左视图和图6B中的右视图形成,视差图Y2即为图6C中的视差图。在训练时,是以第二双目视图Y1为第一卷积层G1的输入、视差图Y2为第一激活层J1的输出进行视差计算网络的训练。
参考表3中对视差计算网络中各处理单元的参数设置,当输入图像为第二双目视图Y1时,各处理单元的输出和输入特征图的尺寸如表4所示,具体如下:
表4
视差计算网络中各处理单元进行图像处理的具体过程,如卷积、转置卷积、激活、计算损失等,为现有成熟技术,此处不与赘述。在训练视差计算网络时,以输入的第二双目视图Y1对应的视差图Y2为预知结果,对第一激活层J1的输出进行调整,按极小化误差的方法反向传播以调整视差计算网络中的各参数。经过第二图像数据集合中大量的第二图像组进行训练后,获得训练好的视差计算网络。
完成分割处理网络和视差计算网络的训练后,执行步骤S240,将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络。根据本发明的一个实施例,通过如下方式生成图像分割网络。首先,对训练好的分割处理网络中的每一个下采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该下采样层输出的特征图尺寸相等的第一卷积层,将该第一卷积层与该下采样层的输出进行合并,将合并结果作为与该下采样层相连的下一个处理块的输入。然后,对训练好的分割处理网络中的每一个上采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该上采样层输出的特征图尺寸相等的转置卷积层,将该转置卷积层与该上采样层的输出进行合并,将合并结果作为与该上采样层相连的下一个处理块的输入,以生成图像分割网络。
在该实施方式中,当输入图像的尺寸为640px×480px时,对训练好的分割处理网络中的下采样层E1、E2和E3而言,所输出的特征图尺寸依次为320px×240px、160px×120px和80px×60px。参照表4,可知在训练好的视差计算网络中,输出的特征图尺寸与下采样层E1输出的特征图尺寸相等的第一卷积层为第一卷积层G1,将第一卷积层G1与下采样层E1的输出进行合并,得到64+128=192张320px×240px的特征图,将合并结果作为处理块D3的输入,输出的特征图尺寸与下采样层E2输出的特征图尺寸相等的第一卷积层为第一卷积层G2,将第一卷积层G2与下采样层E2的输出进行合并,得到128+128=256张160px×120px的特征图,将合并结果作为处理块D5的输入,输出的特征图尺寸与下采样层E3输出的特征图尺寸相等的第一卷积层包括第一卷积层G3a和G3b,此时可选用第一卷积层G3a、第一卷积层G3b和第一卷积层G3a+G3b中任一个的输出与下采样层E3的输出进行合并,这里将第一卷积层G3a与下采样层E3的输出进行合并,得到256+128=384张80px×60px的特征图,将合并结果作为处理块D7的输入。
进一步的,对训练好的分割处理网络中的上采样层F1、F2和F3而言,所输出的特征图尺寸依次为160px×120px和320px×240px和640px×480px。参照表4,可知在训练好的视差计算网络中,输出的特征图尺寸与上采样层F1输出的特征图尺寸相等的转置卷积层为转置卷积层H2,将转置卷积层H2与上采样层F1的输出进行合并,得到64+128=192张160px×120px的特征图,将合并结果作为处理块D9的输入,输出的特征图尺寸与上采样层F2输出的特征图尺寸相等的转置卷积层为转置卷积层H1,将转置卷积层H1与上采样层F2的输出进行合并,得到32+128=160张320px×240px的特征图,将合并结果作为处理块D11的输入,输出的特征图尺寸与上采样层F3输出的特征图尺寸相等的转置卷积层不存在,则处理块D13的输入来源依旧只有上采样层F3,从而生成了图像分割网络。
最后,在步骤S250中,根据第一图像数据集合对图像分割网络进行训练,以便图像分割网络的输出指示输入图像所对应的人像掩膜图像。根据本发明的一个实施例,可通过如下方式对图像分割网络进行训练。具体的,对每一个提取出的第一图像组,以该第一图像组所包括的第一双目视图分别为图像分割网络中第一个处理块和第一个第一卷积层的输入,以该第一图像组所包括的人像掩膜图为图像分割网络中最后一个处理块的输出,对图像分割网络进行训练。在该实施方式中,以第一图像组X为例,将第一图像组X中的第一双目视图X1分别为图像分割网络中处理块D1和第一卷积层G1的输入,以第一图像组中的人像掩模图X2图像分割网络中处理块D14的输出,对图像分割网络进行训练。需要说明的是,图像分割网络的训练过程可参照如上分割处理网络和视差计算网络的训练过程,此处不再赘述。
图7示出了根据本发明一个实施例的移动终端700的结构框图。移动终端700可以包括存储器接口702、一个或多个数据处理器、图像处理器和/或中央处理单元704,以及外围接口706。
存储器接口702、一个或多个处理器704和/或外围接口706既可以是分立元件,也可以集成在一个或多个集成电路中。在移动终端700中,各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口706,以便帮助实现多种功能。
例如,运动传感器710、光线传感器712和距离传感器714可以耦合到外围接口706,以方便定向、照明和测距等功能。其他传感器716同样可以与外围接口706相连,例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备,由此可以帮助实施相关的功能。
相机子系统720和光学传感器722可以用于方便诸如记录照片和视频剪辑的相机功能的实现,其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。可以通过一个或多个无线通信子系统724来帮助实现通信功能,其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统724的特定设计和实施方式可以取决于移动终端700所支持的一个或多个通信网络。例如,移动终端700可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及BluetoothTM网络的通信子系统724。
音频子系统726可以与扬声器728以及麦克风730相耦合,以便帮助实施启用语音的功能,例如语音识别、语音复制、数字记录和电话功能。I/O子系统740可以包括触摸屏控制器742和/或一个或多个其他输入控制器744。触摸屏控制器742可以耦合到触摸屏746。举例来说,该触摸屏746和触摸屏控制器742可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停,其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。一个或多个其他输入控制器744可以耦合到其他输入/控制设备748,例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器728和/或麦克风730音量的向上/向下按钮。
存储器接口702可以与存储器750相耦合。该存储器750可以包括高速随机存取存储器和/或非易失性存储器,例如一个或多个磁盘存储设备,一个或多个光学存储设备,和/或闪存存储器(例如NAND,NOR)。存储器750可以存储操作系统772,例如Android、iOS或是Windows Phone之类的操作系统。该操作系统772可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器750还可以存储一个或多个程序774。在移动设备运行时,会从存储器750中加载操作系统772,并且由处理器704执行。程序774在运行时,也会从存储器750中加载,并由处理器704执行。程序774运行在操作系统之上,利用操作系统以及底层硬件提供的接口实现各种用户期望的功能,如即时通信、网页浏览、图片管理等。程序774可以是独立于操作系统提供的,也可以是操作系统自带的。另外,程序774被安装到移动终端700中时,也可以向操作系统添加驱动模块。程序774可以布置为在操作系统上由一个或多个处理器704执行相关的指令。在一些实施例中,移动终端700被配置为执行根据本发明的图像分割方法800。其中,移动终端700的一个或多个程序774包括用于执行根据本发明的图像分割方法800的指令。
图8示出了根据本发明一个实施例的图像分割方法800的流程图。图像分割方法800适于在移动终端(例如图7所示的移动终端700)中执行,基于用于对双目图像中的人像进行分割处理的图像分割网络生成方法中、训练好的图像分割网络进行分割处理。
如图8所示,方法800始于步骤S810。在步骤S810中,对待处理双目图像进行缩放处理以获取满足预设尺寸的待分割双目图像。根据本发明的一个实施例,待处理双目图像为Z1,预设尺寸为640px×480px,对待处理双目图像Z1进行缩放处理得到640px×480px大小的待分割双目图像Z2。关于此处对待处理双目图像为Z1进行缩放处理的过程,一般是通过图像放大、裁切等常规图像处理技术,以获取到可相适应作为图像分割网络输入的待分割双目图像Z2,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
随后,进入步骤S820,将待分割双目图像输入到训练好的图像分割网络中进行人像分割。根据本发明的一个实施例,将待分割双目图像Z2输入到训练好的图像分割网络中进行人像分割。
接下来,在步骤S830中,获取训练好的图像分割网络中最后一个处理块的输出。根据本发明的一个实施例,训练好的图像分割网络中处理块D14的输出为128张640px×480px的特征图。
最后,执行步骤S840,根据该输出确定待处理双目图像对应的人像掩膜图像。根据本发明的一个实施例,对处理块D14输出的这128张特征图进行二次处理,如将这128张特征图叠加后求平均值,以获取1张单通道的640px×480px大小的图像,该图像即为待处理双目图像Z1对应的人像掩膜图像。
在实际应用中,通常是将基于上述训练好的图像分割网络的分割模型封装在涉及有相关图像处理的应用中。在下载安装这类移动应用时,直接将分割模型部署在移动终端700,所占存储空间较小,内存资源占用率低,且具备较高的分割精度和准确率,响应速度较快,能够给用户提供更好的体验。
目前的分割算法并不适用于对具有双目摄像头的手机所拍摄出的双目图像进行分割处理,需要调节太多的参数,且网络计算量很大,无法在手机端实现实时计算。根据本发明实施例的用于对双目图像中的人像进行分割处理的图像分割网络生成的技术方案,首先构建分割处理网络和视差计算网络,再根据第一图像数据集合训练分割处理网络,以及根据第二图像数据集合训练视差计算网络,将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络,最后根据第一图像数据集合对图像分割网络进行训练,以便图像分割网络的输出指示输入图像所对应的人像掩膜图像。在上述技术方案中,分割处理网络包括多个处理块、下采样层和上采样层,处理块是基于图像都在低维度的流形上的假设,将中间层的卷积层数大大降低,可以在几乎不损失网络精度的基础之上,很大程度上提高网络的运算速度,而各上采样层和各下采样层之间一一对应,使得整个网络能够学习到全局的有效信息。视差计算网络包括多个第一卷积层、转置卷积层和第二卷积层,可见该网络结构在不断缩小图像特征图的基础之上不断增加图像的特征图个数,并分别在不同的尺度上和有效的正确分类数据上进行损失计算,有助于由粗到精的训练。当分割处理网络和视差计算网络训练完成后,向训练好的分割处理网络融合视差计算网络的信息,使得形成的图像分割网络既能够学习到人物的语义信息,又能够顾及到像素级别的特征微小的不同特征。在图像分割网络训练完成后,其即可作为图像分割模型移植到移动终端来应用。进而,根据本发明实施例的图像分割方案,将待分割双目图像输入到已训练好的图像分割网络中,根据图像分割网络中最后一个处理块的输出确定相应的人像掩膜图像,不仅降低了被误分割的概率,结果精度有了较大提升,且具有参数较少,无需大量的计算服务,鲁棒性较高,极大程度上提高了用户体验。
A6.如A1-5中任一项所述的方法,所述第二图像数据集合包括多个第二图像组,每个第二图像组包括第二双目视图和对应的视差图,所述根据预先生成的第二图像数据集合对所述视差计算网络进行训练的步骤包括:对每一个提取出的第二图像组,以该第二图像组所包括的第二双目视图为所述视差计算网络中第一个第一卷积层的输入,以该第二图像组所包括的视差图为所述视差计算网络中最后一个第一激活层的输出,对所述视差计算网络进行训练。
A7.如A1-6中任一项所述的方法,所述将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络的步骤包括:对训练好的分割处理网络中的每一个下采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该下采样层输出的特征图尺寸相等的第一卷积层,将该第一卷积层与该下采样层的输出进行合并,将合并结果作为与该下采样层相连的下一个处理块的输入;对训练好的分割处理网络中的每一个上采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该上采样层输出的特征图尺寸相等的转置卷积层,将该转置卷积层与该上采样层的输出进行合并,将合并结果作为与该上采样层相连的下一个处理块的输入,以生成图像分割网络。
A8.如A1-7中任一项所述的方法,所述第一图像数据集合包括多个第一图像组,每个第一图像组包括第一双目视图和对应的人像掩膜图,所述根据所述第一图像数据集合对所述图像分割网络进行训练的步骤包括:对每一个提取出的第一图像组,以该第一图像组所包括的第一双目视图分别为所述图像分割网络中第一个处理块和第一个第一卷积层的输入,以该第一图像组所包括的人像掩膜图为所述图像分割网络中最后一个处理块的输出,对所述图像分割网络进行训练。
A9.如A1-8中任一项所述的方法,其中,所述处理块的数量为14,所述下采样层和上采样层的数量均为3。
A10.如A3-9中任一项所述的方法,其中,所述卷积层的数量为3,所述激活层的数量为4,所述图像叠加层的数量为1。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的用于对双目图像中的人像进行分割处理的图像分割网络生成方法和/或图像分割方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (15)
1.一种用于对双目图像中的人像进行分割处理的图像分割网络生成方法,适于在计算设备中执行,所述方法包括步骤:
构建分割处理网络,所述分割处理网络包括多个处理块、下采样层和上采样层;
构建视差计算网络,所述视差计算网络包括多个第一卷积层、转置卷积层和第二卷积层;
根据预先生成的第一图像数据集合对所述分割处理网络进行训练,根据预先生成的第二图像数据集合对所述视差计算网络进行训练,其中,所述第一图像数据集合包括多个第一图像组,每个第一图像组包括第一双目视图和对应的人像掩膜图,所述第二图像数据集合包括多个第二图像组,每个第二图像组包括第二双目视图和对应的视差图;
将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络;
根据所述第一图像数据集合对所述图像分割网络进行训练,以便所述图像分割网络的输出指示输入图像所对应的人像掩膜图像,其中,训练后的所述图像分割网络可作为图像分割模型移植到移动终端。
2.如权利要求1所述的方法,所述构建分割处理网络的步骤包括:
构建处理块,所述处理块包括卷积层;
分别构建上采样层和下采样层;
按照预设的第一连接规则,将各处理块、下采样层和上采样层进行相连,以生成以一个处理块为输入、以另一个处理块为输出的分割处理网络。
3.如权利要求2所述的方法,所述构建处理块的步骤还包括:
分别构建激活层和图像叠加层;
按照预设的处理块构建规则,将一个或多个卷积层、激活层和图像叠加层进行相连,以生成以一个激活层为输入、以另一个激活层为输出的处理块。
4.如权利要求1-3中任一项所述的方法,所述视差计算网络还包括第一激活层和损失计算层,所述构建视差计算网络的步骤包括:
分别构建第一卷积层、转置卷积层和第二卷积层;
分别构建第一激活层和损失计算层;
按照预设的第二连接规则,将各第一卷积层、转置卷积层、第二卷积层、第一激活层和损失计算层进行相连,以生成以第一卷积层为输入、以第一激活层为输出的视差计算网络。
5.如权利要求1所述的方法,所述根据预先生成的第一图像数据集合对所述分割处理网络进行训练的步骤包括:
对每一个提取出的第一图像组,以该第一图像组所包括的第一双目视图为所述分割处理网络中第一个处理块的输入,以该第一图像组所包括的人像掩膜图为所述分割处理网络中最后一个处理块的输出,对所述分割处理网络进行训练。
6.如权利要求1所述的方法,所述根据预先生成的第二图像数据集合对所述视差计算网络进行训练的步骤包括:
对每一个提取出的第二图像组,以该第二图像组所包括的第二双目视图为所述视差计算网络中第一个第一卷积层的输入,以该第二图像组所包括的视差图为所述视差计算网络中最后一个第一激活层的输出,对所述视差计算网络进行训练。
7.如权利要求1所述的方法,所述将训练好的分割处理网络和视差计算网络进行融合,以生成图像分割网络的步骤包括:
对训练好的分割处理网络中的每一个下采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该下采样层输出的特征图尺寸相等的第一卷积层,将该第一卷积层与该下采样层的输出进行合并,将合并结果作为与该下采样层相连的下一个处理块的输入;
对训练好的分割处理网络中的每一个上采样层,获取训练好的视差计算网络中、输出的特征图尺寸与该上采样层输出的特征图尺寸相等的转置卷积层,将该转置卷积层与该上采样层的输出进行合并,将合并结果作为与该上采样层相连的下一个处理块的输入,以生成图像分割网络。
8.如权利要求1所述的方法,所述第一图像数据集合包括多个第一图像组,每个第一图像组包括第一双目视图和对应的人像掩膜图,所述根据所述第一图像数据集合对所述图像分割网络进行训练的步骤包括:
对每一个提取出的第一图像组,以该第一图像组所包括的第一双目视图分别为所述图像分割网络中第一个处理块和第一个第一卷积层的输入,以该第一图像组所包括的人像掩膜图为所述图像分割网络中最后一个处理块的输出,对所述图像分割网络进行训练。
9.如权利要求1所述的方法,其中,所述处理块的数量为14,所述下采样层和上采样层的数量均为3。
10.如权利要求3所述的方法,其中,所述卷积层的数量为3,所述激活层的数量为4,所述图像叠加层的数量为1。
11.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-10所述的方法中的任一方法的指令。
12.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-10所述的方法中的任一方法。
13.一种图像分割方法,适于在移动终端中执行,所述方法基于权利要求1-10中任一项所述的训练好的图像分割网络对图像中的人像进行分割处理,包括步骤:
对待处理双目图像进行缩放处理以获取满足预设尺寸的待分割双目图像;
将所述待分割双目图像输入到训练好的图像分割网络中进行人像分割;
获取所述训练好的图像分割网络中最后一个处理块的输出;
根据该输出确定所述待处理双目图像对应的人像掩膜图像。
14.一种移动终端,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求13所述的方法的指令。
15.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由移动终端执行时,使得所述移动终端执行根据权利要求13所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810691302.6A CN109118490B (zh) | 2018-06-28 | 2018-06-28 | 一种图像分割网络生成方法及图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810691302.6A CN109118490B (zh) | 2018-06-28 | 2018-06-28 | 一种图像分割网络生成方法及图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109118490A CN109118490A (zh) | 2019-01-01 |
CN109118490B true CN109118490B (zh) | 2021-02-26 |
Family
ID=64822880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810691302.6A Active CN109118490B (zh) | 2018-06-28 | 2018-06-28 | 一种图像分割网络生成方法及图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109118490B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109889849B (zh) * | 2019-01-30 | 2022-02-25 | 北京市商汤科技开发有限公司 | 视频生成方法、装置、介质及设备 |
CN111881927B (zh) | 2019-05-02 | 2021-12-21 | 三星电子株式会社 | 电子装置及其图像处理方法 |
CN110309855B (zh) * | 2019-05-30 | 2021-11-23 | 上海联影智能医疗科技有限公司 | 图像分割的训练方法、计算机设备及存储介质 |
CN110298851B (zh) * | 2019-07-04 | 2022-04-22 | 北京字节跳动网络技术有限公司 | 人体分割神经网络的训练方法及设备 |
CN112790782B (zh) * | 2021-02-02 | 2022-06-24 | 广州柏视医疗科技有限公司 | 基于深度学习的盆腔肿瘤ctv的自动勾画系统 |
CN114519710B (zh) * | 2022-02-22 | 2024-07-12 | 平安科技(深圳)有限公司 | 视差图生成方法和装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778598A (zh) * | 2012-10-17 | 2014-05-07 | 株式会社理光 | 视差图改善方法和装置 |
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
CN107622244A (zh) * | 2017-09-25 | 2018-01-23 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
CN107808389A (zh) * | 2017-10-24 | 2018-03-16 | 上海交通大学 | 基于深度学习的无监督视频分割方法 |
CN107909016A (zh) * | 2017-11-03 | 2018-04-13 | 车智互联(北京)科技有限公司 | 一种卷积神经网络生成方法及车系识别方法 |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN107992848A (zh) * | 2017-12-19 | 2018-05-04 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
-
2018
- 2018-06-28 CN CN201810691302.6A patent/CN109118490B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778598A (zh) * | 2012-10-17 | 2014-05-07 | 株式会社理光 | 视差图改善方法和装置 |
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
CN107622244A (zh) * | 2017-09-25 | 2018-01-23 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
CN107808389A (zh) * | 2017-10-24 | 2018-03-16 | 上海交通大学 | 基于深度学习的无监督视频分割方法 |
CN107909016A (zh) * | 2017-11-03 | 2018-04-13 | 车智互联(北京)科技有限公司 | 一种卷积神经网络生成方法及车系识别方法 |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
CN107992848A (zh) * | 2017-12-19 | 2018-05-04 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
Non-Patent Citations (5)
Title |
---|
《FuseNet:Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture》;Caner Hazirbas,etal;《ACCV 2016: 13th Asian Conference on Computer Vision》;20161231;全文 * |
《High-Quality Correspondence and Segmentation Estimation for Dual-Lens Smart-Phone Portraits》;Xiaoyong Shen,etal;《2017 IEEE International Conference on Computer Vision》;20171231;全文 * |
《Progressively Diffused Networks for Semantic Image Segmentation》;Ruimao Zhang,etal;《arxiv:1702.05839v1》;20170220;全文 * |
《SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》;Vijay Badrinarayanan,etal;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20171231;第39卷(第12期);全文 * |
《基于卷积神经网络的交通场景语义分割方法研究》;李琳辉等;《通信学报》;20180430;第39卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109118490A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109118490B (zh) | 一种图像分割网络生成方法及图像分割方法 | |
CN109360154B (zh) | 一种卷积神经网络生成方法及图像的超分辨率方法 | |
CN109816011B (zh) | 视频关键帧提取方法 | |
CN108010031B (zh) | 一种人像分割方法及移动终端 | |
CN108062526B (zh) | 一种人体姿态估计方法及移动终端 | |
CN107909016B (zh) | 一种卷积神经网络生成方法及车系识别方法 | |
CN106780512B (zh) | 分割图像的方法、应用及计算设备 | |
WO2020228522A1 (zh) | 目标跟踪方法、装置、存储介质及电子设备 | |
WO2020051114A1 (en) | Information detection method, apparatus and device | |
CN111126394A (zh) | 文字识别方法、阅读辅助设备、电路和介质 | |
CN112308866B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112215745B (zh) | 图像处理方法、装置及电子设备 | |
CN110443357B (zh) | 卷积神经网络计算优化方法、装置、计算机设备及介质 | |
CN111091572B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
WO2020000665A1 (zh) | 图像处理方法、装置、设备及可读存储介质 | |
WO2020207134A1 (zh) | 图像处理方法、装置、设备以及计算机可读介质 | |
CN108830787A (zh) | 图像变形的方法、装置及电子设备 | |
CN107909537B (zh) | 一种基于卷积神经网络的图像处理方法及移动终端 | |
WO2021057309A1 (zh) | 跟踪目标确定方法及相关设备 | |
JP6671673B1 (ja) | レイアウト解析方法、読書補助装置、回路及び媒体 | |
CN110084309A (zh) | 特征图放大方法、装置和设备及计算机可读存储介质 | |
US11734829B2 (en) | Method and device for processing image, and storage medium | |
CN112750139A (zh) | 图像处理方法及装置、计算设备、存储介质 | |
CN112560867B (zh) | 文本图像的矫正方法及装置、设备和介质 | |
CN115631112A (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |