CN106157307B - 一种基于多尺度cnn和连续crf的单目图像深度估计方法 - Google Patents
一种基于多尺度cnn和连续crf的单目图像深度估计方法 Download PDFInfo
- Publication number
- CN106157307B CN106157307B CN201610510552.6A CN201610510552A CN106157307B CN 106157307 B CN106157307 B CN 106157307B CN 201610510552 A CN201610510552 A CN 201610510552A CN 106157307 B CN106157307 B CN 106157307B
- Authority
- CN
- China
- Prior art keywords
- depth
- convolutional layer
- output
- input
- dcnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 8
- 238000013519 translation Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000005381 potential energy Methods 0.000 abstract description 11
- 238000005457 optimization Methods 0.000 abstract description 8
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000009795 derivation Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000003475 lamination Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 231100000027 toxicology Toxicity 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/0075—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for altering, e.g. increasing, the depth of field or depth of focus
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B13/00—Viewfinders; Focusing aids for cameras; Means for focusing for cameras; Autofocus systems for cameras
- G03B13/18—Focusing aids
- G03B13/30—Focusing aids indicating depth of field
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B3/00—Focusing arrangements of general interest for cameras, projectors or printers
- G03B3/02—Focusing arrangements of general interest for cameras, projectors or printers moving lens along baseboard
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/579—Depth or shape recovery from multiple images from motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Signal Processing (AREA)
- Optics & Photonics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多尺度CNN和连续CRF的单目图像深度估计方法,其利用CRF模型根据DCNN的输出深度图计算单点势能,根据输入RGB图像计算成对稀疏势能,最后用MAP(最大化后验概率)算法推导出优化的深度图。本发明结合了多尺度CNN和连续CRF优化思想,不仅能够以较高的精确度估计出深度图,又能使得到的深度图轮廓清晰;本发明所估计的深度有比较高的分辨率,而且所得到的深度图能保留场景中所有对象的深度细节信息,具有更好的视觉效果。
Description
技术领域
本发明属于三维图像深度估计技术领域,具体涉及一种基于多尺度CNN和连续CRF的单目图像深度估计方法。
背景技术
视频编辑过程中通常需要创建场景的三维模型来保证编辑的时空一致性,而从二维视频创建场景的三维模型则需要有该场景的深度信息。3D电影和3D电视能给观众带来身临其景的真实感,传统的3D视频通常通过多台摄像机从不同角度同步拍摄视频并制作得到,然而这种3D视频的同步处理和制作成本高昂、费时费力。最近几年来,许多研究人员寻求通过已有的3D模型库、深度估计技术从单视频序列来制作生成3D视频的方法,并取得了一定的成果。将2D视频转成3D视频过程中很重要的一步是从2D视频序列中估计出深度图,得到深度信息之后既可以生成3D模型并投影得到另一视角的视频序列,也可以根据双目视差原理直接计算得到另一视角的视图。
目前深度信息的获取可通过硬件和软件两种途径。硬件获取深度信息的设备有激光测距仪和微软推出的3D体感摄像仪Kinect等,但激光测距仪价格昂贵,不利于推广;Kinect虽然价格亲民,但最大检测距离不超过5米,且感知精度受光线和背景物体影响较大,对透明、镜面反光等物体无法正确测距。软件方法常见的主要有多视图立体法(multi-view stereo)、光度立体视觉法(photometric stereo)、色度成形法(shape fromshading)、散焦推断法(depth from defocus)以及基于机器学习的方法等。根据多视图几何原理,对于一个静止的场景,如果我们从不同位置拍摄了多幅图像,而且不同图像之间有公共内容,那么理论上就能从这些图像自动地恢复出摄像机的内外参数以及场景的三维信息。如果仅考虑两幅图像之间的立体匹配,就转化成了双视图立体匹配。
光度立体技术是一种基于光照模型的三维重建算法,最早由加拿大不列颠哥伦比亚大学的Woodham提出,利用物体在不同光照条件下的图像序列估计出物体的表面法向图,并利用线积分等技术获得最终的表面模型。光度立体计算法还被用于优化其他方法获得的初始3D模型以获得更为精确的几何结构。如果光度立体计算法的图像序列的数目减少至单张,此技术则演变为色度成形法。相机在拍摄时会聚焦到某个物体上,在焦平面外的物体会或多或少显得模糊,其模糊的程度与其深度有关,根据其模糊程度来估计深度的方法称为散焦推断深度法。基于散焦法有许多改进的方法,如双焦平面法和编码光圈法等。人类之所以能准确感知到所见场景的深度信息,除了依赖于视觉系统的双目视差进行感知外,还很大程度上依赖于在平时生活中积累的对所见物体的先验知识。机器学习的方法则是模仿了人类的这一学习过程,也是对单目图像进行深度估计用得最多的方法。美国斯坦福大学的Saxena等人提出采用基于监督学习的算法来获取场景的三维结构。Liu等改进了Saxena等人的方法,先对给定图像进行语义分割,并用这些语义分割的结果作为约束,再用MRF(马尔可夫随机场)来推断出深度信息,改进的方法比之前的方法有显著的性能提升。
近年来,深度学习框架被广泛应用在自动语音识别、图像识别、自然语言处理、药物发现与毒理学、客户关系管理、生物信息学等诸多领域。作为一种高性能的机器学习框架,深度学习方法也被应用到了单目图像自动深度估计中。Eigen等首先用多尺度卷积神经网络(CNN)实现了一种端到端的单目图像深度估计,然而因为输出的结果尺寸受限,预测得到深度图比输入的原图像要小很多,长和宽都只有原图的1/16;后来,Eigen和Fergus对网络结构进行了改进,先对原来实现的CNN的输出进行上采样,再与原输入图像的卷积的结果连接后,进一步用多个卷积层处理,使得神经网络更深,而最后的输出深度图的分辨率更高。Fayao Liu等也使用了深度卷积神经网络来从单目图像预测深度信息,然而他们设计的CNN只用来预测单个深度值,该深度值代表了图像中一个超像素的深度值。他们的框架中还集成了基于超像素的连续条件随机场(CRF)来进一步优化预测的深度,使其输出结果更可靠。基于超像素的方法可以获得跟原始输入图像一样大小的深度图,有更清晰的轮廓,然而因其CNN的推导是基于局部信息的,各项评估数据表明其准确程度逊于Eigen和Fergus的方法。
发明内容
由于深度卷积神经网络(DCNN)的不变性对其完成高级任务非常有利,但其输出因为不够局部化而导致预测结果丢失细节;为了克服DCNN这一缺点,本发明提供了一种基于多尺度CNN和连续CRF的单目图像深度估计方法,包括如下步骤:
(1)获取足够数量的样本图像,并对样本图像依次进行数据增强操作以及归一化处理;
(2)根据步骤(1)中归一化后的样本图像分两个阶段训练DCNN,DCNN共包括三个栈,前两个栈通过第一阶段训练完成,第三个栈通过第二阶段训练完成;
(3)对于待估计深度的输入图像I,根据DCNN的输出建立关于输入图像I及其深度图Y的条件概率分布函数P(Y|I):
其中:Z(I)为输入图像I对应的配分函数,E(Y,I)为关于输入图像I及其深度图Y的能量函数,zi为第i个有效像素预测的对数深度值,yi和yj分别为第i个有效像素和第j个有效像素实际的对数深度值,pi和pj分别为第i个有效像素和第j个有效像素的坐标值,ci和cj分别为第i个有效像素和第j个有效像素的LAB颜色值,wij1、wij2、σij1、σij2和σij3均为CRF模型参数,i和j均为自然数且1≤i≤N,1≤j≤N,N为有效像素的总数;
然后对函数P(Y|I)进行最大化求解,进而将求解得到的深度图从对数空间转换回线性空间即可获得具有较高精确度且保留了物体轮廓细节信息的深度图。
所述的数据增强操作包括尺寸缩放、旋转、平移、亮度缩放以及镜像,所述的归一化处理即减去样本图像的均值并除以均方差。
所述DCNN的第一个栈为Imagenet预训练网络,即采用Alexnet模型的前7层或VGG16模型的前15层;第二个栈由5个卷积层组成,前4个卷积层均尾随池化操作,最后1个卷积层为线性输出,其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像,第2个卷积层的输入则是第一个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征,之后每一个卷积层的输入均为前一个卷积层的输出;第三个栈由4个卷积层组成,前3个卷积层均尾随池化操作,最后1个卷积层为线性输出,其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像,第2个卷积层的输入则是第二个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征,之后每一个卷积层的输入均为前一个卷积层的输出。
所述第一阶段训练中所使用的损失函数L如下:
其中:xi和分别是第i个有效像素的预测深度值和实际深度值,和分别表示di的水平梯度和垂直梯度。
所述的步骤(3)中通过以下算式对函数P(Y|I)进行最大化求解:
其中:Z为DCNN第三个栈的输出经双线性插值上采样和边界补全后的深度图,D为对角元素dii=∑jsij的对角矩阵,S为相似度矩阵且其中第i行第j列元素值E为N×N的单位矩阵。
所述的CRF模型参数wij1、wij2、σij1、σij2和σij3可通过以下两种优化方法取得:第一种方法是将CRF集成到DCNN中统一用SGD(随机梯度下降)法寻优,此时CRF的输出与真实对数深度图进行比较计算损失;第二种方法是CRF模型独立调优,在一定的范围内用交叉验证集数据,步长从大到小循环寻优,此时DCNN的参数是固定不变的。
本发明结合了多尺度CNN和连续CRF优化思想,不仅能够以较高的精确度估计出深度图,又能使得到的深度图轮廓清晰;本发明所估计的深度有比较高的分辨率,而且所得到的深度图能保留场景中所有对象的深度细节信息,具有更好的视觉效果。
附图说明
图1为本发明深度估计方法的流程示意图。
图2为超像素及其邻域像素的示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本发明基于CNN和CRF的单目图像深度估计方法,包括如下步骤:
(1)准备训练数据。
准备足够数量的训练样本(训练集数据可自己采集创建或从互连网下载一些已公开的深度数据集,如NYU Depth v2、KITTI等),并对训练样本进行缩放、旋转、平移、亮度缩放和镜像等数据增强操作,以使训练得到的CNN有较强的泛化能力;进行缩放增强时,目标深度数据要作相应的调整,如原图放大s倍,则目标深度缩小到原来的1/s;训练集的输入图像调整到一定大小,并进行归一化处理,即减去训练图像的均值并除以均方差;实际的深度图也要调整到较小的尺度(训练第1阶段的目标大小为输入长宽的1/4,第2阶段目标大小为输入长宽的1/2),并转化到自然对数空间。
(2)训练DCNN。
因为网络较深,参数数量较大,为了避免出现梯度消失和过拟合现象,DCNN的训练分成两个阶段进行。第1阶段所训练的网络包括两个栈,第1个栈是Imagenet预训练网络(Alexnet的前7层或VGG16的前15层),其结构和参数直接从Alexnet或VGG16迁移过来,在训练过程中只作微调;第2个栈由5个卷积层组成,前4个卷积层都尾随一个池化层,最后1个是线性输出:第1个卷积层的输入是归一化后的RGB输入原图,第2个卷积层的输入则是第1个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征,后面每一个卷积层的输入都是前一个卷积层的输出;该阶段训练所使用的损失函数为:
第2阶段训练时,第1阶段训练所得的网络参数固定不再变化,仅调整第3个栈的参数,第3个栈包括4个卷积层,前3个卷积层都尾随池化操作,最后一个卷积层是线性输出,第1个卷积层的输入是归一化后的RGB输入原图,第2个卷积层的输入则是上一个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征,后面每一个卷积层的输入都是前一个卷积层的输出。
本发明通过微调Imagenet预训练DCNN(Alexnet和VGG16均可),将Imagenet预训练的Alexnet或VGG16的卷积层和前两个全连接层作为稠密特征提取器,再附加更多的卷积层使网络更深性能更强,最后形成多尺度DCNN来预测给定图像的稠密深度图,这个多尺度DCNN的结构如图1所示。
图1中的Imagenet预训练网络可以是Imagenet预训练的Alexnet的前7层,也可以是VGG16的前15层,当输入图像大小与Imagenet的输入训练图像大小不一致时,则只保留Alexnet的前5层或VGG16的前13层卷积层参数,随后的两个全连接层要重新训练。
整个网络的训练过程分两个阶段进行,如图1的虚线框所示。阶段1所训练的网络由两个网络栈构成,归一化后的图像首先通过第一个网络栈,即Imagenet预训练网络,经过该网络栈处理的输出尺度会比输入的原图小很多,为了提高输出的深度图的分辨率并保留更多的局部细节信息,首先对第一个训练栈的输出进行长宽均为4倍的上采样,然后将该结果与归一化后的输入图像经过一次卷积和池化的结果(选择卷积核的大小和池化的步长使输出尺度与上一栈的输出大小相同)进行通道上的连接,连接的特征输入给随后的4个卷积层,用较小的步长和补零填充,特征的大小在经过这4个层的过程中保持不变。在这4个卷积层中,前3个卷积层后都有修正线性单元(Rectified linear unit,ReLU)的处理,最后1个卷积层则是线性的,输出的是长宽约为输入图像1/4的预测深度图。
为了在训练过程中根据损失的大小反向传播调整网络参数,本发明把目标深度图缩小至与输出结果一样的尺度,并转化到对数空间,然后根据公式1计算损失。阶段1训练时仅调整图1中上面虚线框内的网络参数,每个层的学习率设置为:ImageNet预训练网络卷积层学习率为0.001,两个全连接层学习率为0.1,第二个栈的第一个和最后一个卷积层学习率为0.001,中间三个卷积层学习率为0.01。
阶段1训练得到的网络输出的深度图尺寸较小,只有输入图像长宽的1/4,而且轮廓模糊,丢失细节,因此本发明用阶段2所训练的网络来进一步细化特征并由输入图像中的高分辨率细节来得到更精致的深度图输出。为了得到尺寸更大的深度图输出,本发明首先将阶段1网络的输出的长宽方向都上采样2倍,并把归一化后的输入图像经过一层卷积和池化层后与该上采样的结果进行连接,再将该特征送入三个卷积层,输出的结果长宽与阶段1输出经上采样后的长宽一致,即为原始输入图像长宽的1/2。
将阶段1训练的那部分网络参数固定,单独训练阶段2的那部分网络,该阶段每个层的学习率设置为:第一个和最后一个卷积层学习率为0.001,中间的卷积层学习率为0.01,CRF层的学习率为0.1。
DCNN虽然能大致可靠地预测出给定图像中场景的粗糙深度图,但无法精确的构画出场景中各个对象的轮廓,因为经过多次池化层的高层特征有更强的不变性和更大的感受野,虽然有利于分类,但对从高层特征推导位置细节的任务却带来了挑战上。上述过程虽然已较充分地利用了多尺度结构来细化局部信息,但最终的预测结果仍然存在轮廓模糊的现象。为了在预测的深度图中恢复出清晰的边缘,本发明将稀疏连接CRF集成到多尺度深度学习CNN框架中。
(3)采用CRF进行优化预测。
假如用I来表示输入图像,Y=(y1,…,yn)∈Rn对应I中所有像素的深度值,对于给定的I,可以用如下密度函数为Y建立条件概率分布模型:
此处E(Y,I)是能量函数,其中配分函数Z定义为:
Z(I)=∫Yexp(-E(Y,I))dY (3)
对输入图像I的深度预测可以通过求解如下最大化后验概率得到:
能量函数E(Y,I)可以定义为单点势能和成对势能的组合,由DCNN中第3个栈的输出经双线性插值上采样和边界补全后的深度图与实际深度值的自然对数的欧氏距离作为能量函数中的单点势能,根据输入图像的像素间位置、颜色等相似性为依据计算能量函数的成对势能;如下:
E(Y,I)=Σiu(yi,I)+Σijθij(yi,yj,I) (5)
其中,u是单点势能项,由CNN的输出通过计算最小方差损失得到:
u(yi,I)=(zi-yi)2 (6)
其中:zi和yi分别为第i个有效像素预测的对数深度和实际的对数深度值。
成对势能项定义为:
如图1所示,输入到CRF模型的除了DCNN初步预测的深度图外,还有像素之间的相似度矩阵(即成对势能),成对势能是稀疏分布的,仅考虑那些相互处于对方邻域中的像素之间的关系。为了确定两个像素是否处于对方邻域中,本发明首先将输入图像用SLIC算法分割成500个超像素,并将处于同一超像素中或处于相邻超像素中的像素称为邻域像素,再在此基础上确定邻域和像素间相似度矩阵。如图2所示,假如图2中1~15个区域代表15个超像素,那么对第8个超像素内的像素来说,第2、3、4、7、8、9、12、13、14个超像素内的所有像素都是它们的邻域像素。
式7中的每个km是依赖于第i个像素的特征fi和第j个像素特征fj的高斯核,并由wm加权。处于同一超像素内的像素之间分享一组高斯核参数,而分处于相邻超像素内的像素之间分享另一组参数。在本发明中像素的特征由位置和颜色来描述,因此带权高斯核定义为:
其中,pi和pj分别为像素i,j的纵横坐标,ci和cj分别为像素i,j的LAB颜色值,参数w和σ的值与像素i,j的相对位置有关,若两个像素处于同一超像素内,则w和σ取相对较大的值;若两个像素分别处于两个不同的超像素内,但这两个超像素相邻,则w和σ取相对小一点的值;若两个像素分别处于两个不相邻的超像素内,则两个权重w均为0。
式8中第1项同时依赖于位置和颜色,意味着如果两个像素之间位置和颜色都很接近,则这一项越大,反之亦然,第2项仅依赖于位置。在计算相似性时,原图像首先从RGB颜色空间转换到Lab颜色空间,依赖于像素间关系的成对势能概括如下:
当像素i和j处于同一超像素内时:
当像素i和j分处于两个相邻超像素内时:
其他情况:
θij(yi,yj,I)=0 (11)
从式9和式10可知,其实两式除了参数不同,形式完全一致,因为考虑到越相近的像素之间联系更大,因此w1、w2、σ1、σ2、σ3的值会比w3、w4、σ4、σ5、σ6的值相对大一些。参数w和σ需要进行优化才能取得理想的结果,优化方法有两种:第一种是将CRF集成到DCNN中统一用SGD法寻优,此时CRF的输出与真实对数深度图进行比较计算损失;第二种是CRF模型独立调优,在一定的范围内用交叉验证集数据,步长从大到小循环寻优,此时DCNN的参数是固定不变的。
对CRF层而言,可以将它集成到DCNN中通过训练获得参数w1,…,w4和σ1,…,σ6的最优值,也可以先训练DCNN网络,此时训练的网络到最后一个卷积层为止,将这个卷积层的输出作为预测的深度,仍使用公式1计算损失进行反向传播调整4个卷积层的网络参数,当然此时的目标深度图的大小是阶段1的目标图的长宽的2倍;而将CRF作为单独的后处理步骤,此时CRF的参数可以通过一个小的验证数据集通过交叉验证求解得到。
本发明采用负的对数似然函数作为模型的损失函数:
为了最小化式12所示的损失函数即最大化后验概率P(Y|I),经过一系列的推导,最终可得:
此处Z为DCNN第三个栈的输出经双线性插值上采样和边界补全后的深度图,A是由下式决定的矩阵:
A=E+D-S (14)
其中:S是由决定的相似度矩阵,D是对角元素dii=∑jsij的对角矩阵,E是N×N的单位矩阵。式13中的就是最终获得的恢复了边缘细节的深度图,当DCNN和CRF的参数寻优完成后,只要将待估计深度的RGB图像输入到DCNN和CRF组成的系统中,将CRF输出的深度图从对数空间转换回线性空间即可得到有较高精确度且保留了物体轮廓等细节信息的深度图。
室外场景和室内场景的网络参数是不一样的,所以训练时应使用室内和室外两套数据集来分别训练两个不同的系统,分别用于室内场景和室外场景的深度估计;以下给出了四种不同的具体实施方式:
实施例1
1.使用NYU Depth v2数据集464个室内场景中的249个场景的原始数据做训练样本,把其中的RGB图像从640×480降采样到320×240,然后用随机平移的方式裁剪出304×228大小的图像作为最终的输入图像。从每个场景中取1200个不同的图像样本,通过平移、旋转、缩放、亮度缩放及镜像等数据增强方式将训练集样本扩充至接近2000000个。
2.进行阶段1的训练,其中第一个网络栈采用ImageNet预训练的Alexnet。
3.固定阶段1训练得到的网络参数,进行阶段2的训练,其中包括了DCNN的后半部分和CRF部分的参数优化。
4.网络输出的结果为自然对数深度,求自然指数将深度数据恢复到线性空间。
5.在用该网络能估计任意室内场景图像的深度,但在使用时,需要将输入图像的大小调整为304×228才能进行深度估计。
实施例2
1.使用NYU Depth v2数据集464个室内场景中的249个场景的原始数据做训练样本,把其中的RGB图像从640×480降采样到320×240,然后用随机平移的方式裁剪出304×228大小的图像作为最终的输入图像。从每个场景中取1200个不同的图像样本,通过平移、旋转、缩放、亮度缩放及镜像等数据增强方式将训练集样本扩充至接近2000000个。
2.进行阶段1的训练,其中第一个网络栈采用ImageNet预训练的VGG16网络结构与参数。
3.固定阶段1训练得到的网络参数,进行阶段2的训练,其中包括了DCNN的后半部分和CRF部分的参数优化。
4.网络输出的结果为自然对数深度,求自然指数将深度数据恢复到线性空间。
5.在用该网络能估计任意室内场景图像的深度,但在使用时,需要将输入图像的大小调整为304×228才能进行深度估计。
实施例3
1.使用NYU Depth v2数据集464个室内场景中的249个场景的原始数据做训练样本,把其中的RGB图像从640×480降采样到320×240,然后用随机平移的方式裁剪出304×228大小的图像作为最终的输入图像。从每个场景中取1200个不同的图像样本,通过平移、旋转、缩放、亮度缩放及镜像等数据增强方式将训练集样本扩充至接近2000000个。
2.进行阶段1的训练,其中第一个网络栈采用ImageNet预训练的Alexnet。
3.固定阶段1训练得到的网络参数,进行阶段2的训练,仅训练DCNN的后半部分即图1中第二个虚线框内最后一个卷积层为止。
4.从训练集中每一个场景任取一个样本作为交叉验证CRF参数的数据集,用前面训练好的DCNN的输出及从输入图像计算得到的像素间稀疏相似矩阵数据以便对CRF的各项参数进行优化计算。
5.用训练好的DCNN及优化得到CRF构成图1所示的系统,处理输入到该系统的任意室内场景图像,在使用时,需要将输入图像的大小调整为304×228才能进行深度估计。
实施例4
1.使用NYU Depth v2数据集464个室内场景中的249个场景的原始数据做训练样本,把其中的RGB图像从640×480降采样到320×240,然后用随机平移的方式裁剪出304×228大小的图像作为最终的输入图像。从每个场景中取1200个不同的图像样本,通过平移、旋转、缩放、亮度缩放及镜像等数据增强方式将训练集样本扩充至接近2000000个。
2.进行阶段1的训练,其中第一个网络栈采用ImageNet预训练的VGG16网络结构与参数。
3.固定阶段1训练得到的网络参数,进行阶段2的训练,仅训练DCNN的后半部分即图1中第二个虚线框内最后一个卷积层为止。
4.从训练集中每一个场景任取一个样本作为交叉验证CRF参数的数据集,用前面训练好的DCNN的输出及从输入图像计算得到的像素间稀疏相似矩阵数据以便对CRF的各项参数进行优化计算。
5.用训练好的DCNN及优化得到CRF构成图1所示的系统,处理输入到该系统的任意室内场景图像,在使用时,需要将输入图像的大小调整为304×228才能进行深度估计。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
Claims (5)
1.一种基于多尺度CNN和连续CRF的单目图像深度估计方法,包括如下步骤:
(1)获取足够数量的样本图像,并对样本图像依次进行数据增强操作以及归一化处理;
(2)根据步骤(1)中归一化后的样本图像分两个阶段训练DCNN,DCNN共包括三个栈,前两个栈通过第一阶段训练完成,第三个栈通过第二阶段训练完成;
(3)对于待估计深度的输入图像I,根据DCNN的输出建立关于输入图像I及其深度图Y的条件概率分布函数P(Y|I):
Z(I)=∫Yexp(-E(Y,I))dY
其中:Z(I)为输入图像I对应的配分函数,E(Y,I)为关于输入图像I及其深度图Y的能量函数,zi为第i个有效像素预测的对数深度值,yi和yj分别为第i个有效像素和第j个有效像素实际的对数深度值,pi和pj分别为第i个有效像素和第j个有效像素的坐标值,ci和cj分别为第i个有效像素和第j个有效像素的LAB颜色值,wij1、wij2、σij1、σij2和σij3均为CRF模型参数,i和j均为自然数且1≤i≤N,1≤j≤N,N为有效像素的总数;
然后对函数P(Y|I)进行最大化求解,进而将求解得到的深度图从对数空间转换回线性空间即可获得具有较高精确度且保留了物体轮廓细节信息的深度图。
2.根据权利要求1所述的单目图像深度估计方法,其特征在于:所述的数据增强操作包括尺寸缩放、旋转、平移、亮度缩放以及镜像,所述的归一化处理即减去样本图像的均值并除以均方差。
3.根据权利要求1所述的单目图像深度估计方法,其特征在于:所述DCNN的第一个栈为Imagenet预训练网络,所述Imagenet预训练网络采用Alexnet模型的前7层或VGG16模型的前15层;第二个栈由5个卷积层组成,前4个卷积层均尾随池化操作,最后1个卷积层为线性输出,其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像,第2个卷积层的输入则是第一个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征,之后每一个卷积层的输入均为前一个卷积层的输出;第三个栈由4个卷积层组成,前3个卷积层均尾随池化操作,最后1个卷积层为线性输出,其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像,第2个卷积层的输入则是第二个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征,之后每一个卷积层的输入均为前一个卷积层的输出。
4.根据权利要求3所述的单目图像深度估计方法,其特征在于:所述第一阶段训练中所使用的损失函数L如下:
其中:xi和分别是第i个有效像素的预测深度值和实际深度值,和分别表示di的水平梯度和垂直梯度。
5.根据权利要求1所述的单目图像深度估计方法,其特征在于:所述的步骤(3)中通过以下算式对函数P(Y|I)进行最大化求解:
其中:Z为DCNN第三个栈的输出经双线性插值上采样和边界补全后的深度图,D为对角元素dii=∑jSij的对角矩阵,S为相似度矩阵且其中第i行第j列元素值E为N×N的单位矩阵。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610510552.6A CN106157307B (zh) | 2016-06-27 | 2016-06-27 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
US15/751,872 US10353271B2 (en) | 2016-06-27 | 2016-12-14 | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF |
PCT/CN2016/109980 WO2018000752A1 (zh) | 2016-06-27 | 2016-12-14 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610510552.6A CN106157307B (zh) | 2016-06-27 | 2016-06-27 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106157307A CN106157307A (zh) | 2016-11-23 |
CN106157307B true CN106157307B (zh) | 2018-09-11 |
Family
ID=57350986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610510552.6A Active CN106157307B (zh) | 2016-06-27 | 2016-06-27 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10353271B2 (zh) |
CN (1) | CN106157307B (zh) |
WO (1) | WO2018000752A1 (zh) |
Families Citing this family (137)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2550347A (en) * | 2016-05-13 | 2017-11-22 | The Imp College Of Science Tech & Medicine | Real-Time Height Mapping |
CN106157307B (zh) | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
CN106780588A (zh) * | 2016-12-09 | 2017-05-31 | 浙江大学 | 一种基于稀疏激光观测的图像深度估计方法 |
CN106683081B (zh) * | 2016-12-17 | 2020-10-30 | 复旦大学 | 基于影像组学的脑胶质瘤分子标记物无损预测方法和预测系统 |
WO2018119807A1 (zh) * | 2016-12-29 | 2018-07-05 | 浙江工商大学 | 一种基于卷积神经网络的时空一致性深度图序列的生成方法 |
CN106504190B (zh) * | 2016-12-29 | 2019-09-13 | 浙江工商大学 | 一种基于3d卷积神经网络的立体视频生成方法 |
CN108268815B (zh) * | 2016-12-30 | 2020-12-25 | 北京旷视科技有限公司 | 图像场景理解的方法及装置 |
CN108229271B (zh) * | 2017-01-23 | 2020-10-13 | 北京市商汤科技开发有限公司 | 解译遥感图像的方法、装置和电子设备 |
CN107067452A (zh) * | 2017-02-20 | 2017-08-18 | 同济大学 | 一种基于全卷积神经网络的电影2d转3d方法 |
CN106981080A (zh) * | 2017-02-24 | 2017-07-25 | 东华大学 | 基于红外图像和雷达数据的夜间无人车场景深度估计方法 |
CN106991666B (zh) * | 2017-02-24 | 2019-06-07 | 中国科学院合肥物质科学研究院 | 一种适用于多尺寸图片信息的病害图像识别方法 |
US10699139B2 (en) * | 2017-03-30 | 2020-06-30 | Hrl Laboratories, Llc | System for real-time object detection and recognition using both image and size features |
US10755428B2 (en) * | 2017-04-17 | 2020-08-25 | The United States Of America, As Represented By The Secretary Of The Navy | Apparatuses and methods for machine vision system including creation of a point cloud model and/or three dimensional model |
CN107204010B (zh) * | 2017-04-28 | 2019-11-19 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
CN107180430A (zh) * | 2017-05-16 | 2017-09-19 | 华中科技大学 | 一种适用于语义分割的深度学习网络构建方法及系统 |
WO2018218643A1 (en) * | 2017-06-02 | 2018-12-06 | Shanghaitech University | Method and apparatus for estimating depth of field information |
CN109215067B (zh) * | 2017-07-03 | 2023-03-10 | 百度(美国)有限责任公司 | 基于cnn和crf模型生成高分辨率3-d点云 |
CN107767413B (zh) * | 2017-09-20 | 2020-02-18 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
CN107992848B (zh) * | 2017-12-19 | 2020-09-25 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
CN108197587B (zh) * | 2018-01-18 | 2021-08-03 | 中科视拓(北京)科技有限公司 | 一种通过人脸深度预测进行多模态人脸识别的方法 |
CN108470320B (zh) * | 2018-02-24 | 2022-05-20 | 中山大学 | 一种基于cnn的图像风格化方法及系统 |
CN108257139B (zh) * | 2018-02-26 | 2020-09-08 | 中国科学院大学 | 基于深度学习的rgb-d三维物体检测方法 |
KR102595787B1 (ko) | 2018-02-27 | 2023-11-24 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN108416774A (zh) * | 2018-03-08 | 2018-08-17 | 中山大学 | 一种基于细粒度神经网络的织物种类识别方法 |
CN108564611A (zh) * | 2018-03-09 | 2018-09-21 | 天津大学 | 一种基于条件生成对抗网络的单目图像深度估计方法 |
CN108510535B (zh) | 2018-03-14 | 2020-04-24 | 大连理工大学 | 一种基于深度预测和增强子网络的高质量深度估计方法 |
CN108416840B (zh) | 2018-03-14 | 2020-02-18 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
CN108764244B (zh) * | 2018-04-02 | 2021-09-21 | 华南理工大学 | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 |
CN108510084B (zh) * | 2018-04-04 | 2022-08-23 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108537836A (zh) * | 2018-04-12 | 2018-09-14 | 维沃移动通信有限公司 | 一种深度数据获取方法及移动终端 |
CN108830890B (zh) * | 2018-04-24 | 2021-10-01 | 广州启辰电子科技有限公司 | 一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法 |
CN108961327B (zh) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN108932734B (zh) * | 2018-05-23 | 2021-03-09 | 浙江商汤科技开发有限公司 | 单目图像的深度恢复方法及装置、计算机设备 |
US11436440B2 (en) * | 2018-05-28 | 2022-09-06 | Samsung Electronics Co., Ltd. | Method and system for DNN based imaging |
CN110647888B (zh) * | 2018-06-26 | 2023-07-25 | 毛文涛 | 基于单目图像的三维信息的提取方法及电子装置 |
EP3815043A4 (en) * | 2018-06-29 | 2022-01-26 | Baidu.com Times Technology (Beijing) Co., Ltd. | SYSTEMS AND METHODS FOR DEPTH ESTIMATION BY AFFINITY LEARNED WITH FOLDING SPATIAL PROPAGATION NETWORKS |
CN109034162B (zh) * | 2018-07-13 | 2022-07-26 | 南京邮电大学 | 一种图像语义分割方法 |
CN109035319B (zh) * | 2018-07-27 | 2021-04-30 | 深圳市商汤科技有限公司 | 单目图像深度估计方法及装置、设备、程序及存储介质 |
CN110766152B (zh) * | 2018-07-27 | 2023-08-04 | 富士通株式会社 | 用于训练深度神经网络的方法和装置 |
CN109299656B (zh) * | 2018-08-13 | 2021-10-22 | 浙江零跑科技股份有限公司 | 一种车载视觉系统场景视深确定方法 |
US11107230B2 (en) * | 2018-09-14 | 2021-08-31 | Toyota Research Institute, Inc. | Systems and methods for depth estimation using monocular images |
CN109461180B (zh) * | 2018-09-25 | 2022-08-30 | 北京理工大学 | 一种基于深度学习的三维场景重建方法 |
CN110956575B (zh) * | 2018-09-26 | 2022-04-12 | 京东方科技集团股份有限公司 | 转变图像风格的方法和装置、卷积神经网络处理器 |
CN109635795B (zh) * | 2018-10-22 | 2023-05-16 | 小黄狗环保科技有限公司 | 一种基于vgg16网络模型提高瓶罐识别率的智能补光方法 |
CN109191514B (zh) * | 2018-10-23 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 用于生成深度检测模型的方法和装置 |
CN109460434B (zh) * | 2018-10-25 | 2020-11-03 | 北京知道创宇信息技术股份有限公司 | 数据提取模型建立方法及装置 |
CN109218706B (zh) * | 2018-11-06 | 2020-11-06 | 浙江大学 | 一种由单张图像生成立体视觉图像的方法 |
TWI695344B (zh) * | 2018-11-23 | 2020-06-01 | 中華電信股份有限公司 | 用於偵測監控影像內物件之方法及執行該方法之非暫態電腦可讀取紀錄媒體 |
CN109584244B (zh) * | 2018-11-30 | 2023-05-23 | 无锡本希奥智能技术有限公司 | 一种基于序列学习的海马体分割方法 |
CN109377530B (zh) * | 2018-11-30 | 2021-07-27 | 天津大学 | 一种基于深度神经网络的双目深度估计方法 |
CN111260538B (zh) * | 2018-12-03 | 2023-10-03 | 北京魔门塔科技有限公司 | 基于长基线双目鱼眼相机的定位及车载终端 |
CN109801323A (zh) * | 2018-12-14 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 具有自我提升能力的金字塔双目深度估计模型 |
US11017542B2 (en) * | 2018-12-21 | 2021-05-25 | Beijing Voyager Technology Co., Ld. | Systems and methods for determining depth information in two-dimensional images |
CN109685145B (zh) * | 2018-12-26 | 2022-09-06 | 广东工业大学 | 一种基于深度学习和图像处理的小物件检测方法 |
KR20200100515A (ko) * | 2019-02-18 | 2020-08-26 | 삼성전자주식회사 | 날씨에 관한 이미지 효과를 제공하는 시스템 및 방법 |
US11302040B2 (en) | 2019-06-24 | 2022-04-12 | Samsung Electronics Co., Ltd. | System and method for providing weather effect in image |
EP3891707B1 (en) | 2019-02-18 | 2024-06-26 | Samsung Electronics Co., Ltd. | System and method for providing weather effect in image |
US10839543B2 (en) * | 2019-02-26 | 2020-11-17 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
US11238604B1 (en) * | 2019-03-05 | 2022-02-01 | Apple Inc. | Densifying sparse depth maps |
CN109949354B (zh) * | 2019-03-13 | 2023-11-14 | 北京信息科技大学 | 一种基于全卷积神经网络的光场深度信息估计方法 |
CN109934863B (zh) * | 2019-03-13 | 2023-11-14 | 北京信息科技大学 | 一种基于密集连接型卷积神经网络的光场深度信息估计方法 |
CN110060290B (zh) * | 2019-03-14 | 2021-06-04 | 中山大学 | 一种基于3d卷积神经网络的双目视差计算方法 |
CN111724810B (zh) * | 2019-03-19 | 2023-11-24 | 杭州海康威视数字技术股份有限公司 | 一种音频分类方法和装置 |
CN109978935A (zh) * | 2019-03-28 | 2019-07-05 | 江南大学 | 一种基于深度学习和傅里叶域分析的图像深度估计算法 |
CN109978069B (zh) * | 2019-04-02 | 2020-10-09 | 南京大学 | 降低ResNeXt模型在图片分类中过拟合现象的方法 |
CN109917419B (zh) * | 2019-04-12 | 2021-04-13 | 中山大学 | 一种基于激光雷达与图像的深度填充密集系统及方法 |
CN113711276A (zh) * | 2019-04-30 | 2021-11-26 | 华为技术有限公司 | 尺度感知单目定位和地图构建 |
CN110111351B (zh) * | 2019-05-10 | 2022-03-25 | 电子科技大学 | 融合rgbd多模态信息的行人轮廓跟踪方法 |
CN110223251B (zh) * | 2019-06-02 | 2023-03-24 | 西安电子科技大学 | 适用于人工与自然光源的卷积神经网络水下图像复原方法 |
CN110210603A (zh) * | 2019-06-10 | 2019-09-06 | 长沙理工大学 | 人群的计数模型构建方法、计数方法和装置 |
CN110287837A (zh) * | 2019-06-17 | 2019-09-27 | 上海大学 | 基于先验估计网络和空间约束混合模型的海面障碍物检测方法 |
CN110232362B (zh) * | 2019-06-18 | 2023-04-07 | 西安电子科技大学 | 基于卷积神经网络和多特征融合的舰船尺寸估计方法 |
CN110264526B (zh) * | 2019-06-19 | 2023-04-07 | 华东师范大学 | 一种基于深度学习的场景深度和摄像机位置姿势求解方法 |
CN112149458A (zh) * | 2019-06-27 | 2020-12-29 | 商汤集团有限公司 | 障碍物检测方法、智能驾驶控制方法、装置、介质及设备 |
CN110322499B (zh) * | 2019-07-09 | 2021-04-09 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN110517277B (zh) * | 2019-08-05 | 2022-12-06 | 西安电子科技大学 | 基于PCANet与高阶CRF的SAR图像分割方法 |
CN110503680B (zh) * | 2019-08-29 | 2023-08-18 | 大连海事大学 | 一种基于非监督的卷积神经网络单目场景深度估计方法 |
CN110599533B (zh) * | 2019-09-20 | 2023-06-27 | 湖南大学 | 适用于嵌入式平台的快速单目深度估计方法 |
US11321863B2 (en) | 2019-09-23 | 2022-05-03 | Toyota Research Institute, Inc. | Systems and methods for depth estimation using semantic features |
CN110659692B (zh) * | 2019-09-26 | 2023-04-18 | 重庆大学 | 基于强化学习和深度神经网络的病理图像自动标注方法 |
US11145074B2 (en) | 2019-10-17 | 2021-10-12 | Toyota Research Institute, Inc. | Systems and methods for depth estimation using monocular images |
US11176709B2 (en) * | 2019-10-17 | 2021-11-16 | Toyota Research Institute, Inc. | Systems and methods for self-supervised scale-aware training of a model for monocular depth estimation |
CN110909615B (zh) * | 2019-10-28 | 2023-03-28 | 西安交通大学 | 基于多尺度输入混合感知神经网络的目标检测方法 |
CN110838092B (zh) * | 2019-10-28 | 2023-05-19 | 天津大学 | 一种基于卷积神经网络的水下图像复原方法 |
CN110992304B (zh) * | 2019-10-30 | 2023-07-07 | 浙江力邦合信智能制动系统股份有限公司 | 二维图像深度测量方法及其在车辆安全监测中的应用 |
CN110992414B (zh) * | 2019-11-05 | 2023-06-30 | 天津大学 | 一种基于卷积神经网络的室内单目场景深度估计的方法 |
KR102699829B1 (ko) | 2019-11-11 | 2024-08-29 | 삼성전자주식회사 | 디스패리티 이미지를 생성하는 알고리즘 갱신 방법 및 장치 |
CN111047630B (zh) * | 2019-11-13 | 2023-06-13 | 芯启源(上海)半导体科技有限公司 | 神经网络和基于神经网络的目标检测及深度预测方法 |
US11481916B2 (en) * | 2019-12-12 | 2022-10-25 | Motorola Solutions, Inc. | Method, system and computer program product for emulating depth data of a three-dimensional camera device |
CN111062981B (zh) * | 2019-12-13 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及存储介质 |
CN111178207B (zh) * | 2019-12-20 | 2023-08-01 | 北京邮电大学 | 一种基于复平面坐标系定位的目标检测方法及装置 |
CN111027508B (zh) * | 2019-12-23 | 2022-09-06 | 电子科技大学 | 一种基于深层神经网络的遥感图像覆被变化检测方法 |
CN113099066B (zh) * | 2019-12-23 | 2022-09-30 | 浙江工商大学 | 基于多尺度融合空洞卷积残差网络的大容量图像隐写方法 |
CN111340864B (zh) * | 2020-02-26 | 2023-12-12 | 浙江大华技术股份有限公司 | 基于单目估计的三维场景融合方法及装置 |
CN111489332B (zh) * | 2020-03-31 | 2023-03-17 | 成都数之联科技股份有限公司 | 一种用于目标检测的多尺度iof随机裁剪的数据增强方法 |
CN111461043B (zh) * | 2020-04-07 | 2023-04-18 | 河北工业大学 | 基于深度网络的视频显著性检测方法 |
CN111598789B (zh) * | 2020-04-08 | 2023-04-07 | 西安理工大学 | 一种基于深度学习的稀疏颜色传感器图像重建方法 |
CN111539983B (zh) * | 2020-04-15 | 2023-10-20 | 上海交通大学 | 基于深度图像的运动物体分割方法及系统 |
CN111507918B (zh) * | 2020-04-16 | 2020-12-08 | 上海全景云医学影像诊断有限公司 | 一种基于深度学习技术的医学图像增强方法 |
CN111553856B (zh) * | 2020-04-24 | 2023-03-24 | 西安电子科技大学 | 基于深度估计辅助的图像去雾方法 |
CN111583390B (zh) * | 2020-04-28 | 2023-05-02 | 西安交通大学 | 基于深度语义融合的卷积神经网络的三维语义图重建方法 |
CN111680554A (zh) * | 2020-04-29 | 2020-09-18 | 北京三快在线科技有限公司 | 自动驾驶场景的深度估计方法、装置和自主车辆 |
CN111583345B (zh) * | 2020-05-09 | 2022-09-27 | 吉林大学 | 一种相机参数的获取方法、装置、设备及存储介质 |
CN111553940B (zh) * | 2020-05-19 | 2023-06-16 | 上海海栎创科技股份有限公司 | 一种深度图人像边缘优化方法及处理装置 |
CN111639587B (zh) * | 2020-05-27 | 2023-03-24 | 西安电子科技大学 | 基于多尺度谱空卷积神经网络的高光谱图像分类方法 |
CN111860162B (zh) * | 2020-06-17 | 2023-10-31 | 上海交通大学 | 一种视频人群计数系统及方法 |
CN111994377B (zh) * | 2020-07-21 | 2022-04-08 | 浙江大华技术股份有限公司 | 包装箱工序检测的方法、装置和计算机设备 |
CN112150526A (zh) * | 2020-07-27 | 2020-12-29 | 浙江大学 | 一种基于深度学习的光场图像深度估计方法 |
KR20220014678A (ko) | 2020-07-29 | 2022-02-07 | 삼성전자주식회사 | 영상의 깊이를 추정하는 방법 및 장치 |
CN112254964A (zh) * | 2020-09-03 | 2021-01-22 | 太原理工大学 | 一种基于快速多尺度卷积神经网络的滚动轴承故障诊断方法 |
CN112102337A (zh) * | 2020-09-16 | 2020-12-18 | 哈尔滨工程大学 | 一种超声成像下的骨骼表面分割方法 |
US11868439B2 (en) * | 2020-11-13 | 2024-01-09 | Toyota Research Institute, Inc. | Mixed-batch training of a multi-task network |
TWI784349B (zh) * | 2020-11-16 | 2022-11-21 | 國立政治大學 | 顯著圖產生方法及使用該方法的影像處理系統 |
CN112686936B (zh) * | 2020-12-18 | 2023-08-04 | 北京百度网讯科技有限公司 | 图像深度补全方法、装置、计算机设备、介质和程序产品 |
CN112489119B (zh) * | 2020-12-21 | 2023-01-31 | 北京航空航天大学 | 一种增强可靠性的单目视觉定位方法 |
CN112561826A (zh) * | 2020-12-22 | 2021-03-26 | 杭州趣链科技有限公司 | 基于人工智能的图像去模糊方法、装置、设备及存储介质 |
CN112598640B (zh) * | 2020-12-22 | 2021-09-14 | 哈尔滨市科佳通用机电股份有限公司 | 基于深度学习的注水口盖板丢失检测方法 |
CN112634302B (zh) * | 2020-12-28 | 2023-11-28 | 航天科技控股集团股份有限公司 | 基于深度学习的移动端类矩形物体边缘检测方法 |
CN112732092B (zh) * | 2021-01-22 | 2023-04-07 | 河北工业大学 | 基于双视图多尺度卷积神经网络的表面肌电信号识别方法 |
US11769226B2 (en) * | 2021-01-26 | 2023-09-26 | Kyocera Document Solutions Inc. | Super resolution neural network with multiple outputs with different upscaling factors |
CN112819853B (zh) * | 2021-02-01 | 2023-07-25 | 太原理工大学 | 一种基于语义先验的视觉里程计方法 |
CN112862023B (zh) * | 2021-04-26 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 对象密度确定方法、装置、计算机设备和存储介质 |
US20220405596A1 (en) * | 2021-06-16 | 2022-12-22 | International Business Machines Corporation | Transfer learning with basis scaling and pruning |
CN113269152B (zh) * | 2021-06-25 | 2022-07-01 | 北京邮电大学 | 一种非等间距离散深度补全的方法 |
CN113762358B (zh) * | 2021-08-18 | 2024-05-14 | 江苏大学 | 一种基于相对深度训练的半监督学习三维重建方法 |
US12100230B2 (en) | 2021-10-28 | 2024-09-24 | Nvidia Corporation | Using neural networks for 3D surface structure estimation based on real-world data for autonomous systems and applications |
CN113963117B (zh) * | 2021-10-29 | 2024-03-29 | 温州大学 | 一种基于可变卷积深度网络的多视图三维重建方法及装置 |
CN114387582B (zh) * | 2022-01-13 | 2024-08-06 | 福州大学 | 一种在不良光照条件下的车道检测方法 |
CN114565616B (zh) * | 2022-03-03 | 2022-12-09 | 湖南大学无锡智能控制研究院 | 一种非结构化道路状态参数估计方法及系统 |
CN114782911B (zh) * | 2022-06-20 | 2022-09-16 | 小米汽车科技有限公司 | 图像处理的方法、装置、设备、介质、芯片及车辆 |
CN115330874B (zh) * | 2022-09-02 | 2023-05-16 | 中国矿业大学 | 基于超像素处理遮挡的单目深度估计方法 |
CN115170746B (zh) * | 2022-09-07 | 2022-11-22 | 中南大学 | 一种基于深度学习的多视图三维重建方法、系统及设备 |
CN118365687A (zh) * | 2023-01-17 | 2024-07-19 | 华为技术有限公司 | 一种深度估计方法及装置 |
CN116129207B (zh) * | 2023-04-18 | 2023-08-04 | 江西师范大学 | 一种多尺度通道注意力的图像数据处理方法 |
CN117690096B (zh) * | 2024-02-04 | 2024-04-12 | 成都中轨轨道设备有限公司 | 一种适应不同场景的接触网安全巡检系统 |
CN117953354B (zh) * | 2024-03-22 | 2024-09-27 | 深圳禾思众成科技有限公司 | 一种计算统一设备架构的超大像素图像处理方法及系统 |
CN118397068B (zh) * | 2024-07-01 | 2024-09-13 | 杭州师范大学 | 基于演化神经网络架构搜索的单目深度估计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015061061A1 (en) * | 2013-10-23 | 2015-04-30 | Google Inc. | Depth map generation |
CN105657402A (zh) * | 2016-01-18 | 2016-06-08 | 深圳市未来媒体技术研究院 | 一种深度图恢复方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711201B2 (en) | 2006-06-22 | 2010-05-04 | Sony Corporation | Method of and apparatus for generating a depth map utilized in autofocusing |
CN102034248B (zh) * | 2010-12-31 | 2012-08-22 | 浙江大学 | 单目图像序列的运动分割和3d表达方法 |
CN102708569B (zh) | 2012-05-15 | 2015-10-28 | 东华大学 | 基于svm模型的单目红外图像深度估计方法 |
CN104361328B (zh) * | 2014-11-21 | 2018-11-02 | 重庆中科云丛科技有限公司 | 一种基于自适应多列深度模型的人脸图像正规化方法 |
US11340602B2 (en) * | 2014-12-19 | 2022-05-24 | Raytheon Technologies Corporation | Sensor data fusion for prognostics and health monitoring |
US9734567B2 (en) * | 2015-06-24 | 2017-08-15 | Samsung Electronics Co., Ltd. | Label-free non-reference image quality assessment via deep neural network |
JP6643368B2 (ja) * | 2015-07-03 | 2020-02-12 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 画像処理装置および画像処理方法 |
CN105095862B (zh) * | 2015-07-10 | 2018-05-29 | 南开大学 | 一种基于深度卷积条件随机场的人体动作识别方法 |
US20170061258A1 (en) * | 2015-08-25 | 2017-03-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for precluding image capture of an image presented on a display |
CN106485192B (zh) * | 2015-09-02 | 2019-12-06 | 富士通株式会社 | 用于图像识别的神经网络的训练方法和装置 |
CN105160361A (zh) | 2015-09-30 | 2015-12-16 | 东软集团股份有限公司 | 一种图像识别方法及装置 |
US10708573B2 (en) * | 2016-01-04 | 2020-07-07 | Occipital, Inc. | Apparatus and methods for three-dimensional sensing |
US9934591B2 (en) * | 2016-04-08 | 2018-04-03 | Orbital Insight, Inc. | Remote determination of quantity stored in containers in geographical region |
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
EP4131172A1 (en) * | 2016-09-12 | 2023-02-08 | Dassault Systèmes | Deep convolutional neural network for 3d reconstruction of a real object |
JP6826407B2 (ja) * | 2016-09-16 | 2021-02-03 | キヤノン株式会社 | 情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム |
US10289934B2 (en) * | 2016-11-08 | 2019-05-14 | Nec Corporation | Landmark localization on objects in images using convolutional neural networks |
US10360494B2 (en) * | 2016-11-30 | 2019-07-23 | Altumview Systems Inc. | Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules |
-
2016
- 2016-06-27 CN CN201610510552.6A patent/CN106157307B/zh active Active
- 2016-12-14 US US15/751,872 patent/US10353271B2/en active Active
- 2016-12-14 WO PCT/CN2016/109980 patent/WO2018000752A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015061061A1 (en) * | 2013-10-23 | 2015-04-30 | Google Inc. | Depth map generation |
CN105657402A (zh) * | 2016-01-18 | 2016-06-08 | 深圳市未来媒体技术研究院 | 一种深度图恢复方法 |
Non-Patent Citations (1)
Title |
---|
《Deep Convolutional Neural Fields for Depth Estimation from a Single Image》;Fayao Liu et al.;《2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)》;20151231;5162-5170 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018000752A1 (zh) | 2018-01-04 |
CN106157307A (zh) | 2016-11-23 |
US20180231871A1 (en) | 2018-08-16 |
US10353271B2 (en) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106157307B (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
CN107204010B (zh) | 一种单目图像深度估计方法与系统 | |
CN110414377B (zh) | 一种基于尺度注意力网络的遥感图像场景分类方法 | |
CN112634341B (zh) | 多视觉任务协同的深度估计模型的构建方法 | |
CN106469299B (zh) | 一种车辆搜索方法及装置 | |
CN104463117B (zh) | 一种基于视频方式的人脸识别样本采集方法及系统 | |
CN104850850B (zh) | 一种结合形状和颜色的双目立体视觉图像特征提取方法 | |
CN106504190B (zh) | 一种基于3d卷积神经网络的立体视频生成方法 | |
CN110119728A (zh) | 基于多尺度融合语义分割网络的遥感图像云检测方法 | |
CN110310317A (zh) | 一种基于深度学习的单目视觉场景深度估计的方法 | |
CN104517095B (zh) | 一种基于深度图像的人头分割方法 | |
CN108648161A (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
CN106258010A (zh) | 2d图像分析器 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN116664782B (zh) | 一种基于融合体素的神经辐射场三维重建方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN107657625A (zh) | 融合时空多特征表示的无监督视频分割方法 | |
CN111402311A (zh) | 一种基于知识蒸馏的轻量级立体视差估计方法 | |
CN115423734B (zh) | 一种基于多尺度注意机制的红外与可见光图像融合方法 | |
CN111507183A (zh) | 一种基于多尺度密度图融合空洞卷积的人群计数方法 | |
CN111178503A (zh) | 面向移动终端的去中心化目标检测模型训练方法及系统 | |
CN110443784A (zh) | 一种有效的显著性预测模型方法 | |
CN110070574A (zh) | 一种基于改进PSMNet的双目视觉立体匹配算法 | |
Yang et al. | [Retracted] A Method of Image Semantic Segmentation Based on PSPNet | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210611 Address after: Room 101, building 19, 311 Huangpu Avenue central, Tianhe District, Guangzhou, Guangdong 510630 Patentee after: Guangzhou huazhan Tiancheng Technology Co.,Ltd. Address before: 310018, No. 18 Jiao Tong Street, Xiasha Higher Education Park, Hangzhou, Zhejiang Patentee before: ZHEJIANG GONGSHANG University |