[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112861940A - 双目视差估计方法、模型训练方法以及相关设备 - Google Patents

双目视差估计方法、模型训练方法以及相关设备 Download PDF

Info

Publication number
CN112861940A
CN112861940A CN202110109561.5A CN202110109561A CN112861940A CN 112861940 A CN112861940 A CN 112861940A CN 202110109561 A CN202110109561 A CN 202110109561A CN 112861940 A CN112861940 A CN 112861940A
Authority
CN
China
Prior art keywords
scale
cost
aggregation
parallax
binocular disparity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110109561.5A
Other languages
English (en)
Inventor
谭黎敏
尤超勤
赵钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Westwell Information Technology Co Ltd
Original Assignee
Shanghai Westwell Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Westwell Information Technology Co Ltd filed Critical Shanghai Westwell Information Technology Co Ltd
Priority to CN202110109561.5A priority Critical patent/CN112861940A/zh
Publication of CN112861940A publication Critical patent/CN112861940A/zh
Priority to EP21922487.0A priority patent/EP4280100A1/en
Priority to PCT/CN2021/132577 priority patent/WO2022160897A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种双目视差估计方法、模型训练方法以及相关设备。模型训练方法包括:获取样本左图、样本右图以及视差标签;将所述样本左图、样本右图作为一双目视差估计模型的输入,所述双目视差估计模型包括特征提取网络模块、匹配代价计算模块、单尺度代价聚合模块、多尺度代价聚合模块、视差回归模型;计算所述视差标签与所述估计视差的误差,以对所述双目视差估计模型进行训练。本发明提供的方法及装置采用新的网络模型结构,以及优化的模型训练方法,解决方法中计算量大,耗时长,物体边缘和无纹理区域效果差的不足,推进基于双目图片的视差估计方法在不同领域的应用。

Description

双目视差估计方法、模型训练方法以及相关设备
技术领域
本发明涉及图像处理领域,尤其涉及一种双目视差估计方法、模型训练方法以及相关设备。
背景技术
通过双目图片估计视差是计算机视觉领域的一项基础任务,其精度和实时性直接决定后续识别和追踪等任务的性能。现有的基于神经网络的视差估计算法在代价聚合环节大多运用了3D卷积,计算量大,耗时很长;对于物体边缘和大面积无纹理的区域视差估计效果不良。由此,这些缺陷限制了现有方法在自动驾驶、安防及V2X等领域的应用。
针对以上问题,如何采用新的网络模型结构,以及优化的模型训练方法,解决方法中计算量大,耗时长,物体边缘和无纹理区域效果差的不足,推进基于双目图片的视差估计方法在不同领域的应用,是本领域技术人员亟待解决的技术问题。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种双目视差估计方法、模型训练方法以及相关设备。
根据本发明的一个方面,提供一种双目视差估计模型训练方法,包括:
获取样本左图、样本右图以及视差标签;
将所述样本左图、样本右图作为一双目视差估计模型的输入,所述双目视差估计模型包括:
特征提取网络模块,所述特征提取网络模块用于提取输入的左图在多个尺度上的左特征图以及提取输入的右图在多个尺度上的右特征图;
匹配代价计算模块,用于计算同一尺度的左特征图和右特征图的匹配代价;
单尺度代价聚合模块,用于对所述匹配代价计算模块输出的各尺度的匹配代价进行单尺度代价聚合;
多尺度代价聚合模块,用于对所述单尺度代价聚合模块输出的单尺度聚合代价进行多尺度代价聚合;
视差回归模型,用于对所述多尺度代价聚合模块输出的多尺度聚合代价进行视差回归,以获得左图和右图的估计视差;
计算所述视差标签与所述估计视差的误差,以对所述双目视差估计模型进行训练。
在本发明的一些实施例中,同一尺度的左特征图和右特征图的匹配代价根据如下公式计算:
Figure BDA0002916420600000021
其中,Cs(d,h,w)是尺度s下,位置(h,w)处,视差d的匹配代价,其中,h和w分别是特征图的横纵坐标;
Figure BDA0002916420600000022
分别是左特征图和右特征图,<·,·〉是内积运算,N是特征图的通道数。
在本发明的一些实施例中,各尺度的匹配代价根据如下公式进行单尺度代价聚合:
Figure BDA0002916420600000023
其中,
Figure BDA0002916420600000024
是特征图的位置p处,视差d经过单尺度聚合后的匹配代价;C是聚合前的匹配代价;K2是采样点数;pk是每个采样点k固定的偏移;Δpk是自适应偏移,由算法根据聚合前的匹配代价C计算得出;mk是自适应权重,由算法根据C计算得出;wk是基于所述双目视差估计模型的训练更新的参数。
在本发明的一些实施例中,所述单尺度代价聚合模块输出的单尺度聚合代价根据如下公式进行多尺度代价聚合:
Figure BDA0002916420600000025
Figure BDA0002916420600000026
其中,
Figure BDA0002916420600000031
是多尺度聚合后的匹配代价;
Figure BDA0002916420600000032
是t尺度下,单尺度代价聚合模块输出的单尺度聚合代价;ft是不同尺度匹配代价的变换函数:当t=k时,在该尺度下,多尺度聚合前后匹配代价恒等;当t<s时,ft表示用3x3的2D卷积进行对多尺度聚合前的匹配代价进行下采样并调整特征图的通道数;t>s时,ft表示对多尺度聚合前的匹配代价进行先上采样再用1x1的2D卷积调整特征图的通道数。
在本发明的一些实施例中,根据如下公式对所述多尺度代价聚合模块输出的多尺度聚合代价进行视差回归,以获得左图和右图的估计视差:
Figure BDA0002916420600000033
Figure BDA0002916420600000034
其中,
Figure BDA0002916420600000035
是位置p处的估计视差,σp(d)是位置p处视差可能是d的概率,Dmax是最大视差;
Figure BDA0002916420600000036
是位置p处的多尺度聚合代价。
在本发明的一些实施例中,根据如下公式计算所述视差标签与所述估计视差的误差:
Figure BDA0002916420600000037
Figure BDA0002916420600000038
其中,Ltotal是总误差,Li分别是S个尺度上的误差,L(·,·)是损失函数,V(p)代表了视差标签的位置p处是否有真值,
Figure BDA0002916420600000039
是位置p处预测的视差,Dgt(p)是真值,Dpseudo(p)是预训练网络生成的伪视差标签,λi为尺度i的误差权重。
在本发明的一些实施例中,所述双目视差估计模型训练时,所述多尺度代价聚合模块分别基于每一尺寸,对所述单尺度代价聚合模块输出的单尺度聚合代价进行多尺度代价聚合以获得对应于每个尺度的多尺度聚合代价。
根据本发明的又一方面,还提供一种双目视差估计方法,包括:
获取待估计左图以及待估计右图;
将所述待估计左图以及待估计右图输入经由如上所述的双目视差估计模型训练方法训练获得的双目视差估计模型,所述双目视差估计中,所述多尺度代价聚合模块仅用于对所述单尺度代价聚合模块输出的单尺度聚合代价进行基于一个尺度的多尺度代价聚合;
对所述双目视差估计模型输出的准预估视差进行上采样,获得估计视差。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
本发明通过采用新的网络模型结构,以及优化的模型训练方法,解决方法中计算量大,耗时长,物体边缘和无纹理区域效果差的不足,推进基于双目图片的视差估计方法在不同领域的应用。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的双目视差估计模型训练方法的流程图;
图2示出了根据本发明实施例的双目视差估计模型训练方法的示意图;
图3示出了根据本发明实施例的双目视差估计方法的流程图;
图4示出了根据本发明实施例的双目视差估计方法的示意图;
图5示出了根据本发明实施例的双目视差估计模型训练装置的模块图;
图6示出了根据本发明实施例的双目视差估计方法的模块图;
图7示意性示出本公开示例性实施例中一种计算机可读存储介质示意图;
图8示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了解决现有技术的缺陷,本发明提供一种双目视差估计模型训练方法,如图1所示。图1示出了根据本发明实施例的双目视差估计模型训练方法的流程图。图1共示出如下:
步骤S110:获取样本左图、样本右图以及视差标签。
具体而言,样本左图以及样本右图可以为经矫正的样本视图。本发明各实施例中所描述的视差指的是左图和右图之间的视差距离。
步骤S120:将所述样本左图、样本右图作为一双目视差估计模型的输入。
所述双目视差估计模型包括特征提取网络模块、匹配代价计算模块、单尺度代价聚合模块、多尺度代价聚合模块以及视差回归模型。具体参见图2,图2示出了根据本发明实施例的双目视差估计模型10的训练方法的示意图。
所述特征提取网络模块11用于提取输入的左图在多个尺度上的左特征图以及提取输入的右图在多个尺度上的右特征图。
具体而言,本发明不限定尺度的个数以及各尺度的具体数值。为了清楚起见,在本发明的实施例中,以如下参数为例,进行说明:提供3个尺度,其中尺度1为原图尺寸的1/3;尺度2为原图尺寸的1/6,尺度3为原图尺寸的1/12,其中尺度1特征图、尺寸2特征图以及尺寸3特征图皆为原图的等比例缩小的特征图。
具体而言,特征提取网络模块11可以包括两个深度2D卷积神经网络,以分别提取左图的特征和右图的特征。进一步地,该两个深度2D卷积神经网络可以共用参数,且该两个深度2D卷积神经网络中的参数可以经由双目视差估计模型10的训练进行调整。
所述匹配代价计算模块12用于计算同一尺度的左特征图和右特征图的匹配代价。
具体而言,匹配代价计算模块12可以计算尺度1左特征图和尺度1右特征图的匹配代价;计算尺度2左特征图和尺度2右特征图的匹配代价;计算尺度3左特征图和尺度3右特征图的匹配代价。
具体而言,匹配代价与左图中的某一位置与右图中某一位置的点的相似度成反向相关。换言之,左图中某一位置与右图中某一位置的点的相似度越高,匹配代价越小,越可能是同一点;左图中某一位置与右图中某一位置的点的相似度越低,匹配代价越大,越不可能是同一点。
同一尺度的左特征图和右特征图的匹配代价根据如下公式计算:
Figure BDA0002916420600000061
其中,Cs(d,h,w)是尺度s下,位置(h,w)处,视差d的匹配代价,其中,h和w分别是特征图的横纵坐标;
Figure BDA0002916420600000062
分别是左特征图和右特征图,<·,·>是内积运算,N是特征图的通道数。由此,可以基于
Figure BDA0002916420600000063
计算获得尺度1位置(h,w)处,视差d的匹配代价C1(d,h,w);基于
Figure BDA0002916420600000064
计算获得尺度2位置(h,w)处,视差d的匹配代价C2(d,h,w);基于
Figure BDA0002916420600000065
计算获得尺度1位置(h,w)处,视差d的匹配代价C3(d,h,w)。
所述单尺度代价聚合模块13用于对所述匹配代价计算模块输出的各尺度的匹配代价(例如C1(d,h,w)、C2(d,h,w)以及C3(d,h,w))分别进行单尺度代价聚合。
具体而言,各尺度的匹配代价根据如下公式进行单尺度代价聚合:
Figure BDA0002916420600000066
其中,
Figure BDA0002916420600000067
是特征图的位置p处,视差d经过单尺度聚合后的匹配代价;C是聚合前的匹配代价(也就是C1(d,h,w)、C2(d,h,w)以及C3(d,h,w),其中p也可以由(h,w)的横纵坐标形式进行表示);K2是采样点数(例如可以以3*3;5*5;7*7的采样窗口进行采样);pk是每个采样点k固定的偏移;Δpk是自适应偏移,由算法根据聚合前的匹配代价C计算得出;mk是自适应权重,由算法根据聚合前的匹配代价C计算得出;wk是基于所述双目视差估计模型的训练更新的参数。由此,可以通过采样窗口,将位置p处的K2个采样点的匹配代价聚合在一起。具体而言,单尺度代价聚合模块13可以根据尺度1的匹配代价C1(d,h,w)聚合获得尺度1下的单尺度聚合代价
Figure BDA0002916420600000071
根据尺度2的匹配代价C2(d,h,w)聚合获得尺度2下的单尺度聚合代价
Figure BDA0002916420600000072
根据尺度3的匹配代价C3(d,h,w)聚合获得尺度3下的单尺度聚合代价
Figure BDA0002916420600000073
所述多尺度代价聚合模块14用于对所述单尺度代价聚合模块13输出的单尺度聚合代价进行多尺度代价聚合。
具体而言,在所述双目视差估计模型10训练时,所述多尺度代价聚合模块14分别基于每一尺寸,对所述单尺度代价聚合模块13输出的单尺度聚合代价进行多尺度代价聚合以获得对应于每个尺度的多尺度聚合代价。如图2所示,多尺度代价聚合模块14基于尺度1下的单尺度聚合代价、尺度2下的单尺度聚合代价、尺度3下的单尺度聚合代价聚合获得尺度1下的多尺度聚合代价;基于尺度1下的单尺度聚合代价、尺度2下的单尺度聚合代价、尺度3下的单尺度聚合代价聚合获得尺度2下的多尺度聚合代价;基于尺度1下的单尺度聚合代价、尺度2下的单尺度聚合代价、尺度3下的单尺度聚合代价聚合获得尺度3下的多尺度聚合代价。
具体而言,所述单尺度代价聚合模块输出的单尺度聚合代价根据如下公式进行多尺度代价聚合:
Figure BDA0002916420600000074
Figure BDA0002916420600000075
其中,
Figure BDA0002916420600000076
是多尺度聚合后的匹配代价;
Figure BDA0002916420600000077
是t尺度下,单尺度代价聚合模块输出的单尺度聚合代价;ft是不同尺度匹配代价的变换函数:当t=k时,在该尺度下,多尺度聚合前后匹配代价恒等;当t<s时,ft表示用3x3的2D卷积进行对多尺度聚合前的匹配代价进行下采样并调整特征图的通道数;t>s时,ft表示对多尺度聚合前的匹配代价进行先上采样再用1x1的2D卷积调整特征图的通道数。具体而言,t为多尺度代价聚合模块14所要获得的多尺度聚合代价的尺度序号。
所述视差回归模型15用于对所述多尺度代价聚合模块14输出的多尺度聚合代价进行视差回归,以获得左图和右图的估计视差。
具体而言,如图2所示,在所述双目视差估计模型10训练时,所述视差回归模型15对尺度1下的多尺度聚合代价进行视差回归获得尺度1估计视差;对尺度2下的多尺度聚合代价进行视差回归获得尺度2估计视差;对尺度3下的多尺度聚合代价进行视差回归获得尺度3估计视差。
在本发明的一些实施例中,根据如下公式对所述多尺度代价聚合模块输出的多尺度聚合代价进行视差回归,以获得左图和右图的估计视差:
Figure BDA0002916420600000081
Figure BDA0002916420600000082
其中,
Figure BDA0002916420600000083
是位置p处的估计视差,σp(d)是位置p处视差可能是d的概率,Dmax是最大视差;
Figure BDA0002916420600000084
是位置p处的多尺度聚合代价。
步骤S130:计算所述视差标签与所述估计视差的误差,以对所述双目视差估计模型进行训练。
在本发明的一些实施例中,根据如下公式计算所述视差标签与所述估计视差的误差:
Figure BDA0002916420600000085
Figure BDA0002916420600000086
其中,Ltotal是总误差,Li分别是S个尺度上的误差,L(·,·)是损失函数,V(p)代表了视差标签的位置p处是否有真值,
Figure BDA0002916420600000087
是位置p处预测的视差,Dgt(p)是真值,Dpseudo(p)是预训练网络生成的伪视差标签,λi为尺度i的误差权重。
在前述3个尺度的实施例中,使得上式中S默认为s,λ1=1,λ2=0.6,λ3=0.3。该权重的设置仅仅是示意性地,本发明并非以此为限制。进一步地,在本实施例中L(·,·)是smooth L1 loss损失函数,本发明也并非以此为限制,其它类型的损失函数也在本发明的保护范围之内。
具体而言,在本发明各实施例中,可以利用其它算法或手段获取视差标签(真值,实际的视差),当视差标签缺失时,可以通过一预训练网络对样本左图和样本右图进行计算以获得伪视差标签,从而可以提高算法精度。预训练网络可以与所述双目视差估计模型10具有相同或不同的结构,本发明并非以此为限制。
具体而言,在本发明各实施例中,步骤S130可以根据计算的误差,采用反向传播算法对所述双目视差估计模型10的参数进行调整和更新,本发明并非以此为限制。
本发明提供的双目视差估计模型训练方法,采用新的网络模型结构,以及优化的模型训练方法,解决方法中计算量大,耗时长,物体边缘和无纹理区域效果差的不足,推进基于双目图片的视差估计方法在不同领域的应用。
以上仅仅是示意性描述本发明提供的双目视差估计模型训练方法,本发明可以实现更多的变化方式,在此不予赘述。
本发明还提供一种双目视差估计方法,结合图3和图4,图3示出了根据本发明实施例的双目视差估计方法的流程图;图4示出了根据本发明实施例的双目视差估计方法的示意图。双目视差估计方法包括如下步骤:
步骤S210:获取待估计左图以及待估计右图。
步骤S220:将所述待估计左图以及待估计右图输入经由如上所述的双目视差估计模型训练方法训练获得的双目视差估计模型,所述双目视差估计中,所述多尺度代价聚合模块仅用于对所述单尺度代价聚合模块输出的单尺度聚合代价进行基于一个尺度的多尺度代价聚合。
如图4所示,与双目视差估计模型10的训练过程不同,在估计过程中,多尺度代价聚合模块14仅基于尺度1下的单尺度聚合代价、尺度2下的单尺度聚合代价、尺度3下的单尺度聚合代价聚合获得尺度1下的多尺度聚合代价。由此,视差回归模块15仅对尺度1下的多尺度聚合代价进行视差回归,获得尺度1下的准预估视差。
步骤S230:对所述双目视差估计模型输出的准预估视差进行上采样,获得估计视差。
具体而言,步骤S230相当于将尺度1下的准预估视差还原至原图尺寸的视差以作为估计视差。
以上仅仅是示意性地描述本发明提供的双目视差估计方法,本发明并非以此为限制,多尺度代价聚合模块14也可以获取尺度2下的多尺度聚合代价,并由视差回归模块15仅对尺度2下的多尺度聚合代价进行视差回归,获得尺度2下的准预估视差,进一步基于步骤S230进行上采样来获得估计视差;或者多尺度代价聚合模块14也可以获取尺度3下的多尺度聚合代价,并由视差回归模块15仅对尺度3下的多尺度聚合代价进行视差回归,获得尺度3下的准预估视差,进一步基于步骤S230进行上采样来获得估计视差。本发明可以实现更多的变化方式,在此不予赘述。
本发明还提供一种双目视差估计模型训练装置,图5示出了根据本发明实施例的双目视差估计模型训练装置的模块图。双目视差估计模型训练装置300包括第一获取模块310、第一输入模块320及训练模块330。
第一获取模块310用于获取样本左图、样本右图以及视差标签。
第一输入模块320用于将所述样本左图、样本右图作为一双目视差估计模型的输入。
所述双目视差估计模型包括特征提取网络模块、匹配代价计算模块、单尺度代价聚合模块、多尺度代价聚合模块以及视差回归模型。
所述特征提取网络模块用于提取输入的左图在多个尺度上的左特征图以及提取输入的右图在多个尺度上的右特征图;
所述匹配代价计算模块用于计算同一尺度的左特征图和右特征图的匹配代价;
所述单尺度代价聚合模块用于对所述匹配代价计算模块输出的各尺度的匹配代价进行单尺度代价聚合;
所述多尺度代价聚合模块用于对所述单尺度代价聚合模块输出的单尺度聚合代价进行多尺度代价聚合;
所述视差回归模型用于对所述多尺度代价聚合模块输出的多尺度聚合代价进行视差回归,以获得左图和右图的估计视差;
训练模块330用于计算所述视差标签与所述估计视差的误差,以对所述双目视差估计模型进行训练。
图5仅仅是示意性的示出本发明提供的双目视差估计模型训练装置300的模块图,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
本发明还提供一种双目视差估计装置,图6示出了根据本发明实施例的双目视差估计装置的模块图。双目视差估计装置400包括第二获取模块410、第二输入模块420及预估模块430。
第一获取模块410用于获取待估计左图以及待估计右图。
第二输入模块420用于将所述待估计左图以及待估计右图输入经由如上所述的双目视差估计模型训练方法训练获得的双目视差估计模型,所述双目视差估计中,所述多尺度代价聚合模块仅用于对所述单尺度代价聚合模块输出的单尺度聚合代价进行基于一个尺度的多尺度代价聚合;
预估模块430用于对所述双目视差估计模型输出的准预估视差进行上采样,获得估计视差。
图6仅仅是示意性的示出本发明提供的双目视差估计装置400的模块图,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述双目视差估计模型训练方法和/或双目视差估计方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述双目视差估计模型训练方法和/或双目视差估计方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述双目视差估计模型训练方法和/或双目视差估计方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本发明的这种实施方式的电子设备600。图8显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述双目视差估计模型训练方法和/或双目视差估计方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1至图4任一幅中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述双目视差估计模型训练方法和/或双目视差估计方法。
相比现有技术,本发明的优势在于:
本发明通过采用新的网络模型结构,以及优化的模型训练方法,解决方法中计算量大,耗时长,物体边缘和无纹理区域效果差的不足,推进基于双目图片的视差估计方法在不同领域的应用。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (10)

1.一种双目视差估计模型训练方法,其特征在于,包括:
获取样本左图、样本右图以及视差标签;
将所述样本左图、样本右图作为一双目视差估计模型的输入,所述双目视差估计模型包括:
特征提取网络模块,用于提取输入的左图在多个尺度上的左特征图以及提取输入的右图在多个尺度上的右特征图;
匹配代价计算模块,用于计算同一尺度的左特征图和右特征图的匹配代价;
单尺度代价聚合模块,用于对所述匹配代价计算模块输出的各尺度的匹配代价进行单尺度代价聚合;
多尺度代价聚合模块,用于对所述单尺度代价聚合模块输出的单尺度聚合代价进行多尺度代价聚合;
视差回归模型,用于对所述多尺度代价聚合模块输出的多尺度聚合代价进行视差回归,以获得左图和右图的估计视差;
计算所述视差标签与所述估计视差的误差,以对所述双目视差估计模型进行训练。
2.如权利要求1所述的双目视差估计模型训练方法,其特征在于,同一尺度的左特征图和右特征图的匹配代价根据如下公式计算:
Figure FDA0002916420590000011
其中,Cs(d,h,w)是尺度s下,位置(h,w)处,视差d的匹配代价,其中,h和w分别是特征图的横纵坐标;
Figure FDA0002916420590000012
分别是左特征图和右特征图,<·,·>是内积运算,N是特征图的通道数。
3.如权利要求1所述的双目视差估计模型训练方法,其特征在于,各尺度的匹配代价根据如下公式进行单尺度代价聚合:
Figure FDA0002916420590000013
其中,
Figure FDA0002916420590000014
是特征图的位置p处,视差d经过单尺度聚合后的匹配代价;C是聚合前的匹配代价;K2是采样点数;pk是每个采样点k固定的偏移;Δpk是自适应偏移,由算法根据聚合前的匹配代价C计算得出;mk是自适应权重,由算法根据聚合前的匹配代价C计算得出;wk是基于所述双目视差估计模型的训练更新的参数。
4.如权利要求1所述的双目视差估计模型训练方法,其特征在于,所述单尺度代价聚合模块输出的单尺度聚合代价根据如下公式进行多尺度代价聚合:
Figure FDA0002916420590000021
Figure FDA0002916420590000022
其中,
Figure FDA0002916420590000023
是多尺度聚合后的匹配代价;
Figure FDA0002916420590000024
是t尺度下,单尺度代价聚合模块输出的单尺度聚合代价;ft是不同尺度匹配代价的变换函数:当t=k时,在该尺度下,多尺度聚合前后匹配代价恒等;当t<s时,ft表示用3x3的2D卷积进行对多尺度聚合前的匹配代价进行下采样并调整特征图的通道数;t>s时,ft表示对多尺度聚合前的匹配代价进行先上采样再用1x1的2D卷积调整特征图的通道数。
5.如权利要求1所述的双目视差估计模型训练方法,其特征在于,根据如下公式对所述多尺度代价聚合模块输出的多尺度聚合代价进行视差回归,以获得左图和右图的估计视差:
Figure FDA0002916420590000025
Figure FDA0002916420590000026
其中,
Figure FDA0002916420590000027
是位置p处的估计视差,σp(d)是位置p处视差可能是d的概率,Dmax是最大视差;
Figure FDA0002916420590000028
是位置p处的多尺度聚合代价。
6.如权利要求1所述的双目视差估计模型训练方法,其特征在于,根据如下公式计算所述视差标签与所述估计视差的误差:
Figure FDA0002916420590000029
Figure FDA0002916420590000031
其中,Ltotal是总误差,Li分别是S个尺度上的误差,L(·,·)是损失函数,V(p)代表了视差标签的位置p处是否有真值,
Figure FDA0002916420590000032
是位置p处预测的视差,Dgt(p)是真值,Dpseudo(p)是预训练网络生成的伪视差标签,λi为尺度i的误差权重。
7.如权利要求1至6任一项所述的双目视差估计模型训练方法,其特征在于,所述双目视差估计模型训练时,所述多尺度代价聚合模块分别基于每一尺寸,对所述单尺度代价聚合模块输出的单尺度聚合代价进行多尺度代价聚合以获得对应于每个尺度的多尺度聚合代价。
8.一种双目视差估计方法,其特征在于,包括:
获取待估计左图以及待估计右图;
将所述待估计左图以及待估计右图输入经由如权利要求1至7任一项所述的双目视差估计模型训练方法训练获得的双目视差估计模型,所述双目视差估计中,所述多尺度代价聚合模块仅用于对所述单尺度代价聚合模块输出的单尺度聚合代价进行基于一个尺度的多尺度代价聚合;
对所述双目视差估计模型输出的准预估视差进行上采样,获得估计视差。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行:
如权利要求1至7任一项所述的双目视差估计模型训练方法;和/或
如权利要求8所述的双目视差估计方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行:
如权利要求1至7任一项所述的双目视差估计模型训练方法;和/或
如权利要求8所述的双目视差估计方法。
CN202110109561.5A 2021-01-26 2021-01-26 双目视差估计方法、模型训练方法以及相关设备 Pending CN112861940A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110109561.5A CN112861940A (zh) 2021-01-26 2021-01-26 双目视差估计方法、模型训练方法以及相关设备
EP21922487.0A EP4280100A1 (en) 2021-01-26 2021-11-23 Binocular parallax estimation method, model training method and related device
PCT/CN2021/132577 WO2022160897A1 (zh) 2021-01-26 2021-11-23 双目视差估计方法、模型训练方法以及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110109561.5A CN112861940A (zh) 2021-01-26 2021-01-26 双目视差估计方法、模型训练方法以及相关设备

Publications (1)

Publication Number Publication Date
CN112861940A true CN112861940A (zh) 2021-05-28

Family

ID=76009437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110109561.5A Pending CN112861940A (zh) 2021-01-26 2021-01-26 双目视差估计方法、模型训练方法以及相关设备

Country Status (3)

Country Link
EP (1) EP4280100A1 (zh)
CN (1) CN112861940A (zh)
WO (1) WO2022160897A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160897A1 (zh) * 2021-01-26 2022-08-04 上海西井信息科技有限公司 双目视差估计方法、模型训练方法以及相关设备
CN118446953A (zh) * 2023-09-15 2024-08-06 荣耀终端有限公司 视差估计模型的训练方法、图像处理方法及其相关设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118447065A (zh) * 2024-07-08 2024-08-06 海纳云物联科技有限公司 双目立体匹配模型训练、预测方法及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110273537A1 (en) * 2009-01-22 2011-11-10 Huawei Technologies Co., Ltd. Method and apparatus for computing a parallax
CN110473217A (zh) * 2019-07-25 2019-11-19 沈阳工业大学 一种基于Census变换的双目立体匹配方法
CN111508013A (zh) * 2020-04-21 2020-08-07 中国科学技术大学 立体匹配方法
CN112200853A (zh) * 2020-10-16 2021-01-08 集美大学 一种基于三维卷积神经网络的渐进式实时立体匹配方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335322B (zh) * 2018-02-01 2021-02-12 深圳市商汤科技有限公司 深度估计方法和装置、电子设备、程序和介质
CN110148179A (zh) * 2019-04-19 2019-08-20 北京地平线机器人技术研发有限公司 一种训练用于估计图像视差图的神经网络模型方法、装置及介质
CN112861940A (zh) * 2021-01-26 2021-05-28 上海西井信息科技有限公司 双目视差估计方法、模型训练方法以及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110273537A1 (en) * 2009-01-22 2011-11-10 Huawei Technologies Co., Ltd. Method and apparatus for computing a parallax
CN110473217A (zh) * 2019-07-25 2019-11-19 沈阳工业大学 一种基于Census变换的双目立体匹配方法
CN111508013A (zh) * 2020-04-21 2020-08-07 中国科学技术大学 立体匹配方法
CN112200853A (zh) * 2020-10-16 2021-01-08 集美大学 一种基于三维卷积神经网络的渐进式实时立体匹配方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAOFEI XU等: "AANet: Adaptive Aggregation Network for Efficient Stereo Matching", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 1956 - 1965 *
KANG ZHANG等: "Cross-Scale Cost Aggregation for Stereo Matching", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
KANG ZHANG等: "Cross-Scale Cost Aggregation for Stereo Matching", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 31 December 2014 (2014-12-31) *
李航等: "基于改进3D卷积神经网络的代价聚合算法", 《计算机与数字工程》 *
李航等: "基于改进3D卷积神经网络的代价聚合算法", 《计算机与数字工程》, no. 09, 20 September 2020 (2020-09-20) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160897A1 (zh) * 2021-01-26 2022-08-04 上海西井信息科技有限公司 双目视差估计方法、模型训练方法以及相关设备
CN118446953A (zh) * 2023-09-15 2024-08-06 荣耀终端有限公司 视差估计模型的训练方法、图像处理方法及其相关设备

Also Published As

Publication number Publication date
EP4280100A1 (en) 2023-11-22
WO2022160897A1 (zh) 2022-08-04

Similar Documents

Publication Publication Date Title
US11321593B2 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
CN108776787B (zh) 图像处理方法及装置、电子设备、存储介质
US11392792B2 (en) Method and apparatus for generating vehicle damage information
CN108846440B (zh) 图像处理方法及装置、计算机可读介质和电子设备
US11126820B2 (en) Generating object embeddings from images
CN109858333B (zh) 图像处理方法、装置、电子设备及计算机可读介质
CN113674421B (zh) 3d目标检测方法、模型训练方法、相关装置及电子设备
KR20200044108A (ko) 단안 이미지 깊이 추정 방법 및 장치, 기기, 프로그램 및 저장 매체
CN112861940A (zh) 双目视差估计方法、模型训练方法以及相关设备
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113379813A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
JP2022185144A (ja) 対象検出方法、対象検出モデルのレーニング方法および装置
CN113780326A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN110717405B (zh) 人脸特征点定位方法、装置、介质及电子设备
CN111583417B (zh) 一种图像语义和场景几何联合约束的室内vr场景构建的方法、装置、电子设备和介质
CN112530554B (zh) 一种扫描定位方法、装置、存储介质及电子设备
CN115375657A (zh) 息肉检测模型的训练方法、检测方法、装置、介质及设备
CN113065585B (zh) 图像合成模型的训练方法、装置与电子设备
CN115375656A (zh) 息肉分割模型的训练方法、分割方法、装置、介质及设备
CN115482443A (zh) 图像特征融合及模型训练方法、装置、设备以及存储介质
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN113205131A (zh) 图像数据的处理方法、装置、路侧设备和云控平台
CN111160197A (zh) 人脸检测方法、装置、电子设备、存储介质
CN113658277B (zh) 立体匹配方法、模型训练方法、相关装置及电子设备
CN112131902A (zh) 闭环检测方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 503-3, 398 Jiangsu Road, Changning District, Shanghai 200050

Applicant after: Shanghai Xijing Technology Co.,Ltd.

Address before: Room 503-3, 398 Jiangsu Road, Changning District, Shanghai 200050

Applicant before: SHANGHAI WESTWELL INFORMATION AND TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528