CN110879959B - 生成数据集的方法及装置、利用其的测试方法及测试装置 - Google Patents
生成数据集的方法及装置、利用其的测试方法及测试装置 Download PDFInfo
- Publication number
- CN110879959B CN110879959B CN201910810599.8A CN201910810599A CN110879959B CN 110879959 B CN110879959 B CN 110879959B CN 201910810599 A CN201910810599 A CN 201910810599A CN 110879959 B CN110879959 B CN 110879959B
- Authority
- CN
- China
- Prior art keywords
- image
- test
- composite
- original image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 207
- 238000000034 method Methods 0.000 title claims abstract description 87
- 239000002131 composite material Substances 0.000 claims abstract description 157
- 238000010998 test method Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 158
- 238000004891 communication Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 11
- 238000003709 image segmentation Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 239000000758 substrate Substances 0.000 claims 5
- 238000013528 artificial neural network Methods 0.000 claims 4
- 239000000523 sample Substances 0.000 claims 4
- 238000001514 detection method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000270722 Crocodylidae Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/50—Barriers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及生成用于检测自动驾驶情形中的至少一个障碍物的CNN学习用数据集的方法及装置、利用其的测试方法及测试装置,上述方法包括:(a)步骤,学习装置获得(i)表示道路行驶情形原始图像及(ii)使用对应上述原始图像的原始标签和与上述原始图像不对应的任意特定物体的图像对应的追加标签生成的合成标签;及(b)步骤,上述学习装置使第一CNN模块利用上述原始图像及上述合成标签生成合成图像,其中,上述合成图像为在上述原始图像上合成对应上述追加标签的上述任意特定物体的图像的而得图像。
Description
技术领域
本发明涉及一种生成用于检测自动驾驶情形中的至少一个障碍物的CNN学习用数据集的方法及装置、利用其的测试方法及测试装置。
背景技术
深度卷积神经网络(Deep Convolutional Neural Network;Deep CNN)是深度学习领域发生惊人发展的核心。CNN在90年代已用于解决文字识别问题,但如现在这样被广泛使用得益于最近的研究结果。上述深度CNN在2012年的ImageNet图像分类竞赛中力压竞争对手获得冠军。之后卷积神经网络在机器学习(Machine Learning)领域中成为非常有用的工具。
另外,图像分割(Image segmentation)是作为输入接收图像(训练图像或测试图像),作为输出创建标签(label)的方法。近来随着深度学习(Deep learning)技术备受关注,图像分割也趋于更多地使用深度学习。
另外,为了检测自动驾驶情形中的障碍物而学习CNN时,学习装置需要学习在自动驾驶情形下有可能遇到的各种物体,为此学习用图像必须是包含在自动驾驶情形下可能遇到的各种物体的图像。
虽然在实际行驶情形下,道路上存在各种物体,但收集上述数据并非易事。即难以从一般行驶影像数据中获得针对道路上不常出现的特殊物体的学习图像。例如,通过一般行驶影像数据较容易获得针对人或自行车、车辆等图像数据,因此为提高检测性能可通过包含这些物体的图像进行学习,但是通过一般行驶影像数据较难获得针对老虎或鳄鱼等图像数据,因此存在不容易进行为提高对特殊物体的检测性能的学习的问题。
发明内容
本发明的目的在于解决上述的问题。
本发明的另一目的在于确保学习用图像集以用于提高检测物体的性能,该物体在自动驾驶情形中的实际道路行驶情形下,通常是不容易遇到的。
另外,本发明的又一目的在于提供用于生成看起来像真实图像的合成图像的方法,并且提供通过在合成图像中包括诸如边界框的各种信息来确保以后用于学习的数据集的方法。
为实现上述本发明的目的以及下述本发明的特征效果,本发明的特征构成如下。
根据本发明的一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的CNN学习用数据集的方法,上述方法包括:(a)步骤,学习装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,上述任意特定物体与上述原始图像不对应;及(b)步骤,上述学习装置使第一CNN模块利用上述原始图像及上述合成标签生成合成图像,其中,上述合成图像为在上述原始图像上合成与上述追加标签对应的上述任意特定物体的图像而得的图像。
在一实施例中,上述方法还包括:(c)步骤,上述学习装置使第二CNN模块获得上述合成图像,以计算表示上述合成图像为假图像还是实际图像的第一输出值,进而使上述第二CNN模块获得非合成的任意实际图像,以计算表示上述任意实际图像为假图像还是实际图像的第二输出值;及(d)步骤,上述学习装置使上述第二CNN模块比较上述第一输出值和第一GT值来计算第一损失值,比较上述第二输出值和第二GT值来计算第二损失值,通过上述第二CNN模块和上述第一CNN模块分别对上述第一损失值及第二损失值进行反向传播,从而学习上述第二CNN模块和上述第一CNN模块。
在一实施例中,在上述(d)步骤中,上述学习装置使上述第二CNN模块学习所述第一CNN模块,以提高将上述合成图像判断为实际图像的程度,使上述第二CNN模块进行学习,以提高判断对其输入的上述合成图像和所述实际图像为实际图像还是假图像的程度。
在一实施例中,在上述(a)步骤中,上述学习装置还获得(iii)至少一个随机种子值;在上述(b)步骤中,上述学习装置使上述第一CNN模块利用上述原始图像、上述合成标签及上述随机种子值生成一个以上的经调整的合成图像,其中,每个上述经调整的合成图像为在改变上述随机种子值的同时,调整包含于上述合成图像中的上述特定物体的大小、位置、颜色中的至少一部分而生成的图像。
在一实施例中,上述第一CNN模块,包括:编码层,用于对上述原始图像和上述合成标签应用预设的卷积运算来生成特征图;调整层,用于利用上述特征图及上述随机种子值生成经调整的特征图;及解码层,用于对上述经调整的特征图应用预设的解卷积运算来生成上述合成图像。
在一实施例中,在上述(a)步骤中,上述学习装置在获得上述原始图像及上述合成标签时,进一步获得(i)关于包含于上述原始图像中的一个以上的物体对应的一个以上的第一边界框的信息及(ii)关于包含于上述合成标签中的上述特定物体对应的第二边界框的信息;在上述(b)步骤中,上述学习装置进一步利用上述第一边界框的信息和上述第二边界框的信息,在上述合成图像上生成第三边界框;其中,上述第三边界框包含与(i)上述原始图像包含的上述一个以上的物体中的至少一个及(ii)上述合成标签内的上述特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
在一实施例中,利用最小轴平行矩形(Minimum Axis-parallel Rectangle)生成上述第二边界框。
在一实施例中,在上述(a)步骤中,在从多个数据集中选择上述特定物体的种类之后,通过采样上述所选择的物体的种类对应的多个掩码来生成上述追加标签。
在一实施例中,上述方法还包括:(e)步骤,上述学习装置将上述合成图像和上述合成标签添加至包含训练数据集的数据库中,上述训练数据集用于学习物体识别和图像分割。
根据本发明的另一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个数据集的测试方法,上述方法包括:(a)步骤,在执行下述过程的状态下,测试装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,上述任意特定物体与上述原始图像不对应:(I)过程,学习装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,上述任意特定物体与上述原始图像不对应,(II)过程,上述学习装置使第一CNN模块利用上述原始图像及上述合成标签生成合成图像,其中,上述合成图像为在上述原始图像上合成与上述追加标签对应的上述任意特定物体的图像而得的图像,(III)过程,上述学习装置使第二CNN模块获得上述合成图像,以计算表示上述合成图像为假图像还是实际图像的第一输出值,进而使上述第二CNN模块获得非合成的任意实际图像,以计算表示上述任意实际图像为假图像还是实际图像的第二输出值,及(IV)过程,上述学习装置使上述第二CNN模块比较上述第一输出值和第一GT值以计算第一损失值,比较上述第二输出值和第二GT值以计算第二损失值,通过上述第二CNN模块和上述第一CNN模块分别对上述第一损失值及第二损失值进行反向传播,以学习上述第二CNN模块和上述第一CNN模块;及(b)步骤,上述测试装置使上述第一CNN模块利用上述测试用原始图像及上述测试用合成标签生成合成图像,其中,上述测试用合成图像为在上述测试用原始图像上合成与上述测试用追加标签对应的上述任意测试用特定物体的图像而得的图像。
在一实施例中,在上述(a)步骤中,上述测试装置还获得(iii)至少一个随机种子值;在上述(b)步骤中,上述测试装置使上述第一CNN模块利用上述测试用原始图像、上述测试用合成标签及上述测试用随机种子值生成一个以上的测试用经调整的合成图像,其中,每个上述测试用经调整的合成图像为在改变上述测试用随机种子值的同时,调整包含于上述测试用合成图像中的上述测试用特定物体的大小、位置、颜色中的至少一部分而生成的图像。
在一实施例中,上述第一CNN模块,包括:编码层,用于对上述测试用原始图像和上述测试用合成标签应用预设的卷积运算来生成测试用特征图;调整层,用于利用上述测试用特征图及上述测试用随机种子值生成经调整的测试用特征图;及解码层,用于对上述经调整的测试用特征图应用预设的解卷积运算来生成上述测试用合成图像。
在一实施例中,在上述(a)步骤中,上述测试装置在获得上述测试用原始图像及上述测试用合成标签时,进一步获得(i)关于包含于上述测试用原始图像中的一个以上的物体对应的一个以上的第一测试用边界框的信息及(ii)关于包含于上述测试用合成标签中的上述特定物体对应的第二测试用边界框的信息;在上述(b)步骤中,上述测试装置进一步利用上述第一测试用边界框的信息及上述第二测试用边界框的信息,在上述测试用合成图像上生成第三测试用边界框;其中,上述第三测试用边界框包含与(i)上述测试用原始图像包含的上述一个以上的物体中的至少一个及(ii)对应于上述测试用合成标签内的上述测试用特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
在一实施例中,利用最小轴平行矩形(Minimum Axis-parallel Rectangle)生成上述第二测试用边界框。
在一实施例中,在上述(a)步骤中,在从多个数据集中选择上述测试用特定物体的种类之后,通过采样上述所选择的物体的种类对应的多个掩码来生成上述测试用追加标签。
根据本发明的又一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的CNN学习用数据集的学习装置,上述学习装置包括:通信部,用于获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,上述任意特定物体与上述原始图像不对应;及处理器,用于执行(I)过程,使第一CNN模块利用上述原始图像及上述合成标签生成合成图像,其中,上述合成图像为在上述原始图像上合成与上述追加标签对应的上述任意特定物体的图像而得的图像。
在一实施例中,上述处理器还执行:(II)过程,使第二CNN模块获得上述合成图像,以计算表示上述合成图像为假图像还是实际图像的第一输出值,进而使上述第二CNN模块获得非合成的任意实际图像,以计算表示上述任意实际图像为假图像还是实际图像的第二输出值;及(III)过程,使上述第二CNN模块比较上述第一输出值和第一GT值计算出第一损失值,比较上述第二输出值和第二GT值计算出第二损失值,通过上述第二CNN模块和上述第一CNN模块分别对上述第一损失值及第二损失值进行反向传播,从而学习上述第二CNN模块和上述第一CNN模块。
在一实施例中,在上述(III)过程中,上述处理器使上述第二CNN模块学习上述第一CNN模块,以提高将上述合成图像判断为实际图像的程度,使上述第二CNN模块进行学习,以提高判断对其输入的上述合成图像和上述实际图像为实际图像还是假图像的程度。
在一实施例中,上述通信部追加获得(iii)至少一个随机种子值;在上述(I)过程中,上述处理器使上述第一CNN模块利用上述原始图像、上述合成标签及上述随机种子值生成一个以上的经调整的合成图像,其中,每个上述经调整的合成图像为在改变上述随机种子值的同时,调整包含于上述合成图像中的上述特定物体的大小、位置、颜色中的至少一部分而生成的图像。
在一实施例中,上述第一CNN模块,包括:编码层,用于对上述原始图像和上述合成标签应用预设的卷积运算来生成特征图;调整层,用于利用上述特征图及上述随机种子值生成经调整的特征图;及解码层,用对上述经调整的特征图应用预设的解卷积运算来生成上述合成图像。
在一实施例中,上述通信部在获得上述原始图像及上述合成标签时,进一步获得(i)关于包含于上述原始图像中的一个以上的物体对应的一个以上的第一边界框的信息及(ii)关于包含于上述合成标签中的上述特定物体对应的第二边界框的信息;在上述(I)过程中,上述处理器进一步利用上述第一边界框的信息及上述第二边界框的信息,在上述合成图像上生成第三边界框;其中,上述第三边界框包含与(i)上述原始图像包含的上述一个以上的物体中的至少一个及(ii)上述合成标签内的上述特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
在一实施例中,利用最小轴平行矩形(Minimum Axis-parallel Rectangle)生成上述第二边界框。
在一实施例中,在从多个数据集中选择上述特定物体的种类之后,通过采样上述所选择的物体的种类对应的多个掩码来生成上述追加标签。
在一实施例中,上述处理器还执行(e)过程,将上述合成图像和上述合成标签添加至包含训练数据集的数据库中,上述训练数据集用于学习物体识别和图像分割。
根据本发明的又一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个数据集的测试装置,上述测试装置包括:通信部,用于在执行下述过程的状态下,获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,上述任意特定物体与上述原始图像不对应:(1)过程,学习装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,上述任意特定物体与上述原始图像不对应;(2)过程,上述学习装置使第一CNN模块利用上述原始图像及上述合成标签生成合成图像,其中,上述合成图像为在上述原始图像上合成与上述追加标签对应的任意特定物体的图像而得的图像;(3)过程,上述学习装置使第二CNN模块获得上述合成图像,以计算表示上述合成图像为假图像还是实际图像的第一输出值,进而使上述第二CNN模块获得非合成的任意实际图像,以计算表示上述任意实际图像为假图像还是实际图像的第二输出值;及(4)过程,上述学习装置使上述第二CNN模块比较上述第一输出值和第一GT值来计算第一损失值,比较上述第二输出值和第二GT值来计算第二损失值,通过上述第二CNN模块和上述第一CNN模块分别对上述第一损失值及第二损失值进行反向传播,从而学习上述第二CNN模块和上述第一CNN模块;及处理器,用于执行(I)过程,使上述第一CNN模块利用上述测试用原始图像及上述测试用合成标签生成测试用合成图像,其中,上述测试用合成图像为在上述测试用原始图像上合成与上述测试用追加标签对应的上述测试用特定物体的图像而得的图像。
在一实施例中,上述通信部还获得(iii)至少一个测试用随机种子值;在上述(I)过程中,上述处理器使上述第一CNN模块利用上述测试用原始图像、上述测试用合成标签及上述测试用随机种子值生成一个以上的测试用经调整的合成图像,其中,每个上述测试用经调整的合成图像为在改变上述测试用随机种子值的同时,调整包含于上述测试用合成图像中的上述测试用特定物体的大小、位置、颜色中的至少一部分而生成的图像。
在一实施例中,上述第一CNN模块,包括:编码层,用于对上述测试用原始图像和上述测试用合成标签应用预设的卷积运算来生成测试用特征图;调整层,用于利用上述测试用特征图及上述测试用随机种子值生成经调整的测试用特征图;及解码层,用于对上述经调整的测试用特征图应用预设的解卷积运算来生成上述测试用合成图像。
在一实施例中,上述通信部在获得上述测试用原始图像及上述测试用合成标签时,进一步获得(i)关于包含于上述测试用原始图像的一个以上的物体对应的一个以上的第一测试用边界框的信息及(ii)关于包含于上述测试用合成标签中的上述特定物体对应的第二测试用边界框的信息;在上述(I)过程中,上述处理器进一步利用上述第一测试用边界框的信息及上述第二测试用边界框的信息,在上述测试用合成图像上生成第三测试用边界框;其中,上述第三测试用边界框包含与(i)上述测试用原始图像包含的上述一个以上的物体中的至少一个及(ii)上述测试用合成标签内的上述测试用特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
在一实施例中,利用最小轴平行矩形(Minimum Axis-parallel Rectangle)生成上述第二测试用边界框。
在一实施例中,在从多个数据集中选择上述测试用特定物体的种类之后,通过采样上述所选择的物体的种类对应的多个掩码来生成上述测试用追加标签。
本发明具有如下发明效果。
根据本发明可以确保学习用图像集以用于提高检测物体的性能,该物体在自动驾驶情形中的实际道路行驶情形下通常是不容易遇到的。
另外,根据本发明,通过使用生成性对抗网络(Generative AdversarialNetwork,GAN)来生成与实际图像具有更高相似性的合成图像,并通过在合成图像中包括边界框等各种信息来确保用于以后学习数据集。
附图说明
本发明的上述及其他目的及特征,可通过结合如下附图进行说明的较佳实施例而更加清楚。
图1为根据本发明的学习装置的硬件构成示意图;
图2为根据本发明的第一CNN模块生成学习用数据集的过程示意图;
图3为根据本发明上述第一CNN模块与第二CNN模块对立地(Adversarial)学习上述学习用数据集的生成方式的示意图;
图4为根据本发明的上述第一CNN模块用作测试装置时如何在上述第一CNN模块内部计算输入值的示意图;
图5为根据本发明在合成图像中获得边界框的信息的过程示例图。
具体实施方式
下面参照附图对本发明进行详细说明,附图示出了可实施本发明的特定实施例的示例。详细说明这些实施例以使本领域技术人员能够充分理解。应理解本发明的各种实施例虽然不同,但无需相互排他性。例如,在此所记载的一实施例中的特定形状、结构及特性,在不脱离本发明的精神和范围的前提下,可通过其他实施例实现。另外,在不超出本发明的精神和范围的前提下,也可以对各实施例中的各构成要素的位置或布置进行变更。因此,将要后述的详细说明不构成对本发明的范围的限定,在适当说明的情况下,本发明的范围仅由所附权利要求书以及权利要求所赋予的等同物的全部范围来限定。在附图中,相似的附图标记从各个层面表示相同或类似的构成要素。
下面,结合附图对本发明的较佳实施例进行详细说明,以帮助本领域技术人员更好地理解本发明。
图1为根据本发明的学习装置的构成示意图。
如图1所示,上述学习装置100可包括第一CNN模块200及第二CNN模块300。上述第一CNN模块200及上述第二CNN模块300的输入/输出及运算过程可分别通过通信部110及处理器120实现。但是,在图1中省略了上述通信部110及上述处理器120的具体的连接关系。
为更具体说明图1的上述第一CNN模块200,首先结合图4进行说明。
如图4所示,上述第一CNN模块200可包括编码层210、调整层220及解码层230等。
具体而言,上述编码层210执行对原始图像和合成标签(synthesized label)应用预设的卷积运算以生成特征图的过程,调整层220执行利用从上述编码层最终输出的特征图及随机种子值生成经调整的特征图的过程,解码层230执行对经调整的特征图应用预设的解卷积运算以生成上述合成图像的过程。
在上述编码层上执行的上述卷积运算,具体而言,上述编码层210为生成上述特征图而获得上述原始图像和上述合成标签。上述原始图像及上述合成标签分别为三通道、单通道数据,而上述编码层210对向其进行通道智能级联(Channel-wise Concatenation)生成的四通道数据应用上述卷积运算。
另外,上述第二CNN模块300可构成为与上述第一CNN模块200类似,在此不再赘述。但是,上述第二CNN模块300与上述第一CNN模块200连通以执行本发明的特殊过程,因此,对这一部分在后面的内容中进行详细的说明。
下面,结合图2说明上述学习装置100是通过何种方式生成学习用数据集的。
图2为上述第一CNN模块生成本发明的学习用数据集的过程的示意图。
如图2所示,上述学习装置100可通过上述通信部110获得(i)表示道路上行驶情形的上述原始图像及(ii)上述合成标签。使用通过利用对应于上述原始图像的原始标签及对应于任意特定物体的图像的追加标签生成的标签来生成上述合成标签。
另外,上述原始图像和上述合成标签被输入至上述学习装置100,则上述学习装置100使上述第一CNN模块200利用上述原始图像及上述合成标签生成上述合成图像。
上述合成图像是将(i)对应上述追加标签的上述特定物体的图像合成于(ii)上述原始图像生成的。具体而言,从图2中可知,在上述原始图像上合成了对应于上述追加标签的巴士图像。上述合成图像的生成可由上述处理器120执行。
如图2所示,若获得(i)包含道路的上述原始图像、(ii)对应于包含上述道路的上述原始图像的上述原始标签及(iii)对应大型巴士的上述追加标签(此外,还可以是有可能存在于道路中但不常见的障碍物,例如牛、獐、落石等),则可将对应上述大型巴士的上述追加标签合成于上述原始标签来生成上述合成标签。之后,上述第CNN模块可将上述大型巴士的图像合成于上述原始图像,以使上述大型巴士位于上述原始图像内的上述道路,从而生成上述合成的图像。
在这里,上述合成标签可由上述学习装置100直接合成获得,或可由与上述学习装置100联动的其他装置(未图示)合成之后传递至上述学习装置100而获得。在前者的情况下,上述学习装置100可通过输入接收上述原始标签和上述追加标签。
另一方面,可使用通常的图像合成技术生成上述学习用数据集,当上述追加标签合成于上述合成标签之后,在上述原始图像上合成对应上述追加标签的图像,以使上述追加标签对应合成于上述合成标签的位置。
另外,需要说明的是表示于图2、图3、图4的上述合成标签及上述合成图像的圆圈只是用于强调追加标签及与之对应的巴士图像分别合成于上述合成标签及上述合成图像上的附图上的标记,而不是表示上述合成标签及上述合成图像中包含圆圈本身。
虽然图2中示出了上述第一CNN模块还获得随机种子值生成上述合成图像,但这不是实施本发明的所必须的。在此,“种子”是函数的输入中的一种,如果种子值不变,函数的输出值中的至少一部分特定不变。上述随机种子值为持续变化的乱数,用于使上述函数的上述输出值的特性变得多样。上述随机种子值如何被使用将在后面的内容中进行详细的说明。
另外,如上所述,当生成上述合成图像时,在上述原始图像上合成对应上述追加标签的图像的状态有可能与现实脱离,从而可经过追加的学习过程。对此结合图3进行说明。
图3为上述第一CNN模块及上述第二CNN联动对立地(Adversarial)进行学习的过程的示意图。
如图3所示,上述学习装置100使上述第一CNN模块200输出上述合成图像传递至上述第二CNN模块300,以使上述第二CNN模块输出表示判定上述合成图像为假图像还是实际图像的结果的第一输出值,另外,将任意实际图像输入至上述第二CNN模块,以计算出表示判定上述任意实际图像为假图像还是实际图像的结果的第二输出值。
另外,上述学习装置100使上述第二CNN模块比较上述第一输出值和第一GT值计算出第一损失值,比较上述第二输出值和第二GT值计算出第二损失,将上述第一及上述第二损失值分别通过上述第二CNN模块和上述第一CNN模块进行反向传播,以学习上述第二CNN模块和上述第一CNN模块。
这利用生成性对抗网络(GAN,Generative Adversarial Network)技术,上述第一CNN模块起到所谓生成器(Generator)的作用,上述第二CNN模块起到所谓鉴别器(Discriminator)的作用。具体而言,上述第一CNN模块进行学习生成与实际图像类似的上述合成图像,以提高可欺骗程度,即,朝着使上述第二CNN模块将上述合成图像区分为实际图像的程度增加的方向进行学习。上述第二CNN模块朝着正确区分各上述合成图像和上述任意实际图像属于实际图像或假图像中的哪一类的程度增加的方向进行学习。
若对立地(Adversarial)进行上述过程,则上述第二CNN模块最后不能区分实际图像和合成图像,到了这个时候学习结束。
但是,当通过上述方式进行学习时,存在只能获得具有一定特性的合成图像的风险。因此,再参见图2,如上所述,上述第一CNN模块200追加获得上述随机种子值,上述学习装置100可使上述第一CNN模块200利用上述原始图像、上述合成标签及上述随机种子值生成多个上述合成图像。
若上述第一CNN模块没有追加获得上述随机种子值或获得恒定的种子值,则上述第一CNN模块只能创建单纯合成上述大型巴士的图像的上述合成图像,难以反映学习所需的各种情况。为弥补上述缺点,追加输入持续变换为各种值的上述随机种子值,以生成上述巴士的颜色、形状及位置中的至少一种不同的各种上述合成图像。
另外,上述第一CNN模块还可包含边界框的信息来生成上述合成图像。虽然会在后面的内容中进行详细的说明,但本发明的目的在于生成用于自动驾驶情形时CNN的参数学习的各种图像集,当生成包含关于上述边界框的信息的上述合成图像时,上述第一CNN模块利用关于上述边界框的信息更容易学习CNN的上述参数。对此将在后面的内容中进行详细的说明。
接着,图4表示上述第一CNN模块用作测试装置时,对输入值进行各种运算的过程。
如图4所示,上述测试装置可包括上述第一CNN模块200,如上所述,上述第一CNN模块200可包括编码层210、调整层220及解码层230。这与在图3所示的上述学习装置中完成学习后去除上述第二CNN模块的结构相同。
具备上述结构的上述测试装置,可通过改变上述随机种子值生成具备各种特性的上述合成图像。即上述一个以上的合成图像可添加至上述学习用数据集,以用于学习物体检测(object detection)或语义分割(semantic segmentation)等。另外,与上述学习装置的示例相同,在上述测试装置中上述随机种子值也不是必须的。
另外,如上所述,上述测试装置可生成包含关于上述边界框的信息的上述合成图像,以帮助自动驾驶装置中的CNN的学习过程。
如图2所示,在上述第一CNN模块200获得上述原始图像及上述合成标签时,获得关于包含于上述原始图像中的一个以上的物体对应的一个以上的第一边界框的信息及关于上述特定物体对应的第二边界框的信息。之后,上述第一CNN模块利用上述关于第一边界框的信息及上述关于第二边界框的信息,在上述合成图像上追加生成第三边界框。
上述第二边界框可利用各种方式生成,尤其可利用最小轴平行矩形(MinimumAxis-parallel Rectangle)方式生成。上述最小轴平行矩形(Minimum Axis-parallelRectangle)是指在图像上生成包含目标物体的所有点的、具备与轴平行的边的最少宽度的矩形,以生成边界框的方式。
上述第三边界框包含(i)包含于上述原始图像的一个以上的物体中的至少一个及(ii)关于上述合成标签的上述特定物体对应的框中的一个或基于此细微地变更大小或位置等的框。上述过程可通过参考图5获得更具体的理解。
图5为根据本发明在合成图像中获得关于边界框的信息的过程示例图。
如图5所示,在上述合成图像上,除上述原始图像上存在的边界框之外,还追加存在对应上述追加标签的上述大型巴士的边界框。
如上所述,这些上述关于边界框的信息,之后会对自动驾驶装置的学习提供帮助,尤其能对用于上述物体检测的学习提供帮助。在检测对象时,一般需要生成与之对应的边界框,而根据本发明一实施例,可大幅缩短生成上述边界框的时间。
另外,上述追加标签可利用各种方式生成,当从多个数据集中选择上述特定物体的种类之后,上述追加标签也可通过采样上述特定物体的上述所选择的种类对应的多个掩码生成。
假设选择獐为所要学习的物体的种类,则可利用已获得的獐的掩码中的部分掩码生成对应獐的图像的标签。
通过上述方法生成上述合成图像和上述合成标签,则可将其添加至包含用于学习物体检测及图像分割中的至少一种的学习用数据集的数据库中。
本领域技术人员可理解,上述说明的图像,例如原始图像、原始标签及追加标签等图像数据的收发可通过学习装置及测试装置的通信部完成,用于执行特征图和计算的数据可通过学习装置及测试装置的处理器(及/或存储器)保持/维护,卷积运算、解卷积运算、损失值计算过程可主要通过学习装置及测试装置的处理器执行,但本发明不限于此。
上述根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机组件执行,并且可以记录在计算机可读的记录媒介。上述计算机可读的记录媒介可单独或组合地包含程序指令、数据文件、数据结构等。记录在上述计算机可读记录媒介中的程序指令可以是为本发明特殊设计配置的,也可以是软件领域公开使用的。计算机可读记录媒介包括硬盘、软盘及磁带等磁性媒介、CD-ROM、DVD等光媒介、光磁软盘(Floptical Disk)等磁光媒介(Magneto-Optical Media)及ROM、RAM、闪存等可存储及执行程序指令的硬件设备。程序指令不仅包括编译器中产生的机器语言代码,而且还包括使用翻译器等在计算机中执行的高级语言代码。上述硬件设备可以被配置为由一个以上的软件模块操作以执行本发明的过程,反之亦然。
如上所述,通过具体的组件等特定事项和有限的实施例和附图对本发明进行了说明,而这只是为了帮助理解本发明所提供的,本发明不受上述事实的限制,本领域的普通技术人员应当理解,可以对本发明进行修改、变形或者等同替换。
上述实施例仅用以说明本发明而非限制,而在不脱离本发明的精神范围内,与权利要求书均等或等价的变化均应涵盖在本发明权利要求范围中。
Claims (36)
1.一种生成用于检测自动驾驶情形中的至少一个障碍物的卷积神经网络学习用数据集的方法,其特征在于,包括:
(a)步骤,学习装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应;及
(b)步骤,所述学习装置使第一卷积神经网络模块利用所述原始图像及所述合成标签生成合成图像;
(c)步骤,所述学习装置使第二卷积神经网络模块获得所述合成图像,以计算表示所述合成图像为假图像还是实际图像的第一输出值,进而使所述第二卷积神经网络模块获得非合成的任意实际图像,以计算表示所述任意实际图像为假图像还是实际图像的第二输出值;及
(d)步骤,所述学习装置使所述第二卷积神经网络模块比较所述第一输出值和第一地面实况值来计算第一损失值,比较所述第二输出值和第二地面实况值来计算第二损失值,通过所述第二卷积神经网络模块和所述第一卷积神经网络模块分别对所述第一损失值及第二损失值进行反向传播,从而学习所述第二卷积神经网络模块和所述第一卷积神经网络模块;
其中,所述合成图像为在所述原始图像上合成与所述追加标签对应的所述任意特定物体的图像而得的图像。
2.根据权利要求1所述的方法,其特征在于,
在所述(d)步骤中,所述学习装置使所述第二卷积神经网络模块学习所述第一卷积神经网络模块,以提高将所述合成图像判断为实际图像的程度,使所述第二卷积神经网络模块进行学习,以提高判断对其输入的所述合成图像和所述实际图像为实际图像还是假图像的程度。
3.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,所述学习装置还获得(iii)至少一个随机种子值;
在所述(b)步骤中,所述学习装置使所述第一卷积神经网络模块利用所述原始图像、所述合成标签及所述随机种子值生成一个以上的经调整的合成图像,其中,每个所述经调整的合成图像是在改变所述随机种子值的同时,调整包含于所述合成图像中的所述特定物体的大小、位置、颜色中的至少一部分而生成的图像。
4.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,所述学习装置在获得所述原始图像及所述合成标签时,进一步获得(i)关于包含于所述原始图像中的一个以上的物体对应的一个以上的第一边界框的信息及(ii)关于包含于所述合成标签中的所述特定物体对应的第二边界框的信息;
在所述(b)步骤中,所述学习装置进一步利用所述第一边界框的信息和所述第二边界框的信息,在所述合成图像上生成第三边界框;
其中,所述第三边界框包含与(i)所述原始图像包含的所述一个以上的物体中的至少一个及(ii)所述合成标签内的所述特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
5.根据权利要求4所述的方法,其特征在于,
利用最小轴平行矩形生成所述第二边界框。
6.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,在从多个数据集中选择所述特定物体的种类之后,通过采样所选择的物体的种类对应的多个掩码来生成所述追加标签。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
(e)步骤,所述学习装置将所述合成图像和所述合成标签添加至包含训练数据集的数据库中,所述训练数据集用于学习物体识别和图像分割。
8.一种生成用于检测自动驾驶情形中的至少一个障碍物的卷积神经网络学习用数据集的方法,其特征在于,包括:
(a)步骤,学习装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应;及
(b)步骤,所述学习装置使第一卷积神经网络模块利用所述原始图像及所述合成标签生成合成图像,
其中,所述合成图像为在所述原始图像上合成与所述追加标签对应的所述任意特定物体的图像而得的图像;
其中在所述(a)步骤中,所述学习装置还获得(iii)至少一个随机种子值;
其中在所述(b)步骤中,所述学习装置使所述第一卷积神经网络模块利用所述原始图像、所述合成标签及所述随机种子值生成一个以上的经调整的合成图像,
其中,每个所述经调整的合成图像是在改变所述随机种子值的同时,调整包含于所述合成图像中的所述特定物体的大小、位置、颜色中的至少一部分而生成的图像,
其中,所述第一卷积神经网络模块,包括:
编码层,用于对所述原始图像和所述合成标签应用预设的卷积运算来生成特征图;
调整层,用于利用所述特征图及所述随机种子值生成经调整的特征图;及
解码层,用于对所述经调整的特征图应用预设的解卷积运算来生成所述合成图像。
9.根据权利要求8所述的方法,其特征在于,
在所述(a)步骤中,所述学习装置在获得所述原始图像及所述合成标签时,进一步获得(i)关于包含于所述原始图像中的一个以上的物体对应的一个以上的第一边界框的信息及(ii)关于包含于所述合成标签中的所述特定物体对应的第二边界框的信息;
在所述(b)步骤中,所述学习装置进一步利用所述第一边界框的信息和所述第二边界框的信息,在所述合成图像上生成第三边界框;
其中,所述第三边界框包含与(i)所述原始图像包含的所述一个以上的物体中的至少一个及(ii)所述合成标签内的所述特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
10.根据权利要求9所述的方法,其特征在于,
利用最小轴平行矩形生成所述第二边界框。
11.根据权利要求8所述的方法,其特征在于,
在所述(a)步骤中,在从多个数据集中选择所述特定物体的种类之后,通过采样所选择的物体的种类对应的多个掩码来生成所述追加标签。
12.根据权利要求8所述的方法,其特征在于,所述方法还包括:
(e)步骤,所述学习装置将所述合成图像和所述合成标签添加至包含训练数据集的数据库中,所述训练数据集用于学习物体识别和图像分割。
13.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个数据集的测试方法,其特征在于,所述方法包括:
(a)步骤,在执行下述过程的状态下,测试装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应:(I)过程,学习装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应,(II)过程,所述学习装置使第一卷积神经网络模块利用所述原始图像及所述合成标签生成合成图像,其中,所述合成图像为在所述原始图像上合成与所述追加标签对应的所述任意特定物体的图像而得的图像,(III)过程,所述学习装置使第二卷积神经网络模块获得所述合成图像,以计算表示所述合成图像为假图像还是实际图像的第一输出值,进而使所述第二卷积神经网络模块获得非合成的任意实际图像,以计算表示所述任意实际图像为假图像还是实际图像的第二输出值,及(IV)过程,所述学习装置使所述第二卷积神经网络模块比较所述第一输出值和第一地面实况值来计算第一损失值,比较所述第二输出值和第二地面实况值来计算第二损失值,通过所述第二卷积神经网络模块和所述第一卷积神经网络模块分别对所述第一损失值及第二损失值进行反向传播,从而学习所述第二卷积神经网络模块和所述第一卷积神经网络模块;及
(b)步骤,所述测试装置使所述第一卷积神经网络模块利用测试用原始图像及测试用合成标签生成合成图像,其中,所述测试用合成图像为在所述测试用原始图像上合成与测试用追加标签对应的任意测试用特定物体的图像而得的图像。
14.根据权利要求13所述的方法,其特征在于,
在所述(a)步骤中,所述测试装置还获得(iii)至少一个随机种子值;
在所述(b)步骤中,所述测试装置使所述第一卷积神经网络模块利用所述测试用原始图像、所述测试用合成标签及测试用随机种子值生成一个以上的测试用经调整的合成图像,其中,每个所述测试用经调整的合成图像是在改变所述测试用随机种子值的同时,调整包含于所述测试用合成图像中的所述测试用特定物体的大小、位置、颜色中的至少一部分而生成的图像。
15.根据权利要求14所述的方法,其特征在于,
所述第一卷积神经网络模块,包括:
编码层,用于对所述测试用原始图像和所述测试用合成标签应用预设的卷积运算来生成测试用特征图;
调整层,用于利用所述测试用特征图及所述测试用随机种子值生成经调整的测试用特征图;及
解码层,用于对所述经调整的测试用特征图应用预设的解卷积运算来生成所述测试用合成图像。
16.根据权利要求13所述的方法,其特征在于,
在所述(a)步骤中,所述测试装置在获得所述测试用原始图像及所述测试用合成标签时,进一步获得(i)关于包含于所述测试用原始图像中的一个以上的物体对应的一个以上的第一测试用边界框的信息及(ii)关于包含于所述测试用合成标签中的所述特定物体对应的第二测试用边界框的信息;
在所述(b)步骤中,所述测试装置进一步利用所述第一测试用边界框的信息及所述第二测试用边界框的信息,在所述测试用合成图像上生成第三测试用边界框;
其中,所述第三测试用边界框包含与(i)所述测试用原始图像包含的所述一个以上的物体中的至少一个及(ii)所述测试用合成标签内的所述测试用特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
17.根据权利要求16所述的方法,其特征在于,
利用最小轴平行矩形生成所述第二测试用边界框。
18.根据权利要求13所述的方法,其特征在于,
在所述(a)步骤中,在从多个数据集中选择所述测试用特定物体的种类之后,通过采样所选择的物体的种类对应的多个掩码来生成所述测试用追加标签。
19.一种生成用于检测自动驾驶情形中的至少一个障碍物的卷积神经网络学习用数据集的学习装置,其特征在于,包括:
通信部,用于获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应;及
处理器,用于执行(I)过程,使第一卷积神经网络模块利用所述原始图像及所述合成标签生成合成图像,
所述处理器还执行:(II)过程,使第二卷积神经网络模块获得所述合成图像,以计算表示所述合成图像为假图像还是实际图像的第一输出值,进而使所述第二卷积神经网络模块获得非合成的任意实际图像,以计算表示所述任意实际图像为假图像还是实际图像的第二输出值;及(III)过程,使所述第二卷积神经网络模块比较所述第一输出值和第一地面实况值来计算第一损失值,比较所述第二输出值和第二地面实况值来计算第二损失值,通过所述第二卷积神经网络模块和所述第一卷积神经网络模块分别对所述第一损失值及第二损失值进行反向传播,从而学习所述第二卷积神经网络模块和所述第一卷积神经网络模块;
其中,所述合成图像为在所述原始图像上合成与所述追加标签对应的所述任意特定物体的图像而得的图像。
20.根据权利要求19所述的学习装置,其特征在于,
在所述(III)过程中,所述处理器使所述第二卷积神经网络模块学习所述第一卷积神经网络模块,以提高将所述合成图像判断为实际图像的程度,使所述第二卷积神经网络模块进行学习,以提高判断对其输入的所述合成图像和所述实际图像为实际图像还是假图像的程度。
21.根据权利要求19所述的学习装置,其特征在于,
所述通信部还获得(iii)至少一个随机种子值;
在所述(I)过程中,所述处理器使所述第一卷积神经网络模块利用所述原始图像、所述合成标签及所述随机种子值生成一个以上的经调整的合成图像,其中,每个所述经调整的合成图像是在改变所述随机种子值的同时,调整包含于所述合成图像中的所述特定物体的大小、位置、颜色中的至少一部分而生成的图像。
22.根据权利要求19所述的学习装置,其特征在于,
所述通信部在获得所述原始图像及所述合成标签时,进一步获得(i)关于包含于所述原始图像中的一个以上的物体对应的一个以上的第一边界框的信息及(ii)关于包含于所述合成标签中的所述特定物体对应的第二边界框的信息;
在所述(I)过程中,所述处理器进一步利用所述第一边界框的信息及所述第二边界框的信息,在所述合成图像上生成第三边界框;
其中,所述第三边界框包含与(i)所述原始图像包含的所述一个以上的物体中的至少一个及(ii)所述合成标签内的所述特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
23.根据权利要求22所述的学习装置,其特征在于,
利用最小轴平行矩形生成所述第二边界框。
24.根据权利要求19所述的学习装置,其特征在于,
在从多个数据集中选择所述特定物体的种类之后,通过采样所选择的物体的种类对应的多个掩码来生成所述追加标签。
25.根据权利要求19所述的学习装置,其特征在于,
所述处理器还执行(e)过程,将所述合成图像和所述合成标签添加至包含训练数据集的数据库中,所述训练数据集用于学习物体识别和图像分割。
26.一种生成用于检测自动驾驶情形中的至少一个障碍物的卷积神经网络学习用数据集的学习装置,其特征在于,包括:
通信部,用于获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应;及
处理器,用于执行(I)过程,使第一卷积神经网络模块利用所述原始图像及所述合成标签生成合成图像,其中所述合成图像为在所述原始图像上合成与所述追加标签对应的所述任意特定物体的图像而得的图像,
其中,所述通信部还获得(iii)至少一个随机种子值;
在所述(I)过程中,所述处理器使所述第一卷积神经网络模块利用所述原始图像、所述合成标签及所述随机种子值生成一个以上的经调整的合成图像,其中,每个所述经调整的合成图像是在改变所述随机种子值的同时,调整包含于所述合成图像中的所述特定物体的大小、位置、颜色中的至少一部分而生成的图像;
其中,所述第一卷积神经网络模块,包括:
编码层,用于对所述原始图像和所述合成标签应用预设的卷积运算来生成特征图;
调整层,用于利用所述特征图及所述随机种子值生成经调整的特征图;及
解码层,用对所述经调整的特征图应用预设的解卷积运算来生成所述合成图像。
27.根据权利要求26所述的学习装置,其特征在于,
所述通信部在获得所述原始图像及所述合成标签时,进一步获得(i)关于包含于所述原始图像中的一个以上的物体对应的一个以上的第一边界框的信息及(ii)关于包含于所述合成标签中的所述特定物体对应的第二边界框的信息;
在所述(I)过程中,所述处理器进一步利用所述第一边界框的信息及所述第二边界框的信息,在所述合成图像上生成第三边界框;
其中,所述第三边界框包含与(i)所述原始图像包含的所述一个以上的物体中的至少一个及(ii)所述合成标签内的所述特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
28.根据权利要求27所述的学习装置,其特征在于,
利用最小轴平行矩形生成所述第二边界框。
29.根据权利要求26所述的学习装置,其特征在于,
在从多个数据集中选择所述特定物体的种类之后,通过采样所选择的物体的种类对应的多个掩码来生成所述追加标签。
30.根据权利要求26所述的学习装置,其特征在于,
所述处理器还执行(e)过程,将所述合成图像和所述合成标签添加至包含训练数据集的数据库中,所述训练数据集用于学习物体识别和图像分割。
31.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个数据集的测试装置,其特征在于,包括:
通信部,用于在执行下述过程的状态下,获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应:(1)过程,学习装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签和与任意特定物体的图像对应的追加标签得到的合成标签,其中,所述任意特定物体与所述原始图像不对应;(2)过程,所述学习装置使第一卷积神经网络模块利用所述原始图像及所述合成标签生成合成图像,其中,所述合成图像为在所述原始图像上合成与所述追加标签对应的任意特定物体的图像而得的图像;(3)过程,所述学习装置使第二卷积神经网络模块获得所述合成图像,以计算表示所述合成图像为假图像还是实际图像的第一输出值,进而使所述第二卷积神经网络模块获得非合成的任意实际图像,以计算表示所述任意实际图像为假图像还是实际图像的第二输出值;及(4)过程,所述学习装置使所述第二卷积神经网络模块比较所述第一输出值和第一地面实况值来计算第一损失值,比较所述第二输出值和第二地面实况值来计算第二损失值,通过所述第二卷积神经网络模块和所述第一卷积神经网络模块分别对所述第一损失值及第二损失值进行反向传播,从而学习所述第二卷积神经网络模块和所述第一卷积神经网络模块;及
处理器,用于执行(I)过程,使所述第一卷积神经网络模块利用测试用原始图像及测试用合成标签生成测试用合成图像,其中,所述测试用合成图像为在所述测试用原始图像上合成与测试用追加标签对应的测试用特定物体的图像而得的图像。
32.根据权利要求31所述的测试装置,其特征在于,
所述通信部还获得(iii)至少一个测试用随机种子值;
在所述(I)过程中,所述处理器使所述第一卷积神经网络模块利用所述测试用原始图像、所述测试用合成标签及所述测试用随机种子值生成一个以上的测试用经调整的合成图像,其中,每个所述经调整的测试用合成图像为在改变所述测试用随机种子值的同时,调整包含于所述测试用合成图像中的所述测试用特定物体的大小、位置、颜色中的至少一部分而生成的图像。
33.根据权利要求32所述的测试装置,其特征在于,
所述第一卷积神经网络模块,包括:
编码层,用于对所述测试用原始图像和所述测试用合成标签应用预设的卷积运算来生成测试用特征图;
调整层,用于利用所述测试用特征图及所述测试用随机种子值生成经调整的测试用特征图;及
解码层,用于对所述经调整的测试用特征图应用预设的解卷积运算来生成所述测试用合成图像。
34.根据权利要求31所述的测试装置,其特征在于,
所述通信部在获得所述测试用原始图像及所述测试用合成标签时,进一步获得(i)关于包含于所述测试用原始图像的一个以上的物体对应的一个以上的第一测试用边界框的信息及(ii)关于包含于所述测试用合成标签中的所述特定物体对应的第二测试用边界框的信息;
在所述(I)过程中,所述处理器进一步利用所述第一测试用边界框的信息及所述第二测试用边界框的信息,在所述测试用合成图像上生成第三测试用边界框;
其中,所述第三测试用边界框包含与(i)所述测试用原始图像包含的所述一个以上的物体中的至少一个及(ii)所述测试用合成标签内的所述测试用特定物体对应的至少一个框、或基于(i)和(ii)所对应的框被细微地变更大小或位置的经调整的框。
35.根据权利要求34所述的测试装置,其特征在于,
利用最小轴平行矩形生成所述第二测试用边界框。
36.根据权利要求31所述的测试装置,其特征在于,
在从多个数据集中选择所述测试用特定物体的种类之后,通过采样所选择的物体的种类对应的多个掩码来生成所述测试用追加标签。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/121,635 US10311335B1 (en) | 2018-09-05 | 2018-09-05 | Method and device for generating image data set to be used for learning CNN capable of detecting obstruction in autonomous driving circumstance, and testing method, and testing device using the same |
US16/121,635 | 2018-09-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110879959A CN110879959A (zh) | 2020-03-13 |
CN110879959B true CN110879959B (zh) | 2023-09-01 |
Family
ID=66286231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910810599.8A Active CN110879959B (zh) | 2018-09-05 | 2019-08-29 | 生成数据集的方法及装置、利用其的测试方法及测试装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10311335B1 (zh) |
EP (1) | EP3620955A1 (zh) |
JP (1) | JP6855082B2 (zh) |
KR (1) | KR102279350B1 (zh) |
CN (1) | CN110879959B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6585995B2 (ja) * | 2015-11-06 | 2019-10-02 | クラリオン株式会社 | 画像処理システム |
CN108830277B (zh) * | 2018-04-20 | 2020-04-21 | 平安科技(深圳)有限公司 | 语义分割模型的训练方法、装置、计算机设备和存储介质 |
KR102190527B1 (ko) * | 2019-02-28 | 2020-12-14 | 현대모비스 주식회사 | 자동 영상 합성 장치 및 방법 |
US12046000B2 (en) | 2019-06-25 | 2024-07-23 | Nec Corporation | Learning device, object detection device, learning method, and recording medium |
US11182652B2 (en) * | 2019-08-16 | 2021-11-23 | Toyota Motor Engineering & Manufacturing North America, Inc. | Methods and system for inferring perception based on augmented feature maps of a perception network |
JP7417085B2 (ja) * | 2020-03-16 | 2024-01-18 | 日本製鉄株式会社 | 深層学習装置、画像生成装置及び深層学習方法 |
WO2021201774A1 (en) * | 2020-03-31 | 2021-10-07 | Agency For Science, Technology And Research | Method and system for determining a trajectory of a target object |
CN112200040A (zh) * | 2020-09-28 | 2021-01-08 | 北京小米松果电子有限公司 | 遮挡图像检测方法、装置及介质 |
KR102520133B1 (ko) | 2020-10-21 | 2023-04-11 | 주식회사 팀솔루션 | 기계 학습용 이미지 데이터 생성 방법 및 그 장치 |
KR102256409B1 (ko) * | 2020-11-23 | 2021-05-25 | 주식회사 에이모 | 학습 데이터 세트를 생성하는 방법 및 학습 데이터 세트를 생성하기 위한 컴퓨터 장치 |
KR102583586B1 (ko) * | 2020-11-30 | 2023-10-05 | 성균관대학교산학협력단 | Multi-class 데이터 잠재공간 분리를 위한 오토인코더 모델 |
FR3119697A1 (fr) * | 2021-02-05 | 2022-08-12 | Psa Automobiles Sa | Procédé de génération d’une base de données d’images pour l’entrainement d’un réseau de neurones artificiels destiné à être implémenté à bord d’un véhicule automobile |
TWI795752B (zh) * | 2021-03-30 | 2023-03-11 | 歐特明電子股份有限公司 | 行車智能系統學習的開發裝置及其開發方法 |
US12050660B2 (en) * | 2021-05-05 | 2024-07-30 | Motional Ad Llc | End-to-end system training using fused images |
KR102354681B1 (ko) * | 2021-11-08 | 2022-01-24 | 주식회사 테스트웍스 | 신경망 모델 기반의 이미지 증강 방법, 서버 및 컴퓨터 프로그램 |
WO2024136373A1 (en) * | 2022-12-19 | 2024-06-27 | Samsung Electronics Co., Ltd. | Method and electronic device for neuro-symbolic learning of artificial intelligence model |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767565B2 (en) * | 2015-08-26 | 2017-09-19 | Digitalglobe, Inc. | Synthesizing training data for broad area geospatial object detection |
US10049308B1 (en) * | 2017-02-21 | 2018-08-14 | A9.Com, Inc. | Synthesizing training data |
-
2018
- 2018-09-05 US US16/121,635 patent/US10311335B1/en active Active
-
2019
- 2019-04-25 EP EP19171113.4A patent/EP3620955A1/en active Pending
- 2019-08-27 KR KR1020190105466A patent/KR102279350B1/ko active IP Right Grant
- 2019-08-29 CN CN201910810599.8A patent/CN110879959B/zh active Active
- 2019-09-03 JP JP2019160649A patent/JP6855082B2/ja active Active
Non-Patent Citations (1)
Title |
---|
Ting-Chun Wang et al..High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs.《URL,HTTPS://arxiv.org》.2018,1-14. * |
Also Published As
Publication number | Publication date |
---|---|
KR20200027885A (ko) | 2020-03-13 |
US10311335B1 (en) | 2019-06-04 |
JP6855082B2 (ja) | 2021-04-07 |
JP2020038667A (ja) | 2020-03-12 |
KR102279350B1 (ko) | 2021-07-21 |
EP3620955A1 (en) | 2020-03-11 |
CN110879959A (zh) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110879959B (zh) | 生成数据集的方法及装置、利用其的测试方法及测试装置 | |
Kondapally et al. | Towards a Transitional Weather Scene Recognition Approach for Autonomous Vehicles | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
CN110879960B (zh) | 生成卷积神经网络学习用图像数据集的方法及计算装置 | |
Yang et al. | Spatio-temporal domain awareness for multi-agent collaborative perception | |
Ye et al. | Monocular 3d object detection via feature domain adaptation | |
US11797845B2 (en) | Model learning device, model learning method, and program | |
CN108647585A (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN113486726A (zh) | 一种基于改进卷积神经网络的轨道交通障碍物检测方法 | |
JP2018097807A (ja) | 学習装置 | |
CN109154938B (zh) | 使用离散非踪迹定位数据将数字图中的实体分类 | |
CN110874566A (zh) | 生成数据集的方法及装置、利用其的学习方法及学习装置 | |
CN111742345A (zh) | 通过着色的视觉跟踪 | |
CN112307978A (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
Liu et al. | Towards vehicle-to-everything autonomous driving: A survey on collaborative perception | |
US11436452B2 (en) | System and method for label augmentation in video data | |
GB2579262A (en) | Space-time memory network for locating target object in video content | |
KR20230073751A (ko) | 레이아웃 기반의 동일 화풍 영상 생성 시스템 및 방법 | |
Li et al. | S2r-vit for multi-agent cooperative perception: Bridging the gap from simulation to reality | |
Zhang et al. | A quality index metric and method for online self-assessment of autonomous vehicles sensory perception | |
Al Mamun et al. | Efficient lane marking detection using deep learning technique with differential and cross-entropy loss. | |
CN111178363A (zh) | 文字识别方法、装置、电子设备以及可读存储介质 | |
CN115393625A (zh) | 从粗略标记进行图像分段的半监督式训练 | |
Yi et al. | Improving synthetic to realistic semantic segmentation with parallel generative ensembles for autonomous urban driving | |
Fan et al. | Autonomous Vehicle Vision 2021: ICCV Workshop Summary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |