CN113139072A - 数据标注方法、装置和电子设备 - Google Patents
数据标注方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113139072A CN113139072A CN202110427397.2A CN202110427397A CN113139072A CN 113139072 A CN113139072 A CN 113139072A CN 202110427397 A CN202110427397 A CN 202110427397A CN 113139072 A CN113139072 A CN 113139072A
- Authority
- CN
- China
- Prior art keywords
- data
- labeling
- annotation
- model
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 200
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 12
- 238000012549 training Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 238000013136 deep learning model Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种数据标注方法、装置和电子设备。其中,该方法包括:获取目标数据;将目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,数据标注模型包含多个数据标注子模型,数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。其中,数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中,使用数据标注模型进行数据标注,可以代替人工标注,从而提高数据标注的效率,降低数据标注低成本;使用包含多个数据标注子模型的数据标注模型进行数据标注,可以获得比较好的标注效果。
Description
技术领域
本发明涉及深度学习和自动驾驶的技术领域,尤其是涉及一种数据标注方法、装置和电子设备。
背景技术
目前,自动驾驶使用的深度学习模型在训练时需要使用标注过的数据,上述标注数据的来源主要分为两种,一部分是公开数据集中的数据,另一部分是自采数据然后再人工标注的数据。
然而,公开数据集数据获取的场景通常与模型的实际应用场景并不一致,导致模型的效果不佳。例如:很多公开数据集的数据是在地区A的道路采集的,道路结构、车流量、行驶规则、行驶习惯、甚至传感器的清晰度、安装位置均与模型的实际应用场景地区B不同,会带来很大的数据差异性,而基于这些数据训练出的模型,在地区B使用的效果必然达不到预期。
此外,人工标注数据则存在标注效率低、成本高的问题。人工标注数据需要人工一张一张标注每个图像,人眼去识别并手动给出目标的类别,并绘制出目标的边界框,每张图片的标注时间长,尤其是当图片中的目标比较多时,标注时间成倍增加。因此人工标注的效率比较低,时间成本和经济成本都很高,不利于深度学习模型的训练和模型性能的提高。
发明内容
有鉴于此,本发明的目的在于提供一种数据标注方法、装置和电子设备,以提高标注效率,降低标注成本。
第一方面,本发明实施例提供了一种数据标注方法,方法包括:获取目标数据;将目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,数据标注模型包含多个数据标注子模型,数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。
在本发明较佳的实施例中,上述获取目标数据的步骤,包括:在指定场景中采集目标数据;对采集的目标数据进行数据清洗。
在本发明较佳的实施例中,上述数据清洗至少包括以下之一:灰度直方图处理、图像信息熵处理、图像哈希相似度处理。
在本发明较佳的实施例中,上述将目标数据输入预先训练完成的数据标注模型中,输出最终标注结果的步骤,包括:确定各个数据标注子模型的泛化能力;将目标数据输入预先训练完成的数据标注模型中,基于泛化能力输出最终标注结果。
在本发明较佳的实施例中,上述确定各个数据标注子模型的泛化能力的步骤,包括:获取多个公开数据集,公开数据集包含多个原始数据和原始数据对应的标注真值;从多个公开数据集中随机提取数据,将提取的数据组合为混合数据集;使用各个数据标注子模型标注混合数据集的数据,得到各个数据标注子模型的第一标注结果;基于第一标注结果和混合数据集中该数据的标注真值,确定各个数据标注子模型的泛化能力。
在本发明较佳的实施例中,上述将目标数据输入预先训练完成的数据标注模型中,基于泛化能力输出最终标注结果的步骤,包括:将目标数据输入各个数据标注子模型中,得到各个数据标注子模型的第二标注结果;基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力,输出最终标注结果。
在本发明较佳的实施例中,上述基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力,输出最终标注结果的步骤,包括:基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力,确定各个数据标注子模型的置信度;将置信度最高的数据标注子模型的第二标注结果,作为最终标注结果。
第二方面,本发明实施例还提供一种数据标注装置,装置包括:目标数据获取模块,用于获取目标数据;标注结果输出模块,用于将目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,数据标注模型包含多个数据标注子模型,数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。
第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述的数据标注方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述的数据标注方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种数据标注方法、装置和电子设备,将获取的目标数据输入预先训练完成的数据标注模型中,输出最终标注结果。其中,数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中,使用数据标注模型进行数据标注,可以代替人工标注,从而提高数据标注的效率,降低数据标注低成本;使用包含多个数据标注子模型的数据标注模型进行数据标注,可以获得比较好的标注效果。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据标注方法的流程图;
图2为本发明实施例提供的另一种数据标注方法的流程图;
图3为本发明实施例提供的一种数据标注方法的示意图;
图4为本发明实施例提供的一种泛化能力评价流程的示意图;
图5为本发明实施例提供的一种模型标注的示意图;
图6为本发明实施例提供的一种数据标注装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,标注数据的来源主要分为两种,一部分是公开数据集中的数据,另一部分是自采数据然后再人工标注的数据。然而,公开数据集数据获取的场景通常与模型的实际应用场景并不一致,导致模型的效果不佳,人工标注数据则存在标注效率低、成本高的问题。
基于此,本发明实施例提供的一种数据标注方法、装置和电子设备,该技术可以应用于电脑、手机、平板电脑、服务器等可以实现人机交互的设备上,具体涉及一种深度学习模型训练数据获取、标注方法。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据标注方法进行详细介绍。
实施例一:
本实施例提供了一种数据标注方法,参见图1所示的一种数据标注方法的流程图,该数据标注方法包括如下步骤:
步骤S102,获取目标数据。
本实施例的目标数据可以是图像、激光雷达点云、毫米波雷达点云等数据,采集的目标数据是没有进行数据标注的。目标数据可以为需要进行数据标注的数据。数据标注是对数据进行加工的一种行为。通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有标注画框、3D画框、文本转录、图像打点、目标物体轮廓线等。
步骤S104,将目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,数据标注模型包含多个数据标注子模型,数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。
数据标注模型可以对目标数据进行数据标注,其中,数据标注模型包含多个数据标注子模型,每个数据标注子模型都可以输出对应的标注结果。本实施例中可以根据数据标注子模型的泛化能力从数据标注子模型的泛化能力输出的标注结果中选择一个最优的结果作为数据标注模型的最终标注结果。
其中,数据标注子模型的泛化能力是指机器学习算法对新鲜样本的适应能力,可以原有的数据集上添加新的数据集,通过训练输出一个合理的结果。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。
本发明实施例提供的一种数据标注方法,将获取的目标数据输入预先训练完成的数据标注模型中,输出最终标注结果。其中,数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中,使用数据标注模型进行数据标注,可以代替人工标注,从而提高数据标注的效率,降低数据标注低成本;使用包含多个数据标注子模型的数据标注模型进行数据标注,可以获得比较好的标注效果。
实施例二:
本实施例提供了另一种数据标注方法,该方法在上述实施例的基础上实现;本实施例重点描述获取目标数据的具体实施方式。如图2示的另一种数据标注方法的流程图,本实施例中的数据标注方法包括如下步骤:
步骤S202,在指定场景中采集目标数据。
由于公开数据集中的数据和实际应用场景有差异,因此本实施例可以通过采集车对真实场景进行目标数据的采集,并进行数据清洗,以获得更有实际应用价值的数据。
参见图3所示的一种数据标注方法的示意图,首先可以进行数据采集。以在车辆行驶领域的数据采集为例,在自动驾驶中,通常在传统汽车的基础上,加装摄像头、激光雷达、毫米波雷达等传感器,标定完成后即可进行数据采集。根据自动驾驶车辆设计预期的运行场景,例如:港口、矿山、园区、高速、城市等,选择对应的场景去采集数据。采集时,将车辆实时获得的数据存储在车辆上的存储介质中,例如SSD(Solid State Disk或Solid StateDrive,固态驱动器)。
步骤S204,对采集的目标数据进行数据清洗。
如图3所示,数据采集之后可以为数据清洗,数据清洗是指对采集数据中的异常数据进行识别、过滤和删除,异常数据主要包括残缺的数据、包含错误的数据、重复的数据等。
其中,残缺的数据可以为图像中部分或全部都是白色或黑色、点云中局部或全部区域一个点都没有的数据;错误的数据可以为图像或者点云中的数据杂乱、失真,和真实场景差异很大的数据;重复的数据可以为场景相似度很高的数据,例如十字路口等红灯,或者自车静止的时段采集的数据。
通过数据清洗,可以尽可能保留关键数据,大大减少无用数据,使得数据更有价值。本实施例中的数据清洗至少包括以下之一:灰度直方图处理、图像信息熵处理、图像哈希相似度处理。
灰度直方图处理可以首先将彩色图像灰度化,然后将数字图像中的所有像素,按照灰度值的大小,统计其出现的频率。使用灰度直方图算法可以将灰度值占比异常的数据(例如灰度值接近0或者接近255占比很高的图像)识别并删除。
信息熵可以描述信源的不确定度。当图像越单调(例如接近于全白或全黑),其信息熵越小。对于某一个场景中采集的数据,通常具有一个信息熵均值,如果信息熵太低则可以将其作为异常数据进行删除。
图像哈希相似度可以基于以下原理:每张图片都可以通过算法得到一个hash值,称为图片指纹,两张指纹相近的图片可以认为是相似图片。本实施例中使用DHash(Difference Hash)算法,计算得到两张图像的相似度,并通过预先设置的阈值进行过滤,当相似度大于这个阈值时,可以将其当做重复数据删除。
综上,由于公开数据集中的数据和实际应用场景有差异,本发明实施例提供的上述方法通过采集车对真实场景进行目标数据的采集,并进行数据清洗,获得的数据更有实际应用价值。
步骤S206,将目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,数据标注模型包含多个数据标注子模型,数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。
如图3所示,数据清洗后可以进行模型标注。其中,可以通过下述步骤进行数据标注:确定各个数据标注子模型的泛化能力;将目标数据输入预先训练完成的数据标注模型中,基于泛化能力输出最终标注结果。
首先,可以通过下述步骤确定各个数据标注子模型的泛化能力:获取多个公开数据集,公开数据集包含多个原始数据和原始数据对应的标注真值;从多个公开数据集中随机提取数据,将提取的数据组合为混合数据集;使用各个数据标注子模型标注混合数据集的数据,得到各个数据标注子模型的第一标注结果;基于第一标注结果和混合数据集中该数据的标注真值,确定各个数据标注子模型的泛化能力。
参见图4所示的一种泛化能力评价流程的示意图,泛化能力指深度学习模型对训练数据集以外的新鲜样本的适应能力。如图4所示,公开数据集1、公开数据集2是指KITTI、CityScapes、BDD100K等具有原始数据和标注真值(即原始数据中目标的类别、位置等信息)的数据集,从这些数据集中随机抽取相同数量的数据,组合得到一个混合数据集。
用各个数据标注子模型取标注该混合数据集的原始数据,随后利用混合数据集的标注真值来评价各个数据标注子模型的第一标注结果,使用F1-socore等指标,针对不同类型的深度学习模型,可以使用不同的指标进行评价,综合考虑各个数据标注子模型的查全率和查准率,得到本实施例中提到的模型泛化能力。
其中,F1-socore是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。
如图3所示,模型标注后可以进行标注评价,最终进行结果发布。标注评价即选择合适的标注结果,结果发布即将最优的标注结果输出。例如,可以通过下述步骤执行:将目标数据输入各个数据标注子模型中,得到各个数据标注子模型的第二标注结果;基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力,输出最终标注结果。
各个数据标注子模型都可以进行分别的数据标注,得到多个第二标注结果。可以基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力选择一个最优的第二标注结果作为最终标注结果输出。例如:基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力,确定各个数据标注子模型的置信度;将置信度最高的数据标注子模型的第二标注结果,作为最终标注结果。
参见图5所示的一种模型标注的示意图,如图5所示,同一数据输入到多个模型(即数据标注子模型)中同时进行标注,附图2中所示的模型1、模型2、模型3等是指不同的数据标注子模型,这些数据标注子模型已经通过如附图4所示的方法获得了各自的泛化能力。如附图5所示,各个模型标注完成后,标注结果汇集到一起进行标注评价。
集成评价是指对于对个模型标注的结果,取其中标注效果最好的作为本次标注的最终输出的标注结果。对于哪个模型的效果最好,本发明中基于数据标注子模型的泛化能力,和各个数据标注子模型的第二标注结果,使用贝叶斯定理:P(A|B)=P(B|A)×P(A)/P(B)进行计算。
P(A)代表数据标注子模型预测正确的概率,P(B)代表数据标注子模型的泛化能力,P(B|A)代表数据标注子模型输出的当前预测的置信度,假设P(A)=1,即可得到当前数据标注子模型预测正确的概率P(A|B),根据贝叶斯公式,分别得出每个数据标注子模型的条件概率,归一化之后,即可得到每个数据标注子模型的第二标注结果的置信度,其中置信度最高的作为本次集成评价的结果,即最终标注结果。
得到最终标注结果之后,可以将采集到的真实场景的目标数据,和最终标注结果一一匹配,得到标注数据集,该数据集可以作为深度学习模型的训练数据。
综上,人工标注数据存在标注效率低、成本高的问题。本实施例提供的上述方法,提供对自采的面板数据采用深度学习模型进行自动标注,在获得比较好的标注效果的同时,大大提高了标注效率,并降低了成本。
本发明实施例提供的上述方法,主要包括数据清洗算法、深度学习泛化能力评价方法、模型集成评价方法等。其中,本发明实施例提供的数据清洗方法,可以过滤掉90%以上的无用数据,大大提高了数据的利用价值。
本发明实施例提到的数据标注子模型,可以选择开源深度学习模型,也可以使用自训练模型,在实际使用中自训练模型在训练时加入少量真实场景的人工标注数据,可以获得更好的效果。利用本实施例提供的集成评价方法,可以快速获得质量较好的目标数据,获得的目标数据用于模型训练时,也可以获得比较好的提升效果。
实施例三:
对应于上述方法实施例,本发明实施例提供了一种数据标注装置,如图6所示的一种数据标注装置的结构示意图,该数据标注装置包括:
目标数据获取模块61,用于获取目标数据;
标注结果输出模块62,用于将目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,数据标注模型包含多个数据标注子模型,数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。
本发明实施例提供的一种数据标注装置,将获取的目标数据输入预先训练完成的数据标注模型中,输出最终标注结果。其中,数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中,使用数据标注模型进行数据标注,可以代替人工标注,从而提高数据标注的效率,降低数据标注低成本;使用包含多个数据标注子模型的数据标注模型进行数据标注,可以获得比较好的标注效果。
上述目标数据获取模块,用于在指定场景中采集目标数据;对采集的目标数据进行数据清洗。
上述数据清洗至少包括以下之一:灰度直方图处理、图像信息熵处理、图像哈希相似度处理。
上述标注结果输出模块,用于确定各个数据标注子模型的泛化能力;将目标数据输入预先训练完成的数据标注模型中,基于泛化能力输出最终标注结果。
上述标注结果输出模块,用于获取多个公开数据集,公开数据集包含多个原始数据和原始数据对应的标注真值;从多个公开数据集中随机提取数据,将提取的数据组合为混合数据集;使用各个数据标注子模型标注混合数据集的数据,得到各个数据标注子模型的第一标注结果;基于第一标注结果和混合数据集中该数据的标注真值,确定各个数据标注子模型的泛化能力。
上述标注结果输出模块,用于将目标数据输入各个数据标注子模型中,得到各个数据标注子模型的第二标注结果;基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力,输出最终标注结果。
上述标注结果输出模块,用于基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力,确定各个数据标注子模型的置信度;将置信度最高的数据标注子模型的第二标注结果,作为最终标注结果。
本发明实施例提供的数据标注装置,与上述实施例提供的数据标注方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例四:
本发明实施例还提供了一种电子设备,用于运行上述数据标注方法;参见图7所示的一种电子设备的结构示意图,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述数据标注方法。
进一步地,图7所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述数据标注方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的数据标注方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据标注方法,其特征在于,所述方法包括:
获取目标数据;
将所述目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,所述数据标注模型包含多个数据标注子模型,所述数据标注模型基于多个所述数据标注子模型的泛化能力确定所述最终标注结果。
2.根据权利要求1所述的方法,其特征在于,获取目标数据的步骤,包括:
在指定场景中采集目标数据;
对采集的所述目标数据进行数据清洗。
3.根据权利要求2所述的方法,其特征在于,所述数据清洗至少包括以下之一:灰度直方图处理、图像信息熵处理、图像哈希相似度处理。
4.根据权利要求1所述的方法,其特征在于,将所述目标数据输入预先训练完成的数据标注模型中,输出最终标注结果的步骤,包括:
确定各个数据标注子模型的泛化能力;
将所述目标数据输入预先训练完成的数据标注模型中,基于所述泛化能力输出最终标注结果。
5.根据权利要求4所述的方法,其特征在于,确定各个数据标注子模型的泛化能力的步骤,包括:
获取多个公开数据集,所述公开数据集包含多个原始数据和所述原始数据对应的标注真值;
从多个所述公开数据集中随机提取数据,将提取的所述数据组合为混合数据集;
使用各个数据标注子模型标注所述混合数据集的数据,得到各个数据标注子模型的第一标注结果;
基于所述第一标注结果和所述混合数据集中该数据的标注真值,确定各个所述数据标注子模型的泛化能力。
6.根据权利要求5所述的方法,其特征在于,将所述目标数据输入预先训练完成的数据标注模型中,基于所述泛化能力输出最终标注结果的步骤,包括:
将所述目标数据输入各个所述数据标注子模型中,得到各个所述数据标注子模型的第二标注结果;
基于各个所述数据标注子模型的第二标注结果和各个所述数据标注子模型的泛化能力,输出最终标注结果。
7.根据权利要求6所述的方法,其特征在于,基于各个所述数据标注子模型的第二标注结果和各个所述数据标注子模型的泛化能力,输出最终标注结果的步骤,包括:
基于各个所述数据标注子模型的第二标注结果和各个所述数据标注子模型的泛化能力,确定各个所述数据标注子模型的置信度;
将所述置信度最高的所述数据标注子模型的第二标注结果,作为所述最终标注结果。
8.一种数据标注装置,其特征在于,所述装置包括:
目标数据获取模块,用于获取目标数据;
标注结果输出模块,用于将所述目标数据输入预先训练完成的数据标注模型中,输出最终标注结果;其中,所述数据标注模型包含多个数据标注子模型,所述数据标注模型基于多个所述数据标注子模型的泛化能力确定所述最终标注结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1-7任一项所述的数据标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现权利要求1-7任一项所述的数据标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427397.2A CN113139072B (zh) | 2021-04-20 | 2021-04-20 | 数据标注方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427397.2A CN113139072B (zh) | 2021-04-20 | 2021-04-20 | 数据标注方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139072A true CN113139072A (zh) | 2021-07-20 |
CN113139072B CN113139072B (zh) | 2024-09-20 |
Family
ID=76813034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110427397.2A Active CN113139072B (zh) | 2021-04-20 | 2021-04-20 | 数据标注方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139072B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913312A (zh) * | 2022-04-29 | 2022-08-16 | 北京优海网络科技有限公司 | 一种深度学习模型数据图像信息采集方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951925A (zh) * | 2017-03-27 | 2017-07-14 | 成都小多科技有限公司 | 数据处理方法、装置、服务器及系统 |
CN108509969A (zh) * | 2017-09-06 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据标注方法及终端 |
CN109784391A (zh) * | 2019-01-04 | 2019-05-21 | 杭州比智科技有限公司 | 基于多模型的样本标注方法及装置 |
CN110704661A (zh) * | 2019-10-12 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 一种图像分类方法和装置 |
KR102075270B1 (ko) * | 2018-11-09 | 2020-02-07 | 주식회사 루닛 | 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템 |
CN111340054A (zh) * | 2018-12-18 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 数据标注方法、装置及数据处理设备 |
CN111753843A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于深度学习的分割效果评估方法、装置、设备及介质 |
CN111797629A (zh) * | 2020-06-23 | 2020-10-20 | 平安医疗健康管理股份有限公司 | 医疗文本数据的处理方法、装置、计算机设备和存储介质 |
CN112183088A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
CN112445831A (zh) * | 2021-02-01 | 2021-03-05 | 南京爱奇艺智能科技有限公司 | 数据标注方法及装置 |
-
2021
- 2021-04-20 CN CN202110427397.2A patent/CN113139072B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951925A (zh) * | 2017-03-27 | 2017-07-14 | 成都小多科技有限公司 | 数据处理方法、装置、服务器及系统 |
CN108509969A (zh) * | 2017-09-06 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据标注方法及终端 |
KR102075270B1 (ko) * | 2018-11-09 | 2020-02-07 | 주식회사 루닛 | 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템 |
CN111340054A (zh) * | 2018-12-18 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 数据标注方法、装置及数据处理设备 |
CN109784391A (zh) * | 2019-01-04 | 2019-05-21 | 杭州比智科技有限公司 | 基于多模型的样本标注方法及装置 |
CN110704661A (zh) * | 2019-10-12 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 一种图像分类方法和装置 |
CN111797629A (zh) * | 2020-06-23 | 2020-10-20 | 平安医疗健康管理股份有限公司 | 医疗文本数据的处理方法、装置、计算机设备和存储介质 |
CN111753843A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于深度学习的分割效果评估方法、装置、设备及介质 |
CN112183088A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
CN112445831A (zh) * | 2021-02-01 | 2021-03-05 | 南京爱奇艺智能科技有限公司 | 数据标注方法及装置 |
Non-Patent Citations (1)
Title |
---|
谢禹;李玉俊;董文生;: "基于SSD神经网络的图像自动标注及应用研究", 信息技术与标准化, no. 04, 10 April 2020 (2020-04-10) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913312A (zh) * | 2022-04-29 | 2022-08-16 | 北京优海网络科技有限公司 | 一种深度学习模型数据图像信息采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113139072B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107545262B (zh) | 一种在自然场景图像中检测文本的方法及装置 | |
US11455805B2 (en) | Method and apparatus for detecting parking space usage condition, electronic device, and storage medium | |
WO2020151172A1 (zh) | 运动目标检测方法、装置、计算机设备及存储介质 | |
JP7266668B2 (ja) | ビデオ物体の高速検出方法、装置、サーバ及び記憶媒体 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN109583345B (zh) | 道路识别方法、装置、计算机装置及计算机可读存储介质 | |
CN112329881B (zh) | 车牌识别模型训练方法、车牌识别方法及装置 | |
CN111898581A (zh) | 动物检测方法、装置、电子设备及可读存储介质 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN113343985B (zh) | 车牌识别方法和装置 | |
CN111008576A (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN112906471A (zh) | 一种交通信号灯识别方法及装置 | |
CN111435445A (zh) | 字符识别模型的训练方法及装置、字符识别方法及装置 | |
CN113591758A (zh) | 一种人体行为识别模型训练方法、装置及计算机设备 | |
US11120308B2 (en) | Vehicle damage detection method based on image analysis, electronic device and storage medium | |
CN110298302B (zh) | 一种人体目标检测方法及相关设备 | |
CN112733864B (zh) | 模型训练方法、目标检测方法、装置、设备及存储介质 | |
CN112950579A (zh) | 图像质量评价方法、装置和电子设备 | |
CN116597270A (zh) | 基于注意力机制集成学习网络的道路损毁目标检测方法 | |
CN114820679B (zh) | 图像标注方法、装置、电子设备和存储介质 | |
CN115830399A (zh) | 分类模型训练方法、装置、设备、存储介质和程序产品 | |
CN113139072B (zh) | 数据标注方法、装置和电子设备 | |
CN117218622A (zh) | 路况检测方法、电子设备及存储介质 | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 | |
US20240135679A1 (en) | Method for classifying images and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |