CN113139072A

CN113139072A - 数据标注方法、装置和电子设备

Info

Publication number: CN113139072A
Application number: CN202110427397.2A
Authority: CN
Inventors: 张兵; 沈蓓; 韦松; 李瑛�
Original assignee: Suzhou Zhitu Technology Co Ltd
Current assignee: Suzhou Zhitu Technology Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-20
Anticipated expiration: 2041-04-20
Also published as: CN113139072B

Abstract

本发明提供了一种数据标注方法、装置和电子设备。其中，该方法包括：获取目标数据；将目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，数据标注模型包含多个数据标注子模型，数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。其中，数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中，使用数据标注模型进行数据标注，可以代替人工标注，从而提高数据标注的效率，降低数据标注低成本；使用包含多个数据标注子模型的数据标注模型进行数据标注，可以获得比较好的标注效果。

Description

数据标注方法、装置和电子设备

技术领域

本发明涉及深度学习和自动驾驶的技术领域，尤其是涉及一种数据标注方法、装置和电子设备。

背景技术

目前，自动驾驶使用的深度学习模型在训练时需要使用标注过的数据，上述标注数据的来源主要分为两种，一部分是公开数据集中的数据，另一部分是自采数据然后再人工标注的数据。

然而，公开数据集数据获取的场景通常与模型的实际应用场景并不一致，导致模型的效果不佳。例如：很多公开数据集的数据是在地区A的道路采集的，道路结构、车流量、行驶规则、行驶习惯、甚至传感器的清晰度、安装位置均与模型的实际应用场景地区B不同，会带来很大的数据差异性，而基于这些数据训练出的模型，在地区B使用的效果必然达不到预期。

此外，人工标注数据则存在标注效率低、成本高的问题。人工标注数据需要人工一张一张标注每个图像，人眼去识别并手动给出目标的类别，并绘制出目标的边界框，每张图片的标注时间长，尤其是当图片中的目标比较多时，标注时间成倍增加。因此人工标注的效率比较低，时间成本和经济成本都很高，不利于深度学习模型的训练和模型性能的提高。

发明内容

有鉴于此，本发明的目的在于提供一种数据标注方法、装置和电子设备，以提高标注效率，降低标注成本。

第一方面，本发明实施例提供了一种数据标注方法，方法包括：获取目标数据；将目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，数据标注模型包含多个数据标注子模型，数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。

在本发明较佳的实施例中，上述获取目标数据的步骤，包括：在指定场景中采集目标数据；对采集的目标数据进行数据清洗。

在本发明较佳的实施例中，上述数据清洗至少包括以下之一：灰度直方图处理、图像信息熵处理、图像哈希相似度处理。

在本发明较佳的实施例中，上述将目标数据输入预先训练完成的数据标注模型中，输出最终标注结果的步骤，包括：确定各个数据标注子模型的泛化能力；将目标数据输入预先训练完成的数据标注模型中，基于泛化能力输出最终标注结果。

在本发明较佳的实施例中，上述确定各个数据标注子模型的泛化能力的步骤，包括：获取多个公开数据集，公开数据集包含多个原始数据和原始数据对应的标注真值；从多个公开数据集中随机提取数据，将提取的数据组合为混合数据集；使用各个数据标注子模型标注混合数据集的数据，得到各个数据标注子模型的第一标注结果；基于第一标注结果和混合数据集中该数据的标注真值，确定各个数据标注子模型的泛化能力。

在本发明较佳的实施例中，上述将目标数据输入预先训练完成的数据标注模型中，基于泛化能力输出最终标注结果的步骤，包括：将目标数据输入各个数据标注子模型中，得到各个数据标注子模型的第二标注结果；基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力，输出最终标注结果。

在本发明较佳的实施例中，上述基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力，输出最终标注结果的步骤，包括：基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力，确定各个数据标注子模型的置信度；将置信度最高的数据标注子模型的第二标注结果，作为最终标注结果。

第二方面，本发明实施例还提供一种数据标注装置，装置包括：目标数据获取模块，用于获取目标数据；标注结果输出模块，用于将目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，数据标注模型包含多个数据标注子模型，数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。

第三方面，本发明实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述的数据标注方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述的数据标注方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种数据标注方法、装置和电子设备，将获取的目标数据输入预先训练完成的数据标注模型中，输出最终标注结果。其中，数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中，使用数据标注模型进行数据标注，可以代替人工标注，从而提高数据标注的效率，降低数据标注低成本；使用包含多个数据标注子模型的数据标注模型进行数据标注，可以获得比较好的标注效果。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据标注方法的流程图；

图2为本发明实施例提供的另一种数据标注方法的流程图；

图3为本发明实施例提供的一种数据标注方法的示意图；

图4为本发明实施例提供的一种泛化能力评价流程的示意图；

图5为本发明实施例提供的一种模型标注的示意图；

图6为本发明实施例提供的一种数据标注装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，标注数据的来源主要分为两种，一部分是公开数据集中的数据，另一部分是自采数据然后再人工标注的数据。然而，公开数据集数据获取的场景通常与模型的实际应用场景并不一致，导致模型的效果不佳，人工标注数据则存在标注效率低、成本高的问题。

基于此，本发明实施例提供的一种数据标注方法、装置和电子设备，该技术可以应用于电脑、手机、平板电脑、服务器等可以实现人机交互的设备上，具体涉及一种深度学习模型训练数据获取、标注方法。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种数据标注方法进行详细介绍。

实施例一：

本实施例提供了一种数据标注方法，参见图1所示的一种数据标注方法的流程图，该数据标注方法包括如下步骤：

步骤S102，获取目标数据。

本实施例的目标数据可以是图像、激光雷达点云、毫米波雷达点云等数据，采集的目标数据是没有进行数据标注的。目标数据可以为需要进行数据标注的数据。数据标注是对数据进行加工的一种行为。通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有标注画框、3D画框、文本转录、图像打点、目标物体轮廓线等。

步骤S104，将目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，数据标注模型包含多个数据标注子模型，数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。

数据标注模型可以对目标数据进行数据标注，其中，数据标注模型包含多个数据标注子模型，每个数据标注子模型都可以输出对应的标注结果。本实施例中可以根据数据标注子模型的泛化能力从数据标注子模型的泛化能力输出的标注结果中选择一个最优的结果作为数据标注模型的最终标注结果。

其中，数据标注子模型的泛化能力是指机器学习算法对新鲜样本的适应能力，可以原有的数据集上添加新的数据集，通过训练输出一个合理的结果。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

本发明实施例提供的一种数据标注方法，将获取的目标数据输入预先训练完成的数据标注模型中，输出最终标注结果。其中，数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中，使用数据标注模型进行数据标注，可以代替人工标注，从而提高数据标注的效率，降低数据标注低成本；使用包含多个数据标注子模型的数据标注模型进行数据标注，可以获得比较好的标注效果。

实施例二：

本实施例提供了另一种数据标注方法，该方法在上述实施例的基础上实现；本实施例重点描述获取目标数据的具体实施方式。如图2示的另一种数据标注方法的流程图，本实施例中的数据标注方法包括如下步骤：

步骤S202，在指定场景中采集目标数据。

由于公开数据集中的数据和实际应用场景有差异，因此本实施例可以通过采集车对真实场景进行目标数据的采集，并进行数据清洗，以获得更有实际应用价值的数据。

参见图3所示的一种数据标注方法的示意图，首先可以进行数据采集。以在车辆行驶领域的数据采集为例，在自动驾驶中，通常在传统汽车的基础上，加装摄像头、激光雷达、毫米波雷达等传感器，标定完成后即可进行数据采集。根据自动驾驶车辆设计预期的运行场景，例如：港口、矿山、园区、高速、城市等，选择对应的场景去采集数据。采集时，将车辆实时获得的数据存储在车辆上的存储介质中，例如SSD(Solid State Disk或Solid StateDrive，固态驱动器)。

步骤S204，对采集的目标数据进行数据清洗。

如图3所示，数据采集之后可以为数据清洗，数据清洗是指对采集数据中的异常数据进行识别、过滤和删除，异常数据主要包括残缺的数据、包含错误的数据、重复的数据等。

其中，残缺的数据可以为图像中部分或全部都是白色或黑色、点云中局部或全部区域一个点都没有的数据；错误的数据可以为图像或者点云中的数据杂乱、失真，和真实场景差异很大的数据；重复的数据可以为场景相似度很高的数据，例如十字路口等红灯，或者自车静止的时段采集的数据。

通过数据清洗，可以尽可能保留关键数据，大大减少无用数据，使得数据更有价值。本实施例中的数据清洗至少包括以下之一：灰度直方图处理、图像信息熵处理、图像哈希相似度处理。

灰度直方图处理可以首先将彩色图像灰度化，然后将数字图像中的所有像素，按照灰度值的大小，统计其出现的频率。使用灰度直方图算法可以将灰度值占比异常的数据(例如灰度值接近0或者接近255占比很高的图像)识别并删除。

信息熵可以描述信源的不确定度。当图像越单调(例如接近于全白或全黑)，其信息熵越小。对于某一个场景中采集的数据，通常具有一个信息熵均值，如果信息熵太低则可以将其作为异常数据进行删除。

图像哈希相似度可以基于以下原理：每张图片都可以通过算法得到一个hash值，称为图片指纹，两张指纹相近的图片可以认为是相似图片。本实施例中使用DHash(Difference Hash)算法，计算得到两张图像的相似度，并通过预先设置的阈值进行过滤，当相似度大于这个阈值时，可以将其当做重复数据删除。

综上，由于公开数据集中的数据和实际应用场景有差异，本发明实施例提供的上述方法通过采集车对真实场景进行目标数据的采集，并进行数据清洗，获得的数据更有实际应用价值。

步骤S206，将目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，数据标注模型包含多个数据标注子模型，数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。

如图3所示，数据清洗后可以进行模型标注。其中，可以通过下述步骤进行数据标注：确定各个数据标注子模型的泛化能力；将目标数据输入预先训练完成的数据标注模型中，基于泛化能力输出最终标注结果。

首先，可以通过下述步骤确定各个数据标注子模型的泛化能力：获取多个公开数据集，公开数据集包含多个原始数据和原始数据对应的标注真值；从多个公开数据集中随机提取数据，将提取的数据组合为混合数据集；使用各个数据标注子模型标注混合数据集的数据，得到各个数据标注子模型的第一标注结果；基于第一标注结果和混合数据集中该数据的标注真值，确定各个数据标注子模型的泛化能力。

参见图4所示的一种泛化能力评价流程的示意图，泛化能力指深度学习模型对训练数据集以外的新鲜样本的适应能力。如图4所示，公开数据集1、公开数据集2是指KITTI、CityScapes、BDD100K等具有原始数据和标注真值(即原始数据中目标的类别、位置等信息)的数据集，从这些数据集中随机抽取相同数量的数据，组合得到一个混合数据集。

用各个数据标注子模型取标注该混合数据集的原始数据，随后利用混合数据集的标注真值来评价各个数据标注子模型的第一标注结果，使用F1-socore等指标，针对不同类型的深度学习模型，可以使用不同的指标进行评价，综合考虑各个数据标注子模型的查全率和查准率，得到本实施例中提到的模型泛化能力。

其中，F1-socore是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛，常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数，最大为1，最小为0。

如图3所示，模型标注后可以进行标注评价，最终进行结果发布。标注评价即选择合适的标注结果，结果发布即将最优的标注结果输出。例如，可以通过下述步骤执行：将目标数据输入各个数据标注子模型中，得到各个数据标注子模型的第二标注结果；基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力，输出最终标注结果。

各个数据标注子模型都可以进行分别的数据标注，得到多个第二标注结果。可以基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力选择一个最优的第二标注结果作为最终标注结果输出。例如：基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力，确定各个数据标注子模型的置信度；将置信度最高的数据标注子模型的第二标注结果，作为最终标注结果。

参见图5所示的一种模型标注的示意图，如图5所示，同一数据输入到多个模型(即数据标注子模型)中同时进行标注，附图2中所示的模型1、模型2、模型3等是指不同的数据标注子模型，这些数据标注子模型已经通过如附图4所示的方法获得了各自的泛化能力。如附图5所示，各个模型标注完成后，标注结果汇集到一起进行标注评价。

集成评价是指对于对个模型标注的结果，取其中标注效果最好的作为本次标注的最终输出的标注结果。对于哪个模型的效果最好，本发明中基于数据标注子模型的泛化能力，和各个数据标注子模型的第二标注结果，使用贝叶斯定理：P(A|B)＝P(B|A)×P(A)/P(B)进行计算。

P(A)代表数据标注子模型预测正确的概率，P(B)代表数据标注子模型的泛化能力，P(B|A)代表数据标注子模型输出的当前预测的置信度，假设P(A)＝1，即可得到当前数据标注子模型预测正确的概率P(A|B)，根据贝叶斯公式，分别得出每个数据标注子模型的条件概率，归一化之后，即可得到每个数据标注子模型的第二标注结果的置信度，其中置信度最高的作为本次集成评价的结果，即最终标注结果。

得到最终标注结果之后，可以将采集到的真实场景的目标数据，和最终标注结果一一匹配，得到标注数据集，该数据集可以作为深度学习模型的训练数据。

综上，人工标注数据存在标注效率低、成本高的问题。本实施例提供的上述方法，提供对自采的面板数据采用深度学习模型进行自动标注，在获得比较好的标注效果的同时，大大提高了标注效率，并降低了成本。

本发明实施例提供的上述方法，主要包括数据清洗算法、深度学习泛化能力评价方法、模型集成评价方法等。其中，本发明实施例提供的数据清洗方法，可以过滤掉90％以上的无用数据，大大提高了数据的利用价值。

本发明实施例提到的数据标注子模型，可以选择开源深度学习模型，也可以使用自训练模型，在实际使用中自训练模型在训练时加入少量真实场景的人工标注数据，可以获得更好的效果。利用本实施例提供的集成评价方法，可以快速获得质量较好的目标数据，获得的目标数据用于模型训练时，也可以获得比较好的提升效果。

实施例三：

对应于上述方法实施例，本发明实施例提供了一种数据标注装置，如图6所示的一种数据标注装置的结构示意图，该数据标注装置包括：

目标数据获取模块61，用于获取目标数据；

标注结果输出模块62，用于将目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，数据标注模型包含多个数据标注子模型，数据标注模型基于多个数据标注子模型的泛化能力确定最终标注结果。

本发明实施例提供的一种数据标注装置，将获取的目标数据输入预先训练完成的数据标注模型中，输出最终标注结果。其中，数据标注模型基于包含的多个数据标注子模型的泛化能力确定最终标注结果。该方式中，使用数据标注模型进行数据标注，可以代替人工标注，从而提高数据标注的效率，降低数据标注低成本；使用包含多个数据标注子模型的数据标注模型进行数据标注，可以获得比较好的标注效果。

上述目标数据获取模块，用于在指定场景中采集目标数据；对采集的目标数据进行数据清洗。

上述数据清洗至少包括以下之一：灰度直方图处理、图像信息熵处理、图像哈希相似度处理。

上述标注结果输出模块，用于确定各个数据标注子模型的泛化能力；将目标数据输入预先训练完成的数据标注模型中，基于泛化能力输出最终标注结果。

上述标注结果输出模块，用于获取多个公开数据集，公开数据集包含多个原始数据和原始数据对应的标注真值；从多个公开数据集中随机提取数据，将提取的数据组合为混合数据集；使用各个数据标注子模型标注混合数据集的数据，得到各个数据标注子模型的第一标注结果；基于第一标注结果和混合数据集中该数据的标注真值，确定各个数据标注子模型的泛化能力。

上述标注结果输出模块，用于将目标数据输入各个数据标注子模型中，得到各个数据标注子模型的第二标注结果；基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力，输出最终标注结果。

上述标注结果输出模块，用于基于各个数据标注子模型的第二标注结果和各个数据标注子模型的泛化能力，确定各个数据标注子模型的置信度；将置信度最高的数据标注子模型的第二标注结果，作为最终标注结果。

本发明实施例提供的数据标注装置，与上述实施例提供的数据标注方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例四：

本发明实施例还提供了一种电子设备，用于运行上述数据标注方法；参见图7所示的一种电子设备的结构示意图，该电子设备包括存储器100和处理器101，其中，存储器100用于存储一条或多条计算机指令，一条或多条计算机指令被处理器101执行，以实现上述数据标注方法。

进一步地，图7所示的电子设备还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。

其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述数据标注方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的数据标注方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和/或装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据标注方法，其特征在于，所述方法包括：

获取目标数据；

将所述目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，所述数据标注模型包含多个数据标注子模型，所述数据标注模型基于多个所述数据标注子模型的泛化能力确定所述最终标注结果。

2.根据权利要求1所述的方法，其特征在于，获取目标数据的步骤，包括：

在指定场景中采集目标数据；

对采集的所述目标数据进行数据清洗。

3.根据权利要求2所述的方法，其特征在于，所述数据清洗至少包括以下之一：灰度直方图处理、图像信息熵处理、图像哈希相似度处理。

4.根据权利要求1所述的方法，其特征在于，将所述目标数据输入预先训练完成的数据标注模型中，输出最终标注结果的步骤，包括：

确定各个数据标注子模型的泛化能力；

将所述目标数据输入预先训练完成的数据标注模型中，基于所述泛化能力输出最终标注结果。

5.根据权利要求4所述的方法，其特征在于，确定各个数据标注子模型的泛化能力的步骤，包括：

获取多个公开数据集，所述公开数据集包含多个原始数据和所述原始数据对应的标注真值；

从多个所述公开数据集中随机提取数据，将提取的所述数据组合为混合数据集；

使用各个数据标注子模型标注所述混合数据集的数据，得到各个数据标注子模型的第一标注结果；

基于所述第一标注结果和所述混合数据集中该数据的标注真值，确定各个所述数据标注子模型的泛化能力。

6.根据权利要求5所述的方法，其特征在于，将所述目标数据输入预先训练完成的数据标注模型中，基于所述泛化能力输出最终标注结果的步骤，包括：

将所述目标数据输入各个所述数据标注子模型中，得到各个所述数据标注子模型的第二标注结果；

基于各个所述数据标注子模型的第二标注结果和各个所述数据标注子模型的泛化能力，输出最终标注结果。

7.根据权利要求6所述的方法，其特征在于，基于各个所述数据标注子模型的第二标注结果和各个所述数据标注子模型的泛化能力，输出最终标注结果的步骤，包括：

基于各个所述数据标注子模型的第二标注结果和各个所述数据标注子模型的泛化能力，确定各个所述数据标注子模型的置信度；

将所述置信度最高的所述数据标注子模型的第二标注结果，作为所述最终标注结果。

8.一种数据标注装置，其特征在于，所述装置包括：

目标数据获取模块，用于获取目标数据；

标注结果输出模块，用于将所述目标数据输入预先训练完成的数据标注模型中，输出最终标注结果；其中，所述数据标注模型包含多个数据标注子模型，所述数据标注模型基于多个所述数据标注子模型的泛化能力确定所述最终标注结果。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1-7任一项所述的数据标注方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使处理器实现权利要求1-7任一项所述的数据标注方法的步骤。