CN116168363A

CN116168363A - 基于信息熵的数据筛选方法、装置和计算机可读介质

Info

Publication number: CN116168363A
Application number: CN202310267838.6A
Authority: CN
Inventors: 彭伟; 赵天坤; 刘洋; 唐佳
Original assignee: Hozon New Energy Automobile Co Ltd
Current assignee: Hozon New Energy Automobile Co Ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-05-26
Also published as: WO2024187931A1

Abstract

本发明涉及一种基于信息熵的数据筛选方法、装置和计算机可读介质。该方法包括：获取数据集，所述数据集中包括多个数据；根据所述多个数据的采集特征对所述多个数据进行分类；统计每个分类的概率分布，并根据每种分类的概率分布计算所述数据集的信息熵；以及当所述数据集的信息熵小于第一阈值时，调整所述数据集中的多个数据，使所述数据集的信息熵增大。本申请通过对数据进行筛选，可以增大整个数据集的信息熵，使数据集中多个分类的多个状态的分布都趋于平均，使筛选后的数据更加适于作为算法模型的训练数据，减少数据的标注成本。

Description

基于信息熵的数据筛选方法、装置和计算机可读介质

技术领域

本发明主要涉及数据处理领域，具体地涉及一种基于信息熵的数据筛选方法、装置和计算机可读介质。

背景技术

随着智能汽车的发展，自动驾驶技术成为目前的研究热点之一。自动驾驶对感知的泛化能力、鲁棒性要求较高。要提高感知的泛化能力，需要使数据尽可能多的覆盖各种不同的场景，并且合理地分布于各种场景中，才能防止训练进入局部极小。在感知算法中，当所采集的数据集中在某几个场景时，如果对这些数据都进行标注，会浪费较多的标注成本。采用集中于某几个场景的数据进行训练，无法保证训练数据是合理分布的。目前对训练数据采用人为控制的方式，以使数据分布合理化。然而面对海量数据，以及多种复杂的场景，人为控制的效果是有限的，并不能达到最优。

发明内容

本发明所要解决的技术问题是提供一种获得合理分布的数据集的数据筛选方法、装置和计算机可读介质。

本发明为解决上述技术问题而采用的技术方案是一种基于信息熵的数据筛选方法，其特征在于，包括：获取数据集，所述数据集中包括多个数据；根据所述多个数据的采集特征对所述多个数据进行分类；统计每个分类的概率分布，并根据每种分类的概率分布计算所述数据集的信息熵；以及当所述数据集的信息熵小于第一阈值时，调整所述数据集中的多个数据，使所述数据集的信息熵增大。

在本申请的一实施例中，采用下面的步骤调整所述数据集中的多个数据：

步骤S141：计算每个分类的信息熵，其中，每个分类具有多个状态；

步骤S142：对全部分类的信息熵进行排序，获得信息熵最小的N1个第一分类和信息熵最大的N2个第二分类，从所述N2个第二分类中平均地删除一部分数据，使得所述N1个第一分类的组合状态的概率分布最大，其中，N1和N2都是大于等于1的正整数。

在本申请的一实施例中，所述数据的采集特征包括车辆所处的场景，每个场景具有多个状态，每个所述分类对应于一个所述场景。

在本申请的一实施例中，所述场景包括：天气、温度、光照、车速、车辆位置、车道类型、障碍物信息、交通标志信息中的至少一个。

在本申请的一实施例中，所述多个数据包括车辆所采集到的图像数据、位置数据、雷达数据、底盘数据中的一个或任意个的组合。

在本申请的一实施例中，所述雷达数据由激光雷达、毫米波雷达、超声波雷达中的一个或任意个测量获得。

在本申请的一实施例中，采用下面的公式计算所述数据集的信息熵：

其中，

是用于表示数据集的高维向量，其中，x₀,x₁,x₂...x_N分别表示第0个到第N个分类，L_k（k＝0.......N)表示对应于第k个分类的标签，

表示第k个标签的概率，H(L)表示所述数据集的信息熵。

在本申请的一实施例中，采用下面的公式计算每个分类的信息熵：

其中，x_i(i＝0...N)表示属于第i个分类的数据，sx_ij(j＝0...M_i)用于表示第i个分类中的第j个状态的数据，

用于表示第i个分类的数据的第0个到第M_i个状态，

用于表示第i个分类中的第j个状态的数据的概率，H(x_i)表示第i个分类的信息熵。

在本申请的一实施例中，重复执行所述步骤S142，直到经删除之后的数据集的综合信息熵的增加量小于一第二阈值，采用所述经删除之后的数据集作为自动驾驶算法模型的训练数据，其中，采用下面的公式计算所述综合信息熵：

其中，pij表示第i个分类的第j个状态的数据的概率，i＝(0,...,N)，j＝(0,M_i)，N表示分类的总数，M_i表示第i个分类所具有的状态的数量。

在本申请的一实施例中，重复执行调整所述数据集中的多个数据的步骤，直到所述数据集的信息熵大于等于所述第一阈值。

本申请为解决上述技术问题还提出一种基于信息熵的数据筛选装置，包括：

存储器，用于存储可由处理器执行的指令；

处理器，用于执行所述指令以实现如上所述的方法。

本申请为解决上述技术问题还提出一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的方法。

本申请的数据筛选方法、装置和计算机可读介质具有以下有益效果：

(1)通过统计每个分类的概率分布，获得各个分类的信息熵，对分布不合理的数据集进行筛选，调整数据集中的数据，在保持信息熵大的分类的信息熵的同时，增加信息熵小的分类的信息熵，使整个数据集的多个分类的多个状态的分布都趋于平均。

(2)根据分类的信息熵的计算结果可以明确地指示哪些分类的哪些状态的数据量不够，需要增大采集，将该结果发送给数据采集方，可以指导数据采集方更加合理地设计采集策略，使所采集到的数据更加适用于数据使用方。

(3)所删除的数据都是重复数据，减少了需标注的数据量，大大降低了标注成本。

附图说明

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明，其中：

图1是本申请一实施例的基于信息熵的数据筛选方法的示例性流程图；

图2是本申请一实施例的数据筛选方法中的调整数据集的示例性流程图；

图3是本发明一实施例的基于信息熵的数据筛选装置的系统框图。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

本申请的基于信息熵的数据筛选方法可以应用于任意类型的数据，尤其适于应用于针对自动驾驶技术中的模型训练、算法验证等所涉及的数据筛选。

图1是本申请一实施例的基于信息熵的数据筛选方法的示例性流程图。参考图1所示，该实施例的数据筛选方法包括以下步骤：

步骤S11：获取数据集，数据集中包括多个数据；

步骤S12：根据多个数据的采集特征对多个数据进行分类；

步骤S13：统计每个分类的概率分布，并根据每种分类的概率分布计算数据集的信息熵；以及

步骤S14：当数据集的信息熵小于第一阈值时，调整数据集中的多个数据，使数据集的信息熵增大。

以下展开说明上述步骤。

在步骤S11中，该数据集即为原始的未经筛选过的数据集，其中包括多个数据。在实际应用中，数据集中包括海量数据，以便应用于算法模型中进行训练和/或验证。

本申请对如何获取数据集不做限制。具体地，在自动驾驶领域，该数据集为由车辆上的各种传感器所获得的数据，这些数据用于自动驾驶算法模型的训练和/或验证。本申请对数据的格式不做限制，该数据可以是一维、二维、三维，乃至多维数据。

在一些实施例中，该多个数据包括车辆所采集到的图像数据、位置数据、雷达数据、底盘数据中的一个或任意个的组合。其中，图像数据可以是由车载摄像装置所获得一个或多个图像数据，包括位于车辆内外各个空间位置的图像。位置数据可以是由车辆定位系统所获得的车辆位置信息。底盘数据包括动力数据、车速等。

在一些实施例中，雷达数据由激光雷达、毫米波雷达、超声波雷达中的一个或任意个测量获得。雷达数据可以用于发现障碍物、预测碰撞、自适应巡航控制等。

在步骤S12，可以理解，在除自动驾驶之外的应用领域，数据的采集特征可以根据实际的数据特征来设定。例如在图像分类领域中，可以根据具体的分类需求设计场景。例如对于人脸图像，可以根据面部特征对图像进行分类；对于自然图像，可以根据景色特征、季节特征等对图像进行分类；对于声音数据，可以根据音色、声纹等进行分类；等等。本申请的说明书以自动驾驶领域为例，以车辆数据为主进行说明，不用于限制本数据筛选方法的应用领域。

具体到自动驾驶领域中，在步骤S12，多个数据的采集特征包括车辆所处的场景，也即在步骤S12根据场景对数据进行分类，每个分类对应于一个场景。

在一些实施例中，场景包括天气、温度、光照、车速、车辆位置、车道类型、障碍物信息、交通标志信息中的至少一个。其中，天气可以由车辆的通信模块从云端所获取的天气数据而来，温度可以由车辆的温度传感器获得，以此类推。其中，车辆位置可以由经纬度来表示。车道类型包括直行道、转弯道、单行道、潮汐车道等任意印刷在车道上的标志。交通标志可以包括急转弯、限速标志等所有的交通标志。

本申请对分类的方式不做限制。通过车辆所采集到的数据可以确定车辆当前所处的场景，通常在获得采集的数据之后，可以通过人工、算法或者二者结合的方式对每个数据做出分类，并给出相应的标签，实现对每个数据的描述。对于图像数据来说，数据的单位是帧，即对每帧数据进行描述。对于某一车辆在同一时刻所获得的多维数据来说，可以结合多维数据来描述该时刻的复杂场景。

为了描述复杂的场景，本申请采用高维向量

表示对应于每个数据的标签，其中，x₀,x₁,x₂...x_N分别表示第0个到第N个分类。例如，x₀表示天气、x₁表示温度，等等。每个分类具有多个状态，例如x₀的状态包括晴天、雨天、雪天、雾天等，x₁的状态包括多个不同的温度或温度范围等。某些分类可以采用0或1来表示状态，例如关于“障碍物信息”的分类中，可以具体为“是否有障碍物”，状态为1表示是，状态为0表示否。同理，关于“交通标志信息”的分类可以包括“是否有掉头标志”、“是否有车道线”等多个子分类，分别用1和0表示是和否。

可以理解，不同分类的状态的个数可以是不同的。

在步骤S13，计算数据集的信息熵的目的是评价该数据集在整体上的分布是否合理。如果数据集的信息熵很小，说明数据集整体上分布不太合理，即所采集的数据过于集中在部分分类中，因此需要对数据进行调整，进一步地，需要数据的采集策略做出调整。

在一些实施例中，步骤S13采用下面的公式(1)计算数据集的信息熵：

其中，

表示第k个标签的概率，H(L)表示数据集的信息熵。进一步地，该高维向量中的每个维度x_i(i＝0,...,N)表示一个分类。在具体的计算过程中，所有维度的不同状态的组合，形成了该数据集的不同标签L_k(k＝0.......N)。

在步骤S14，预先设置一第一阈值，当H(L)小于第一阈值时，表示该数据集的分布不合理，需要进行调整。若H(L)大于等于第一阈值，表示该数据集的分布合理，无需调整，可以直接作为自动驾驶算法模型的训练数据。

本申请对如何调整数据集不做限制。在以下的实施方式中，本申请采用删除数据的方式来调整该数据集，以使其信息熵增大。在其他的实施方式中，也可以采用增加特定数据的方式来调整该数据集，以使其信息熵增大。

图2是本申请一实施例的数据筛选方法中的调整数据集的示例性流程图。参考图2所示，在步骤S14中采用下面的方法调整数据集中的多个数据：

步骤S142：对全部分类的信息熵进行排序，获得信息熵最小的N1个第一分类和信息熵最大的N2个第二分类，从该N2个第二分类中平均地删除一部分数据，使得该N1个第一分类的组合状态的概率分布最大，其中，N1和N2都是大于等于1的正整数。

在步骤S141中，分别计算每个分类的信息熵。

在一些实施例中，采用下面的公式(2)计算每个分类的信息熵：

用于表示第i个分类的数据的第0个到第M_i个状态，

进一步地，M_i表示第i个分类的状态的总数，对于不同的分类，M_i可以是不同的。

根据公式(2)可以理解，每个分类的信息熵与其中所有状态的分布是相关的。H(x_i)越大，表示针对分类x_i来说，其数据比较均匀地分布在

的各个状态中，这样的数据分布合理，适于用于模型训练；相反，H(x_i)越小，表示针对分类x_i来说，其数据没有均匀地分布在各个状态中，采用这样的数据进行模型训练，容易进入局部极小，使模型输出不准确。

在步骤S141获得各个分类的信息熵，可以理解，该些信息熵是不完全相等的，有大有小。

在步骤S142，对全部分类的信息上进行排序，获得信息熵最小的N1个第一分类和信息熵最大的N2个第二分类，N1和N2都是大于等于1的正整数。本申请对N1和N2的具体数值不做限制。N1可以等于N2，也可以不等。

具体地，在一些实施例中，设N1个第一分类为{x_t,x_t+1,...x_t+N1}，统计该N1个维度的组合状态的概率分布；设N2个第二分类为{x_u,x_u+1,...x_u+N2}，统计该N2个维度的组合状态的概率分布；然后从该N2个第二分类的组合状态中平均的删除一部分数据，假设删除的数据对应的标签为

则标签

中对应的{x_t,x_t+1,...x_t+N1}的N1维度，在以{x_t,x_t+1,...x_t+N1}为组合状态的时候，需要概率分布最大。这样计算的目的是为了尽量增加N1个维度{x_t,x_t+1,...x_t+N1}的信息熵，而不减少N2个维度{x_u,x_u+1,...x_u+N2}的信息熵。

需要说明，第二分类的信息熵最大，表示属于第二分类的分类相关的数据在其各个状态上的分布比较均匀。第一分类的信息熵最小，表示属于第一分类的分类相关的数据在其各个状态上的分布不均匀。因此，均匀地删除第二分类中的数据，不会影响第二分类的信息熵的大小，但是，如果不同时考虑第一分类的组合状态的概率分布的话，删除第二分类中数据时，可能导致第一分类中原本数据量较少的组合状态的数据被删除，导致其信息熵的进一步下降，也不利于数据的合理分布。因此，本申请在步骤S142中，在从第二分类中平均删除一部分数据的同时，还要保证第一分类的各个组合状态的概率分布最大，从而使剩余数据的分布最合理。

例如，假设获得信息熵最小的1个第一分类：经纬度，获得信息熵最大的1个第二分类：天气。假设天气共有100万个数据，该100万个数据基本平均地分布在各个天气状态中。经纬度数据共有100万个数据，该100万个数据的分布非常不平均，其中大约有80万个数据分布在北纬30度，剩余20万个数据分布在其他纬度。因此，在步骤S142中，均匀地删除10万个数据，使得天气数据的信息熵不减小，同时使经纬度数据的信息熵不减小。这样，所删除的10万个数据都是重复数据，删除他们对信息熵大的各个分类、各个状态的分布没有太大的影响，但是会使原来信息熵小的分类的状态分布更加平均，也就是使原信息熵小的分类的信息熵增大，从而增大整个数据集的信息熵。

在一些实施例中，步骤S142还包括：删除后重新计算每个维度的信息熵H(x_i)(i＝0...n)。可以理解，该重新计算的信息熵应大于删除前的信息熵。

本申请对每次删除的数据量不做限制。

本申请的数据筛选方法包括以下有益效果：

(1)通过上述的步骤S11～S14，对分布不合理的数据集进行筛选，删除其中重复较多的数据，在保持信息熵大的分类的信息熵的同时，增加信息熵小的分类的信息熵，使整个数据集的多个分类的多个状态的分布都趋于平均。

(2)根据步骤S141所获得的结果，可以明确地指示哪些分类的哪些状态的数据量不够，需要增大采集，将该结果发送给数据采集方，可以指导数据采集方更加合理地设计采集策略，使所采集到的数据更加适用于数据使用方。

(3)所删除的数据都是重复数据，从而减少了需标注的数据量，大大降低了标注成本。

在一些实施例中，本申请的数据筛选方法还包括：重复执行步骤S142，直到经删除之后的数据集的综合信息熵的增加量小于一第二阈值，采用经删除之后的数据集作为自动驾驶算法模型的训练数据，其中，采用下面的公式计算综合信息熵：

其中，p_ij表示第i个分类的第j个状态的数据的概率，i＝(0,...,N)，j＝(0,M_i)，N表示分类的总数，M_i表示第i个分类所具有的状态的数量。

根据该些实施例，在每执行一次删除操作之后，都计算一次数据集的综合信息熵，可以理解，该数据集为经删除之后的数据集。当数据分布不合理时，经过删除操作之后，经删除的数据集的综合信息熵应大于删除前的综合信息熵，也就是说综合信息熵有所增加。本申请对该增加量的具体计算方式不做限制，该增加量可以是删除后的数据集的综合信息熵减去删除前的数据集的综合信息熵，还可以是该二者的比值。如果该增加量小于一第二阈值，表示采用步骤S142的删除方法并不能带来整个数据集的信息熵的显著增加，表示当前的数据集已经达到了最优，则停止删除操作，使用当前的数据集作为自动驾驶算法模型的训练数据。

在一些实施例中，本申请的数据筛选方法还包括：重复执行步骤S14，直到数据集的信息熵大于等于第一阈值。在这些实施例中，在步骤S142之后，每次经过删除操作之后，采用公式(1)重新计算删除后的数据集的信息熵，如果该信息熵已经大于等于第一阈值，则停止执行步骤S14，并认为此时的数据集已经达到最优，可以作为自动驾驶算法模型的训练数据。

采用本申请的数据筛选方法所获得的车辆相关的数据集，在各个分类和各个状态上的分布是最均匀地，将这些数据作为训练数据输入自动驾驶算法模型，可以提高模型的准确性，并且不易进入局部最小。采用这些经训练的自动驾驶算法模型，可以使车辆更加聪明，能够更加准确地识别出各个场景，并更加智能地控制车辆在各种场景中以最合适的驾驶模式运行。

本申请还包括一种基于信息熵的数据筛选装置，包括存储器和处理器。其中，该存储器用于存储可由处理器执行的指令；处理器用于执行该指令以实现前文所述的基于信息熵的数据筛选方法。

图3是本发明一实施例的基于信息熵的数据筛选装置的系统框图。参考图3所示，该数据筛选装置300可包括内部通信总线301、处理器302、只读存储器(ROM)303、随机存取存储器(RAM)304以及通信端口305。当应用在个人计算机上时，该数据筛选装置300还可以包括硬盘306。内部通信总线301可以实现该数据筛选装置300组件间的数据通信。处理器303可以进行判断和发出提示。在一些实施例中，处理器302可以由一个或多个处理器组成。通信端口305可以实现该数据筛选装置300与外部的数据通信。在一些实施例中，该数据筛选装置300可以通过通信端口305从网络发送和接受信息及数据。该数据筛选装置300还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘306，只读存储器(ROM)303和随机存取存储器(RAM)304，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器302所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。

上述的数据筛选方法可以实施为计算机程序，保存在硬盘306中，并可加载到处理器302中执行，以实施本申请的数据筛选方法。

本发明还包括一种存储有计算机程序代码的计算机可读介质，该计算机程序代码在由处理器执行时实现前文所述的基于信息熵的数据筛选方法。

基于信息熵的数据筛选方法实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

应该理解，上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理器可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。

本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带......)、光盘(例如，压缩盘CD、数字多功能盘DVD......)、智能卡以及闪存设备(例如，卡、棒、键驱动器......)。

计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。