CN112613536A

CN112613536A - 一种基于smote和深度学习的近红外光谱柴油牌号识别方法

Info

Publication number: CN112613536A
Application number: CN202011443096.0A
Authority: CN
Inventors: 王书涛; 刘诗瑜; 崔凯; 张靖昆; 孔德明
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-04-06
Anticipated expiration: 2040-12-08
Also published as: CN112613536B

Abstract

本发明公开了一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其包括如下步骤：步骤1、绘制柴油近红外光谱图并分析柴油不同牌号的分布情况，对牌号标签进行属性映射,并以柴油的不同牌号作为样本集；步骤2、采用SMOTE对样本集进行数据均衡处理，并将样本集划分为训练集样本和测试集样本；步骤3、用训练集样本构建一维深度卷积神经网络的近红外光谱分类模型；步骤4、将测试集样本带入建好的模型中，获得柴油牌号识别的结果，绘制多分类混淆矩阵，并分析每个类别的识别率。本发明不需要大量的预处理，可以提高分类识别的准确性，并可提高少数类样本的识别率。

Description

一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法

技术领域

本发明涉及近红外光谱领域，尤其是一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法。

背景技术

由于高能量密度、低油耗和低价格，石油衍生品柴油在市场中仍占据主导地位。提高柴油的质量和检测精度，以满足柴油市场不断变化的需求，仍然是未来全球石油工业发展的主要方向之一。按照GB/T1.1-2020标准，根据凝点的不同，市售柴油可分为5#、0#、-20#、-35#和-50#共6种牌号。柴油牌号越低，结蜡的可能性越小，价格相对来说越高。一些不法厂商为了牟取利益，柴油掺假、乱贴标签的行为屡见不鲜，这些违规油品的售卖不仅会损坏发动机，还会增加污染排放，甚至危害人身安全。因此，快速准确识别柴油牌号不仅可以为监管部门掌握准确及时的检测数据提供便利，而且对于保障消费者权益和生命安全都具有重要意义。

对于柴油的牌号，如果仅仅从颜色、手感、气味等方面进行鉴别，虽然常用于日常生活中，但无疑是一项费时、费力又主观性强的工作，并且不适合大规模生产检测。近红外光谱法即NIRS，作为一种快速、绿色、成本低、易于操作的无损技术，在石油化工领域已经有很多实际应用的案例。柴油的NIRS包括了复杂混合物中各种烃类(如O-H、C-H和N-H)的特征吸收，想要准确识别柴油牌号绝非易事，需要借助计算机辅助检测。目前常用的辅助模型有偏最小二乘法、支持向量机、人工神经网络等等，由于NIRS的光谱范围广，有用信息强度弱，噪声干扰多且谱峰重叠严重，这些传统的机器学习方法必须结合大量的去噪，特征提取，降维等的前期处理才有可能获得较快的检测速度和较准确的预测结果，这不仅无形中增加了工作量，而且模型的应用性以及预测的准确度也亟待提升。

深度学习是一种深层网络，该技术作为机器学习领域中一个新的研究方向，近年来，在图像处理、语音识别、机器翻译等多个应用领域的发展如火如茶。其中，深度卷积神经网络即DCNN，是应用最为广泛的深度学习模型，它能够自主的从复杂的数据中提取有效特征并进行维数约减，与传统的浅层模型相比，这种端到端的深度学习模型具有更强大的表达能力，然而由于其主要用于处理二维或三维的图像，对于一维的NIRS处理比较少。

发明内容

本发明需要解决的技术问题是提供可以提高分类识别的准确性，并可提高少数类样本的识别率的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其包括如下步骤：

步骤1、绘制柴油近红外光谱图并分析柴油不同牌号的分布情况，对牌号标签进行属性映射,并以柴油的不同牌号作为样本集；

步骤2、采用SMOTE对样本集进行数据均衡处理，并将样本集划分为训练集样本和测试集样本；

步骤3、用训练集样本构建一维深度卷积神经网络的近红外光谱分类模型；

步骤4、将测试集样本带入建好的模型中，获得柴油牌号识别的结果，绘制多分类混淆矩阵，并分析每个类别的识别率。

本发明技术方案的进一步改进在于：利用柴油的样本集来绘制近红外光谱图像，根据柴油的凝点，将样本牌号分为-10#、-20#、-35#、-50#和干扰共5类，分别进行属性映射，映射为类别1、2、3、4和0。

本发明技术方案的进一步改进在于：采用SMOTE对样本集进行数据均衡处理的具体流程如下：

1)：首先，对于少数类中的每一个样本x，计算其到少数类样本集中所有样本的欧式距离，得到其k近邻；

2)：根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择若干个样本，假设选择的近邻为x_n；

3)：对于每一个x_n，分别与原样本按照公式<1>构建新的样本；

x_new＝x+rand(0,1)×|x-x_n|,new∈1,2,…,N <1>

4)：最后，重复上述步骤N次，合成N个新样品；如果稀有类共有T个样本，则可以合成NT个新样本。

本发明技术方案的进一步改进在于：构建一维深度卷积神经网络的近红外光谱分类模型的具体方法为：

对一维的近红外光谱数据，进行一些变换，使输入信号可以满足卷积神经网络的要求；将一维近红外光谱认为是仅包含一行或一列的二维图像的特殊集合，光谱信号进行相应的扩维，并将类别标签转换成独热编码的形式；参照LetNet-5构建一维深度卷积神经网络模型，包括输入层、两个卷积层、两个池化层、两个全连接层和输出层。

本发明技术方案的进一步改进在于：卷积层由一组参数可训练的卷积核组成，卷积核的尺寸设置为m×1，一维信号的卷积运算如公式<2>所示：

式中，l为当前的卷积层，l-1则为第(l-1)层卷积层，x_i和y_j分别代表第i个输入特征图和第j个输出特征图，*是卷积运算符，ω_ij代表卷积核，b为偏置，f(.)为激活函数的运算。

本发明技术方案的进一步改进在于：在卷积层中引入激活函数PReLU，该函数的表达式如<3>所示。

本发明技术方案的进一步改进在于：池化层的运算如公式<4>所示：

式中，l代表当前池化层，l-1代表第(l-1)池化层，y_j为第j个输出特征图，β是乘性偏置项，b为偏置；

池化方法为最大池化法，最大池化法采样方法按照公式<5>计算：

式中，将卷积层得到的一个特征映射划分成多个区域为X_k,k∈1,2,…,K。

本发明技术方案的进一步改进在于：全连接层包括Flatten层和两个Dense层，最后一个Dense层的激活函数为Softmax，并且于全连接层中加入一定比例的随机失活，其中，全连接层按照公式<6>计算：

h_ω,b(x)＝f(ω^Tx+b) <6>

式中，ω为神经元的权重，b为偏置，T为转置，h(x)为神经元的输出。

本发明技术方案的进一步改进在于：构建好模型之后，配置训练方法；配置的训练方法包括损失函数、优化器和评测指标，其中损失函数具体为交叉熵损失函数，其公式如<7>所示，优化器采用Adam优化，评测指标为准确率A，如公式<8>所示：

式中，n_i是预测样本和实际类别相同的个数，n为总样本数。

本发明技术方案的进一步改进在于：基于构建好的一维深度卷积神经网络模型，分别采用经过SMOTE过采样处理后的测试集以及原始测试集进行柴油牌号的预测，获得整体的分类识别率；随后绘制多分类混淆矩阵，并根据混淆矩阵得到精确率、召回率、准确率和平衡F分数如<9>、<10>、<11>、<12>所示：

其中，TP为将正例预测为正例的样本数，FN为将正例预测为反例的样本数，FP为将反例预测为正例的样本数，TN为将反例预测为反例的样本数。

由于采用了上述技术方案，本发明取得的技术进步是：

本发明提出的基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，可以在不需要人工的进行特征提取与降维等复杂操作的前提下，大大提高分类识别的准确性，并且考虑到实际生活中类别样本不均衡的问题，提高少数类样本的识别率。本发明提出的SMOTE和深度学习相结合的模型应用性以及可扩展性强，有助于实现一种基于NIRS的精确度高、操作简单、便携式、快速检测系统的开发。

附图说明

图1是本发明的流程图；

图2是柴油的NIRS图；

图3是原始数据各类别样本数分布图；

图4是经过SMOTE过采样处理后的训练集样本分布图；

图5是基于NIRS的一维深度卷积神经网络分类模型结构图；

图6是训练集损失函数变化图；

图7是训练集准确率变化图；

图8是经SMOTE过采样处理后的训练集多分类混淆矩阵图；

图9是经SMOTE过采样处理后的测试集多分类混淆矩阵图；

图10是原始的测试集多分类混淆矩阵图；

图11是本发明与XGBoost、SVM、BP方法预测准确率对比图。

具体实施方式

下面结合实施例对本发明做进一步详细说明：

参照图1，本发明的具体实施步骤如下：

步骤1，绘制柴油NIRS图并分析柴油不同牌号的分布情况，对牌号标签进行属性映射，并以柴油的不同牌号作为样本集；

在本实施例中，所用的柴油牌号样本集的样本详细信息如表1所示。共有394个样本，对牌号-10#、-20#、-35#、-50#和干扰分别进行属性映射，映射为类别1、2、3、4和0。从表格中可以看出，每个类别的样本数都不同，而且各类别样本分布极其不均匀。

表1.柴油牌号数据集的样本详细信息

其中，柴油的NIRS如图2所示，光谱波长范围在750nm～1550nm，间隔2nm，即共有401个特征波长点。从图中可以看出394个样本堆叠在了一起，无法区分，并且光谱的信息强度弱，干扰多，想要仅凭借NIRS图来实现5个类别的准确区分是完全不可行的，因此，需要采用步骤2的方法来进行数据的均衡处理。

步骤2，采用SMOTE方法对样本集进行数据均衡处理；

首先采用交叉验证法按照7:3的比例自动划分样本集，得到训练集样本275个，测试集样本119个。为了提高模型的泛化能力，解决类别不均衡现象，采用SMOTE过采样技术对训练集样本数据进行均衡处理，SMOTE处理前的各个类别样本分布情况如图3所示，SMOTE处理后的训练集的各个类别样本分布情况如图4所示。处理后每个类别样本数一致，均为184个样本，即训练集样本由原来的275个样本变成了920个样本。为了后期比较，同时采用SMOTE方法对测试集样本进行了不均衡样本的自动生成，生成新的测试集样本共有395个样本。

步骤3，用柴油的训练集样本建立一维深度卷积神经网络的NIRS分类模型；

在本实施例中，基于NIRS的一维深度卷积神经网络分类模型的整体结构如图5所示。具体如下：

步骤3.1：输入层，输入一维柴油NIRS信号，输入形状为(401,1)。

步骤3.2：卷积层，为了配合使用一维深度卷积神经网络,卷积核大小为40*1，卷积核个数为16，步长为1，激活函数为PReLU，PReLU具有收敛速度快、错误率低的特点，又可以有效解决避免梯度消失与梯度爆炸的问题。

步骤3.3：池化层，采用最大池化法，池化窗口大小为3*1，步长为1。

步骤3.4：卷积层，卷积核大小为40*1，卷积核个数为64，步长为1，激活函数为PReLU。

步骤3.5：池化层，采用最大池化法，池化窗口大小为3*1，步长为1。

步骤3.6：Flatten层，把多维的输入一维化，实现到全连接层的过渡。

步骤3.7：Dense层，为了降低模型的过拟合风险，加入比例为0.1的随机失活Dropout，神经元个数为128，激活函数为PReLU。

步骤3.8：Dense层，神经元个数为5，分别对应输出的5个类别，激活函数为Softmax。

步骤3.9：以交叉熵为损失函数，采用Adam优化器，以准确率A为评测指标，设置批处理样本数目为16，对经SMOTE过采样处理后的训练集样本进行训练，得到训练集损失函数的迭代曲线如图6，可以看出随着训练批次的增加，损失值越来越小，最后接近0。训练集评测指标准确率的迭代曲线如图7所示，随着训练批次的增加，训练集准确识别率逐渐增加，最后接近1。从训练结果看，模型的性能比较好，一维深度卷积神经网络的柴油牌号定性分析模型就成功建立了。

在此，需要说明的是：

在步骤3.2和步骤3.4中，卷积层由一组参数可训练的卷积核组成，通过在输入数据上按照特定的规律滑动来进行卷积运算，实现光谱局部抽象特征的提取，对应生成一维的特征图。

在步骤3.3和步骤3.5中，池化层通常用于对卷积运算生成的图进行采样，以减少卷积层中特征向量的维数；在保证特征图的个数不变的前提下，通过缩减数据量，可以大大提高算法的运行速度。

在步骤3.6中，Flatten层用来将数据展平，便于与神经元进行有序的连接。

在步骤3.9中，交叉熵是用来评估当前训练得到的概率分布与真实分布的差异情况，表明实际输出的概率与期望输出的概率之间的距离。

步骤4，将测试集样本带入建好的模型中，获得柴油牌号识别的结果，并绘制多分类混淆矩阵，分析每个类别的识别率。

在本实施例中，首先基于构建好的一维深度卷积神经网络分类模型，利用训练集数据进行分类预测，得到训练集的分类准确率为97.61％；带入经过SMOTE过采样处理后的测试集数据，可得到分类准确率为95.44％；带入原始119个样本的测试集数据，可得分类准确率为95.80％。此时，为了便于观察每个类别的识别率，尤其是少数类样本的识别率，则需要绘制多分类混淆矩阵，多分类混淆矩阵是在传统的二分类混淆矩阵的基础上增加一对一的策略转换而来的，矩阵的行代表数据的真实类别，列代表预测类别。因此主对角线上的数字代表预测结果与实际结果一致的元组数，对角线以外则表示预测错误的元组数。

那么，就可以分别绘制上述三种情况下的多分类混淆矩阵如图8、9和10所示。可以看出不管是训练集还是测试集，每个类别的预测准确率都比较高，对于实际的原始测试集样本，0类别、1类别和4类别这些少数类的样本的准确识别率可高达100％。根据混淆矩阵，按照公式<9>、<10>、<11>和<12>，可求得预测模型的精确率为98.67％，召回率为100％，准确率为95.80％，F1值为0.9933。该模型对于柴油牌号分类的准确率高，泛化能力强。

为了增加说服力，采用XGBoost集成学习方法和SVM、BP神经网络处理相同的柴油NIRS数据集。

具体的，XGBoost的参数设置为如下：树的棵树为196，树的最大深度为5，最小叶子节点权重和1，复杂度控制项gamma＝0.15，L1正则项的权重为0.08，L2正则项的权重为0.1，每棵树随机采样的比例subsample＝0.71，每棵随机采样的列数的占比colsample_bytree＝0.69，学习率为0.1，弱分类器选择“gbtree”，目标函数选择“multi:softmax”，类别数为5，CPU线程数为4。通过模型的构建，可以得出对于原始测试集柴油样本，XGBoost模型牌号分类识别率为75.63％。

SVM的参数设置如下：核参数g和惩罚参数c的范围为[-10,0.2]，以RBF为核函数，采用交叉验证网格搜索的方式进行参数寻优。通过模型的构建，可以得出对于原始测试集柴油样本，SVM模型牌号分类识别率为78.99％，该方法运行速度稍慢。

BP神经网络的参数设置如下：输入层节点数为275，隐含层包括9个节点，输出层包括5个节点，利用Softmax将神经网络的输出变成概率分布，然后利用交叉熵作为损失函数，学习率为0.05。通过模型的构建，可以得出对于原始测试集柴油样本，BP模型牌号分类识别率为69.75％，由于传统的BP神经网络层之间所有神经元全部连接，所以模型运行速度也非常慢。

将几种方法的分类结果绘制在图11中，可以明显看出，本发明提出的SMOTE过采样技术结合一维深度卷积神经网络方法可以大大提高柴油牌号的分类识别率。

综上所述，本发明所述SMOTE过采样技术结合一维深度卷积神经网络的方法不仅解决了现实情况中普遍存在的类别样本数失衡的问题，而且避免了传统NIRS建模方法需要繁琐的去噪，特征选择与降维等预处理过程。不仅提高了柴油牌号整体的分类识别率，而且大大提高了少数类别样本的识别率，模型的泛化能力与实际应用性强。实现了利用基于深度学习的NIRS建模柴油牌号智能识别代替繁琐的人工识别，节省了人力物力。并且，该方法在NIRS定性分析领域有很好的应用前景。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：利用柴油的样本集来绘制近红外光谱图像，根据柴油的凝点，将样本牌号分为-10#、-20#、-35#、-50#和干扰共5类，分别进行属性映射，映射为类别1、2、3、4和0。

3.根据权利要求2所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：采用SMOTE对样本集进行数据均衡处理的具体流程如下：

x_new＝x+rand(0,1)×|x-x_n|,new∈1,2,…,N <1>

4.根据权利要求3所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：构建一维深度卷积神经网络的近红外光谱分类模型的具体方法为：

5.根据权利要求4所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：卷积层由一组参数可训练的卷积核组成，卷积核的尺寸设置为m×1，一维信号的卷积运算如公式<2>所示：

6.根据权利要求4所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：在卷积层中引入激活函数PReLU，该函数的表达式如<3>所示。

7.根据权利要求4所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：池化层的运算如公式<4>所示：

8.根据权利要求4所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：全连接层包括Flatten层和两个Dense层，最后一个Dense层的激活函数为Softmax，并且于全连接层中加入一定比例的随机失活，其中，全连接层按照公式<6>计算：

h_ω,b(x)＝f(ω^Tx+b) <6>

9.根据权利要求4所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：构建好模型之后，配置训练方法；配置的训练方法包括损失函数、优化器和评测指标，其中损失函数具体为交叉熵损失函数，其公式如<7>所示，优化器采用Adam优化，评测指标为准确率A，如公式<8>所示：

式中，n_i是预测样本和实际类别相同的个数，n为总样本数。

10.根据权利要求4所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法，其特征在于：基于构建好的一维深度卷积神经网络模型，分别采用经过SMOTE过采样处理后的测试集以及原始测试集进行柴油牌号的预测，获得整体的分类识别率；随后绘制多分类混淆矩阵，并根据混淆矩阵得到精确率、召回率、准确率和平衡F分数如<9>、<10>、<11>、<12>所示：