CN112216356A

CN112216356A - 一种基于机器学习的高熵合金硬度预测方法

Info

Publication number: CN112216356A
Application number: CN202011140018.3A
Authority: CN
Inventors: 邹瑞; 李述; 王鹏; 李帅; 杨致远
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-12
Anticipated expiration: 2040-10-22

Abstract

一种基于机器学习的高熵合金硬度预测方法，属于金属材料硬度预测技术领域，用以解决传统方法预测搜索性能优异的高熵合金耗时耗力且不准确的问题。该方法包括，获取用来预测高熵合金硬度的特征数据训练集；对特征数据进行筛选，获取最优特征组合；通过十重交叉验证方法选择机器学习模型；采用选择的机器学习模型并输入最优特征组合进行模型训练；根据训练好的模型对未知的高熵合金硬度进行预测，挑选出预测硬度高且预测可信性好的高熵合金。本发明中的特征筛选方法与现有的穷举法需要排列所有特征的组合去寻找最优特征相比，在基于机器学习算法进行高熵合金硬度预测时，不仅对高熵合金性能预测较为准确，而且更为节省计算资源与时间。

Description

一种基于机器学习的高熵合金硬度预测方法

技术领域

本发明涉及金属材料硬度预测技术领域，具体涉及一种基于机器学习的高熵合金硬度预测方法。

技术背景

传统的金属合金一般由一种或者两种主要元素以及一些辅助元素组成，在传统的三元合金中，成分往往就位于三角形相图中的一个顶角附近的位置，而近些年引起广泛关注的高熵合金往往由五种或五种以上的元素组成，每个元素的摩尔分数都在5％～35％之间的，因此高熵合金有时也称为多主要元素合金。高熵合金由于其内部含有较高的构型熵，会在高熵合金内部产生高熵效应，由高熵效应的假说可知当合金的构型熵较高时，合金相较于金属间化合物相(IM)或无定形相(AM)会更加倾向于生成固溶体相(SS)。因此高熵合金往往在性能上更优异，比如较高的强度和硬度、较好的耐磨性能、优异的延展性等等。

传统的搜寻高性能材料-高熵合金的方法，往往是通过实验、理论或计算来表征材料性能，但是这些方法耗时耗力，难以进行高通量的材料表征，而且高熵合金中具有十分巨大的组成成分空间和微观结构空间，所以凭借传统方法寻找性能优异的高熵合金是十分困难的。而随着人工智能以及大数据时代的到来，用机器学习方法来寻找具有优异性能的具体材料也逐渐被应用于各种高性能材料搜寻问题上。

基于机器学习来预测材料性能往往需要以下步骤：搜集数据、特征工程、模型选择与训练、误差分析以及验证。而特征工程中最主要的方面就在于特征选择，特征选择的优劣将在很大程度上影响性能预测的结果，但挑选适用于特定的材料性能预测的特征上面并没有一个公认的通用方法。因此如何寻找到一种最适合的特征筛选方法，在应用机器学习预测高熵合金硬度的过程中显得尤为重要。

发明内容

鉴于以上问题，本发明提出一种基于机器学习的高熵合金硬度预测方法，用以解决传统方法预测搜索性能优异的高熵合金耗时耗力且不准确的问题。

一种基于机器学习的高熵合金硬度预测方法，包括以下步骤，

步骤一、获取用来预测高熵合金硬度的特征数据训练集；

步骤二、对特征数据进行筛选，获取最优特征组合；

步骤三、通过十重交叉验证方法选择机器学习模型；

步骤四、采用选择的机器学习模型并输入最优特征组合进行模型训练；

步骤五、根据训练好的模型对未知的高熵合金硬度进行预测，挑选出预测硬度高且预测可信性好的高熵合金。

进一步地，步骤一中所述高熵合金为Al-Co-Cr-Cu-Fe-Ni体系。

进一步地，步骤一中所述特征包括原子半径差、电负性差、价电子浓度、混合焓、构型熵、Ω参数、Λ参数、γ参数、局部电负性失配、流动电子数目、内聚能、模量失配、局部尺寸失配、能量项、纳巴罗系数、功函数、剪切模量、剪切模量差、局部模数失配、晶格畸变能。

进一步地，步骤二中对特征数据进行筛选包括首先确定特征组合中特征个数，然后利用皮尔逊相关系数筛选相关性大的特征，最后采用遗传算法获取最优特征组合。

进一步地，确定特征组合中的特征个数为3个。

进一步地，利用皮尔逊相关系数筛选相关性大的特征的原则是筛选后保留皮尔逊相关系数值大于0.95的特征作为高度相关特征。

进一步地，所述最优特征组合是γ参数、电子浓度、功函数三个特征。

进一步地，步骤四中所述机器学习模型为支持向量回归算法模型。

进一步地，所述支持向量回归算法中采用高斯核核函数，并使用贝叶斯优化进行超参数的调优。

本发明的有益技术效果：

本发明通过先确定特征组合中特征个数，再以皮尔逊相关系数筛选相关性大的特征，之后以遗传算法筛选获得最优特征组合，与现有的穷举法需要排列所有特征的组合去寻找最优特征相比，在应用机器学习算法进行高熵合金硬度预测时，本发明中的特征筛选方法不仅对高熵合金性能预测较为准确，而且更为节省计算资源与时间。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。

图1示出了根据本发明实施方式一种基于机器学习的高熵合金硬度预测方法的示意性流程图。

图2示出了根据本发明实施方式一种基于机器学习的高熵合金硬度预测方法中确定特征组合中特征个数步骤的精度验证图。

图3示出了根据本发明实施方式一种基于机器学习的高熵合金硬度预测方法的不同特征之间的皮尔逊相关系数图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本发明内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

图1示出了根据本发明实施方式一种基于机器学习的高熵合金硬度预测方法的示意性流程图。如图1所示，一种基于机器学习的高熵合金硬度预测方法，包括以下步骤，

步骤一、获取用来预测高熵合金硬度的特征数据训练集；

根据本发明实施例，本发明中高熵合金体系为Al-Co-Cr-Cu-Fe-Ni体系，所使用的数据集来自文献[1]中的155个成分数据集，包括1个三元合金，22个四元合金，95个五元合金，38个六元合金以及20个物理特征的公式，包括原子半径差(δr)，电负性差(Δχ)，价电子浓度(VEC)，混合焓(ΔH)，构型熵(ΔS)，Ω参数(Ω)，Λ参数(Λ)，γ参数(γ)，局部电负性失配(D.χ)，流动电子数目(e/a)，内聚能(Ec)，模量失配(η)，局部尺寸失配(D.r)，能量项(A)，纳巴罗系数(F)，功函数(W)，剪切模量(G)，剪切模量差(δG)，局部模数失配(D.G)，晶格畸变能(μ)。通过调研十余篇已发表文献找到20个物理特征的公式中所使用的各个元素物理特性上面所述的值，从而得到20个155组的物理特征数据集，作为训练数据集。

步骤二、对特征数据进行筛选，获取最优特征组合；

根据本发明实施例，本发明首先确定特征组合中特征个数，然后再以皮尔逊相关系数筛选相关性大的特征，之后采用遗传算法筛选特征。

在特征数据集中包括与预测性能相关的多种特征，但是并不是所有的特征都会对目标性能预测有所帮助，特征也可以分为对材料物理特性预测上的有用特征、无用特征和冗余特征。因此需要对特征进一步进行选择，特征选择的目的在于去除掉无用以及冗余的特征，给原始数据集降维，在提高精度的同时减少模型的复杂度。

考虑一种验证方法，用以验证包含几个物理特征的支持向量回归模型可以保证有足够高的预测精度的同时又能使特征数量尽量少，这样可以保证所训练的模型的复杂度较低且面对未知的高熵合金成分空间时的泛化能力较强。

首先对于全部的特征数据集，随机选取200种包含不同数量特征的特征组合，再分别挑选出对应的特征数据进行训练并使用十重交叉验证方法验证精度，精度结果如图2所示，由图2可以看出，包含三个特征的特征组合既能保证一定的精度值，也能保证特征组合中个数较少，并且精度值可以适当降低一些，以模型的泛化能力为最终优化目标，防止过拟合。

然后使用皮尔逊相关系数去除相关度高的特征；皮尔逊相关系数(PCC)用于度量两个量之间的相关性，其值介于-1到+1之间，绝对值越接近1则说明相关性越大，因为在特征数据中存在高度相关的特征，那么就可以用其中一个代替另一个，被代替的就称为冗余特征。为了减少计算时间，并通过去除不相关和冗余的特征来提高模型的鲁棒性，使用皮尔逊相关系数得出特征的两两相关性，对于高度相关的特征，只保留其中一个，以减少后续建模中的冗余信息，图3示出了不同特征之间的皮尔逊相关系数图。如图3所示，相关性大于0.95的为高度相关的特征，进一步地，为了选择带保留的特征，通过评估某一特征对模型的测试误差，对每个特征对模型的重要性进行排序，将原始数据集根据十重交叉验证分为训练集(80％)和测试集(20％),并构建SVR高斯核基于训练集的一个特征进行训练，并使用均方根误差Rmse计算测试误差，最后将高度相关且效果不好的5个特征包括能量项(A),晶格畸变能(μ),剪切模量(G),剪切模量差(δG),电负性差(Δχ)特征去除，剩下15个特征。

此外，可以计算单个特征与硬度之间的皮尔逊相关系数，得到特征与硬度之间的皮尔逊关系，并将皮尔逊相关系数值从大到小排列，去掉与硬度相关性低的特征，从而可以得到一组与硬度相关性高的特征。然而，皮尔逊相关系数描述变量之间的线性依赖关系，对于线性关系的特征具有较好的影响，如果变量之间存在非线性关系，那么皮尔逊相关系数的结果就很差。

最后利用遗传算法对特征进行筛选；遗传算法的特点在于可以不通过求导等复杂的数学上常用的求解最优化问题的基本方法，而直接作用于结构对象进行操作，并且在操作过程中，不要求人为预先设定好其每一步的优化方向和求解范围，可以要求遗传算法在每一次的迭代中自行寻找其优化的方向与范围。本发明中限定特征筛选的个数，筛选特征的效果更好，确定的种群数量为100，迭代次数为200，但是迭代到几十次种群即可得到稳定结果，交叉时在种群中选出10个个体作为父代中的一方，再选出10个个体作为另一方，令他们之间相互一一交叉生成新的样本；变异概率设置为0.01，多次执行遗传算法得出不同的迭代结果，但每一次的筛选结果均在特征排序的前6名，并且还找到了第1名。无论是在20个特征中进行选择或是更少，在20个特征中进行选择，每个选择的结果均在前六名之内，而且每种情况都能找到最优的特征组合，且用时较少，这说明遗传算法在保证精度的同时还可以节省特征筛选时间。

具体地，遗传算法主要步骤中包括种群初始化、选择、交叉、变异、适应度值计算。

种群初始化：本发明中特征选择的数量是三个特征，因此初始种群里的每一个个体也即每一个特征组合也都只包含三个特征，每一个个体包含20个数据点，随机设置其中3个值为1，其余17个值为0，这样的个体就可以表示一个包含三个特征的特征组合，重复以上操作生成若干个个体组成遗传算法的初始种群。

选择：根据适应度值，按照一定的规则与方法，从种群中以概率的形式挑选出优良的个体然后再投入到交叉变异中生成下一代种群。选择算子有很多种，一般常用的选择算子是比例选择算子，计算出种群中每个个体的适应度和总适应度，把每个个体的适应度与总适应度之比作为各自的相对适应度，所有个体的相对适应度之和为1，在一个圆盘中根据相对适应度的大小把圆盘分为若干份，然后产生0与1之间的随机数，根据随机数位于圆盘哪块来决定选择哪个个体。重复操作，生成新的种群。

交叉：常见的交叉算子为按位交叉，即随机选择两个种群中的个体，随机选择一个位点，将该位点到最后一个位点之间的各个位的值相互交换，或可以说将第一个位点到该位点之间的部分进行互相交换，就这样生成了两个子代个体，重复若干次以上操作，生成种群数量个新的子代个体组成新的种群，本发明中为了保证交叉操作后仍生成包含三个特征的特征组合，选择进行交叉的父代个体时，统计两个个体中各位点上一个为1、另一个为0情况对应的位置与数量以及反过来一个为1、另一个为0对应的位置与数量，两个数量的最大值的一半为要交换的位点的数量，则将相应数量的位点进行交叉，从而保证生成的新个体的内部依旧对应三个特征。

变异：需要先在[0,1]之间设置一个较小的值作为变异概率，对于每一个个体进行变异操作时，分别随机取一个[0,1]之间的值，若这个值小于之前设置的值，则对这个个体中任意一个位点的值进行翻转；为保证个体对应三个特征，设置若一个个体上有一个1位点被翻转，则相对随机找到一个0位点也翻转，若有一个1位点被翻转，则相对随机找到一个0位点翻转。

适应度值计算：一般的方法是得到其对于求解问题的能力，本发明基于支持向量回归使用该个体所代表的特征组合代入到十重交叉验证并且使用均方根误差(RMSE)来评估误差值，从误差上从而得到个体本身所对应的适应度值。

通过上述方法筛选的最优特征组合是γ参数、电子浓度、功函数三个特征，作为后续机器学习中所使用的物理特征组合。

步骤三、通过十重交叉验证方法选择机器学习模型；

根据本发明实施例，为了在统计学上验证模型的泛化能力，避免过拟合，提升验证结果的稳定性，本发明使用十重交叉验证分割数据集，使用多种机器学习模型对高熵合金预测硬度进行建模，将多种方法在高熵合金训练数据集中进行了训练并比较精度及稳定性，最终选择采用支持向量回归算法(SVR)来准确预测高熵合金的硬度特性。

使用十重交叉验证分割数据集，得到了多次十重交叉验证精度的平均值，精度由均方根误差计算，计算公式如下：

其中，RMSE表示均方根误差值；m表示样本总数；x_i表示样本特征向量；y_i表示第i个样本的真实值；f(x_i)表示模型对于第i个样本的预测值。

支持向量回归算法与一般的回归方法不同，其形式上拟合出一条直线：

但是训练时并不是要求一定要完全拟合所有提供了的样本点，而是允许预测值与真实的硬度值之间最多有ε的偏差，也即仅当预测值与真实值之间的偏差大于ε的时候才计算损失。支持向量回归的损失函数最小化为：

其中，

表示直线的斜率；C表示正则化参数；l_ε表示ε-不敏感损失函数，

对于在样本空间中并不能很好的以线性方程拟合样本的具体情况，可以通过

的方式把样本中的实例向量

映射到高维，如图2所示，在高维情况下就可以用线性很好的拟合特征向量，进而可以将所有的支持向量机的

全部换为

引入松弛变量并利用拉格朗日乘子法求解最优化问题：

其中，m表示训练样本的总数量；α_i表示拉格朗日乘子法中的与各个样本点对应的拉格朗日乘子，由于在上面优化式中涉及到

的部分只有

由于用映射将样本点映射到合适的可以线性拟合样本点的高维特征空间是十分困难的，并不知道合适的映射φ(·),因此应用上为简便计算，使用“核技巧”，即设定核函数

这样就可以在高维空间中只需设定合适的核函数而不需去找到复杂的映射方程就可以完成相应支持向量回归的学习，常用核函数的种类有很多，本发明通过比较选用如下高斯核核函数：

引入上述核函数之后，式(1)转化为：

用SMO优化算法求解上述优化问题，求解拉格朗日乘子，得到支持向量回归模型。

根据本发明实施例，为了验证特征筛选方法的必要性与结果的有效性，将20个特征中三个特征组合的所有情况共计1140种特征组合分别代入到支持向量回归算法中进行训练与测试，以十重交叉验证的方法并使用均方根误差的计算方法来计算其相对的测试误差，并依据测试误差从小到大对特征组合进行预测准确性排序，作为特征筛选方法预测准确性的评判标准。表1示出了穷举法搜索出的预测准确性排名前20位的特征组合。

表1

从表1中可以看出，相较于以穷举法来选择最优特征组合，本发明方法通过先确定特征组合中特征个数，再以皮尔逊相关系数筛选相关性大的特征，之后以遗传算法筛选特征的过程不仅准确，而且更为节省计算资源与时间。

本发明所使用的Al-Co-Cr-Cu-Fe-Ni体系的高熵合金测试集来自文献[1]所给出的经过在1895147个Al-Co-Cr-Cu-Fe-Ni体系的高熵合金具体成分中搜索出的预测硬度值高于750HV的614143个Al-Co-Cr-Cu-Fe-Ni体系高熵合金成分数据集，在这样的数据集中进行预测搜索，有利于更好地寻找优异的高熵合金具体成分，在预测搜索过程中找到的硬度较高的高熵合金具体成分如表2所示。

表2

表2中表示的高熵合金中每个元素的成分比重为其对应的摩尔占比，最高预测硬度的高熵合金为：Al_0.41Co_0.2Cr_0.18Fe_0.16Ni_0.05，其预测硬度为791.532194HV。

本发明根据预测准确性和时效性综合比较，得出了在高熵合金硬度预测过程中的特征筛选方法中选择遗传算法进行特征筛选为最优特征筛选方法这一结论，并由遗传算法重复进行多次特征筛选得出了预测性能最优的预测特征组合—γ参数、电子浓度、功函数，相较于在20种物理特征中以穷举法来选择最优特征组合的特征筛选方法，本发明通过先确定特征组合中特征个数，再以皮尔逊相关系数筛选相关性大的特征，之后以遗传算法筛选特征的方法是更为节省计算资源与节省时间的，并且先进行特征组合筛选再通过使用高斯核支持向量回归等机器学习模型高熵合金硬度预测与虚拟空间高熵合金搜索的流程是高效稳定的，本发明构建了一个完整且通用的机器学习预测材料性能的实现框架，实现了一种在广大虚拟空间中进行高性能材料具体成分探寻的搜索方法，成功预测并推荐了几种高硬度的高熵合金，并预测了其对应的硬度。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于机器学习的高熵合金硬度预测方法，其特征在于，包括以下步骤，

步骤一、获取用来预测高熵合金硬度的特征数据训练集；

步骤二、对特征数据进行筛选，获取最优特征组合；

步骤三、通过十重交叉验证方法选择机器学习模型；

2.根据权利要求1所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，步骤一中所述高熵合金为Al-Co-Cr-Cu-Fe-Ni体系。

3.根据权利要求1所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，步骤一中所述特征包括原子半径差、电负性差、价电子浓度、混合焓、构型熵、Ω参数、Λ参数、γ参数、局部电负性失配、流动电子数目、内聚能、模量失配、局部尺寸失配、能量项、纳巴罗系数、功函数、剪切模量、剪切模量差、局部模数失配、晶格畸变能。

4.根据权利要求1所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，步骤二中对特征数据进行筛选包括首先确定特征组合中特征个数，然后利用皮尔逊相关系数筛选相关性大的特征，最后采用遗传算法获取最优特征组合。

5.根据权利要求4所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，确定特征组合中的特征个数为3个。

6.根据权利要求4所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，利用皮尔逊相关系数筛选相关性大的特征的原则是筛选后保留皮尔逊相关系数值大于0.95的特征作为高度相关特征。

7.根据权利要求1-4中任一项所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，所述最优特征组合是γ参数、电子浓度、功函数三个特征。

8.根据权利要求1所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，步骤四中所述机器学习模型为支持向量回归算法模型。

9.根据权利要求8所述一种基于机器学习的高熵合金硬度预测方法，其特征在于，所述支持向量回归算法中采用高斯核核函数，并使用贝叶斯优化进行超参数的调优。