CN113704220A

CN113704220A - 一种基于LSTM和遗传算法的Ceph参数调优方法

Info

Publication number: CN113704220A
Application number: CN202111021786.1A
Authority: CN
Inventors: 李雷孝; 牛铁铭; 李�杰; 李少旭; 林浩; 马志强; 万剑雄
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-26

Abstract

本发明属于参数调优技术领域，具体涉及一种基于LSTM和遗传算法的Ceph参数调优方法，包括下列步骤：收集数据集；证明非线性关系；S3、使用LSTM构建性能预测模型；使用EGA进行寻优。收集数据集的方法为：对Ceph的8个配置参数在可调范围内随机取值，设第i个参数conf_i的取值范围为[lb_i，ub_i]，conf_i＝random(lb_i，ub_i)，i＝1,2,…,8；将参数组合config＝{conf₁，conf₂，conf₃，conf₄，conf₅，conf₆，conf₇，conf₈}更新到Ceph系统中，并测试对应的Ceph块存储系统读写性能；参数组合config_i和对应的iops_i构成一个数据项(config_i，iops_i)，将收集到的所有数据项作为构建Ceph性能预测模型的数据集。本发明利用LSTM构建了准确可靠的Ceph性能预测模型，将性能预测模型的预测值作为种群个体的适应度，通过EGA找到最优的参数配置，使系统性能达到最优。

Description

一种基于LSTM和遗传算法的Ceph参数调优方法

技术领域

本发明属于参数调优技术领域，具体涉及一种基于LSTM和遗传算法的Ceph参数调优方法。

背景技术

国内外研究学者对Ceph系统的性能优化工作主要分为三个方面：特定硬件环境优化、面向应用场景优化和内部机制优化。在特定硬件环境优化方面，随着NVDIMM(Non-Volatile Dual In-line Memory Module)产品的出现，可字节寻址的非易失性存储器将提供与内存相近的IO性能。模拟了在Ceph系统中使用NVDIMM作为底层介质的性能，针对单个节点，将所有内容映射到NVDIMM，吞吐量均可以提高100％以上。

面向应用场景优化中，在高性能计算领域，Ceph并不是最适用的存储系统。将高性能计算中数据密集型应用访问的文件分为读密集型、写密集型或读写密集型。使用这些文件的读写特征来设置文件放置决策，使高性能计算工作负载均衡。在云计算领域中，数据对象的数据日志操作，同时保持了写原子性和可靠性，实验结果表明新存储引擎提供的容量是原来的3倍多。

针对Ceph存储系统的内部机制方面的性能优化问题的研究也有了一定进展。现有的基于MapReduce的分治策略，利用混合整数线性规划算法来求解异构环境下Ceph的最优数据放置策略。实验结果表明，与Ceph中实现的原始策略相比，该算法可以将系统读写性能提高25.6％。现有的多属性决策的Ceph存储选择方法，采集OSD(Object Storage Device)的IO性能并进行有效组合，通过标注应用的优先级区分不同的应用场景，总体读写性能提升了13.7％。现有的技术中详细介绍了在全闪存环境下需要调整哪些参数，包括内核、文件系统、磁盘缓存和RBD等，但是没有给出调整前后的性能对比。现有的应用于存储系统的黑盒优化技术，根据上一次的信息选择下一次修改的参数配置，但该方法需要大量的数据集来支撑，在实际环境中很难实现。现有的基于随机森林(Radio Frequency，RF)和遗传算法(Genetic Algorithm，GA)的Ceph配置参数自动调优方法，该方法使用RF构建性能预测模型，相对于黑盒优化技术，可以更快地预测Ceph系统性能，节省了大量的时间和系统资源的占用。但该文献采用的数据量太少，RF可能不会产生很好的回归效果，且RF不能够做出超越训练集数据范围的预测，这可能导致在某些特定噪声的数据进行建模时出现过度拟合。

上述特定硬件环境优化和面向应用场景优化的方法虽然对性能提升有了一定的进展，但是并未考虑通用环境，且忽略了Ceph内部参数调优所带来的性能提升的空间。在上述内部机制优化方法研究中，对性能提升具有普遍适用性，但是未能完全考虑参数的非线性关系。

发明内容

针对上述Ceph默认的参数无法充分发挥系统读写性能，而手动调整参数效率低下且浪费大量的系统资源的技术问题，本发明提供了一种适用性强、性能提升大、效率高的基于LSTM和遗传算法的Ceph参数调优方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于LSTM和遗传算法的Ceph参数调优方法，包括下列步骤：

S1、收集数据集；

S2、证明数据集的非线性关系；

S3、使用LSTM构建性能预测模型；

S4、使用EGA进行寻优，来得到一组最优参数。

所述S1中收集数据集的方法为：

S1.1、对Ceph的8个配置参数在可调范围内随机取值，设第i个参数conf_i的取值范围为[lb_i，ub_i]，conf_i＝random(lb_i，ub_i)，i＝1,2,…,8；

S1.2、将参数组合config＝{conf₁，conf₂，conf₃，conf₄，conf₅，conf₆，conf₇，conf₈}更新到Ceph系统中，并测试对应的Ceph块存储系统读写性能；

S1.3参数组合config_i和对应的iops_i构成一个数据项(config_i，iops_i)，将收集到的所有数据项作为构建Ceph性能预测模型的数据集。

所述Ceph的8个参数分别为bluestore_cache_size_ssd、bluestore_cache_size_hdd、bluestore_cache_meta_ratio、bluestore_cache_kv_ratio、osd_max_write_size、osd_map_cache_size、rbd_cache_size和rbd_cache_max_dirty；所述bluestore_cache_size_ssd和bluestore_cache_size_hdd的类型为integer，所述bluestore_cache_meta_ratio和bluestore_cache_kv_ratio的类型为float，所述osd_max_write_size、osd_map_cache_size、rbd_cache_size和rbd_cache_max_dirty的类型为integer。

所述S2中证明数据集的非线性关系的方法为：

通过建立多元线性回归模型建立一个线性组合来进行预测的函数，从而证明数据集的非线性关系，所述多元线性回归模型为：

f(config)＝ω₁conf₁+ω₂conf₂+...+ω₈conf₈+b

所述b为常数，所述w₁-w₈为系数，若变量之间存在线性关系，那一定存在一组系数和常数，使得真实值约束在公式得到的预测值范围内。

所述S3中使用LSTM构建性能预测模型的方法为：

定义误差公式Error，所述误差公式Error反应了真实值与预测值的差异，

其中Actual_i为Ceph块存储系统的真实值，Forecast_i为LSTM模型的预测值，n为样本数。

所述S4中使用EGA进行寻优的方法为：设种群规模为M，最大迭代次数T，将一组参数组合config＝{conf₁，conf2，conf₃，conf₄，conf₅，conf₆，conf₇，conf₈}作为种群中的一个个体，每一个参数代表个体的一个基因，P(t)表示第t代种群；采用EGA算法在遗传操作之前找到种群中适应度最大的个体elitist，并将其信息保存下来，在遗传操作之后用elitist替换新种群中适应度最小的个体，将elitist保留到下一代种群中。

本发明与现有技术相比，具有的有益效果是：

本发明利用LSTM构建了准确可靠的Ceph性能预测模型，将性能预测模型的预测值作为种群个体的适应度，通过EGA找到最优的参数配置，使系统性能达到最优。

附图说明

图1为本发明Ceph参数调优的总体框架示意图；

图2为本发明batchsize对模型精度的影响图；

图3为本发明LSTM和RF模型预测效果对比图；

图4为本发明的方法效果比较。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

S1、收集数据集；

S2、证明数据集的非线性关系；

S3、使用LSTM构建性能预测模型；

S4、使用EGA进行寻优，来得到一组最优参数。

进一步，S1中收集数据集的方法为：

进一步，Ceph的8个参数分别为bluestore_cache_size_ssd、bluestore_cache_size_hdd、bluestore_cache_meta_ratio、bluestore_cache_kv_ratio、osd_max_write_size、osd_map_cache_size、rbd_cache_size和rbd_cache_max_dirty；bluestore_cache_size_ssd和bluestore_cache_size_hdd的类型为integer，bluestore_cache_meta_ratio和bluestore_cache_kv_ratio的类型为float，osd_max_write_size、osd_map_cache_size、rbd_cache_size和rbd_cache_max_dirty的类型为integer，Ceph的8个参数如表1所示。

参数名称	类型	取值范围
			bluestore_cache_size_ssd	integer	1GB～10GB
bluestore_cache_size_hdd	integer	1GB～10GB
			bluestore_cache_meta_ratio	float	0～1
bluestore_cache_kv_ratio	float	0～1
			osd_max_write_size	integer	4～2000
osd_map_cache_size	integer	64～1024
			rbd_cache_size	integer	1MB～64MB
rbd_cache_max_dirty	integer	1MB～64MB

表1

S3.1中对Ceph的8个参数进行随机取值的方法为：对Ceph的8个配置参数在可调范围内随机取值，设第i个参数conf_i的取值范围为[lb_i，ub_i]，conf_i＝random(lb_i，ub_i)，i＝1,2,…,8，将参数组合config＝{conf₁，conf₂，conf₃，conf₄，conf₅，conf₆，conf₇，conf₈}更新到Ceph系统中，并测试对应的Ceph块存储系统读写性能；参数组合config_i和对应的iops_i构成一个数据项(config_i，iops_i)，将收集到的所有数据数据项作为构建Ceph性能预测模型的数据集。

S3.2中的IOPS值分为6个指标：随机读IOPS、随机写IOPS、顺序读IOPS、顺序写IOPS、混合顺序读写IOPS和混合随机读写IOPS；

进一步，S3.2中收集参数所对应的IOPS值的方法为：

步骤1：使用random(lb_i，ub_i)，i＝1，2，…，8随机为8个参数取值；

步骤2：使用集群管理工具Ansible将修改后的配置参数同步到整个Ceph集群；

步骤3：使用fio+rbd测试工具获取块存储系统性能；

步骤4：使用crontabs工具定时执行测试任务，重复执行步骤1-3，收集参数组合和相应的IOPS值。

进一步，S2中证明数据集的非线性关系的方法为：

f(config)＝ω₁conf₁+ω₂conf₂+...+ω₈conf₈+b

其中：b为常数，w₁-w₈为系数，若变量之间存在线性关系，那一定存在一组系数和常数，使得真实值约束在公式得到的预测值范围内。

进一步，S3中使用LSTM构建性能预测模型的方法为：

进一步，S4中使用EGA进行寻优的方法为：设种群规模为M，最大迭代次数T，将一组参数组合config＝{conf₁，conf₂，conf₃，conf₄，conf₅，conf₆，conf₇，conf₈}作为种群中的一个个体，每一个参数代表个体的一个基因，P(t)表示第t代种群；采用EGA算法在遗传操作之前找到种群中适应度最大的个体elitist，并将其信息保存下来，在遗传操作之后用elitist替换新种群中适应度最小的个体，将elitist保留到下一代种群中。

EGA算法的伪代码如下所示。

其中第9行和第16行表示寻找精英个体elitist。第15行表示将elitist替换新种群中适应度最低的个体。

本发明实验结果分析

一、预测模型精度

为了提高Ceph性能预测模型的准确率以及减少训练时长，需对LSTM模型的batchsize进行调整。batchsize是神经网络中一次训练所选取的样本数。此参数的大小影响着模型的优化程度和速度并且直接影响到GPU和内存的使用情况。如果batchsize太小会造成梯度变化波动大进而导致网络不容易收敛，而该参数设置太大会导致内存容量过高、梯度不准确且花费的时间较长。如图2所示，通过实验法来确定batchsize的大小。

根据图2可知，随着batchsize的增大，模型的精度上升。当batchsize＝32时，模型精度达到最大。当batchsize大于32时，模型精度有所降低。且batchsize大于32后训练时长会逐渐增大。根据实验结果可得，batchsize选取32可以达到最优的训练效果。

在确定了LSTM模型的参数后，为了验证性能预测模型的准确率，本发明使用3.1节获取的3000组数据作为性能预测模型的数据集。其中，80％作为训练集，10％作为验证集，10％作为测试集。

为了验证Ceph性能预测模型的优劣性，本发明使用LSTM和RF分别为Ceph系统建立了性能预测模型，分析对比这两种性能预测模型的精度。实验结果如图3所示。

在图3中，展示了LSTM和RF的预测值与真实值对比结果。其中横坐标代表不同的参数配置，纵坐标代表IOPS值。LSTM和RF分别代表LSTM和RF建立的性能模型预测值。从整体趋势上看，采用LSTM和RF得到的预测值都能够及时反映随着参数改变而引起的性能波动，但RF得到的预测曲线和真实值曲线有较为明显的差异在某些时刻与真实值偏差较大。为了直观比较两种模型的精度差异，本发明使用Error来评价模型的精度。经过对比实验计算，RF和LSTM模型的Error值分别为0.56％和0.28％。由此可见，LSTM的预测精度优于现有方法RF。

二、性能对比分析

为了评估本发明方法对Ceph系统性能调优的效果，本发明与LSTM+GA方法、基于RF与GA的Ceph自动调优方法进行对比。

实验前，需设置EGA的初始参数：变异概率P_m、交叉概率P_c、种群规模M和最大迭代次数T。变异实质上是对参数配置取值空间的深度搜索，变异概率P_m取值太大则会使遗传算法成为随机搜索算法，并且由于随机性太大，EGA在搜索上会花费更多的时间；交叉概率P_c影响了配置方案的交替速度，选取较高的交叉概率使算法效率更高；种群规模M与最大迭代次数T越大，可以增加搜索规模，提高搜索精度，但是太大会增加时间开销，降低搜索的效率。经多次实验测试，EGA参数设置如表2所示。

参数	取值
		最大迭代次数T	100
种群规模M	20
		交叉概率P<sub>c</sub>	0.8
变异概率P<sub>m</sub>	0.1

表2

使用LSTM+GA方法、LSTM+EGA方法、RF+GA方法迭代趋势图如图4所示，图中横坐标代表遗传算法的迭代次数，纵坐标代表Ceph块存储系统的读写性能。为了获取更准确的实验结果，各方法分别取5次算法运行的平均值作为最终实验结果。

观察图4可以看出，经过参数优化后的Ceph块存储系统读写性能约为6750。LSTM+GA方法和RF+GA方法在前20代无较大差异，两种方法均在60代左右达到平稳状态，但RF+GA稍滞后于LSTM+GA。LSTM+EGA方法在40代左右就可以达到平稳状态，说明LSTM+EGA收敛速度比LSTM+GA和RF+GA更快。且LSTM+EGA方法得到的最优值优于LSTM+GA方法和RF+GA方法，说明LSTM+EGA的收敛精度更高。

将得到的最优参数组合带入到真实环境中的Ceph系统中，测得块存储系统性能IOPS均值为6612，与预测值相差不大在可接受范围内。而默认参数配置的性能只能达到3971，性能约为默认配置的1.7倍。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种基于LSTM和遗传算法的Ceph参数调优方法，其特征在于：包括下列步骤：

S1、收集数据集；

S2、证明数据集的非线性关系，从而证明Ceph调优的复杂性；

S3、使用LSTM构建性能预测模型；

S4、使用EGA进行寻优，来得到一组最优参数。

2.根据权利要求1所述的一种基于LSTM和遗传算法的Ceph参数调优方法，其特征在于：所述S1中收集数据集的方法为：

3.根据权利要求2所述的一种基于LSTM和遗传算法的Ceph参数调优方法，其特征在于：所述Ceph的8个参数分别为bluestore_cache_size_ssd、bluestore_cache_size_hdd、bluestore_cache_meta_ratio、bluestore_cache_kv_ratio、osd_max_write_size、osd_map_cache_size、rbd_cache_size和rbd_cache_max_dirty；所述bluestore_cache_size_ssd和bluestore_cache_size_hdd的类型为integer，所述bluestore_cache_meta_ratio和bluestore_cache_kv_ratio的类型为float，所述osd_max_write_size、osd_map_cache_size、rbd_cache_size和rbd_cache_max_dirty的类型为integer。

4.根据权利要求1所述的一种基于LSTM和遗传算法的Ceph参数调优方法，其特征在于：所述S2中证明数据集的非线性关系的方法为：

f(config)＝ω₁conf₁+ω₂conf₂+...+ω₈conf₈+b

5.根据权利要求1所述的一种基于LSTM和遗传算法的Ceph参数调优方法，其特征在于：所述S3中使用LSTM构建性能预测模型的方法为：

6.根据权利要求1所述的一种基于LSTM和遗传算法的Ceph参数调优方法，其特征在于：所述S4中使用EGA进行寻优的方法为：设种群规模为M，最大迭代次数T，将一组参数组合config＝{conf₁，conf₂，conf₃，conf₄，conf₅，conf₆，conf₇，conf₈}作为种群中的一个个体，每一个参数代表个体的一个基因，P(t)表示第t代种群；采用EGA算法在遗传操作之前找到种群中适应度最大的个体elitist，并将其信息保存下来，在遗传操作之后用elitist替换新种群中适应度最小的个体，将elitist保留到下一代种群中。