CN112633390B

CN112633390B - 一种基于贝叶斯概率优化的青蒿素提净度分析方法

Info

Publication number: CN112633390B
Application number: CN202011586918.0A
Authority: CN
Inventors: 利节; 蒋理; 罗庆林; 廖宏程; 朱文文; 王艺凡; 张祥; 吴凯
Original assignee: Chongqing University of Science and Technology
Current assignee: Chongqing University of Science and Technology
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-05-20
Anticipated expiration: 2040-12-29
Also published as: CN112633390A

Abstract

本发明涉及青蒿素提净度分析技术领域，具体公开了一种基于贝叶斯概率优化的青蒿素提净度分析方法，结合青蒿素提取过程数据来源多维异构的特点将多源数据(包括实时数据、实时状态时间序列和关键工艺参数)先进行整合，而后将整合后的多维异构数据与权重相结合融入到贝叶斯概率模型之中以构建贝叶斯概率模型，以确保最后输出的最优概率能反映提净效果的综合表现。本发明使青蒿素提净程度变得可监控，填补目前无法再现跟踪提净效果的空白，并且输出可靠度高，能帮助指导青蒿素生产及其副产物综合利用开发，逐步替代现有人工操作，降低安全生产风险，提高产品收率，降低生产成本。

Description

一种基于贝叶斯概率优化的青蒿素提净度分析方法

技术领域

本发明涉及青蒿素提净度分析技术领域，尤其涉及一种基于贝叶斯概率优化的青蒿素提净度分析方法。

背景技术

青蒿素是一种新型抗疟药，是目前世界上公认的治疗脑型疟疾和抗氯喹恶性疟疾最有效的药物。它具有低毒、高效、速效的特点，已成为世界卫生组织推荐的治疗疟疾的首选方法，在国际市场上供不应求，应用及经济前景十分看好。青蒿素目前主要是直接从青蒿中提取，研究表明，青蒿的叶片和花表面的腺毛是青蒿素的主要合成和储存部位，青蒿的不同部位在不同时期的青蒿素含量不同，青蒿素的含量也与产地和生长环境相关。目前，青蒿药用成分提取率低是造成资源浪费的重大原因。未来，青蒿素及其副产物不仅应用于人类健康，还可辐射到生物农药、兽药等更多领域。但目前青蒿素生产车间因安全要求级别高，无法人工进入设备，而目前又无法在线跟踪提净效果。

发明内容

本发明提供一种基于贝叶斯概率优化的青蒿素提净度分析方法，解决的技术问题在于：现有青蒿素生产车间因安全要求级别高，无法人工进入设备监控青蒿素提净程度，也无法再现跟踪提净效果。

为解决以上技术问题，本发明提供一种基于贝叶斯概率优化的青蒿素提净度分析方法，包括步骤：

(1)预训练处理

S1：收集青蒿素提取过程中的实时数据，并对所述实时数据进行实体命名识别，提取出评语、提净度及影响因子的实体；

S2：收集青蒿素提取过程中的有机溶剂的实时状态时间序列，并对所述实时状态时间序列进行预训练图像处理，得到维度相同的输出特征；

S3：收集青蒿素提取过程中的关键工艺参数，并对所述关键工艺参数做归一化处理；

(2)多维异构数据整合

S4：将步骤S1、S2和S3得到的数据一并放入序列挖掘当中进行整合；

S5：将步骤S4整合后的数据先归一化为神经网络处理分布，进一步将归一化的神经网络处理分布转换为高斯分布；

(3)贝叶斯概率优化

S6：将步骤S5转化为高斯分布的数据放入贝叶斯概率模型中，进行贝叶斯概率分布，输出最优概率，从而得到最准确的青蒿素提净度并以此优化步骤(2)中的神经网络。

进一步地，步骤S1具体包括步骤：

S11：收集青蒿素提取过程的实时数据，并对不同过程的实时数据进行分组编号；

S12：分别采取不同的n-gram内核对步骤S11得到的数据进行预处理，得到分组后的文本数据；

S13：基于先进中文识别模型对步骤S12得到的数据进行实体命名提取，得到评语、提净度及影响因子的实体。

进一步地，在所述步骤S2中，基于Transformer预训练图像处理方法对所述实时状态时间序列进行预训练图像处理。

进一步地，在所述步骤S2中，基于Transformer预训练图像处理方法进行预训练图像处理的步骤包括：

S21：将采集的实时状态时间序列对应的图片x经过一个头结构Hⁱ()变换为特征图f_H＝Hⁱ(x)，f_H∈R^H×C×W；

S22：对特征图f_H进行切块与拉平操作，具体是，按照P×P的大小将特征图切割成N块，每一个特征块再被拉平为维度为p^2×C的向量，得到特征向量

S23：将所有的特征向量送入Transformer进行处理，得到维度相同的输出特征

进一步地，在所述步骤S5中，归一化为神经网络处理分布的步骤包括：

S51：对步骤S4整合后的数据进行加权；

S52：对步骤S51进行加权后的权重分数进行整合。

进一步地，所述步骤S51采用如下四个权重公式进行加权：

权重公式一：

其中，n(i，j)表示实体i和j同时出现的次数，i＝1，2，...，N，N表示按概率排序的前top-N预测；

权重公式二：

其中，n_i表示给定数据样本中包含相对应实体i的数量，D为实体特征矩阵；

权重公式三：

权重公式四：

其中，t_i表示整个训练语料中实体i出现的次数。

进一步地，所述步骤S52进行权重分数整合依据：

其中，d代表步骤，Pr(d)指的是步骤d输出的先验概率，F⁺、F^-代表实体极性，“+”代表相关，“-”代表不相关，下标1、2、3分别对应实时数据、有机溶剂的实时状态时间序列、关键工艺参数，Pr(d_CNN)代表神经网络得到的先验概率，Pr(d_BN)代表贝叶斯网络上得到的后验概率。

进一步地，在所述步骤S5中，转化为高斯分布的公式为：

其中，式(8)为标准高斯分布，式(9)为转换为标准高斯分布的映射函数，p(x)代表高斯分布，π(y)代表原分布；为不改变转换前后的数据，式(9)采用的是可逆的映射函数，针对于此，式(9)采取逆矩阵G^-1形式，其中x＝G(y)，y＝G^-1(x)。

进一步地，通过下式改进独立同分布的高斯密度函数：

其中，Var_data和Var_model分别表示真实的数据变量和于模型训练所得的数据变量；式(10)表示数据固定不变，调整高斯模型N～(0，σ)参数去拟合数据。

进一步地，在所述步骤S6中，进行贝叶斯概率分布的公式为：

其中，p(x₁，x₂，...，x_n)表示样本的后验概率，p(y₁，y₂，...，y_n)表示样本的先验概率，

表示条件概率；式(11)表示在z空间中建立线性高斯模型，并转移到贝叶斯概率模型中。

本发明提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法，结合青蒿素提取过程数据来源多维异构的特点将多源数据(包括实时数据、实时状态时间序列和关键工艺参数)先进行整合，而后将整合后的多维异构数据与权重相结合融入到贝叶斯概率模型之中以构建贝叶斯概率模型，以确保最后输出的最优概率能反映提净效果的综合表现。本发明使青蒿素提净程度变得可监控，填补目前无法再现跟踪提净效果的空白，并且输出可靠度高，能帮助指导青蒿素生产及其副产物综合利用开发，逐步替代现有人工操作，降低安全生产风险，提高产品收率，降低生产成本。

附图说明

图1是本发明实施例提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法的网络框架示意图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

如图1所示的网络框架图，本发明实施例提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法，该方法包括步骤：(1)预训练图像处理；(2)多维异构数据整合；(3)贝叶斯概率优化。本实施例所提出的方法基于青蒿素提取过程中的多维异构数据S在客观要求及青蒿素纯净程度d∈D(d代表相应的步骤，D代表实体特征矩阵)上输出的贝叶斯概率分布Pr(d|S)。在本发明中，S对应青蒿素提取过程中所产生的多维异构数据，即S有少部分文本、图像和一些结构化数据组成，主要包含：实时提取数据、溶剂状态时间序列及关键工艺参数。

现实生活中，在进行一个工程项目的验收时，为了保证公正性与客观性，往往需要专业的第三方机构介入，并且以第三方机构的评估结果作为该项目的衡量标准。

本发明中，借鉴了这种思想，引入了第三方评估的机制，即通过不同的分类模型，利用其分类准确率这一指标来反映样本质量。

本发明中需要进行质量评估的对象主要为青蒿素，其包含的样本数据为实时提取数据、溶剂状态时间序列、关键工艺参数，这些数据都是在青蒿素提取过程中收集并整理而生成。

下面针对各方法步骤作详细说明。

(1)预训练处理

S1：收集青蒿素提取过程中的实时数据，并对所述实时数据进行实体命名识别，提取出评语、提净度及影响因子的实体。

进一步的，步骤S1具体包括步骤：

在将实时提取数据抛入神经网络之前，首先需要做的是本发明所提出框架的基本组成部分——实体命名识别(NER)。NER从文本句子中提取实体及其类型，对于捕获文本的关键信息非常重要。本方法所使用的是改进的传统NER，集成了先进的中文NER模型，从中提取出评语、提净及影响因子的实体，在其中添加实体的极性(“+”、“-”、或“？”，分别表示“相关”、“不相关”和“不明确”)来客观地表示给定的提取过程实时数据中是否存在所提取的实体。它可以与基于规则的方法一起使用，该方法使用带有否定中文单词的词汇表以及极性检测模型。并提取了实施提取过程中相关内容当中的实体。为确保其准确性，将NER系统做F1分数评估，并由专业生物科研人员对真实青蒿素提取过程中的重复数据删除语句进行单独评估。

S2：收集青蒿素提取过程中的有机溶剂的实时状态时间序列，并对所述实时状态时间序列进行预训练图像处理，得到维度相同的输出特征。

不同于高层视觉语义任务的目标是进行特征抽取，底层视觉任务的输入和输出均为图像。除超分辨率任务之外，大多数底层视觉任务的输入和输出维度相同。相比于高层视觉任务，输入和输出维度匹配这一特性使底层视觉任务更适合由Transformer处理。故本步骤基于Transformer预训练图像处理方法对所述实时状态时间序列进行预训练图像处理，具体包括步骤：

(如此，每个特征向量可以等同于一个「单词」)

这些输出特征

再经过整形和拼接操作，还原为与输入相同维度的新特征图。再将新特征图送入一个尾结构，被解码为目标图像。

S3：收集青蒿素提取过程中的关键工艺参数，并对所述关键工艺参数做归一化处理。

(2)多维异构数据整合

S4：将步骤S1、S2和S3得到的数据一并放入序列挖掘当中进行整合。

S5：将步骤S4整合后的数据先归一化为神经网络处理分布，进一步将归一化的神经网络处理分布转换为高斯分布。

在步骤S5中，归一化为神经网络处理分布的步骤包括：

S51：对步骤S4整合后的数据采用如下四个权重公式进行加权：

权重公式一：

权重公式二：

权重公式三：

权重公式四：

其中，t_i表示整个训练语料中实体i出现的次数；

S52：对步骤S51进行加权后的权重分数进行整合，该整合依据：

其中，d代表步骤，Pr(d)指的是步骤d输出的先验概率，F⁺、F^-代表实体极性，“+”代表相关，“-”代表不相关，下标1、2、3分别对应实时数据、有机溶剂的实时状态时间序列、关键工艺参数，Pr(d_CNN)代表神经网络得到的先验概率，Pr(d_BN)代表贝叶斯网络上得到的后验概率。式(6)、(7)的意思是指当前层的输入事前一层的输出，顺序呈现级联方法，最终按照计算所得的概率占比将分数加权以得到最后的综合概率分布。

在将步骤S4整合后的数据先归一化为神经网络处理分布后，需要进一步转换为高斯分布，而转化为高斯分布的公式为：

其中，式(8)为标准高斯分布，式(9)为转换为标准高斯分布的映射函数，p(x)代表高斯分布，π(y)代表原分布；为不改变转换前后的数据，式(9)采用的是可逆的映射函数，针对于此，式(9)采取逆矩阵G^-1形式，其中x＝G(y)，y＝G^-1(x)。式(9)所示的概率分布转换函数是可逆的，在对边缘数据的更优处理的同时可以保留数据的完整性，因此采取可逆矩阵的转换形式，即是概率处理过程的映射函数是可逆的。

考虑到隐空间的单高斯假设没有区分性、低维空间中概率密度与概率质量基本一致，但高维空间中概率密度与概率质量不一样，因此改进独立同分布的高斯密度函数：

其中，Var_data和Var_model分别表示真实的数据变量和于模型训练所得的数据变量；式(10)表示数据固定不变，调整高斯模型N～(0，σ)参数去拟合数据，目的是为了检验神经网络模型的训练的鲁棒性。

数据预处理过程采取多种方式以确保每种类型的预处理效果最佳，相对于青蒿素提取过程更具针对性，且采取实体提取、权重评估与高斯映射的方式将青蒿素提取过程所收集的多维异构数据进行综合性整合，以使智能时代下的青蒿素提净度更具科学性与合理性。

(3)贝叶斯概率优化

在该步骤中，进行贝叶斯概率分布的公式为：

表示条件概率；式(11)表示在z空间中建立线性高斯模型，并转移到贝叶斯概率模型中，要注意其过程是可逆的，减少了边缘数据的损失，以增加准确度与可靠度。

综上，本发明实施例提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法，结合青蒿素提取过程数据来源多维异构的特点将多源数据(包括实时数据、实时状态时间序列和关键工艺参数)先进行整合，而后将整合后的多维异构数据与权重相结合融入到贝叶斯概率模型之中以构建贝叶斯概率模型，以确保最后输出的最优概率能反映提净效果的综合表现。本发明使青蒿素提净程度变得可监控，填补目前无法再现跟踪提净效果的空白，并且输出可靠度高，能帮助指导青蒿素生产及其副产物综合利用开发，逐步替代现有人工操作，降低安全生产风险，提高产品收率，降低生产成本。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。