CN112420125A - 分子属性预测方法、装置、智能设备和终端 - Google Patents
分子属性预测方法、装置、智能设备和终端 Download PDFInfo
- Publication number
- CN112420125A CN112420125A CN202011374210.9A CN202011374210A CN112420125A CN 112420125 A CN112420125 A CN 112420125A CN 202011374210 A CN202011374210 A CN 202011374210A CN 112420125 A CN112420125 A CN 112420125A
- Authority
- CN
- China
- Prior art keywords
- training
- target
- prediction model
- molecule
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种分子属性预测方法、装置、智能设备和终端,其中,方法包括,获取待进行目标属性分析的目标分子的分子特征,通过目标属性预测模型对分子特征进行分析,得到目标分子对应的目标属性的参数值;目标属性预测模型为通过样本分子集合对基础预测模型训练得到,样本分子集合中包括M个样本分子特征和目标属性下的训练监督值;基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,每个训练分子集合中包括P个训练分子特征和参考属性下的训练监督值。通过预训练与训练结合的方式对属性预测模型进行训练,降低了对带监督信息的样本分子的需求,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种分子属性预测方法、装置、智能设备和终端。
背景技术
新药发现的流程中,在经过虚拟筛选确定苗头化合物后,需要进行实验分析苗头化合物的性质,从而确定先导化合物。传统实验中,药物分子属性测试流程复杂,需要制作化合物并花费人力物力,同时一些敏感的属性,比如毒性,在不确定安全剂量前,在人体进行临床测试具有极大风险。
利用机器学习方法进行分子属性预测,可以减少传统实验的需求性,降低分子属性测试的成本。由于有多种分子属性需要进行预测,统一的模型的预测效果比较差。如果将每种属性单独进行预测,由于某些属性,例如各类毒性,带监督信息的分子数据很少,训练的模型预测效果差,从而导致基于少量的样本数据训练得到的模型对分子的相关属性(如毒性)的分析准确率较低。
发明内容
本发明实施例提供了一种分子属性预测方法、装置、智能设备和终端,可以得到较好的分子分析模型,能够较为准确地进行分子分析。
一方面,本发明实施例提供了一种分子属性预测方法,所述方法包括:
获取待进行目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值;
其中,所述目标属性预测模型为通过样本分子集合对基础预测模型训练得到的,所述样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
所述基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,所述每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同。
一方面,本发明实施例提供了一种分子属性预测装置,所述装置包括:
获取模块,用于获取待进行目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
处理模块,用于将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值;
其中,所述目标属性预测模型为通过样本分子集合对基础预测模型训练得到的,所述样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
所述基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,所述每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同。
一方面,本发明实施例提供了一种智能设备,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述分子属性预测方法。
一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述分子属性预测方法。
本发明实施例中,对于能够对分子在目标属性下的属性参数值进行分析的模型,是在其他训练得到的预测模型的基础上再次进行学习得到的,具体是通过多组带监督信息的参考属性分子数据(N个训练分子集合)对初始预测模型进行预训练,得到基础预测模型,以及通过带监督信息的目标属性分子数据(样本分子集合)对模型进行训练调优,得到目标属性预测模型,上述方式解决了模型训练过程中针对目标属性下的带监督信息的分子数据较少的问题,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种平台结构示意图;
图2是本发明实施例提供的一种分子属性预测方法的流程示意图;
图3是本发明实施例提供的一种预测模型训练方法的流程示意图;
图4是本发明实施例提供的另一种预测模型训练方法的流程示意图;
图5是本发明实施例提供的一种模型预训练流程示意图;
图6是本发明实施例提供的一种分子属性预测系统架构示意图;
图7是本发明实施例提供的一种显示界面示意图;
图8是本发明实施例提供的一种分子属性预测装置的结构示意图;
图9是本发明实施例提供的一种预测模型训练装置的结构示意图;
图10是本发明实施例提供的一种智能设备的结构示意图;
图11是本发明实施例提供的一种终端的结构示意图。
具体实施方式
药物的发现通常包括以下步骤,1、靶点识别和确认;2、苗头化合物发现;3、先导化合物发现和优化;4、候选化合物确认和开发;5、临床试验。基于上述流程,本方案提供了一种药物平台,包括筛选药物分子、预测性质、生成分子等功能,如图1所示,为本发明实施例提供的药物平台结构示意图,该药物平台中具体可以包括苗头化合物发现模块、性质预测模块、合成路线规划模块、蛋白质结构预测模块和分子生成模块。其中,苗头化合物发现模块采用基于靶点结构的虚拟筛选方式或基于分子结构的虚拟筛选方式发现苗头化合物,性质预测模型,具体用于预测苗头化合物的吸收、分布、代谢、排泄和毒性等性质,合成路线规划模块,用于对化合物的合成进行路线规划,蛋白质结构预测模块用于预测基于分子生成的蛋白质的结构,分子生成模块用于基于规划的路线生成相应分子。本方案提供了一种分子属性预测方法,具体应用于药物平台中的性质预测模块,用于预测筛选出的分子(苗头化合物)的属性,实现对分子属性的智能分析。
具体的,本发明提出的分子属性预测方法具体应用了人工智能方案(ArtificialIntelligence,AI),人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在本发明实施例提出的分子属性预测方案中,通过使用一个属性预测模型,学习分子特征与分子属性之间的映射关系,当需要预测一个新分子的属性时,获取待进行目标属性分析的目标分子的分子特征,经过目标属性预测模型,得到该目标分子对应的目标属性的参数值。其中,在目标属性预测模型的训练过程中,本方案具体分为两个阶段,第一阶段为采用N个训练分子集合对初始预测模型进行预训练,得到基础预测模型,每个训练分子集合中包括P个由训练分子特征和训练参数值构成的训练组,通过预训练可以使得基础预测模型具备学习分子特征与分子属性之间的映射关系的能力。第二阶段为采用样本分子集合对基础预测模型训练,样本分子集合中包括M个由样本分子特征和样本参数值构成的样本组,使得基础映射模型学习到分子特征与目标属性之间的映射关系,得到目标属性预测模型。本方案模型训练过程为基于预训练的模型进行再次训练,所以只需要少量的目标属性下带监督信息的分子数据,即可完成对于目标属性预测模型的训练。而在对预测模型进行预训练的过程中,需使得模型具备学习映射关系的能力,因此只需采用其他参考属性下带监督信息的分子数据对初始预测模型进行预训练即可,样本量充足,使得模型具备足够的样本进行预训练。本方案可以基于少量带监督信息的分子完成对目标属性预测模型的训练,提升目标属性预测模型在实际属性预测过程中的预测准确性,进而使得对于分子属性的预测准确率高。
在一个实施例中,本方案提供的分子属性预测方法的大致流程如下:①模型预训练,具体为通过N个训练分子集合对初始预测模型进行预训练,得到基础预测模型,其中,每个训练分子集合中包括P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练组中的训练分子在参考属性下的训练监督值。②模型训练调优,具体为通过样本分子集合对基础预测模型进行训练,得到目标属性预测模型,其中,样本分子集合中包括M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值。③获取待进行目标属性分析的目标分子的分子特征,目标分子是指需要在目标属性下进行目标属性参数值分析的分子。④将分子特征输入目标属性所关联的目标属性预测模型,通过目标属性预测模型对分子特征进行分析,得到目标分子对应的目标属性的参数值。
上述方案中,通过多组带监督信息的参考属性分子数据(N个训练分子集合)对模型进行预训练,以及带监督信息的目标属性分子数据(样本分子集合)对模型进行训练调优,解决了模型训练过程中针对目标属性下的带监督信息的分子数据较少的问题,进一步的,采用目标属性预测模型对分子的目标属性进行预测,提升了预测模型实际预测过程中的预测准确率,使得对于分子的目标属性的预测准确率高。
基于上述描述,本发明实施例提供一种分子属性预测方法,请参见图2,该分子属性预测过程可包括以下步骤S201-S202:
S201、获取待进行目标属性分析的目标分子的分子特征。
本发明实施例中,分子是由组成的原子按照一定的键合顺序和空间排列而结合在一起的整体,不同的分子有着不同的分子属性,分子属性可以为毒性、溶解性、止痛性等。目标分子是指需要在目标属性下进行目标属性参数值分析的分子,目标属性具体可以只任意一种分子属性,用于与参考属性形成区分,具体实现中,分子特征具体可以为分子对应的向量表示,用于体现分子的结构特征、组成元素特征等。
在一种实现方式中,智能设备获取待进行目标属性分析的目标分子的分子特征的具体方式可以为,通过图神经网络算法对目标分子进行处理,得到目标分子的分子特征,在一个实施例中,将目标分子中的原子表示为图的节点特征,化学键表示为图像边,通过邻居节点的特征加权求和来更新节点的隐藏状态,并不断进行迭代,得到目标分子的分子特征。可选的,智能设备获取待进行目标属性分析的目标分子的分子特征的具体方式也可以为,通过消息神经网络算法对目标分子进行处理,得到目标分子的分子特征,在一个实施例中,采用图对目标分子进行表达,引入边的特征,并将算法中前向传递过程分为两个阶段:信息传递阶段,以更新节点的特征;读出阶段:计算图整体的特征表达,并基于该特征表达得到目标分子的分子特征。可选的,也可以通过扩展连通性指纹(Morgan fingerprints)算法对目标分子进行处理,得到目标分子的分子特征,该目标分子的分子特征具体可以为一个预设维度(如1024维)的向量。
在一种实现方式中,数据库中可以存储了各个分子的分子特征,智能设备可以从数据库中获取到目标分子的分子特征。
在一种实施场景中,智能设备为服务器,则用户可以在终端提供的指定页面中输入需要进行属性测定的目标分子,其中,属性测定具体用于对目标分子的多种分子属性进行测定,目标属性为该多种分子属性中的任意一种,终端将该目标分子上传至服务器中,以使得服务器对目标分子进行处理,得到目标分子的向量表示,即目标分子的分子特征。或者,智能设备也可以为终端,则用户可以在终端提供的指定页面中输入需要进行属性测定的目标分子,终端对目标分子进行处理得到目标分子对应的分子特征。
S202、将分子特征输入目标属性所关联的目标属性预测模型,通过目标属性预测模型对分子特征进行分析,得到目标分子对应的目标属性的参数值。
本发明实施例中,智能设备在获取到目标分子的分子特征之后,可以将特征输入目标属性所关联的目标属性预测模型,以通过目标属性预测模型对分子特征进行分析,得到目标分子对应的目标属性的参数值。其中,参数值具体可以用于体现目标分子对应的目标属性所属的分类,如目标属性为“能否通过血脑屏障”,则当参数值为1时,说明目标属性所属分类为能通过血脑屏障,当参数值为0时,说明目标属性所属分类为不能通过血脑屏障。或者,参数值也可以用于体现目标分子对应的目标属性的大小,如目标属性为水合能时,水合能的参数值用于体现目标分子的水合能大小,当水合能范围为0-100时,若水合能的参数值为80,则说明目标分子的水合能较大,若水合能的参数值为2,则说明目标分子的水合能较小。
其中,目标属性预测模型为通过样本分子集合对基础预测模型训练得到的,样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在目标属性下的训练监督值;基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,M、N以及P为正整数,参考属性与目标属性不相同。
在一个实施例中,目标属性预测模型的具体训练方式如图3所示实施例所示。
本发明实施例中,采用目标属性预测模型对分子的目标属性进行预测,实现了基于人工智能的方式对分子属性进行预测,提升了分子属性预测的效率。并且,通过多组带监督信息的参考属性分子数据(N个训练分子集合)对初始预测模型进行预训练,得到基础预测模型,以及通过带监督信息的目标属性分子数据(样本分子集合)对模型进行训练调优,得到目标属性预测模型,也解决了模型训练过程中针对目标属性下的带监督信息的分子数据较少的问题,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
基于上述描述,本发明实施例提供一种目标属性预测模型的训练方法,请参见图3,该目标属性预测模型的训练过程可包括以下步骤S301-S304:
S301、获取N个训练分子集合,每个训练分子集合中包括P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值。
本发明实施例中,终端可以获取到N个训练分子集合,每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,P为正整数。在参考属性下的训练监督值具体可以由研发人员预先设置,其可以为训练分子在参考属性下的实际数值,如参考属性为麻醉性,则可以通过检测的方式得到训练分子的麻醉性对应的实际数值,并将该实际数值作为训练分子在参考属性下的训练监督值。
具体实现中,参考属性可以包括N个类别,N个训练分子集合中每个训练分子集合可以与一个类别的参考属性具有对应关系,如N个训练分子集合中训练分子集合1与第一类别的参考属性具有对应关系,训练分子集合2与第二类别的参考属性具有对应关系,第一类别的参考属性可以为溶解性,第二类别的参考属性可以为稳定性,则训练分子集合1中包括的P个训练组中包括P个训练分子的训练分子特征和训练分子在溶解性下的训练监督值,训练分子集合2中包括的P个训练分子的训练分子特征和训练分子在稳定性下的训练监督值。
需要说明的是,参考属性可以基于筛选的方式得到,其具体筛选方式可以为,获取待对目标分子进行属性分析的目标属性,从属性集合中筛选出与目标属性具有关联关系的至少一个待选属性,并从至少一个待选属性筛选出满足筛选条件的待选属性作为参考属性。其中,属性间的关联关系具体可以由研发人员预先设定,如可以预先设定吸收性、溶解性、稳定性之间具有关联关系,则当目标属性为吸收性时,与目标属性关联的待选属性可以为溶解性和稳定性。可选的,属性间的关联关系也可以由属性间的共现频次确定,则从属性集合中筛选出与目标属性具有关联关系的至少一个待选属性的具体方式可以为,获取属性集合中各个待选属性与目标属性之间的共现频次,共现频次包括待选属性与目标属性同时出现在历史属性集合中的频次,历史属性集合包括对历史分子进行属性分析的属性的集合,将与目标属性之间的共现频次大于预设频次的待选属性,确定为与目标属性具有关联关系的待选属性。其中,历史分子包括历史记录中已预测过属性的分子,在对历史分子进行属性测试时,可以同时对历史分子的多个属性进行测试,该多个属性即构成了一个历史属性集合,当待选属性与目标属性同时出现在一个历史属性集合中时,确定待选属性与目标属性共现一次。在一个实施例中,筛选条件可以为待选属性下带监督信息的训练分子的数量大于预设数量,即当待选属性下携带训练参数值的训练分子的数量大于预设数量时,确定待选属性满足筛选条件,通过设置筛选条件,可以避免将样本不足的属性作为参考属性,影响后续模型训练。
S302、通过N个训练分子集合对初始预测模型进行预训练,得到基础预测模型。
本发明实施例中,终端获取到N个训练分子集合之后,可以通过N个训练分子集合对初始预测模型进行预训练,预训练的具体方式可以为,通过N个训练分子集合中每个训练分子集合对初始预测模型进行训练,得到N个中间参数,以及基于N个中间参数对初始预测模型的模型参数进行更新,得到模型参数更新后的初始预测模型,终端将模型参数更新后的初始预测模型确定为基础预测模型。
具体实现中,每个中间参数可以使得模型对于该中间参数对应的参考属性具备较好的预测能力,如中间参数1对应的参考属性为稳定性,则将初始预测模型的模型参数更新为中间参数1时,此时的初始预测模型对分子的稳定性具备较好的预测能力,即将分子特征输入至模型参数更新为中间参数1的初始预测模型中,模型输出的针对分子的稳定性的预测值与分子的稳定性的实际值之间的匹配度较高。在一个实施例中,可以通过各个训练分子集合分别对初始预测模型进行训练,1个训练分子集合对初始预测模型进行训练后可得到一个中间参数,则N个训练分子集合对初始预测模型进行训练后即可得到N个中间参数,每个训练分子集合对初始预测模型进行训练的方式可以相同。本方案中,具体以N个训练分子集合中任意一个目标训练分子集合对初始预测模型进行训练的方式作为示例,以对基于训练分子集合对初始预测模型进行训练的方式进行说明,该具体训练方式如图5所述实施例所示。
通过图5所示的训练方式,终端可以得到N个训练分子集合中各个训练分子集合分别对应的中间参数,进一步的,终端基于N个中间参数对初始预测模型的模型参数进行更新,更新方式具体可以为,终端对N个中间参数进行求和处理,得到目标和值,获取目标和值对应的加权系数,并采用加权系数对目标和值进行加权处理,得到加权和值,终端将初始预测模型的模型参数由初始模型参数更新为,初始模型参数与加权和值之间的差值。
举例来说,终端获取到N个训练分子集合中各个训练分子集合分别对应的中间参数{θ1、θ2…θN},其中,θi为采用N个训练分子集合中第i个训练分子集合对初始预测模型进行训练后得到的中间参数,i∈{1,2…N}。终端对N个中间参数进行求和处理,得到目标和值目标和值对应的加权系数为β,则终端将初始预测模型的模型参数由初始模型参数θ0更新为,初始模型参数θ0与加权和值之间的差值θE。即θE的具体计算方式为
S303、获取样本分子集合,样本分子集合中包括M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在目标属性下的训练监督值。
本发明实施例中,样本分子集合中包括M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在目标属性下的训练监督值。在目标属性下的训练监督值具体可以由研发人员预先设置,其可以为样本分子在目标属性下的实际数值,如目标属性为稳定性,则可以通过检测的方式得到训练分子的稳定性对应的实际数值,并将该实际数值作为训练分子在目标属性下的训练监督值。
S304、通过样本分子集合对基础预测模型进行训练,得到目标属性预测模型。
本发明实施例中,终端获取到样本分子集合之后,可以通过样本分子集合对初始预测模型进行训练,得到目标属性预测模型。其中,训练的具体方式可以为,对目标训练分子集合进行筛选,得到第一样本分子集合和第二样本分子集合,第一样本分子集合中包括K个由样本分子特征和样本参数值构成的样本组,第二样本分子集合中包括L个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在目标属性下的训练监督值;终端基于第一样本分子集合对基础预测模型中的模型参数进行更新,得到第一基础预测模型,第一基础预测模型中的模型参数由初始参数更新为第一参数;终端基于第二样本分子集合对所述第一基础预测模型进行测试,得到目标测试结果;若目标测试结果满足预设条件,则终端将第一基础预测模型确定为目标属性预测模型。
具体实现中,基于第一样本分子集合对基础预测模型中的模型参数进行更新的具体方式可以为,通过基础预测模型对第一样本分子集合中各个样本分子特征进行运算,得到K个预测样本值,根据K个预测样本值和K个样本参数值对基础预测模型中的模型参数进行更新,得到第一基础预测模型,其中,每个预测样本值为一个样本分子对应的目标属性的预测值,K个样本参数值包括第一样本分子集合中包括的K个训练组中的样本参数值,更新过程中具体可以采用目标损失函数对K个预测样本值和K个样本参数值进行运算,得到样本目标损失函数值之后,基于对样本目标损失函数值的梯度值更新基础预测模型中的模型参数。
举例来说,基础预测模型的初始参数为θE,基于目标损失函数对K个预测样本值和K个样本参数值进行运算,即可得到样本目标损失函数值进一步的,采用预设加权系数α对样本目标损失函数值的梯度值进行加权处理,并将初始参数θE与目标加权梯度值之间的差值确定为第一参数θE1,以实现对模型参数的更新,θE1的具体计算方式如下所示。
进一步的,终端基于第二样本分子集合对所述第一基础预测模型进行测试,得到目标测试结果,在一个实施例中,通过第一基础预测模型对第二样本分子集合中各个样本分子特征进行运算,得到L个预测参数值,基于目标损失函数对L个预测参数值和第二样本分子集合中L个训练参数值进行运算,得到目标损失函数值并将该目标损失函数值作为目标测试结果。其中,目标损失函数可以为交叉熵损失函数,或者,目标损失函数为均方误差损失函数,具体可以由目标属性对应的问题类型确定,即当目标属性对应分类问题(属性输出值为0或1)时,目标损失函数为交叉熵损失函数,当目标属性对应回归问题(属性输出值为实数)时,目标损失函数为均方误差损失函数。
若目标测试结果满足预设条件,则将第一基础预测模型确定为目标属性预测模型。若目标测试结果不满足预设条件,则可以采用步骤S303-S304所述的方式重新从样本分子结合中筛选数据对基础预测模型进行训练,直至训练得到的测试结果满足预测条件时,将此时的基础预测模型确定为目标属性预测模型。
如图4所示,为本方案提供的一种对于模型进行训练的流程示意图,具体的,N个训练分子集合包括训练分子集合1、训练分子集合2…训练分子集合N,通过N个训练分子集合分别对初始预测模型进行预训练,即可得到N个中间参数θ1、θ2…θN,基于N个中间参数对初始预测模型的模型参数θ0进行更新,即可得到基础预测模型的模型参数θE,通过对样本分子集合对θE进行训练,即可得到模型参数θT,并将基础预测模型的模型参数进行更新θT,则得到目标属性预测模型。
本发明实施例中,采用目标属性预测模型对分子的目标属性进行预测,实现了基于人工智能的方式对分子属性进行预测,提升了分子属性预测的效率。并且,通过多组带监督信息的参考属性分子数据(N个训练分子集合)对初始预测模型进行预训练,得到基础预测模型,以及通过带监督信息的目标属性分子数据(样本分子集合)对模型进行训练调优,得到目标属性预测模型,也解决了模型训练过程中针对目标属性下的带监督信息的分子数据较少的问题,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
基于上述描述,本发明实施例提供了一种模型预训练方法,请参见图5,该模型预训练过程可包括以下步骤S501-S508:
S501、基于第一筛选方式对目标训练分子集合进行筛选,得到第一训练分子集合和第二训练分子集合。
本发明实施例中,针对N个训练分子集合中的任意一个目标训练分子集合,基于第一筛选方式对目标训练分子集合进行筛选,得到第一训练分子集合和第二训练分子集合。其中,第一训练分子集合中包括K个由训练分子特征和训练参数值构成的训练组,第二训练分子集合中包括L个由训练分子特征和训练参数值构成的训练组,每个训练参数值为训练组中的训练分子在参考属性下的训练监督值,K和L为小于P的正整数,上述第一训练分子集合用于对初始预测模型进行训练,第二训练分子集合用于对训练后的初始预测模型进行测试。
在一种实现方式中,第一筛选方式为随机筛选的方式,即随机从目标训练分子集合筛选出K个由训练分子特征和训练参数值构成的训练组,作为第一训练分子集合,以及再从目标训练分子集合随机筛选出L个由训练分子特征和训练参数值构成的训练组,作为第二训练分子集合。可选的,L为P与K之间的差值,即第二训练分子集合为从目标训练分子集合中筛选出第一训练分子集合后,目标训练分子集合中剩余的训练组构建的集合。如目标训练分子集合中包括15(P)个训练组,则随机从15个训练组中筛选出5(K)个训练组作为第一训练分子集合,以及将剩余的10(L)个训练组作为第二训练分子集合。
在一种实现方式中,第一筛选方式也可以为规则筛选的方式,如将目标训练分子集合中前P个训练组作为第一训练分子集合,后L个训练组作为第二训练分子集合。
S502、基于第一训练分子集合对初始预测模型中的模型参数进行更新,得到第一初始预测模型。
本发明实施例中,在对目标训练分子集合进行筛选得到第一训练分子集合之后,可以基于第一训练分子集合对初始预测模型中的模型参数进行更新,得到第一初始预测模型,该第一初始预测模型中的模型参数由初始模型参数更新为第一模型参数。
具体实现中,基于第一训练分子集合对初始预测模型中的模型参数进行更新的具体方式可以为,通过初始预测模型对第一训练分子集合中各个训练分子特征进行运算,得到K个预测参数值,根据K个预测参数值和K个训练参数值对初始预测模型中的模型参数进行更新,得到第一初始预测模型,其中,每个预测参数值为一个训练分子对应的参考属性的预测值,K个训练参数值包括所述第一训练分子集合中包括的K个训练组中的训练参数值。
具体的,根据K个预测参数值和K个训练参数值对初始预测模型中的模型参数进行更新,得到第一初始预测模型的方式具体可以为,获取第一训练分子集合中各个训练分子对应的参考属性,并基于属性与损失函数的对应关系确定参考属性对应的目标损失函数,基于目标损失函数对K个预测参数值和K个训练参数值进行运算,得到目标损失函数值,并根据目标损失函数值对初始预测模型中的模型参数进行更新,得到第一初始预测模型,该目标损失函数包括交叉熵损失函数或均方误差损失函数。
需要说明的是,根据目标损失函数值对初始预测模型中的模型参数进行更新,得到第一初始预测模型的具体方式可以为,对目标损失函数值进行梯度运算,得到目标损失函数值对应的梯度值,并基于梯度值对初始预测模型的模型参数进行更新,得到第一初始预测模型,该第一初始预测模型中的模型参数由初始模型参数更新为第一模型参数。
举例来说,初始预测模型的初始模型参数为θ,第一训练分子集合中K个训练分子特征包括{x1、x2…xK},则通过初始预测模型对各个训练分子特征进行运算得到的K个预测参数值包括{fθ(x1)、fθ(x2)…fθ(xK)},各个训练分子对应的训练特征值分别为{y1、y2…yK}。
当目标损失函数为交叉熵损失函数时,基于目标损失函数对K个预测参数值和K个训练参数值进行运算的具体方式为:
其中,s∈{1,2…K},通过上述方式,即可计算得到基于第一训练分子集合对模型进行训练得到的目标损失函数值进一步的,终端对目标损失函数值进行梯度运算,即可得到目标损失函数值对应的梯度值则基于梯度值对初始预测模型的模型参数进行更新的具体方式可以为,采用预设加权系数α对梯度值进行加权处理,得到加权梯度值并将初始模型参数θ与加权梯度值之间的差值确定为第一模型参数θk,以实现对模型参数的更新,θk的具体计算方式如下所示。
还需要说明的是,不同的参考属性对应有不同的损失函数,当参考属性对应的任务类型为分类任务(任务输出值为0或1)时,采用交叉熵损失函数对作为目标损失函数。当参考属性对应的任务类型为回归任务(任务输出值为实数)是,采用均方误差损失函数作为目标损失函数。
S503、基于第二训练分子集合对第一初始预测模型进行测试,得到第一测试结果。
本发明实施例中,将初始预测模型的参数更新为第一模型参数,得到第一初始预测模型之后,可以基于第二训练分子集合对第一初始预测模型进行测试,得到第一测试结果,该第二训练分子集合中包括L个由训练分子特征和训练参数值构成的训练组。
具体实现中,基于第二训练分子集合对第一初始预测模型进行测试的具体方式可以为,通过第一初始预测模型对第二训练分子集合中各个训练分子特征进行运算,得到L个预测参数值,基于目标损失函数对L个预测参数值和第二训练分子集合中L个训练参数值进行运算,得到第一目标损失函数值,并将该第一目标损失函数值作为第一测试结果。
举例来说,第一初始预测模型的第一初始模型参数为θk,获取到的第一训练分子集合中K个训练分子的训练分子特征包括{x1、x2…xL},各个训练分子对应的训练特征值分别为{y1、y2…yL},通过初始预测模型对各个训练分子特征进行运算得到的K个预测参数值包括
S504、若第一测试结果满足预设条件,则基于第一测试结果和初始模型参数确定目标中间参数。
本发明实施例中,在得到第一测试结果之后,将检验第一测试结果是否满足预设条件,若满足预设条件,则基于第一测试结果和初始模型参数确定目标中间参数。具体实现中,终端获取第一目标损失函数值并采用第一目标损失函数值对初始模型参数θ进行梯度运算,得到一个目标中间参数θi,则目标中间参数θi的具体计算方式为:
其中,θi在计算过程中会产生关于的θ二阶梯度信息。由于二阶梯度信息的大小为模型纬度的平方,计算该二阶梯度信息会消耗大量的计算资源和时间成本。可选实现方式中,为了提高计算的效率,可以将二阶梯度信息降阶为一阶梯度信息进行运算,即终端基于第一测试结果和第一模型参数确定目标中间参数,具体的,终端采用第一目标损失函数值对第一模型参数进行梯度运算,得到一个目标中间参数θi,则目标中间参数θi的具体计算方式为:
上述方式中,由于在θ的最优值附近,其二阶信息通常接近0,故此方法不会带来准确率的下降,同时又提升了算法的训练效率,可选的,若第一测试结果满足不满足预设条件,则执行步骤S505。其中,预设条件可以为大于预设阈值,则当第一测试结果大于预设阈值时,确定满足预设条件,当第一测试结果小于或等于预设阈值时,确定不满足预设条件。
S505、若第一测试结果不满足预设条件,则基于第二筛选方式对目标训练分子集合进行筛选,得到第三训练分子集合和第四训练分子集合。
本发明实施例中,在得到第一测试结果后,若第一测试结果不满足预设条件,则基于第二筛选方式对目标训练分子集合进行筛选,得到第三训练分子集合和第四训练分子集合,其中,第三训练分子集合中包括U个由训练分子特征和训练参数值构成的训练组,第四训练分子集合中包括V个由训练分子特征和训练参数值构成的训练组,每个训练参数值为训练组中的训练分子在参考属性下的训练监督值,U和V为小于P的正整数,可选的实现方式中,第三训练分子集合中训练组的数量可以与第一训练分子集合相同,第四训练分子集合中训练组的数量可以与第二训练分子集合相同,即U=K,V=L。
其中,第二筛选方式可以为随机筛选的方式,即随机从目标训练分子集合筛选出U个由训练分子特征和训练参数值构成的训练组,作为第三训练分子集合,以及再从目标训练分子集合随机筛选出V个由训练分子特征和训练参数值构成的训练组,作为第四训练分子集合,或者,第二筛选方式也可以为规则筛选的方式,即基于预设规则从目标训练分子集合筛选出U个训练组,作为第三训练分子集合,以及基于预设规则从目标训练分子集合随机筛选出V个训练组,作为第四训练分子集合。
S506、基于第三训练分子集合对第一初始预测模型中的模型参数进行更新,得到第二初始预测模型。
本发明实施例中,在得到第三训练分子集合之后,可以基于第三训练分子集合对第一初始预测模型中的模型参数进行更新,得到第二初始预测模型,该第二初始预测模型中的模型参数由第一模型参数更新为第二模型参数。
举例来说,第一初始预测模型的初始模型参数为θk,基于目标损失函数对U个预测参数值和U个训练参数值进行运算,即可得到第一目标损失函数值进一步的,将第一初始模型参数θk与第一加权梯度值之间的差值确定为第二模型参数θk1,以实现对模型参数的更新,θk的具体计算方式如下所示。
S507、基于第四训练分子集合对第二初始预测模型进行测试,得到第二测试结果。
本发明实施例中,基于第四训练分子集合对第二初始预测模型进行测试的具体方式可以为,通过第二初始预测模型对第四训练分子集合中各个训练分子特征进行运算,得到V个预测参数值,基于目标损失函数对V个预测参数值和第四训练分子集合中V个训练参数值进行运算,得到第二目标损失函数值,并将该第二目标损失函数值作为第二测试结果。
S508、若第二测试结果满足预设条件,则基于第二测试结果和第一模型参数确定目标中间参数。
本发明实施例中,在得到第二测试结果之后,将检验第二测试结果是否满足预设条件,若满足预设条件,则基于第二测试结果和第一模型参数确定目标中间参数,即采用第二目标损失函数值对第一模型参数θk进行梯度运算,得到一个目标中间参数。若第二测试结果不满足预设条件,则可以采用步骤S501-S507所述的方式从新筛选数据对预测模型进行训练,直至训练得到的测试结果满足预测条件时,基于此时的测试结果和模型参数确定目标中间参数。
本发明实施例中,通过将训练分子集合分为训练集和测试集的方式对初始预测模型进行训练,可以得到用于对初始预测模型进行模型参数进行更新的目标中间参数,以便于后续基于各个中间参数实现对初始预测模型的模型参数的更新,完成对于初始预测模型的预训练。
在一种实施场景中,该技术方案可以用于新型药物中分子属性的预测,具体可以应用于药物平台中的性质预测模块,通过上述分子预测的方式,即可得到药物的性质,实现基于人工智能的方式对药物属性进行预测,加快先导化合物的发现和优化流程。具体的,针对需要进行目标属性预测的目标分子,获取到用于目标属性预测的目标属性预测模型,并通过目标属性预测模型对所述分子特征进行运算,得到目标分子对应的目标属性的参数值,实现对于目标分子的目标属性进行预测。如图6所示,为本发明实施例提供的一种分子属性预测系统架构示意图,图6中,用于对分子进行属性预测的智能设备具体可以为服务器602,用户可以在终端601中输入待进行属性预测的目标分子以及相应的目标属性,终端601将用户输入的目标分子以及目标属性上传至服务器602中,服务器602获取到目标分子和目标属性之后,将获取到目标分子的分子特征,并通过目标属性预测模型对分子特征进行运算,得到目标分子对应的目标属性的参数值,进一步的,服务器602将目标属性的参数值发送至终端601,以使得终端601对目标属性的参数值进行显示。可选的,用户可以从终端提供的多个属性选项中筛选出需要对输入的目标分子进行属性预测的多个目标属性,服务器分别调用对应的目标属性预测模型对目标分子进行属性预测,并将属性预测结果发送至终端中进行显示。例如,如图7所示,用户输入目标分子(C2H8O2)之后,可以在终端中提供的交互页面中选择稳定性和毒性选项,服务器采用稳定性预测模型对目标分子进行处理得到的参数值为59,采用毒性预测模型对目标分子进行处理得到的参数值为2,并将上述数值发送至图7中对应的显示框中进行显示。
基于上述分子属性预测方法实施例的描述,本发明实施例还公开了一种分子属性预测装置,该分子属性预测装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),也可以是包含在计算机设备中的一个实体装置。该分子属性预测装置可以执行图1所示的方法。请参见图8,该分子属性预测装置80包括:获取模块801、处理模块802。
获取模块801,用于获取待进行目标属性分析的目标分子的分子特征,所述目标分子是指在目标属性下进行目标属性参数值分析的分子;
处理模块802,用于将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值;
其中,所述目标属性预测模型为通过样本分子集合对基础预测模型训练得到,所述样本分子集合中包括M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
所述基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,所述每个训练分子集合中包括P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,M、N以及P为正整数。
本发明实施例中,获取模块801获取待进行目标属性分析的目标分子的分子特征,处理模块802将分子特征输入目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值,采用目标属性预测模型对分子的目标属性进行预测,实现了基于人工智能的方式对分子属性进行预测,提升了分子属性预测的效率,通过预训练与训练结合的方式对属性预测模型进行训练,降低了对带监督信息的样本分子的需求,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
基于上述预测模型训练方法实施例的描述,本发明实施例还公开了一种预测模型训练装置,该预测模型训练装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),也可以是包含在计算机设备中的一个实体装置。该分子属性预测装置可以执行图2-图5所示的方法。请参见图9,该预测模型训练装置90包括:获取模块901、训练模块902。
获取模块901,用于获取N个训练分子集合,每个训练分子集合中包括P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练组中的训练分子在参考属性下的训练监督值;
训练模块902,用于通过所述N个训练分子集合对初始预测模型进行预训练,得到基础预测模型;
所述获取模块901,还用于获取样本分子集合,所述样本分子集合中包括M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同;
所述训练模块902,还用于通过所述样本分子集合对基础预测模型进行训练,得到目标属性预测模型。
在一种实现方式中,训练模块902,具体用于:
通过所述N个训练分子集合中每个训练分子集合对初始预测模型进行训练,得到N个中间参数;
基于所述N个中间参数对所述初始预测模型的模型参数进行更新,得到模型参数更新后的初始预测模型;
将所述模型参数更新后的初始预测模型确定为基础预测模型。
在一种实现方式中,训练模块902,具体用于:
基于第一筛选方式对目标训练分子集合进行筛选,得到第一训练分子集合和第二训练分子集合,所述第一训练分子集合中包括K个由训练分子特征和训练参数值构成的训练组,第二训练分子集合中包括L个由训练分子特征和训练参数值构成的训练组,每个训练参数值为训练分子在参考属性下的训练监督值,K和L为小于P的正整数;
基于所述第一训练分子集合对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,所述第一初始预测模型中的模型参数由初始模型参数更新为第一模型参数;
基于第二训练分子集合对所述第一初始预测模型进行测试,得到第一测试结果;
若所述第一测试结果满足预设条件,则基于所述第一测试结果和初始模型参数确定目标中间参数。
在一种实现方式中,训练模块902,具体用于:
通过初始预测模型对所述第一训练分子集合中各个训练分子特征进行运算,得到K个预测参数值,每个预测参数值为一个训练分子对应的参考属性的预测值;
根据所述K个预测参数值和K个训练参数值对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,所述K个训练参数值包括所述第一训练分子集合中包括的K个训练组中的训练参数值。
在一种实现方式中,训练模块902,具体用于:
获取所述第一训练分子集合中各个训练分子对应的参考属性,并基于属性与损失函数的对应关系确定所述参考属性对应的目标损失函数,所述目标损失函数包括交叉熵损失函数或均方误差损失函数;
基于所述目标损失函数对所述K个预测参数值和K个训练参数值进行运算,得到目标损失函数值;
根据所述目标损失函数值对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型。
在一种实现方式中,训练模块902,具体用于:
若所述第一测试结果不满足预设条件,则基于第二筛选方式对所述目标训练分子集合进行筛选,得到第三训练分子集合和第四训练分子集合;
基于所述第三训练分子集合对所述第一初始预测模型中的模型参数进行更新,得到第二初始预测模型,所述第二初始预测模型中的模型参数由第一模型参数更新为第二模型参数;
基于第四训练分子集合对所述第二初始预测模型进行测试,得到第二测试结果;
若所述第二测试结果满足预设条件,则基于第二测试结果和第一模型参数确定目标中间参数。
在一种实现方式中,训练模块902,具体用于:
对所述N个中间参数进行求和处理,得到目标和值;
获取所述目标和值对应的加权系数,并采用所述加权系数对所述目标和值进行加权处理,得到加权和值;
将所述初始预测模型的模型参数由初始模型参数更新为,所述初始模型参数与所述加权和值之间的差值。
在一种实现方式中,训练模块902,具体用于:
获取待对目标分子进行属性分析的目标属性;
从属性集合中筛选出与所述目标属性具有关联关系的至少一个待选属性;
从所述至少一个待选属性筛选出满足筛选条件的待选属性作为参考属性。
在一种实现方式中,训练模块902,具体用于:
对所述目标训练分子集合进行筛选,得到第一样本分子集合和第二样本分子集合,所述第一样本分子集合中包括K个由样本分子特征和样本参数值构成的样本组,第二样本分子集合中包括L个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
基于所述第一样本分子集合对所述基础预测模型中的模型参数进行更新,得到第一基础预测模型,所述第一基础预测模型中的模型参数由初始参数更新为第一参数;
基于第二样本分子集合对所述第一基础预测模型进行测试,得到目标测试结果;
若所述目标测试结果满足预设条件,则将所述第一基础预测模型确定为目标属性预测模型。
在一种实现方式中,训练模块902,具体用于:
获取待进行所述目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值。
本发明实施例中,获取模块901获取N个训练分子集合,训练模块902通过所述N个训练分子集合对初始预测模型进行预训练,得到基础预测模型;所述获取模块901获取样本分子集合,所述训练模块902通过所述样本分子集合对基础预测模型进行训练,得到目标属性预测模型,通过预训练与训练结合的方式对属性预测模型进行训练,降低了对带监督信息的样本分子的需求,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
请参见图10,为本发明实施例提供的一种智能设备的结构示意图。如图10所示,该智能设备包括:至少一个处理器1001,输入设备1003,输出设备1004,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。其中处理器1001可以结合图8所描述的装置,存储器1005中存储一组程序代码,且处理器1001,输入设备1003,输出设备1004调用存储器1005中存储的程序代码,用于执行以下操作:
处理器1001,用于获取待进行目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
处理器1001,用于将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值;
其中,所述目标属性预测模型为通过样本分子集合对基础预测模型训练得到的,所述样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
所述基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同。
本发明实施例中,处理器1001获取待进行目标属性分析的目标分子的分子特征,处理器1001将分子特征输入目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值;采用目标属性预测模型对分子的目标属性进行预测,实现了基于人工智能的方式对分子属性进行预测,提升了分子属性预测的效率,通过预训练与训练结合的方式对属性预测模型进行训练,降低了对带监督信息的样本分子的需求,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
请参见图11,为本发明实施例提供的一种终端的结构示意图。如图11所示,该终端包括:至少一个处理器1111,输入设备1113,输出设备1114,存储器1115,至少一个通信总线1112。其中,通信总线1112用于实现这些组件之间的连接通信。其中,存储器1105可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1105可选的还可以是至少一个位于远离前述处理器1101的存储装置。其中处理器1101可以结合图8所描述的装置,存储器1105中存储一组程序代码,且处理器1101,输入设备1103,输出设备1104调用存储器1105中存储的程序代码,用于执行以下操作:
处理器1101,用于获取N个训练分子集合,每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值;
处理器1101,用于通过所述N个训练分子集合对初始预测模型进行预训练,得到基础预测模型;
处理器1101,用于获取样本分子集合,所述样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同;
处理器1101,用于通过所述样本分子集合对基础预测模型进行训练,得到目标属性预测模型。
在一种实现方式中,处理器1101,具体用于:
通过所述N个训练分子集合中每个训练分子集合对初始预测模型进行训练,得到N个中间参数;
基于所述N个中间参数对所述初始预测模型的模型参数进行更新,得到模型参数更新后的初始预测模型;
将所述模型参数更新后的初始预测模型确定为基础预测模型。
在一种实现方式中,处理器1101,具体用于:
基于第一筛选方式对目标训练分子集合进行筛选,得到第一训练分子集合和第二训练分子集合,所述第一训练分子集合中包括K个由训练分子特征和训练参数值构成的训练组,第二训练分子集合中包括L个由训练分子特征和训练参数值构成的训练组,每个训练参数值为训练分子在参考属性下的训练监督值,K和L为小于P的正整数;
基于所述第一训练分子集合对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,所述第一初始预测模型中的模型参数由初始模型参数更新为第一模型参数;
基于第二训练分子集合对所述第一初始预测模型进行测试,得到第一测试结果;
若所述第一测试结果满足预设条件,则基于所述第一测试结果和初始模型参数确定目标中间参数。
在一种实现方式中,处理器1101,具体用于:
通过初始预测模型对所述第一训练分子集合中各个训练分子特征进行运算,得到K个预测参数值,每个预测参数值为一个训练分子对应的参考属性的预测值;
根据所述K个预测参数值和K个训练参数值对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,所述K个训练参数值包括所述第一训练分子集合中包括的K个训练组中的训练参数值。
在一种实现方式中,处理器1101,具体用于:
获取所述第一训练分子集合中各个训练分子对应的参考属性,并基于属性与损失函数的对应关系确定所述参考属性对应的目标损失函数,所述目标损失函数包括交叉熵损失函数或均方误差损失函数;
基于所述目标损失函数对所述K个预测参数值和K个训练参数值进行运算,得到目标损失函数值;
根据所述目标损失函数值对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型。
在一种实现方式中,处理器1101,具体用于:
若所述第一测试结果不满足预设条件,则基于第二筛选方式对所述目标训练分子集合进行筛选,得到第三训练分子集合和第四训练分子集合;
基于所述第三训练分子集合对所述第一初始预测模型中的模型参数进行更新,得到第二初始预测模型,所述第二初始预测模型中的模型参数由第一模型参数更新为第二模型参数;
基于第四训练分子集合对所述第二初始预测模型进行测试,得到第二测试结果;
若所述第二测试结果满足预设条件,则基于第二测试结果和第一模型参数确定目标中间参数。
在一种实现方式中,处理器1101,具体用于:
对所述N个中间参数进行求和处理,得到目标和值;
获取所述目标和值对应的加权系数,并采用所述加权系数对所述目标和值进行加权处理,得到加权和值;
将所述初始预测模型的模型参数由初始模型参数更新为,所述初始模型参数与所述加权和值之间的差值。
在一种实现方式中,处理器1101,具体用于:
获取待对目标分子进行属性分析的目标属性;
从属性集合中筛选出与所述目标属性具有关联关系的至少一个待选属性;
从所述至少一个待选属性筛选出满足筛选条件的待选属性作为参考属性。
在一种实现方式中,处理器1101,具体用于:
对所述目标训练分子集合进行筛选,得到第一样本分子集合和第二样本分子集合,所述第一样本分子集合中包括K个由样本分子特征和样本参数值构成的样本组,第二样本分子集合中包括L个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
基于所述第一样本分子集合对所述基础预测模型中的模型参数进行更新,得到第一基础预测模型,所述第一基础预测模型中的模型参数由初始参数更新为第一参数;
基于第二样本分子集合对所述第一基础预测模型进行测试,得到目标测试结果;
若所述目标测试结果满足预设条件,则将所述第一基础预测模型确定为目标属性预测模型。
在一种实现方式中,处理器1101,具体用于:
获取待进行所述目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值。
本发明实施例中,处理器1101获取N个训练分子集合,并通过所述N个训练分子集合对初始预测模型进行预训练,得到基础预测模型;处理器1101获取样本分子集合,并通过所述样本分子集合对基础预测模型进行训练,得到目标属性预测模型,通过预训练与训练结合的方式对属性预测模型进行训练,降低了对带监督信息的样本分子的需求,提升了基于少量样本数据训练得到的模型对于分子属性分析的准确性。
本发明实施例中所述模块,可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
应当理解,在本发明实施例中,所称处理器可以是中央处理模块(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互联(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等,该总线可以分为地址总线、数据总线、控制总线等,为便于表示,图10和图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (15)
1.一种分子属性预测方法,其特征在于,所述方法包括:
获取待进行目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值;
其中,所述目标属性预测模型为通过样本分子集合对基础预测模型训练得到的,所述样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
所述基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同。
2.一种预测模型训练方法,其特征在于,所述方法包括:
获取N个训练分子集合,每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值;
通过所述N个训练分子集合对初始预测模型进行预训练,得到基础预测模型;
获取样本分子集合,所述样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在目标属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同;
通过所述样本分子集合对所述基础预测模型进行训练,得到目标属性预测模型。
3.如权利要求2所述的方法,其特征在于,所述通过所述N个训练分子集合对初始预测模型进行预训练,得到基础预测模型,包括:
通过所述N个训练分子集合中每个训练分子集合对初始预测模型进行训练,得到N个中间参数;
基于所述N个中间参数对所述初始预测模型的模型参数进行更新,得到模型参数更新后的初始预测模型;
将所述模型参数更新后的初始预测模型确定为基础预测模型。
4.如权利要求3所述的方法,其特征在于,通过所述N个训练分子集合中任意一个目标训练分子集合对初始预测模型进行训练,得到一个目标中间参数的方式包括:
基于第一筛选方式对目标训练分子集合进行筛选,得到第一训练分子集合和第二训练分子集合,所述第一训练分子集合中包括K个由训练分子特征和训练参数值构成的训练组,第二训练分子集合中包括L个由训练分子特征和训练参数值构成的训练组,每个训练参数值为训练分子在参考属性下的训练监督值,K和L为小于P的正整数;
基于所述第一训练分子集合对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,所述第一初始预测模型中的模型参数由初始模型参数更新为第一模型参数;
基于第二训练分子集合对所述第一初始预测模型进行测试,得到第一测试结果;
若所述第一测试结果满足预设条件,则基于所述第一测试结果和所述初始模型参数确定目标中间参数。
5.如权利要求4所述的方法,其特征在于,所述基于所述第一训练分子集合对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,包括:
通过所述初始预测模型对所述第一训练分子集合中各个训练分子特征进行运算,得到K个预测参数值,每个预测参数值为一个训练分子对应的参考属性的预测值;
根据所述K个预测参数值和K个训练参数值对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,所述K个训练参数值包括所述第一训练分子集合中包括的K个训练组中的训练参数值。
6.如权利要求5所述的方法,其特征在于,所述根据所述K个预测参数值和K个训练参数值对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型,包括:
获取所述第一训练分子集合中各个训练分子对应的参考属性,并基于属性与损失函数的对应关系确定所述参考属性对应的目标损失函数,所述目标损失函数包括交叉熵损失函数或均方误差损失函数;
基于所述目标损失函数对所述K个预测参数值和K个训练参数值进行运算,得到目标损失函数值;
根据所述目标损失函数值对所述初始预测模型中的模型参数进行更新,得到第一初始预测模型。
7.如权利要求4所述的方法,其特征在于,所述基于第二训练分子集合对所述第一初始预测模型进行测试,得到第一测试结果之后,所述方法还包括:
若所述第一测试结果不满足预设条件,则基于第二筛选方式对所述目标训练分子集合进行筛选,得到第三训练分子集合和第四训练分子集合;
基于所述第三训练分子集合对所述第一初始预测模型中的模型参数进行更新,得到第二初始预测模型,所述第二初始预测模型中的模型参数由所述第一模型参数更新为第二模型参数;
基于第四训练分子集合对所述第二初始预测模型进行测试,得到第二测试结果;
若所述第二测试结果满足预设条件,则基于第二测试结果和所述第一模型参数确定目标中间参数。
8.如权利要求3所述的方法,其特征在于,所述基于所述N个中间参数对所述初始预测模型的模型参数进行更新,包括:
对所述N个中间参数进行求和处理,得到目标和值;
获取所述目标和值对应的加权系数,并采用所述加权系数对所述目标和值进行加权处理,得到加权和值;
将所述初始预测模型的模型参数由初始模型参数更新为,所述初始模型参数与所述加权和值之间的差值。
9.如权利要求2所述的方法,其特征在于,所述获取N个训练分子集合之前,所述方法还包括:
获取待对目标分子进行属性分析的目标属性;
从属性集合中筛选出与所述目标属性具有关联关系的至少一个待选属性;
从所述至少一个待选属性筛选出满足筛选条件的待选属性作为参考属性。
10.根据权利要求2所述的方法,其特征在于,所述通过所述样本分子集合对基础预测模型进行训练,得到目标属性预测模型,包括:
对所述目标训练分子集合进行筛选,得到第一样本分子集合和第二样本分子集合,所述第一样本分子集合中包括K个由样本分子特征和样本参数值构成的样本组,第二样本分子集合中包括L个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
基于所述第一样本分子集合对所述基础预测模型中的模型参数进行更新,得到第一基础预测模型,所述第一基础预测模型中的模型参数由初始参数更新为第一参数;
基于第二样本分子集合对所述第一基础预测模型进行测试,得到目标测试结果;
若所述目标测试结果满足预设条件,则将所述第一基础预测模型确定为目标属性预测模型。
11.根据权利要求2-10任一项所述的方法,其特征在于,所述通过所述样本分子集合对基础预测模型进行训练,得到目标属性预测模型之后,所述方法还包括:
获取待进行所述目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值。
12.一种分子属性预测装置,其特征在于,所述装置包括:
获取模块,用于获取待进行目标属性分析的目标分子的分子特征,所述目标分子是指需要在所述目标属性下进行目标属性参数值分析的分子;
处理模块,用于将所述分子特征输入所述目标属性所关联的目标属性预测模型,通过所述目标属性预测模型对所述分子特征进行分析,得到所述目标分子对应的目标属性的参数值;
其中,所述目标属性预测模型为通过样本分子集合对基础预测模型训练得到的,所述样本分子集合中包括:M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在所述目标属性下的训练监督值;
所述基础预测模型为通过N个训练分子集合对初始预测模型预训练得到,每个训练分子集合中包括:P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练分子在参考属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同。
13.一种预测模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取N个训练分子集合,每个训练分子集合中包括P个由训练分子特征和训练参数值构成的训练组,训练组中的训练参数值为训练组中的训练分子在参考属性下的训练监督值;
训练模块,用于通过所述N个训练分子集合对初始预测模型进行预训练,得到基础预测模型;
所述获取模块,还用于获取样本分子集合,所述样本分子集合中包括M个由样本分子特征和样本参数值构成的样本组,样本组中的样本参数值为样本分子在目标属性下的训练监督值,M、N以及P为正整数,所述参考属性与所述目标属性不相同;
所述训练模块,还用于通过所述样本分子集合对基础预测模型进行训练,得到目标属性预测模型。
14.一种智能设备,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1所述的方法。
15.一种终端,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求2-11所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374210.9A CN112420125A (zh) | 2020-11-30 | 2020-11-30 | 分子属性预测方法、装置、智能设备和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374210.9A CN112420125A (zh) | 2020-11-30 | 2020-11-30 | 分子属性预测方法、装置、智能设备和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112420125A true CN112420125A (zh) | 2021-02-26 |
Family
ID=74830578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011374210.9A Pending CN112420125A (zh) | 2020-11-30 | 2020-11-30 | 分子属性预测方法、装置、智能设备和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420125A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836036A (zh) * | 2021-03-18 | 2021-05-25 | 中国平安人寿保险股份有限公司 | 针对智能体的交互式训练方法、装置、终端和存储介质 |
CN113255769A (zh) * | 2021-05-26 | 2021-08-13 | 北京百度网讯科技有限公司 | 化合物属性预测模型训练方法和化合物属性预测方法 |
CN113838541A (zh) * | 2021-09-29 | 2021-12-24 | 脸萌有限公司 | 设计配体分子的方法和装置 |
-
2020
- 2020-11-30 CN CN202011374210.9A patent/CN112420125A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836036A (zh) * | 2021-03-18 | 2021-05-25 | 中国平安人寿保险股份有限公司 | 针对智能体的交互式训练方法、装置、终端和存储介质 |
CN112836036B (zh) * | 2021-03-18 | 2023-09-08 | 中国平安人寿保险股份有限公司 | 针对智能体的交互式训练方法、装置、终端和存储介质 |
CN113255769A (zh) * | 2021-05-26 | 2021-08-13 | 北京百度网讯科技有限公司 | 化合物属性预测模型训练方法和化合物属性预测方法 |
CN113255769B (zh) * | 2021-05-26 | 2024-03-29 | 北京百度网讯科技有限公司 | 化合物属性预测模型训练方法和化合物属性预测方法 |
CN113838541A (zh) * | 2021-09-29 | 2021-12-24 | 脸萌有限公司 | 设计配体分子的方法和装置 |
CN113838541B (zh) * | 2021-09-29 | 2023-10-10 | 脸萌有限公司 | 设计配体分子的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
WO2022068623A1 (zh) | 一种模型训练方法及相关设备 | |
CN112364880B (zh) | 基于图神经网络的组学数据处理方法、装置、设备及介质 | |
US20230196202A1 (en) | System and method for automatic building of learning machines using learning machines | |
CN113705092B (zh) | 基于机器学习的疾病预测方法及装置 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
WO2022100607A1 (zh) | 一种神经网络结构确定方法及其装置 | |
CN113065634B (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
WO2023050143A1 (zh) | 一种推荐模型训练方法及装置 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
Hyttinen et al. | A Core-Guided Approach to Learning Optimal Causal Graphs. | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN117251619A (zh) | 一种数据处理方法及相关装置 | |
CN115858388A (zh) | 基于变异模型映射图的测试用例优先级排序方法和装置 | |
CN116109449A (zh) | 一种数据处理方法及相关设备 | |
CN116403019A (zh) | 遥感图像量子识别方法、装置、存储介质及电子装置 | |
CN114298299A (zh) | 基于课程学习的模型训练方法、装置、设备及存储介质 | |
CN109934352B (zh) | 智能模型的自动进化方法 | |
CN113010687B (zh) | 一种习题标签预测方法、装置、存储介质以及计算机设备 | |
US11609936B2 (en) | Graph data processing method, device, and computer program product | |
CN110428012A (zh) | 脑网络模型建立方法、脑图像分类方法、装置及电子设备 | |
CN116362301A (zh) | 一种模型的量化方法以及相关设备 | |
CN116049733A (zh) | 基于神经网络的效能评估方法、系统、设备与存储介质 | |
US20230004791A1 (en) | Compressed matrix representations of neural network architectures based on synaptic connectivity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038733 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |