CN110070909B

CN110070909B - 一种基于深度学习的融合多特征的蛋白质功能预测方法

Info

Publication number: CN110070909B
Application number: CN201910215306.1A
Authority: CN
Inventors: 李敏; 张富豪; 宋虹
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2022-12-09
Anticipated expiration: 2039-03-21
Also published as: CN110070909A

Abstract

本发明提供了基于深度学习的融合多特征的蛋白质功能预测方法，包括：S1、根据蛋白质的序列信息、作用信息和同源信息，提取蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征；S2、将蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入预先训练的蛋白质功能预测模型中，输出分类结果；蛋白质功能预测模型包括：根据蛋白质语义结构特征，提取蛋白质局部语义特征；根据蛋白质亚序列特征，提取蛋白质更稠密、更高级别的亚序列特征；将蛋白质局部语义特征，更稠密、高级别的亚序列特征和网络拓扑结构特征进行融合，获得蛋白质分类融合特征；将蛋白质分类融合特征输入功能分类模块，输出分类结果。显著的提高了预测蛋白质功能的准确度。

Description

一种基于深度学习的融合多特征的蛋白质功能预测方法

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种基于深度学习的融合多特征的蛋白质功能预测方法。

背景技术

蛋白质的功能对于生物技术和医药方面研究有非常重要的作用，例如新药开发、新作物开发以及生物燃料等合成生物化学品的开发。

早期预测蛋白质功能的方法是通过体内体外实验，包括基因敲除、靶向突变和抑制基因表达等，这些实验性的方法需要花费大量的人力和时间。

为了缓解上述问题，一些计算方法被用于蛋白质功能预测，高通量测序技术的发展，为计算方法提供了大量的有效数据。例如蛋白质氨基序列数据、基因表达数据和蛋白质相互作用网络等。大部分研究者采用基于序列的计算方法进行蛋白质功能预测，为了进一步提高预测的精准度，一些研究者还通过融合多种数据进行蛋白质功能预测。虽然目前已经有大量的计算方法用于蛋白质功能预测，但是精准度普遍偏低。

蛋白质功能预测被认为是一个巨大的挑战，主要包括以下原因：第一、大量的蛋白质还没有标注功能，例如在UniProt数据库中，已经有功能标注的蛋白质不到1％，因此需要新的基于计算方法的蛋白质功能预测方法来进一步提高蛋白质功能预测的准确度。第二、目前研究者通常使用基因本体(Gene Ontology)来标注蛋白质的功能，基因本体包含了超过40000个功能类别，不仅一个蛋白质包含多个功能，而且复杂的生物过程和功能又需要多个的蛋白质共同作用；也就是说，蛋白质功能预测是一个大规模的、多标签的、多分类问题。第三、不同的数据具有异质性和复杂性，因此如何利用多种数据进行蛋白质功能预测是一个难题。

近年来，深度学习快速发展，特别是在图像处理和自然语言处理领域，已经获得了巨大突破。深度学习可以提取更加丰富的数据特征和有效的融合多种特征。因此，本发明提出了一种基于深度学习的融合多特征的蛋白质功能预测方法。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种基于深度学习的融合多特征的蛋白质功能预测方法。显著的提高了预测蛋白质功能的准确度。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种基于深度学习的融合多特征的蛋白质功能预测方法，包括以下步骤：

步骤S1、获取目标蛋白质的序列信息、作用信息和同源信息。

步骤S2、根据目标蛋白质的序列信息，提取目标蛋白质的语义结构特征和目标蛋白质的亚序列特征；根据目标蛋白质的作用信息和同源信息，提取目标蛋白质的网络拓扑结构特征。

步骤S3、将蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入到预先训练的蛋白质功能预测模型，输出分类结果；蛋白质功能预测模型包括：根据目标蛋白质的语义结构特征，提取目标蛋白质的局部语义特征；根据目标蛋白质的亚序列特征，提取目标蛋白质更稠密、更高级别的亚序列特征；将目标蛋白质的局部语义特征，更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合，获得目标蛋白质的分类融合特征；将目标蛋白质的分类融合特征输入到功能分类模块，输出分类结果。

作为本发明方法的一种改进，步骤S2中，根据目标蛋白质的序列信息，提取目标蛋白质的语义结构特征，包括，使用word2vec向量化目标蛋白质序列，获取目标蛋白质序列的语义结构特征。

作为本发明方法的一种改进，步骤S2中，根据目标蛋白质的序列信息，提取目标蛋白质的亚序列特征，包括：使用InterPro工具扫描目标蛋白质序列，获取目标蛋白质的结构域、家族和模体信息，再使用one-hot向量数值化表示蛋白质的结构域、家族和模体信息，获得目标蛋白质的亚序列特征。

作为本发明方法的一种改进，步骤S2中，根据目标蛋白质的作用信息和同源信息，提取目标蛋白质的网络拓扑结构特征，包括：根据预设的阈值过滤目标蛋白质的作用信息和同源信息，获取目标蛋白质网络数据集合；根据目标蛋白质网络数据集合，构建以蛋白质作为节点、蛋白质之间的作用关系作为边的蛋白质相互作用网络；使用DeepWalk方法提取蛋白质相互作用网络中每个节点的拓扑特征，获取目标蛋白质的网络拓扑结构特征。

作为本发明方法的一种改进，根据预设的阈值过滤目标蛋白质的作用信息和同源信息，具体为：获取confidence score>＝300的目标蛋白质的作用信息和同源信息。

作为本发明方法的一种改进，DeepWalk方法中的迭代次数设置为：

其中，M为蛋白质相互作用网络中边的个数，N为蛋白质相互作用网络中节点的个数，k为迭代次数，α为控制系数，α数值与DeepWalk采样时覆盖的邻接节点数目成反比。

作为本发明方法的一种改进，步骤S3中，根据目标蛋白质的语义结构特征，提取目标蛋白质的局部语义特征，包括：根据目标蛋白质的语义结构特征和双向长短记忆网络模块，获得目标蛋白质的全局语义特征，根据目标蛋白质的全局语义特征和多尺度卷积神经网络模块，获得目标蛋白质的局部语义特征。

作为本发明方法的一种改进，步骤S3中，根据目标蛋白质的亚序列特征，提取目标蛋白质更稠密、更高级别的亚序列特征，包括：根据目标蛋白质的亚序列特征和浅层神经网络模块，获得目标蛋白质更稠密、更高级别的亚序列特征。

作为本发明方法的一种改进，步骤S3中，将目标蛋白质的局部语义特征，更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合，包括：使用第一双层深度神经网络模块对目标蛋白质的局部语义特征和更稠密、更高级别的亚序列特征进行融合，获得目标蛋白质的第一融合特征；使用第二双层深度神经网络模块对目标蛋白质的第一融合特征和网络拓扑结构特征进行融合，获得目标蛋白质的第二融合特征，即目标蛋白质的分类融合特征。

作为本发明方法的一种改进，在步骤S1之前还包括：选择一定数量的蛋白质作为训练集；对训练集中的每一个蛋白质进行步骤S1至S3处理；将预先设定的蛋白质用于细胞组成的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质细胞组成的功能预测模型；将预先设定的蛋白质用于生物过程的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质生物过程的功能预测模型；将预先设定的蛋白质用于分子功能的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质分子功能的功能预测模型。

(三)有益效果

本发明的有益效果是：

本发明通过深度学习技术融合了蛋白质序列的语义特征，蛋白质的亚序列特征以及蛋白质相互作用网络拓扑特征，得出了最终的多标签分类向量，使用多标签分类向量进行蛋白质功能的预测，在所有的评价指标上都取得了最好或近似最好的结果，显著的提高了预测蛋白质功能的准确度，同时本发明方法的适用性较好，在预测困难的数据集上依然有不错的准确度。

附图说明

本发明借助于以下附图进行描述：

图1为本发明具体实施方式中基于深度学习的融合多特征的蛋白质功能预测方法的流程图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本发明提供了一种基于深度学习的融合多特征的蛋白质功能预测方法，如图1所示，包括以下步骤：

单纯的氨基酸序列对于生物体并不产生任何生命意义，这些线性序列经过旋转、折叠以后形成的特定的空间构象才具有生物学功能，调控人体的生命活动。一般从四个层次剖析蛋白质的功能结构：蛋白质一级结构由一系列的字符串组成，字符串中的每一个字符代表着构成蛋白质的氨基酸；蛋白质二级结构基于一级结构并在一级结构的基础上进行扩展，具体表征由构成一节结构的氨基酸序列经过旋转和折叠的方式转化以后形成的构象；蛋白质三级结构表征机体内形成的蛋白质整体几何形状；蛋白质四级结构指的是具有独立结构的多条多肽链经过相互作用最终形成的空间构象。

因此，为了准确预测蛋白质的功能，需要从Uniprot数据库中获取目标蛋白质的序列信息，从STRING和EggNOG数据库中获取目标蛋白质的作用信息和同源信息。

步骤S2、根据目标蛋白质的序列信息，提取目标蛋白质的语义结构特征和目标蛋白质的亚序列特征；根据蛋白质的作用信息和同源信息，提取目标蛋白质所处的网络拓扑结构特征。

我们把蛋白质一级结构序列和自然语言作类似，蛋白质一级结构序列中的单个氨基酸可以类比为文本中的单个字，氨基酸之间相互结合构成二级结构的过程可以类比为文本中的字相互组词的过程，一整条氨基酸序列相应的可以类比为文本中的一个句子。因此，使用在自然语言处理领域中广泛应用的word2vec对蛋白质一级结构序列进行处理。

具体地，根据目标蛋白质的序列信息，提取目标蛋白质的语义结构特征，包括：截取目标蛋白质序列中前1000个氨基酸序列，对于目标蛋白质序列不足1000的蛋白质，使用0向量进行填充。使用目标蛋白质序列作为输入训练word2vec模型，获取目标蛋白质序列中每个氨基的语义特征并生成一个查询表T1，以保存每个氨基与其语义特征向量之间的对应关系；使用氨基的语义特征向量化表示目标蛋白质序列，并生成目标蛋白质序列的语义结构特征。

具体地，根据目标蛋白质的序列信息，提取目标蛋白质的亚序列特征，包括：使用InterPro工具扫描目标蛋白质序列，获取目标蛋白质的结构域(domain)、家族(family)和模体(motif)信息，使用one-hot向量数值化表示蛋白质的domain、family、motif信息，并将该one-hot向量作为蛋白质亚序列特征。

具体地，根据目标蛋白质的作用信息和同源信息，提取目标蛋白质的网络拓扑结构特征，包括：根据预设的阈值过滤目标蛋白质的作用信息和同源信息，获取目标蛋白质网络数据集合；根据目标蛋白质网络数据集合，构建以蛋白质作为节点、蛋白质之间的作用关系作为边的蛋白质相互作用网络；使用DeepWalk方法提取目标蛋白质相互作用网络中每个节点的拓扑特征X_i5，并生成查询表T2，保存网络中每个蛋白质与其网络拓扑结构特征的对应关系。优选地，获取confidence score>＝300的目标蛋白质的作用信息和同源信息。进一步地，DeepWalk方法中的迭代次数设置为：

其中，M为蛋白质相互作用网络中边的个数，N为蛋白质相互作用网络中节点的个数，k为迭代次数，α为控制系数，α数值与DeepWalk采样时覆盖的邻接节点数目成反比。能够使中心节点尽可能地获取全部的邻接节点信息。

由于蛋白质在Uniprot和STRING数据库中的标记ID不同，因此需要获得Uniprot中蛋白质ID到STRING数据库中蛋白质ID的mapping关系，而这种mapping关系是多对多的，即Uniprot中的一个蛋白质ID对应STRING数据库中的多个蛋白质ID，STRING数据库中的一个蛋白质ID对应Uniprot数据库中的多个蛋白质ID。因此，需要根据Uniprot数据库中的信息，获得Uniprot和STRING数据库中ID的一一对应关系，并保留了Uniprot中的多个蛋白质ID对应STRING数据库中的一个ID的关系，此时会存在一部分Uniprot中的ID到STRING数据库中蛋白质ID没有mapping关系，对于这类蛋白质，使用0填充的方法作为蛋白质的拓扑特征向量。

步骤S3、将目标蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入到预先训练的蛋白质功能预测模型，输出分类结果。

具体地，根据目标蛋白质的语义结构特征和双向长短记忆网络模块，获得目标蛋白质的全局语义特征，根据目标蛋白质的全局语义特征和多尺度卷积神经网络模块，获得目标蛋白质的局部语义特征。其中，在多尺度卷积神经网络模块中采用3种不同尺寸的卷积核，获取目标蛋白质序列的3个不同的局部语义特征X_i1,X_i2,X_i3；根据目标蛋白质的亚序列特征和浅层神经网络模块，获得目标蛋白质更稠密、更高级别的亚序列特征X_i4；使用第一双层深度神经网络模块对目标蛋白质的局部语义特征和更稠密、更高级别的亚序列特征进行融合，获得目标蛋白质的第一融合特征；使用第二双层深度神经网络模块对目标蛋白质的第一融合特征和网络拓扑结构特征进行融合，获得目标蛋白质的第二融合特征，即目标蛋白质的分类融合特征。将目标蛋白质的分类融合特征输入到功能分类模块，输出分类结果。

在第一双层深度神经网络模块中，使用contact层对蛋白质的局部语义特征X_i1，X_i2，X_i3和更稠密、更高级别的亚序列特征X_i4进行拼接处理，然后使用全连接层获得蛋白质的第一融合特征X，其公式如下：

X＝σ(w(X_i4，X_i1，X_i2，X_i3)+b)

在第二双层深度神经网络模块中，使用contact层对蛋白质的网络拓扑结构特征X_i5和第一融合特征进行拼接处理，然后使用全连接层获得蛋白质的第二融合特征Y，即蛋白质的分类融合特征。其公式如下：

Y＝σ(w(X，X_i5)+b)

其中，w、b为模块学习的参数，σ为激活函数，此处采用ReLU激活函数。

预先训练的蛋白质功能预测模型包括蛋白质细胞组成的功能预测模型、蛋白质生物过程的功能预测模型和蛋白质分子功能的功能预测模型，功能预测模型的训练过程如下：选择一定数量的蛋白质作为训练集；对训练集中的每一个蛋白质进行所述步骤S1至S3处理；将预先设定的蛋白质用于细胞组成的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质细胞组成的功能预测模型；将预先设定的蛋白质用于生物过程的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质生物过程的功能预测模型；将预先设定的蛋白质用于分子功能的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质分子功能的功能预测模型。

实验验证

为了验证本发明方法(以下称DeepGOA)的有效性和相比于其他方法的优越性，我们使用本方法分别在CAFA3基准验证集上和从Uniprot中获取的数据集上进行了蛋白质功能预测。

将从Uniprot中获取的数据集分为训练集，验证集和测试集。使用DeepGOA、DeepGO和BLAST方法在最佳的F值(F_max)、平均精准度(AvgPr)、平均召回率(AvgRc)、Mathews相关系数(MCC)、曲线下面积(AUC)进行了比较。上述5个指标都是以蛋白质为衡量中心。F_max、AvgPr、AvgRc、MCC和AUC的计算公式如下：

其中，f代表一个蛋白质功能标签；p_i(t)表示当阈值为t时，方法所预测的蛋白质i功能标签集合；T_i表示蛋白质i真实的功能标签集合；n是数据集中蛋白质的个数；m(t)表示当阈值为t时，方法所预测的结果中至少含有一个功能标签的蛋白质个数；TP表示蛋白质具有该功能标签，且预测正确的个数；TN表示蛋白质不具有该功能标签，且预测蛋白质不含有该功能标签的个数；FP表示蛋白质不具有该功能标签，但是预测蛋白质有该功能标签的个数；FN表示蛋白质具有该功能标签，但是预测蛋白质没有该功能标签的个数。TP、TN、FP、FN都是基于功能标签进行统计的。

如表1所示，使用DeepGOA、BLAST和DeepGO方法在测试集上关于最佳的F值(F_max)、平均精准度(AvgPr)、平均召回率(AvgRc)、Mathews相关系数(MCC)、曲线下面积(AUC)进行了比较。

可见，本发明方法DeepGOA在测试集上要优于BLAST和DeepGO方法，在重要评级指标F_max上，DeepGOA比DeepGO提高了6.8％(BP)、6.3％(CC)、18.7％(MF)，DeepGOA比BLAST提高了34.3％(BP)、85.9％(CC)、50.0％(MF)。这表明了DeepGOA确实提高了蛋白质功能预测的准确度。

表1 DeepGOA，BLAST和DeepGO在测试集上的比较结果

由于蛋白质的序列的相似度越低，预测越困难，因此根据蛋白质序列的相似程度，将来自Uniprot的数据集进行重新划分，将相似度≥50％的作为训练集，将相似度<50％的作为测试集。如表2所示，使用DeepGOA和DeepGO方法在蛋白质序列相似度<50％的测试集上进行了蛋白质功能预测的比较，可见，DeepGOA在MF、BP和CC上都明显优于DeepGO，说明DeepGOA在困难的数据集上依然有不错的准确度。

表2 DeepGO和DeepGOA预测困难数据上的比较

为了进一步衡量本发明方法DeepGOA的性能，使用DeepGOA、DeepGO和FFPred3方法在CAFA3的基准验证集上进行了蛋白质功能预测的比较。如表3所示，DeepGOA在所有的评价指标上都取得了最好结果。

表3 不同模型在CAFA3的基准验证集上的比较

在表4中，DeepGOA_BiLSTM表示只使用BiLSTM提取序列语义特征进行蛋白质功能预测；DeepGOA_MultiCNN表示只使用MultiCNN模型提取序列语义特征进行功能预测；DeepGOA_seq表示结合BiLSTM和MultiCNN提取序列语义特征进行功能预测；DeepGOA_InterPro表示只使用domain、family、motif信息预测功能；DeepGOA_PPI表示只使用蛋白质网络拓扑特征预测功能。DeepGOA_Seq_InterPro表示结合DeepGOA_seq和DeepGOA_InterPro方法进行功能预测；DeepGOA_Seq_PPI表示结合DeepGOA_seq和DeepGOA_PPI方法进行功能预测；DeepGOA_InterPro_PPI表示结合DeepGOA_InterPro和DeepGOA_PPI方法进行功能预测。

表4中结果显示蛋白质的domain,family和motif信息对分子功能预测有显著提高；蛋白质序列的语义特征对细胞结构功能的预测有显著提高，蛋白质相互作用网络拓扑特征对生物过程和细胞结构功能预测有显著提高。DeepGOA融合了多种特征，并在所有的评价指标上都取得了最好或近似最好的结果。综上表述，本发明提出基于深度学习的融合了多种特征方法显著的提高预测蛋白质功能准确度。

表4 DeepGOA模型的不同组合分析

需要理解的是，以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点，其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施，但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种基于深度学习的融合多特征的蛋白质功能预测方法，其特征在于，包括以下步骤：

步骤S1、获取目标蛋白质的序列信息、作用信息和同源信息；

步骤S2、根据目标蛋白质的序列信息，提取目标蛋白质的语义结构特征和目标蛋白质的亚序列特征；根据目标蛋白质的作用信息和同源信息，提取目标蛋白质的网络拓扑结构特征；

步骤S3、将目标蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入到预先训练的蛋白质功能预测模型，输出分类结果；

所述蛋白质功能预测模型包括：根据目标蛋白质的语义结构特征，提取目标蛋白质的局部语义特征；根据目标蛋白质的亚序列特征，提取目标蛋白质更稠密、更高级别的亚序列特征；将目标蛋白质的局部语义特征，更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合，获得目标蛋白质的分类融合特征；将目标蛋白质的分类融合特征输入到功能分类模块，输出分类结果。

2.根据权利要求1所述的方法，其特征在于，步骤S2中，根据目标蛋白质的序列信息，提取目标蛋白质的语义结构特征，包括：

使用word2vec向量化目标蛋白质序列，获取目标蛋白质序列的语义结构特征。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，根据目标蛋白质的序列信息，提取目标蛋白质的亚序列特征，包括：

使用InterPro工具扫描目标蛋白质序列，获取目标蛋白质的结构域、家族和模体信息，再使用one-hot向量数值化表示目标蛋白质的结构域、家族和模体信息，获得目标蛋白质的亚序列特征。

4.根据权利要求1所述的方法，其特征在于，步骤S2中，根据目标蛋白质的作用信息和同源信息，提取目标蛋白质的网络拓扑结构特征，包括：

根据预设的阈值过滤目标蛋白质的作用信息和同源信息，获取目标蛋白质网络数据集合；

根据目标蛋白质网络数据集合，构建以蛋白质作为节点、蛋白质之间的作用关系作为边的蛋白质相互作用网络；

使用DeepWalk方法提取蛋白质相互作用网络中每个节点的拓扑特征，获取目标蛋白质的网络拓扑结构特征。

5.根据权利要求4所述的方法，其特征在于，根据预设的阈值过滤目标蛋白质的作用信息和同源信息，具体为：

获取confidence score>＝300的目标蛋白质的作用信息和同源信息。

6.根据权利要求4所述的方法，其特征在于，所述DeepWalk方法中的迭代次数设置为：

7.根据权利要求1所述的方法，其特征在于，步骤S3中，根据目标蛋白质的语义结构特征，提取目标蛋白质的局部语义特征，包括：

根据目标蛋白质的语义结构特征和双向长短记忆网络模块，获得目标蛋白质的全局语义特征，根据目标蛋白质的全局语义特征和多尺度卷积神经网络模块，获得目标蛋白质的局部语义特征。

8.根据权利要求1所述的方法，其特征在于，步骤S3中，根据目标蛋白质的亚序列特征，提取目标蛋白质更稠密、更高级别的亚序列特征，包括：

根据目标蛋白质的亚序列特征和浅层神经网络模块，获得目标蛋白质更稠密、更高级别的亚序列特征。

9.根据权利要求1所述的方法，其特征在于，步骤S3中，将目标蛋白质的局部语义特征，更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合，包括：

使用第一双层深度神经网络模块对目标蛋白质的局部语义特征和更稠密、更高级别的亚序列特征进行融合，获得目标蛋白质的第一融合特征；

使用第二双层深度神经网络模块对目标蛋白质的第一融合特征和网络拓扑结构特征进行融合，获得目标蛋白质的第二融合特征，即目标蛋白质的分类融合特征。

10.根据权利要求1所述的方法，其特征在于，在所述步骤S1之前还包括：

选择一定数量的蛋白质作为训练集；

对所述训练集中的每一个蛋白质进行所述步骤S1至S3处理；

将预先设定的蛋白质用于细胞组成的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质细胞组成的功能预测模型；

将预先设定的蛋白质用于生物过程的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质生物过程的功能预测模型；

将预先设定的蛋白质用于分子功能的功能标签作为蛋白质功能预测模型的输出，向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征，得到蛋白质分子功能的功能预测模型。