[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110070909B - 一种基于深度学习的融合多特征的蛋白质功能预测方法 - Google Patents

一种基于深度学习的融合多特征的蛋白质功能预测方法 Download PDF

Info

Publication number
CN110070909B
CN110070909B CN201910215306.1A CN201910215306A CN110070909B CN 110070909 B CN110070909 B CN 110070909B CN 201910215306 A CN201910215306 A CN 201910215306A CN 110070909 B CN110070909 B CN 110070909B
Authority
CN
China
Prior art keywords
protein
target protein
features
subsequence
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910215306.1A
Other languages
English (en)
Other versions
CN110070909A (zh
Inventor
李敏
张富豪
宋虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910215306.1A priority Critical patent/CN110070909B/zh
Publication of CN110070909A publication Critical patent/CN110070909A/zh
Application granted granted Critical
Publication of CN110070909B publication Critical patent/CN110070909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于深度学习的融合多特征的蛋白质功能预测方法,包括:S1、根据蛋白质的序列信息、作用信息和同源信息,提取蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征;S2、将蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入预先训练的蛋白质功能预测模型中,输出分类结果;蛋白质功能预测模型包括:根据蛋白质语义结构特征,提取蛋白质局部语义特征;根据蛋白质亚序列特征,提取蛋白质更稠密、更高级别的亚序列特征;将蛋白质局部语义特征,更稠密、高级别的亚序列特征和网络拓扑结构特征进行融合,获得蛋白质分类融合特征;将蛋白质分类融合特征输入功能分类模块,输出分类结果。显著的提高了预测蛋白质功能的准确度。

Description

一种基于深度学习的融合多特征的蛋白质功能预测方法
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基于深度学习的融合多特征的蛋白质功能预测方法。
背景技术
蛋白质的功能对于生物技术和医药方面研究有非常重要的作用,例如新药开发、新作物开发以及生物燃料等合成生物化学品的开发。
早期预测蛋白质功能的方法是通过体内体外实验,包括基因敲除、靶向突变和抑制基因表达等,这些实验性的方法需要花费大量的人力和时间。
为了缓解上述问题,一些计算方法被用于蛋白质功能预测,高通量测序技术的发展,为计算方法提供了大量的有效数据。例如蛋白质氨基序列数据、基因表达数据和蛋白质相互作用网络等。大部分研究者采用基于序列的计算方法进行蛋白质功能预测,为了进一步提高预测的精准度,一些研究者还通过融合多种数据进行蛋白质功能预测。虽然目前已经有大量的计算方法用于蛋白质功能预测,但是精准度普遍偏低。
蛋白质功能预测被认为是一个巨大的挑战,主要包括以下原因:第一、大量的蛋白质还没有标注功能,例如在UniProt数据库中,已经有功能标注的蛋白质不到1%,因此需要新的基于计算方法的蛋白质功能预测方法来进一步提高蛋白质功能预测的准确度。第二、目前研究者通常使用基因本体(Gene Ontology)来标注蛋白质的功能,基因本体包含了超过40000个功能类别,不仅一个蛋白质包含多个功能,而且复杂的生物过程和功能又需要多个的蛋白质共同作用;也就是说,蛋白质功能预测是一个大规模的、多标签的、多分类问题。第三、不同的数据具有异质性和复杂性,因此如何利用多种数据进行蛋白质功能预测是一个难题。
近年来,深度学习快速发展,特别是在图像处理和自然语言处理领域,已经获得了巨大突破。深度学习可以提取更加丰富的数据特征和有效的融合多种特征。因此,本发明提出了一种基于深度学习的融合多特征的蛋白质功能预测方法。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种基于深度学习的融合多特征的蛋白质功能预测方法。显著的提高了预测蛋白质功能的准确度。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于深度学习的融合多特征的蛋白质功能预测方法,包括以下步骤:
步骤S1、获取目标蛋白质的序列信息、作用信息和同源信息。
步骤S2、根据目标蛋白质的序列信息,提取目标蛋白质的语义结构特征和目标蛋白质的亚序列特征;根据目标蛋白质的作用信息和同源信息,提取目标蛋白质的网络拓扑结构特征。
步骤S3、将蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入到预先训练的蛋白质功能预测模型,输出分类结果;蛋白质功能预测模型包括:根据目标蛋白质的语义结构特征,提取目标蛋白质的局部语义特征;根据目标蛋白质的亚序列特征,提取目标蛋白质更稠密、更高级别的亚序列特征;将目标蛋白质的局部语义特征,更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合,获得目标蛋白质的分类融合特征;将目标蛋白质的分类融合特征输入到功能分类模块,输出分类结果。
作为本发明方法的一种改进,步骤S2中,根据目标蛋白质的序列信息,提取目标蛋白质的语义结构特征,包括,使用word2vec向量化目标蛋白质序列,获取目标蛋白质序列的语义结构特征。
作为本发明方法的一种改进,步骤S2中,根据目标蛋白质的序列信息,提取目标蛋白质的亚序列特征,包括:使用InterPro工具扫描目标蛋白质序列,获取目标蛋白质的结构域、家族和模体信息,再使用one-hot向量数值化表示蛋白质的结构域、家族和模体信息,获得目标蛋白质的亚序列特征。
作为本发明方法的一种改进,步骤S2中,根据目标蛋白质的作用信息和同源信息,提取目标蛋白质的网络拓扑结构特征,包括:根据预设的阈值过滤目标蛋白质的作用信息和同源信息,获取目标蛋白质网络数据集合;根据目标蛋白质网络数据集合,构建以蛋白质作为节点、蛋白质之间的作用关系作为边的蛋白质相互作用网络;使用DeepWalk方法提取蛋白质相互作用网络中每个节点的拓扑特征,获取目标蛋白质的网络拓扑结构特征。
作为本发明方法的一种改进,根据预设的阈值过滤目标蛋白质的作用信息和同源信息,具体为:获取confidence score>=300的目标蛋白质的作用信息和同源信息。
作为本发明方法的一种改进,DeepWalk方法中的迭代次数设置为:
Figure BDA0002001850480000031
其中,M为蛋白质相互作用网络中边的个数,N为蛋白质相互作用网络中节点的个数,k为迭代次数,α为控制系数,α数值与DeepWalk采样时覆盖的邻接节点数目成反比。
作为本发明方法的一种改进,步骤S3中,根据目标蛋白质的语义结构特征,提取目标蛋白质的局部语义特征,包括:根据目标蛋白质的语义结构特征和双向长短记忆网络模块,获得目标蛋白质的全局语义特征,根据目标蛋白质的全局语义特征和多尺度卷积神经网络模块,获得目标蛋白质的局部语义特征。
作为本发明方法的一种改进,步骤S3中,根据目标蛋白质的亚序列特征,提取目标蛋白质更稠密、更高级别的亚序列特征,包括:根据目标蛋白质的亚序列特征和浅层神经网络模块,获得目标蛋白质更稠密、更高级别的亚序列特征。
作为本发明方法的一种改进,步骤S3中,将目标蛋白质的局部语义特征,更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合,包括:使用第一双层深度神经网络模块对目标蛋白质的局部语义特征和更稠密、更高级别的亚序列特征进行融合,获得目标蛋白质的第一融合特征;使用第二双层深度神经网络模块对目标蛋白质的第一融合特征和网络拓扑结构特征进行融合,获得目标蛋白质的第二融合特征,即目标蛋白质的分类融合特征。
作为本发明方法的一种改进,在步骤S1之前还包括:选择一定数量的蛋白质作为训练集;对训练集中的每一个蛋白质进行步骤S1至S3处理;将预先设定的蛋白质用于细胞组成的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质细胞组成的功能预测模型;将预先设定的蛋白质用于生物过程的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质生物过程的功能预测模型;将预先设定的蛋白质用于分子功能的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质分子功能的功能预测模型。
(三)有益效果
本发明的有益效果是:
本发明通过深度学习技术融合了蛋白质序列的语义特征,蛋白质的亚序列特征以及蛋白质相互作用网络拓扑特征,得出了最终的多标签分类向量,使用多标签分类向量进行蛋白质功能的预测,在所有的评价指标上都取得了最好或近似最好的结果,显著的提高了预测蛋白质功能的准确度,同时本发明方法的适用性较好,在预测困难的数据集上依然有不错的准确度。
附图说明
本发明借助于以下附图进行描述:
图1为本发明具体实施方式中基于深度学习的融合多特征的蛋白质功能预测方法的流程图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本发明提供了一种基于深度学习的融合多特征的蛋白质功能预测方法,如图1所示,包括以下步骤:
步骤S1、获取目标蛋白质的序列信息、作用信息和同源信息。
单纯的氨基酸序列对于生物体并不产生任何生命意义,这些线性序列经过旋转、折叠以后形成的特定的空间构象才具有生物学功能,调控人体的生命活动。一般从四个层次剖析蛋白质的功能结构:蛋白质一级结构由一系列的字符串组成,字符串中的每一个字符代表着构成蛋白质的氨基酸;蛋白质二级结构基于一级结构并在一级结构的基础上进行扩展,具体表征由构成一节结构的氨基酸序列经过旋转和折叠的方式转化以后形成的构象;蛋白质三级结构表征机体内形成的蛋白质整体几何形状;蛋白质四级结构指的是具有独立结构的多条多肽链经过相互作用最终形成的空间构象。
因此,为了准确预测蛋白质的功能,需要从Uniprot数据库中获取目标蛋白质的序列信息,从STRING和EggNOG数据库中获取目标蛋白质的作用信息和同源信息。
步骤S2、根据目标蛋白质的序列信息,提取目标蛋白质的语义结构特征和目标蛋白质的亚序列特征;根据蛋白质的作用信息和同源信息,提取目标蛋白质所处的网络拓扑结构特征。
我们把蛋白质一级结构序列和自然语言作类似,蛋白质一级结构序列中的单个氨基酸可以类比为文本中的单个字,氨基酸之间相互结合构成二级结构的过程可以类比为文本中的字相互组词的过程,一整条氨基酸序列相应的可以类比为文本中的一个句子。因此,使用在自然语言处理领域中广泛应用的word2vec对蛋白质一级结构序列进行处理。
具体地,根据目标蛋白质的序列信息,提取目标蛋白质的语义结构特征,包括:截取目标蛋白质序列中前1000个氨基酸序列,对于目标蛋白质序列不足1000的蛋白质,使用0向量进行填充。使用目标蛋白质序列作为输入训练word2vec模型,获取目标蛋白质序列中每个氨基的语义特征并生成一个查询表T1,以保存每个氨基与其语义特征向量之间的对应关系;使用氨基的语义特征向量化表示目标蛋白质序列,并生成目标蛋白质序列的语义结构特征。
具体地,根据目标蛋白质的序列信息,提取目标蛋白质的亚序列特征,包括:使用InterPro工具扫描目标蛋白质序列,获取目标蛋白质的结构域(domain)、家族(family)和模体(motif)信息,使用one-hot向量数值化表示蛋白质的domain、family、motif信息,并将该one-hot向量作为蛋白质亚序列特征。
具体地,根据目标蛋白质的作用信息和同源信息,提取目标蛋白质的网络拓扑结构特征,包括:根据预设的阈值过滤目标蛋白质的作用信息和同源信息,获取目标蛋白质网络数据集合;根据目标蛋白质网络数据集合,构建以蛋白质作为节点、蛋白质之间的作用关系作为边的蛋白质相互作用网络;使用DeepWalk方法提取目标蛋白质相互作用网络中每个节点的拓扑特征Xi5,并生成查询表T2,保存网络中每个蛋白质与其网络拓扑结构特征的对应关系。优选地,获取confidence score>=300的目标蛋白质的作用信息和同源信息。进一步地,DeepWalk方法中的迭代次数设置为:
Figure BDA0002001850480000071
其中,M为蛋白质相互作用网络中边的个数,N为蛋白质相互作用网络中节点的个数,k为迭代次数,α为控制系数,α数值与DeepWalk采样时覆盖的邻接节点数目成反比。能够使中心节点尽可能地获取全部的邻接节点信息。
由于蛋白质在Uniprot和STRING数据库中的标记ID不同,因此需要获得Uniprot中蛋白质ID到STRING数据库中蛋白质ID的mapping关系,而这种mapping关系是多对多的,即Uniprot中的一个蛋白质ID对应STRING数据库中的多个蛋白质ID,STRING数据库中的一个蛋白质ID对应Uniprot数据库中的多个蛋白质ID。因此,需要根据Uniprot数据库中的信息,获得Uniprot和STRING数据库中ID的一一对应关系,并保留了Uniprot中的多个蛋白质ID对应STRING数据库中的一个ID的关系,此时会存在一部分Uniprot中的ID到STRING数据库中蛋白质ID没有mapping关系,对于这类蛋白质,使用0填充的方法作为蛋白质的拓扑特征向量。
步骤S3、将目标蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入到预先训练的蛋白质功能预测模型,输出分类结果。
具体地,根据目标蛋白质的语义结构特征和双向长短记忆网络模块,获得目标蛋白质的全局语义特征,根据目标蛋白质的全局语义特征和多尺度卷积神经网络模块,获得目标蛋白质的局部语义特征。其中,在多尺度卷积神经网络模块中采用3种不同尺寸的卷积核,获取目标蛋白质序列的3个不同的局部语义特征Xi1,Xi2,Xi3;根据目标蛋白质的亚序列特征和浅层神经网络模块,获得目标蛋白质更稠密、更高级别的亚序列特征Xi4;使用第一双层深度神经网络模块对目标蛋白质的局部语义特征和更稠密、更高级别的亚序列特征进行融合,获得目标蛋白质的第一融合特征;使用第二双层深度神经网络模块对目标蛋白质的第一融合特征和网络拓扑结构特征进行融合,获得目标蛋白质的第二融合特征,即目标蛋白质的分类融合特征。将目标蛋白质的分类融合特征输入到功能分类模块,输出分类结果。
在第一双层深度神经网络模块中,使用contact层对蛋白质的局部语义特征Xi1,Xi2,Xi3和更稠密、更高级别的亚序列特征Xi4进行拼接处理,然后使用全连接层获得蛋白质的第一融合特征X,其公式如下:
X=σ(w(Xi4,Xi1,Xi2,Xi3)+b)
在第二双层深度神经网络模块中,使用contact层对蛋白质的网络拓扑结构特征Xi5和第一融合特征进行拼接处理,然后使用全连接层获得蛋白质的第二融合特征Y,即蛋白质的分类融合特征。其公式如下:
Y=σ(w(X,Xi5)+b)
其中,w、b为模块学习的参数,σ为激活函数,此处采用ReLU激活函数。
预先训练的蛋白质功能预测模型包括蛋白质细胞组成的功能预测模型、蛋白质生物过程的功能预测模型和蛋白质分子功能的功能预测模型,功能预测模型的训练过程如下:选择一定数量的蛋白质作为训练集;对训练集中的每一个蛋白质进行所述步骤S1至S3处理;将预先设定的蛋白质用于细胞组成的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质细胞组成的功能预测模型;将预先设定的蛋白质用于生物过程的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质生物过程的功能预测模型;将预先设定的蛋白质用于分子功能的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质分子功能的功能预测模型。
实验验证
为了验证本发明方法(以下称DeepGOA)的有效性和相比于其他方法的优越性,我们使用本方法分别在CAFA3基准验证集上和从Uniprot中获取的数据集上进行了蛋白质功能预测。
将从Uniprot中获取的数据集分为训练集,验证集和测试集。使用DeepGOA、DeepGO和BLAST方法在最佳的F值(Fmax)、平均精准度(AvgPr)、平均召回率(AvgRc)、Mathews相关系数(MCC)、曲线下面积(AUC)进行了比较。上述5个指标都是以蛋白质为衡量中心。Fmax、AvgPr、AvgRc、MCC和AUC的计算公式如下:
Figure BDA0002001850480000091
Figure BDA0002001850480000092
Figure BDA0002001850480000093
Figure BDA0002001850480000094
Figure BDA0002001850480000095
Figure BDA0002001850480000096
Figure BDA0002001850480000097
Figure BDA0002001850480000098
Figure BDA0002001850480000099
其中,f代表一个蛋白质功能标签;pi(t)表示当阈值为t时,方法所预测的蛋白质i功能标签集合;Ti表示蛋白质i真实的功能标签集合;n是数据集中蛋白质的个数;m(t)表示当阈值为t时,方法所预测的结果中至少含有一个功能标签的蛋白质个数;TP表示蛋白质具有该功能标签,且预测正确的个数;TN表示蛋白质不具有该功能标签,且预测蛋白质不含有该功能标签的个数;FP表示蛋白质不具有该功能标签,但是预测蛋白质有该功能标签的个数;FN表示蛋白质具有该功能标签,但是预测蛋白质没有该功能标签的个数。TP、TN、FP、FN都是基于功能标签进行统计的。
如表1所示,使用DeepGOA、BLAST和DeepGO方法在测试集上关于最佳的F值(Fmax)、平均精准度(AvgPr)、平均召回率(AvgRc)、Mathews相关系数(MCC)、曲线下面积(AUC)进行了比较。
可见,本发明方法DeepGOA在测试集上要优于BLAST和DeepGO方法,在重要评级指标Fmax上,DeepGOA比DeepGO提高了6.8%(BP)、6.3%(CC)、18.7%(MF),DeepGOA比BLAST提高了34.3%(BP)、85.9%(CC)、50.0%(MF)。这表明了DeepGOA确实提高了蛋白质功能预测的准确度。
表1 DeepGOA,BLAST和DeepGO在测试集上的比较结果
Figure BDA0002001850480000101
由于蛋白质的序列的相似度越低,预测越困难,因此根据蛋白质序列的相似程度,将来自Uniprot的数据集进行重新划分,将相似度≥50%的作为训练集,将相似度<50%的作为测试集。如表2所示,使用DeepGOA和DeepGO方法在蛋白质序列相似度<50%的测试集上进行了蛋白质功能预测的比较,可见,DeepGOA在MF、BP和CC上都明显优于DeepGO,说明DeepGOA在困难的数据集上依然有不错的准确度。
表2 DeepGO和DeepGOA预测困难数据上的比较
Figure BDA0002001850480000111
为了进一步衡量本发明方法DeepGOA的性能,使用DeepGOA、DeepGO和FFPred3方法在CAFA3的基准验证集上进行了蛋白质功能预测的比较。如表3所示,DeepGOA在所有的评价指标上都取得了最好结果。
表3 不同模型在CAFA3的基准验证集上的比较
Figure BDA0002001850480000112
在表4中,DeepGOA_BiLSTM表示只使用BiLSTM提取序列语义特征进行蛋白质功能预测;DeepGOA_MultiCNN表示只使用MultiCNN模型提取序列语义特征进行功能预测;DeepGOA_seq表示结合BiLSTM和MultiCNN提取序列语义特征进行功能预测;DeepGOA_InterPro表示只使用domain、family、motif信息预测功能;DeepGOA_PPI表示只使用蛋白质网络拓扑特征预测功能。DeepGOA_Seq_InterPro表示结合DeepGOA_seq和DeepGOA_InterPro方法进行功能预测;DeepGOA_Seq_PPI表示结合DeepGOA_seq和DeepGOA_PPI方法进行功能预测;DeepGOA_InterPro_PPI表示结合DeepGOA_InterPro和DeepGOA_PPI方法进行功能预测。
表4中结果显示蛋白质的domain,family和motif信息对分子功能预测有显著提高;蛋白质序列的语义特征对细胞结构功能的预测有显著提高,蛋白质相互作用网络拓扑特征对生物过程和细胞结构功能预测有显著提高。DeepGOA融合了多种特征,并在所有的评价指标上都取得了最好或近似最好的结果。综上表述,本发明提出基于深度学习的融合了多种特征方法显著的提高预测蛋白质功能准确度。
表4 DeepGOA模型的不同组合分析
Figure BDA0002001850480000121
需要理解的是,以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点,其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施,但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰,都应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于深度学习的融合多特征的蛋白质功能预测方法,其特征在于,包括以下步骤:
步骤S1、获取目标蛋白质的序列信息、作用信息和同源信息;
步骤S2、根据目标蛋白质的序列信息,提取目标蛋白质的语义结构特征和目标蛋白质的亚序列特征;根据目标蛋白质的作用信息和同源信息,提取目标蛋白质的网络拓扑结构特征;
步骤S3、将目标蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征输入到预先训练的蛋白质功能预测模型,输出分类结果;
所述蛋白质功能预测模型包括:根据目标蛋白质的语义结构特征,提取目标蛋白质的局部语义特征;根据目标蛋白质的亚序列特征,提取目标蛋白质更稠密、更高级别的亚序列特征;将目标蛋白质的局部语义特征,更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合,获得目标蛋白质的分类融合特征;将目标蛋白质的分类融合特征输入到功能分类模块,输出分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤S2中,根据目标蛋白质的序列信息,提取目标蛋白质的语义结构特征,包括:
使用word2vec向量化目标蛋白质序列,获取目标蛋白质序列的语义结构特征。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,根据目标蛋白质的序列信息,提取目标蛋白质的亚序列特征,包括:
使用InterPro工具扫描目标蛋白质序列,获取目标蛋白质的结构域、家族和模体信息,再使用one-hot向量数值化表示目标蛋白质的结构域、家族和模体信息,获得目标蛋白质的亚序列特征。
4.根据权利要求1所述的方法,其特征在于,步骤S2中,根据目标蛋白质的作用信息和同源信息,提取目标蛋白质的网络拓扑结构特征,包括:
根据预设的阈值过滤目标蛋白质的作用信息和同源信息,获取目标蛋白质网络数据集合;
根据目标蛋白质网络数据集合,构建以蛋白质作为节点、蛋白质之间的作用关系作为边的蛋白质相互作用网络;
使用DeepWalk方法提取蛋白质相互作用网络中每个节点的拓扑特征,获取目标蛋白质的网络拓扑结构特征。
5.根据权利要求4所述的方法,其特征在于,根据预设的阈值过滤目标蛋白质的作用信息和同源信息,具体为:
获取confidence score>=300的目标蛋白质的作用信息和同源信息。
6.根据权利要求4所述的方法,其特征在于,所述DeepWalk方法中的迭代次数设置为:
Figure FDA0002001850470000021
其中,M为蛋白质相互作用网络中边的个数,N为蛋白质相互作用网络中节点的个数,k为迭代次数,α为控制系数,α数值与DeepWalk采样时覆盖的邻接节点数目成反比。
7.根据权利要求1所述的方法,其特征在于,步骤S3中,根据目标蛋白质的语义结构特征,提取目标蛋白质的局部语义特征,包括:
根据目标蛋白质的语义结构特征和双向长短记忆网络模块,获得目标蛋白质的全局语义特征,根据目标蛋白质的全局语义特征和多尺度卷积神经网络模块,获得目标蛋白质的局部语义特征。
8.根据权利要求1所述的方法,其特征在于,步骤S3中,根据目标蛋白质的亚序列特征,提取目标蛋白质更稠密、更高级别的亚序列特征,包括:
根据目标蛋白质的亚序列特征和浅层神经网络模块,获得目标蛋白质更稠密、更高级别的亚序列特征。
9.根据权利要求1所述的方法,其特征在于,步骤S3中,将目标蛋白质的局部语义特征,更稠密、更高级别的亚序列特征以及网络拓扑结构特征进行融合,包括:
使用第一双层深度神经网络模块对目标蛋白质的局部语义特征和更稠密、更高级别的亚序列特征进行融合,获得目标蛋白质的第一融合特征;
使用第二双层深度神经网络模块对目标蛋白质的第一融合特征和网络拓扑结构特征进行融合,获得目标蛋白质的第二融合特征,即目标蛋白质的分类融合特征。
10.根据权利要求1所述的方法,其特征在于,在所述步骤S1之前还包括:
选择一定数量的蛋白质作为训练集;
对所述训练集中的每一个蛋白质进行所述步骤S1至S3处理;
将预先设定的蛋白质用于细胞组成的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质细胞组成的功能预测模型;
将预先设定的蛋白质用于生物过程的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质生物过程的功能预测模型;
将预先设定的蛋白质用于分子功能的功能标签作为蛋白质功能预测模型的输出,向蛋白质功能预测模型中输入训练集中每一个蛋白质的语义结构特征、亚序列特征和网络拓扑结构特征,得到蛋白质分子功能的功能预测模型。
CN201910215306.1A 2019-03-21 2019-03-21 一种基于深度学习的融合多特征的蛋白质功能预测方法 Active CN110070909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910215306.1A CN110070909B (zh) 2019-03-21 2019-03-21 一种基于深度学习的融合多特征的蛋白质功能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910215306.1A CN110070909B (zh) 2019-03-21 2019-03-21 一种基于深度学习的融合多特征的蛋白质功能预测方法

Publications (2)

Publication Number Publication Date
CN110070909A CN110070909A (zh) 2019-07-30
CN110070909B true CN110070909B (zh) 2022-12-09

Family

ID=67366555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910215306.1A Active CN110070909B (zh) 2019-03-21 2019-03-21 一种基于深度学习的融合多特征的蛋白质功能预测方法

Country Status (1)

Country Link
CN (1) CN110070909B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827922B (zh) * 2019-11-06 2021-04-16 吉林大学 基于循环神经网络的羊水蛋白质的预测方法
CN111401534B (zh) * 2020-04-29 2023-12-05 北京晶泰科技有限公司 一种蛋白质性能预测方法、装置和计算设备
CN111462822B (zh) * 2020-04-29 2023-12-05 北京晶泰科技有限公司 一种蛋白质序列特征的生成方法、装置和计算设备
CN111667880A (zh) * 2020-05-27 2020-09-15 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触图预测方法
CN112289370B (zh) * 2020-12-28 2021-03-23 武汉金开瑞生物工程有限公司 一种蛋白质结构预测方法及装置
CN112382414B (zh) * 2021-01-11 2021-05-11 常州微亿智造科技有限公司 基于复杂网络的生物活动时间序列分析方法和装置
CN113192562B (zh) * 2021-05-07 2022-05-13 中南大学 融合多尺度模块结构信息的致病基因识别方法及系统
CN114333982B (zh) * 2021-11-26 2023-09-26 北京百度网讯科技有限公司 蛋白质表示模型预训练、蛋白质相互作用预测方法和装置
CN114242168B (zh) * 2021-12-17 2024-06-14 贵州大学 一种识别生物必需蛋白质方法
CN115497555B (zh) * 2022-08-16 2024-01-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多物种蛋白质功能预测方法、装置、设备及存储介质
CN116343905B (zh) * 2022-12-30 2024-01-16 抖音视界有限公司 蛋白质特征的预处理方法、装置、介质及设备
CN116092577B (zh) * 2023-01-09 2024-01-05 中国海洋大学 一种基于多源异质信息聚合的蛋白质功能预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069188A1 (ja) * 2003-12-26 2005-07-28 Dainippon Sumitomo Pharma Co., Ltd. 化合物および蛋白質間の相互作用を予測するシステム
CN103065066A (zh) * 2013-01-22 2013-04-24 四川大学 基于药物组合网络的药物联合作用预测方法
CN105138866A (zh) * 2015-08-12 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069188A1 (ja) * 2003-12-26 2005-07-28 Dainippon Sumitomo Pharma Co., Ltd. 化合物および蛋白質間の相互作用を予測するシステム
CN103065066A (zh) * 2013-01-22 2013-04-24 四川大学 基于药物组合网络的药物联合作用预测方法
CN105138866A (zh) * 2015-08-12 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法

Also Published As

Publication number Publication date
CN110070909A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN112614538A (zh) 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置
CN112270958B (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN107291895A (zh) 一种快速的层次化文档查询方法
CN114943017A (zh) 一种基于相似性零样本哈希的跨模态检索方法
CN113764034A (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN111584010A (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN112116950B (zh) 基于深度度量学习的蛋白质折叠识别方法
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN115713970A (zh) 基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
CN112259157A (zh) 一种蛋白质相互作用预测方法
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN118038995A (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
CN111782818A (zh) 生物医疗知识图谱的构建装置、方法、系统及存储器
CN114238661B (zh) 一种基于可解释模型的文本歧视性样本检测生成系统与方法
CN106021999A (zh) 一种多功能抗微生物肽的最优多标记集成预测方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN115905493A (zh) 一种基于共享编码和协同注意力的知识图谱问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant