CN116631512A - 基于深度分解机的piRNA与疾病关联关系预测方法 - Google Patents
基于深度分解机的piRNA与疾病关联关系预测方法 Download PDFInfo
- Publication number
- CN116631512A CN116631512A CN202310662335.9A CN202310662335A CN116631512A CN 116631512 A CN116631512 A CN 116631512A CN 202310662335 A CN202310662335 A CN 202310662335A CN 116631512 A CN116631512 A CN 116631512A
- Authority
- CN
- China
- Prior art keywords
- disease
- pirna
- similarity
- ith
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 157
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 157
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 22
- 108091007412 Piwi-interacting RNA Proteins 0.000 claims abstract description 117
- 239000004055 small Interfering RNA Substances 0.000 claims abstract description 83
- 230000008569 process Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 11
- 208000024891 symptom Diseases 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 9
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims 1
- 238000012549 training Methods 0.000 claims 1
- 238000012795 verification Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 8
- 230000004927 fusion Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 7
- 230000001225 therapeutic effect Effects 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 108091027963 non-coding RNA Proteins 0.000 description 3
- 102000042567 non-coding RNA Human genes 0.000 description 3
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical group O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013399 early diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 239000002679 microRNA Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 102000008682 Argonaute Proteins Human genes 0.000 description 1
- 108010088141 Argonaute Proteins Proteins 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 108020005198 Long Noncoding RNA Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000008482 dysregulation Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 208000000509 infertility Diseases 0.000 description 1
- 230000036512 infertility Effects 0.000 description 1
- 231100000535 infertility Toxicity 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 description 1
- 229940045145 uridine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了基于深度分解机的piRNA与疾病关联关系预测方法,包括以下步骤:步骤1,piRNA与疾病关联关系预测基准数据集的构建;步骤2,多视角相似性的计算;步骤3,基于深度自动编码器的可靠负集的构建;步骤4,预测模型的构建;步骤5,关联关系的判定,对于步骤4获得的预测分数,概率较大的预测类别作为最终结果,即可确定当前piRNA是否与疾病相关;本发明可用于预测piRNA与疾病之间的关联关系中,采用严格条件构建了可靠的数据集,在分类过程使用新颖的基于多角度相似性融合的深度分解机,令后续分类结果更为可靠和可信,降低预测误差。
Description
技术领域
本发明属于生物医学领域,具体涉及基于深度分解机的piRNA与疾病关联关系预测方法。
背景技术
预测RNA与疾病之间的关联关系是生物医学研究的一个重要领域,主要意义如下:1.早期诊断:识别与特定疾病相关的RNA有助于疾病的早期诊断,可以为患者带来更早的治疗和更好的结果。2.个性化医疗:了解RNA在疾病中的作用有助于开发针对特定RNA的个性化治疗,从而提高治疗效果并减少副作用。3.药物开发:识别与疾病有关的RNA也有助于开发针对这些RNA的新药,从而可以开发更有效和更有针对性的疗法。4.了解疾病:了解RNA在疾病中的作用还可以深入了解疾病的潜在机制,这有助于开发新的诊断和治疗策略。总体而言,预测RNA与疾病之间的关系是改善疾病诊断、治疗和预防的关键步骤。
现有预测疾病与非编码RNA关联研究的计算方法主要聚焦在lncRNA和miRNA,piRNA相关研究于2020年开启。piRNA是2006年发现的一类与Argonaute蛋白PIWI亚家族结合的非编码小RNA。piRNA长度比miRNA略长,大约为24-32个核苷酸,具有5’末端尿苷或第十位腺苷偏好,缺乏清晰的二级结构。近十年内,越来越多的证据表明,PIWI-piRNA复合体失调与多种人类疾病有关,包括不孕症、癌症、心血管疾病、神经系统疾病等复杂疾病。piRNA是预测复杂疾病诊断、治疗和预后效果的潜在生物标志物,促使研究人员探索它们与特定人类疾病的关联关系。
到目前为止,有许多生物实验技术可以用于识别piRNA与疾病的关联关系,例如高通量转录组测序、体内和体外核糖体实验等。然而这类实验需要专业的研究人员,实验试剂及器材等高额成本,耗时费力。
伴随piRNA相关研究的深入和实验数据的积累,piRNA与疾病关联信息专题数据相关的数据库被逐渐建立起来,使得利用生物信息学方法预测piRNA与疾病关联的相关工作得以开展。这类专题数据库包括piRDisease1.0,pirpheno2.0和MNDR3.0。现有基准数据集是基于piRDisease1.0和MNDR3.0构建,疾病数量稀少,数据极不平衡。
现有piRNA相关研究于2020年开启,尽管在现有数据集上取得较好性能,但是基准数据集的规模和质量,模型表征学习能力都有待提升。
发明内容
预测RNA与疾病之间的关系是改善疾病诊断、治疗和预防的关键步骤。新近研究表明piRNA作为一种新型的非编码RNA,与疾病具有密切的关系。预测piRNA与疾病之间的关联关系有助于开发新的治疗策略和疾病生物标志物。目前,piRNA与疾病之间预测研究基准数据集的规模和质量,模型表征学习能力都有待提升。
为克服上述现有研究的不足,本发明的目的是为生物医学领域提供一种基于深度分解机的piRNA与疾病关联关系预测方法,旨在应用深度学习技术更高效且可靠地进行预测研究,令后续分类结果更为可靠和可信,降低预测误差。
为解决上述问题,本发明提出了基于深度分解机的piRNA与疾病关联关系预测方法,包括以下步骤:
步骤1,piRNA与疾病关联关系预测基准数据集的构建;
piRPheno 2.0是一个新的piRNA与疾病关联关系的专题数据库,提供了生物实验验证的PDA数据;通过从piRPheno 2.0数据中去除重复记录、piRNA数据使用piRBase数据库进行比对和疾病信息使用MeSH疾病数据库进行匹配共三个预处理步骤,最终得到4417条PDA记录,具体包含462条piRNA和102种疾病;剩余的42707条piRNA与疾病的组合对构成未标记样本集合;
步骤2,多视角相似性的计算;
为了从多视角获得piRNA和疾病相关信息,对piRNA和疾病分别选取了三种相似性;piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性;疾病选取的相似性包含语义相似性、症状相似性和高斯核相似性;
步骤3,基于深度自动编码器的可靠负集的构建;
为了建立高性能预测模型,使用基于深度自动编码器的负样本选择模型来构建可靠负集,具体做法为:
首先,A表示m个piRNA与n个疾病之间的关联矩阵,其中每行被用作piRNA特征的表示,而每列数据被看做疾病的特征表示;第i个piRNA与疾病样本被定为xi=[Dd,Pp]∈R(m+n),其中,Dd是疾病的特征表示,Pp是piRNA的特征表示;
使用xi作为输入,训练深度自动编码器学习所有PDA正样本的隐特征,该深度自动编码器模型的损失函数定义如下:
其中,x'i表示对输入xi的重构结果,K表示PDA样本的总数量,m表示piRNA的数量,n表示疾病的数量,xij表示xi·向量的第j个因子;
最后,在已训练好的深度自动编码器上,输入步骤1所得到的42707条未标记样本,得到这些样本的重构误差;按照重建误差分数对样本进行降序排序,并将其分为三个大小几乎相同的聚类;其中第二组未标记样本被认为是出现假阴性机会最小的样本;因此,为了保持可靠负集样本和正集样本的数量平衡,从第二个聚类中随机选择与正集数量相同的样本作为可靠负集;
步骤4,预测模型的构建;
通过改进深度分解机模型作为预测模型,模型包含嵌入模块,分解机模块和多层感知机三个模块,其中分解机模块和多层感知机模块共享来自嵌入模块的输入,最终的输出结果根据分解机模块和多层感知机模块计算得到预测分数;
步骤5,关联关系的判定;
根据步骤4获得的预测分数,概率较大的预测类别作为最终结果,即得到当前piRNA与指定疾病关联关系是否存在的结论。
进一步地,步骤2所述的piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性的具体做法如下:
第i个和第j个piRNA的序列局部比对相似性计算如下:
其中,SW(pi,pj)指根据史密斯-沃特曼算法计算的第i个和第j个piRNA的序列比对值;
序列k-mer相似性计算如下:
其中,和/>代表第i个和第j个piRNA的3-mer频率值;
piRNA高斯核相似性计算如下:
PS3(pi,pj)=exp(-λp||A(i,)-A(j,)||2
其中,A表示m个piRNA与n个疾病之间的关联矩阵,A(i,)表示该矩阵的第i行值,即代表第i个piRNA关于所有疾病的关联向量,参数λp′控制高斯核的宽度;
疾病选取的相似性包含语义相似性、症状相似性和高斯核相似性的具体做法如下:
第i个和第j个疾病的症状相似性是根据论文《Human symptoms–diseasenetwork》附件数据获得;
疾病语义相似性利用MeSH疾病数据库信息,基于层次描述符构建了有向无环图,其中节点表示疾病术语,边表示当前节点与其祖先之间的关系,表示第i个疾病的结构,其中,/>表示第i个疾病和其祖先的节点集合,/>表示直接从父节点链接到子节点的边集合,/>表示疾病/>对第i个疾病的语义贡献度计算如下:
其中,Δ是语义贡献衰减因子,设为0.5;
疾病语义相似性计算如下:
疾病高斯核相似性计算方法与piRNA高斯核计算方法相似,公式如下:
DS3(di,dj)=exp(-λd||A(,i)-A(,j)||2)
其中,A仍表示m个piRNA与n个疾病之间的关联矩阵,A(,i)表示该矩阵的第i列值,代表第i个疾病的piRNA关联谱,参数λd′控制高斯核的宽度。
进一步地,步骤4所述的深度分解机,主要通过嵌入模块、分解机模块和多层感知机模块三部分组成,最终的输出结果根据分解机模块和多层感知机模块的计算得到,具体计算方式为:
其中,是深度分解机的输出,yFM是分解机模块的输出,yMLP是多层感知机模块的输出;
在嵌入模块中,首先将步骤3中的正集和可靠负集样本中的piRNA和疾病使用独热编码进行表示,作为嵌入模块的输入;
其次,将步骤2获取的6种相似性分别进行拉普拉斯正则化,使用拉普拉斯特征映射结果初始化嵌入层的权重;步骤2描述 分别表示关于第i个和第j个piRNA的序列局部比对相似性、序列k-mer相似性和高斯核相似性,/>和/>表示第i个和第j个piRNA的序列局部比对相似性相关潜向量;关于该相似谱的拉普拉斯正则化处理步骤可视为R1最小优化问题,计算如下:
其中,Dp表示对角矩阵,具体计算方法为||||2是2范数的平方,Tr是矩阵的迹,Q1是潜特征矩阵,其第i列为第i个piRNA的潜向量,/>是拉普拉斯矩阵;
第k种piRNA相似性和第t种疾病相似性均可以转化为最小优化问题并计算如下:
其中,和/>表示关于第k种piRNA相似性第i个和第j个piRNA的潜向量,/>和表示关于第t种疾病相似性第i个和第j个疾病的潜向量,Qk和Ut是潜特征矩阵,/>和/>是拉普拉斯矩阵;
设整个模型的损失函数为J(Qk,Ut,O),Qk和Qk是piRNA和疾病在嵌入层的潜特征矩阵,O代表剩余参数集合,J表示交叉熵损失函数,损失函数计算如下:
其中,和/>是用于平衡DeepFM损失项和正则化项的正则化参数;
分解机和多层感知器使用标准模块,用于提取特征之间的交互作用,分解机的输出是累加单元和内积单元的累加和,计算如下:
其中,x=[xField_piRNA,xField_disease]表示包含piRNA和疾病独热编码的d维向量,w∈Rd表示关于一阶特征交互的网络参数,Vi,Vj表示原始特征xi和xj的潜向量;
多层感知器是一个前馈网络,用于学习高阶特征交互,使用piRNA和疾病的综合嵌入向量ep和ed作为模型输入,前馈过程和输出计算如下:
x(0)=[ep,ed]
x(l+1)=σ(W(l)x(l)+b(l))
yMLP=σ(W(H)x(H)+b(H))
其中,σ是激活函数,W(l)和b(l)分别表示第l层的权重和偏置,W(H)和b(H)分别表示第H层的权重和偏置。
与现有技术相比,本发明的有益效果如下:
由于本发明第一次采用了pirpheno2.0数据库作为可靠数据来源,首次构建了基于该数据库的基准数据集,采用了改进的深度分解机模型确保准确地预测piRNA与疾病关联关系,所以具有方案新颖、结果准确的优点。
本发明针对现有piRNA与疾病关联关系预测方法中基准数据集的疾病数量稀少,数据极不平衡的现状,以及模型表征学习能力有待提升等缺陷。
本发明为生物医学领域提供一种新颖的基于深度分解机的piRNA与疾病关联关系预测方法,不仅可以构建了相对平衡的新数据集,而且应用深度学习技术更高效且可靠地进行预测研究,令后续分类结果更为可靠和可信,降低预测误差。
附图说明
图1是本发明基于深度分解机的piRNA与疾病关联关系预测方法的流程图。
图2是本发明的深度分解机网络结构图。
图3是本发明的多角度相似性数据流图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种基于深度分解机的piRNA与疾病关联关系预测方法,该方法包括以下步骤:
步骤1,piRNA与疾病关联关系预测基准数据集的构建;
piRPheno 2.0是一个新的piRNA与疾病关联关系(piRNA-disea seassociations,PDA)的专题数据库,提供了生物实验验证的PDA数据;通过从piRPheno 2.0数据中去除重复记录、piRNA数据使用piRBase数据库进行比对和疾病信息使用MeSH疾病数据库进行匹配共三个预处理步骤,最终得到4417条PDA记录,其中包含462条piRNA和102种疾病;剩余的42707(462*102-4417)条piRNA与疾病的组合对构成未标记样本集合;
步骤2:多视角相似性的计算;
为了从多视角获得piRNA和疾病相关信息,对piRNA和疾病分别选取了三种相似性;piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性;
第i个和第j个piRNA的序列局部比对相似性计算如下:
其中,SW(pi,pj)指根据史密斯-沃特曼算法计算的第i个和第j个piRNA的序列比对值;
序列k-mer相似性计算如下:
其中,和/>代表第i个和第j个piRNA的3-mer频率值;
piRNA高斯核相似性计算如下:
PS3(pi,pj)=exp(-λp||A(i,)-A(j,)||2) (3)
其中,A表示m个piRNA与n个疾病之间的关联矩阵,A(i,)表示该矩阵的第i行值,即代表第i个piRNA关于所有疾病的关联向量,参数λ′p控制高斯核的宽度;
疾病选取的相似性包含语义相似性、症状相似性和高斯核相似性的具体做法如下:
第i个和第j个疾病的症状相似性是根据论文《Human symptoms–diseasenetwork》附件数据获得,数据下载地址是https://www.nature.com/articles/ncomms5212;
疾病语义相似性主要利用MeSH疾病数据库信息,基于层次描述符构建了有向无环图,其中节点表示疾病术语,边表示当前节点与其祖先之间的关系,表示第i个疾病的结构,其中,/>表示第i个疾病和其祖先的节点集合,/>表示直接从父节点链接到子节点的边集合,/>表示疾病/>对第i个疾病的语义贡献度计算如下:
其中,Δ是语义贡献衰减因子,设为0.5;
疾病语义相似性计算如下:
疾病高斯核相似性计算方法与piRNA高斯核计算方法相似,公式如下:
DS3(di,dj)=exp(-λp||A(,i)-A(,j)||2) (7)
其中,A仍表示m个piRNA与n个疾病之间的关联矩阵,A(,i)表示该矩阵的第i列值,代表第i个疾病的piRNA关联谱,参数λd'控制高斯核的宽度;
步骤3:基于深度自动编码器的可靠负集的构建;
为了建立高性能预测模型,使用基于深度自动编码器的负样本选择模型来构建可靠负集,具体做法为:
首先,A表示m个piRNA与n个疾病之间的关联矩阵,其中每行被用作piRNA特征的表示,而每列数据被看做疾病的特征表示;第i个piRNA与疾病样本被定为xi=[Dd,Pp]∈R(m+n),其中,Dd是疾病的特征表示,Pp是piRNA的特征表示;
使用xi作为输入,训练深度自动编码器学习所有PDA正样本的隐特征;该深度自动编码器模型的损失函数定义如下:
其中,x'i表示对输入xi的重构结果,K表示PDA样本的总数量,m表示piRNA的数量,n表示疾病的数量,xij表示xi·向量的第j个因子;
最后,在已训练好的深度自动编码器上,输入步骤1所得到的42707条未标记样本,得到这些样本的重构误差;按照重建误差分数对样本进行降序排序,并将其分为三个大小几乎相同的聚类;其中第二组未标记样本被认为是出现假阴性机会最小的样本;因此,为了保持可靠负集样本和正集样本的数量平衡,从第二个聚类中随机选择与正集数量相同的样本作为可靠负集;
步骤4:预测模型的构建;
通过改进深度分解机模型作为预测模型,模型包含嵌入模块,分解机模块和多层感知机三个模块,基本结构如图2所示;其中分解机模块和多层感知机模块共享来自嵌入模块的输入,最终的输出结果根据分解机模块和多层感知机模块计算得到,具体计算方式为:
其中,是深度分解机的输出,yFM是分解机模块的输出,yMLP是多层感知机模块的输出;
如图3所示,深度分解机的数据处理流程如下:首先,将步骤3中的正集和可靠负集样本中的piRNA和疾病使用独热编码进行表示,作为嵌入模块的输入;
其次,将步骤2获取的6种相似性分别进行拉普拉斯正则化,使用拉普拉斯特征映射(Laplacian Eigenmaps)结果初始化嵌入层的权重;
其中,如步骤2描述分别表示关于第i个和第j个piRNA的序列局部比对相似性、序列k-mer相似性和高斯核相似性,/>和/>表示第i个和第j个piRNA的序列局部比对相似性相关潜向量;关于该相似相的拉普拉斯正则化可视为R1最小优化问题,计算如下:
其中,Dp表示对角矩阵,|| ||2是2范数的平方,Tr是矩阵的迹,Q1是潜特征矩阵,其第i列为第i个piRNA的潜向量,/>是拉普拉斯矩阵;
与此相似,第k种piRNA相似性和第t种疾病相似性均可以转化为最小优化问题并计算如下:
其中,和/>表示关于第k种piRNA相似性第i个和第j个piRNA的潜向量,/>和/>表示关于第t种疾病相似性第i个和第j个疾病的潜向量,Qk和Ut是潜特征矩阵,/>和/>是拉普拉斯矩阵;
设整个模型的损失函数为J(Qk,Ut,O),Qk和Ut是piRNA和疾病在嵌入层的潜特征矩阵,O代表剩余参数集合,J表示交叉熵损失函数,损失函数计算如下:
其中,和/>是用于平衡DeepFM损失项和正则化项的正则化参数;
应用分解机和多层感知器两个标准模块,用于提取特征之间的交互作用,分解机模块的输出是累加单元和内积单元的累加和,计算如下:
其中,x=[xField_piRNA,xField_disease]表示包含piRNA和疾病独热编码的d维向量,w∈Rd表示关于一阶特征交互的网络参数,Vi,Vj表示原始特征xi和xj的潜向量;
多层感知器是一个前馈网络,用于学习高阶特征交互,使用piRNA和疾病的综合嵌入向量ep和ed作为模型输入,前馈过程和输出计算如下:
x(0)=[ep,ed] (16)
x(l+1)=σ(W(l)x(l)+b(l)) (17)
yMLP=σ(W(H)x(H)+b(H)) (18)
其中,σ是激活函数,W(l)和b(l)分别表示第l层的权重和偏置,W(H)和b(H)分别表示第H层的权重和偏置;
步骤5:关联关系的判定;
对于步骤4获得的预测分数,概率较大的预测类别作为最终结果,即得到当前piRNA与指定疾病关联关系是否存在的结论。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.基于深度分解机的piRNA与疾病关联关系预测方法,其特征在于,包括以下步骤:
步骤1,piRNA与疾病关联关系预测基准数据集的构建;
piRPheno 2.0是一个新的piRNA与疾病关联关系的专题数据库,提供了生物实验验证的PDA数据;通过从piRPheno 2.0数据中去除重复记录、piRNA数据使用piRBase数据库进行比对和疾病信息使用MeSH疾病数据库进行匹配共三个预处理步骤,最终得到4417条PD A记录,具体包含462条piRNA和102种疾病;剩余的42707条pi RNA与疾病的组合对构成未标记样本集合;
步骤2,多视角相似性的计算;
为了从多视角获得piRNA和疾病相关信息,对piRNA和疾病分别选取了三种相似性;piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性;疾病选取的相似性包含语义相似性、症状相似性和高斯核相似性;
步骤3,基于深度自动编码器的可靠负集的构建;
为了建立高性能预测模型,使用基于深度自动编码器的负样本选择模型来构建可靠负集,具体做法为:
首先,A表示m个piRNA与n个疾病之间的关联矩阵,其中每行被用作piRNA特征的表示,而每列数据被看做疾病的特征表示;第i个piRNA与疾病样本被定为xi=[Dd,Pp]∈R(m+n),其中,Dd是疾病的特征表示,Pp是piRNA的特征表示;
使用xi作为输入,训练深度自动编码器学习所有PDA正样本的隐特征,该深度自动编码器模型的损失函数定义如下:
其中,x'i表示对输入xi的重构结果,K表示PDA样本的总数量,m表示piRNA的数量,n表示疾病的数量,xij表示xi.向量的第j个因子;
最后,在已训练好的深度自动编码器上,输入步骤1所得到的42707条未标记样本,得到这些样本的重构误差;按照重建误差分数对样本进行降序排序,并将其分为三个大小几乎相同的聚类;其中第二组未标记样本被认为是出现假阴性机会最小的样本;因此,为了保持可靠负集样本和正集样本的数量平衡,从第二个聚类中随机选择与正集数量相同的样本作为可靠负集;
步骤4,预测模型的构建;
通过改进深度分解机模型作为预测模型,模型包含嵌入模块,分解机模块和多层感知机三个模块,其中分解机模块和多层感知机模块共享来自嵌入模块的输入,最终的输出结果根据分解机模块和多层感知机模块计算得到预测分数;
步骤5,关联关系的判定;
根据步骤4获得的预测分数,概率较大的预测类别作为最终结果,即得到当前piRNA与指定疾病关联关系是否存在的结论。
2.根据权利要求1所述的基于深度分解机的piRNA与疾病关联关系预测方法,其特征在于,步骤2所述的piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性的具体做法如下:
第i个和第j个piRNA的序列局部比对相似性计算如下:
其中,SW(pi,pj)指根据史密斯-沃特曼算法计算的第i个和第j个piRNA的序列比对值;
序列k-mer相似性计算如下:
其中,和/>代表第i个和第j个piRNA的3-mer频率值;
piRNA高斯核相似性计算如下:
PS3(pi,pj)=exp(-λp||A(i,)-A(j,)||2)
其中,A表示m个piRNA与n个疾病之间的关联矩阵,A(i,)表示该矩阵的第i行值,即代表第i个piRNA关于所有疾病的关联向量,参数λp′控制高斯核的宽度;
疾病选取的相似性包含语义相似性、症状相似性和高斯核相似性的具体做法如下:
第i个和第j个疾病的症状相似性是根据论文《Human symptoms–disease network》附件数据获得;
疾病语义相似性利用MeSH疾病数据库信息,基于层次描述符构建了有向无环图,其中节点表示疾病术语,边表示当前节点与其祖先之间的关系,表示第i个疾病的结构,其中,/>表示第i个疾病和其祖先的节点集合,/>表示直接从父节点链接到子节点的边集合,/>表示疾病/>对第i个疾病的语义贡献度计算如下:
其中,Δ是语义贡献衰减因子,设为0.5;
疾病语义相似性计算如下:
疾病高斯核相似性计算方法与piRNA高斯核计算方法相似,公式如下:
DS3(di,dj)=exp(-λd||A(,i)-A(,j)||2)
其中,A仍表示m个piRNA与n个疾病之间的关联矩阵,A(,i)表示该矩阵的第i列值,代表第i个疾病的piRNA关联谱,参数λd′控制高斯核的宽度。
3.根据权利要求2所述的基于深度分解机的piRNA与疾病关联关系预测方法,其特征在于,步骤4所述的深度分解机,主要通过嵌入模块、分解机模块和多层感知机模块三部分组成,最终的输出结果根据分解机模块和多层感知机模块的计算得到,具体计算方式为:
其中,是深度分解机的输出,yFM是分解机模块的输出,yMLP是多层感知机模块的输出;
在嵌入模块中,首先将步骤3中的正集和可靠负集样本中的piRNA和疾病使用独热编码进行表示,作为嵌入模块的输入;
其次,将步骤2获取的6种相似性分别进行拉普拉斯正则化,使用拉普拉斯特征映射结果初始化嵌入层的权重;步骤2描述 分别表示关于第i个和第j个piRNA的序列局部比对相似性、序列k-mer相似性和高斯核相似性,/>和/>表示第i个和第j个piRNA的序列局部比对相似性相关潜向量;关于该相似谱的拉普拉斯正则化处理步骤可视为R1最小优化问题,计算如下:
其中,Dp表示对角矩阵,具体计算方法为 2是2范数的平方,Tr是矩阵的迹,Q1是潜特征矩阵,其第i列为第i个piRNA的潜向量,/>是拉普拉斯矩阵;
第k种piRNA相似性和第t种疾病相似性均可以转化为最小优化问题并计算如下:
其中,和/>表示关于第k种piRNA相似性第i个和第j个piRNA的潜向量,/>和/>表示关于第t种疾病相似性第i个和第j个疾病的潜向量,Qk和Ut是潜特征矩阵,/>和/>是拉普拉斯矩阵;
设整个模型的损失函数为J(Qk,Ut,O),Qk和Qk是piRNA和疾病在嵌入层的潜特征矩阵,O代表剩余参数集合,J表示交叉熵损失函数,损失函数计算如下:
其中,和/>是用于平衡DeepFM损失项和正则化项的正则化参数;
分解机和多层感知器使用标准模块,用于提取特征之间的交互作用,分解机的输出是累加单元和内积单元的累加和,计算如下:
其中,x=[xField_piRNA,xField_disease]表示包含piRNA和疾病独热编码的d维向量,w∈Rd表示关于一阶特征交互的网络参数,Vi,Vj表示原始特征xi和xj的潜向量;
多层感知器是一个前馈网络,用于学习高阶特征交互,使用piRNA和疾病的综合嵌入向量ep和ed作为模型输入,前馈过程和输出计算如下:
x(0)=[ep,ed]
x(l+1)=σ(W(l)x(l)+b(l))
yMLP=σ(W(H)x(H)+b(H))
其中,σ是激活函数,W(l)和b(l)分别表示第l层的权重和偏置,W(H)和b(H)分别表示第H层的权重和偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310662335.9A CN116631512A (zh) | 2023-06-05 | 2023-06-05 | 基于深度分解机的piRNA与疾病关联关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310662335.9A CN116631512A (zh) | 2023-06-05 | 2023-06-05 | 基于深度分解机的piRNA与疾病关联关系预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116631512A true CN116631512A (zh) | 2023-08-22 |
Family
ID=87636572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310662335.9A Pending CN116631512A (zh) | 2023-06-05 | 2023-06-05 | 基于深度分解机的piRNA与疾病关联关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631512A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118658533A (zh) * | 2024-08-16 | 2024-09-17 | 西安理工大学 | 一种基于自监督学习的piRNA与疾病关联关系的识别方法 |
-
2023
- 2023-06-05 CN CN202310662335.9A patent/CN116631512A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118658533A (zh) * | 2024-08-16 | 2024-09-17 | 西安理工大学 | 一种基于自监督学习的piRNA与疾病关联关系的识别方法 |
CN118658533B (zh) * | 2024-08-16 | 2024-11-29 | 西安理工大学 | 一种基于自监督学习的piRNA与疾病关联关系的识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wen et al. | A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network | |
CN113393911B (zh) | 一种基于深度学习的配体化合物快速预筛选方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
WO2024011837A1 (zh) | 药物筛选方法及系统 | |
Peng et al. | TOP: a deep mixture representation learning method for boosting molecular toxicity prediction | |
CN111370073A (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN116680594B (zh) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN116631512A (zh) | 基于深度分解机的piRNA与疾病关联关系预测方法 | |
CN115376704A (zh) | 一种融合多邻域关联信息的药物-疾病相互作用预测方法 | |
CN114944191B (zh) | 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法 | |
CN117476252A (zh) | 一种基于知识图谱的病因病理预测方法 | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN115691817A (zh) | 一种基于融合神经网络的LncRNA-疾病关联预测方法 | |
CN115458046A (zh) | 基于并行式深层细粒度模型预测药物靶标结合性的方法 | |
CN113223655A (zh) | 基于变分自编码器的药物-疾病关联预测方法 | |
CN114822685A (zh) | 基于孪生网络的疾病相关性预测方法 | |
CN114678064A (zh) | 一种基于网络表征学习的药物靶标相互作用预测方法 | |
Kang et al. | KFDAE: CircRNA-Disease associations prediction based on kernel fusion and deep auto-encoder | |
Lu et al. | Combining transformer-based model and GCN to predict ICD codes from clinical records | |
Yan et al. | DNA-binding protein prediction based on deep transfer learning | |
Zhu et al. | Daan: A dictionary-based adaptive attention network for biomedical named entity recognition with chinese electronic medical records | |
Jeipratha et al. | Optimal gene prioritization and disease prediction using knowledge based ontology structure | |
CN116994645B (zh) | 基于交互式推理网络的piRNA与mRNA靶标对的预测方法 | |
CN118506884B (zh) | miRNA-疾病关联关系预测方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |