CN116631512A

CN116631512A - 基于深度分解机的piRNA与疾病关联关系预测方法

Info

Publication number: CN116631512A
Application number: CN202310662335.9A
Authority: CN
Inventors: 刘雅君; 李爱民; 谢国; 费蓉; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-08-22

Abstract

本发明公开了基于深度分解机的piRNA与疾病关联关系预测方法，包括以下步骤：步骤1，piRNA与疾病关联关系预测基准数据集的构建；步骤2，多视角相似性的计算；步骤3，基于深度自动编码器的可靠负集的构建；步骤4，预测模型的构建；步骤5，关联关系的判定，对于步骤4获得的预测分数，概率较大的预测类别作为最终结果，即可确定当前piRNA是否与疾病相关；本发明可用于预测piRNA与疾病之间的关联关系中，采用严格条件构建了可靠的数据集，在分类过程使用新颖的基于多角度相似性融合的深度分解机，令后续分类结果更为可靠和可信，降低预测误差。

Description

基于深度分解机的piRNA与疾病关联关系预测方法

技术领域

本发明属于生物医学领域，具体涉及基于深度分解机的piRNA与疾病关联关系预测方法。

背景技术

预测RNA与疾病之间的关联关系是生物医学研究的一个重要领域，主要意义如下：1.早期诊断：识别与特定疾病相关的RNA有助于疾病的早期诊断，可以为患者带来更早的治疗和更好的结果。2.个性化医疗：了解RNA在疾病中的作用有助于开发针对特定RNA的个性化治疗，从而提高治疗效果并减少副作用。3.药物开发：识别与疾病有关的RNA也有助于开发针对这些RNA的新药，从而可以开发更有效和更有针对性的疗法。4.了解疾病：了解RNA在疾病中的作用还可以深入了解疾病的潜在机制，这有助于开发新的诊断和治疗策略。总体而言，预测RNA与疾病之间的关系是改善疾病诊断、治疗和预防的关键步骤。

现有预测疾病与非编码RNA关联研究的计算方法主要聚焦在lncRNA和miRNA，piRNA相关研究于2020年开启。piRNA是2006年发现的一类与Argonaute蛋白PIWI亚家族结合的非编码小RNA。piRNA长度比miRNA略长，大约为24-32个核苷酸，具有5’末端尿苷或第十位腺苷偏好，缺乏清晰的二级结构。近十年内，越来越多的证据表明，PIWI-piRNA复合体失调与多种人类疾病有关，包括不孕症、癌症、心血管疾病、神经系统疾病等复杂疾病。piRNA是预测复杂疾病诊断、治疗和预后效果的潜在生物标志物，促使研究人员探索它们与特定人类疾病的关联关系。

到目前为止，有许多生物实验技术可以用于识别piRNA与疾病的关联关系，例如高通量转录组测序、体内和体外核糖体实验等。然而这类实验需要专业的研究人员，实验试剂及器材等高额成本，耗时费力。

伴随piRNA相关研究的深入和实验数据的积累，piRNA与疾病关联信息专题数据相关的数据库被逐渐建立起来，使得利用生物信息学方法预测piRNA与疾病关联的相关工作得以开展。这类专题数据库包括piRDisease1.0，pirpheno2.0和MNDR3.0。现有基准数据集是基于piRDisease1.0和MNDR3.0构建，疾病数量稀少，数据极不平衡。

现有piRNA相关研究于2020年开启，尽管在现有数据集上取得较好性能，但是基准数据集的规模和质量，模型表征学习能力都有待提升。

发明内容

预测RNA与疾病之间的关系是改善疾病诊断、治疗和预防的关键步骤。新近研究表明piRNA作为一种新型的非编码RNA，与疾病具有密切的关系。预测piRNA与疾病之间的关联关系有助于开发新的治疗策略和疾病生物标志物。目前，piRNA与疾病之间预测研究基准数据集的规模和质量，模型表征学习能力都有待提升。

为克服上述现有研究的不足，本发明的目的是为生物医学领域提供一种基于深度分解机的piRNA与疾病关联关系预测方法，旨在应用深度学习技术更高效且可靠地进行预测研究，令后续分类结果更为可靠和可信，降低预测误差。

为解决上述问题，本发明提出了基于深度分解机的piRNA与疾病关联关系预测方法，包括以下步骤：

步骤1，piRNA与疾病关联关系预测基准数据集的构建；

piRPheno 2.0是一个新的piRNA与疾病关联关系的专题数据库，提供了生物实验验证的PDA数据；通过从piRPheno 2.0数据中去除重复记录、piRNA数据使用piRBase数据库进行比对和疾病信息使用MeSH疾病数据库进行匹配共三个预处理步骤，最终得到4417条PDA记录，具体包含462条piRNA和102种疾病；剩余的42707条piRNA与疾病的组合对构成未标记样本集合；

步骤2，多视角相似性的计算；

为了从多视角获得piRNA和疾病相关信息，对piRNA和疾病分别选取了三种相似性；piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性；疾病选取的相似性包含语义相似性、症状相似性和高斯核相似性；

步骤3，基于深度自动编码器的可靠负集的构建；

为了建立高性能预测模型，使用基于深度自动编码器的负样本选择模型来构建可靠负集，具体做法为：

首先，A表示m个piRNA与n个疾病之间的关联矩阵，其中每行被用作piRNA特征的表示，而每列数据被看做疾病的特征表示；第i个piRNA与疾病样本被定为x_i＝[D_d,P_p]∈R^(m+n)，其中，D_d是疾病的特征表示，P_p是piRNA的特征表示；

使用x_i作为输入，训练深度自动编码器学习所有PDA正样本的隐特征，该深度自动编码器模型的损失函数定义如下：

其中，x'_i表示对输入x_i的重构结果，K表示PDA样本的总数量，m表示piRNA的数量，n表示疾病的数量，x_ij表示x_i·向量的第j个因子；

最后，在已训练好的深度自动编码器上，输入步骤1所得到的42707条未标记样本，得到这些样本的重构误差；按照重建误差分数对样本进行降序排序，并将其分为三个大小几乎相同的聚类；其中第二组未标记样本被认为是出现假阴性机会最小的样本；因此，为了保持可靠负集样本和正集样本的数量平衡，从第二个聚类中随机选择与正集数量相同的样本作为可靠负集；

步骤4，预测模型的构建；

通过改进深度分解机模型作为预测模型，模型包含嵌入模块，分解机模块和多层感知机三个模块，其中分解机模块和多层感知机模块共享来自嵌入模块的输入，最终的输出结果根据分解机模块和多层感知机模块计算得到预测分数；

步骤5，关联关系的判定；

根据步骤4获得的预测分数，概率较大的预测类别作为最终结果，即得到当前piRNA与指定疾病关联关系是否存在的结论。

进一步地，步骤2所述的piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性的具体做法如下：

第i个和第j个piRNA的序列局部比对相似性计算如下：

其中，SW(p_i，p_j)指根据史密斯-沃特曼算法计算的第i个和第j个piRNA的序列比对值；

序列k-mer相似性计算如下：

其中，和/>代表第i个和第j个piRNA的3-mer频率值；

piRNA高斯核相似性计算如下：

PS³(p_i，p_j)＝exp(-λ_p||A(i，)-A(j，)||²

其中，A表示m个piRNA与n个疾病之间的关联矩阵，A(i，)表示该矩阵的第i行值，即代表第i个piRNA关于所有疾病的关联向量，参数λ_p′控制高斯核的宽度；

疾病选取的相似性包含语义相似性、症状相似性和高斯核相似性的具体做法如下：

第i个和第j个疾病的症状相似性是根据论文《Human symptoms–diseasenetwork》附件数据获得；

疾病语义相似性利用MeSH疾病数据库信息，基于层次描述符构建了有向无环图，其中节点表示疾病术语，边表示当前节点与其祖先之间的关系，表示第i个疾病的结构，其中，/>表示第i个疾病和其祖先的节点集合，/>表示直接从父节点链接到子节点的边集合，/>表示疾病/>对第i个疾病的语义贡献度计算如下：

其中，Δ是语义贡献衰减因子，设为0.5；

疾病语义相似性计算如下：

疾病高斯核相似性计算方法与piRNA高斯核计算方法相似，公式如下：

DS³(d_i,d_j)＝exp(-λ_d||A(,i)-A(,j)||²)

其中，A仍表示m个piRNA与n个疾病之间的关联矩阵，A(，i)表示该矩阵的第i列值，代表第i个疾病的piRNA关联谱，参数λ_d′控制高斯核的宽度。

进一步地，步骤4所述的深度分解机，主要通过嵌入模块、分解机模块和多层感知机模块三部分组成，最终的输出结果根据分解机模块和多层感知机模块的计算得到，具体计算方式为：

其中，是深度分解机的输出，y_FM是分解机模块的输出，y_MLP是多层感知机模块的输出；

在嵌入模块中，首先将步骤3中的正集和可靠负集样本中的piRNA和疾病使用独热编码进行表示，作为嵌入模块的输入；

其次，将步骤2获取的6种相似性分别进行拉普拉斯正则化，使用拉普拉斯特征映射结果初始化嵌入层的权重；步骤2描述分别表示关于第i个和第j个piRNA的序列局部比对相似性、序列k-mer相似性和高斯核相似性，/>和/>表示第i个和第j个piRNA的序列局部比对相似性相关潜向量；关于该相似谱的拉普拉斯正则化处理步骤可视为R¹最小优化问题，计算如下：

其中，D^p表示对角矩阵，具体计算方法为||||²是2范数的平方，Tr是矩阵的迹，Q¹是潜特征矩阵，其第i列为第i个piRNA的潜向量，/>是拉普拉斯矩阵；

第k种piRNA相似性和第t种疾病相似性均可以转化为最小优化问题并计算如下：

其中，和/>表示关于第k种piRNA相似性第i个和第j个piRNA的潜向量，/>和表示关于第t种疾病相似性第i个和第j个疾病的潜向量，Q^k和U^t是潜特征矩阵，/>和/>是拉普拉斯矩阵；

设整个模型的损失函数为J(Q^k,U^t,O)，Q^k和Q^k是piRNA和疾病在嵌入层的潜特征矩阵，O代表剩余参数集合，J表示交叉熵损失函数，损失函数计算如下：

其中，和/>是用于平衡DeepFM损失项和正则化项的正则化参数；

分解机和多层感知器使用标准模块，用于提取特征之间的交互作用，分解机的输出是累加单元和内积单元的累加和，计算如下：

其中，x＝[x_{Field_piRNA},x_{Field_disease}]表示包含piRNA和疾病独热编码的d维向量，w∈R^d表示关于一阶特征交互的网络参数，V_i,V_j表示原始特征x_i和x_j的潜向量；

多层感知器是一个前馈网络，用于学习高阶特征交互，使用piRNA和疾病的综合嵌入向量e_p和e_d作为模型输入，前馈过程和输出计算如下：

x⁽⁰⁾＝[e_p,e_d]

x^(l+1)＝σ(W^(l)x^(l)+b^(l))

y_MLP＝σ(W^(H)x^(H)+b^(H))

其中，σ是激活函数，W^(l)和b^(l)分别表示第l层的权重和偏置，W^(H)和b^(H)分别表示第H层的权重和偏置。

与现有技术相比，本发明的有益效果如下：

由于本发明第一次采用了pirpheno2.0数据库作为可靠数据来源，首次构建了基于该数据库的基准数据集，采用了改进的深度分解机模型确保准确地预测piRNA与疾病关联关系，所以具有方案新颖、结果准确的优点。

本发明针对现有piRNA与疾病关联关系预测方法中基准数据集的疾病数量稀少，数据极不平衡的现状，以及模型表征学习能力有待提升等缺陷。

本发明为生物医学领域提供一种新颖的基于深度分解机的piRNA与疾病关联关系预测方法，不仅可以构建了相对平衡的新数据集，而且应用深度学习技术更高效且可靠地进行预测研究，令后续分类结果更为可靠和可信，降低预测误差。

附图说明

图1是本发明基于深度分解机的piRNA与疾病关联关系预测方法的流程图。

图2是本发明的深度分解机网络结构图。

图3是本发明的多角度相似性数据流图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种基于深度分解机的piRNA与疾病关联关系预测方法，该方法包括以下步骤：

步骤1，piRNA与疾病关联关系预测基准数据集的构建；

piRPheno 2.0是一个新的piRNA与疾病关联关系(piRNA-disea seassociations，PDA)的专题数据库，提供了生物实验验证的PDA数据；通过从piRPheno 2.0数据中去除重复记录、piRNA数据使用piRBase数据库进行比对和疾病信息使用MeSH疾病数据库进行匹配共三个预处理步骤，最终得到4417条PDA记录，其中包含462条piRNA和102种疾病；剩余的42707(462*102-4417)条piRNA与疾病的组合对构成未标记样本集合；

步骤2：多视角相似性的计算；

为了从多视角获得piRNA和疾病相关信息，对piRNA和疾病分别选取了三种相似性；piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性；

第i个和第j个piRNA的序列局部比对相似性计算如下：

其中，SW(p_i,p_j)指根据史密斯-沃特曼算法计算的第i个和第j个piRNA的序列比对值；

序列k-mer相似性计算如下：

其中，和/>代表第i个和第j个piRNA的3-mer频率值；

piRNA高斯核相似性计算如下：

PS³(p_i,p_j)＝exp(-λ_p||A(i,)-A(j,)||²) (3)

其中，A表示m个piRNA与n个疾病之间的关联矩阵，A(i，)表示该矩阵的第i行值，即代表第i个piRNA关于所有疾病的关联向量，参数λ′_p控制高斯核的宽度；

第i个和第j个疾病的症状相似性是根据论文《Human symptoms–diseasenetwork》附件数据获得，数据下载地址是https://www.nature.com/articles/ncomms5212；

疾病语义相似性主要利用MeSH疾病数据库信息，基于层次描述符构建了有向无环图，其中节点表示疾病术语，边表示当前节点与其祖先之间的关系，表示第i个疾病的结构，其中，/>表示第i个疾病和其祖先的节点集合，/>表示直接从父节点链接到子节点的边集合，/>表示疾病/>对第i个疾病的语义贡献度计算如下：

其中，Δ是语义贡献衰减因子，设为0.5；

疾病语义相似性计算如下：

DS³(d_i,d_j)＝exp(-λ_p||A(,i)-A(,j)||²) (7)

其中，A仍表示m个piRNA与n个疾病之间的关联矩阵，A(,i)表示该矩阵的第i列值，代表第i个疾病的piRNA关联谱，参数λ_d'控制高斯核的宽度；

步骤3：基于深度自动编码器的可靠负集的构建；

使用x_i作为输入，训练深度自动编码器学习所有PDA正样本的隐特征；该深度自动编码器模型的损失函数定义如下：

步骤4：预测模型的构建；

通过改进深度分解机模型作为预测模型，模型包含嵌入模块，分解机模块和多层感知机三个模块，基本结构如图2所示；其中分解机模块和多层感知机模块共享来自嵌入模块的输入，最终的输出结果根据分解机模块和多层感知机模块计算得到，具体计算方式为：

如图3所示，深度分解机的数据处理流程如下：首先，将步骤3中的正集和可靠负集样本中的piRNA和疾病使用独热编码进行表示，作为嵌入模块的输入；

其次，将步骤2获取的6种相似性分别进行拉普拉斯正则化，使用拉普拉斯特征映射(Laplacian Eigenmaps)结果初始化嵌入层的权重；

其中，如步骤2描述分别表示关于第i个和第j个piRNA的序列局部比对相似性、序列k-mer相似性和高斯核相似性，/>和/>表示第i个和第j个piRNA的序列局部比对相似性相关潜向量；关于该相似相的拉普拉斯正则化可视为R¹最小优化问题，计算如下：

其中，D^p表示对角矩阵，|| ||²是2范数的平方，Tr是矩阵的迹，Q¹是潜特征矩阵，其第i列为第i个piRNA的潜向量，/>是拉普拉斯矩阵；

与此相似，第k种piRNA相似性和第t种疾病相似性均可以转化为最小优化问题并计算如下：

其中，和/>表示关于第k种piRNA相似性第i个和第j个piRNA的潜向量，/>和/>表示关于第t种疾病相似性第i个和第j个疾病的潜向量，Q^k和U^t是潜特征矩阵，/>和/>是拉普拉斯矩阵；

设整个模型的损失函数为J(Q^k,U^t,O)，Q^k和U^t是piRNA和疾病在嵌入层的潜特征矩阵，O代表剩余参数集合，J表示交叉熵损失函数，损失函数计算如下：

应用分解机和多层感知器两个标准模块，用于提取特征之间的交互作用，分解机模块的输出是累加单元和内积单元的累加和，计算如下：

x⁽⁰⁾＝[e_p,e_d] (16)

x^(l+1)＝σ(W^(l)x^(l)+b^(l)) (17)

y_MLP＝σ(W^(H)x^(H)+b^(H)) (18)

其中，σ是激活函数，W^(l)和b^(l)分别表示第l层的权重和偏置，W^(H)和b^(H)分别表示第H层的权重和偏置；

步骤5：关联关系的判定；

对于步骤4获得的预测分数，概率较大的预测类别作为最终结果，即得到当前piRNA与指定疾病关联关系是否存在的结论。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于深度分解机的piRNA与疾病关联关系预测方法，其特征在于，包括以下步骤：

步骤1，piRNA与疾病关联关系预测基准数据集的构建；

piRPheno 2.0是一个新的piRNA与疾病关联关系的专题数据库，提供了生物实验验证的PDA数据；通过从piRPheno 2.0数据中去除重复记录、piRNA数据使用piRBase数据库进行比对和疾病信息使用MeSH疾病数据库进行匹配共三个预处理步骤，最终得到4417条PD A记录，具体包含462条piRNA和102种疾病；剩余的42707条pi RNA与疾病的组合对构成未标记样本集合；

步骤2，多视角相似性的计算；

步骤3，基于深度自动编码器的可靠负集的构建；

其中，x'_i表示对输入x_i的重构结果，K表示PDA样本的总数量，m表示piRNA的数量，n表示疾病的数量，x_ij表示x_i.向量的第j个因子；

步骤4，预测模型的构建；

步骤5，关联关系的判定；

2.根据权利要求1所述的基于深度分解机的piRNA与疾病关联关系预测方法，其特征在于，步骤2所述的piRNA选取的相似性包含序列局部比对相似性、序列k-mer相似性和高斯核相似性的具体做法如下：

第i个和第j个piRNA的序列局部比对相似性计算如下：

序列k-mer相似性计算如下：

其中，和/>代表第i个和第j个piRNA的3-mer频率值；

piRNA高斯核相似性计算如下：

PS³(p_i,p_j)＝exp(-λ_p||A(i,)-A(j,)||²)

第i个和第j个疾病的症状相似性是根据论文《Human symptoms–disease network》附件数据获得；

其中，Δ是语义贡献衰减因子，设为0.5；

疾病语义相似性计算如下：

DS³(d_i,d_j)＝exp(-λ_d||A(,i)-A(,j)||²)

3.根据权利要求2所述的基于深度分解机的piRNA与疾病关联关系预测方法，其特征在于，步骤4所述的深度分解机，主要通过嵌入模块、分解机模块和多层感知机模块三部分组成，最终的输出结果根据分解机模块和多层感知机模块的计算得到，具体计算方式为：

其中，D^p表示对角矩阵，具体计算方法为 ²是2范数的平方，Tr是矩阵的迹，Q¹是潜特征矩阵，其第i列为第i个piRNA的潜向量，/>是拉普拉斯矩阵；

x⁽⁰⁾＝[e_p,e_d]

x^(l+1)＝σ(W^(l)x^(l)+b^(l))

y_MLP＝σ(W^(H)x^(H)+b^(H))