CN114022693B - 一种基于双重自监督的单细胞RNA-seq数据聚类方法 - Google Patents
一种基于双重自监督的单细胞RNA-seq数据聚类方法 Download PDFInfo
- Publication number
- CN114022693B CN114022693B CN202111152906.1A CN202111152906A CN114022693B CN 114022693 B CN114022693 B CN 114022693B CN 202111152906 A CN202111152906 A CN 202111152906A CN 114022693 B CN114022693 B CN 114022693B
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- cell rna
- graph
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003559 RNA-seq method Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims abstract description 76
- 238000009826 distribution Methods 0.000 claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 21
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 14
- 230000009977 dual effect Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005096 rolling process Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000000547 structure data Methods 0.000 claims description 3
- 206010028980 Neoplasm Diseases 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 201000011510 cancer Diseases 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000011423 initialization method Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 229920002477 rna polymer Polymers 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000005065 mining Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011433 logarithmic standardization method Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Biotechnology (AREA)
- Epidemiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于双重自监督的单细胞RNA‑seq数据聚类方法,本发明首先结合基因本体论知识构建深度神经网络提取单细胞RNA‑seq数据特征,通过零膨胀负二项分布重构单细胞RNA‑seq数据来降低数据噪声;其次利用统一流形近似和投影技术构造图结构并采用图神经网络挖掘数据样本间的拓扑结构信息;接着采用双重自监督策略对图神经网络和深度神经网络进行结合;最后通过最小化深度神经网络、图神经网络和双重自监督三个模块及随机高斯噪声项的联合损失函数实现单细胞RNA‑seq数据聚类。本发明采用无监督领域的自监督方法,能够有效解决现有单细胞RNA‑seq数据聚类方法中缺乏学习数据间拓扑结构信息和生物可解释性差等难题。
Description
技术领域
本发明属于单细胞RNA-seq数据分析技术领域,具体涉及一种基 于双重自监督的单细胞RNA-seq数据聚类方法。
背景技术
针对单细胞RNA-seq数据的聚类方法在细胞异质性等相关研究 中有着重要的作用。在聚类问题中,根据细胞的转录图谱可以将细胞 分为不同的细胞类型,每种细胞类型都具有与其他细胞不同的表达情 况。通过对单细胞RNA-seq数据的聚类方法研究,研究人员可以识 别生物体内新的细胞种群、鉴定细胞状态、建立细胞之间的网络、追 踪发育谱系、研究生物体内外实验的反应。目前,k-means、层次聚类 和具有噪声的基于密度的聚类方法等传统聚类方法已经被广泛使用, 但是,单细胞RNA-seq数据具有其独特的特征,这使得传统的聚类 方法无法有效地对这些数据进行聚类。
发明内容
为了克服以上技术问题,本发明提供了一种基于双重自监督的单 细胞RNA-seq数据聚类方法,将单细胞RNA-seq数据的结构信息整 合到神经网络层,通过一种双重自监督策略将传统的深度神经网络和 图神经网络整合到同一个模型中,实现模型的整体迭代优化。通过这 种方式,从低阶到高阶的多种数据结构自然地与自编码器学习到的多 种表示相结合。在构建自编码器的过程中,本发明首先使用统一流形 近似和投影技术构建出单细胞核糖核酸测序图结构数据,并使用零膨 胀负二项分布来重构样本数据,不仅实现了单细胞RNA-seq数据的 降噪,还提升了模型的整体性能,为后续的有效聚类奠定基础,另一 方面,本发明通过结合基因本体论和神经网络模型来获得单细胞 RNA-seq数据的低维表示,使用基因本体(GO)中的术语替换神经 网络中的神经元,并将完全连接的神经网络转换成部分连接,充分利 用生物特性,使得对单细胞RNA-seq数据的聚类分析结果更加准确。
为了实现上述目的,本发明采用的技术方案是:
一种基于双重自监督的单细胞RNA-seq数据聚类方法,包括以下 步骤;
1)预训练深度神经网络模块中的自编码器:
选用从ArrayExpress和GEO数据库中下载的5个公开数据集, 这5个公开数据集中的基因表达值取自于各种组织细胞,包括 GSE60361、GSE65525、GSE72056、GSE76312和GSE103322,进一 步筛选出基因表达量正常的细胞,读取原始的单细胞RNA-seq数据 并进行标准化预处理,使用设计的自编码器,输入处理后的单细胞 RNA-seq数据进行训练并得到预训练模型;
2)初始化聚类中心:
在实验的初始化阶段,预训练得到的自编码器可以学习到单细胞 RNA-seq数据的潜在表示,在潜在表示的基础上使用k-means算法来 初始化聚类中心,共初始化20次并选择最优解作为初始的聚类中心;
3)随机地初始化第l层的网络参数;
网络参数的初始化对网络的训练非常重要,为了避免出现梯度爆 炸和梯度消失的问题,并进一步提高训练速度,加速网络收敛,使用 Xavier初始化方法初始化第l层的网络参数,使信号在所使用神经网 络中可以传递得更深;
4)构造图数据结构:
在模型中加入了图神经网络来学习单细胞RNA-seq数据的拓扑结 构信息,良好的图数据结构对图神经网络的学习效果有很大促进作用, 使用统一流形近似和投影算法来完成上述任务,首先计算每个单细胞 RNA-seq样本数据到其最近邻居的距离,接着计算出距离概率,然后 构建出有向加权图的矩阵,并计算出无向图的领接矩阵,构建出原始 数据的K近邻图结构数据;
5)迭代全量训练:
在单次训练中,结合基因本体论逐层学习得到单细胞RNA-seq数 据在深度神经网络中的表示,并用零膨胀负二项分布来有效地重构单 细胞RNA-seq数据,降低数据噪声和维度,得到数据在自编码器最 后一层的表示后,进一步计算出样本数据在潜层的数据分布和归一化 后的目标分布,使用一个传递算子逐层结合深度神经网络和图神经网 络学习到的两种表示,图神经网络的学习不断向前传播,并计算出图 神经网络的低维分布,使用目标分布以KL散度的方式监督两种神经 网络的学习过程,整合图神经网络、深度神经网络和双重自监督三个 模块的损失函数作为本发明的整体损失函数,每次得到的新训练数据 重新输入到当前的模型中进行训练,优化模型参数,直到方法模型中 总的损失函数收敛则停止迭代;
6)返回最终的聚类结果:
经过网络的有效学习,图卷积网络中学习到的单细胞RNA-seq数 据包含有两种不同类型的信息,将图卷积网络学习到的数据分布的软 分配值作为最终的聚类结果,发现细胞亚型,为后续的癌症早期发现 和治疗提供帮助。
所述步骤1)中对单细胞RNA-seq数据预处理的步骤包括:首先 筛选出基因表达量正常的细胞;然后,采用对数标准化方法对数据的 测序深度和基因长度进行标准化。
所述步骤1)中的自编码器输入维度和用于训练的单细胞RNA- seq数据的维度一致,共有五层,图神经网络模块中每层的维度和自 编码器中的维度一致。
所述步骤4)具体包括:首先,针对每个高维的单细胞RNA-seq 数据点,计算出该数据点到其第一个最近邻居的距离ρi;紧接着,根 据ρi计算出距离概率的方差σi;然后,计算出有向加权图中节点之间 的权重值,构建出有向加权图的矩阵,进一步计算出有向加权图的有 向邻接矩阵;根据有向邻接矩阵并结合哈达玛积运算计算出无向图的 邻接矩阵。
所述的某一个数据点到其第一个最近邻居的距离ρi, k表示总的聚类数,σi通过公式 />可以求出,所述的有向加权图 />图中的节点集V就是所有的单细胞RNA-seq数据,而边 集节点之间的权重w使用下式计算 />构建出有向加权图/>的矩阵 之后,进一步可以计算出/>的有向邻接矩阵/>而无向图G=(V,E)的 邻接矩阵A通过/>计算得到。
所述步骤5)迭代全量训练具体为:结合基因本体论学习得到深 度神经网络的每一层表示;使用编码器的最后一层表示计算出数据分 布Q;在数据分布Q的基础上,先进行二次幂计算再依据每个软聚类 频率进行归一化计算出目标分布P;针对编码器的每一层输出,使用 传递算子ε将深度神经网络和图神经网络的每一层表示进行融合,进 一步向前传播从而学习到图神经网络的下一层表示;计算出图神经网 络的低维分布Z;将编码器中学习得到的表示继续输入到解码器中来 重构原始数据;分别计算出方法中的三个损失函数Lres,Lclu,Lgnn;计 算整个网络结构的整体损失函数L;在整个网络框架中使用反向传播 算法更新整个网络的参数,直到迭代停止。
所述的深度神经网络中的数据分布Q,对于第i个单细胞核糖核 酸测序样本数据和第j个聚类中心数据,使用学生T分布作为一个核 来衡量数据表征hi和聚类中心μj的相似性: hi表示自编码器的 第i行数据,预训练自编码器的过程中使用k-means算法初始化得到 μj,v是学生T分布的自由度,qij表示将第i个样本数据分配给第j个 聚类簇的概率,将Q=[qij]看作是所有样本分配的分布。
所述目标分布P起到监督其他两个分布的作用, pij=(qij 2/fj)/(∑j′qij′ 2/fj′),fj=∑iqij表示软聚类频率,对Q中的每个qi都先进行二次幂计算再依据每个软聚类频率进行归一化从而得到每 个pi,将P=[pij]看作是所有样本分配的目标分布。
所述编码器中共有L层,并使用l来表示某一层的编号,则通过编 码器中第l层学习到的数据表示为: 表示 每一层的激活函数,We (l)和be (l)分别是编码器中第l层学习的权重参数 和偏置项,将H(0)定义为原始的数据X。模型的解码器紧跟在编码器 的后面,解码器通过若干神经网络层来重构数据, />Wd (l)和bd (l)分别是解码器中第l层学习的权重参 数和偏置项;
由于自编码器学习得到的表示H(l-1)能够重构单细胞RNA-seq数 据,包含有不同于图神经网络学习得到的表示Z(l-1)的信息,将Z(l-1)和 H(l-1)两种表示结合在一起得到:Z%(l-1)=(1-ε)Z(l-1)+εH(l-1),ε是传递算 子,将其设置为0.5,将深度神经网络模块中的自编码器和图神经网 络模块中的图卷积网络逐层连接起来;
使用作为图卷积网络的第l层的输入来生成Z(l), /> 表示邻接矩阵,/>表示度矩阵,自编码 器网络中学习到的H(l-1)通过标准化邻接矩阵向前传播学习, 由于自编码器每层学习的信息不同,将自编码器每层学习的信息集成 到卷积神经网络中,共运行了L次信息集成过程,图神经网络模块中 的最后一层是多分类层:/>最终的结果zij∈Z表示第i个样本数据属于第j个聚类中心数据,Z为概率分布;
解码器最后的输出部分是重构数据,近年来针对单细胞RNA-seq 数据的科研进展表明,单细胞RNA-seq数据最接近负二项分布 (Negative Binomial,NB),公式化表示为因为单细胞RNA-seq数据的离散 通常是高度扭曲的,方差往往会大于均值,因此不适合采用泊松分布 来近似,而单细胞RNA-seq数据的方差通常会随着均值的改变而改 变。单细胞RNA-seq数据除了上面的特点外,还有一个特点就是零 值特别多。由于基因表达数据中的零值既可能来自生物过程中不表达 的基因(TrueZero),还可能来自测序过程中由于技术原因导致的丢 失(Dropout Zero)。为了更好地捕获单细胞RNA-seq数据,本发明改 进了传统的降噪自编码器,在负二项分布(NB)模型的基础上加入一 个零膨胀因子,也可以理解为在零点处增加一个脉冲函数,即用零膨 胀负二项分布(Zero-Inflated Negative Binomial)来建模单细胞RNA- seq数据。公式化表示为ZINB(X|π,μ,θ)=πδ0(X)+(1-π)ΝΒ(X|μ,θ),在最 后一个隐层后面添加三个独立的全连接层,整个自编码器会有三个输 出,分别学习零膨胀负二项分布的零膨胀因子、均值和方差。Lres为降 低解码器的重构数据和原始数据之间的误差, Lres=-log(ZINB(X|π,μ,θ));
通过最小化Q分布和P分布之 间的KL散度,目标分布P能帮助深度神经网络模块为聚类任务学习 更好的数据表示,使数据更接近聚类中心,通过在聚类分布Q的基础 上进行二次方与归一化处理从而获得目标分布P,使得目标分布P的 单细胞RNA-seq数据点具有高置信度,实验过程中P又作为Q的监督 信息来不断优化网络模型,上述过程可以被看作是一种自监督策略;
图神经网络模块目标函数通过 KL散度的方式来优化网络,不仅使优化过程更加“平和”,避免单细 胞RNA-seq数据的表示学习受到比较大的不利影响,还将两种不同 的神经网络模型整合到同一个参数迭代更新的框架中,使得聚类分布 Q与图神经网络学习到的分布Z都能被目标分布P所监督,共同提升 整个网络的数据表征与聚类性能。
L=Lres+αLclu+βLgnn+γ||B||,α>0是平衡原始数据聚类优化和数据结 构重建的超参数,β>0是控制图神经网络模块对嵌入空间干扰的系数, B表示加入神经网络中的随机高斯噪声,γ是用来调节加入神经网络 中的随机高斯噪声对模型的影响参数,通过对这个聚类损失函数的优 化,凭借端到端的方式更新整个模型。
所述Z分布的软分配值作为最终的聚类结果,由于图卷积网络中 学习到的数据包含有两种不同类型的信息,给第i个样本数据设置标 签:
本发明的有益效果:
本发明使用自编码器不仅对单细胞RNA-seq数据进行了降维, 还有效地学习了数据的表示,使用零膨胀负二项分布重构数据降低了 数据噪声对聚类效果的影响,同时,使用图神经网络结合统一流形近 似和投影技术学习了数据之间的拓扑结构信息,在构建编码器的过程 中,加入了基因本体论等生物先验知识,提高了方法模型的生物可解 释性。
附图说明
图1为本发明提供的一种基于双重自监督的单细胞RNA-seq数 据聚类方法的总体流程图。
具体实施方式
下面结合实施例对本发明作进一步详细说明。
如图1所示,显示了本发明基于双重自监督策略提升单细胞 RNA-seq数据聚类效果的六大步骤,预训练深度神经网络模块中的自 编码器、初始化聚类中心、随机地初始化第l层的网络参数、构造图 数据结构、迭代全量训练和返回最终的聚类结果。
本发明提供了一种基于双重自监督的单细胞RNA-seq数据聚类 方法,本发明选用从ArrayExpress和GEO数据库中下载的5个公开 数据集来验证本发明的有效性,这5个公开数据集中的基因表达值取 自于各种组织细胞,包括GSE60361、GSE65525、GSE72056、GSE76312和GSE103322。进一步筛选出基因表达量正常的细胞,并 采用对数标准化方法对数据的测序深度和基因长度进行标准化处理。 经过标准化处理后的数据作为本发明实施例的初始输入数据。本发明 包括以下步骤:
步骤一、首先是预训练自编码器,预训练结束是以能够良好的重 建原始单细胞RNA-seq数据为指示。本发明对所有选用数据训练30 次,设置学习率为0.001,设置超参数为α=0.1,β=0.01,γ=0.01。通过 这一步的训练与学习,自编码器网络学到的参数可以有效地对原始数 据进行降维以及特征提取。潜在的数据表示已经包含可以重建原始数 据的信息,通过自编码器的解码部分,就可以将潜在的数据表示还原 或重建到原始的数据维度空间内。
步骤二、初始化聚类中心,在实验的初始化阶段,本发明使用k- means算法初始化聚类中心,共初始化20次并选择最优解作为初始 的聚类中心。
步骤三、随机地初始化第l层的网络参数。
步骤四、构造图数据结构,构造单细胞RNA-seq数据使用的是 统一流形近似和投影技术。具体步骤为:
步骤1,计算某一个数据点到其第一个最近邻居的距离ρi,k表示总的聚类数;
步骤2,通过公式求出σi;
步骤3,对于有向加权图图中的节点集V就是所有的 数据点,而边集节点之间的权重w使用 下式计算/>
步骤4,构建出有向加权图的矩阵之后,进一步可以计算出/>的有向邻接矩阵
步骤5,无向图G=(V,E)的邻接矩阵A通过计算 得到。
步骤五、迭代全量训练。具体步骤为:
步骤1,结合基因本体(GO)中的术语学习得到深度神经网络的 每一层表示;
步骤2,使用编码器的最后一层表示计算出数据分布Q;
步骤3,在数据分布Q的基础上,先进行二次幂计算再依据每个 软聚类频率进行归一化计算出目标分布P;
步骤4,针对编码器的每一层输出,使用传递算子ε将深度神经 网络和图神经网络的每一层表示进行融合,进一步向前传播从而学习 到图神经网络的下一层表示;
步骤5,计算出图神经网络的低维分布Z;
步骤6,将编码器中学习得到的表示继续输入到解码器中来重构 原始数据;
步骤7,分别计算出方法中的三个损失函数Lres,Lclu,Lgnn;计算 整个网络结构的整体损失函数L;
步骤8,在整个网络框架中使用反向传播算法更新整个网络的参 数,直到迭代停止;
步骤六、返回最终的聚类结果。本发明选择Z分布的软分配值作 为最终的聚类结果,由于图卷积网络中学习到的数据包含有两种不同 类型的信息,给第i个样本数据设置标签:对于每个数 据集,本发明共运行10次实验并取平均值作为最后的结果。得到最终的聚类结果后,本发明使用标准化互信息NMI(Normalized Mutual Information)、调整兰德指数ARI(Adjusted Rand Index)、同质性 Homogeneity和完整性Completeness四种度量方法验证最终的聚类效 果,结果显示本发明相比于传统的聚类方法能更好地实现单细胞 RNA-seq数据聚类。
本发明具有以下特点:
1.降低单细胞RNA-seq数据维度高、噪声大对聚类结果的影响;
2.对单细胞RNA-seq数据聚类过程中,能够有效学习数据的表 示,具备强大的数据表征能力;
3.既能学习数据自身的特征信息,还可以学习数据间的拓扑结 构信息;
4.具有良好的生物可解释性。
自监督学习是无监督学习中一类特定的方法,在自监督学习中, 输入到模型中的数据是不带标签的数据,但是通过数据本身的结构或 者特性,人为地构造出数据的标签,也被称为“伪标签”,数据有了 这样的标签后,接下来就可以进行类似于监督学习的学习机制来训练 深度神经网络。
在对单细胞RNA-seq数据进行深度聚类的过程中,除了对高维 的单细胞RNA-seq数据进行有效地降维和降噪之外,本发明设计了 一种双重自监督策略,将深度神经网络和图神经网络融合到一个统一 的框架中,并通过加入生物先验知识和采用统一流形近似和投影技术 来提高模型性能。
Claims (10)
1.一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,包括以下步骤;
1)预训练深度神经网络模块中的自编码器:
选用从ArrayExpress和GEO数据库中下载的5个公开数据集,这5个公开数据集中的基因表达值取自于各种组织细胞,包括GSE60361、GSE65525、GSE72056、GSE76312和GSE103322,进一步筛选出基因表达量正常的细胞,读取原始的单细胞RNA-seq数据并进行标准化预处理,使用设计的自编码器,输入处理后的单细胞RNA-seq数据进行训练并得到预训练模型;
2)初始化聚类中心:
在实验的初始化阶段,预训练得到的自编码器可以学习到单细胞RNA-seq数据的潜在表示,在潜在表示的基础上使用k-means算法来初始化聚类中心,共初始化20次并选择最优解作为初始的聚类中心;
3)随机地初始化第l层的网络参数;
使用Xavier初始化方法初始化第l层的网络参数,使信号在所使用神经网络中可以传递得更深;
4)构造图数据结构:
使用统一流形近似和投影算法构建原始数据的K近邻图结构数据,首先计算每个单细胞RNA-seq样本数据到其最近邻居的距离,接着计算出距离概率,然后构建出有向加权图的矩阵,并计算出无向图的领接矩阵,构建出原始数据的K近邻图结构数据;
5)迭代全量训练:
在单次训练中,结合基因本体论逐层学习得到单细胞RNA-seq数据在深度神经网络中的表示,并用零膨胀负二项分布来有效地重构单细胞RNA-seq数据,降低数据噪声和维度,得到数据在自编码器最后一层的表示后,进一步计算出样本数据在潜层的数据分布和归一化后的目标分布,使用一个传递算子逐层结合深度神经网络和图神经网络学习到的两种表示,图神经网络的学习不断向前传播,并计算出图神经网络的低维分布,使用目标分布以KL散度的方式监督两种神经网络的学习过程,整合图神经网络、深度神经网络和双重自监督三个模块的损失函数作为本发明的整体损失函数,每次得到的新训练数据重新输入到当前的模型中进行训练,优化模型参数,直到方法模型中总的损失函数收敛则停止迭代;
6)返回最终的聚类结果:
经过网络的有效学习,图卷积网络中学习到的单细胞RNA-seq数据包含有两种不同类型的信息,将图卷积网络学习到的数据分布的软分配值作为最终的聚类结果,发现细胞亚型,为后续的癌症早期发现和治疗提供帮助。
2.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,所述步骤1)中对单细胞RNA-seq数据预处理的步骤包括:首先筛选出基因表达量正常的细胞;然后,采用对数标准化方法对数据的测序深度和基因长度进行标准化。
3.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq 数据聚类方法,其特征在于,所述步骤1)中的自编码器输入维度和用于训练的单细胞RNA-seq数据的维度一致,共有五层,图神经网络模块中每层的维度和自编码器中的维度一致。
4.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,所述步骤4)具体包括:首先,针对每个高维的单细胞RNA-seq数据点,计算出该数据点到其第一个最近邻居的距离ρi;紧接着,根据ρi计算出距离概率的方差σi;然后,计算出有向加权图中节点之间的权重值,构建出有向加权图的矩阵,进一步计算出有向加权图的有向邻接矩阵;根据有向邻接矩阵并结合哈达玛积运算计算出无向图的邻接矩阵。
5.根据权利要求4所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,所述的某一个数据点到其第一个最近邻居的距离ρi,k表示总的聚类数,σi通过公式/>可以求出,所述的有向加权图/>图中的节点集V就是所有的单细胞RNA-seq数据,而边集节点之间的权重w使用下式计算/>构建出有向加权图/>的矩阵之后,进一步可以计算出/>的有向邻接矩阵/>而无向图G=(V,E)的邻接矩阵A通过/>计算得到。
6.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,所述步骤5)迭代全量训练具体为:结合基因本体论学习得到深度神经网络的每一层表示;使用编码器的最后一层表示计算出数据分布Q;在数据分布Q的基础上,先进行二次幂计算再依据每个软聚类频率进行归一化计算出目标分布P;针对编码器的每一层输出,使用传递算子ε将深度神经网络和图神经网络的每一层表示进行融合,进一步向前传播从而学习到图神经网络的下一层表示;计算出图神经网络的低维分布Z;将编码器中学习得到的表示继续输入到解码器中来重构原始数据;分别计算出方法中的三个损失函数Lres,Lclu,Lgnn;计算整个网络结构的整体损失函数L;在整个网络框架中使用反向传播算法更新整个网络的参数,直到迭代停止。
7.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,所述的深度神经网络模块中的数据分布Q,对于第i个单细胞核糖核酸测序样本数据和第j个聚类中心数据,使用学生T分布作为一个核来衡量数据表征hi和聚类中心μj的相似性:hi表示自编码器的第i行数据,预训练自编码器的过程中使用k-means算法初始化得到μj,v是学生T分布的自由度,qij表示将第i个样本数据分配给第j个聚类簇的概率,将Q=[qij]看作是所有样本分配的分布。
8.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,所述目标分布P起到监督其他两个分布的作用,pij=(qij 2/fj)/(∑j′qij′ 2/fj′),fj=∑iqij表示软聚类频率,对Q中的每个qi都先进行二次幂计算再依据每个软聚类频率进行归一化从而得到每个pi,将P=[pij]看作是所有样本分配的目标分布。
9.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq 数据聚类方法,其特征在于,所述编码器中共有L层,并使用l来表示某一层的编号,则通过编码器中第l层学习到的数据表示为: 表示每一层的激活函数,We (l)和be (l)分别是编码器中第l层学习的权重参数和偏置项,将H(0)定义为原始的数据X,模型的解码器紧跟在编码器的后面,解码器通过若干神经网络层来重构数据,/>Wd (l)和bd (l)分别是解码器中第l层学习的权重参数和偏置项;
由于自编码器学习得到的表示H(l-1)能够重构单细胞RNA-seq数据,包含有不同于图神经网络学习得到的表示Z(l-1)的信息,将Z(l-1)和H(l-1)两种表示结合在一起得到:Z%(l-1)=(1-ε)Z(l-1)+εH(l-1),ε是传递算子,将其设置为0.5,将深度神经网络模块中的自编码器和图神经网络模块中的图卷积网络逐层连接起来;
使用作为图卷积网络的第l层的输入来生成Z(l),/> 表示邻接矩阵,/>表示度矩阵,自编码器网络中学习到的H(l-1)通过标准化邻接矩阵向前传播学习,由于自编码器每层学习的信息不同,将自编码器每层学习的信息集成到卷积神经网络中,共运行了L次信息集成过程,图神经网络模块中的最后一层是多分类层:/>最终的结果zij∈Z表示第i个样本数据属于第j个聚类中心数据,Z为概率分布;
解码器最后的输出部分是重构数据,在负二项分布(NB)模型的基础上加入一个零膨胀因子,在零点处增加一个脉冲函数,即用零膨胀负二项分布(Zero-Inflated NegativeBinomial)来建模单细胞RNA- seq数据,公式化表示为ZINB(X|π,μ,θ)=πδ0(X)+(1-π)ΝΒ(X|μ,θ),在最后一个隐层后面添加三个独立的全连接层,整个自编码器会有三个输出,分别学习零膨胀负二项分布的零膨胀因子、均值和方差,Lres为降低解码器的重构数据和原始数据之间的误差,Lres=-log(ZINB(X|π,μ,θ));
通过最小化Q分布和P分布之间的KL散度,目标分布P能帮助深度神经网络模块为聚类任务学习更好的数据表示,通过在聚类分布Q的基础上进行二次方与归一化处理从而获得目标分布P,使得目标分布P的单细胞RNA-seq数据点具有高置信度,实验过程中P又作为Q的监督信息来不断优化网络模型,上述过程可以被看作是一种自监督策略;
图神经网络模块目标函数通过KL散度的方式来优化网络,使得聚类分布Q与图神经网络学习到的分布Z都能被目标分布P所监督,共同提升整个网络的数据表征与聚类性能;
L=Lres+αLclu+βLgnn+γ||B||,α>0是平衡原始数据聚类优化和数据结构重建的超参数,β>0是控制图神经网络模块对嵌入空间干扰的系数,B表示加入神经网络中的随机高斯噪声,γ是用来调节加入神经网络中的随机高斯噪声对模型的影响参数,通过对这个聚类损失函数的优化,凭借端到端的方式更新整个模型。
10.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法,其特征在于,所述Z分布的软分配值作为最终的聚类结果,由于图卷积网络中学习到的数据包含有两种不同类型的信息,给第i个样本数据设置标签:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111152906.1A CN114022693B (zh) | 2021-09-29 | 2021-09-29 | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111152906.1A CN114022693B (zh) | 2021-09-29 | 2021-09-29 | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114022693A CN114022693A (zh) | 2022-02-08 |
CN114022693B true CN114022693B (zh) | 2024-02-27 |
Family
ID=80055158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111152906.1A Active CN114022693B (zh) | 2021-09-29 | 2021-09-29 | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022693B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462548B (zh) * | 2022-02-23 | 2023-07-18 | 曲阜师范大学 | 一种提高单细胞深度聚类算法精度的方法 |
CN114819056B (zh) * | 2022-03-16 | 2024-07-26 | 西北工业大学 | 一种基于域对抗和变分推断的单细胞数据整合方法 |
CN114743037B (zh) * | 2022-04-06 | 2024-08-27 | 华南农业大学 | 一种基于多尺度结构学习的深度医学图像聚类方法 |
CN115240772B (zh) * | 2022-08-22 | 2023-08-22 | 南京医科大学 | 一种基于图神经网络的解析单细胞通路活性的方法 |
CN115223657B (zh) * | 2022-09-20 | 2022-12-06 | 吉林农业大学 | 一种药用植物转录调控图谱预测方法 |
CN116452910B (zh) * | 2023-03-28 | 2023-11-28 | 河南科技大学 | 基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法 |
CN116665786A (zh) * | 2023-07-21 | 2023-08-29 | 曲阜师范大学 | 一种基于图卷积神经网络的rna分层嵌入聚类方法 |
CN116844649B (zh) * | 2023-08-31 | 2023-11-21 | 杭州木攸目医疗数据有限公司 | 一种可解释的基于基因选择的细胞数据分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259979A (zh) * | 2020-02-10 | 2020-06-09 | 大连理工大学 | 一种基于标签自适应策略的深度半监督图像聚类方法 |
CN111785329A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2641447C1 (ru) * | 2016-12-27 | 2018-01-17 | Общество с ограниченной ответственностью "ВижнЛабс" | Способ обучения глубоких нейронных сетей на основе распределений попарных мер схожести |
-
2021
- 2021-09-29 CN CN202111152906.1A patent/CN114022693B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259979A (zh) * | 2020-02-10 | 2020-06-09 | 大连理工大学 | 一种基于标签自适应策略的深度半监督图像聚类方法 |
CN111785329A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
Non-Patent Citations (2)
Title |
---|
基于loess回归加权的单细胞RNA-seq数据预处理算法;高美加;;智能计算机与应用;20200501(第05期);全文 * |
基于稀疏自编码深度神经网络的入侵检测方法;任伟;;移动通信;20180815(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114022693A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114022693B (zh) | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN113889192B (zh) | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 | |
CN114360659B (zh) | 一种结合与或树与单步反应规则预测的生物逆合成方法及系统 | |
CN113157957A (zh) | 一种基于图卷积神经网络的属性图文献聚类方法 | |
CN115952424A (zh) | 一种基于多视图结构的图卷积神经网络聚类方法 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN116386729A (zh) | 一种基于图神经网络的scRNA-seq数据降维方法 | |
CN109284662B (zh) | 一种基于迁移学习的水下声音信号分类方法 | |
CN113537365A (zh) | 一种基于信息熵动态赋权的多任务学习自适应平衡方法 | |
CN114037014A (zh) | 基于图自编码器的引用网络聚类方法 | |
Mrabah et al. | Toward Convex Manifolds: A Geometric Perspective for Deep Graph Clustering of Single-cell RNA-seq Data. | |
Örkçü et al. | A hybrid applied optimization algorithm for training multi-layer neural networks in data classification | |
CN111507506A (zh) | 一种基于共识嵌入的复杂网络社区发现方法 | |
Knowles et al. | Message Passing Algorithms for the Dirichlet Diffusion Tree. | |
CN110866838A (zh) | 基于转移概率预处理的网络表示学习算法 | |
Zhang et al. | An optimized dimensionality reduction model for high-dimensional data based on restricted Boltzmann machines | |
Xia et al. | Efficient synthesis of compact deep neural networks | |
CN115661498A (zh) | 一种自优化单细胞聚类方法 | |
Calderhead et al. | Sparse approximate manifolds for differential geometric mcmc | |
CN115796029A (zh) | 基于显式及隐式特征解耦的nl2sql方法 | |
Bai et al. | Clustering single-cell rna sequencing data by deep learning algorithm | |
CN115512765B (zh) | 一种基于量子表示学习的致病circRNA预测方法 | |
CN118643746B (zh) | 集成地质建模和数值模拟代理模型的自动历史拟合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |