CN114022693B

CN114022693B - 一种基于双重自监督的单细胞RNA-seq数据聚类方法

Info

Publication number: CN114022693B
Application number: CN202111152906.1A
Authority: CN
Inventors: 王艺杰; 曾荣汉; 杨东; 王文庆; 崔逸群; 邓楠轶; 朱博迪; 介银娟; 董夏昕; 朱召鹏; 崔鑫
Original assignee: Xian Thermal Power Research Institute Co Ltd
Current assignee: Xian Thermal Power Research Institute Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-02-27
Anticipated expiration: 2041-09-29
Also published as: CN114022693A

Abstract

本发明公开了一种基于双重自监督的单细胞RNA‑seq数据聚类方法，本发明首先结合基因本体论知识构建深度神经网络提取单细胞RNA‑seq数据特征，通过零膨胀负二项分布重构单细胞RNA‑seq数据来降低数据噪声；其次利用统一流形近似和投影技术构造图结构并采用图神经网络挖掘数据样本间的拓扑结构信息；接着采用双重自监督策略对图神经网络和深度神经网络进行结合；最后通过最小化深度神经网络、图神经网络和双重自监督三个模块及随机高斯噪声项的联合损失函数实现单细胞RNA‑seq数据聚类。本发明采用无监督领域的自监督方法，能够有效解决现有单细胞RNA‑seq数据聚类方法中缺乏学习数据间拓扑结构信息和生物可解释性差等难题。

Description

一种基于双重自监督的单细胞RNA-seq数据聚类方法

技术领域

本发明属于单细胞RNA-seq数据分析技术领域，具体涉及一种基于双重自监督的单细胞RNA-seq数据聚类方法。

背景技术

针对单细胞RNA-seq数据的聚类方法在细胞异质性等相关研究中有着重要的作用。在聚类问题中，根据细胞的转录图谱可以将细胞分为不同的细胞类型，每种细胞类型都具有与其他细胞不同的表达情况。通过对单细胞RNA-seq数据的聚类方法研究，研究人员可以识别生物体内新的细胞种群、鉴定细胞状态、建立细胞之间的网络、追踪发育谱系、研究生物体内外实验的反应。目前，k-means、层次聚类和具有噪声的基于密度的聚类方法等传统聚类方法已经被广泛使用，但是，单细胞RNA-seq数据具有其独特的特征，这使得传统的聚类方法无法有效地对这些数据进行聚类。

发明内容

为了克服以上技术问题，本发明提供了一种基于双重自监督的单细胞RNA-seq数据聚类方法，将单细胞RNA-seq数据的结构信息整合到神经网络层，通过一种双重自监督策略将传统的深度神经网络和图神经网络整合到同一个模型中，实现模型的整体迭代优化。通过这种方式，从低阶到高阶的多种数据结构自然地与自编码器学习到的多种表示相结合。在构建自编码器的过程中，本发明首先使用统一流形近似和投影技术构建出单细胞核糖核酸测序图结构数据，并使用零膨胀负二项分布来重构样本数据，不仅实现了单细胞RNA-seq数据的降噪，还提升了模型的整体性能，为后续的有效聚类奠定基础，另一方面，本发明通过结合基因本体论和神经网络模型来获得单细胞 RNA-seq数据的低维表示，使用基因本体(GO)中的术语替换神经网络中的神经元，并将完全连接的神经网络转换成部分连接，充分利用生物特性，使得对单细胞RNA-seq数据的聚类分析结果更加准确。

为了实现上述目的，本发明采用的技术方案是：

一种基于双重自监督的单细胞RNA-seq数据聚类方法，包括以下步骤；

1)预训练深度神经网络模块中的自编码器：

选用从ArrayExpress和GEO数据库中下载的5个公开数据集，这5个公开数据集中的基因表达值取自于各种组织细胞，包括 GSE60361、GSE65525、GSE72056、GSE76312和GSE103322，进一步筛选出基因表达量正常的细胞，读取原始的单细胞RNA-seq数据并进行标准化预处理，使用设计的自编码器，输入处理后的单细胞 RNA-seq数据进行训练并得到预训练模型；

2)初始化聚类中心：

在实验的初始化阶段，预训练得到的自编码器可以学习到单细胞 RNA-seq数据的潜在表示，在潜在表示的基础上使用k-means算法来初始化聚类中心，共初始化20次并选择最优解作为初始的聚类中心；

3)随机地初始化第l层的网络参数；

网络参数的初始化对网络的训练非常重要，为了避免出现梯度爆炸和梯度消失的问题，并进一步提高训练速度，加速网络收敛，使用 Xavier初始化方法初始化第l层的网络参数，使信号在所使用神经网络中可以传递得更深；

4)构造图数据结构：

在模型中加入了图神经网络来学习单细胞RNA-seq数据的拓扑结构信息，良好的图数据结构对图神经网络的学习效果有很大促进作用，使用统一流形近似和投影算法来完成上述任务，首先计算每个单细胞 RNA-seq样本数据到其最近邻居的距离，接着计算出距离概率，然后构建出有向加权图的矩阵，并计算出无向图的领接矩阵，构建出原始数据的K近邻图结构数据；

5)迭代全量训练：

在单次训练中，结合基因本体论逐层学习得到单细胞RNA-seq数据在深度神经网络中的表示，并用零膨胀负二项分布来有效地重构单细胞RNA-seq数据，降低数据噪声和维度，得到数据在自编码器最后一层的表示后，进一步计算出样本数据在潜层的数据分布和归一化后的目标分布，使用一个传递算子逐层结合深度神经网络和图神经网络学习到的两种表示，图神经网络的学习不断向前传播，并计算出图神经网络的低维分布，使用目标分布以KL散度的方式监督两种神经网络的学习过程，整合图神经网络、深度神经网络和双重自监督三个模块的损失函数作为本发明的整体损失函数，每次得到的新训练数据重新输入到当前的模型中进行训练，优化模型参数，直到方法模型中总的损失函数收敛则停止迭代；

6)返回最终的聚类结果：

经过网络的有效学习，图卷积网络中学习到的单细胞RNA-seq数据包含有两种不同类型的信息，将图卷积网络学习到的数据分布的软分配值作为最终的聚类结果，发现细胞亚型，为后续的癌症早期发现和治疗提供帮助。

所述步骤1)中对单细胞RNA-seq数据预处理的步骤包括：首先筛选出基因表达量正常的细胞；然后，采用对数标准化方法对数据的测序深度和基因长度进行标准化。

所述步骤1)中的自编码器输入维度和用于训练的单细胞RNA- seq数据的维度一致，共有五层，图神经网络模块中每层的维度和自编码器中的维度一致。

所述步骤4)具体包括：首先，针对每个高维的单细胞RNA-seq 数据点，计算出该数据点到其第一个最近邻居的距离ρ_i；紧接着，根据ρ_i计算出距离概率的方差σ_i；然后，计算出有向加权图中节点之间的权重值，构建出有向加权图的矩阵，进一步计算出有向加权图的有向邻接矩阵；根据有向邻接矩阵并结合哈达玛积运算计算出无向图的邻接矩阵。

所述的某一个数据点到其第一个最近邻居的距离ρ_i， k表示总的聚类数，σ_i通过公式 />可以求出，所述的有向加权图 />图中的节点集V就是所有的单细胞RNA-seq数据，而边集节点之间的权重w使用下式计算 />构建出有向加权图/>的矩阵之后，进一步可以计算出/>的有向邻接矩阵/>而无向图G＝(V,E)的邻接矩阵A通过/>计算得到。

所述步骤5)迭代全量训练具体为：结合基因本体论学习得到深度神经网络的每一层表示；使用编码器的最后一层表示计算出数据分布Q；在数据分布Q的基础上，先进行二次幂计算再依据每个软聚类频率进行归一化计算出目标分布P；针对编码器的每一层输出，使用传递算子ε将深度神经网络和图神经网络的每一层表示进行融合，进一步向前传播从而学习到图神经网络的下一层表示；计算出图神经网络的低维分布Z；将编码器中学习得到的表示继续输入到解码器中来重构原始数据；分别计算出方法中的三个损失函数L_res，L_clu，L_gnn；计算整个网络结构的整体损失函数L；在整个网络框架中使用反向传播算法更新整个网络的参数，直到迭代停止。

所述的深度神经网络中的数据分布Q，对于第i个单细胞核糖核酸测序样本数据和第j个聚类中心数据，使用学生T分布作为一个核来衡量数据表征h_i和聚类中心μ_j的相似性： h_i表示自编码器的第i行数据，预训练自编码器的过程中使用k-means算法初始化得到 μ_j，v是学生T分布的自由度，q_ij表示将第i个样本数据分配给第j个聚类簇的概率，将Q＝[q_ij]看作是所有样本分配的分布。

所述目标分布P起到监督其他两个分布的作用， p_ij＝(q_ij ²/f_j)/(∑_j′q_ij′ ²/f_j′)，f_j＝∑_iq_ij表示软聚类频率，对Q中的每个q_i都先进行二次幂计算再依据每个软聚类频率进行归一化从而得到每个p_i，将P＝[p_ij]看作是所有样本分配的目标分布。

所述编码器中共有L层，并使用l来表示某一层的编号，则通过编码器中第l层学习到的数据表示为：表示每一层的激活函数，W_e ^(l)和b_e ^(l)分别是编码器中第l层学习的权重参数和偏置项，将H⁽⁰⁾定义为原始的数据X。模型的解码器紧跟在编码器的后面，解码器通过若干神经网络层来重构数据， />W_d ^(l)和b_d ^(l)分别是解码器中第l层学习的权重参数和偏置项；

由于自编码器学习得到的表示H^(l-1)能够重构单细胞RNA-seq数据，包含有不同于图神经网络学习得到的表示Z^(l-1)的信息，将Z^(l-1)和 H^(l-1)两种表示结合在一起得到：Z^％(l-1)＝(1-ε)Z^(l-1)+εH^(l-1)，ε是传递算子，将其设置为0.5，将深度神经网络模块中的自编码器和图神经网络模块中的图卷积网络逐层连接起来；

使用作为图卷积网络的第l层的输入来生成Z^(l)， /> 表示邻接矩阵，/>表示度矩阵，自编码器网络中学习到的H^(l-1)通过标准化邻接矩阵向前传播学习，由于自编码器每层学习的信息不同，将自编码器每层学习的信息集成到卷积神经网络中，共运行了L次信息集成过程，图神经网络模块中的最后一层是多分类层：/>最终的结果z_ij∈Z表示第i个样本数据属于第j个聚类中心数据，Z为概率分布；

解码器最后的输出部分是重构数据，近年来针对单细胞RNA-seq 数据的科研进展表明，单细胞RNA-seq数据最接近负二项分布 (Negative Binomial，NB)，公式化表示为因为单细胞RNA-seq数据的离散通常是高度扭曲的，方差往往会大于均值，因此不适合采用泊松分布来近似，而单细胞RNA-seq数据的方差通常会随着均值的改变而改变。单细胞RNA-seq数据除了上面的特点外，还有一个特点就是零值特别多。由于基因表达数据中的零值既可能来自生物过程中不表达的基因(TrueZero)，还可能来自测序过程中由于技术原因导致的丢失(Dropout Zero)。为了更好地捕获单细胞RNA-seq数据，本发明改进了传统的降噪自编码器，在负二项分布(NB)模型的基础上加入一个零膨胀因子，也可以理解为在零点处增加一个脉冲函数，即用零膨胀负二项分布(Zero-Inflated Negative Binomial)来建模单细胞RNA- seq数据。公式化表示为ZINB(X|π,μ,θ)＝πδ₀(X)+(1-π)ΝΒ(X|μ,θ)，在最后一个隐层后面添加三个独立的全连接层，整个自编码器会有三个输出，分别学习零膨胀负二项分布的零膨胀因子、均值和方差。L_res为降低解码器的重构数据和原始数据之间的误差， L_res＝-log(ZINB(X|π,μ,θ))；

通过最小化Q分布和P分布之间的KL散度，目标分布P能帮助深度神经网络模块为聚类任务学习更好的数据表示，使数据更接近聚类中心，通过在聚类分布Q的基础上进行二次方与归一化处理从而获得目标分布P，使得目标分布P的单细胞RNA-seq数据点具有高置信度，实验过程中P又作为Q的监督信息来不断优化网络模型，上述过程可以被看作是一种自监督策略；

图神经网络模块目标函数通过 KL散度的方式来优化网络，不仅使优化过程更加“平和”，避免单细胞RNA-seq数据的表示学习受到比较大的不利影响，还将两种不同的神经网络模型整合到同一个参数迭代更新的框架中，使得聚类分布 Q与图神经网络学习到的分布Z都能被目标分布P所监督，共同提升整个网络的数据表征与聚类性能。

L＝L_res+αL_clu+βL_gnn+γ||B||，α>0是平衡原始数据聚类优化和数据结构重建的超参数，β>0是控制图神经网络模块对嵌入空间干扰的系数， B表示加入神经网络中的随机高斯噪声，γ是用来调节加入神经网络中的随机高斯噪声对模型的影响参数，通过对这个聚类损失函数的优化，凭借端到端的方式更新整个模型。

所述Z分布的软分配值作为最终的聚类结果，由于图卷积网络中学习到的数据包含有两种不同类型的信息，给第i个样本数据设置标签：

本发明的有益效果：

本发明使用自编码器不仅对单细胞RNA-seq数据进行了降维，还有效地学习了数据的表示，使用零膨胀负二项分布重构数据降低了数据噪声对聚类效果的影响，同时，使用图神经网络结合统一流形近似和投影技术学习了数据之间的拓扑结构信息，在构建编码器的过程中，加入了基因本体论等生物先验知识，提高了方法模型的生物可解释性。

附图说明

图1为本发明提供的一种基于双重自监督的单细胞RNA-seq数据聚类方法的总体流程图。

具体实施方式

下面结合实施例对本发明作进一步详细说明。

如图1所示，显示了本发明基于双重自监督策略提升单细胞 RNA-seq数据聚类效果的六大步骤，预训练深度神经网络模块中的自编码器、初始化聚类中心、随机地初始化第l层的网络参数、构造图数据结构、迭代全量训练和返回最终的聚类结果。

本发明提供了一种基于双重自监督的单细胞RNA-seq数据聚类方法，本发明选用从ArrayExpress和GEO数据库中下载的5个公开数据集来验证本发明的有效性，这5个公开数据集中的基因表达值取自于各种组织细胞，包括GSE60361、GSE65525、GSE72056、GSE76312和GSE103322。进一步筛选出基因表达量正常的细胞，并采用对数标准化方法对数据的测序深度和基因长度进行标准化处理。经过标准化处理后的数据作为本发明实施例的初始输入数据。本发明包括以下步骤：

步骤一、首先是预训练自编码器，预训练结束是以能够良好的重建原始单细胞RNA-seq数据为指示。本发明对所有选用数据训练30 次，设置学习率为0.001，设置超参数为α＝0.1，β＝0.01，γ＝0.01。通过这一步的训练与学习，自编码器网络学到的参数可以有效地对原始数据进行降维以及特征提取。潜在的数据表示已经包含可以重建原始数据的信息，通过自编码器的解码部分，就可以将潜在的数据表示还原或重建到原始的数据维度空间内。

步骤二、初始化聚类中心，在实验的初始化阶段，本发明使用k- means算法初始化聚类中心，共初始化20次并选择最优解作为初始的聚类中心。

步骤三、随机地初始化第l层的网络参数。

步骤四、构造图数据结构，构造单细胞RNA-seq数据使用的是统一流形近似和投影技术。具体步骤为：

步骤1，计算某一个数据点到其第一个最近邻居的距离ρ_i，k表示总的聚类数；

步骤2，通过公式求出σ_i；

步骤3，对于有向加权图图中的节点集V就是所有的数据点，而边集节点之间的权重w使用下式计算/>

步骤4，构建出有向加权图的矩阵之后，进一步可以计算出/>的有向邻接矩阵

步骤5，无向图G＝(V,E)的邻接矩阵A通过计算得到。

步骤五、迭代全量训练。具体步骤为：

步骤1，结合基因本体(GO)中的术语学习得到深度神经网络的每一层表示；

步骤2，使用编码器的最后一层表示计算出数据分布Q；

步骤3，在数据分布Q的基础上，先进行二次幂计算再依据每个软聚类频率进行归一化计算出目标分布P；

步骤4，针对编码器的每一层输出，使用传递算子ε将深度神经网络和图神经网络的每一层表示进行融合，进一步向前传播从而学习到图神经网络的下一层表示；

步骤5，计算出图神经网络的低维分布Z；

步骤6，将编码器中学习得到的表示继续输入到解码器中来重构原始数据；

步骤7，分别计算出方法中的三个损失函数L_res，L_clu，L_gnn；计算整个网络结构的整体损失函数L；

步骤8，在整个网络框架中使用反向传播算法更新整个网络的参数，直到迭代停止；

步骤六、返回最终的聚类结果。本发明选择Z分布的软分配值作为最终的聚类结果，由于图卷积网络中学习到的数据包含有两种不同类型的信息，给第i个样本数据设置标签：对于每个数据集，本发明共运行10次实验并取平均值作为最后的结果。得到最终的聚类结果后，本发明使用标准化互信息NMI(Normalized Mutual Information)、调整兰德指数ARI(Adjusted Rand Index)、同质性 Homogeneity和完整性Completeness四种度量方法验证最终的聚类效果，结果显示本发明相比于传统的聚类方法能更好地实现单细胞 RNA-seq数据聚类。

本发明具有以下特点：

1.降低单细胞RNA-seq数据维度高、噪声大对聚类结果的影响；

2.对单细胞RNA-seq数据聚类过程中，能够有效学习数据的表示，具备强大的数据表征能力；

3.既能学习数据自身的特征信息，还可以学习数据间的拓扑结构信息；

4.具有良好的生物可解释性。

自监督学习是无监督学习中一类特定的方法，在自监督学习中，输入到模型中的数据是不带标签的数据，但是通过数据本身的结构或者特性，人为地构造出数据的标签，也被称为“伪标签”，数据有了这样的标签后，接下来就可以进行类似于监督学习的学习机制来训练深度神经网络。

在对单细胞RNA-seq数据进行深度聚类的过程中，除了对高维的单细胞RNA-seq数据进行有效地降维和降噪之外，本发明设计了一种双重自监督策略，将深度神经网络和图神经网络融合到一个统一的框架中，并通过加入生物先验知识和采用统一流形近似和投影技术来提高模型性能。

Claims

1.一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，包括以下步骤；

1)预训练深度神经网络模块中的自编码器：

选用从ArrayExpress和GEO数据库中下载的5个公开数据集，这5个公开数据集中的基因表达值取自于各种组织细胞，包括GSE60361、GSE65525、GSE72056、GSE76312和GSE103322，进一步筛选出基因表达量正常的细胞，读取原始的单细胞RNA-seq数据并进行标准化预处理，使用设计的自编码器，输入处理后的单细胞RNA-seq数据进行训练并得到预训练模型；

2)初始化聚类中心：

在实验的初始化阶段，预训练得到的自编码器可以学习到单细胞RNA-seq数据的潜在表示，在潜在表示的基础上使用k-means算法来初始化聚类中心，共初始化20次并选择最优解作为初始的聚类中心；

3)随机地初始化第l层的网络参数；

使用Xavier初始化方法初始化第l层的网络参数，使信号在所使用神经网络中可以传递得更深；

4)构造图数据结构：

使用统一流形近似和投影算法构建原始数据的K近邻图结构数据，首先计算每个单细胞RNA-seq样本数据到其最近邻居的距离，接着计算出距离概率，然后构建出有向加权图的矩阵，并计算出无向图的领接矩阵，构建出原始数据的K近邻图结构数据；

5)迭代全量训练：

6)返回最终的聚类结果：

2.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，所述步骤1)中对单细胞RNA-seq数据预处理的步骤包括：首先筛选出基因表达量正常的细胞；然后，采用对数标准化方法对数据的测序深度和基因长度进行标准化。

3.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq 数据聚类方法，其特征在于，所述步骤1)中的自编码器输入维度和用于训练的单细胞RNA-seq数据的维度一致，共有五层，图神经网络模块中每层的维度和自编码器中的维度一致。

4.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，所述步骤4)具体包括：首先，针对每个高维的单细胞RNA-seq数据点，计算出该数据点到其第一个最近邻居的距离ρ_i；紧接着，根据ρ_i计算出距离概率的方差σ_i；然后，计算出有向加权图中节点之间的权重值，构建出有向加权图的矩阵，进一步计算出有向加权图的有向邻接矩阵；根据有向邻接矩阵并结合哈达玛积运算计算出无向图的邻接矩阵。

5.根据权利要求4所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，所述的某一个数据点到其第一个最近邻居的距离ρ_i，k表示总的聚类数，σ_i通过公式/>可以求出，所述的有向加权图/>图中的节点集V就是所有的单细胞RNA-seq数据，而边集节点之间的权重w使用下式计算/>构建出有向加权图/>的矩阵之后，进一步可以计算出/>的有向邻接矩阵/>而无向图G＝(V,E)的邻接矩阵A通过/>计算得到。

6.根据权利要求1所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，所述步骤5)迭代全量训练具体为：结合基因本体论学习得到深度神经网络的每一层表示；使用编码器的最后一层表示计算出数据分布Q；在数据分布Q的基础上，先进行二次幂计算再依据每个软聚类频率进行归一化计算出目标分布P；针对编码器的每一层输出，使用传递算子ε将深度神经网络和图神经网络的每一层表示进行融合，进一步向前传播从而学习到图神经网络的下一层表示；计算出图神经网络的低维分布Z；将编码器中学习得到的表示继续输入到解码器中来重构原始数据；分别计算出方法中的三个损失函数L_res，L_clu，L_gnn；计算整个网络结构的整体损失函数L；在整个网络框架中使用反向传播算法更新整个网络的参数，直到迭代停止。

7.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，所述的深度神经网络模块中的数据分布Q，对于第i个单细胞核糖核酸测序样本数据和第j个聚类中心数据，使用学生T分布作为一个核来衡量数据表征h_i和聚类中心μ_j的相似性：h_i表示自编码器的第i行数据，预训练自编码器的过程中使用k-means算法初始化得到μ_j，v是学生T分布的自由度，q_ij表示将第i个样本数据分配给第j个聚类簇的概率，将Q＝[q_ij]看作是所有样本分配的分布。

8.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，所述目标分布P起到监督其他两个分布的作用，p_ij＝(q_ij ²/f_j)/(∑_j′q_ij′ ²/f_j′)，f_j＝∑_iq_ij表示软聚类频率，对Q中的每个q_i都先进行二次幂计算再依据每个软聚类频率进行归一化从而得到每个p_i，将P＝[p_ij]看作是所有样本分配的目标分布。

9.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq 数据聚类方法，其特征在于，所述编码器中共有L层，并使用l来表示某一层的编号，则通过编码器中第l层学习到的数据表示为：表示每一层的激活函数，W_e ^(l)和b_e ^(l)分别是编码器中第l层学习的权重参数和偏置项，将H⁽⁰⁾定义为原始的数据X，模型的解码器紧跟在编码器的后面，解码器通过若干神经网络层来重构数据，/>W_d ^(l)和b_d ^(l)分别是解码器中第l层学习的权重参数和偏置项；

由于自编码器学习得到的表示H^(l-1)能够重构单细胞RNA-seq数据，包含有不同于图神经网络学习得到的表示Z^(l-1)的信息，将Z^(l-1)和H^(l-1)两种表示结合在一起得到：Z^％(l-1)＝(1-ε)Z^(l-1)+εH^(l-1)，ε是传递算子，将其设置为0.5，将深度神经网络模块中的自编码器和图神经网络模块中的图卷积网络逐层连接起来；

使用作为图卷积网络的第l层的输入来生成Z^(l)，/> 表示邻接矩阵，/>表示度矩阵，自编码器网络中学习到的H^(l-1)通过标准化邻接矩阵向前传播学习，由于自编码器每层学习的信息不同，将自编码器每层学习的信息集成到卷积神经网络中，共运行了L次信息集成过程，图神经网络模块中的最后一层是多分类层：/>最终的结果z_ij∈Z表示第i个样本数据属于第j个聚类中心数据，Z为概率分布；

解码器最后的输出部分是重构数据，在负二项分布(NB)模型的基础上加入一个零膨胀因子，在零点处增加一个脉冲函数，即用零膨胀负二项分布(Zero-Inflated NegativeBinomial)来建模单细胞RNA- seq数据，公式化表示为ZINB(X|π,μ,θ)＝πδ₀(X)+(1-π)ΝΒ(X|μ,θ)，在最后一个隐层后面添加三个独立的全连接层，整个自编码器会有三个输出，分别学习零膨胀负二项分布的零膨胀因子、均值和方差，L_res为降低解码器的重构数据和原始数据之间的误差，L_res＝-log(ZINB(X|π,μ,θ))；

通过最小化Q分布和P分布之间的KL散度，目标分布P能帮助深度神经网络模块为聚类任务学习更好的数据表示，通过在聚类分布Q的基础上进行二次方与归一化处理从而获得目标分布P，使得目标分布P的单细胞RNA-seq数据点具有高置信度，实验过程中P又作为Q的监督信息来不断优化网络模型，上述过程可以被看作是一种自监督策略；

图神经网络模块目标函数通过KL散度的方式来优化网络，使得聚类分布Q与图神经网络学习到的分布Z都能被目标分布P所监督，共同提升整个网络的数据表征与聚类性能；

L＝L_res+αL_clu+βL_gnn+γ||B||，α>0是平衡原始数据聚类优化和数据结构重建的超参数，β>0是控制图神经网络模块对嵌入空间干扰的系数，B表示加入神经网络中的随机高斯噪声，γ是用来调节加入神经网络中的随机高斯噪声对模型的影响参数，通过对这个聚类损失函数的优化，凭借端到端的方式更新整个模型。

10.根据权利要求6所述的一种基于双重自监督的单细胞RNA-seq数据聚类方法，其特征在于，所述Z分布的软分配值作为最终的聚类结果，由于图卷积网络中学习到的数据包含有两种不同类型的信息，给第i个样本数据设置标签：