CN112735592A

CN112735592A - 肺癌预后模型的构建方法及应用方法、电子设备

Info

Publication number: CN112735592A
Application number: CN202110061920.4A
Authority: CN
Inventors: 张蕾; 张琦; 冯林; 程书钧; 张开泰; 肖汀
Original assignee: Cancer Hospital and Institute of CAMS and PUMC
Current assignee: Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-30
Anticipated expiration: 2041-01-18
Also published as: CN112735592B

Abstract

一种肺癌预后模型的构建方法及应用方法、电子设备及存储介质。该构建方法包括：获取多个肺癌患者和多个参考人的外周血白细胞转录谱表达数据；基于上述转录谱表达数据，筛选候选基因；以及，基于候选基因，构建风险评分模型。肺癌预后模型包括风险评分模型。基于上述转录谱表达数据，筛选候选基因，包括：对上述转录谱表达数据进行相似性分析，确定多个肺癌亚群；将多个肺癌亚群分别与多个参考人进行差异表达基因分析，确定多个肺癌亚群各自的差异表达基因；比较多个肺癌亚群的差异表达基因中的表达状态，选择多个肺癌亚群中有较多的免疫抑制基因处于高表达状态的肺癌亚群作为候选肺癌亚群；以及，从候选肺癌亚群的差异表达基因中筛选候选基因。

Description

肺癌预后模型的构建方法及应用方法、电子设备

技术领域

本公开的实施例涉及一种肺癌预后模型的构建方法及应用方法、电子设备及存储介质。

背景技术

预后是指根据经验预测的疾病发展情况。预后主要涉及到三个方面，将发生什么结果、发生不良结果的可能性以及时间点。研究和评级预后的目的，在于便于了解疾病对人类危害性的大小、探索影响预后的因素、研究改善预后的具体措施。预后分析是临床非常实用、对临床很有指导作用的临床研究。

肺癌(lung cancer，LC)作为一种高度异质性疾病，其预后差、死亡率高，居全球癌症死因之首。目前，肺癌患者的治疗和预后预测主要基于肿瘤淋巴结转移(Tumor-Node-Metastasis，TNM)分期系统。然而，即使临床特征相同的患者之间的生存率也存在很大差异。基于此，已有研究开发出一些分子预后辅助指标以期提高对肺癌预后预测的准确性。然而绝大多数研究以肿瘤组织特征为研究基础，忽视了瘤内异质性及取样偏倚对筛选出的预后标志物的有效性及应用广泛性的限制。因此，需要开发更为可靠的预后生物标志物来指导肺癌辅助治疗。

发明内容

本公开至少一些实施例提供一种肺癌预后模型的构建方法。该构建方法包括：获取多个肺癌患者和多个参考人的外周血白细胞转录谱表达数据；基于所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据，筛选候选基因；以及，基于所述候选基因，构建风险评分模型。所述肺癌预后模型包括所述风险评分模型。基于所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据，筛选所述候选基因，包括：对所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据进行相似性分析，确定多个肺癌亚群；将所述多个肺癌亚群分别与所述多个参考人进行差异表达基因分析，确定所述多个肺癌亚群各自的差异表达基因；比较所述多个肺癌亚群的差异表达基因的表达状态，选择所述多个肺癌亚群中有较多的免疫抑制基因处于高表达状态的肺癌亚群作为候选肺癌亚群，其中，所述高表达状态是指免疫抑制基因的表达值大于所述多个参考人的所述免疫抑制基因的表达值；以及，从所述候选肺癌亚群的差异表达基因中筛选所述候选基因。

例如，在本公开一些实施例提供的构建方法中，基于所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据，筛选所述候选基因，还包括：在确定所述多个肺癌亚群之后，通过血液转录组模块富集分析对所述多个肺癌亚群进行验证。

例如，在本公开一些实施例提供的构建方法中，所述多个肺癌亚群包括两个肺癌亚群。

例如，在本公开一些实施例提供的构建方法中，基于所述候选基因，构建所述风险评分模型，包括：获取训练数据集；在所述训练数据集中，基于所述候选基因，通过单因素Cox回归分析，确定与生存期相关的基因；以及，通过LASSO Cox回归分析结合十折交叉验证法，对所述与生存期相关的基因进行筛选，以确定用于构建所述风险评分模型的基因以及所述风险评分模型，其中，所述风险评分模型表示为：

RS＝c₁E₁+…+c_NE_N，

其中，RS表示风险评分，E_i表示用于构建所述风险评分模型的第i个基因的表达值，c_i表示用于构建所述风险评分模型的第i个基因的系数，N表示用于构建所述风险评分模型的基因的数量。

例如，在本公开一些实施例提供的构建方法中，用于构建所述风险评分模型的基因的数量为10，用于构建所述风险评分模型的基因包括HK3，SLC36A1，MSR1，CEACAM1，CEACAM6，HCG27，FXYD7，TRPLC1，NR3C2和RLN2；所述风险评分模型表示为：

RS＝E_HK3×0.33021614+E_SLC36A1×0.07896976

+E_CEACAM1×0.10972726+E_CEACAM6×0.12027717

+E_MSR1×(-0.40941127)+E_HCG27×(-0.47834666)

+E_FXYD7×(-0.07974512)+E_TRPLC1×(-0.08267232)

+E_NR3C2×(-0.70761344)+E_RLN2×(-0.12672934)，

其中，E_HK3表示基因HK3的表达值，E_SLC36A1表示基因SLC36A1的表达值，E_CEACAM1表示基因CEACAM1的表达值，E_CEACAM6表示基因CEACAM6的表达值，E_MSR1表示基因MSR1的表达值，E_HCG27表示基因HCG27的表达值，E_FXYD7表示基因FXYD7的表达值，E_TRPLC1表示基因TRPLC1的表达值，E_NR3C2表示基因NR3C2的表达值，E_RLN2表示基因RLN2的表达值。

例如，在本公开一些实施例提供的构建方法中，基于所述候选基因，构建所述风险评分模型，还包括：基于所述训练数据集，评估所述风险评分模型的预测性能。

例如，在本公开一些实施例提供的构建方法中，基于所述训练数据集，评估所述风险评分模型的预测性能，包括：基于所述风险评分模型计算所述训练数据集中的每个受试者的风险评分；使用所述训练数据集的时间依赖的受试者工作特征曲线分析评估风险评分模型的拟合优度；依据所述训练数据集的时间依赖的受试者工作特征曲线分析确定分组截断值，并根据所述分组截断值将所述训练数据集中的受试者分为第一高风险组与第一低风险组；以及，使用所述训练数据集的Kaplan-Meier曲线评估所述第一高风险组与所述第一低风险组在生存情况方面是否具有显著差异。

例如，在本公开一些实施例提供的构建方法中，基于所述训练数据集，评估所述风险评分模型的预测性能，还包括：对所述训练数据集进行单因素Cox回归分析和多因素Cox回归分析，以确定所述风险评分是否可以作为一个独立的预后指标。

例如，在本公开一些实施例提供的构建方法中，基于所述候选基因，构建所述风险评分模型，还包括：获取验证数据集；以及，基于所述验证数据集，验证所述风险评分模型的效能。

例如，在本公开一些实施例提供的构建方法中，基于所述验证数据集，验证所述风险评分模型的效能，包括：基于所述风险评分模型计算所述验证数据集中的每个受试者的风险评分；使用所述验证数据集的时间依赖的受试者工作特征曲线分析验证风险评分模型的拟合优度；以及，根据所述分组截断值将所述验证数据集中的受试者分为第二高风险组与第二低风险组，并使用所述验证数据集的Kaplan-Meier曲线验证所述第二高风险组与所述第二低风险组在生存情况方面是否具有显著差异。

例如，本公开一些实施例提供的构建方法，还包括：结合所述风险评分模型的风险评分、病理分期和年龄三个预后指标，利用多因素Cox回归分析构建列线图模型；其中，所述肺癌预后模型还包括所述列线图模型。

例如，在本公开一些实施例提供的构建方法中，结合所述风险评分模型的风险评分、所述病理分期和所述年龄三个预后指标，利用多因素Cox回归分析构建所述列线图模型，还包括：使用一致性指数评估所述列线图模型的预测精度是否优于所述风险评分、所述病理分期、所述年龄三个独立的预后指标的预测精度。

本公开至少一些实施例还提供一种肺癌预后模型的应用方法，其中，所述肺癌预后模型包括根据本公开任一实施例提供的构建方法构建得到的所述风险评分模型，所述应用方法包括：获取受试者的外周血白细胞转录谱表达数据，其中，所述受试者的外周血白细胞转录谱表达数据包括用于构建所述风险评分模型的基因的表达值；以及，基于所述受试者的外周血白细胞转录谱表达数据，根据所述风险评分模型计算所述受试者的风险评分。

本公开至少一些实施例还提供另一种肺癌预后模型的应用方法，其中，所述肺癌预后模型包括根据本公开任一实施例提供的构建方法构建得到的所述列线图模型，所述应用方法包括：获取受试者的年龄、病理分期、外周血白细胞转录谱表达数据，其中，所述受试者的外周血白细胞转录谱表达数据包括用于构建所述风险评分模型的基因的表达值；基于所述受试者的外周血白细胞转录谱表达数据，根据所述风险评分模型计算所述受试者的风险评分；以及，基于所述受试者的年龄、病理分期、风险评分，根据所述列线图模型预测所述受试者的生存率。

本公开至少一些实施例还提供一种电子设备，包括：存储器，用于非暂时性存储计算机可读指令；以及处理器，用于运行所述计算机可读指令，其中，所述计算机可读指令被所述处理器运行时，执行本公开任一实施例提供的构建方法或者执行本公开任一实施例提供的应用方法。

本公开至少一些实施例还提供一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行本公开任一实施例提供的构建方法的指令或者执行本公开任一实施例提供的应用方法的指令。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开一些实施例提供的一种肺癌预后模型的构建方法的流程框图；

图2为本公开一些实施例提供的一种对应于图1中所示的步骤S200的示例性流程框图；

图3A为本公开一些实施例提供的一种t-SNE分析结果的示意图；

图3B为本公开一些实施例提供的一种BTM富集分析结果的示意图；

图3C为本公开一些实施例提供的一种基因表达分析结果的示意图；

图3D为本公开一些实施例提供的一种候选肺癌亚群的差异表达基因的火山图；

图4为本公开一些实施例提供的一种对应于图1中所示的步骤S300的示例性流程框图；

图5为本公开一些实施例提供的一种对应于图4中所示的步骤S340的示例性流程框图；

图6A为本公开一些实施例提供的一种训练数据集的时间依赖的ROC曲线的示意图；

图6B为本公开一些实施例提供的一种基于训练数据集确定分组截断值的示意图；

图6C为本公开一些实施例提供的一种训练数据集的Kaplan-Meier曲线的示意图；

图6D为本公开一些实施例提供的一种基于训练数据集进行单因素Cox回归分析和多因素Cox回归分析的结果示意图；

图7为本公开一些实施例提供的一种对应于图4中所示的步骤S360的示例性流程框图；

图8A为本公开一些实施例提供的一种验证数据集的时间依赖的ROC曲线的示意图；

图8B为本公开一些实施例提供的一种验证数据集的Kaplan-Meier曲线的示意图；

图8C为本公开一些实施例提供的另一种验证数据集的Kaplan-Meier曲线的示意图；

图9为本公开一些实施例提供的另一种肺癌预后模型的构建方法的流程框图；

图10A为本公开一些实施例提供的一种列线图模型的示意图；

图10B为本公开一些实施例提供的一种年龄、病理分期、风险评分和列线图模型的C指数的示意图；

图11为本公开一些实施例提供的一种肺癌预后模型的应用方法的流程框图；

图12为本公开一些实施例提供的另一种肺癌预后模型的应用方法的流程框图；

图13为本公开一些实施例提供的一种电子设备的示意框图；以及

图14为本公开一些实施例提供的一种存储介质的示意框图。

具体实施方式

为了使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获取的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时，该部件在每个附图中由相同或类似的参考标号表示。

血液循环于机体各组织器官并与之时时进行物质交换；同时，血液中的免疫细胞监视着机体的状态，及时对机体病理性改变做出反应。在肿瘤病灶与宿主免疫系统的相互作用的过程中，作为行使免疫功能的基本单位，外周白细胞中的mRNA表达会受到广泛的影响，成为反映宿主免疫状态的窗口。另一方面，外周血取材容易，创伤小，无系统偏倚，是一种非侵入性的体外操作方法。因此，通过检测外周血白细胞基因表达谱变化评估肿瘤进展及患者预后的方法有很好的临床应用前景。目前，关于外周血白细胞基因表达谱的预后价值仍缺乏临床参考，与生存相关的分子表达的预后价值需要进一步研究。

本公开至少一些实施例提供一种肺癌预后模型的构建方法。该构建方法包括：获取多个肺癌患者和多个参考人的外周血白细胞转录谱表达数据；基于该多个肺癌患者和该多个参考人的外周血白细胞转录谱表达数据，筛选候选基因；以及，基于候选基因，构建风险评分模型。其中，肺癌预后模型包括所述风险评分模型，基于该多个肺癌患者和该多个参考人的外周血白细胞转录谱表达数据，筛选候选基因，包括：对该多个肺癌患者和该多个参考人的外周血白细胞转录谱表达数据进行相似性分析，确定多个肺癌亚群；将多个肺癌亚群分别与该多个参考人进行差异表达基因分析，确定多个肺癌亚群各自的差异表达基因；比较多个肺癌亚群的差异表达基因中的表达状态，选择多个肺癌亚群中有较多的免疫抑制基因处于高表达状态的肺癌亚群作为候选肺癌亚群，其中，高表达状态是指免疫抑制基因的表达值大于该多个参考人的免疫抑制基因的表达值；以及，从候选肺癌亚群的差异表达基因中筛选候选基因。

本公开的一些实施例还提供对应于上述构建方法的肺癌预后模型的应用方法、电子设备及存储介质。

本公开的实施例提供的肺癌预后模型的构建方法，利用抗肿瘤免疫状态较差的肺癌亚群筛选候选基因，进而构建风险评分模型，该风险评分模型在肺癌患者预后方面具有良好的预测精度；基于该风险评分模型，还可以进一步构建具有更高的预测精度的列线图模型，该列线图模型可以为肺癌患者的临床预后评估提供一种更为优化的量化方法，从而可以为肺癌患者提供参考以改善肺癌患者预后。

下面结合附图对本公开的一些实施例及其示例进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1为本公开一些实施例提供的一种肺癌预后模型的构建方法的流程框图。例如，该肺癌预后模型的构建方法可以应用于计算设备，该计算设备包括具有计算功能的任何电子设备，例如可以为智能手机、笔记本电脑、平板电脑、台式计算机、服务器、云服务等，本公开的实施例对此不作限制。例如，该计算设备具有中央处理单元(Central ProcessingUnit，CPU)或图形处理单元(Graphics Processing Unit，GPU)，该计算设备还包括存储器。该存储器例如为非易失性存储器(例如只读存储器(Read Only Memory，ROM))，其上存储有操作系统的代码。例如，存储器上还存储有代码或指令，通过运行这些代码或指令，可以实现本公开实施例提供的肺癌预后模型的构建方法。

例如，如图1所示，该构建方法包括以下步骤S100至步骤S300。

步骤S100：获取多个肺癌患者和多个参考人的外周血白细胞转录谱表达数据。

例如，在一些实施例中，可以采集多个肺癌患者和多个参考人的外周血白细胞样品并进行转录组测序，以得到转录谱表达数据。该转录谱表达数据可以录入计算设备。例如，肺癌患者的纳入及排除标准为：(1)经专业临床医生确诊为原发性肺癌(例如，肺腺癌、肺鳞癌、小细胞癌至少之一)；(2)患者采血前未经任何针对肿瘤的治疗；(3)具有完善的临床病理资料和随访信息。例如，参考人的纳入及排除标准为：(1)无肿瘤史(无肺癌史，也无其他肿瘤史)且血常规指标、肿瘤血液标志物指标正常；(2)具有完善的临床信息。应当理解的是，在本公开的实施例中，参考人(也可称为“健康人”)作为肺癌患者的对照组，可以用于确定肺癌患者的差异表达基因。

例如，在一个具体示例中，收集73例肺癌患者(如下表1所示，包括15例肺腺癌患者、43例肺鳞癌患者和15例小细胞癌患者)和69例参考人外周血白细胞样品并进行转录组测序，经数据比对、过滤及标准化后得到标准的转录谱表达数据。表1示出了上述样品的部分临床信息(即临床基本特征)。如表1所示，样品临床信息通常包括年龄、性别、TNM分期等，其中，TNM分期可以通过TNM分期系统得到。

表1.肺癌和健康受试者临床基本特征

步骤S200：基于该多个肺癌患者和该多个参考人的外周血白细胞转录谱表达数据，筛选候选基因。

例如，在一些实施例中，如图2所示，步骤S200可以包括以下步骤S210至步骤S240。

步骤S210：对多个肺癌患者和多个参考人的外周血白细胞转录谱表达数据进行相似性分析，确定多个肺癌亚群。

例如，在一些实施例中，可以采用t分布随机邻域嵌入(t-DistributedStochastic Neighbor Embedding，t-SNE)算法进行步骤S210中的相似性分析。例如，在一些实施例中，通过步骤S210可以确定两个肺癌亚群，本公开包括但不限于此。

例如，对于前述具体示例，可以使用R语言软件的“Rtsne”包分析比较73例肺癌患者和69例参考人外周血白细胞转录谱的相似性。图3A示出了对该具体示例中的肺癌患者和参考人外周血白细胞转录谱进行t-SNE分析的结果。如图3A所示，t-SNE分析显示肺癌患者外周血白细胞转录谱存在异质性分群，即肺癌患者可以聚类为两个肺癌亚群LC1和LC2，而参考人可以聚类为单独一类。

表2示出了两个肺癌亚群LC1和LC2的部分临床信息(即临床特征)。校正P值(adjusted P-value，表示为Padj)用于表征数据之间是否具有显著差异，其中，校正P值越小，数据之间越可能具有显著差异。一般地，当校正P值小于0.05时，认为数据之间具有显著差异。例如，如表2所示，两个肺癌亚群LC1和LC2在“TNM分期”这个指标方面的校正P值为0.004，说明两个肺癌亚群LC1和LC2在“TNM分期”这个指标方面具有显著差异。例如，如表2所示，两个肺癌亚群LC1和LC2在“病理类型”、“性别”、“年龄”、“COPD状态”、“吸烟情况”等指标方面的校正P值均大于0.05，说明两个肺癌亚群LC1和LC2在这些指标方面可能不具有显著差异。

表2.两个肺癌亚群的临床特征

例如，在一些实施例中，还可以通过血液转录组模块(blood transcriptionmodules，BTM)富集分析对多个肺癌亚群进行验证。

例如，对于前述具体示例，可以使用R语言软件的“tmod”包分析两个肺癌亚群LC1和LC2相对于参考人的BTM富集特征，其中，校正P值小于0.05的模块可以被认为是显著富集的模块。图3B示出了两个肺癌亚群LC1和LC2的富集结果比较。如图3B所示，肺癌亚群LC1和肺癌亚群LC2的显著富集的模块具有明显差异。例如，肺癌亚群LC1的NK细胞(参见图3B中的“enriched in NK cells(II)(M61.0)”)，细胞周期(参见图3B中的“cell cycle(III)(M103)”)及DNA修复(参见图3B中的“DNA repair(M76)”)等模块显著富集，而肺癌亚群LC2中髓系细胞相关模块(参见图3B中的“myeloid cell enriched receptors andtransporters(M4.3)”和“enriched in myeloid cells and monocytes(M81)”)等显著富集。由此验证了两个肺癌亚群LC1和LC2为异质性分群，因此，将肺癌患者划分为两个肺癌亚群LC1和LC2是合理且合适的。

步骤S220：将多个肺癌亚群分别与多个参考人进行差异表达基因分析，确定多个肺癌亚群各自的差异表达基因。

例如，在一些实施例中，可以根据多个肺癌亚群与参考人群(即多个参考人)的外周血白细胞转录谱表达数据，计算多个肺癌亚群的基因表达值相对于参考人群的基因表达值的差异倍数(FoldChange，表示为FC)，从而进行差异表达基因分析，并确定多个肺癌亚群各自的差异表达基因。

例如，对于前述具体示例，图3C的基因表达分析结果示出了两个肺癌亚群LC1和LC2相对于参考人群的部分差异表达基因，其中，差异表达基因的表达状态以相对于正常人群的表达值的FC值(具体地，log₂FC)展示。需要说明的是，图3C中主要示出了两个肺癌亚群LC1和LC2相对于参考人群的表达模式具有显著差异的关键免疫相关分子。如图3C所示，两个肺癌亚群的关键免疫调节基因的表达模式之间也存在显著差异。例如，如图3C所示，肺癌亚群LC1中激活免疫状态相关分子(即免疫激活基因，参见图3C中的“分子功能”为“免疫激活”的分子)普遍表达上调(上调即FC值大于1，也即log₂FC值大于0)，而肺癌亚群LC2中抑制抗肿瘤免疫相关分子(即免疫抑制基因，参见图3C中的“分子功能”为“免疫抑制”的分子)表达趋于上调。应当理解的是，在本公开的实施例中，“分子”与“基因”是对应的。

步骤S230：比较多个肺癌亚群的差异表达基因的表达状态，选择多个肺癌亚群中有较多的免疫抑制基因处于高表达状态的肺癌亚群作为候选肺癌亚群，其中，高表达状态是指免疫抑制基因的表达值大于多个参考人的免疫抑制基因的表达值。

例如，对于前述具体示例，根据图3B所示的富集分析结果以及图3C所示的关键免疫相关分子的表达特征可知，肺癌亚群LC2中有较多的免疫抑制基因处于高表达状态，即肺癌亚群LC2的抗肿瘤免疫状态明显受到抑制，因而，可以将肺癌亚群LC2作为候选肺癌亚群，以便于在后续步骤S240中从候选肺癌亚群相对于参考人群转录组差异表达的基因中筛选候选基因。

步骤S240：从候选肺癌亚群的差异表达基因中筛选候选基因。

例如，对于前述具体示例，可以使用R语言软件的“DESeq2”包从候选肺癌亚群的差异表达基因中筛选候选基因。例如，此处的筛选标准可以设置为校正P值小于0.05且差异倍数(FoldChange)绝对值大于1.5。此处的校正P值用于表征候选肺癌亚群的基因表达值与参考人群的基因表达值之间是否具有显著差异。图3D示出了肺癌亚群LC2(即候选肺癌亚群)的差异表达基因。在图3D中，水平虚线对应于校正P值等于0.05的情形，水平虚线上方对应于P值小于0.05的情形，水平虚线下方对应于P值大于0.05的情形；从左往右方向上的第一条竖直虚线(以下简称“第一条竖直虚线”)对应于差异倍数(FoldChange)值等于-1.5的情形，从左往右方向上的第二条竖直虚线(以下简称“第二条竖直虚线”)对应于差异倍数(FoldChange)值等于1.5的情形，第一条竖直虚线左侧对应于差异倍数(FoldChange)值小于-1.5的情形，第二条竖直虚线右侧对应于差异倍数(FoldChange)值大于1.5的情形，第一条竖直虚线和第二条竖直虚线之间对应于差异倍数(FoldChange)值大于-1.5而小于1.5的情形。如图3D所示，水平虚线和第一条竖直虚线分割出的左上角区域(即位于水平线上方、第一条竖直虚线左侧的区域)为“表达下调”区域，水平虚线和第二条竖直虚线分割出的右上角区域(即位于水平线上方、第二条竖直虚线右侧的区域)为“表达上调”区域。例如，可以将位于图3D的“表达上调”区域中的点对应的基因作为候选基因。例如，对于前述具体示例，最终筛选出1838个差异表达基因作为候选基因。

步骤S300：基于候选基因，构建风险评分模型。

例如，肺癌预后模型包括风险评分模型。

例如，在一些实施例中，如图4所示，步骤S300可以包括以下步骤S310至步骤S330。

步骤S310：获取训练数据集(简称“训练集”)。

例如，对于前述具体示例，可以下载GEO数据库中编号为GSE13255的包含108个肺癌外周血单核细胞转录组数据的标准化表达矩阵作为初始数据集。表3示出了初始数据集中的样品的临床信息。例如，可以将该初始数据集随机地平均分为两个子集，其一作为构建风险评分模型的训练数据集(n＝54)，另一个作为验证模型效能的验证数据集(n＝54)。

表3.肺癌患者临床特征(GSE13255)

例如，在一些实施例中，可以采集若干肺癌患者的外周血白细胞样品并进行转录组测序，以得到相应的转录谱表达数据；该转录谱表达数据可以与这些肺癌患者的临床信息一起共同构成训练数据集。需要说明的是，本公开的实施例对训练数据集的获取方式不作限制。

步骤S320：在训练数据集中，基于候选基因，通过单因素Cox回归分析，确定与生存期相关的基因。

例如，对于前述具体示例，可以结合肺癌患者的生存期数据，通过单因素Cox回归分析，从前述1838个候选基因中筛选确定与预后显著相关(即与生存期显著相关)的基因。例如，此处的筛选标准可以设置为校正P值小于0.05(参见下表4)。

步骤S330：通过LASSO-Cox回归分析结合十折交叉验证法，对与生存期相关的基因进行筛选，以确定用于构建风险评分模型的基因以及风险评分模型。

例如，对于前述具体示例，可以使用R语言软件的“glmnet”包进行LASSO-Cox回归分析以对与生存期相关的基因进行筛选，同时，利用十折交叉验证法确定最佳惩罚参数λ，以确定用于构建风险评分模型的基因及其相应系数，从而得到风险评分模型。

例如，一般地，风险评分模型可以表示为：

RS＝c₁E₁+…+c_NE_N，

其中，RS表示风险评分，E_i表示用于构建风险评分模型的第i个基因的表达值，c_i表示用于构建风险评分模型的第i个基因的系数，N表示用于构建风险评分模型的基因的数量。

例如，对于前述具体示例，最终筛选确定的用于构建风险评分模型的基因包括如下表4所示的10个基因：HK3，SLC36A1，MSR1，CEACAM1，CEACAM6，HCG27，FXYD7，TRPLC1，NR3C2和RLN2。表4示出了用于构建风险评分模型的10个基因的相关信息和参数。在表4中，单因素cox回归分析中的HR用于表征相对危险度，其中，HR值大于1表示对应的基因的表达值与风险评分呈正相关关系，从而相应的LASSO系数大于0，HR值小于1表示对应的基因的表达值与风险评分呈负相关关系，从而相应的LASSO系数小于0。另外，在表4中，95％CI表示95％的置信区间(Confidence interval)。

表4.风险评分模型中的十个基因

根据表4可知，对于前述具体示例，其对应的风险评分模型表示为：

RS＝E_HK3×0.33021614+E_SLC36A1×0.07896976

+E_CEACAM1×0.10972726+E_CEACAM6×0.12027717

+E_MSR1×(-0.40941127)+E_HCG27×(-0.47834666)

+E_FXYD7×(-0.07974512)+E_TRPLC1×(-0.08267232)

+E_NR3C2×(-0.70761344)+E_RLN2×(-0.12672934)，

例如，在一些实施例中，如图4所示，步骤S300还可以包括以下步骤S340。

步骤S340：基于训练数据集，评估风险评分模型的预测性能。

例如，在一些实施中，如图5所示，步骤S340可以包括以下步骤S341至步骤S344。

步骤S341：基于风险评分模型计算训练数据集中的每个受试者的风险评分。

例如，对于前述具体示例，可以基于其对应的风险评分模型计算训练数据集中的每个样本(即受试者)的风险评分。

步骤S342：使用训练数据集的时间依赖的ROC曲线(receiver operatingcharacteristic curve，受试者工作特征曲线)分析评估风险评分模型的拟合优度。

例如，对于前述具体示例，可以使用R语言软件的“survivalROC”包基于训练数据集绘制时间依赖的ROC曲线。图6A示出了根据前述具体示例中的训练数据集得到的时间依赖的ROC曲线，具体包括一年、两年、三年、五年的四条ROC曲线(分别对应于图6A中的“365天”、“730天”、“1095天”、“1825天”)。例如，可以使用ROC曲线下面积(area under curve,AUC)这个指标评估风险评分模型的拟合优度，AUC值的取值范围在0.5和1之间。AUC值越接近于1.0，风险评分模型的可靠性越高；AUC值越接近于0.5时，风险评分模型的可靠性越低。如图6A所示，一年、两年、三年和五年的生存率AUC值分别可达0.897、0.853、0.813和0.911，由此说明上述具体示例对应的风险评分模型的可靠性较高，从而具有较高的应用价值。

步骤S343：依据训练数据集的时间依赖的ROC曲线分析确定分组截断值，并根据分组截断值将训练数据集中的受试者分为第一高风险组与第一低风险组。

例如，对于前述具体示例，可以使用R语言软件的“survivalROC”包依据训练数据集的ROC曲线确定最适的分组截断值(cutoff值)。图6B示出了根据前述具体示例的时间依赖的ROC曲线确定的分组截断值。例如，如图5所示，对于前述具体示例，其分组截断值(cutoff值)为-6.1。例如，如图5所示，根据该分组截断值-6.1可以将训练数据集中的受试者分为第一高风险组(n＝29)和第一低风险组(n＝25)，其中，第一高风险组中的受试者的风险评分大于分组截断值-6.1，第一低风险组中的受试者的风险评分小于或等于分组截断值-6.1。

步骤S344：使用训练数据集的Kaplan-Meier曲线评估第一高风险组与第一低风险组在生存情况方面是否具有显著差异。

例如，可以基于训练数据集中的受试者的生存期数据绘制Kaplan-Meier曲线。图6C示出了根据前述具体示例中的训练数据集得到的Kaplan-Meier曲线，具体包括第一高风险组的生存率曲线和第一低风险组的生存率曲线。如图6C所示，第一高风险组的生存率曲线和第一低风险组的生存率曲线存在显著差异，同时表征差异显著性的P值(P<0.0001)远小于0.05也表明二者之间存在显著差异，从而，图6C所示的Kaplan-Meier曲线验证了第一高风险组与第一低风险组在生存情况方面的显著差异。

例如，在一些实施例中，如图5所示，步骤S340还可以包括以下步骤S345。

步骤S345：对训练数据集进行单因素Cox回归分析和多因素Cox回归分析，以确定风险评分是否可以作为一个独立的预后指标。

例如，在一些实施例中，为了确定风险评分的预后价值是否与其他临床特征无关，可以对训练数据集进行单因素Cox回归分析和多因素Cox回归分析。图6D示出了基于前述具体示例中的训练数据集进行单因素Cox回归分析(简称“单因素分析”)和多因素Cox回归分析(简称“多因素分析”)的结果。如图6D所示，在调整了种族、辅助化疗情况、吸烟状况和数量、年龄、性别、病理类型，COPD状态和病理分期(即TNM分期)等因素后，肺癌患者的风险评分仍旧为一个独立的预后指标，其具有最高的中位风险比(hazard ratio，HR＝7.06，95％置信区间(CI)＝3.45-14.44)。由此证实了风险评分用于独立预测肺癌患者生存期的鲁棒性。

例如，在一些实施例中，如图4所示，步骤S300还可以包括以下步骤S350和步骤S360。

步骤S350：获取验证数据集。

例如，对于前述具体示例，其验证数据集的获取方式可以参考前述步骤S310中的相关描述，在此不再重复赘述。

例如，在一些实施例中，可以另行采集若干肺癌患者的外周血白细胞样品并进行转录组测序，以得到相应的转录谱表达数据；该转录谱表达数据可以与这些肺癌患者的临床信息一起共同构成验证数据集。需要说明的是，本公开的实施例对验证数据集的获取方式不作限制。

步骤S360：基于验证数据集，验证风险评分模型的效能。

例如，在一些实施中，如图7所示，步骤S360可以包括以下步骤S361至步骤S364。

步骤S361：基于风险评分模型计算验证数据集中的每个受试者的风险评分。

例如，对于前述具体示例，可以基于其对应的风险评分模型计算验证数据集中的每个样本(即受试者)的风险评分。

步骤S362：使用验证数据集的时间依赖的ROC曲线分析验证风险评分模型的拟合优度。

例如，对于前述具体示例，可以使用R语言软件的“survivalROC”包基于验证数据集绘制时间依赖的ROC曲线。图8A示出了根据前述具体示例中的验证数据集得到的时间依赖的ROC曲线，具体包括一年、两年、三年、五年的四条ROC曲线(分别对应于图8A中的“365天”、“730天”、“1095天”、“1825天”)。如图8A所示，一年、两年、三年和五年的生存率预测AUC值分别可达0.666、0.715、0.785和0.758，由此验证了上述具体示例对应的风险评分模型的可靠性及其应用价值。

步骤S363：根据分组截断值将验证数据集中的受试者分为第二高风险组与第二低风险组，并使用验证数据集的Kaplan-Meier曲线验证第二高风险组与第二低风险组在生存情况方面是否具有显著差异。

例如，对于前述具体示例，可以根据前述步骤S343中确定的分组截断值-6.1，将验证数据集中的受试者分为第二高风险组(n＝20)和第二低风险组(n＝34)，其中，第二高风险组中的受试者的风险评分大于分组截断值-6.1，第二低风险组中的受试者的风险评分小于或等于分组截断值-6.1。

例如，进一步地，可以基于验证数据集中的受试者的生存期数据绘制Kaplan-Meier曲线。图8B示出了根据前述具体示例中的验证数据集得到的Kaplan-Meier曲线，具体包括第二高风险组的生存率曲线和第二低风险组的生存率曲线。如图8B所示，第二高风险组的生存率曲线和第二低风险组的生存率曲线存在显著差异，同时表征差异显著性的P值(P<0.0042)远小于0.05也表明二者之间存在显著差异，从而，图8B所示的Kaplan-Meier曲线验证了第二高风险组与第二低风险组在生存情况方面的显著差异。

例如，进一步地，还可以对验证数据集中的TNM分期为I期(Stage I)的肺癌患者单独进行Kaplan-Meier曲线分析。图8C示出了根据前述具体示例的验证数据集中的I期肺癌患者得到的Kaplan-Meier曲线，具体包括第三高风险组的生存率曲线和第三低风险组的生存率曲线。其中，根据前述步骤S343中确定的分组截断值-6.1，将验证数据集中的I期肺癌患者分为第三高风险组和第三低风险组。如图8C所示，第三高风险组的生存率曲线和第三低风险组的生存率曲线存在显著差异，同时表征差异显著性的P值(P<0.0062)远小于0.05也表明二者之间存在显著差异，从而，图8C所示的Kaplan-Meier曲线验证了第三高风险组与第三低风险组在生存情况方面的显著差异。也就是说，在病理分期相同的肺癌患者中，风险评分模型的预测效果同样良好。

图9为本公开一些实施例提供的另一种肺癌预后模型的构建方法的流程框图。例如，如图9所示，在前述步骤S100至步骤S300的基础上，该肺癌预后模型的构建方法还包括以下步骤S400。

步骤S400：结合风险评分模型的风险评分、病理分期和年龄三个预后指标，利用多因素Cox回归分析构建列线图模型。

例如，肺癌预后模型还包括列线图(Nomogram)模型。例如，参见图6D中的单因素Cox回归分析的结果，除了风险评分对应的P值(<0.001)小于0.05外，病理分期对应的P值(＝0.025)和年龄对应的P值(＝0.002)也小于0.05，说明病理分期和年龄这两个指标也是与预后显著相关的因素。因此，可以结合风险评分、病理分期和年龄三个预后指标，利用多因素Cox回归分析构建列线图模型。列线图模型可根据所有自变量的回归系数设定评分标准，然后给出每个自变量的评分值，从而计算出每个患者的总分。通过函数计算发生概率和预后之间的转换，并且获得每个肺癌患者的预后概率。

图10A示出了根据前述具体示例构建的列线图模型。根据该列线图模型，可以预测肺癌患者的一年、两年、三年、五年生存率。例如，列线图模型的使用方法包括：先将肺癌患者的风险评分、病理分期、年龄对应(垂直对应)的分值求和以得到其总分值，再根据总分值确定对应(垂直对应)的一年、两年、三年、五年生存率。

例如，在一些实施例中，步骤S400可以包括：使用一致性指数(C-index，concordance index，C指数)评估列线图模型的预测精度是否优于风险评分、病理分期、年龄三个独立的预后指标的预测精度。

图10B示出了前述具体示例中的年龄、病理分期、风险评分三个独立的预后指标以及综合性的列线图模型的C指数。如图10B所示，在训练数据集和验证数据集中，风险评分(即风险评分模型)的C-index值均高于年龄或病理分期的C-index值，而列线图模型的C-index值均高于风险评分、年龄或病理分期的这三个独立的预后指标的C-index值。因此，风险评分模型单独而言具有较高的预测精度，而列线图模型具有更高的预测精度。

需要说明的是，本公开的实施例提供的肺癌预后模型的构建方法主要基于一个具体示例进行说明，但该具体示例不应视作对本公开的实施例的限制。

还需要说明的是，在本公开的实施例中，上述构建方法(例如，图1所示的构建方法和图9所示的构建方法)的流程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行。虽然上文描述的构建方法的流程包括特定顺序出现的多个操作，但是应该清楚地了解，多个操作的顺序并不受限制。

本公开的实施例提供的构建方法，利用抗肿瘤免疫状态较差的肺癌亚群筛选候选基因，进而构建风险评分模型，该风险评分模型在肺癌患者预后方面具有良好的预测精度；基于该风险评分模型，还可以进一步构建具有更高的预测精度的列线图模型，该列线图模型可以为肺癌患者的临床预后评估提供一种更为优化的量化方法，从而可以为肺癌患者提供参考以改善肺癌患者预后。

本公开至少一些实施例还提供一种肺癌预后模型的应用方法。例如，该肺癌预后模型包括根据图1所示的构建方法构建得到的风险评分模型。图11为本公开一些实施例提供的一种肺癌预后模型的应用方法的流程框图。例如，如图11所示，该应用方法包括以下步骤S510至步骤S520。

步骤S510：获取受试者的外周血白细胞转录谱表达数据，其中，受试者的外周血白细胞转录谱表达数据包括用于构建风险评分模型的基因的表达值。

例如，在一些实施例中，可以采集受试者(例如，肺癌患者)的外周血白细胞样品并进行转录组测序，以得到转录谱表达数据。该转录谱表达数据可以录入计算设备。

步骤S520：基于受试者的外周血白细胞转录谱表达数据，根据风险评分模型计算受试者的风险评分。

例如，在一些实施例中，可以将受试者的外周血白细胞转录谱表达数据中的用于构建风险评分模型的基因的表达值代入风险评分模型，从而计算得到受试者的风险评分。

例如，在一些实施例中，可以根据受试者的风险评分对受试者进行预后评估。例如，可以根据受试者的风险评分与风险评分模型的分组截断值的相对大小，定性评估受试者是处于“高风险”状态还是处于“低风险”状态。此处，可以参考前述步骤S363中的相关描述，在此不再重复赘述。

本公开至少一些实施例还提供另一种肺癌预后模型的应用方法。例如，该肺癌预后模型包括根据图9所示的构建方法构建得到的列线图模型(当然，也包括中间过程得到的风险评分模型)。图12为本公开一些实施例提供的另一种肺癌预后模型的应用方法的流程框图。例如，如图12所示，该应用方法包括以下步骤S610至步骤S630。

步骤S610：获取受试者的年龄、病理分期、外周血白细胞转录谱表达数据，其中，受试者的外周血白细胞转录谱表达数据包括用于构建所述风险评分模型的基因的表达值。

例如，在一些实施例中，可以收集受试者的年龄信息和病理分期信息，例如，病理分期信息可以通过TNM分期系统得到；还可以采集受试者(例如，肺癌患者)的外周血白细胞样品并进行转录组测序，以得到转录谱表达数据。上述年龄信息、病理分期信息以及转录谱表达数据可以录入计算设备。

步骤S620：基于受试者的外周血白细胞转录谱表达数据，根据风险评分模型计算受试者的风险评分。

步骤S630：基于受试者的年龄、病理分期、风险评分，根据列线图模型预测受试者的生存率。

例如，根据列线图模型预测受试者的生存率可以参考前述步骤S400中“列线图模型的使用方法”的相关描述，在此不再重复赘述。例如，对于前述具体示例，可以根据图10A所示的列线图模型预测受试者的一年、两年、三年、五年生存率。

本公开的实施例提供的应用方法，可以根据前述构建方法构建得到的风险评估模型或列线图模型对受试者(例如，肺癌患者)进行预后评估，其预后评估结果可以为肺癌患者提供参考以改善肺癌患者预后。

本公开至少一些实施例还提供一种电子设备。图13为本公开一些实施例提供的一种电子设备的示意框图。例如，如图13所示，该电子设备100包括一个或多个存储器110和一个或多个处理器120。

例如，存储器110用于非暂时性存储计算机可读指令，处理器120用于运行该计算机可读指令。例如，该计算机可读指令被处理器120运行时，执行本公开任一实施例提供的构建方法或应用方法。

例如，存储器110和处理器120之间可以直接或间接地互相通信。例如，在一些实施例中，如图13所示，该电子设备100还可以包括系统总线130，存储器110和处理器120之间可以通过系统总线130互相通信，例如，处理器120可以通过系统总线130访问存储器110。例如，在另一些实施例中，存储器110和处理器120等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。

例如，处理器120可以控制电子设备中的其它组件以执行期望的功能。处理器120可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上，或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。

例如，存储器110可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。

例如，在存储器110上可以存储一个或多个计算机指令，处理器120可以运行所述计算机指令，以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如受试者的外周血白细胞转录谱表达数据、各种临床信息、风险评分模型、列线图模型以及应用程序使用和/或产生的各种数据等。

例如，存储器110存储的一些计算机指令被处理器120执行时可以执行根据上文所述的构建方法中的一个或多个步骤。例如，存储器110存储的另一些计算机指令被处理器120执行时可以执行根据上文所述的应用方法中的一个或多个步骤。

例如，如图13所示，电子设备100还可以包括允许外部设备与电子设备100进行通信的输入接口140。例如，输入接口140可被用于从外部计算机设备、从用户等处接收指令。电子设备100还可以包括使电子设备100和一个或多个外部设备相互连接的输出接口150。例如，电子设备100可以通过输出接口150输出前述风险评分模型、列线图模型、风险评分、受试者的生存率等。通过输入接口140和输出接口150与电子设备100通信的外部设备可被包括在提供任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与电子设备100交互。相反，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语义、视觉、触摸、手势、以及机器智能等。

另外，电子设备100尽管在图13中被示出为单个系统，但可以理解，电子设备100也可以是分布式系统，还可以布置为云设施(包括公有云或私有云)。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由电子设备100执行的任务。

例如，关于构建方法的具体实现过程和细节的详细说明可以参考前述肺癌预后模型的构建方法的实施例中的相关描述，重复之处在此不再赘述。例如，关于应用方法的具体实现过程和细节的详细说明可以参考前述肺癌预后模型的应用方法的实施例中的相关描述，重复之处在此亦不再赘述。

例如，在一些实施例中，该电子设备100可以包括但不限于智能手机、笔记本电脑、平板电脑、台式计算机、服务器、云服务等。

需要说明的是，本公开的实施例提供的电子设备是示例性的，而非限制性的，根据实际应用需要，该电子设备还可以包括其他常规部件或结构，例如，为实现电子设备的必要功能，本领域技术人员可以根据具体应用场景设置其他的常规部件或结构，本公开的实施例对此不作限制。

本公开的实施例提供的电子设备的技术效果可以参考上述实施例中关于构建方法或应用方法的相应描述，在此不再赘述。

本公开至少一些实施例还提供一种存储介质。图14为本公开至少一些实施例提供的一种存储介质的示意图。例如，如图14所示，该存储介质200非暂时性地存储计算机可读指令201，当非暂时性计算机可读指令201由计算机(包括处理器)执行时，可以执行本公开任一实施例提供的构建方法或应用方法的指令。

例如，在存储介质200上可以存储一个或多个计算机指令。存储介质200上存储的一些计算机指令可以是例如用于实现前述构建方法中的一个或多个步骤的指令。存储介质200上存储的一些计算机指令可以是例如用于实现前述应用方法中的一个或多个步骤的指令。

例如，存储介质200可以包括智能手机的存储部件、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。例如，该存储介质也可以为图13中所示的存储器110，相关描述可以参考前述内容，在此不再赘述。

本公开的实施例提供的存储介质的技术效果可以参考上述实施例中关于构建方法或应用方法的相应描述，在此不再赘述。

对于本公开，有以下几点需要说明：

(1)本公开实施例附图中，只涉及到与本公开实施例有关的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种肺癌预后模型的构建方法，包括：

获取多个肺癌患者和多个参考人的外周血白细胞转录谱表达数据；

基于所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据，筛选候选基因；以及

基于所述候选基因，构建风险评分模型；

其中，所述肺癌预后模型包括所述风险评分模型，

基于所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据，筛选所述候选基因，包括：

对所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据进行相似性分析，确定多个肺癌亚群；

将所述多个肺癌亚群分别与所述多个参考人进行差异表达基因分析，确定所述多个肺癌亚群各自的差异表达基因；

比较所述多个肺癌亚群的差异表达基因的表达状态，选择所述多个肺癌亚群中有较多的免疫抑制基因处于高表达状态的肺癌亚群作为候选肺癌亚群，其中，所述高表达状态是指免疫抑制基因的表达值大于所述多个参考人的所述免疫抑制基因的表达值；以及

从所述候选肺癌亚群的差异表达基因中筛选所述候选基因。

2.根据权利要求1所述的构建方法，其中，基于所述多个肺癌患者和所述多个参考人的外周血白细胞转录谱表达数据，筛选所述候选基因，还包括：

在确定所述多个肺癌亚群之后，通过血液转录组模块富集分析对所述多个肺癌亚群进行验证。

3.根据权利要求1或2所述的构建方法，其中，所述多个肺癌亚群包括两个肺癌亚群。

4.根据权利要求1或2所述的构建方法，其中，基于所述候选基因，构建所述风险评分模型，包括：

获取训练数据集；

在所述训练数据集中，基于所述候选基因，通过单因素Cox回归分析，确定与生存期相关的基因；以及

通过LASSO Cox回归分析结合十折交叉验证法，对所述与生存期相关的基因进行筛选，以确定用于构建所述风险评分模型的基因以及所述风险评分模型，其中，所述风险评分模型表示为：

RS＝c₁E₁+…+c_NE_N，

5.根据权利要求4所述的构建方法，其中，用于构建所述风险评分模型的基因的数量为10，用于构建所述风险评分模型的基因包括HK3，SLC36A1，MSR1，CEACAM1，CEACAM6，HCG27，FXYD7，TRPLC1，NR3C2和RLN2；所述风险评分模型表示为：

RS＝E_HK3×0.33021614+E_SLC36A1×0.07896976

+E_CEACAM1×0.10972726+E_CEACAM6×0.12027717

+E_MSR1×(-0.40941127)+E_HCG27×(-0.47834666)

+E_FXYD7×(-0.07974512)+E_TRPLC1×(-0.08267232)

+E_NR3C2×(-0.70761344)+E_RLN2×(-0.12672934)，

6.根据权利要求4所述的构建方法，其中，基于所述候选基因，构建所述风险评分模型，还包括：

基于所述训练数据集，评估所述风险评分模型的预测性能。

7.根据权利要6所述的构建方法，其中，基于所述训练数据集，评估所述风险评分模型的预测性能，包括：

基于所述风险评分模型计算所述训练数据集中的每个受试者的风险评分；

使用所述训练数据集的时间依赖的受试者工作特征曲线分析评估风险评分模型的拟合优度；

依据所述训练数据集的时间依赖的受试者工作特征曲线分析确定分组截断值，并根据所述分组截断值将所述训练数据集中的受试者分为第一高风险组与第一低风险组；以及

使用所述训练数据集的Kaplan-Meier曲线评估所述第一高风险组与所述第一低风险组在生存情况方面是否具有显著差异。

8.根据权利要7所述的构建方法，其中，基于所述训练数据集，评估所述风险评分模型的预测性能，还包括：

对所述训练数据集进行单因素Cox回归分析和多因素Cox回归分析，以确定所述风险评分是否可以作为一个独立的预后指标。

9.根据权利要求7或8所述的构建方法，其中，基于所述候选基因，构建所述风险评分模型，还包括：

获取验证数据集；以及

基于所述验证数据集，验证所述风险评分模型的效能。

10.根据权利要求9所述的构建方法，其中，基于所述验证数据集，验证所述风险评分模型的效能，包括：

基于所述风险评分模型计算所述验证数据集中的每个受试者的风险评分；

使用所述验证数据集的时间依赖的受试者工作特征曲线分析验证风险评分模型的拟合优度；以及

根据所述分组截断值将所述验证数据集中的受试者分为第二高风险组与第二低风险组，并使用所述验证数据集的Kaplan-Meier曲线验证所述第二高风险组与所述第二低风险组在生存情况方面是否具有显著差异。

11.根据权利要求1或2所述的构建方法，还包括：

结合所述风险评分模型的风险评分、病理分期和年龄三个预后指标，利用多因素Cox回归分析构建列线图模型；

其中，所述肺癌预后模型还包括所述列线图模型。

12.根据权利要求10所述的构建方法，其中，结合所述风险评分模型的风险评分、所述病理分期和所述年龄三个预后指标，利用多因素Cox回归分析构建所述列线图模型，还包括：

使用一致性指数评估所述列线图模型的预测精度是否优于所述风险评分、所述病理分期、所述年龄三个独立的预后指标的预测精度。

13.一种肺癌预后模型的应用方法，其中，所述肺癌预后模型包括根据权利要求1-12任一项所述的构建方法构建得到的所述风险评分模型，所述应用方法包括：

获取受试者的外周血白细胞转录谱表达数据，其中，所述受试者的外周血白细胞转录谱表达数据包括用于构建所述风险评分模型的基因的表达值；以及

基于所述受试者的外周血白细胞转录谱表达数据，根据所述风险评分模型计算所述受试者的风险评分。

14.一种肺癌预后模型的应用方法，其中，所述肺癌预后模型包括根据权利要求11或12所述的构建方法构建得到的所述列线图模型，所述应用方法包括：

获取受试者的年龄、病理分期、外周血白细胞转录谱表达数据，其中，所述受试者的外周血白细胞转录谱表达数据包括用于构建所述风险评分模型的基因的表达值；

基于所述受试者的外周血白细胞转录谱表达数据，根据所述风险评分模型计算所述受试者的风险评分；以及

基于所述受试者的年龄、病理分期、风险评分，根据所述列线图模型预测所述受试者的生存率。

15.一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行根据权利要求1-12任一项所述的构建方法或者执行根据权利要求13或14所述的应用方法。

16.一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行根据权利要求1-12任一项所述的构建方法的指令或者执行根据权利要求13或14所述的应用方法的指令。