发明内容
一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分类 器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一 阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺 癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方 法获得预测肺癌病人预后的基因表达分类器。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中所述第一阶段通过使用肺癌病人的基因表达信息和 临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基 因。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中对所有基因的表达和预后情况的Pearson系数的绝对 值由大到小排序,获得与真实一年内复发高度相关的基因。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中使用LOOCV方法获得最佳的基因类别和数目,从 而构建所述基因表达分类器雏形。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中使用基因表达分类器雏形计算用于验证的肿瘤样本 的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一 致性,验证所述基因表达分类器雏形的效能。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中第一阶段的基因表达分类器雏形包含有基因列表。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中所述第二阶段包括特征排序,所述特征排序基于单 因素的Cox比例风险回归模型所得p值进行。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中所述第二阶段采用KM生存分析计算高风险组和 低风险组之间的时序检验p值,时序检验p值最小的Cox模型所包含的 基因种类和数目就是所构建的基因表达分类器。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法的构建方法,其中验证阶段使用芯片数据集验证所获得的 基因表达分类器。
另一方面,本发明的目的是提供一种预测非小细胞肺癌病人预后的基 因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺腺癌病人预后的 基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺鳞癌病人预后的 基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺腺癌和肺鳞癌病 人预后的基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺癌病人预后的 基因表达分类器及其构建方法,实现对非小细胞肺癌病人的无复发生存 期和总体生存期进行精准预测。
另一方面,本发明的目的是提供一种预测非小细胞肺癌病人预后的 基因表达分类器及其构建方法,将非小细胞肺癌病人分为差预后和预后 良好的两个亚群。
另一方面,本发明的目的是提供一种在多个非小细胞肺癌数据集中预测 非小细胞肺癌病人预后的基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种在多个非小细胞肺癌数据集中预测 非小细胞肺癌病人预后的基因表达分类器及其构建方法,所述多个非小 细胞肺癌数据集选自由TCGA、GSE8894、GSE31210、GSE11969、GSE13213、 GSE14814或GSE37745。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其包括:数据训练阶段和验证阶段。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述训练阶段包括第一阶段和第二阶段。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述第一阶段包括:使用未接受术后放疗的TCGA 肺腺癌病人的基因表达信息和临床信息,使用有监督的机器学习方法建立能 预测肺腺癌病人预后的基因表达分类器雏形。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中有监督的机器学习的方法如下:
分组:对满足条件的非小细胞肺腺癌病人的基因表达数据在分组前进行 标准化处理,然后分别从临床上差预后和预后良好的病人中随机选取第一数 量病人和第二数量作为训练组,剩余病人作为验证组;
挑选与真实预后情况高度相关的基因:初始RNA-seq数据经过初步过 滤,从多个基因中获得在病人中表达量不为0的基因;在训练病人组内,每 个基因的表达量与这些病人的真实预后情况进行Pearson相关分析,并获得 回归系数(Coef),|Coef|≥0.3的基因被挑选出来进行下一步分析;
有监督的分类方法:将挑选出来的基因按照相关系数的绝对值从大到小 进行排序,得到一个排行榜,从排在最前面的两个基因开始,每次从排行榜 再依次添加两个基因建立一个分类器,如此循环,直到排行榜中所有的基因 都被作为报告子用尽,建立基因表达分类器雏形。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中使用LOOCV检查所述基因表达分类器雏形的效能, 步骤如下:
第一步,将一名病人留出,以备后续检验用;
第二步,通过取表达的标准分数的平均值计算在差预后组该分类器中所 涉及的所有基因的表达模式;类似地计算在预后良好组的基因表达模式;接 着,定义一个风险系数(risk-coef),所述风险系数即指该肿瘤内预后良好 组的基因表达模式的相关系数减去差预后组基因表达模式的相关系数;
第三步,计算剩余的训练肿瘤样本以及第一步中留存的肿瘤样本的风险 系数,将这些样本按照风险系数从小到大排序,第一数量肿瘤病人被划分为 高基因组风险组,第二数量病人被划分为低基因组风险,检查每个病人真实 的临床预后情况和预测的基因组风险的一致性;
循环第一到第三步,直到所有训练病人样本都被留出过一次,每次当被 留出的样本的基因组风险和实际的临床预后情况相背离时,错误计数器加1 次;
对于每一个分类器,设置风险系数的门槛值,将病人分为第一数量高风 险和第二数量低风险的病人;同时,计算独立于训练样本的验证样本的风险 系数;通过前面设置的风险系数的门槛值,可判定验证样本的基因组风险的 高低;同样地,也统计验证组病人的基因组风险和实际临床预后出现不一致 的次数;最终发现分别包含排行榜的前80或者前84个基因的分类器预测错 误数目为最低,选择80-基因表达分类器作为雏形。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中运用一种改良版的LOOCV来解决信息遗露 (information leakage)的问题:
第一步,留出一个样本待验证;
第二步,运用剩余样本计算所有基因的表达和预后情况的Pearson系数, 过滤得到|coef|≥0.3的基因;
第三步,运用第二步中过滤得到的基因构建分类器,并据此预测被留出 的那个样本的基因组风险。
第四步,重复第一到第三步,直到所有肿瘤病人都被留出过一次,从而 获得基因表达分类器。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述第二阶段包括:
基于训练的第一阶段获得的80-基因表达分类器,进一步运用机器学习 的方法获得更加简洁的风险评分系统来预测肺癌病人的预后,同样是运用 TCGA的病人数据,但是这次囊括了所有未接受和接受了术后放疗的病人, 在建模过程中,基因被称为特征;
随机分组:将这些样本随机划分为:组1和组2。
特征排序:以组1为训练数据,通过单因素的Cox比例风险回归模型计 算单个特征的回归系数和p值,按照p值从小到大将80个特征重新排序, 排在越前面的特征,Cox回归p值越小,与预后的相关性越大;
特征数目的优化:从排序后的第一个特征开始,从前往后每次加一个特 征,运用多因素的Cox回归分析获得各个特征的Cox回归系数;运用组2 病人进行交叉验证,评估此Cox模型的好坏:将组2中每个病人的相关特征 的表达值与多因素Cox回归系数相乘并累加得到一个分数值,分数值高低表 示病人死亡或者复发风险的高低;接着采用KM生存分析计算组2的高风险 和低风险亚组之间的时序检验p值;如此循环,直到所有的特征都被纳入Cox回归模型;时序检验p值最小的Cox模型所包含的特征种类和数目就是 最优的,获得基因表达分类器。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述验证阶段包括:
使用GEO数据库内符合条件的非小细胞肺癌的芯片数据集验证以上所 获得基因表达分类器;在一个独立的数据集中,那些分数值高于群体分数值 中位数的病人被划为高风险组,而其余为低风险组;KM分析用来比较高风 险组和低风险组的生存曲线;时序检验p值<0.05表示有统计学差异。
在另一实施方式中,本发明提供一种19-基因表达分类器。
在另一实施方式中,本发明提供一种19-基因表达分类器,其中19基 因表达分类器的基因选自由GALNT2、C17orf50、STC2、C8orf46、 ZNF441、ZNF563、ZNF763、TMEM63C、ZNF442、C9orf135、ACTN1、 C4orf12、CSF2、ZNF879、NAGS、C15orf63、ZNF799、C6orf176、C14orf129 组成的组。
另一方面,本发明提供一种基因表达分类器,其能作为一种有效的 诊断手段将肺癌病人中有较高风险发展成差预后的亚群分离出来。
另一方面,本发明提供一种基因表达分类器,其能作为一种有效的 诊断手段将非小细胞肺癌病人中有较高风险发展成差预后的亚群分离出 来。
有益效果
本发明运用有监的机器学习的方法建立了一种基因表达分类器来精 准预测肺癌预后。该基因表达分类器具有以下几种明显的优点:
既能预测肺腺癌又能预测肺鳞癌的预后。虽然第一阶段的80-基因 表达分类器雏形是用来预测肺腺癌病人的复发风险的,然而最终版本的 基因表达分类器却能同时预测肺腺癌和肺鳞癌(lung squamous cell carcinoma,SCC)病人的总体生存期和无复发生存期,这证明该基因表 达分类器的功能多样性。
预测功效非常强。我们在分类器的验证阶段用的是基因芯片表达数 据集,这些芯片来自于不同的版本,包括GPL570、GPL7015、GPL6480 以及GPL96。这些芯片平台中,并不是都能找到相应的探针来分别对应 分类器中的19个基因。在GPL570、GPL7015、GPL6480以及GPL96中, 19个基因中分别仅有17、9、12和6个基因可以找到相应的探针。因此 在利用这些平台的基因芯片数据集进行验证时,我们只能提取17、9、12 或6基因的表达值进行加权相加。出乎意料的是,这些所谓的“不完整 的分类器”依然表现出非常强的预测功效。
可作为独立的非小细胞肺癌预后(总体生存期和无复发生存期)强 诊断因子。我们的基因表达分类器的预后预测效能显著优于包括年龄、 吸烟历史、基因突变、基因拷贝数变异等在内的临床诊断因子。另外, 我们的基因表达分类器在不同的GSE数据集中的预测效能都显著优于一 个已经发表的16-基因分类器,由此可见该基因表达分类器的优越性。
具体实施方式
本发明将会参照下面的实施例进行阐述,但本发明将不限于下面的 实施例。
1.研究材料和手段
TCGA和GEO数据集
TCGA的非小细胞肺癌病人RNA-seq转录组数据及其临床信息从 TCGA RNA-seq数据库中获得(https://cancergenome.nih.gov/)(表1)。 而非小细胞肺癌病人的芯片表达数据及其临床信息从高通量基因表达(Gene Expression Ominibus,GEO)数据库中获得(https://www.ncbi.nlm.nih.gov/geo/) (表1)。
表1:研究中使用的数据集
备注:ADC:肺腺癌;SCC:肺鳞癌;RFS:无复发生存期;OS:总体生存期
基因表达分类器的开发流程
整个开发流程包括数据训练和验证两大阶段。
训练阶段
1.第一阶段
未接受术后放疗的TCGA肺腺癌病人的基因表达信息和临床信息被用 来建立能预测肺腺癌病人预后的80-基因的分类器雏形。该有监督的机器学 习的方法如下:
分组
满足条件的非小细胞肺癌肺腺癌病人共57位,其中39位病人在术后一 年之内发生了复发事件而被标记为临床上差预后的病人,而18位病人在术 后至少大于一年的期间内未发生复发事件,被标记为临床上预后良好的病 人。这些病人的基因表达数据在分组前进行标准化处理(Z-评分)。我们分 别从临床上差预后和预后良好的病人中随机选取了15和29名作为训练组。 剩余的13例病人作为验证组。
挑选与真实预后情况高度相关的基因
初始RNA-seq数据经过初步过滤,从共20530个基因中获得19574个 基因在病人中表达量不为0。在训练病人组内,每个基因的表达量与这些 病人的真实预后情况进行Pearson相关分析,并获得回归系数(Coef),|Coef| ≥0.3的基因(共1470个基因)被挑选出来进行下一步分析。为了排除获得 的回归系数分布是随机概率产生的,我们运用一种排列(permutation)方法 产生了10,000个Monte-Carlo模拟试验,从而对训练组的44个病人的基因 表达数据和预后分组信息进行随机化处理。在10,000个Monte-Carlo试验中, |Coef|≥0.3的基因数目的试验的频数分布见图1B。获得|Coef|≥0.3的基因 数目≥1470的概率为0.047(p<0.05),据此可拒绝零假设。
有监督的分类方法
很显然,1470个基因对于分类器来说数目太过庞大,基因数目需要优 化。将这1470个基因按照相关系数的绝对值从大到小进行排序,得到一个 排行榜(top list)。从排在最前面的两个基因开始,每次从排行榜再依次添 加两个基因建立一个分类器,如此循环,直到排行榜中所有的1470个基因 都被作为报告子(reporters)用尽,因此总共建立了735个分类器。
一种称为LOOCV(leave-one-out cross-validation)的方法被用来检查这 些分类器的效能,步骤如下:
第一步,将一名病人留出,以备后续检验用。
第二步,计算在差预后组该分类器中所涉及的所有基因的表达模式(poor-prognosis expression template)(取表达z-评分的平均值);类似地 计算在预后良好组的基因表达模式(good-prognosis expression template)。 接着,定义一个风险系数(risk-coef)。对于一个肿瘤来说,风险系数即指 该肿瘤内预后良好组的基因表达模式的pearson相关系数减去差预后组基因 表达模式的pearson相关系数:
风险系数=预后良好组的基因表达模式的pearson相关系数-差预后组基 因表达模式的pearson相关系数
第三步,计算剩余的43个训练肿瘤样本以及第一步中留存的肿瘤样本 的风险系数。将这44个样本按照风险系数从小到大排序,前面15个肿瘤病 人被划分为高基因组风险(high genomic risk)组,而剩余的29个病人被划 分为低基因组风险(low genomic risk)组。检查每个病人真实的临床预后情 况和预测的基因组风险的一致性。
循环第一到第三步,直到所有的44个训练病人样本都被留出过一次。 每次当被留出的样本的基因组风险和实际的临床预后情况相背离时,错误计 数器加1次。
最好的分类器在LOOCV过程中,错误计数器收集的预测错误次数应该 最少。当我们的基因表达分类器包含排行榜的前22、30、34、36、38、40、 42、44、46、48、50、80、84或86个基因时,LOOCV过程中的预测错误 为0。还需要进一步判断这14个分类器中哪一个最好。对于每一个分类器, 我们设置风险系数的门槛值,将44个病人分为15个高风险和29个低风险的病人。同时,我们计算独立于训练样本的13个验证样本的风险系数。通 过前面设置的风险系数的门槛值,我们可判定这13个验证样本的基因组风 险的高低。同样地,我们也统计验证组病人的基因组风险和实际临床预后出 现不一致的次数。最终发现分别包含排行榜的前80个基因或者前84个基 因的分类器预测错误数目为最低。本着简洁的原则,最终选择80-基因为分 类器雏形。
无信息遗漏(information leak)的交叉验证
由于以上1470个基因是基于所有的44个训练样本获得的,包括被留出 的用来验证的那个样本,因此存在信息遗漏所产生的过度拟合的可能性。为 此,我们运用一种改良版的LOOCV来解决信息遗漏的问题:
第一步,留出一个样本待验证。
第二步,运用剩余的43个样本计算所有基因的表达和预后情况的 Pearson系数。过滤得到|coef|≥0.3的基因。
第三步,运用第二步中过滤得到的基因构建分类器,并据此预测被留出 的那个样本的基因组风险。
第四步,重复第一到第三步,直到所有的44个肿瘤病人都被留出过一 次。
因此我们又获得44个分类器。我们发现原初的1470个基因中绝大多数 的基因都存在于这44个分类器中(图2)。据此,我们判定前面的训练过 程中所引入的信息遗漏相当有限。
2.第二阶段
基于训练的第一阶段获得的80-基因分类器,我们进一步运用机器学习 的方法获得更加简洁的风险评分系统来预测肺癌病人的预后。同样是运用 TCGA的病人数据,但是这次囊括了所有未接受和接受了术后放疗的病人, 这样总共有350个肺腺癌样本可用。关注癌症病人的无复发生存期 (Relapse-Free Survival,RFS)。在建模过程中,基因被称为特征(features)。
随机分组
将这些样本随机划分为(随机化后两组病人各临床信息无显著差异): 组1和组2。
特征排序
以组1为训练数据,通过单因素的Cox比例风险回归模型(Cox’s proportionalhazards regression model,CPH),计算单个特征的回归系数和p 值。按照p值从小到大将80个特征重新排序。排在越前面的特征,Cox回 归p值越小,与预后的相关性越大。
特征数目的优化:这是一种迭代优化的过程。从排序后的第一个特征开 始,从前往后每次加一个特征,运用多因素的Cox回归分析获得各个特征的 Cox回归系数。运用组2病人进行交叉验证,评估此Cox模型的好坏:将组 2中每个病人的相关特征的表达值与多因素Cox回归系数相乘并累加得到一 个分数值(score),分数值高低表示病人死亡或者复发风险的高低。接着采 用KM(Kaplan-Meier)生存分析计算组2的高风险和低风险亚组之间的时 序检验p值(log Rank p-value)。如此循环,直到所有的特征都被纳入Cox 回归模型。时序检验p值最小的Cox模型所包含的特征种类和数目就是最优 的。
验证阶段
GEO数据库内符合条件的非小细胞肺癌病人的芯片数据集被用来验证 以上所获得19-基因分类器。在一个独立的数据集中,那些分数值高于群体 分数值中位数的病人被划为高风险组,而其余为低风险组。KM分析用来比 较高风险组和低风险组的生存曲线。时序检验p值<0.05表示有统计学差异。
基因表达分类器和其他临床诊断因子在诊断预测性能的优劣比较
我们利用多因子的Cox回归模型来比较该基因表达分类器和其他临床 诊断因子,包括年龄、肿瘤分期、吸烟历史、基因突变、myc拷贝数变异等 在肺癌病人预后预测性能方面的强弱。在进行分析之前,所有这些因子都转 化为二分变量。某个因子的风险比(HazardRatio,HR)是其Cox回归系数 的自然指数。p<0.05表示该因子可作为一个独立的诊断因子预测肺癌病人 的预后。
结果
80-基因表达分类器的构建
从TCGA肺腺癌RNA-seq数据出发,我们通过一种无偏的筛选方法 获得与病人预后显著相关的1470个基因(|coef|>=0.3)。接着在LOOCV过 程中,我们依次获得735个分类器,并且当分类器包含排行榜的前22,30, 34,36,38,40,42,44,46,48,50,80,84或86个基因的时候,LOOCV 过程中预测错误计数为0(图3a)。进一步的验证,我们发现这14个分类 器对44个训练组病人的预测准确率为100%。我们还留有13个独立于训练 组的病人用于验证。评判一个分类器的好坏在于其误将真实的预后差的病人 错误预测为低风险组的次数最少,结果发现80-基因分类器和84-基因分类器 的错误预测次数最少,因此80-基因和84-基因分类器拥有最强的效能来准确 预测肺腺癌病人在一年内的复发风险。为了简洁起见,最终选择80-基因进 行下面的研究(图3c),相应的风险系数门槛值为-0.38。
19-基因表达分类器的构建
基于简洁有效的出发点,我们采取进一步的机器学习方法对80-基因分 类器进行基因数目的优化,获得19-基因表达分类器,每个基因都有相应的 表达回归系数(又称加权系数),因此每个病人的这19个基因的表达值进 行加权相加,即得该病人的预后风险值(表2)。KM生存分析显示在TCGA 肺腺癌病人中,高风险组病人的预后要显著差于低风险组病人的预后(OS: CPH HR=1.77,p=0.001,KM时序检验p值=0.00091;RFS:CPH HR=1.77, p=0.004,KM时序检验p值=0.00334)(图4)。这与我们的预期相符合, 因为19-基因分类器是利用相同的TCGA病人数据开发得来的。
表2.通过19-基因风险分数计算计算19-基因的Cox系数
19-基因表达表达分类器在其他非小细胞肺癌数据集中的验证
该19-基因分类器的验证需要在数个独立于机器学习过程中的非小细胞 肺癌数据集内进行。我们从GEO中获得多个可用的基于基因芯片表达的数 据集(表1)。就总体生存期指标而言,19-基因表达分类器可以成功地将 GSE31210(图5a:ADC,CPH HR=3.88,P=0.0008,KM时序检验p值 =0.00029),GSE14814(图5b:ADC+SCC,CPH HR=2.06,p=0.011,KM时序 检验p值=0.00495),GSE13213(图5c:ADC,CPH HR=2.64,p=0.008, KM时序检验p值=0.00586),GSE14814(图5d:SCC,CPH HR=2.9,p=0.032, KM时序检验p值=0.02518),GSE11969(图5e:ADC,CPH HR=1.98, p=0.038,KM时序检验p值=0.03407)和GSE37745(图5f:ADC+SCC,CPH HR=1.41,P=0.042,KM时序检验p值=0.04132)的非小细胞肺癌病人有效地分 为总体生存期较长和总体生存期较短的亚组。该分类器也可以将多个数据集 内的非小细胞肺癌病人分为无复发生存期较长和无复发生存期短的亚组(图 6a-c GSE8894:ADC+SCC:CPH HR=2.42,p=0.0005,KM时序检验p值 =0.00032;ADC:CPH HR=2.29,p=0.02,KM时序检验p值=0.01705;SCC: CPH HR=2.18,p=0.026,KM时序检验p值=0.026;图6d GSE31210:ADC, CPH HR=2.07,p=0.005,KM时序检验p值=0.00427)。
19-基因表达分类器诊断效能优于其他临床诊断因子
通过一种多因素的CPH模型,我们比较了19-基因表达分类器与其他临 床诊断因子(如年龄、吸烟历史、基因突变以及基因拷贝数变异等)的诊断 效能的优劣。在GSE31210中,当19-基因风险因子被纳入到多因素的CPH 中后,仅有基因突变(KRAS+或/和EGFR+或/和ALK+)还能作为独立 的诊断因子(p<0.05),而19-基因风险评分仍然是最显著的独立诊断因子 (图7a多变量CPH,OS:HR=3.59,p=0.002;图7b RFS:1.95,p=0.013)。值 得一提的是在GSE13213中,19-基因风险评分甚至超过了肿瘤分期,成为 最强的独立诊断因子(图7c多变量CPH,OS:19-基因风险评分HR=2.65, p=0.01;阶段HR=2.35,p=0.022)。在GSE11969中,19-基因风险评分依然 是最强的独立诊断因子(图7d多变量CPH,OS:HR=1.92,p=0.05)
19-基因表达分类器与其他已发表的16-基因分类器的比较
Chen et al.在2007年的NEJM上发表了一种16-基因表达分类器(17)。 我们从文献中获得了16个基因的表达加权系数,因此可以顺利地计算病人 的16-基因风险评分。因此可以通过一个双因素的CPH模型比较我们的19- 基因分类器和该16-基因分类器之间的诊断效能的优劣。结果显示我们的19- 基因分类器在包括GSE14814(肺腺癌+肺鳞癌)(OS:19-基因HR 2.14 p=0.007;16-基因HR 0.63,p=0.09)、GSE14814(肺鳞癌)(OS:19-基因HR3.05p=0.027;16-基因HR 0.75,p=0.536)、GSE13213(肺腺癌)(OS:19- 基因HR 2.65p=0.008;16-基因HR 1.26,p=0.498)、GSE11969(肺腺癌) (OS:19-基因HR 1.98p=0.007;16-基因HR 1.18,p=0.605)、GSE37745(肺 腺癌+肺鳞癌)(OS:19-基因HR 1.43p=0.035;16-基因HR 1.15,p=0.415)、 GSE8894(肺腺癌+肺鳞癌)(RFS:19-基因HR 2.46p=0.0004;16-基因HR 1.57,p=0.067)、GSE8894(肺腺癌)(RFS:19-基因HR 2.27p=0.022;16- 基因HR 1.16,p=0.67)和GSE8894(肺鳞癌)(RFS:19-基因HR 2.04 p=0.057;16-基因HR 1.19,p=0.633)在内的数据集内都可以更加有效地将非 小细胞肺癌病人分为预后良好和预后差的两个亚组。在GSE31210(肺腺癌- 无复发生存期)模型中,19-基因分类器显示出与16-基因分类器类似的HR (19-基因HR 2.05p=0.0059;16-基因HR 0.48,p=0.0043)。
应当强调,本发明的上述实施例仅仅是可能的示例实施方式,其仅 仅是为了清楚地理解本公开的原理而提出的。在不脱离本公开的精神和 原理的情况下,可以对本公开的上述实施例进行许多变化和修改。所有 这些修改和变化旨在被包括在本发明的范围内并由所附权利要求保护。
参考文献
1.Chen WQ,Shou RS,Baade PD,et al.Cancer statistics in china.2015.CACancer J.Clin.2016;66:115-32.
2.Burdett S,Rydzewska L,Tierney J,et al.Postoperative radiotherapyfor non-small cell lung cancer.Cochrane Database Syst Rev 2016;9:CD002142.
3.Liauw SL,Connell PP,Weichselbaum RR.New paradigms and futurechallenges in radiation oncology:an update of biological targets andtechnology.Sci Transl Med 2013;5:173sr2.
4.Spiotto M,Fu YX,Weichselbaum RR.The intersection of radiotherapyand immunotherapy:mechanisms and clinical implications.Science Immunol 2016;1:pp. eaag1266.
5.Sotiriou C,Pusztai L.Gene-expression signatures in breast cancer.NEngl J Med 2009;360:790-800.
6.Joensuu H.Adjuvant treatment of GIST:patient selection andtreatment strategies.Nat Rev Clini Oncol 2012;9:351-8.
7.EBCTCG,Peto R,Davies C,et al.Comparisons between differentpolychemotherapy regimens for early breast cancer:meta-analyses of long-termoutcome among 100,000women in 123randomised trials.Lancet 2012;379:432-44.
8.Pusztai L.Chemotherapy and the recurrence score-results asexpected?Nat Rev Clini Oncol 2015;12:690-2.
9.Paik S,Shak S,Tang G,et al.A multigene assay to predict recurrenceof tamoxifen-treated,node-negative breast cancer.N Engl J Med 2004;351:2817-26.
10.Sparano JA,Gray RJ,Makowe DF,et al.Prospective validation of a 21-gene expression assay in breast cancer.N Engl J Med 2015;373:2005-14.
11.van‘t Veer LJ,Dai H,van de Vijver MJ,et al.Gene expressionprofiling predicts clinical outcome of breast cancer.Nature 2002;415:530-6.
12.Cardoso F,van’t Veer LJ,Bogaerts J,et al.70-gene signature as anaid to treatment decisions in early-stage breast cancer.N Engl J Med 2016;375:717-29.
13.Dowsett M,Sestak I,Lopez-Knowles E,et al.Comparison of PAM50riskof recurrence score with oncotype DX and IHC4for predicting risk of distantrecurrence after endocrine therapy.J Clin Oncol 2012;31:2783-90.
14.Gnant M,Filipits M,Greil R,et al.Predicting distant recurrence inreceptor-positive breast cancer patients with limited clinicopathologicalrisk:using the PAM50 Risk of Recurrence score in 1478 postmenopausal patientsof the ABCSG-8 trial treated with adjuvant endocrine therapy alone.Ann Oncol2014;25:339-45.
15.Fitzal F,Filipits M,Rudas M,et al.The genomic expression testEndoPredict is a prognostic tool for identifying risk of local recurrence inpostmenopausal endocrine receptor-positive,her2neu-negative breast cancerpatients randomised within the prospective ABCSG 8 trial.Br J Cancer 2015;112:1405-10.
16.Sgroi DC,Sestak I,Cuzick J,et al.Prediction of late distantrecurrence in patients with oestrogen-receptor-positive breast cancer:aprospective comparison of the breast-cancer index(BCI)assay,21-generecurrence score,and IHC4 in the TransATAC study population.Lancet Oncol2013;14:1067-76.
17.Chen HY,Yu SL,Chen CH,et al.A five-gene signature and clinicaloutcome in non-small-cell lung cancer.N Engl J Med 2007;356:11-20.
18.Chen DT,Hsu YL,Fulp WJ,et al.Prognostic and predictive value of amalignancy-risk gene signature in early-stage non-small cell lung cancer.JNatl Cancer Inst 2011;103:1859-70.
19.Lu Y,Lemon W,Liu PY,et al.A gene expression signature predictssurvival of patients with stage I non-small cell lung cancer.PLoS Med 2006;3:e467.
20.Xie Y,Xiao G,Coombes KR,et al.Robust gene expression signaturefrom formalin-fixed paraffin-embedded samples predicts prognosis of non-small-cell lung cancer patients.Clin Cancer Res 2011;17:5705-14.
21.Kratz JR,He J,van den Eeden SK,et al.A practical molecular assayto predict survival in resected non-squamous,non-small-cell lung cancer:development and international validation studies.Lancet 2012;379:823-32.
22.Director's Challenge Consortium for the Molecular Classificationof Lung Adenocarcinoma,Shedden K,Taylor JM,et al.Gene expression-basedsurvival prediction in lung adenocarcinoma:a multi-site,blinded validationstudy.Nat Med 2008;14:822-7.
23.Boutros PC,Lau SK,Pintilie M,et al.Prognostic gene signatures fornon-small-cell lung cancer.Proc Natl Acad Sci U S A 2009;106:2824-8.
24.Jeong Y,Xie Y,Xiao G,et al.Nuclear receptor expression defines aset of prognostic biomarkers for lung cancer.PLoS Med 2010;7:e1000378.
25.Okayama H,Schetter AJ,Ishigame T,et al.The expression of fourgenes as a prognostic classifer for stage I lung adenocarcinoma in 12independent cohorts.Cancer Epdemiol Biomarkers Prev 2014;23:2884-94.
26.Zhu CQ,Ding K,Strumpf D,et al.Prognostic and predictive genesignature for adjuvant chemotherapy in resected non-small-cell lung cancer.JClin Oncol 2010; 28:4417-24.
27.Lau SK,Boutros PC,Pintilie M,et al.Three-gene prognosticclassifier for early-stage non-small-cell lung cancer.J Clin Oncol 2007;25:5562-9.
28.Roepman P,Jassem J,Smit EF,et al.An immune response enriched 72-gene prognostic profile for early-stage non-small-cell lung cancer.ClinCancer Res 2009;15:284-90.
29.Tang H,Xiao G,Behrens C,et al.A 12-gene set predicts survivalbenefits from adjuvant chemotherapy in non-small cell lung cancerpatients.Clin Cancer Res 2013; 19:1577-86.
30.Pardo LA,Stühmer W.The roles of K+channels in cancer.Nat RevCancer 2014;14:39-48.
31.Jentsch TJ.VRACs and other ion channels and transporters in theregulation of cell volume and beyond.Nat Rev Mol Cell Biol 2016;17:293-307.