[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107292127A - 预测肺癌病人预后的基因表达分类器及其构建方法 - Google Patents

预测肺癌病人预后的基因表达分类器及其构建方法 Download PDF

Info

Publication number
CN107292127A
CN107292127A CN201710428039.7A CN201710428039A CN107292127A CN 107292127 A CN107292127 A CN 107292127A CN 201710428039 A CN201710428039 A CN 201710428039A CN 107292127 A CN107292127 A CN 107292127A
Authority
CN
China
Prior art keywords
gene expression
gene
lung cancer
cancer patient
classification device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710428039.7A
Other languages
English (en)
Inventor
王俊
陆晓
顾凯
郝文山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Ming Jie biopharmaceutical Testing Co., Ltd.
Original Assignee
Nanjing Hi Tech Bio Pharmaceutical Public Service Platform Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hi Tech Bio Pharmaceutical Public Service Platform Co Ltd filed Critical Nanjing Hi Tech Bio Pharmaceutical Public Service Platform Co Ltd
Priority to CN201710428039.7A priority Critical patent/CN107292127A/zh
Publication of CN107292127A publication Critical patent/CN107292127A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种预测肺癌病人预后的基因表达分类器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测肺癌病人预后的基因表达分类器。本发明运用了有监督的机器学习方法获得了一种基因表达分类器,可以精准地预测非小细胞肺癌病人的预后。该基因表达分类器具有非常强的临床转化价值。通过进行基因群组(panel)的基因表达检测,高风险的基因风险评分的非小细胞肺癌病人应该接受辅助治疗,而低风险的基因风险评分的非小细胞肺癌病人应该接受低剂量或免于辅助治疗。

Description

预测肺癌病人预后的基因表达分类器及其构建方法
技术领域
本发明涉及一种基因表达分类器及其构建方法,更具体地涉及一种 预测肺癌病人预后的基因表达分类器及其构建方法,特别是一种预测非 小细胞肺癌病人预后的基因表达分类器及其构建方法。
背景技术
中国最新癌症流行病学调查显示2015年新增肺癌病人73万,死亡 病人60万,肺癌已成为中国发病率和死亡率均处于首位的癌症(1)。肺 癌死亡例数占总体癌症死亡例数的25%。由于肺癌的高复发风险和低存 活率,绝大多数处于IB-IIIA期的肺癌病人都会进行术后化疗 (postoperative chemotherapy,POCT)。此外,基于病灶残留程度、淋巴 结转移情况、癌症分期等参数,相当一部分的肺癌病人也会进行术后放 疗(postoperativeradiotherapy,PORT)(2-4)。人类癌症具有高度异质性, 即使临床上被诊断为同一分期的癌症病人对于同样的治疗方案的反应和 总体预后也会大不相同(5)。换言之,有相当一部分病人不能从辅助疗法 中获得生存益处或者只能获得很少的生存益处,却要忍受不必要的放化 疗痛苦(6-8)。近年来,科学家们一直尝试基于癌症的基因表达特征来开 发相应的分子标记物和分子分类手段。在基因表达分类器领域,乳腺癌 开始最早,进展最大,已有多个分子检测产品问世,如Oncotype DX(9,10)、 MammaPrint(11,12)、Prosigna(13,14)、EndoPredict(15)以及Breast Cancer Index(16)。其中,Oncotype DX(又称乳腺癌21基因检测)与MammaPrint这两个检测产品发展最为成熟,接受度最广,Oncotype DX检测作为指 导早期浸润性乳腺癌的术后辅助治疗方案选择的重要依据,已经被写入 美国国立综合癌症网络(NCCN)指南。到目前为止,也有研究尝试在肺 癌领域开发类似的基因表达分类器来预测肺癌病人的复发风险(17-29),这 些研究几乎都是针对非小细胞肺癌,但是存在以下几种问题:一是不同人群肺癌的生物异质性,从此人群和彼人群得出的基因表达分类器差异 很大;二是缺乏统一的标准,如临床样本的采集、注释、样本处理等; 三是统计和机器学习的方法千差万别,这些分类器涉及的基因数目千差 万别,没有什么基因重合,且就哪个是最佳基因分类器也没有形成共识, 因此未开展有影响力的临床验证研究。在本研究中,我们对TCGA中肺 腺癌(lung adenocarcinoma,ADC)病人的RNA-seq数据运用有监督的机 器学习的方法设计得到一种基因表达分类器,实现对非小细胞肺癌病人 的无复发生存期(relapse-freesurvival,RFS)和总体生存期(overall survival,OS)进行精准预测。
发明内容
一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分类 器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一 阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺 癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方 法获得预测肺癌病人预后的基因表达分类器。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中所述第一阶段通过使用肺癌病人的基因表达信息和 临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基 因。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中对所有基因的表达和预后情况的Pearson系数的绝对 值由大到小排序,获得与真实一年内复发高度相关的基因。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中使用LOOCV方法获得最佳的基因类别和数目,从 而构建所述基因表达分类器雏形。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中使用基因表达分类器雏形计算用于验证的肿瘤样本 的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一 致性,验证所述基因表达分类器雏形的效能。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中第一阶段的基因表达分类器雏形包含有基因列表。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中所述第二阶段包括特征排序,所述特征排序基于单 因素的Cox比例风险回归模型所得p值进行。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法,其中所述第二阶段采用KM生存分析计算高风险组和 低风险组之间的时序检验p值,时序检验p值最小的Cox模型所包含的 基因种类和数目就是所构建的基因表达分类器。
另一方面,本发明的目的是提供一种预测肺癌病人预后的基因表达分 类器的构建方法的构建方法,其中验证阶段使用芯片数据集验证所获得的 基因表达分类器。
另一方面,本发明的目的是提供一种预测非小细胞肺癌病人预后的基 因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺腺癌病人预后的 基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺鳞癌病人预后的 基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺腺癌和肺鳞癌病 人预后的基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测非小细胞肺癌病人预后的 基因表达分类器及其构建方法,实现对非小细胞肺癌病人的无复发生存 期和总体生存期进行精准预测。
另一方面,本发明的目的是提供一种预测非小细胞肺癌病人预后的 基因表达分类器及其构建方法,将非小细胞肺癌病人分为差预后和预后 良好的两个亚群。
另一方面,本发明的目的是提供一种在多个非小细胞肺癌数据集中预测 非小细胞肺癌病人预后的基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种在多个非小细胞肺癌数据集中预测 非小细胞肺癌病人预后的基因表达分类器及其构建方法,所述多个非小 细胞肺癌数据集选自由TCGA、GSE8894、GSE31210、GSE11969、GSE13213、 GSE14814或GSE37745。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其包括:数据训练阶段和验证阶段。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述训练阶段包括第一阶段和第二阶段。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述第一阶段包括:使用未接受术后放疗的TCGA 肺腺癌病人的基因表达信息和临床信息,使用有监督的机器学习方法建立能 预测肺腺癌病人预后的基因表达分类器雏形。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中有监督的机器学习的方法如下:
分组:对满足条件的非小细胞肺腺癌病人的基因表达数据在分组前进行 标准化处理,然后分别从临床上差预后和预后良好的病人中随机选取第一数 量病人和第二数量作为训练组,剩余病人作为验证组;
挑选与真实预后情况高度相关的基因:初始RNA-seq数据经过初步过 滤,从多个基因中获得在病人中表达量不为0的基因;在训练病人组内,每 个基因的表达量与这些病人的真实预后情况进行Pearson相关分析,并获得 回归系数(Coef),|Coef|≥0.3的基因被挑选出来进行下一步分析;
有监督的分类方法:将挑选出来的基因按照相关系数的绝对值从大到小 进行排序,得到一个排行榜,从排在最前面的两个基因开始,每次从排行榜 再依次添加两个基因建立一个分类器,如此循环,直到排行榜中所有的基因 都被作为报告子用尽,建立基因表达分类器雏形。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中使用LOOCV检查所述基因表达分类器雏形的效能, 步骤如下:
第一步,将一名病人留出,以备后续检验用;
第二步,通过取表达的标准分数的平均值计算在差预后组该分类器中所 涉及的所有基因的表达模式;类似地计算在预后良好组的基因表达模式;接 着,定义一个风险系数(risk-coef),所述风险系数即指该肿瘤内预后良好 组的基因表达模式的相关系数减去差预后组基因表达模式的相关系数;
第三步,计算剩余的训练肿瘤样本以及第一步中留存的肿瘤样本的风险 系数,将这些样本按照风险系数从小到大排序,第一数量肿瘤病人被划分为 高基因组风险组,第二数量病人被划分为低基因组风险,检查每个病人真实 的临床预后情况和预测的基因组风险的一致性;
循环第一到第三步,直到所有训练病人样本都被留出过一次,每次当被 留出的样本的基因组风险和实际的临床预后情况相背离时,错误计数器加1 次;
对于每一个分类器,设置风险系数的门槛值,将病人分为第一数量高风 险和第二数量低风险的病人;同时,计算独立于训练样本的验证样本的风险 系数;通过前面设置的风险系数的门槛值,可判定验证样本的基因组风险的 高低;同样地,也统计验证组病人的基因组风险和实际临床预后出现不一致 的次数;最终发现分别包含排行榜的前80或者前84个基因的分类器预测错 误数目为最低,选择80-基因表达分类器作为雏形。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中运用一种改良版的LOOCV来解决信息遗露 (information leakage)的问题:
第一步,留出一个样本待验证;
第二步,运用剩余样本计算所有基因的表达和预后情况的Pearson系数, 过滤得到|coef|≥0.3的基因;
第三步,运用第二步中过滤得到的基因构建分类器,并据此预测被留出 的那个样本的基因组风险。
第四步,重复第一到第三步,直到所有肿瘤病人都被留出过一次,从而 获得基因表达分类器。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述第二阶段包括:
基于训练的第一阶段获得的80-基因表达分类器,进一步运用机器学习 的方法获得更加简洁的风险评分系统来预测肺癌病人的预后,同样是运用 TCGA的病人数据,但是这次囊括了所有未接受和接受了术后放疗的病人, 在建模过程中,基因被称为特征;
随机分组:将这些样本随机划分为:组1和组2。
特征排序:以组1为训练数据,通过单因素的Cox比例风险回归模型计 算单个特征的回归系数和p值,按照p值从小到大将80个特征重新排序, 排在越前面的特征,Cox回归p值越小,与预后的相关性越大;
特征数目的优化:从排序后的第一个特征开始,从前往后每次加一个特 征,运用多因素的Cox回归分析获得各个特征的Cox回归系数;运用组2 病人进行交叉验证,评估此Cox模型的好坏:将组2中每个病人的相关特征 的表达值与多因素Cox回归系数相乘并累加得到一个分数值,分数值高低表 示病人死亡或者复发风险的高低;接着采用KM生存分析计算组2的高风险 和低风险亚组之间的时序检验p值;如此循环,直到所有的特征都被纳入Cox回归模型;时序检验p值最小的Cox模型所包含的特征种类和数目就是 最优的,获得基因表达分类器。
另一方面,本发明提供一种预测非小细胞肺癌病人预后的基因表达分 类器的构建方法,其中所述验证阶段包括:
使用GEO数据库内符合条件的非小细胞肺癌的芯片数据集验证以上所 获得基因表达分类器;在一个独立的数据集中,那些分数值高于群体分数值 中位数的病人被划为高风险组,而其余为低风险组;KM分析用来比较高风 险组和低风险组的生存曲线;时序检验p值<0.05表示有统计学差异。
在另一实施方式中,本发明提供一种19-基因表达分类器。
在另一实施方式中,本发明提供一种19-基因表达分类器,其中19基 因表达分类器的基因选自由GALNT2、C17orf50、STC2、C8orf46、 ZNF441、ZNF563、ZNF763、TMEM63C、ZNF442、C9orf135、ACTN1、 C4orf12、CSF2、ZNF879、NAGS、C15orf63、ZNF799、C6orf176、C14orf129 组成的组。
另一方面,本发明提供一种基因表达分类器,其能作为一种有效的 诊断手段将肺癌病人中有较高风险发展成差预后的亚群分离出来。
另一方面,本发明提供一种基因表达分类器,其能作为一种有效的 诊断手段将非小细胞肺癌病人中有较高风险发展成差预后的亚群分离出 来。
有益效果
本发明运用有监的机器学习的方法建立了一种基因表达分类器来精 准预测肺癌预后。该基因表达分类器具有以下几种明显的优点:
既能预测肺腺癌又能预测肺鳞癌的预后。虽然第一阶段的80-基因 表达分类器雏形是用来预测肺腺癌病人的复发风险的,然而最终版本的 基因表达分类器却能同时预测肺腺癌和肺鳞癌(lung squamous cell carcinoma,SCC)病人的总体生存期和无复发生存期,这证明该基因表 达分类器的功能多样性。
预测功效非常强。我们在分类器的验证阶段用的是基因芯片表达数 据集,这些芯片来自于不同的版本,包括GPL570、GPL7015、GPL6480 以及GPL96。这些芯片平台中,并不是都能找到相应的探针来分别对应 分类器中的19个基因。在GPL570、GPL7015、GPL6480以及GPL96中, 19个基因中分别仅有17、9、12和6个基因可以找到相应的探针。因此 在利用这些平台的基因芯片数据集进行验证时,我们只能提取17、9、12 或6基因的表达值进行加权相加。出乎意料的是,这些所谓的“不完整 的分类器”依然表现出非常强的预测功效。
可作为独立的非小细胞肺癌预后(总体生存期和无复发生存期)强 诊断因子。我们的基因表达分类器的预后预测效能显著优于包括年龄、 吸烟历史、基因突变、基因拷贝数变异等在内的临床诊断因子。另外, 我们的基因表达分类器在不同的GSE数据集中的预测效能都显著优于一 个已经发表的16-基因分类器,由此可见该基因表达分类器的优越性。
附图说明
本发明的进一步特征和优点将结合附图进行描述,其中:
图1是所有基因的表达与一年内复发情况的相关系数分布图。(A)淡 绿色:所有基因的基因表达和预后类别之间的相关系数分布,有1470个基 因示出了相关程度大于0.3;淡红色分布是Monte-Carlo试验,其中对基因表 达和预后类别之间的相关性进行随机化;(B):在10,000个Monte-Carlo试 验中,|Coef|≥0.3的基因数目的频数分布。
图2是以无信息遗露(information leakage)的方式产生的44个基因表 达分类器中,原初的1470个基因(红色)和其它基因(蓝色)的分布示意 图。在一个基因表达分类器中,报告基因的平均数目是1523±98。
图3是80-基因表达分类器雏形的开发流程图。A-B:优化分类器雏形 中的基因数目。A:在LOOCV循环中观察到的分类错误。X轴是分类器中 报告子(基因)的数目;Y轴是预测错误次数。采用前22、30、34、36、 38、40、42、44、46、48、50、80、84和86个基因的分类器分别实现了最 少的错误次数。b:利用额外的包含13个肿瘤的测试集验证上述的分类器的 性能。80-基因和84-基因分类器实现了最低的错误次数。C:训练数据集内 44个病人(上图)和测试数据集内13个病人(下图)的80个基因表达热 图。每排代表一个观察(病人),每行是一个基因,基因名称标注在上图和 下图之间。根据良好预后组和差预后组的平均表达模式的相关性对肿瘤进行 排序(左图)。根据基因与两种预后类别的相关系数对基因进行排序。每个 病人的真实预后状态在中间图中示出。黑色实线是80-基因表达分类器的系 数阈值。
图4是TCGA肺腺癌病人总体生存期(A)和无复发生存期(B)的高19-基 因风险评分病人和低19-基因风险评分病人的KM分析。
图5是GEO数据集中病人的总体生存期的高19-基因风险评分和低19- 基因风险评分的KM分析(A-F)。
图6是GEO数据集中病人的无复发生存期的高19-基因风险评分和低 19-基因风险评分的KM分析(A-D)。
图7在多变量CPH模型中,19-基因表达评分优于其它临床病理因子和 已公开的16-基因表达分类器(A-D)。A:GSE31210肺腺癌总体生存期的 多变量CPH分析;B:GSE31210肺腺癌无复发生存期的多变量CPH分析; C:GSE13213肺腺癌总体生存期的多变量CPH分析;和(D)GSE11969 肺腺癌总体生存期的多变量CPH分析。E和F:使用双变量CPH模型比较 本发明的19-基因表达分类器和已在NEJM公开的16-基因表达分类器的预 后值(E:总体生存期;E:无复发生存期)。横线表示95%置信区间,*、 **和***分别表示p<0.05、p<0.01和p<0.001。
具体实施方式
本发明将会参照下面的实施例进行阐述,但本发明将不限于下面的 实施例。
1.研究材料和手段
TCGA和GEO数据集
TCGA的非小细胞肺癌病人RNA-seq转录组数据及其临床信息从 TCGA RNA-seq数据库中获得(https://cancergenome.nih.gov/)(表1)。 而非小细胞肺癌病人的芯片表达数据及其临床信息从高通量基因表达(Gene Expression Ominibus,GEO)数据库中获得(https://www.ncbi.nlm.nih.gov/geo/) (表1)。
表1:研究中使用的数据集
备注:ADC:肺腺癌;SCC:肺鳞癌;RFS:无复发生存期;OS:总体生存期
基因表达分类器的开发流程
整个开发流程包括数据训练和验证两大阶段。
训练阶段
1.第一阶段
未接受术后放疗的TCGA肺腺癌病人的基因表达信息和临床信息被用 来建立能预测肺腺癌病人预后的80-基因的分类器雏形。该有监督的机器学 习的方法如下:
分组
满足条件的非小细胞肺癌肺腺癌病人共57位,其中39位病人在术后一 年之内发生了复发事件而被标记为临床上差预后的病人,而18位病人在术 后至少大于一年的期间内未发生复发事件,被标记为临床上预后良好的病 人。这些病人的基因表达数据在分组前进行标准化处理(Z-评分)。我们分 别从临床上差预后和预后良好的病人中随机选取了15和29名作为训练组。 剩余的13例病人作为验证组。
挑选与真实预后情况高度相关的基因
初始RNA-seq数据经过初步过滤,从共20530个基因中获得19574个 基因在病人中表达量不为0。在训练病人组内,每个基因的表达量与这些 病人的真实预后情况进行Pearson相关分析,并获得回归系数(Coef),|Coef| ≥0.3的基因(共1470个基因)被挑选出来进行下一步分析。为了排除获得 的回归系数分布是随机概率产生的,我们运用一种排列(permutation)方法 产生了10,000个Monte-Carlo模拟试验,从而对训练组的44个病人的基因 表达数据和预后分组信息进行随机化处理。在10,000个Monte-Carlo试验中, |Coef|≥0.3的基因数目的试验的频数分布见图1B。获得|Coef|≥0.3的基因 数目≥1470的概率为0.047(p<0.05),据此可拒绝零假设。
有监督的分类方法
很显然,1470个基因对于分类器来说数目太过庞大,基因数目需要优 化。将这1470个基因按照相关系数的绝对值从大到小进行排序,得到一个 排行榜(top list)。从排在最前面的两个基因开始,每次从排行榜再依次添 加两个基因建立一个分类器,如此循环,直到排行榜中所有的1470个基因 都被作为报告子(reporters)用尽,因此总共建立了735个分类器。
一种称为LOOCV(leave-one-out cross-validation)的方法被用来检查这 些分类器的效能,步骤如下:
第一步,将一名病人留出,以备后续检验用。
第二步,计算在差预后组该分类器中所涉及的所有基因的表达模式(poor-prognosis expression template)(取表达z-评分的平均值);类似地 计算在预后良好组的基因表达模式(good-prognosis expression template)。 接着,定义一个风险系数(risk-coef)。对于一个肿瘤来说,风险系数即指 该肿瘤内预后良好组的基因表达模式的pearson相关系数减去差预后组基因 表达模式的pearson相关系数:
风险系数=预后良好组的基因表达模式的pearson相关系数-差预后组基 因表达模式的pearson相关系数
第三步,计算剩余的43个训练肿瘤样本以及第一步中留存的肿瘤样本 的风险系数。将这44个样本按照风险系数从小到大排序,前面15个肿瘤病 人被划分为高基因组风险(high genomic risk)组,而剩余的29个病人被划 分为低基因组风险(low genomic risk)组。检查每个病人真实的临床预后情 况和预测的基因组风险的一致性。
循环第一到第三步,直到所有的44个训练病人样本都被留出过一次。 每次当被留出的样本的基因组风险和实际的临床预后情况相背离时,错误计 数器加1次。
最好的分类器在LOOCV过程中,错误计数器收集的预测错误次数应该 最少。当我们的基因表达分类器包含排行榜的前22、30、34、36、38、40、 42、44、46、48、50、80、84或86个基因时,LOOCV过程中的预测错误 为0。还需要进一步判断这14个分类器中哪一个最好。对于每一个分类器, 我们设置风险系数的门槛值,将44个病人分为15个高风险和29个低风险的病人。同时,我们计算独立于训练样本的13个验证样本的风险系数。通 过前面设置的风险系数的门槛值,我们可判定这13个验证样本的基因组风 险的高低。同样地,我们也统计验证组病人的基因组风险和实际临床预后出 现不一致的次数。最终发现分别包含排行榜的前80个基因或者前84个基 因的分类器预测错误数目为最低。本着简洁的原则,最终选择80-基因为分 类器雏形。
无信息遗漏(information leak)的交叉验证
由于以上1470个基因是基于所有的44个训练样本获得的,包括被留出 的用来验证的那个样本,因此存在信息遗漏所产生的过度拟合的可能性。为 此,我们运用一种改良版的LOOCV来解决信息遗漏的问题:
第一步,留出一个样本待验证。
第二步,运用剩余的43个样本计算所有基因的表达和预后情况的 Pearson系数。过滤得到|coef|≥0.3的基因。
第三步,运用第二步中过滤得到的基因构建分类器,并据此预测被留出 的那个样本的基因组风险。
第四步,重复第一到第三步,直到所有的44个肿瘤病人都被留出过一 次。
因此我们又获得44个分类器。我们发现原初的1470个基因中绝大多数 的基因都存在于这44个分类器中(图2)。据此,我们判定前面的训练过 程中所引入的信息遗漏相当有限。
2.第二阶段
基于训练的第一阶段获得的80-基因分类器,我们进一步运用机器学习 的方法获得更加简洁的风险评分系统来预测肺癌病人的预后。同样是运用 TCGA的病人数据,但是这次囊括了所有未接受和接受了术后放疗的病人, 这样总共有350个肺腺癌样本可用。关注癌症病人的无复发生存期 (Relapse-Free Survival,RFS)。在建模过程中,基因被称为特征(features)。
随机分组
将这些样本随机划分为(随机化后两组病人各临床信息无显著差异): 组1和组2。
特征排序
以组1为训练数据,通过单因素的Cox比例风险回归模型(Cox’s proportionalhazards regression model,CPH),计算单个特征的回归系数和p 值。按照p值从小到大将80个特征重新排序。排在越前面的特征,Cox回 归p值越小,与预后的相关性越大。
特征数目的优化:这是一种迭代优化的过程。从排序后的第一个特征开 始,从前往后每次加一个特征,运用多因素的Cox回归分析获得各个特征的 Cox回归系数。运用组2病人进行交叉验证,评估此Cox模型的好坏:将组 2中每个病人的相关特征的表达值与多因素Cox回归系数相乘并累加得到一 个分数值(score),分数值高低表示病人死亡或者复发风险的高低。接着采 用KM(Kaplan-Meier)生存分析计算组2的高风险和低风险亚组之间的时 序检验p值(log Rank p-value)。如此循环,直到所有的特征都被纳入Cox 回归模型。时序检验p值最小的Cox模型所包含的特征种类和数目就是最优 的。
验证阶段
GEO数据库内符合条件的非小细胞肺癌病人的芯片数据集被用来验证 以上所获得19-基因分类器。在一个独立的数据集中,那些分数值高于群体 分数值中位数的病人被划为高风险组,而其余为低风险组。KM分析用来比 较高风险组和低风险组的生存曲线。时序检验p值<0.05表示有统计学差异。
基因表达分类器和其他临床诊断因子在诊断预测性能的优劣比较
我们利用多因子的Cox回归模型来比较该基因表达分类器和其他临床 诊断因子,包括年龄、肿瘤分期、吸烟历史、基因突变、myc拷贝数变异等 在肺癌病人预后预测性能方面的强弱。在进行分析之前,所有这些因子都转 化为二分变量。某个因子的风险比(HazardRatio,HR)是其Cox回归系数 的自然指数。p<0.05表示该因子可作为一个独立的诊断因子预测肺癌病人 的预后。
结果
80-基因表达分类器的构建
从TCGA肺腺癌RNA-seq数据出发,我们通过一种无偏的筛选方法 获得与病人预后显著相关的1470个基因(|coef|>=0.3)。接着在LOOCV过 程中,我们依次获得735个分类器,并且当分类器包含排行榜的前22,30, 34,36,38,40,42,44,46,48,50,80,84或86个基因的时候,LOOCV 过程中预测错误计数为0(图3a)。进一步的验证,我们发现这14个分类 器对44个训练组病人的预测准确率为100%。我们还留有13个独立于训练 组的病人用于验证。评判一个分类器的好坏在于其误将真实的预后差的病人 错误预测为低风险组的次数最少,结果发现80-基因分类器和84-基因分类器 的错误预测次数最少,因此80-基因和84-基因分类器拥有最强的效能来准确 预测肺腺癌病人在一年内的复发风险。为了简洁起见,最终选择80-基因进 行下面的研究(图3c),相应的风险系数门槛值为-0.38。
19-基因表达分类器的构建
基于简洁有效的出发点,我们采取进一步的机器学习方法对80-基因分 类器进行基因数目的优化,获得19-基因表达分类器,每个基因都有相应的 表达回归系数(又称加权系数),因此每个病人的这19个基因的表达值进 行加权相加,即得该病人的预后风险值(表2)。KM生存分析显示在TCGA 肺腺癌病人中,高风险组病人的预后要显著差于低风险组病人的预后(OS: CPH HR=1.77,p=0.001,KM时序检验p值=0.00091;RFS:CPH HR=1.77, p=0.004,KM时序检验p值=0.00334)(图4)。这与我们的预期相符合, 因为19-基因分类器是利用相同的TCGA病人数据开发得来的。
表2.通过19-基因风险分数计算计算19-基因的Cox系数
19-基因表达表达分类器在其他非小细胞肺癌数据集中的验证
该19-基因分类器的验证需要在数个独立于机器学习过程中的非小细胞 肺癌数据集内进行。我们从GEO中获得多个可用的基于基因芯片表达的数 据集(表1)。就总体生存期指标而言,19-基因表达分类器可以成功地将 GSE31210(图5a:ADC,CPH HR=3.88,P=0.0008,KM时序检验p值 =0.00029),GSE14814(图5b:ADC+SCC,CPH HR=2.06,p=0.011,KM时序 检验p值=0.00495),GSE13213(图5c:ADC,CPH HR=2.64,p=0.008, KM时序检验p值=0.00586),GSE14814(图5d:SCC,CPH HR=2.9,p=0.032, KM时序检验p值=0.02518),GSE11969(图5e:ADC,CPH HR=1.98, p=0.038,KM时序检验p值=0.03407)和GSE37745(图5f:ADC+SCC,CPH HR=1.41,P=0.042,KM时序检验p值=0.04132)的非小细胞肺癌病人有效地分 为总体生存期较长和总体生存期较短的亚组。该分类器也可以将多个数据集 内的非小细胞肺癌病人分为无复发生存期较长和无复发生存期短的亚组(图 6a-c GSE8894:ADC+SCC:CPH HR=2.42,p=0.0005,KM时序检验p值 =0.00032;ADC:CPH HR=2.29,p=0.02,KM时序检验p值=0.01705;SCC: CPH HR=2.18,p=0.026,KM时序检验p值=0.026;图6d GSE31210:ADC, CPH HR=2.07,p=0.005,KM时序检验p值=0.00427)。
19-基因表达分类器诊断效能优于其他临床诊断因子
通过一种多因素的CPH模型,我们比较了19-基因表达分类器与其他临 床诊断因子(如年龄、吸烟历史、基因突变以及基因拷贝数变异等)的诊断 效能的优劣。在GSE31210中,当19-基因风险因子被纳入到多因素的CPH 中后,仅有基因突变(KRAS+或/和EGFR+或/和ALK+)还能作为独立 的诊断因子(p<0.05),而19-基因风险评分仍然是最显著的独立诊断因子 (图7a多变量CPH,OS:HR=3.59,p=0.002;图7b RFS:1.95,p=0.013)。值 得一提的是在GSE13213中,19-基因风险评分甚至超过了肿瘤分期,成为 最强的独立诊断因子(图7c多变量CPH,OS:19-基因风险评分HR=2.65, p=0.01;阶段HR=2.35,p=0.022)。在GSE11969中,19-基因风险评分依然 是最强的独立诊断因子(图7d多变量CPH,OS:HR=1.92,p=0.05)
19-基因表达分类器与其他已发表的16-基因分类器的比较
Chen et al.在2007年的NEJM上发表了一种16-基因表达分类器(17)。 我们从文献中获得了16个基因的表达加权系数,因此可以顺利地计算病人 的16-基因风险评分。因此可以通过一个双因素的CPH模型比较我们的19- 基因分类器和该16-基因分类器之间的诊断效能的优劣。结果显示我们的19- 基因分类器在包括GSE14814(肺腺癌+肺鳞癌)(OS:19-基因HR 2.14 p=0.007;16-基因HR 0.63,p=0.09)、GSE14814(肺鳞癌)(OS:19-基因HR3.05p=0.027;16-基因HR 0.75,p=0.536)、GSE13213(肺腺癌)(OS:19- 基因HR 2.65p=0.008;16-基因HR 1.26,p=0.498)、GSE11969(肺腺癌) (OS:19-基因HR 1.98p=0.007;16-基因HR 1.18,p=0.605)、GSE37745(肺 腺癌+肺鳞癌)(OS:19-基因HR 1.43p=0.035;16-基因HR 1.15,p=0.415)、 GSE8894(肺腺癌+肺鳞癌)(RFS:19-基因HR 2.46p=0.0004;16-基因HR 1.57,p=0.067)、GSE8894(肺腺癌)(RFS:19-基因HR 2.27p=0.022;16- 基因HR 1.16,p=0.67)和GSE8894(肺鳞癌)(RFS:19-基因HR 2.04 p=0.057;16-基因HR 1.19,p=0.633)在内的数据集内都可以更加有效地将非 小细胞肺癌病人分为预后良好和预后差的两个亚组。在GSE31210(肺腺癌- 无复发生存期)模型中,19-基因分类器显示出与16-基因分类器类似的HR (19-基因HR 2.05p=0.0059;16-基因HR 0.48,p=0.0043)。
应当强调,本发明的上述实施例仅仅是可能的示例实施方式,其仅 仅是为了清楚地理解本公开的原理而提出的。在不脱离本公开的精神和 原理的情况下,可以对本公开的上述实施例进行许多变化和修改。所有 这些修改和变化旨在被包括在本发明的范围内并由所附权利要求保护。
参考文献
1.Chen WQ,Shou RS,Baade PD,et al.Cancer statistics in china.2015.CACancer J.Clin.2016;66:115-32.
2.Burdett S,Rydzewska L,Tierney J,et al.Postoperative radiotherapyfor non-small cell lung cancer.Cochrane Database Syst Rev 2016;9:CD002142.
3.Liauw SL,Connell PP,Weichselbaum RR.New paradigms and futurechallenges in radiation oncology:an update of biological targets andtechnology.Sci Transl Med 2013;5:173sr2.
4.Spiotto M,Fu YX,Weichselbaum RR.The intersection of radiotherapyand immunotherapy:mechanisms and clinical implications.Science Immunol 2016;1:pp. eaag1266.
5.Sotiriou C,Pusztai L.Gene-expression signatures in breast cancer.NEngl J Med 2009;360:790-800.
6.Joensuu H.Adjuvant treatment of GIST:patient selection andtreatment strategies.Nat Rev Clini Oncol 2012;9:351-8.
7.EBCTCG,Peto R,Davies C,et al.Comparisons between differentpolychemotherapy regimens for early breast cancer:meta-analyses of long-termoutcome among 100,000women in 123randomised trials.Lancet 2012;379:432-44.
8.Pusztai L.Chemotherapy and the recurrence score-results asexpected?Nat Rev Clini Oncol 2015;12:690-2.
9.Paik S,Shak S,Tang G,et al.A multigene assay to predict recurrenceof tamoxifen-treated,node-negative breast cancer.N Engl J Med 2004;351:2817-26.
10.Sparano JA,Gray RJ,Makowe DF,et al.Prospective validation of a 21-gene expression assay in breast cancer.N Engl J Med 2015;373:2005-14.
11.van‘t Veer LJ,Dai H,van de Vijver MJ,et al.Gene expressionprofiling predicts clinical outcome of breast cancer.Nature 2002;415:530-6.
12.Cardoso F,van’t Veer LJ,Bogaerts J,et al.70-gene signature as anaid to treatment decisions in early-stage breast cancer.N Engl J Med 2016;375:717-29.
13.Dowsett M,Sestak I,Lopez-Knowles E,et al.Comparison of PAM50riskof recurrence score with oncotype DX and IHC4for predicting risk of distantrecurrence after endocrine therapy.J Clin Oncol 2012;31:2783-90.
14.Gnant M,Filipits M,Greil R,et al.Predicting distant recurrence inreceptor-positive breast cancer patients with limited clinicopathologicalrisk:using the PAM50 Risk of Recurrence score in 1478 postmenopausal patientsof the ABCSG-8 trial treated with adjuvant endocrine therapy alone.Ann Oncol2014;25:339-45.
15.Fitzal F,Filipits M,Rudas M,et al.The genomic expression testEndoPredict is a prognostic tool for identifying risk of local recurrence inpostmenopausal endocrine receptor-positive,her2neu-negative breast cancerpatients randomised within the prospective ABCSG 8 trial.Br J Cancer 2015;112:1405-10.
16.Sgroi DC,Sestak I,Cuzick J,et al.Prediction of late distantrecurrence in patients with oestrogen-receptor-positive breast cancer:aprospective comparison of the breast-cancer index(BCI)assay,21-generecurrence score,and IHC4 in the TransATAC study population.Lancet Oncol2013;14:1067-76.
17.Chen HY,Yu SL,Chen CH,et al.A five-gene signature and clinicaloutcome in non-small-cell lung cancer.N Engl J Med 2007;356:11-20.
18.Chen DT,Hsu YL,Fulp WJ,et al.Prognostic and predictive value of amalignancy-risk gene signature in early-stage non-small cell lung cancer.JNatl Cancer Inst 2011;103:1859-70.
19.Lu Y,Lemon W,Liu PY,et al.A gene expression signature predictssurvival of patients with stage I non-small cell lung cancer.PLoS Med 2006;3:e467.
20.Xie Y,Xiao G,Coombes KR,et al.Robust gene expression signaturefrom formalin-fixed paraffin-embedded samples predicts prognosis of non-small-cell lung cancer patients.Clin Cancer Res 2011;17:5705-14.
21.Kratz JR,He J,van den Eeden SK,et al.A practical molecular assayto predict survival in resected non-squamous,non-small-cell lung cancer:development and international validation studies.Lancet 2012;379:823-32.
22.Director's Challenge Consortium for the Molecular Classificationof Lung Adenocarcinoma,Shedden K,Taylor JM,et al.Gene expression-basedsurvival prediction in lung adenocarcinoma:a multi-site,blinded validationstudy.Nat Med 2008;14:822-7.
23.Boutros PC,Lau SK,Pintilie M,et al.Prognostic gene signatures fornon-small-cell lung cancer.Proc Natl Acad Sci U S A 2009;106:2824-8.
24.Jeong Y,Xie Y,Xiao G,et al.Nuclear receptor expression defines aset of prognostic biomarkers for lung cancer.PLoS Med 2010;7:e1000378.
25.Okayama H,Schetter AJ,Ishigame T,et al.The expression of fourgenes as a prognostic classifer for stage I lung adenocarcinoma in 12independent cohorts.Cancer Epdemiol Biomarkers Prev 2014;23:2884-94.
26.Zhu CQ,Ding K,Strumpf D,et al.Prognostic and predictive genesignature for adjuvant chemotherapy in resected non-small-cell lung cancer.JClin Oncol 2010; 28:4417-24.
27.Lau SK,Boutros PC,Pintilie M,et al.Three-gene prognosticclassifier for early-stage non-small-cell lung cancer.J Clin Oncol 2007;25:5562-9.
28.Roepman P,Jassem J,Smit EF,et al.An immune response enriched 72-gene prognostic profile for early-stage non-small-cell lung cancer.ClinCancer Res 2009;15:284-90.
29.Tang H,Xiao G,Behrens C,et al.A 12-gene set predicts survivalbenefits from adjuvant chemotherapy in non-small cell lung cancerpatients.Clin Cancer Res 2013; 19:1577-86.
30.Pardo LA,Stühmer W.The roles of K+channels in cancer.Nat RevCancer 2014;14:39-48.
31.Jentsch TJ.VRACs and other ion channels and transporters in theregulation of cell volume and beyond.Nat Rev Mol Cell Biol 2016;17:293-307.

Claims (12)

1.一种预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测肺癌病人预后的基因表达分类器。
2.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第一阶段通过使用肺癌病人的基因表达信息和临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基因。
3.根据权利要求2所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,对所有基因的表达和预后情况的Pearson系数的绝对值由大到小排序,获得与真实一年内复发高度相关的基因。
4.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,使用LOOCV方法获得最佳的基因类别和数目,建立所述基因表达分类器雏形。
5.根据权利要求4所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,使用基因表达分类器雏形计算用于验证的肿瘤样本的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一致性,验证所述基因表达分类器雏形的效能。
6.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,第一阶段的基因表达分类器雏形包含有基因列表。
7.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第二阶段,包括特征排序,所述特征排序基于单因素的Cox比例风险回归模型所得p值进行。
8.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第二阶段采用KM生存分析计算高风险组和低风险组之间的时序检验p值,时序检验p值最小的Cox模型所包含的基因种类和数目就是所构建的基因表达分类器。
9.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法的构建方法,其特征在于,验证阶段使用芯片数据集验证所获得的基因表达分类器。
10.一种基因表达分类器,其特征在于,所述基因表达分类器是根据权利要求1-9任一项权利要求所述的构建方法建立的基因表达分类器。
11.根据权利要求10所述的基因表达分类器,其特征在于,所述基因表达分类器为19-基因表达分类器。
12. 根据权利要求11所述的基因表达分类器,其特征在于,所述19-基因表达分类器的基因选自GALNT2、C17orf50、STC2、C8orf46 、ZNF441、ZNF563、ZNF763、TMEM63C、ZNF442、C9orf135、ACTN1、C4orf12、CSF2、ZNF879、NAGS、C15orf63、ZNF799、C6orf176、C14orf129组成的组。
CN201710428039.7A 2017-06-08 2017-06-08 预测肺癌病人预后的基因表达分类器及其构建方法 Pending CN107292127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710428039.7A CN107292127A (zh) 2017-06-08 2017-06-08 预测肺癌病人预后的基因表达分类器及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710428039.7A CN107292127A (zh) 2017-06-08 2017-06-08 预测肺癌病人预后的基因表达分类器及其构建方法

Publications (1)

Publication Number Publication Date
CN107292127A true CN107292127A (zh) 2017-10-24

Family

ID=60096343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710428039.7A Pending CN107292127A (zh) 2017-06-08 2017-06-08 预测肺癌病人预后的基因表达分类器及其构建方法

Country Status (1)

Country Link
CN (1) CN107292127A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885973A (zh) * 2017-11-20 2018-04-06 沈阳柏敖生信生物科技有限公司 一种dna修复基因在大肠癌中的临床研究方法
CN109234387A (zh) * 2018-11-27 2019-01-18 北京泱深生物信息技术有限公司 C14orf129作为分子靶标在阿尔茨海默诊治中的应用
CN109628591A (zh) * 2018-12-04 2019-04-16 南方医科大学南方医院 用于肺腺癌预后预测的标志物
CN110111892A (zh) * 2019-04-29 2019-08-09 杭州电子科技大学 一种nsclc患者术后短期复发转移风险评估系统
CN111180009A (zh) * 2020-01-03 2020-05-19 山东大学 一种基于基因组分析的癌症分期预测系统
CN111863159A (zh) * 2020-06-01 2020-10-30 中山大学孙逸仙纪念医院 一种肿瘤免疫治疗疗效预测的列线图模型及其建立方法
CN111913999A (zh) * 2020-06-08 2020-11-10 华南理工大学 基于多组学与临床数据的统计分析方法、系统和存储介质
CN112626218A (zh) * 2021-01-07 2021-04-09 浙江科技学院 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
CN113077875A (zh) * 2021-03-23 2021-07-06 零氪智慧医疗科技(天津)有限公司 Ct影像的处理方法及装置
CN113345592A (zh) * 2021-06-18 2021-09-03 山东第一医科大学附属省立医院(山东省立医院) 一种急性髓细胞样白血病预后风险模型的构建及诊断设备
CN115527614A (zh) * 2022-04-12 2022-12-27 洛兮医疗科技(杭州)有限公司 肺动脉高压患者基因表达分类器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111604A (zh) * 2004-10-06 2008-01-23 新加坡科技研究局 基于p53状态与基因表达谱的关联而用于分类、预后和诊断癌症的方法、系统和阵列
CN102939534A (zh) * 2010-04-02 2013-02-20 维里德克斯有限责任公司 用于临床局限性前列腺癌患者的基于基因的psa复发预测
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111604A (zh) * 2004-10-06 2008-01-23 新加坡科技研究局 基于p53状态与基因表达谱的关联而用于分类、预后和诊断癌症的方法、系统和阵列
CN102939534A (zh) * 2010-04-02 2013-02-20 维里德克斯有限责任公司 用于临床局限性前列腺癌患者的基于基因的psa复发预测
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO TANG 等: "A 12-Gene Set Predicts Survival Benefits from Adjuvant Chemotherapy in Non–Small Cell Lung Cancer Patients", 《PREDICTIVE BIOMARKERS AND PERSONALIZED MEDICINE》 *
HYUN-SUNG LEE 等: "Genomic Analysis of Thymic Epithelial Tumors Identifies Novel Subtypes Associated with Distinct Clinical Features", 《BIOLOGY OF HUMAN TUMORS》 *
李颖新等: "肿瘤基因表达谱分类特征基因选取问题及分析方法研究", 《计算机学报》 *
覃婷等: "基于肿瘤患者高维生物信息的生存预测", 《中国卫生统计》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885973A (zh) * 2017-11-20 2018-04-06 沈阳柏敖生信生物科技有限公司 一种dna修复基因在大肠癌中的临床研究方法
CN107885973B (zh) * 2017-11-20 2023-06-09 辽宁省肿瘤医院 一种dna修复基因在大肠癌中的临床研究方法
CN109234387A (zh) * 2018-11-27 2019-01-18 北京泱深生物信息技术有限公司 C14orf129作为分子靶标在阿尔茨海默诊治中的应用
CN109234387B (zh) * 2018-11-27 2021-08-13 青岛泱深生物医药有限公司 C14orf129作为分子靶标在阿尔茨海默诊治中的应用
CN109628591A (zh) * 2018-12-04 2019-04-16 南方医科大学南方医院 用于肺腺癌预后预测的标志物
CN109628591B (zh) * 2018-12-04 2022-04-15 南方医科大学南方医院 用于肺腺癌预后预测的标志物
CN110111892A (zh) * 2019-04-29 2019-08-09 杭州电子科技大学 一种nsclc患者术后短期复发转移风险评估系统
CN111180009A (zh) * 2020-01-03 2020-05-19 山东大学 一种基于基因组分析的癌症分期预测系统
CN111180009B (zh) * 2020-01-03 2023-04-28 山东大学 一种基于基因组分析的癌症分期预测系统
CN111863159A (zh) * 2020-06-01 2020-10-30 中山大学孙逸仙纪念医院 一种肿瘤免疫治疗疗效预测的列线图模型及其建立方法
CN111913999A (zh) * 2020-06-08 2020-11-10 华南理工大学 基于多组学与临床数据的统计分析方法、系统和存储介质
CN111913999B (zh) * 2020-06-08 2024-05-28 华南理工大学 基于多组学与临床数据的统计分析方法、系统和存储介质
CN112626218A (zh) * 2021-01-07 2021-04-09 浙江科技学院 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
CN113077875A (zh) * 2021-03-23 2021-07-06 零氪智慧医疗科技(天津)有限公司 Ct影像的处理方法及装置
CN113345592A (zh) * 2021-06-18 2021-09-03 山东第一医科大学附属省立医院(山东省立医院) 一种急性髓细胞样白血病预后风险模型的构建及诊断设备
CN115527614A (zh) * 2022-04-12 2022-12-27 洛兮医疗科技(杭州)有限公司 肺动脉高压患者基因表达分类器
CN115527614B (zh) * 2022-04-12 2023-12-26 陈恩国 一种肺动脉高压的基因表达分类器

Similar Documents

Publication Publication Date Title
CN107292127A (zh) 预测肺癌病人预后的基因表达分类器及其构建方法
Peng et al. The gut microbiome is associated with clinical response to anti–PD-1/PD-L1 immunotherapy in gastrointestinal cancer
Zou et al. Cancer biomarker discovery for precision medicine: new progress
Jayawardana et al. Determination of prognosis in metastatic melanoma through integration of clinico‐pathologic, mutation, mRNA, microRNA, and protein information
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
KR20230045009A (ko) 낮은 커버리지 차세대 시퀀싱 데이터에서 상동 복구 결핍과 같은 염색체 공간 불안정성을 확인하는 방법
CN107463798A (zh) 预测结肠腺癌预后的12‑基因表达分类器及其构建方法
KR20220110751A (ko) 개인 맞춤형 암 요법을 위한 종양 생태계 디콘볼루션 시스템 및 방법
Mu et al. International prognostic index-based immune prognostic model for diffuse large B-cell lymphoma
Kim et al. MHC II immunogenicity shapes the neoepitope landscape in human tumors
CN109949862A (zh) 一种血液ctDNA的微卫星不稳定性检测方法
Sfakianakis et al. On the identification of circulating tumor cells in breast cancer
Zhou et al. Characterization of aging cancer-associated fibroblasts draws implications in prognosis and immunotherapy response in low-grade gliomas
Jiang et al. Artificial Intelligence Meets Whole Slide Images: Deep Learning Model Shapes an Immune‐Hot Tumor and Guides Precision Therapy in Bladder Cancer
Borisov et al. Individual drug treatment prediction in oncology based on machine learning using cell culture gene expression data
Agulló-Ortuño et al. Lung cancer genomic signatures
WO2023063605A1 (ko) 네트워크에 기반한 머신러닝 기법을 활용하여 암 환자에 대한 ici 치료 효과와 전체 생존률을 예측할 수 있는 바이오마커의 탐색 장치 및 방법
Al-Fatlawi et al. NetRank recovers known cancer hallmark genes as universal biomarker signature for cancer outcome prediction
Wang et al. The loss of neoantigens is an important reason for immune escape in multiple myeloma patients with high intratumor heterogeneity
Ruan et al. Integrative analysis of single-cell and bulk multi-omics data to reveal subtype-specific characteristics and therapeutic strategies in clear cell renal cell carcinoma patients
Zeng et al. A cellular hierarchy framework for understanding heterogeneity and predicting drug response in AML
Zhang et al. A high epigenetic risk score shapes the non-inflamed tumor microenvironment in breast cancer
Yun et al. Identification of a Four‐lncRNA Prognostic Signature for Colon Cancer Based on Genome Instability
Dmitrenko et al. Determination of molecular glioblastoma subclasses on the basis of analysis of gene expression
CN116312814B (zh) 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180223

Address after: New Kumho 210061 Nanjing Road, Jiangsu province high tech development 3-1 Danish Ecological Life Science Industrial Park B building 601 room

Applicant after: Nanjing Ming Jie biopharmaceutical Testing Co., Ltd.

Address before: The new Kumho road in Pukou District of Nanjing City, Jiangsu province 210061 No. 3-1 Danish Ecological Life Science Industry Park building B 5-7F

Applicant before: Nanjing hi tech bio pharmaceutical public service platform Co., Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171024

WD01 Invention patent application deemed withdrawn after publication