CN114438209A - 一种预测三阴乳腺癌临床预后整体生存的标志物及模型 - Google Patents
一种预测三阴乳腺癌临床预后整体生存的标志物及模型 Download PDFInfo
- Publication number
- CN114438209A CN114438209A CN202210118821.XA CN202210118821A CN114438209A CN 114438209 A CN114438209 A CN 114438209A CN 202210118821 A CN202210118821 A CN 202210118821A CN 114438209 A CN114438209 A CN 114438209A
- Authority
- CN
- China
- Prior art keywords
- model
- expression
- breast cancer
- overall survival
- expression level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Pathology (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Microbiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Hospice & Palliative Care (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Theoretical Computer Science (AREA)
- Oncology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种预测三阴乳腺癌临床预后整体生存的标志物及模型,所述标志物包括以下基因中的一种或两种以上的组合:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1。本发明以整体生存率为模型的目标函数,基于关联系数分层的迭代线性回归算法,利用三阴乳腺癌切片的全转录组数据,建立准确的临床预后整体生存预测模型。本发明提供的模型可以在三阴乳腺癌患者进行治疗之前评估临床预后整体生存率,用于指导制定精确的治疗方案。
Description
技术领域
本发明涉及精准医疗技术领域,具体涉及一种预测三阴乳腺癌临床预后整体生存的标志物及模型。
背景技术
三阴性乳腺癌(TNBC)是指癌组织免疫组织化学检查结果为雌激素受体(ER)、孕激素受体(PR)和原癌基因Her-2均为阴性的乳腺癌,约占所有乳腺癌的20%。多发于绝经前年轻女性,临床表现为侵袭性病程,远处转移风险较高,内脏转移机会高于骨转移,脑转移几率也较高。三阴性乳腺癌的远处转移风险在3年时达到高峰。目前尚无特定针对TNBC的治疗指南,尽管化疗及辅助化疗有一定疗效,但预后仍较差,死亡风险较高。理论上,如果能够基于转录组信息算法模型对三阴性乳腺癌进行分子检测,可以有助于为三阴性乳腺癌病人提供个性化的精准医疗。
在现有技术中,已经有利用转录组进行乳腺癌的精准医疗,其源头为美国基因健康公司2005年推出的乳腺癌21基因检测,根据21个基因的mRNA表达水平得到复发分数,用于ER阳性或PR阳性、HER2阴性,无淋巴结扩散的早期乳腺癌病人的检测,指导术后进行化疗或者辅助激素治疗的依据:复发分数不大于17分的建议不用化疗。通过15年的临床应用,21基因检测写入NCCN乳腺癌治疗指南的推荐检测,取得了巨大的成功。对于21基因检测的高风险人群(复发分数>31),临床结果验证了化疗的有效性。然而,研究表明TNBC与BLBC只有56%的吻合,所以对TNBC需要建立独立的分子分型模型。
现有技术中,已有与TNBC分子模型相关的报道。例如,Lehman等人在2011年利用公开数据库数据,采用k-平均多层聚类算法对三阴性乳腺癌进行分子分型,根据基因表达模式把三阴性乳腺癌分成6个亚型:基底样1(BL1)、基底样2(BL2)、免疫调节(IM)、间充质(M)、间充质干细胞样(MSL)、和管腔雄激素受体(LAR)。利用约30个分别对应6个亚型的乳腺癌细胞系模型,试图建立对每个亚型的精准治疗方案。
第三军医大学西南医院病理研究所和西南癌症中心卞修武教授团队在2020年对于TNBC的转录组分子分型的学术研究发展进行了较全面的综述,他们把分子分型分为三个发展阶段。上述6个亚型为第一阶段。2015年Burstein等人把改进的亚型分为四个亚型:LAR,表达AR和细胞表面粘蛋白MUC1;M、表达生长因子受体(血小板衍生长因子受体α[PDGFRα]和c-Kit受体);BLIS(基底样免疫抑制性),表达免疫抑制分子VTCN1;BLIA(基底样免疫激活性),表达STAT信号转导分子并释放细胞因子。预后分析显示,无病生存率(DFS)的顺序为:BLIA>M>LAR>BLIS(p=0.019),疾病特异性生存率(DSS)为:BLIA>M>LAR>BLIS(p=0.07),此为第二阶段。第三阶段为复旦分型(FUSCC),刘等人结合mRNA及非编码长RNA(lncRNA)共表达网络进行模型优化,得到优化后的4个亚型:IM、免疫调节;LAR、管腔雄激素受体;MES、间充质样;BLIS、基底样和免疫抑制。通过全转录组数据构建TNBC预后预测模型,区分术后高、低危复发风险组。
然而,基于转录组基因表达的分子模型在TNBC方面的应用目前仍处于学术研究阶段,尚无一种模型在临床上得到广泛验证及应用。本领域技术人员希望开发基于TNBC转录组基因表达的预后模型,从而有助于实现三阴性乳腺癌的精准治疗,改善治疗手段及预后。
发明内容
本发明的目的在于提供一种预测三阴乳腺癌临床预后整体生存的标志物及模型,利用该标志物及模型,可以在治疗之前提前评估患者的临床预后整体生存情况,从而有利于指导对三阴乳腺癌患者制定术后治疗方案。
为此,第一方面,本发明提供一种预测三阴乳腺癌临床预后整体生存的标志物,所述标志物包括以下基因中的一种或两种以上的组合:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1。
在一些实施方式中,所述标志物包括以下基因中的至少十七种、至少十六种、至少十五种、至少十四种、至少十三种、至少十二种、至少十一种、至少十种、至少九种、至少八种、至少七种、至少六种、至少五种、至少四种、至少三种或至少两种的组合:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1。
在一些实施方式中,所述标志物由以下基因组成:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1。
在一些实施方式中,所述标志物由以下基因组成:HSD3B2、RAD51C。
在一些实施方式中,所述标志物由以下基因组成:GREM1、TPMT。
在一些实施方式中,所述标志物由以下基因组成:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1。
在一些实施方式中,所述标志物由以下基因组成:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、KIT、RAD51C、STAT3、TPMT、URM1。
本发明的第二方面,提供一种预测三阴乳腺癌临床预后整体生存的模型,所述模型为:所述模型以以下基因中的一种或两种以上的组合作为标志物:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1;所述Expt为标志物中每个基因的mRNA表达量,βt为对应每个基因的加权系数。
进一步,所述加权系数根据迭代线性回归计算得到。
在一些实施方式中,所述模型为:生存分数(OS Score)=(βBIRC7×表达量BIRC7)+(βBMPR1A×表达量BMPR1A)+(βCASP3×表达量CASP3)+(βCNN1×表达量CNN1)+(βCSF3R×表达量CSF3R)+(βDTL×表达量DTL)+(βEXO1×表达量EXO1)+(βEXTL2×表达量EXTL2)+(βFHL1×表达量FHL1)+(βGREM1×表达量GREM1)+(βHSD3B2×表达量HSD3B2)+(βIGF1R×表达量IGF1R)+(βIKZF1×表达量IKZF1)+(βKIT×表达量KIT)+(βRAD51C×表达量RAD51C)+(βSTAT3×表达量STAT3)+(βTPMT×表达量TPMT)+(βURM1×表达量URM1);其中,表达量为对应基因的mRNA表达量,β为根据迭代线性回归计算得到的对应基因的加权系数。
进一步,所述模型中,βBIRC7、βIGF1R、βRAD51C、βCNN1、βIKZF1、βBMPR1A、βTPMT、βEXO1、βEXTL2均小于0,βURM1、βCASP3、βSTAT3、βDTL、βGREM1、βCSF3R、βKIT、βHSD3B2、βFHL1均大于0。
在一些实施方式中,所述模型为:生存分数(OS Score)=(-0.0445×表达量BIRC7)+(-0.1073×表达量BMPR1A)+(0.1153×表达量CASP3)+(-0.0622×表达量CNN1)+(0.0642×表达量CSF3R)+(0.0861×表达量DTL)+(-0.1108×表达量EXO1)+(-0.1351×表达量EXTL2)+(0.0436×表达量FHL1)+(0.0688×表达量GREM1)+(0.0506×表达量HSD3B2)+(-0.0472×表达量IGF1R)+(-0.0924×表达量IKZF1)+(0.0565×表达量KIT)+(-0.0533×表达量RAD51C)+(0.1121×表达量STAT3)+(-0.1095×表达量TPMT)+(0.1669×表达量URM1)。
本发明的第三方面,提供所述标志物或模型在制备预测三阴乳腺癌临床预后整体生存的产品中的应用。
本发明的第四方面,提供一种预测三阴乳腺癌临床预后整体生存的模型的构建方法,包括以下步骤:
S1、获取三阴乳腺癌患者的乳腺癌切片的全转录组数据;进行数据初筛及标准化,组成数据集;
S2、在所述数据集中,利用t-检验寻找能够区分临床预后生存与临床预后死亡的人群的有统计意义(p<0.05)的基因,得到差异表达的基因;
S3、将所述差异表达的基因分为表达上调组和表达下调组,对所述表达上调组和表达下调组分别进行分层关联系数聚类,每个聚类中选取与该聚类其它基因平均关联度最大的作为模型候选基因;
S4、对所述模型候选基因,循环不同的模型变量个数(s),进行迭代线性回归分析,建立三阴乳腺癌临床预后整体生存的模型;
所述模型为:所述模型以以下基因中的一种或两种以上的组合作为标志物:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1;所述Expt为标志物中每个基因的mRNA表达量,βt为对应每个基因的加权系数。
本发明的第五方面,提供一种预测三阴乳腺癌临床预后整体生存的试剂盒,所述试剂盒包括所述标志物的检测试剂。
进一步,所述试剂盒包括本发明所述的模型。
进一步,使用所述试剂盒预测三阴乳腺癌临床预后整体生存的步骤包括:
(1)检测来自三阴乳腺癌患者的待测样本中所述标志物的mRNA表达量;
(2)将步骤(1)检测得到的所述标志物的mRNA表达量带入本发明所述的模型中,计算得到生存分数(OS Score);
(3)当所述生存分数(OS Score)大于门槛分数时,该三阴乳腺癌患者属于临床预后整体生存率低;当所述生存分数(OS Score)小于门槛分数时,该三阴乳腺癌患者属于临床预后整体生存率高。
根据本发明的技术方案,可参考临床预后整体生存的预测结果,指导对患者的治疗方案。
进一步,所述待测样本来自组织、体液等。
本发明的第六方面,提供一种预测三阴乳腺癌临床预后整体生存的设备,所述设备包括检测装置和处理器;
所述检测装置用于检测待测样本中本发明所述的标志物中的基因的mRNA表达量;
所述处理器用于读取所述检测装置测得的基因的mRNA表达量并根据本发明提供的模型计算生存分数(OS Score),再根据门槛分数预测受试者为临床预后整体生存率高或整体生存率低。
进一步,所述设备还包括输出装置,所述输出装置用于输出所述处理器的预测结果。
在一些实施方式中,所述输出装置为显示器。
与现有技术相比,本发明的技术方案具有以下优点:
本发明以整体生存率(Overall Survival,OS)为模型的目标函数,通过独创的建模方法,即基于关联系数分层的迭代线性回归算法,利用TNBC乳腺癌切片的全转录组数据,建立准确的临床预后整体生存预测模型。本发明提供的模型可以在TNBC患者进行治疗之前评估临床预后整体生存率,指导对TNBC患者制定精确的治疗方案。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1:以BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1作为标志物的整体生存模型,进行随机二分交叉验证重复过程中代表性AUC值(重复次数=20次);
图2:本发明提供的整体生存标志物中各基因的表达量框图;
图3:将单个基因作为标志物进行整体生存预测结果评价时的ROC曲线;
图4:以HSD3B2、RAD51C作为标志物的整体生存模型,进行数据随机二分交叉验证重复过程中的代表性AUC值(重复次数=20);
图5:以GREM1、TPMT作为标志物的整体生存模型,进行数据随机二分交叉验证重复过程中的代表性AUC值(重复次数=20);
图6:以BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1作为标志物的整体生存模型,进行数据随机二分交叉验证重复过程中的代表性AUC值(重复次数=20);
图7:以BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、KIT、RAD51C、STAT3、TPMT、URM1作为标志物的整体生存模型,进行数据随机二分交叉验证重复过程中的代表性AUC值(重复次数=20);
图8:采用实施例1中TCGA乳腺癌数据集BRCA,根据本发明提供的整体生存模型(以18个基因作为标志物)描绘得到的ROC曲线,用于评估模型预测临床预后整体生存的能力;
图9:以0.4098为门槛分数,大于门槛分数为整体生存率低,小于门槛分数则为整体生存率高;利用cox模型进行生存分析,对应的整体生存时间K-M曲线。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明以整体生存率(Overall Survival,OS)为模型的目标函数,通过基于关联系数分层的迭代线性回归算法,利用TNBC乳腺癌切片的全转录组数据,建立准确的临床预后整体生存预测模型。
所述模型为:所述模型以以下基因中的一种或两种以上的组合作为标志物:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1;所述Expt为标志物中每个基因的mRNA表达量,βt为对应每个基因的加权系数。
本发明对所述的标志物的任意子集进行了评价,根据评价结果,在一些实施方式中,可以将上述十八种基因中的至少十七种、至少十六种、至少十五种、至少十四种、至少十三种、至少十二种、至少十一种、至少十种、至少九种、至少八种、至少七种、至少六种、至少五种、至少四种、至少三种或至少两种的组合作为标志物。在另一些实施方式中,可以将上述十八种基因的组合作为标志物。在再一些实施方式中,可以将上述十八种基因中的任意一种作为标志物。
对于本发明提供的标志物中的基因,其中多个基因参与如TGF-a/b、Wnt、NF-kB、Hippo、Hedgehog、Notch等多个信号通路和功能类别,将其按照主要功能及信号通路可以进行如下分类:
·DNA损伤修复及染色体稳定性:URM1、RAD51C、EXO1;
·细胞程序性死亡,细胞凋亡和细胞焦忘:BIRC7、CASP3、IGF1R;
·TGF-b家族成员:BMPR1A;
·细胞周期:DTL;
·细胞骨架及ECM:EXTL2、CCN1;
·免疫细胞:HSD3B2、IKZF1;
·激素:CSF3R、FHL1;
·STAT3相关通路:STAT3、KIT、GREM1;
·药物代谢:TPMT
Bray,S.M.【BRA2019】研究了URM1在DNA损伤修复过程中的破坏作用,URM1改变MRE11/RAD50复合体,后者通过同源重组调控机制参与DNA损伤的初始识别和后续修复因子的补充。而泛素化-蛋白酶体破坏途径是DNA修复过程终止时从染色质中提取DNA修复成分的一种机制。URM1在泛素样结合途径(称为Urmylation)和tRNA硫酰化中起作用,URM1参与RAD50的Urmylation及降解,从而中断DNA损伤修复过程,导致染色体不稳定。另一方面,Delaunay S,et al.【DEL2016】在研究tRNA在其摆动尿苷(wobble uridine)基U34的后转录修饰机制中的重要蛋白ELP3、CTU1/2及相关酶如URM1等在乳腺癌高表达,促进转移,通过表达致癌基因DEK,从而使促侵袭因子LEF1实现内部核糖体进入位点(IRES)依赖性转录。生存分数模型中URM1权重为正且最大,表明URM1高表达为TNBC病人死亡的最危险因素。
模型中第二个DNA损伤修复的重要基因为抑癌RAD51C。其一、RAD51C参与DNA损伤修复的同源重组过程并在DNA双链断裂(DSB)时诱导RAD51至DSB。其二、通过与BRCA-RAD51复合物的直接作用,RAD51C与乳腺癌有更多关联。其三、RAD51C是检查点信号调节器,帮助ATM对CHK2的磷酸化,延缓细胞周期过程。Alayev A,et al.【ALA2016】的研究表明,雌激素在导致DNA损伤DSB时,诱导RAD5C表达进行修复,因此DSB损伤修复过程异常可能导致ER+乳腺癌癌变。对ER+乳腺癌样本的分析表明,高表达RAD51C为无远处转移生存的负面因素并用RFS得到验证。与ER+乳腺癌相反,在TNBC的生存期模型,RAD51C权重为负数,高表达RAD51C对应较好生存期预后。
模型中第三个DNA损伤修复的重要基因为EXO1。Yan S,et al.【YAN2021】综述EXO1的功能包括参与DNA双链断裂修复、错配修复(MMR)、减数分裂重组、端粒维护。在TNBC的生存期模型,EXO1权重为负数且其绝对值较大,表明EXO1为TNBC生存期长的重要正面因素。
BIRC7属于细胞凋亡抑制蛋白家族的编码基因,研究发现许多癌细胞通过BIRC家族基因的表达实现对细胞凋亡的耐受性,TNBC样本中BIRC基因表达异常显示TNBC的癌细胞凋亡的正常过程受阻,从而对化疗耐药。Makuch-Kocka et al.【MAK2021】研究了TNBC包含BIRC7的8种BIRC家族基因表达的临床意义。BIRC7有促凋亡和抗凋亡活性双重性,模型中BIRC7系数为负,促进生存,暗示BIRC7在TNBC中为促凋亡,其高表达对临床预后有正面作用。
CASP3为程序性细胞死亡的重要基因。Jiang MX,et al.【JIA2020】综述CASP3/GSDME信号通路在细胞凋亡(Apoptosis)与细胞焦亡(Pyroptosis)的选择机制。细胞焦亡为发炎性程序性细胞死亡【TAN2021】。在抑癌基因GSDME高表达时,CASP3把GSDME的N端区切下,N端区刺破细胞膜,导致细胞焦亡;GSDME低表达时,细胞则进行经典细胞凋亡。GSDME还促进CASP3表达,形成促进细胞焦亡的正向反馈闭环,这与化疗及抗肿瘤免疫的副作用相关。生存分数模型中CASP3权重为正且第二大,表明细胞焦亡的高CASP3也是TNBC病人死亡的重要危险因素。.
Farabaugh SM,et al.【FAR2015】综述了IGF1R在不同乳腺癌亚型的作用与机制。类胰岛素生长因子(IGF1/2)为血液循环中内分泌激素,对身体成长至关重要,主要有肝脏在垂体生长激素的刺激下分泌。IGF1/2通过结合及激活受体IGF1R对下游基因发挥作用,而对应的IGF2R则为刹车器。IGF1R抗细胞凋亡主要有三个通路:PI3K/AKT、RAS/MAPK、与14.3.3蛋白结合诱导的Raf线粒体易位。TCGA乳腺癌数据集显示45.3%的病例存在IGF通路基因异常,而IGF1R异常(放大,过表达,突变)为9%。按人种而言,乳腺癌亚型发病率有显著差异,非裔美国人群中TNBC占30%,而白人美国人群中TNBC只占12%。这种差异可能与IGF1R/IGF2R人种间表达差异相关:非裔美国妇女IGF1R表达比白人美国妇女偏高,而IGF2R偏低。生存分数模型中IGF1R权重为负,表明高表达IGF1R是TNBC病人生存期更长的正面因素,这与高表达IGF1R抗凋亡并促癌的结果相悖,暗示IGF1R在TNBC中可能存在其它独特的保护性作用机制。
TGF-b信号通路为许多其它信号通路的基础。Sulaiman et al.【SUL2021】先介绍了TGF-b信号通路,然后综述以清除肿瘤干细胞为目标来抑制TGF-b通路的治疗TNBC可能性临床方案。TGF-b信号通路可以促进MAPK/ERK,PI3K/Akt/mTOR/S6K,RhoA/Rac信号通路,许多在TNBC中异常。作为TGF-b家族成员的BMPR1A与TNBC复发及不良预后负相关。模型中BMPR1A的权重为负数,表明BMPR1A的表达有促进生存的作用。
STAT3是十分重要的致癌基因转录因子和许多癌症原创药物的目标,以此开展的临床研究有十几个。对STAT3致癌机制已经有大量的研究。Qin JJ,et al.【QIN2019】就STAT3在TNBC的致癌研究进行了系统的综述。过度表达的细胞因子受体,如IL-6R、IL-10R,及超活跃的生长因子受体,如EGFR、FGFR、IGFR,通过配体与这些受体的结合触发酪氨酸磷酸化级联反应,导致STAT3的异常激活及其下游靶基因的转录,从而导致癌细胞增殖、抗凋亡、迁移、侵袭、血管生成、抗化疗、免疫抑制、干细胞自我更新、维持以及自噬。SirkisoonSR,et al.【SIR2018】发现STAT3与致癌基因转录因子GLI1及其片段tGLI1的相互作用增强TNBC的侵略性。生存分数模型中STAT3权重为正且较大,表明高表达STAT3是TNBC病人死亡的重要危险因素。
模型中另一个可能参与激活STAT3的基因为KIT。KIT激活许多信号通路,对调节细胞存活和增殖、造血、干细胞维持、配子发生、肥大细胞发育、迁移和功能,以及黑素生成至关重要。S Kashiwagi,et al.【KAS2013】回访667例乳腺癌病人(回访中值时间39个月)的研究表明,在190例(28.5%)TNBC亚型中,基底样(BL1/2,KRT5/6+及/或者EGFR+)有149例(78.4%)。在整体人群中KIT+有111例(16.6%),而在基底样亚群中,KIT+有42例(28.2%),在淋巴结转移亚群中则有47例(占47/216=21.8%),另外,KIT+在TNBC为独立的负向预后因素(HR=2.29,95%CI=1.11~4.72)。为理解KIT在TNBC中具体角色,Hu JY,et al.【HUJ2021】发现糖浆核糖体生物发生因子1(TCOF1)在TNBC高表达,推动癌细胞的干细胞化及肿瘤生长,预后差,并证明KIT为TCOF1调控TSC通路的下游效应器。生存分数模型中KIT权重为正,表明高表达KIT是TNBC病人死亡的重要危险因素。
模型中另一个基因GREM1,属于骨形态发生蛋白(BMP)蛋白抑制器,参与器官生成,组织分化与器官纤维化。Sung NJ,et al.【SUN2020】研究发现GREM1通过STAT3-MMP13通路推动乳腺癌细胞肺转移。Neckmann1 U,et al.【NEC2019】发现GREM1高表达与ER阴性乳腺癌转移及预后不良相关。生存分数模型中GREM1权重为正且较大,表明高表达GREM1是TNBC病人死亡的重要危险因素。
DTL又名维A酸(维生素A衍生物)调节的核基质相关蛋白(RAMP)。Ueki T,et al.【UEK2008】发现在乳腺癌细胞系的生长过程中,DTL通过有丝分裂激酶AURKB的作用而磷酸化,参与细胞周期多个环节的调控。Cui HR,et al.【CUI2019】研究表明DTL通过降解PDCD4(程序性细胞死亡4)促进癌细胞的运动和增殖,从而促进肿瘤的发展。生存分数模型中DTL权重为正且较大,表明高表达DTL是TNBC病人死亡的重要危险因素。
粒细胞集落刺激因子(G-CSF)受体CSF3R为致癌基因,其突变为一些白血病病人的标志,且在其它许多种癌症表达异常。G-CSF与肿瘤相关巨噬细胞(TAM)有关,从而与乳腺癌生长及转移相关。Hollman M,et al.【HOL2015】用不同的乳腺癌细胞系研究巨噬细胞活化机制时发现,TNBC细胞系MDA-MB-231分泌高G-CSF,催生免疫抑制巨噬细胞HLA-DRio,巨噬细胞则分泌TGF-a来推动癌细胞转移。在肿瘤组织样本,G-CSF在TNBC表达偏高,与CD163+巨噬细胞关联,G-CSF高表达人群对应不良OS。Hunag XY,et al.【HUA2020】利用公开数据集研究了24种癌症的GSF表达发现,G-CSF及受体基因在乳腺癌高表达人群对应不良预后。生存分数模型中CSF3R权重为正,也表明高表达CSF3R是TNBC病人死亡的危险因素。
IKZF1为模型中另一个与免疫细胞相关基因,属于造血和免疫转录调节因子(Ikaros)家族。Ikaros在造血干细胞分化成免疫细胞起重要作用。Arco PGD,et al.【ARC2005】叙述了Ikaros基因族对淋巴细胞生成的作用,Ikaros调控CD8的表达。在细胞周期方面,Ikaros通过其DNA结合功能负向调控G1/S过渡从而抑制细胞生长,有抑癌作用。Chen JC,et al.【CHE2018】发现IKZF1增强实体瘤的免疫渗透性,能够提高免疫治疗敏感性。生存分数模型中IKZF1权重为负,表明高表达IKZF1是TNBC病人生存期延长的有利因素。
HSD3B2酶为所有激素类固醇生物合成的关键催化剂。在一份科研报告中,WigginsGAR,et al.【WIG2021】发现,作为将胆固醇转化为乳腺相关激素的C21-类固醇生物合成路径相关的四个基因之一的HSD3B2,其SNP(rs11075995)为乳腺癌风险等位基因,与DNA去甲基酶FTO的下调相关,导致激素生物合成的异常,从而增加乳腺癌风险。此外,还有大量关于HSD3B2的SNP为前列腺癌的风险等位基因的研究。生存分数模型中HSD3B2权重为正,表明高表达HSD3B2是TNBC病人死亡的危险因素。
FHL1称为四个半LIM蛋白1。LIM结构域指LIN-1、ISL-1和MEC-3蛋白共有的独特的双锌手指结构。Ding LH,et al.【DIN2009】发现FHL1通过下调ER来抑制乳腺癌细胞锚定依赖及非锚定依赖生长。生存分数模型中FHL1权重为正,表明高表达FHL1可能导致ER-,减弱对癌细胞生长的抑制性,是TNBC病人死亡的危险因素。
硫酸乙酰肝素(HS)蛋白多糖(PG),HSPG,为细胞外基质(ECM)的重要成分,HSPG合成过程中,糖基转移酶EXT家族基因,包括EXT1/2/3,EXTL1/2,调控其HS骨架的延展。Busse-Wicher M,et al.【BUS2014】对EXT家族基因及其与疾病关系进行了综述。Faria-Ramos I,et al.【FRA2021】对HSPG在癌症临床应用令人惊讶的作用进行了详细的综述。Nadanaka S,et al.【NAD2012】发现EXTL2调控HSPG合成过程中的糖胺聚糖(GAG)的合成,导致其多聚体延展终止。Sembajwe LF,et al.【FRA2021】研究了ER+/PR+乳腺癌细胞系MCF-7、ER-/PR-的非癌症细胞系MCF10A、TNBC细胞系MDA-MB-231及HCC38中EXT家族基因的表达差异、糖基转移酶活性、及HS结构发现:一、EXT1在MCF-7表达极低,EXTL2在MDA-MB-231及HCC38高表达;二、MDA-MB-231及HCC38表达几乎无区别,但两者HS结构十分不同;三、糖基转移酶活性HCC38比正常细胞MCF10A高两倍;而MDA-MB-231比MCF10A低两倍。生存分数模型中EXTL2权重为负且绝对值最大,表明高表达EXTL2为TNBC病人生存期更长的最重要的正面因素。
CCN1,细胞通信网络(Cellular Communication Network,CCN)因子1,顾名思义,对细胞许多功能起重要作用。Li J,et al.【LIJ2015】对CCN在癌症发生和转移的角色进行了十分出色的综述。CCN有四个结构域:
·IGFBP:类胰岛素生长因子IGF结合区;
·VWC:Von Willebrand因子区,为TGF-b、BMP、整合素结合区;
·TSP1:1型凝血酶反应蛋白重复段,为VEGF、LPR、HSPG、整合素结合区;
·CT:半胱氨酸纽结区,为VEGF、LPR、HSPG、整合素、Notch1、纤蛋白C1结合区。
多个结合区表明CNN参与TGF-a/b及Wnt等许多信号通路。CCN1在卵巢癌、前列腺癌、神经胶质瘤、乳腺癌、肾癌等高表达;而在子宫内膜癌、肺癌、软骨肉瘤、肠癌却低表达。在乳腺癌领域,Lin MT,et al.【LIN2004】使用MCF-7细胞揭示CNN1(即CYR61)通过激活整合素/NF-kB/XIAP对化疗诱导的细胞凋亡产生抵抗性。Lai D,et al.【LAI2011】发现乳腺癌细胞对紫杉醇(Taxol)的耐药性是因为激活了TAZ,称为含PDZ结合基序的转录共激活子。TAZ为Hippo-LATS通路的主要组件,与TEAD家族转录因子相互作用,激活下游基因CNN1/CTGF的启动子,诱导对紫杉醇的抵抗性。Harris LD,et al.【HAR2012】发现,在个体发育过程中参与血管生成的刺猬通路(Hedgehog Pathway)上,作用重大的配体SHH(声音刺猬,Sonichedgehog)激活HH转录因子GLI1,从而激活强效促血管生成分泌分子CNN1,促进癌细胞转移。生存分数模型中CNN1权重为负,表明高表达CNN1是TNBC病人生存期更长的正面因素,这与上述高表达CNN1导致化疗抵抗及癌症转移的结果相悖,但与模型中IGF1R的结果一致,暗示CNN1及IGF1R在TNBC中可能存在其它独特的保护性作用机制。
TPMT参与硫嘌呤类药物代谢,包括硫唑嘌呤、巯基嘌呤和硫鸟嘌呤,这类药物为免疫抑制剂,用于免疫系统疾病及血液病。Ruwali M,et al.【RUW2019】介绍癌症治疗药物动力学现状与进展时,关于TPMT与化疗药物的毒性有直接关系,有些TPMT缺失或表达低的病人,顺铂(Cisplatin)与5-FU等化疗药物无法代谢分解,导致更高的毒性,从而可能负面影响病人生存期,因此TPMT对化疗病人起保护作用。生存分数模型中TPMT权重为负,表明高表达TPMT是TNBC病人生存期更长的正面因素,与TPMT促进药物代谢相吻合。
综上所述,本发明提供的整体生存分数模型中的基因大多数涉及癌症相关的重要通路并且起主要作用,模型参数中权重的+/-与文献中正面/负面的作用相吻合,除了IGF1R,文献研究表明其抗细胞凋亡而促进癌症,但模型显示IGF1R为生存期长的正向因素,这可能是因为病人化疗时受损的正常细胞在细胞凋亡时被IGF1R拯救。本发明基于算法模型发现的可作为标志物的基因及其组合与这个领域的研究成果相吻合,表明本发明提供的算法模型的合理性。
本公开所使用的缩略语及术语
AUC:Area Under the Curve,曲线下面积
BL1/2:Basal Like 1/2Subtype,基底样1/2亚型
DFS:Disease Free Survival,无病生存期
DSB:Double-Strand Break,DNA双链断裂
ECM:Extracellular Matrix,细胞外基质
IM:Immunomodulatory Subtype,免疫调节亚型
IRES:Internal Ribosome Entry Site,内部核糖体进入位点
LAR:Luminal Androgen Receptor Subtype,管腔雄激素受体亚型
M:Mesenchymal Subtype间充质亚型
MSL:Mesenchymal Stem Like Subtype,间充质干细胞样亚型
OS:Overall Survival,整体生存期
RAMP:Retinoic acid-regulated nuclear matrix-associated protein,维A酸(维生素A衍生物)调节的核基质相关蛋白
RFS:Relapse Free Survival,无复发生存期
ROC:Receiver Operation Curve,受试者操作曲线
RSQ:R-Square,关联系数平方
SHH:Sonic hedgehog,声音刺猬(配体)
SNP:Single Nucleotide Polymorphism,单核苷酸多态性
TAM:Tumor-associated macrophage,肿瘤相关巨噬细胞
TNBC:Triple Negative Breast Cancer,三阴性乳腺癌
TSC:Tumor Stem Cell,肿瘤干细胞
参考文献
【LIN2004】Lin MT,et al.Cyr61 Expression Confers Resistance toApoptosis in Breast Cancer MCF-7Cells by a Mechanism of NF-kB-dependent XIAPUp-Regulation.The journal of biological chemistry Vol.279,No.23,Issue of June4,pp.24015–24023,2004.
【ARC2005】Arco PGD,et al.The Role of the Ikaros Gene Family inLymphocyte Development.Chapter 27In Book:Zinc Finger Proteins,pp.200-206,2005.
【UEK2008】Ueki T,et.al.Involvement of elevated expression of multiplecell-cycle regulator,DTL/RAMP(denticleless/RA-regulated nuclear matrixassociated protein),in the growth of breast cancer cells.Oncogene(2008)27,5672–5683.
【LAI2011】Lai D,et al.Taxol Resistance in Breast Cancer Cells IsMediated by the Hippo Pathway Component TAZ and Its DownstreamTranscriptional Targets Cyr61 and CTGF.Cancer Research;71(7),2011.
【HAR2012】Harris LG,Pannell LK,Singh S,Samant RS and Shevde LA:Increased vascularity and spontaneous metastasis of breast cancer by hedgehogsignaling mediated upregulation of cyr61.Oncogene 31:3370-3380,2012.
【BUS2014】Busse-Wicher M,et al.The extostosin family:Proteins withmany functions.Matrix Biology 35(2014)25–33.
【FAR2015】Farabaugh SM,et al.Role of IGF1R in breast cancer subtypes,stemness,and lineage differentiation.Frontiers in Endocrinology.6(59),2015.
【HOL2015】Hollmén M,Karaman S,Schwager S,et al.G-CSF regulatesmacrophage phenotype and associates with poor overall survival in humantriple-negative breast cancer.Oncoimmunology 2015;5:e1115177.
【LIJ2015】Li J,et al.Emerging role of CCN family proteins intumorigenesis and cancer metastasis(Review).International journal ofmolecular medicine 36:1451-1463,2015.
【ALA2016】Alayev A,et al.Estrogen induces RAD51C expression andlocalization to sites of DNA damage.Cell Cycle 15(23):3230–3239,2016.
【DEL2016】Delaunay S,et al.Elp3 links tRNA modification to IRES-dependent translation of LEF1 to sustain metastasis in breastcancer.J.Exp.Med.2016 Vol.213 No.11 2503–2523 https://doi.org/10.1084/jem.20160397.
【CHE2018】Chen JC,et al.IKZF1 Enhances Immune Infiltrate Recruitmentin Solid Tumors and Susceptibility to Immunotherapy.Cell System,2018,7(1):92-103 doi:10.1016/j.cels.2018.05.020.
【BRA2019】Bray,S.M.(2019).Mechanisms and regulation of dsDNA breakrepair in the Sulfolobus genus of thermophilic archaea(Doctoral thesis).https://doi.org/10.17863/CAM.37526.
【CUI2019】Cui HR,et.al.DTL promotes cancer progression byPDCD4ubiquitin-dependent degradation.Journal of Experimental&Clinical CancerResearch(2019)38:350.
【NEC2019】Neckmann U,et al.GREM1 is associated with metastasis andpredicts poor prognosis in ER-negative breast cancer patients.CellCommunication and Signaling(2019)17:140https://doi.org/10.1186/s12964-019-0467-7.
【RUW2019】Ruwali M,et al.Pharmacogenetics and Cancer Treatment:Progress and Prospects.In book Molecular Medicine,2019.
【HUA2020】Huang X,Hu P,Zhang J.Genomic analysis of the prognosticvalue of CSFs and CSFRs across 24solid cancer types.Ann Transl Med2020;8(16):994.doi:10.21037/atm-20-5363.
【JIA2020】Jiang MX et al.The caspase-3/GSDME signal pathway as aswitch between apoptosis and pyroptosis in cancer.Cell Death Discovery(2020)6:112https://doi.org/10.1038/s41420-020-00349-0.
【SUN2020】Sung NJ,et al.Gremlin-1Promotes Metastasis of Breast CancerCells by Activating STAT3-MMP13 Signaling Pathway.Int.J.Mol.Sci.2020,21,9227;doi:10.3390/ijms21239227.
【FRA2021】Faria-Ramos I,et al.Heparan Sulfate Glycosaminoglycans:(Un)Expected Allies in Cancer Clinical Management.Biomolecules 2021,11,136.https://doi.org/10.3390/biom11020136.
【HUJ2021】Hu JY,et.al.TCOF1 upregulation in triple-negative breastcancer promotes stemness and tumour growth and correlates with poorprognosis.British Journal of Cancer;https://doi.org/10.1038/s41416-021-01596-3.
【MAK2021】Makuch-Kocka et.al.The BIRC Family Genes Expression inPatients with Triple Negative Breast Cancer.Int.J.Mol.Sci.2021,22,1820.https://doi.org/10.3390/ijms22041820.
【TAN2021】Tan YX,et.al.Pyroptosis:a new paradigm of cell death forfighting against cancer.Journal of Experimental&Clinical Cancer Research(2021)40:153https://doi.org/10.1186/s13046-021-01959-x.
【WIG2021】Wiggins GAR,et al.Variable expression quantitative traitloci analysis of breast cancer risk variants.Scientific Reports,(2021)11:7192,Nature Portfolio,https://doi.org/10.1038/s41598-021-86690-5.
实施例1利用基因的mRNA表达数据筛选TNBC基因诊断标志物
一、数据集准备
1、从基因表达综合数据库(GEO)下载数据集GSE69031(GPL571),再从TCGA下载数据集TCGA-BRCA(GPL96,etc.)。数据集均为乳腺癌切片的基因芯片数据(Affymetrix平台GPL96,GPL571,etc.)。只选用TNBC病人得到共171例,其中TCGA-BRCA贡献150例,GSE69031贡献21例。
2、剔除表达极低的基因转录(其表达非零的样本个数不超过10个)后,再剔除miRNA及lncRNA,选取两个数据集的共有基因,得到基因数为9524。
3、分步对样本及基因进行数据标准化:
对每个样本,分别计算所有基因表达量的中位数,每个样本的标准化表达为:原表达量减去该样本所有基因表达量中位数,标准化去除了样本mRNA输入量的差异。
以样本标准化数据为基础,进一步对每个基因,计算其样本表达中值,每个基因的标准化表达为:表达量减去该基因在所有样本表达量的中位数,这去除了不同平台的差异。
标准化后的数据组装成TNBC数据集。
二、整体生存标志物筛选及模型
以生存指标(Overall Survival,OS)作为目标变量,对目标变量建立模型时统一进行如下操作:
1、确定和目标变量相关的基因:
利用t-检验(t-test),寻找能够区分目标变量不同人群(0代表生存,1代表死亡)的有统计意义(p<0.05)的基因,初步得到差异表达的基因。
2、对基因进行上调或下调分组:
将差异表达的基因分为两组,t-检验结果中t为正数的代表在病人组织中表达下调的基因;t为负数的代表在病人组织中表达上调的基因。分别对两组基因进行分层关联系数分析。
3、分层关联系数分析:
对表达上调或下调的基因组,分别进行分层关联系数聚类,其目的是在给定的关联系数水平,每一聚类中的基因需要大致两两相互关联,每个聚类中选取与该聚类其它基因平均关联度最大的为代表。所有聚簇的代表基因构成标志物的模型候选基因。
4、迭代线性回归分析确定标志物及模型:
(i)对于模型候选基因,给定模型参变量个数(s),进行迭代线性回归分析。再循环不同的s,寻找最优的模型参变量个数,由对应的rsq的最大值确定。从而得到最优模型。
(ii)预先选取与癌症相关的基因突变图谱上的基因,共741个,重复步骤(i),得到最优模型。
(iii)综合步骤(i),步骤(ii)得到的候选标志物,再次重复步骤(i),得到整体生存模型。该模型包括由以下18个基因组成的标志物:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1。
表1迭代线性回归后的最终整体生存模型参数表
实施例2交叉验证
把实施例1中的数据集按照目标变量的人群平分,一半为训练集,另一半为验证集,对实施例1得到的模型进行ROC曲线分析,并计算AUC。如此重复N(=20)次,并计算AUC的统计特征。参见图1所示,其中最小值AUC=0.65,最大值AUC=0.96,中间值AUC=0.79。将交叉验证的AUC中间值作为评价模型结果的指标,表明本发明提供的模型具有卓越性。
实施例3对标志物的任何子集进行评价
对于实施例1得到的标志物,取其任何子集(子集包括K个基因,K为大于等于1且小于16的正整数),将所述子集作为生物标志物进行评价。
对于K=1的情况,即将所述标志物中的任一单个基因作为生物标志物进行评价,绘制其ROC曲线并计算AUC,结果见图3所示。
对于K≥2的情况,在所述标志物中随机选择K个基因,重建模型并进行交叉验证,绘制其ROC曲线并计算AUC,部分结果见图4-7所示。
实施例4模型验证
数据集采用实施例1中的TCGA乳腺癌数据集BRCA。其中数据完整的TNBC样本数共150例,样本标记为死亡(EVENT=1)的共26例,标记为生存(EVENT=0)的共124例。利用实施例1建立的模型(以18个基因作为标志物)描绘得到ROC曲线,评估模型的预测整体生存率的能力。ROC曲线如图8所示。
根据图8所示的ROC曲线,AUC为0.9789,ROC曲线上最优的决策点(如虚线所示)对应的特异性为92%,敏感性为96%。此外,在利用该模型计算预测分数时,计算对应的chi-sq,把最大值位置对应的分数设置为最优门槛分数。门槛分数为0.4098,大于门槛分数为整体生存率低或死亡,小于则为整体生存率高或生存。相关指标如表2所示。
表2
预测能力指标 | 指标值 |
AUC | 0.9789 |
特异性 | 92% |
敏感性 | 96% |
门槛分数 | 0.4098 |
利用cox模型进行生存分析,对应的整体生存时间K-M曲线如图9所示。根据图9,低风险(分数小于0.4098)者对应的三年生存率为93%,高风险(分数大于等于0.4098)者对应的三年生存率为52%,且差别有统计意义,表明本发明提供的模型因模型具有优异的临床诊断作用。
实施例5
本实施例提供一种试剂盒,包括能够定量本发明提供的整体生存模型中的18个基因:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1的mRNA水平的试剂,所述试剂包括逆转录酶、引物、Taq酶、荧光染料等。
实施例6
本实施例提供一种对TNBC病人的临床预后整体生存进行预测的方法,包括以下步骤:
(1)从受试者的术后癌症切片样本或液体活检样本中提取mRNA作为待测样本;
(2)检测所述待测样本中以下18个基因:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1的mRNA表达量;
(3)根据本发明提供的整体生存模型计算生存分数(OS Score),按照预先设置的门槛分数对受试者的临床预后整体生存率进行评估,如高于门槛分数则为整体生存率低或死亡,低于门槛分数则为整体生存率高或生存。
实施例7
本实施例提供一种对TNBC病人的临床预后整体生存进行预测的设备,该设备包括检测装置、处理器和输出装置;所述检测装置可以mRNA为待测样本,定量检测以下18个基因的mRNA表达量:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1;所述处理器用于读取所述检测装置测得的基因的mRNA表达量并根据本发明提供的模型计算生存分数(OS Score),再按照预先设定的门槛分数预测受试者为整体生存率高或整体生存率低;所述输出装置用于输出所述处理器的预测结果。在一些实施方式中,所述输出装置为显示器。
运用该设备对TNBC受试者进行临床预后整体生存预测的方法如下:
(1)取受试者术后癌症切片样本或液体活检样本中提取得到的mRNA作为待测样本;
(2)将所述待测样本送入所述检测装置,定量检测以下18个基因的mRNA表达量:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1;
(3)所述处理器读取所述检测装置测得的基因的mRNA表达量,根据本发明提供的模型计算生存分数(OS Score),再按照预先设定的门槛分数预测受试者为整体生存率高或整体生存率低;
(4)通过所述输出装置输出所述处理器的预测结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种预测三阴乳腺癌临床预后整体生存的标志物,其特征在于,所述标志物包括以下基因中的一种或两种以上的组合:BIRC7、BMPR1A、CASP3、CNN1、CSF3R、DTL、EXO1、EXTL2、FHL1、GREM1、HSD3B2、IGF1R、IKZF1、KIT、RAD51C、STAT3、TPMT、URM1。
3.如权利要求2所述的模型,其特征在于,所述加权系数根据迭代线性回归计算得到。
4.如权利要求2或3所述的模型,其特征在于,所述模型为:
生存分数=(βBIRC7×表达量BIRC7)+(βBMPR1A×表达量BMPR1A)+(βCASP3×表达量CASP3)+(βCNN1×表达量CNN1)+(βCSF3R×表达量CSF3R)+(βDTL×表达量DTL)+(βEXO1×表达量EXO1)+(βEXTL2×表达量EXTL2)+(βFHL1×表达量FHL1)+(βGREM1×表达量GREM1)+(βHSD3B2×表达量HSD3B2)+(βIGF1R×表达量IGF1R)+(βIKZF1×表达量IKZF1)+(βKIT×表达量KIT)+(βRAD51C×表达量RAD51C)+(βSTAT3×表达量STAT3)+(βTPMT×表达量TPMT)+(βURM1×表达量URM1)。
5.如权利要求4所述的模型,其特征在于,所述模型中,βBIRC7、βIGF1R、βRAD51C、βCNN1、βIKZF1、βBMPR1A、βTPMT、βEXO1、βEXTL2均小于0,βURM1、βCASP3、βSTAT3、βDTL、βGREM1、βCSF3R、βKIT、βHSD3B2、βFHL1均大于0;
优选地,所述模型为:
生存分数=(-0.0445×表达量BIRC7)+(-0.1073×表达量BMPR1A)+(0.1153×表达量CASP3)+(-0.0622×表达量CNN1)+(0.0642×表达量CSF3R)+(0.0861×表达量DTL)+(-0.1108×表达量EXO1)+(-0.1351×表达量EXTL2)+(0.0436×表达量FHL1)+(0.0688×表达量GREM1)+(0.0506×表达量HSD3B2)+(-0.0472×表达量IGF1R)+(-0.0924×表达量IKZF1)+(0.0565×表达量KIT)+(-0.0533×表达量RAD51C)+(0.1121×表达量STAT3)+(-0.1095×表达量TPMT)+(0.1669×表达量URM1)。
6.权利要求1所述的标志物或权利要求2-5任一项所述的模型在制备预测三阴乳腺癌临床预后整体生存的产品中的应用。
7.一种预测三阴乳腺癌临床预后整体生存的模型的构建方法,其特征在于,包括以下步骤:
S1、获取三阴乳腺癌患者的乳腺癌切片的全转录组数据;进行数据初筛及标准化,组成数据集;
S2、在所述数据集中,利用t-检验寻找能够区分临床预后生存与临床预后死亡的人群的有统计意义(p<0.05)的基因,得到差异表达的基因;
S3、将所述差异表达的基因分为表达上调组和表达下调组,对所述表达上调组和表达下调组分别进行分层关联系数聚类,每个聚类中选取与该聚类其它基因平均关联度最大的作为模型候选基因;
S4、对所述模型候选基因,循环不同的模型变量个数(s),进行迭代线性回归分析,建立三阴乳腺癌临床预后整体生存的模型;所述模型为:
8.一种预测三阴乳腺癌临床预后整体生存的试剂盒,其特征在于,所述试剂盒包括权利要求1所述标志物的检测试剂;
优选地,所述试剂盒包括权利要求2-5任一项所述的模型。
9.如权利要求8所述的试剂盒,其特征在于,使用所述试剂盒预测三阴乳腺癌临床预后整体生存的步骤包括:
(1)检测来自三阴乳腺癌患者的待测样本中所述标志物的mRNA表达量;
(2)将步骤(1)检测得到的所述标志物的mRNA表达量带入权利要求2-5任一项所述的模型中,计算得到生存分数;
(3)当所述生存分数大于门槛分数时,该三阴乳腺癌患者属于临床预后整体生存率低;当所述生存分数小于门槛分数时,该三阴乳腺癌患者属于临床预后整体生存率高;
优选地,所述待测样本来自组织或体液。
10.一种预测三阴乳腺癌临床预后整体生存的设备,其特征在于,所述设备包括检测装置和处理器;
所述检测装置用于检测待测样本中本发明所述的标志物中的基因的mRNA表达量;
所述处理器用于读取所述检测装置测得的基因的mRNA表达量并根据权利要求2-5任一项所述的模型计算生存分数,再根据门槛分数预测受试者为临床预后整体生存率高或整体生存率低;
优选地,所述设备还包括输出装置,所述输出装置用于输出所述处理器的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210118821.XA CN114438209A (zh) | 2022-02-08 | 2022-02-08 | 一种预测三阴乳腺癌临床预后整体生存的标志物及模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210118821.XA CN114438209A (zh) | 2022-02-08 | 2022-02-08 | 一种预测三阴乳腺癌临床预后整体生存的标志物及模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114438209A true CN114438209A (zh) | 2022-05-06 |
Family
ID=81372279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210118821.XA Pending CN114438209A (zh) | 2022-02-08 | 2022-02-08 | 一种预测三阴乳腺癌临床预后整体生存的标志物及模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114438209A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114540500A (zh) * | 2022-03-21 | 2022-05-27 | 深圳市陆为生物技术有限公司 | 评价乳腺癌患者整体生存的产品 |
CN115478106A (zh) * | 2022-08-18 | 2022-12-16 | 南方医科大学南方医院 | 一种基于lr对对三阴性乳腺癌进行分型的方法及其应用 |
CN117607443A (zh) * | 2024-01-23 | 2024-02-27 | 杭州华得森生物技术有限公司 | 用于诊断乳腺癌的生物标志物组合 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140045915A1 (en) * | 2010-08-31 | 2014-02-13 | The General Hospital Corporation | Cancer-related biological materials in microvesicles |
CN110499364A (zh) * | 2019-07-30 | 2019-11-26 | 北京凯昂医学诊断技术有限公司 | 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用 |
-
2022
- 2022-02-08 CN CN202210118821.XA patent/CN114438209A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140045915A1 (en) * | 2010-08-31 | 2014-02-13 | The General Hospital Corporation | Cancer-related biological materials in microvesicles |
CN110499364A (zh) * | 2019-07-30 | 2019-11-26 | 北京凯昂医学诊断技术有限公司 | 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用 |
Non-Patent Citations (2)
Title |
---|
ANNA MAKUCH-KOCKA 等: "The BIRC Family Genes Expression in Patients with Triple Negative Breast Cancer", INT. J. MOL. SCI., vol. 22, no. 4, pages 1820 * |
宋晓薇: "STAT1在乳腺癌中的诊断和预后价值及其对三阴性乳腺癌细胞功能的影响", 万方中国学位论文全文数据库, pages 1 - 106 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114540500A (zh) * | 2022-03-21 | 2022-05-27 | 深圳市陆为生物技术有限公司 | 评价乳腺癌患者整体生存的产品 |
CN115478106A (zh) * | 2022-08-18 | 2022-12-16 | 南方医科大学南方医院 | 一种基于lr对对三阴性乳腺癌进行分型的方法及其应用 |
CN117607443A (zh) * | 2024-01-23 | 2024-02-27 | 杭州华得森生物技术有限公司 | 用于诊断乳腺癌的生物标志物组合 |
CN117607443B (zh) * | 2024-01-23 | 2024-04-16 | 杭州华得森生物技术有限公司 | 用于诊断乳腺癌的生物标志物组合 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114438209A (zh) | 一种预测三阴乳腺癌临床预后整体生存的标志物及模型 | |
US20220090206A1 (en) | Colorectal cancer recurrence gene expression signature | |
JP7186700B2 (ja) | 腫瘍抑制foxo活性を酸化ストレスから区別する方法 | |
Pawitan et al. | Gene expression profiling spares early breast cancer patients from adjuvant therapy: derived and validated in two population-based cohorts | |
Pilati et al. | CDX2 prognostic value in stage II/III resected colon cancer is related to CMS classification | |
Uscanga-Perales et al. | Triple negative breast cancer: Deciphering the biology and heterogeneity | |
Pavon et al. | Gene expression signatures and molecular markers associated with clinical outcome in locally advanced head and neck carcinoma | |
Chi et al. | Gene expression programs of human smooth muscle cells: tissue-specific differentiation and prognostic significance in breast cancers | |
US10036070B2 (en) | Methods and means for molecular classification of colorectal cancers | |
KR20210104037A (ko) | 비소세포 폐암의 진단을 위한 말초 혈액 miRNA 마커 | |
Necchi et al. | Molecular characterization of residual bladder cancer after neoadjuvant pembrolizumab | |
Saleh et al. | Comparative analysis of triple-negative breast cancer transcriptomics of Kenyan, African American and Caucasian Women | |
Weisz et al. | Molecular identification of ERα‐positive breast cancer cells by the expression profile of an intrinsic set of estrogen regulated genes | |
Maldonado et al. | Integrated transcriptomic and epigenomic analysis of ovarian cancer reveals epigenetically silenced GULP1 | |
Mamatjan et al. | Integrated molecular analysis reveals hypermethylation and overexpression of HOX genes to be poor prognosticators in isocitrate dehydrogenase mutant glioma | |
CN111187840A (zh) | 一种用于早期乳腺癌诊断的生物标志物 | |
Bydoun et al. | Breast cancer genomics | |
Akbar-Esfahani et al. | Diagnostic value of plasma long non-coding RNA HOTTIP as a non-invasive biomarker for colorectal cancer (a case-control study) | |
He et al. | Stem cell landscape aids in tumor microenvironment identification and selection of therapeutic agents in gastric cancer | |
Chang et al. | Pharmacogenetics of breast cancer: toward the individualization of therapy | |
CN114959026A (zh) | 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用 | |
ES2544882T3 (es) | Determinación del riesgo de metástasis distante en pacientes con cáncer de pulmón de células no pequeñas en estadio I-IIIA, tratados quirúrgicamente | |
EP3050975A1 (en) | Method for predicting the response to chemotherapy treatment in patients suffering from colorectal cancer | |
Tsai et al. | A statistical and learning based oncogene detection and classification scheme using human cDNA expressions for ovarian carcinoma | |
KR102325356B1 (ko) | 유사유전자를 이용한 신경교종의 악성도 진단용 조성물 및 이의 이용 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |