[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114959026A - 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用 - Google Patents

检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用 Download PDF

Info

Publication number
CN114959026A
CN114959026A CN202210396314.2A CN202210396314A CN114959026A CN 114959026 A CN114959026 A CN 114959026A CN 202210396314 A CN202210396314 A CN 202210396314A CN 114959026 A CN114959026 A CN 114959026A
Authority
CN
China
Prior art keywords
breast cancer
gene
recurrence
cancer patient
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210396314.2A
Other languages
English (en)
Inventor
饶皑炳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Luwei Biotechnology Co ltd
Original Assignee
Shenzhen Luwei Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Luwei Biotechnology Co ltd filed Critical Shenzhen Luwei Biotechnology Co ltd
Priority to CN202210396314.2A priority Critical patent/CN114959026A/zh
Publication of CN114959026A publication Critical patent/CN114959026A/zh
Priority to PCT/CN2022/127452 priority patent/WO2023197561A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用。本申请的第一方面提供检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用,基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR中的若干种。针对乳腺癌患者建立复发风险的基因模型,通过获取乳腺癌患者的相关基因的表达水平,应用该基因模型有效反映受试者的复发风险,指导医疗方案。

Description

检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品 中的应用
技术领域
本申请涉及分子诊断技术领域,尤其是涉及检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用。
背景技术
乳腺癌的治疗首先需要通过基本病理和分子病理的手段进行诊断,基本病理主要是临床指标,包括明确病灶大小、组织学类型、组织学分级、有无脉管侵犯、有无合并原位癌、切缘和淋巴结情况等,分子病理包括对所有浸润性病灶进行分子指标的检测。分子指标包括ER(雌激素受体)、PR(孕激素受体)、HER2(人表皮生长因子受体2)以及Ki-67(肿瘤细胞增殖指数),其中,ER和PR又可以合称为激素受体(HR),而HR+/HER2-型的乳腺癌患者占总体乳腺癌患者的60%,这类乳腺癌患者占了其中很大一部分,也是目前治疗方案的主体组成。
乳腺癌的治疗手段包括手术治疗、辅助治疗、新辅助治疗等,辅助治疗包括放疗、化疗、激素治疗或进一步手术治疗,而新辅助治疗是指术前治疗,通常包括新辅助化疗。目前根据常规临床指标和分子指标判断为高复发风险的患者的方法对于患者的区分存在一定缺陷,导致对其中部分患者进行了不必要的辅助治疗或新辅助治疗,进而出现了过度治疗并为患者带来了相应毒性。因此,为了更有效地判断患者预后,除了常规临床病理和分子指标外,还需要以基因表达异常为出发点寻找合适的分子指标,寻找能够有效评价患者复发风险的模型。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种评价乳腺癌患者复发风险的产品。
本申请的第一方面,提供检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用,基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数。
根据本申请实施例的应用,至少具有如下有益效果:
本申请针对乳腺癌患者人群建立了关于复发风险的基因模型,通过检测试剂获取乳腺癌患者的相关基因的表达水平,基于上述基因建立相关模型,利用该基因模型能够有效反映受试者的复发风险,针对不同的复发风险建立治疗方法,从而指导以复发风险为临床目标的个性化精准医疗方案,可以与现有的复发分数形成互补的临床应用。
其中,ABL1(ABL Proto-Oncogene 1,Non-Receptor Tyrosine Kinase)是ABL原癌基因1。该基因编码的蛋白酪氨酸激酶参与多种细胞过程,包括细胞分裂、粘附、分化和应激反应。该蛋白质的DNA结合活性由CDC2介导的磷酸化调节,表明其具有细胞周期功能。
BARD1(BRCA1 Associated RING Domain 1)是BRCA1关联环域1,该基因编码与BRCA1的N-末端区域相互作用的蛋白质。除了能够在体内和体外结合BRCA1外,该蛋白质还调节细胞生长,包括肿瘤抑制基因和显性原子型基因的产物。
KDM5C(Lysine Demethylase 5C)是赖氨酸脱甲基酶5C,该基因是SMCY同源家族的成员,所编码的蛋白质包括一个ARID结构域、一个JmjC结构域、一个JmjN结构域和两个PHD型锌指。DNA结合基序表明该蛋白参与转录和染色质重塑的调节。
MGMT(O-6-Methylguanine-DNA Methyltransferase)是O-6-甲基鸟嘌呤-DNA甲基转移酶基因,该基因编码的蛋白质是DNA修复蛋白,其参与细胞防御抗诱变剂和含有烷基化剂的毒性。
MDM4(MDM4 Regulator Of P53)是P53的MDM4调节因子基因,该基因编码一种核蛋白,与p53结合蛋白MDM2在结构上相似。这两种蛋白结合p53肿瘤抑制蛋白并抑制其活性,并已被证明在多种人类癌症中过度表达。
BSG(Basigin)基因所编码的蛋白质Basigin是一种质膜蛋白,在精子发生、胚胎植入、神经网络形成和肿瘤进展中起重要作用。Basigin也是免疫球蛋白超家族的成员,在各种组织中广泛表达。
F12(Coagulation Factor XII)是凝血因子XII基因,该基因编码凝血因子XII,该因子作为酶原在血液中循环。这种单链酶原转化为具有重链(α因子XIIa)和轻链的双链丝氨酸蛋白酶。活性因子XIIa参与凝血、纤溶的启动,以及缓激肽和血管紧张素的生成。
FGFR2(Fibroblast Growth Factor Receptor 2)是成纤维细胞生长因子受体2基因,该基因编码的蛋白质是成纤维细胞生长因子受体家族的一员,其高度保守。该蛋白质与成纤维细胞生长因子相互作用,启动一系列下游信号,最终影响有丝分裂和分化。
NPY6R(Neuropeptide Y Receptor Y6)是神经肽Y受体Y6,预测能够激活胰多肽受体活性和肽YY受体活性,参与神经肽信号通路,调控生长激素轴及身体组成。
FGF12(Fibroblast Growth Factor 12)是成纤维细胞生长因子12基因,编码的蛋白质是FGF家族的成员,而FGF家族成员具有广泛的促有丝分裂和细胞存活活性,并参与多种生物学过程,包括胚胎发育、细胞生长、形态发生、组织修复、肿瘤生长和侵袭。
NELL1(Neural EGFL Like 1)是神经EGFL样1基因,该基因编码细胞质蛋白,其含有表皮生长因子(EGF)样重复。编码的异络蛋白可以参与细胞生长调控和分化。
MYBPC1(Myosin Binding Protein C1)是肌球蛋白结合蛋白C1基因,编码蛋白作为肌球结合蛋白C家族的成员,是肌霉菌相关蛋白,该蛋白通过募集肌肉型肌酸激酶对肌蛋白长丝起重要作用。
HIF1A(Hypoxia Inducible Factor 1Subunit Alpha)是缺氧诱导因子1亚单位α基因。HIF-1是由α亚单位和β亚单位组成的异二聚体,作为一种代谢调节因子,可促进机体对缺氧的适应,因而在胚胎血管生成、肿瘤血管生成和缺血性疾病的病理生理中起着重要作用。
KRT19(Keratin 19)是角蛋白19基因,编码的蛋白质是角蛋白家族的一员。与该蛋白相关的疾病包括乳腺癌和胆管细胞癌,涉及的相关通路包括胚胎和诱导多能干细胞,以及由p38α和p38β介导的谱系特异性标记和信号传导。
TIAM1(TIAM Rac1 Associated GEF 1)编码RAC1特异性鸟嘌呤核苷酸交换因子(GEF)。该基因调节影响细胞形状、迁移、粘附、生长、存活和极性以及影响肌动蛋白细胞骨架形成、内吞和膜运输的RAC1信号通路,在细胞侵袭、转移和癌变中起着重要作用。
RECQL(RecQ Like Helicase)是RecQ样解旋酶基因,该基因编码的蛋白质是RecQDNA解旋酶家族的成员,该蛋白质参与Holliday交叉的处理、姐妹染色单体交换的抑制、端粒的维持,并且是基因毒性应激抵抗所必需的。
MUTYH(MutY DNA Glycosylase)是MutY的同源物基因,该基因编码一种参与氧化性DNA损伤修复的DNA糖苷酶。该蛋白质定位于细胞核和线粒体,通过在氧化损伤后引入单链断裂,在信号转导凋亡中发挥作用。
HRAS(HRas Proto-Oncogene,GTPase)属于Ras癌基因家族,该家族成员与哺乳动物肉瘤逆转录病毒的转化基因有关。这些基因编码的产物在信号转导途径中发挥作用,可以结合GTP和GDP,并且具有内在的GTP酶活性。
RIT1(Ras Like Without CAAX 1)编码Ras相关GTPases亚家族的一个成员。编码蛋白参与调节与细胞应激相关的p38 MAPK依赖性信号级联。该蛋白还与神经生长因子协同促进神经元发育和再生。
BRMS1(Breast Cancer Metastasis-Suppressor 1)是乳腺癌转移抑制因子1基因,该基因可降低人类乳腺癌和黑色素瘤细胞系的转移潜能,但不会降低致瘤性。该基因编码的蛋白质主要定位于细胞核,属于组蛋白脱乙酰酶复合物mSin3a家族。
ATR(ATR Serine/Threonine Kinase)是ATR丝氨酸/苏氨酸激酶基因,该基因编码的蛋白质在DNA应答时激活细胞周期检查点信号,可以磷酸化和激活参与抑制DNA复制和有丝分裂的几种蛋白质,并可以促进DNA修复、重组和凋亡。
复发是指在肿瘤在经过根治性治疗(包括但不限于手术、放疗、化疗或其它治疗中的至少一种)后,在临床治愈的情况下,原发部位及其周围或机体的其它部位又长出同种类型的肿瘤的现象,而本申请中的复发风险是指患者复发乳腺癌的可能性大小。
在本申请的一些实施方式中,基因包含组中的至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少十二种、至少十三种、至少十四种、至少十五种、至少十六种、至少十七种、至少十八种、至少十九种、至少二十种以及全部二十一种。
在本申请的一些实施方式中,试剂检测所述基因的mRNA表达水平。
在本申请的一些实施方式中,乳腺癌患者的分子分型为HR阳性HER2阴性。其中,HR阳性是指ER(雌激素受体)和PR(孕激素受体)中至少一个为阳性。
在本申请的一些实施方式中,乳腺癌患者的原发肿瘤分期为T1~T2,区域淋巴结分期为N0~N3。
其中,原发肿瘤分期是指按照TNM分期规则判断的T分期,具体可以根据临床和/或影响学诊断手段或根据病理学大小和范围对肿瘤进行确认,T1表示乳腺内肿瘤最大直径为20mm或更小,T2表示肿瘤直径大于20mm但不大于50mm。综合T1~T2表示乳腺内肿瘤的最大直径不超过50mm。乳腺癌患者主要位于腋下、锁骨上下和胸骨下的淋巴结被称为区域淋巴结,而身体其他部位的淋巴结被称为远处淋巴结。区域淋巴结分期是对癌细胞在淋巴结中的转移和扩散所进行的分期,N0为无区域淋巴结转移证据或只有孤立的肿瘤细胞群,N1符合癌症已经转移到1到3个腋下淋巴结、直径至少2mm等一些条件,N2可以分为N2a(如癌症已经扩散到4-9个腋下淋巴结)和N2b(如癌症已经扩散到乳腺内淋巴结,没有扩散到腋下淋巴结),N3可以分为N3a(如癌症已经扩散到10个或以上腋下淋巴结或者锁骨下淋巴结)、N3b(如癌症已经扩散到内乳淋巴结和腋下淋巴结)以及N3c(如癌症已经扩散到锁骨上淋巴结)。
在本申请的一些实施方式中,区域淋巴结分期为N0。
本申请的第二方面,提供评价乳腺癌患者复发风险的试剂盒,该试剂盒包括检测基因的试剂,基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数。
在本申请的一些实施方式中,基因包含组中的至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少十二种、至少十三种、至少十四种、至少十五种、至少十六种、至少十七种、至少十八种、至少十九种、至少二十种以及全部二十一种。
在本申请的一些实施方式中,试剂检测基因的mRNA表达水平。
在本申请的一些实施方式中,乳腺癌患者的分子分型为HR阳性HER2阴性。
在本申请的一些实施方式中,乳腺癌患者的原发肿瘤分期为T1~T2,区域淋巴结分期为N0~N3。
在本申请的一些实施方式中,区域淋巴结分期为N0。
本申请的第三方面,提供计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行以下操作:
步骤1:获取来自乳腺癌患者样本中的基因的表达水平的信息,基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数;
步骤2:对表达水平进行数学关联以获得评分;评分用于指示乳腺癌患者复发风险。
根据获得的复发风险评分来指导以复发风险为临床目标的个性化精准医疗方案,从而可以与现有的复发分数形成互补的临床应用。
在本申请的一些实施方式中,试剂检测基因的mRNA表达水平。
在本申请的一些实施方式中,乳腺癌患者的分子分型为HR阳性HER2阴性。
在本申请的一些实施方式中,乳腺癌患者的原发肿瘤分期为T1~T2,区域淋巴结分期为N0~N3。
在本申请的一些实施方式中,区域淋巴结分期为N0。
在本申请的一些实施方式中,
Figure BDA0003599145010000051
ai为基因的表达水平,bi为基因的设定权重,n为基因的个数,n≤N。
在本申请的一些实施方式中,当评分高于设定值时,指示乳腺癌患者具有较高的复发风险。其中,设定值至少可以是基于具体的评分公式,能够有效区分高复发风险和低复发风险患者的设定阈值。例如,在高于该设定值和低于该设定值的两组患者中,复发的可能性具有显著差异。
在本申请的一些实施方式中,评分=0.0779×ABL1+0.0565×BARD1+0.0508×KDM5C+0.0503×MGMT+0.0373×MDM4+0.0353×BSG+0.0263×F12+0.0223×FGFR2+0.0137×NPY6R+0.0127×FGF12+0.0074×NELL1-0.0099×MYBPC1-0.0205×HIF1A-0.0237×KRT19-0.0246×TIAM1-0.0408×RECQL-0.0479×MUTYH-0.0515×HRAS-0.0526×RIT1-0.0529×BRMS1-0.0641×ATR,公式中基因的缩写表示对应基因的表达水平。
本申请的第四方面,提供一种电子设备,该电子设备包括处理器和存储器,存储器上存储有可在处理器上运行的计算机程序,处理器在运行计算机程序时实现以下操作:
步骤1:获取来自乳腺癌患者样本中的基因的表达水平的信息,基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数;
步骤2:对表达水平进行数学关联以获得评分;评分用于指示乳腺癌患者复发风险。
在本申请的一些实施方式中,
Figure BDA0003599145010000061
ai为基因的表达水平,bi为基因的设定权重,n为基因的个数,n≤N。
在本申请的一些实施方式中,评分=0.0779×ABL1+0.0565×BARD1+0.0508×KDM5C+0.0503×MGMT+0.0373×MDM4+0.0353×BSG+0.0263×F12+0.0223×FGFR2+0.0137×NPY6R+0.0127×FGF12+0.0074×NELL1-0.0099×MYBPC1-0.0205×HIF1A-0.0237×KRT19-0.0246×TIAM1-0.0408×RECQL-0.0479×MUTYH-0.0515×HRAS-0.0526×RIT1-0.0529×BRMS1-0.0641×ATR,公式中基因的缩写表示对应基因的表达水平。
其中,存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本申请实施方式中描述的针对乳腺癌患者复发风险进行评估的过程。处理器通过运行存储在存储器中的非暂态软件程序以及指令,从而实现乳腺癌患者复发风险的评估。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。
在本申请的一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述评估所需的非暂态软件程序以及指令存储在存储器中,当被一个或者多个处理器执行时,执行上述上述评估。
以上所描述的装置实施仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
可以理解的是,上文中所公开的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。可以理解的是,计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
此外,可以理解的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
对于上述乳腺癌患者复发风险的评分模型进一步讨论如下:
该模型涉及21个基因,按权重从大到小顺序为:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR。注意到后面10个基因,MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR的权重为负数,且绝对值从小到大,表明它们的对复发风险分数的贡献也从小到大。此外,需要指出的是,原始数据的复发指标中,0代表未复发,1代表复发,所以对复发风险的降低起正面作用的基因的设定权重为负数,起负面作用的基因的设定权重为正数。
其中的大部分基因按照功能与信号通路可以简单分为:
1.DNA损伤与修复:ATR、MUTYH、RECQL、MGMT;
2.细胞骨架与组织构架:ABL1、BSG/CD147、KRT19、NPY6R/PP2、MYBPC1;RhoGTPas基因:TIAM1、HRAS、RIT1;
3.转录因子和染色质重塑:HIF1A、KDM5C;
4.致癌或抑癌基因及调控:BARD1、MDM4、BRMS1;
5.生长因子:NELL1、FGFR2、FGF12;
6.凝血因子:F12。
在上述21个基因中,复发分数模型中负权重绝对值最大的基因为ATR,表明ATR对乳腺癌复发具有强烈的抑制作用。ATR在DNA损伤应答时激活细胞周期检查点信号,通过促进RELA的去乙酰化,下调NF-κB转录激活;促进HDAC1与启动子区域的结合;下调由NF-κB控制的抗凋亡基因的表达。ATM与ATR是DNA损伤应答密切相关的两种激酶,ATM和ATR激酶分别被DNA双链断裂或DNA复制应激激活。细胞周期进程主要通过依赖ATM和ATR的p53、CHK1和CHK2磷酸化而停止。其中,G1/S细胞周期阻滞主要通过细胞周期蛋白依赖性激酶抑制剂p21的p53依赖性增加介导;而CHK1或CHK2对Cdc25磷酸酶的磷酸化抑制其活性,确保CDK-细胞周期蛋白复合物不被激活而使细胞周期停滞在S期或G2/M期边界。此外,研究还发现,乳腺癌相关纤维细胞组织的ATR表达下调,为促癌因素,且对应较差的生存期。由此推测,ATR的下调导致癌细胞有丝分裂时细胞周期检查点信号失灵,从而使增殖失控。这些结果与前述的复发风险分数模型中ATR抑制复发、降低复发风险的作用十分吻合。
复发分数模型中负权重绝对值较大的另一个DNA损伤及修补基因为MUTYH,显示MUTYH对乳腺癌复发具有较大的抑制作用。研究人员推测,MUTYH在DNA氧化应答时参与碱基切除修复的机理在于MUTYH充当高度致突变的7,8-二氢-8-氧胍(A:8-oxo-G)损伤的错误传感器,通过移除A来启动修复。同时相关文献也报道MUTYH的基因突变可能导致乳腺癌风险升高。
复发分数模型中第三个DNA损伤修补基因RECQL的权重为负数且绝对值较大,表明RECQL对乳腺癌复发具有较大的抑制作用。RECQL为RecQ DNA解旋酶家族的成员。研究发现,BRAC1/2阴性乳腺癌中,许多DNA修复基因的突变都与其有关,而RECQL是其中之一。尽管在多个不同的人群中,该基因的变异都与乳腺癌风险增加之间存在关联,但仍有一些研究的结果与之相互矛盾,未能支持这种关联,对于携带RECQL功能缺失突变的个体是否会增加乳腺癌风险仍存在争议。因此,可能还需要更多的研究。
复发分数模型中第四个DNA损伤修补基因MGMT的权重为较大正数,表明MGMT对乳腺癌复发具有较大的促进作用。Gerson指出MGMT的过表达会降低人体接触甲基化剂后致癌和突变的风险;而其缺失增加了致癌风险及对甲基化剂的敏感性;同时MGMT启动子甲基化可以关闭癌症的MGMT表达从而增加化疗敏感性。对乳腺癌的数据分析表明,MGMT启动子甲基化在癌症样本比非癌症样本明显偏高,与MGMT蛋白表达、ER阴性、绝经状态、病理III级均有统计意义的负相关,但与淋巴转移、PR状态、HER2状态、P53突变状态、年龄是否大于50无相关性。此外,对TNBC174例样本进行MGMT启动子甲基化分析的结果显示,MGMT启动子甲基化与病理完全缓解(pCR)无相关性,且对化疗及化疗+卡铂两种治疗方案的响应无区别。
复发风险分数模型中权重最大的基因为ABL1,因此ABL1对乳腺癌复发有很大的推动作用。ABL1家族激酶调控细胞骨架的机制包括以下两点,一是通过激活皮动蛋白(Cortactin)、造血谱系细胞特异性蛋白(HS1)、WASP和WAVE家族蛋白以及RAC1来刺激肌动蛋白聚合;二是通过抑制RhoA和改变粘附动力学来减弱细胞收缩力。而这些将影响到神经和免疫系统的发育和维持,上皮的形态发生等。生长因子EGFR、PDGFR+EGF,或者PDGF的刺激可以激活ABL,但需要SRC激酶家族成员的参与。EGFR或者HER2,IGFR的失控可以导致ABL持续激活;ABL1/ARG也可以通过结合EPHB2/4受体而相互激活。另一方面,整合素粘附可以磷酸化ABL,导致ABL非SRC依赖激活。ABL激酶ABL1/2在各种实体瘤中促进肿瘤进展和转移。最近的报道表明,ABL激酶在实体瘤中的表达和/或活性增加,ABL失活会损害转移。ABL失活的治疗效果部分归因于ABL依赖性调节与上皮-间质转化和转移级联反应中后续步骤相关的多种细胞过程。而在构建的乳腺癌转移与进展的生物化学调控网络中,ABL1、LCK、YAP、JAK2和PI3K都是重要的节点。可见ABL1极有可能是乳腺癌复发转移的重要促进因素,与其在本申请实施例所提供的模型中起的作用一致。
复发风险分数模型中另一个与组织构架相关的促进因子为BSG。BSG又名CD147,为免疫球蛋白超家族的成员。CD147主要参与细胞与细胞或细胞与基质的相互作用,刺激肿瘤细胞及其相关基质成纤维细胞产生MMP;降解细胞外基质(ECM)和基底膜;破坏自然屏障;促进恶性肿瘤的进展。研究发现CD147依赖于玻尿酸-CD44的作用而促进EGFR-RAS-ERK信号;反之,RAS调节CD147表达、玻尿酸钠合成和CD147-CD44-EGFR复合物的形成,从而形成一个可能增强肿瘤细胞侵袭性的正反馈闭环。对多种肿瘤CD147表达的系统性分析发现,CD147高表达分别与较差的OS、PFS、RFS、DMFS有显著的关联,且可预测高风险的化疗抵抗性。利用RNAi敲除MCF7细胞中CD147表达,发现癌细胞的生长,转移及侵袭受阻,且MMP9与VEGF表达丢失,这表明CD147通过激活MMP9及VEGF来促进肿瘤破坏性。这些研究结果与模型中复发促进的结果相吻合。
复发风险分数模型中细胞骨架蛋白KRT19的权重为负数,表明KRT19可以抑制乳腺癌复发。KRT是负责上皮细胞结构完整性和上皮组织标记物的中间纤维蛋白,可以与一系列细胞蛋白相互作用,包括激酶、受体、适配器和效应器,从而调控调节细胞迁移、侵袭、转移、细胞周期和凋亡的信号网络。Saha HK报道了KRT19通过与CTNNB1-RAC1复合物结合来调控CTNNB1在细胞核中集聚,从而激活NUMB表达,抑制NOTCH1表达;而敲除KRT19则上调NOTCH信号通路,促进癌细胞增殖、迁移、侵袭、耐药性和球体形成。其进一步研究表明,KRT19通过调节癌症干细胞标记物(ALDH1、CXCR4和CD133)的表达,以及SRC和GSK3B的磷酸化来调节癌症干细胞重编程,可能暗示KRT19表达的调节可能与癌症干细胞重编程和药物敏感性有关,使细侵袭性减弱及对药物更敏感,这与模型中KRT19使复发分数下降的结果十分吻合。
复发风险分数模型中组织构架相关蛋白NPY6R的权重为负数,表明NPY6R为抑制乳腺癌复发的基因。NPY6R为胰多肽家族肽的神经源性神经肽Y(NPY)受体。NPY从神经元储存库释放到血液循环中以应对压力。NPY是一种有效的血管收缩剂,可能通过肠道神经系统对肠道产生影响。在大脑中,NPY与焦虑和抑郁、进食和肥胖、记忆保持、神经元兴奋性、内分泌功能和代谢有关。目前发现NPY有至少六种具有不同肽药理学的受体亚型,NPY6R为一种。利用小鼠模型的研究发现,敲除NPY6R的小鼠显示显示下丘脑生长激素释放激素(GHRH)及IGF1表达减少,体重降低偏廋,胰多肽通过NPY6R受体启动视交叉上核(suprachiasmaticnucleus-SCN)血管活性肠肽(VIP)信号传导,控制能量平衡,生长激素轴,和身体胖瘦。关于GHRH及其受体GHRHR,IGF1与乳腺癌的关系有许多研究,NPY6R可能是通过影响GHRH及IGF1等表达从而降低乳腺癌复发风险。
复发风险分数模型中可能还与组织构架相关的基因MYBPC1,属于肌球蛋白结合蛋白C家族成员,其权重为负数且绝对值在负权重中最小,对复发有轻微抑制作用。关于MYBPC1与乳腺癌的关系研究甚少。研究乳腺癌病人脑部转移的基因表达网络中发现的7个潜在的乳腺癌脑转移推手基因中,MYBPC1具有重要的临床预后价值,其高表达对应较好的OS,且与NK细胞激活强关联。此外,其它疾病中的研究结果显示,MYBPC1能够进行广泛的外显子重组,产生许多慢肌基因型SNV,分别在慢与快骨骼肌中实现不同组合和数量的共表达。此外,这些SNV在剪接位点连续或交互地被PKA-和PKC-调控的磷酸化。MYBPC1中的错义和无义突变导致多种严重而致命的关节炎性肌病与肌肉震颤症的发展。
模型中其它涉及细胞骨架与组织构架的基因属于RhoGTPase基因,共有三个:TIAM1,HRAS,RIT1。三者均为复发分数的下调基因,对乳腺癌复发起抑制作用。三者均为RAS相关GTPase亚家族成员,为RAC1/CDC42的鸟嘌呤核苷酸交换因子(GEF)。研究表明,乳腺癌成纤维细胞中TIAM1-SPP1表达模式显示出与侵袭相关的反向变化。遗传性或后天性HRAS、RIT1基因突变与许多癌症的风险相关,而乳腺癌约有8%带有HRAS突变或基因融合。研究发现,RIT1的一个直接效应器为PAK1,其直接与RAC1/CDC42结合而调控PAK1,进而调控肌动蛋白与细胞骨架重构,影响细胞的粘性及移动性。总之,RhoGTPase对于乳腺癌复发有十分重要的作用。
模型中涉及基因转录调控的基因HIF1A权重为负数,表明HIF1A对抑制复发有较大作用。由于肿瘤的迅速生长,局部出现血管供养不足的缺氧环境,缺氧应急启动诸如HIF1A的转录因子。HIF1A在乳腺癌中参与的通路均促进癌症生长与转移,与模型中抑制复发的作用相悖,由此可见,HIF1A在原发性癌症和复发性癌症的作用可能不一致,其在复发中具体作用需要更多的研究。
模型中参与转录和染色质重塑调节的另一个基因KDM5C为权重较大的正数,表明KDM5C对乳腺癌复发起重要促进作用。KDM5C在ER阳性乳腺癌患者中高表达并且与不良预后相关,可能通过激活雌激素/ER靶基因以及抑制IFN和ISG来起到双重作用。对泛癌症数据的研究发现,在186个研究的4万多例癌症病人中,KDM5C突变占2.1%,且突变人群的OS大大缩短(53 vs 102个月)。但在接受免疫检查点抑制剂的人群中,KDM5C突变改善了肿瘤的免疫微环境及相关的发炎免疫性,使免疫检查点抑制剂有更好的疗效。
模型中涉及原癌基因调控的有BARD1与MDM4,两者的权重均为较大正数,说明它们均促进乳腺癌复发,BARD1与BRCA1相连,MDM4调控P53。BARD1结构功能与BRCA1相似,且与之结合成BARD1-BRCA1异聚体,在细胞层面参与基因组的稳定,通过在异常DNA末端接上泛素而标记出DNA异常,此外通过泛素化RNA扩增酶II阻止异常DNA的转录,从而保护基因组的稳定性。BARD1在乳腺癌为中风险致癌基因但并不是卵巢癌风险基因。但关于上述基因与乳腺癌复发并无相关研究。核蛋白MDM4对抑癌基因P53表达起抑制作用。MDM家族成员包括MDM4和MDM2,对主要肿瘤抑制因子p53的负调控是其调节应激反应的最佳特征。而在细胞受到压力时,DNA损伤启动p53表达,反过来启动MDM2/4转录,这构成MDM-P53的双向调控闭环。MDM2/4的高表达可能是乳腺癌的高风险因素,而且乳腺癌细胞上MDM4的不同表达对应于不同的化疗敏感性,抑制MDM4表达可以启动p53,从而增强化疗的效果。
模型中权重为负且绝对值第二大的基因BRMS1可以抑制乳腺癌转移,从而对复发起十分重要的抑制作用。BRMS1的抑制转移机制为,通过结合视网膜母细胞瘤结合蛋白1,RBP1和mSin3-HDAC形成复合物来抑制基因转录。此外,实验结果表明,BRMS1通过废除NF-κB的激活来抑制OPN转录,而OPN为乳腺癌转移启动基因。另外,BRMS1结合LSD1/CoREST形成的共抑制复合物,抑制VIM、INSIG2、KLK11、MRPL33、COL5A2、OLFML3和SLC1A1等基因的转录,而这些基因中有许多与EMT有关。因此推断BRMS1可能通过抑制乳腺癌细胞EMT而抑制转移。
模型中一个意外是凝血因子XII,F12,权重为正,对乳腺癌复发有促进作用。F12参与血栓的形成,但与乳腺癌相关的研究较少,可能关联免疫系统。F12和F12a上调中性粒细胞功能,促进巨噬细胞极化和诱导T细胞分化,可能促进癌症的维持和进展。
模型中促进复发的基因NELL1含有表皮生长因子样重复序列,主要在神经元表达,与神经发育和神经活动有关,其促癌作用可能是通过促癌基因E2F1来实现。研究表明,乳腺癌细胞中转录因子E2F1调控NEIL1的表达,且NEIL1与E2F1共同高表达的乳腺癌细胞呈现较强的增殖与更大的侵袭性。
模型中另一个与神经系统相关的基因为FGF12,成纤维细胞生长因子12,参与神经系统的发育和功能,也对乳腺癌复发起促进作用。对于乳腺癌组织进行的甲基化分析发现了FGF12是多个超强甲基化基因之一,且对应的蛋白低表达。报道显示,FGF与VEGF协同作用放大肿瘤血管生成,而因FGF诱导肿瘤细胞生长,因而FGF抑制剂可能促进化疗效果。
成纤维细胞生长因子受体FGFR2也是模型中的促复发基因,FGF/FGFR在正常乳腺发育中起重要作用。FGFR2在上皮细胞中表达而其配体FGF10在乳腺脂肪垫中高度表达,说明FGFR2激活是通过旁分泌机制调节。在上皮细胞中敲除FGFR1/2,会导致导管生长受到抑制,再生细胞群减少,证明FGFR信号对维持乳腺干细胞群有重要作用。此外,有研究发现FGFR2在乳腺癌中基因扩增现象占5-10%。而GWAS研究显示FGFR2的第二号内含子上的SNP与乳腺癌风险有关,其中rs2981582与rs2981578对应FGFR2高表达及基质成纤维细胞下游信号通路的激活。在转移性乳腺癌上也发现了FGFR2的基因突变。
综上所述,涉及细胞骨架与组织构架的基因有9个,几乎为模型基因数的一半,对于乳腺癌复发起举足轻重的作用,这是由于细胞骨架与组织构架的异常一方面使癌细胞更具侵袭与转移能力,另一方面防御转移复发的身体组织,比如血脑屏障的功能失常,使癌细胞更容易穿透。而DNA损伤修复基因的异常也使癌细胞更具生命力、也更具侵袭与转移性。由此可见,乳腺癌复发的机制十分复杂,需要许多基因的参与,精确描述它们在转录层面的关系正是预测乳腺癌复发风险模型的出发点和目标。
可以理解的是,上述讨论基于全部21个基因的模型,但在本申请实施例中,并不仅限于全部21个基因的模型,从中选择若干个基因同样能够构建得到复发风险评价效果的其它模型。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1是本申请的实施例中最优模型交叉验证的重复20次的AUC最大值、中值和最小值对应的ROC曲线。
图2是本申请的实施例中最优模型在全部样本中验证的ROC曲线。
图3是本申请的实施例中cox分析的生存曲线。
图4是本申请的实施例中最优模型中的单个基因的标志物在不同人群中的表达量的箱线图。
图5是本申请的实施例中最优模型中的单个基因的标志物的ROC曲线。
图6是本申请的实施例中从最优模型中选择若干个不同基因进行重新建模的交叉验证结果,其中,a和b为2基因的交叉验证结果,c和d为20基因的交叉验证结果。
具体实施方式
以下将结合实施例对本申请的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本申请的目的、特征和效果。显然,所描述的实施例只是本申请的一部分实施例,而不是全部实施例,基于本申请的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本申请保护的范围。
下面详细描述本申请的实施例,描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
本实施例利用mRNA基因的表达数据筛选出的一组乳腺癌基因标志物,过程如下:
一、数据集准备
1.从基因表达综合数据库TCGA下载数据集数据集TCGA-BRCA,为乳腺癌切片的基因芯片数据(Affymetrix平台)。
2.剔除表达极低的基因转录(定义为表达非零的样本个数不超过10个)后,再剔除miRNA及lncRNA,选取三个数据集的共有基因,得到基因数为9524。
3.对每个数据集进行数据标准化,分两步对样本及基因分别进行:
(1)对每个样本进行标准化:对每个样本分别计算其所有基因表达量的中位数,然后以该样本的各个基因的原始表达量减去该样本的所有基因表达量的中位数,得到该样本的各个基因的一次标准化后的表达量,通过这种标准化方式去除了样本mRNA输入量的差异;
(2)对每个基因进行标准化:以第(1)步中一次标准化后的基因表达数据为基础,进一步对每个基因分别计算其在所有样本中的表达量的中位数,然后将各个样本的该基因的一次标准化后的表达量减去该基因在所有样本表达量的中位数,得到该基因在各个样本中的二次标准化后的表达量。
把标准化后的三个数据集组装为一个综合数据集。
4.选择ER阳性或PR阳性、HER2阴性、无淋巴结转移(Node=0)的早期(T1-T2)并且复发指标非空的乳腺癌病人样本共645例,其中复发有49例,未复发有596例。
二、基因诊断标志物筛选及模型
针对乳腺癌患者的复发风险,通过以下方法建立模型:
1.确定和复发风险相关的基因。利用t-检验(t-test),寻找能够区分目标变量不同人群(0,未复发vs 1,复发)的有统计意义(p<0.05)的基因,初步得到差异表达的基因。
2.对基因进行上调或下调分组。差异表达基因分为两组,t-检验结果中t为正数的代表表达在病人组织中下调的基因;t为负数的代表表达在病人组织中上调的基因。分别对两组基因进行分层关联系数分析。
3.分层关联系数分析。对表达上调或下调的基因组,分别进行分层关联系数聚类,其目的是在给定的关联系数水平,每一聚类中的基因需要大致两两相互关联,聚类通过以下迭代进行,首先获取上调或下调的基因组内的两两基因之间的关联系数矩阵,设定第一关联系数阈值T1=0.75(注:此阈值可以推过预先查看所有基因对之间的关联系数分布进行调整),对关联系数矩阵扫描,把所有大于阈值T的基因进行如下递归聚类:先把这些基因相应的t-检验的结果按照p值从小到大排序,取第一个还没有归类的基因作为候选基因,把所有与之关联系数大于T的基因和该候选基因归为一个聚簇,接着对这个聚簇的基因构成的关联系数子矩阵取行(或列)平均值,按照平均值从大到小排序,取第一个基因(即该聚簇内关联系数最大的基因)为该聚簇的代表基因,即与此聚簇中所有基因最相关的基因;把阈值下调0.05,得到第二关联系数阈值T2=T1-0.05,对未归入聚簇的剩余基因重复上述步骤,直到穷尽所有基因,使这些差异表达的基因全部归入聚簇,每个聚簇的代表基因构成标志物的模型候选基因。
4.迭代线性回归分析确定基因组。对表达上调或下调的基因组,在分层关联系数分析中,预先给定作为模型参变量的基因个数(s),进行迭代线性回归分析。再循环不同的s值,寻找最优的模型参变量个数,由对应的R平方值(rsq)的最大值确定,从而得到最优模型。
5.预先选取与癌症相关的基因突变图谱上的基因,共741个,重复步骤4,得到最优模型;
6.综合4和5的基因,再次重复4,得到最后的模型。
最终的复发风险分数为21基因模型:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR。
最终的最优模型中各个基因的参数如下表1所示:
表1.21基因线性回归模型中各个基因的相关参数
Figure BDA0003599145010000151
交叉验证:把数据集按照目标变量的人群平分,一半为训练集,另一半为验证集,计算ROC及AUC,如此重复N(=20)次。并计算AUC的统计特征,如最小值、最大值、中值。交叉验证的AUC中间值作为评价模型结果的指标。
结果如图1所示,从图中可以看出,该模型重复20次的AUC的最大值为0.84,最小值为0.64,中值为0.74,表明该模型具有良好的分类意义,能够把HR+/HER2-、T1~T2、N0的乳腺癌患者中具有具有不同复发风险的人群很好地分开,依此根据不同的复发风险对不同的人群考虑针对性的治疗方案。
根据建立的21基因线性回归模型(评分
=0.0779×ABL1+0.0565×BARD1+0.0508×KDM5C+0.0503×MGMT+0.0373×MDM4+0.0353×BSG+0.0263×F12+0.0223×FGFR2+0.0137×NPY6R+0.0127×FGF12+0.0074×NELL1-0.0099×MYBPC1-0.0205×HIF1A-0.0237×KRT19-0.0246×TIAM1-0.0408×RECQL-0.0479×MUTYH-0.0515×HRAS-0.0526×RIT1-0.0529×BRMS1-0.0641×ATR)对前述数据集中数据完整的HR+HER2-N0的早期乳腺癌患者样本645例(样本复发风险指标RS标记为0/不复发的共596例,标记为1/复发的共49例,复发率7.6%)的整体绘制ROC曲线,评估模型的诊断是否复发的能力,结果如图2所示。AUC为0.845,ROC曲线上最优的决策点(如虚线所示)对应的特异性(1-假阳性率)为79%,敏感性为78%。在利用上述线性回归模型计算预测分数时,计算对应的chi-sq,把最大值位置对应的分数设置为最优门槛分数,预测门槛分数为0.283。应用该线性回归模型进行评估时,大于该门槛分数为高复发风险,小于该门槛分数则为低复发风险,据此考虑针对性的治疗方式。
利用cox模型进行生存分析,对应的复发风险时间K-M曲线如图3所示,下方曲线代表复发风险分数>0.3937,上方曲线代表复发风险分数<0.3937。从图中可以看出,对应的五年(1825天)生存率中,低风险(上方红色曲线)为95%,高风险(下方蓝色曲线)只有48%,且差别有统计意义,表明21-基因模型具有优异的临床诊断作用,可以对不同复发风险的人群实施不同的更精准合理的治疗方案。
构建得到的最优模型中有21个基因,对于模型中的单个基因,其在低复发风险(0)和高复发风险(1)人群中的表达量的箱线图如图4所示,以这些单个基因作为标志物区分乳腺癌患者复发风险的ROC曲线如图5所示,从图4和图5可以看出,模型中大多数基因具有单独的诊断效力,结合前文模型中对于各个基因的讨论,表明本实施例中所筛选出的基因具有合理性。其中虽然有几个基因的AUC仅为0.5或略大于0.5,本身没无明显的诊断价值,但在21基因模型中体现了与其它基因的协同作用,提高了21基因模型的诊断效力。
对于模型中的多个基因,在模型基因组中随机选K(2,3……20)个基因,按照前述方法重建模型并进行交叉验证,部分结果如表2和图6所示,从表2结合图6可以看出,选择上述21个基因集合中的2个或更多个基因组成的子集重新构建的模型同样具有较好的诊断价值,诊断价值总体上看随着基因数的增加而增加,因此也可以从上述筛选出的21个基因的集合中任选多个基因作为评价乳腺癌患者复发风险的指标,且越接近所有21个基因,其诊断准确率可能越高。
表2.不同基因数量构建模型的AUC值
Figure BDA0003599145010000171
Figure BDA0003599145010000181
Figure BDA0003599145010000191
实施例2
本实施例提供一种用于评估乳腺癌患者复发风险的试剂盒,该试剂盒包括能够定量检测以下18个基因的mRNA水平的试剂:ABL1、ATR、BARD1、BRMS1、BSG、F12、FGFR2、HIF1A、HRAS、KDM5C、KRT19、MDM4、MGMT、MUTYH、MYBPC1、NELL1、RECQL和RIT1,该试剂包括逆转录酶、引物、Taq酶、荧光染料等。
实施例3
本实施例提供一种对乳腺癌患者的复发风险进行评估的设备,该设备包括处理器和存储器,存储器上存储有可被处理器运行的计算机程序。运用该设备对乳腺癌患者的复发风险的评估的方法如下:
1.选择乳腺癌患者的术后的癌症组织切片样本提取mRNA。
2.将提取到的mRNA送入检测装置,获取以下21个基因:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR的定量表达水平的信息ai
3.根据评分公式
Figure BDA0003599145010000192
将各个基因的表达情况代入计算出复发风险分数;再按照预先设定的一个或多个门槛值把受试者的复发风险分数分成不同风险人群,对不同风险人群考虑使用不同的治疗方法,以此开展HR+HER2-乳腺癌患者精准治疗的转录组诊断和治疗。
实施例4
本实施例提供一种对乳腺癌患者的复发风险进行评估的设备,与实施例3的区别在于,其采用用于液体活检的离心式微流控芯片进行检测,该离心式微流控芯片设有至少21个检测槽,通过液体活检的方式进行检测,滴入的血液样本通过离心的方式经结合、洗涤、洗脱等流程进入检测槽与其中的试剂反应,通过荧光获取这些基因的定量表达水平的信息。
上面结合实施例对本申请作了详细说明,但是本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种变化。此外,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

Claims (10)

1.检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用,其特征在于,所述基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数。
2.根据权利要求1所述的应用,其特征在于,所述试剂检测所述基因的mRNA表达水平。
3.根据权利要求1所述的应用,其特征在于,乳腺癌患者的分子分型为HR阳性HER2阴性。
4.根据权利要求1所述的应用,其特征在于,乳腺癌患者的原发肿瘤分期为T1~T2,区域淋巴结分期为N0~N3;
优选的,所述区域淋巴结分期为N0。
5.评价乳腺癌患者复发风险的试剂盒,其特征在于,包括检测基因的试剂,所述基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数;
优选的,所述试剂检测所述基因的mRNA表达水平。
6.根据权利要求5所述的试剂盒,其特征在于,乳腺癌患者的分子分型为HR阳性HER2阴性;
优选的,所述乳腺癌患者的原发肿瘤分期为T1~T2,区域淋巴结分期为N0~N3。
7.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行以下操作:
步骤1:获取来自乳腺癌患者样本中的基因的表达水平的信息,所述基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数;
步骤2:对所述表达水平进行数学关联以获得评分;所述评分用于指示乳腺癌患者复发风险。
8.根据权利要求7所述的计算机可读存储介质,其特征在于,所述表达水平为所述基因的转录水平。
9.根据权利要求7所述的计算机可读存储介质,其特征在于,
Figure FDA0003599144000000021
ai为基因的表达水平,bi为基因的设定权重,n为基因的个数;
优选的,当所述评分高于设定值时,指示乳腺癌患者具有较高的复发风险。
10.设备,其特征在于,包括处理器和存储器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器在运行所述计算机程序时实现以下操作:
步骤1:获取来自乳腺癌患者样本中的基因的表达水平的信息,所述基因包含:ABL1、BARD1、KDM5C、MGMT、MDM4、BSG、F12、FGFR2、NPY6R、FGF12、NELL1、MYBPC1、HIF1A、KRT19、TIAM1、RECQL、MUTYH、HRAS、RIT1、BRMS1和ATR构成的组中的至少N种,N任选自1~21的正整数;
步骤2:对所述表达水平进行数学关联以获得评分;所述评分用于指示乳腺癌患者复发风险。
CN202210396314.2A 2022-04-15 2022-04-15 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用 Pending CN114959026A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210396314.2A CN114959026A (zh) 2022-04-15 2022-04-15 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用
PCT/CN2022/127452 WO2023197561A1 (zh) 2022-04-15 2022-10-25 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210396314.2A CN114959026A (zh) 2022-04-15 2022-04-15 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用

Publications (1)

Publication Number Publication Date
CN114959026A true CN114959026A (zh) 2022-08-30

Family

ID=82977429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210396314.2A Pending CN114959026A (zh) 2022-04-15 2022-04-15 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用

Country Status (2)

Country Link
CN (1) CN114959026A (zh)
WO (1) WO2023197561A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197561A1 (zh) * 2022-04-15 2023-10-19 深圳市陆为生物技术有限公司 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050186577A1 (en) * 2004-02-20 2005-08-25 Yixin Wang Breast cancer prognostics
WO2007143752A2 (en) * 2006-06-09 2007-12-13 The Regents Of The University Of California Targets in breast cancer for prognosis or therapy
CA2694703A1 (en) * 2007-08-16 2009-02-26 Aventis Inc. Gene expression markers of recurrence risk in cancer patients after chemotherapy
EP2669682B1 (en) * 2012-05-31 2017-04-19 Heinrich-Heine-Universität Düsseldorf Novel prognostic and predictive biomarkers (tumor markers) for human breast cancer
SG11202002711WA (en) * 2017-10-12 2020-04-29 Nantomics Llc Cancer score for assessment and response prediction from biological fluids
CN110656173A (zh) * 2019-09-06 2020-01-07 中国医学科学院肿瘤医院 乳腺癌预后评估模型及其建立方法
EP3907301A1 (en) * 2020-05-08 2021-11-10 Istituto Europeo di Oncologia S.r.l. Methods and kits for determining the risk of breast cancer recurrence
CN114959026A (zh) * 2022-04-15 2022-08-30 深圳市陆为生物技术有限公司 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197561A1 (zh) * 2022-04-15 2023-10-19 深圳市陆为生物技术有限公司 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用

Also Published As

Publication number Publication date
WO2023197561A1 (zh) 2023-10-19

Similar Documents

Publication Publication Date Title
Gray et al. Development and characterisation of acquired radioresistant breast cancer cell lines
Wu et al. COL11A1 promotes tumor progression and predicts poor clinical outcome in ovarian cancer
Akervall et al. A novel panel of biomarkers predicts radioresistance in patients with squamous cell carcinoma of the head and neck
Brüggemann et al. Systematic analysis of the expression of the mitochondrial ATP synthase (complex V) subunits in clear cell renal cell carcinoma
AU2013331154B2 (en) Molecular signatures of ovarian cancer
Lu et al. Common human cancer genes discovered by integrated gene-expression analysis
Zhu et al. Overexpression of HE4 (human epididymis protein 4) enhances proliferation, invasion and metastasis of ovarian cancer
Conde-Muíño et al. Predictive biomarkers to chemoradiation in locally advanced rectal cancer
CN106574297B (zh) 选择用于癌症治疗的个体化三联疗法的方法
EP3544993A1 (en) Method to distinguish tumor suppressive foxo activity from oxidative stress
Ho et al. miR-140 targeting CTSB signaling suppresses the mesenchymal transition and enhances temozolomide cytotoxicity in glioblastoma multiforme
CA3038743A1 (en) Classification and prognosis of cancer
Ganci et al. Altered peritumoral microRNA expression predicts head and neck cancer patients with a high risk of recurrence
Zuo et al. Plasma circulating-microRNA profiles are useful for assessing prognosis in patients with cytogenetically normal myelodysplastic syndromes
Zhang et al. [Retracted] KIF20A Predicts Poor Survival of Patients and Promotes Colorectal Cancer Tumor Progression through the JAK/STAT3 Signaling Pathway
US20180230545A1 (en) Method for the prediction of progression of bladder cancer
Hussain et al. Gene expression profiling in bladder cancer identifies potential therapeutic targets
Meir et al. Molecular characteristics of liver metastases from uveal melanoma
Li et al. Toward predicting metastatic progression of melanoma based on gene expression data
Song et al. Transcriptional signatures for coupled predictions of stage II and III colorectal cancer metastasis and fluorouracil‐based adjuvant chemotherapy benefit
CN114959026A (zh) 检测基因的试剂在制备用于评价乳腺癌患者复发风险的产品中的应用
US20120172244A1 (en) Biomarkers and uses thereof in prognosis and treatment strategies for right-side colon cancer disease and left-side colon cancer disease
Walton et al. Familial adenomatous patients with desmoid tumours show increased expression of miR-34a in serum and high levels in tumours
Li et al. Molecular biology of brain tumors
Nie et al. Overexpression of TMEFF1 in endometrial carcinoma and the mechanism underlying its promotion of malignant behavior in cancer cells

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination