CN115575635A - 一种胆管癌诊断标志物及其筛选方法和应用 - Google Patents
一种胆管癌诊断标志物及其筛选方法和应用 Download PDFInfo
- Publication number
- CN115575635A CN115575635A CN202211197099.XA CN202211197099A CN115575635A CN 115575635 A CN115575635 A CN 115575635A CN 202211197099 A CN202211197099 A CN 202211197099A CN 115575635 A CN115575635 A CN 115575635A
- Authority
- CN
- China
- Prior art keywords
- bile
- duct cancer
- markers
- clu
- bile duct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N30/06—Preparation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/573—Immunoassay; Biospecific binding assay; Materials therefor for enzymes or isoenzymes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/72—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving blood pigments, e.g. haemoglobin, bilirubin or other porphyrins; involving occult blood
- G01N33/728—Bilirubin; including biliverdin
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/92—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving lipids, e.g. cholesterol, lipoproteins, or their receptors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2333/00—Assays involving biological materials from specific organisms or of a specific nature
- G01N2333/435—Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
- G01N2333/46—Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
- G01N2333/47—Assays involving proteins of known structure or function as defined in the subgroups
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2333/00—Assays involving biological materials from specific organisms or of a specific nature
- G01N2333/90—Enzymes; Proenzymes
- G01N2333/91—Transferases (2.)
- G01N2333/91045—Acyltransferases (2.3)
- G01N2333/91074—Aminoacyltransferases (general) (2.3.2)
- G01N2333/9108—Aminoacyltransferases (general) (2.3.2) with definite EC number (2.3.2.-)
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Immunology (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Cell Biology (AREA)
- Biotechnology (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Microbiology (AREA)
- Public Health (AREA)
- Hospice & Palliative Care (AREA)
- Medical Informatics (AREA)
- Oncology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- Endocrinology (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及临床检验诊断领域,具体涉及一种胆管癌诊断标志物及其筛选方法和应用,所述的诊断标志物包括以下6种标志物组成的组合:簇集蛋白,间接胆红素,低密度脂蛋白胆固醇,γ‑谷氨酰基转移酶,糖类抗原19‑9,甘油三酯;本发明采用蛋白质组学技术以及人工智能数据分析技术得到了众多适合于胆管癌诊断的诊断标志物,所述的诊断标志物包括胆汁和血清中的标志物,标志物组合的AUC明显高于单独的CLU,本发明的诊断标志物筛选方法可操作性强,模型构建方法简单,所得诊断标志物灵敏度高,特异性好,适合于胆管癌的诊断,能够很好地弥补现有影像学诊断模式的不足,本发明诊断简单快速,有利于胆管癌的早诊早治,具有很好的临床使用和推广价值。
Description
技术领域
本发明涉及临床检验诊断领域,具体涉及一种胆管癌诊断标志物及其筛选方法和应用。
背景技术
胆管癌(CCA)被认为是一种高度侵袭性的恶性肿瘤。根据病变的解剖部位,CCA可分为肝内胆管癌(iCCA)、肝门部胆管癌(pCCA)和远端胆管癌(dCCA)[1]。作为肝胆系统第二常见的恶性肿瘤,胆管癌预后较差,5年生存率低(7%-20%),病死率高(约占全球每年癌症相关死亡人数的2%),主要归因于早期诊断困难[1]。由于其临床特征不明显,解剖位置较深,使得诊断胆管癌很困难。同时,多项研究的术后病理结果指出,10%-25%接收手术治疗的疑似胆管癌患者最终没有癌细胞[4,5],因此迫切地要求研究人员开发出更准确的胆管癌诊断工具。
目前,胆管癌主要通过影像学方法检测,但其诊断效果并不理想,准确度不高,敏感性仅为6%-71.9%[2]。血清CA19-9常用于胆管癌临床诊断,但其敏感性和特异性较差[3]。胆汁主要由肝细胞和胆管上皮细胞分泌,当发生胆道疾病时常常会出现胆汁成分的异常变化。胆管癌组织中的癌症相关蛋白可以被分泌到胆汁中,并可能具有成为诊断标志物的潜力[6]。例如,发明专利CN108982854B公开了蛋白质MUC13在制备诊断肝内胆管癌的试剂中的应用;发明专利CN111413447A公开了鹅去氧胆酸或/和牛磺酸鹅去氧胆酸在胆管癌诊断方面的应用。
在发明人的前期研究中,首次发现并证实了胆汁中的癌症相关蛋白簇集蛋白CLU能够被用于诊断胆管癌,同时,发明人还研究了其与CA19-9结合在胆管癌中的诊断效果,并申请了发明专利CLU及其组合物在诊断胆管癌中的应用及胆管癌诊断试剂盒(2021103642823),前期的研究结果显示,胆汁中的癌症相关蛋白簇集蛋白CLU和CA19-9表达量在胆管癌患者胆汁中的表达量显著高于胆管结石患者胆汁中的表达量,说明CLU可以作为肿瘤标志物用于诊断胆管癌。
发明人在后续研究过程中发现,许多血清标志物,如碱性磷酸酶和胆红素,在胆管癌和良性胆道疾病中都可能发生变化,因此它们不能单独用于胆管癌诊断[7]。胆汁中的差异蛋白主要反映局部变化,而血清标志物主要反映胆管癌进展的全身系统性变化[2]。在前期研究的基础上,发明人为了进一步提高诊断的准确性,将部分血清指标加入,结合机器学习模型,筛选出了胆汁和血清的标志物组合,所述的标志物组合可以提高鉴别胆管癌和良性胆道狭窄的准确性,并具体公开了标志物的筛选方法。
参考文献:
[1]Banales J M,Marin J J G,Lamarca A,et al.Cholangiocarcinoma 2020:the next horizon in mechanisms and management[J].Nat Rev GastroenterolHepatol,2020,17(9):557-88.
[2]T,Metzger J,Husi H,et al.Bile and urine peptide markerprofiles:access keys to molecular pathways and biological processes incholangiocarcinoma[J].J Biomed Sci,2020,27(1):13.
[3]Blechacz B,Komuta M,Roskams T,et al.Clinical diagnosis and stagingof cholangiocarcinoma[J].Nat Rev Gastroenterol Hepatol,2011,8(9):512-22.
[4]Nuzzo G,Giuliante F,Ardito F,et al.Improvement in perioperativeand long-term outcome after surgical treatment of hilar cholangiocarcinoma:results of an Italian multicenter analysis of 440patients[J].Arch Surg,2012,147(1):26-34.
[5]Banales J M,Cardinale V,Carpino G,et al.Expert consensus document:Cholangiocarcinoma:current knowledge and future perspectives consensusstatement from the European Network for the Study of Cholangiocarcinoma(ENS-CCA)[J].Nat Rev Gastroenterol Hepatol,2016,13(5):261-80.
[6]Lankisch T O,Metzger J,Negm A A,et al.Bile proteomic profilesdifferentiate cholangiocarcinoma from primary sclerosing cholangitis andcholedocholithiasis[J].Hepatology,2011,53(3):875-84.
[7]Rizvi S,Gores G J.Pathogenesis,diagnosis,and management ofcholangiocarcinoma[J].Gastroenterology,2013,145(6):1215-29.
发明内容
针对上述技术问题,本发明提供了一种胆管癌诊断标志物,所述的诊断标志物包括以下3种物质组成的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC)。
优选的,所述的诊断标志物包括以下4种物质的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC),γ-谷氨酰基转移酶(GGT)。
优选的,所述的诊断标志物包括以下5种物质的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC),γ-谷氨酰基转移酶(GGT),糖类抗原19-9(CA19-9)。
优选的,所述的诊断标志物包括以下6种物质的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC),γ-谷氨酰基转移酶(GGT),糖类抗原19-9(CA19-9),甘油三酯(TG)。
本发明还提供了一种所述的胆管癌诊断标志物的筛选方法,包含以下步骤:
(1)胆汁标志物的筛选:采用液相色谱质谱联用技术对胆汁和细胞上清液进行蛋白质组学分析,分析鉴定胆管癌和对照组之间的差异表达蛋白;对胆管癌的胆汁和细胞上清液中异常高表达的蛋白取交集,得到胆汁标志物;
(2)对步骤(1)筛选得到的胆汁标志物与血清指标混合,使用随机森林方法建立分类预测模型,并将每个标志物按照交叉验证集中预测结果的重要性进行排序,利用R语言的glment软件包,基于10倍交叉验证分类法,将287例患者的所有指标数据分为10组不重叠的部分,其中2组用于测试队列,8组用于训练队列;
(3)根据基尼指数≥0.25筛选出12个标志物,将所述的12种标志物纳入Lasso分类器训练集的初始输入变量,只有对分类有贡献的变量被赋予非零权重,当增加标志物的数量,Lasso分类器中准确度、灵敏度和特异度不再上升时,Lasso分类器的性能在测试集上达到最佳的准确度、灵敏度和特异度;
(4)引用受试者工作特征ROC曲线来评价Lasso模型的最佳诊断性能,以ROC曲线上准确度、灵敏度和特异度最佳为截断点,得到相对最优特征数及组合方式;
(5)在外部验证集中利用ROC曲线验证步骤(4)得到的相对最优特征数及组合方式,得到适合于胆管癌诊断的标志物组合。
优选的,所述的随机森林和LASSO在glment版本4.1-3中进行。
优选的,步骤(2)中共种植了2000棵决策树。
优选的,步骤(2)中所述的血清指标包括37个血液生化指标、24个常规血液指标和两个肿瘤生物标志物。
本发明还提供了所述的诊断标志物在制备用于胆管癌诊断产品中的应用。
优选的,所述的诊断产品包括试剂盒、试剂或芯片。
本发明还提供了一种胆管癌诊断试剂盒,包含所述的诊断标志物。
本发明的有益效果是:(1)本发明的优点是采用蛋白质组学技术以及人工智能数据分析技术得到适合于胆管癌诊断的诊断标志物,所述的诊断标志物包括胆汁和血清中的标志物,实验结果显示,Six-panel表现出良好的预测能力,AUC为0.926,灵敏度为86.2%,特异性为85.3%,明显高于单独的CLU(AUC为0.840)。(2)本发明诊断标志物筛选方法可操作性强,模型构建方法简单,所得诊断标志物灵敏度高,特异性好,适合于胆管癌的诊断。(3)本发明将胆汁和血清标志物结合,进一步增加了诊断的可信度,能够很好地弥补现有影像学诊断模式的不足,并且本发明诊断简单快速,有利于胆管癌的早诊早治,具有很好的临床使用和推广价值。
附图说明
图1胆汁和细胞上清蛋白质组学筛选胆管癌候选标志物的流程图
图2胆汁中差异表达蛋白的热图和蛋白聚类的弦树图
注:B利用LC-MS/MS分析胆汁中差异表达蛋白的热图,N1-N4代表4例良性胆管狭窄患者的胆汁,T1-T5代表5例胆管癌患者的胆汁。C通过KEGG分析获得的胆汁中差异表达。
图3细胞上清中差异表达蛋白的热图和蛋白聚类的弦树图注:D细胞上清中差异表达蛋白的热图;E通过KEGG分析获得的上清液中差异表达蛋白质的弦树图。
图4使用LC-MS/MS分析得到的细胞上清液上调蛋白的维恩图
注:F使用LC-MS/MS分析得到的四种胆管癌细胞上清液中54个上调蛋白的维恩图。G胆汁和细胞上清液中的五种上调蛋白,它们的基因名称列在右侧。H CLU蛋白也在另一个外部胆汁组的蛋白质组学数据中上调。
图5胆汁中CLU的免疫印迹和免疫组化图像
注:A 8例胆管癌患者和8例良性胆管狭窄患者胆汁中CLU的免疫印迹分析。B代表性免疫组化图像,胆管癌组织和小叶间胆管组织中CLU表达水平(Normal),红色箭头指向小叶间胆管。
图6CLU在胆管癌中的总生存(OS)和无复发生存曲线
图7四种胆管癌细胞系和HIBEpiC细胞系的细胞和细胞上清液中CLU的免疫印迹分析和mRNA水平
注:E和F来自四种胆管癌细胞系和HIBEpiC细胞系的细胞和细胞上清液中CLU的免疫印迹分析。G四种胆管癌细胞系和HIBEpiC细胞系中CLU的mRNA水平。
图8五个原代胆管癌细胞和HIBEpiC细胞的细胞和细胞上清液中CLU的免疫印迹分析和mRNA水平
注:H和I来自五个原代胆管癌细胞和HIBEpiC细胞的细胞和细胞上清液中CLU的免疫印迹分析。J 5个原代胆管癌细胞和HIBEpiC细胞中CLU的mRNA水平。*P<0.05,**P<0.01,***P<0.001。
图9胆汁和血清中CLU或CA19-9的ELISA测定。
注:A用于CLU初步研究的患者队列。B ELISA分析来自40名胆管癌患者、40名良性胆管狭窄患者和40名健康志愿者的血清中的CLU。C ELISA分析40例胆管癌患者和40例良性胆管狭窄患者胆汁中的CLU。D用于CA19-9初步研究的患者队列。E和F40例胆管癌患者和40例良性胆管狭窄患者血清和胆汁中CA19-9的ELISA分析。G交叉验证集中的患者队列。H和I来自123名胆管癌患者和164名良性胆管狭窄患者的胆汁CLU和血清CA19-9的ELISA分析。
图10胆汁和血清中CLU或CA19-9的ROC曲线注:J CLU、CA19-9和CLU&CA19-9的ROC曲线,蓝色曲线代表CLU,绿色曲线代表CA19-9,黄色曲线代表CLU&CA19-9。K CLU&CA19-9的tSNE分析,橙色代表良性胆管狭窄,浅蓝色代表胆管癌。L CLU、CA19-9和CLU&CA19-9的DCA分析,绿色代表CLU&CA19-9,蓝色代表CLU,红色代表CA19-9。*P<0.05,**P<0.01,***P<0.001。
图11随机森林模型筛选出排名前30的标志物
注:按照准确率(左)和基尼指数(右)排序,越靠近右上方的特征越重要。
图12LASSO模型筛选的多标志物联合诊断模型的准确性
注:B LASSO模型筛选的的不同生物标志物组合的多标志物联合诊断模型的AUC和准确度(ACC)值;C多标志物联合诊断模型的敏感性和特异性。
图13Six-panel联合诊断模型的准确性分析
注:D Six-panel及其成员的ROC曲线;E Six-panel的六个标志物之间的相关矩阵,包括CLU、IBIL、LDL-C、CA19-9、GGT和TG,数字代表两个特征之间的相关系数(r);F Six-panel的tSNE分析;G Six-panel、CLU和CA19-9的DCA分析,AUC是曲线下的面积。r≥0.8表示高相关,0.5≤r<0.8表示强相关,0.3≤r<0.5表示弱相关,r<0.3表示无相关。
具体实施方式
下面结合具体实施实例,进一步阐释本发明,本发明的实施例仅用于解释本发明,并不意味着限制本发明的保护范围。
以下实施例所述的糖类抗原19-9(CA19-9)指一种与胰腺癌、胆囊癌、结肠癌和胃癌等相关的肿瘤标志物,又称胃肠道相关抗原。糖类抗原19-9对胰腺癌有较高的灵敏度和较好的特异性,其阳性率在85%-95%之间。
以下实施例所述的AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
本文所述的“良性胆管狭窄”指由于胆管损伤和复发性胆管炎所致或是先天性而导致的胆管腔瘢痕性缩窄。良性胆管狭窄可由医源性损伤、腹部外伤和胆囊结石、胆管结石、胆管炎症等刺激,导致胆管壁纤维组织增生、管壁变厚、胆管内腔逐渐缩窄,胆管结石和胆管炎是临床上最常见的良性胆管狭窄。临床表现为腹痛、寒战、高热、间歇性黄疸等。早期可行抗生素治疗,但手术治疗是本病的根本治疗方法。
本文所述的“胆管癌”指发生在肝外胆管,即左右肝管至胆总管下段的恶性肿瘤。本病病因仍不明确,多发生于50~70岁,男性略多于女性,本病可能与肝胆管结石、原发性硬化性胆管炎有关,胆管癌患者大多数会出现黄疸,通常为无痛性、进行性加重的黄疸,二便异常,大便灰白呈白陶土样,尿液颜色加深如浓茶样,胆管中下段癌可出现胆囊肿大。
决策树是比较经典的机器学习算法,通常是以递归形式选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。而随机森林(RF)其实就是多棵决策树,纳入的特征对目标变量预测的相对重要性可以通过特征使用的相对顺序(即深度)来进行评估。
Gini指数是常用的一种特征重要性评估方法,是节点杂志的一种度量指标,Gini系数的下降幅度越大,该变量对节点拆分中的高纯度的贡献就越大。
LASSO回归是在线性回归模型的代价函数后面加上L1范数的约束项的模型,可以通过控制参数lambda进行变量筛选和复杂度调整,在本文中通过对不同数量标志物的多种组合进行验证,
以下实施例所述的ROC(Receiver Operating Characteristic)曲线,又称接受者操作特征曲线。
实施例一、胆汁标志物的筛选及其在诊断胆管癌中的应用
1.病例及样本收集
本研究经兰州大学第一医院人类研究伦理委员会(LDYYLL2022-381)批准,豁免知情同意,并按照赫尔辛基原则宣言进行。临床标本来自两个中心。
共有514名患者被分为发现集、交叉验证集和外部验证集进行研究。在发现集中,收集了来自兰州大学第一医院的9例胆汁进行蛋白质组学分析。
在发现集中,有患者9例。
在交叉验证集中,2019年1月至2022年3月兰州大学第一医院普外科招募了287例患者,其中胆管癌患者123例,胆道良性狭窄患者164例。其中良性胆道狭窄主要分为三类,一类是胆总管(CBD)结石合并胆管炎,一类是肝内胆管(IBD)结石合并胆管炎,另一类是CBD和IBD结石合并胆管炎。胆管癌患者主要通过病理结果确诊,患者的具体信息如表1所示
在外部验证集中,从2021年1月至2022年5月从中国医学科学院肿瘤医院招募了87名胆管癌患者,从2022年1月至2022年5月从兰州大学第一医院招募了131名良性胆道狭窄患者。
胆汁主要在ERCP或PTCD或手术期间收集。胆汁和血清样品在获得后立即冰上运输,然后在4℃以3000×g离心15分钟,收集上清液并储存在-80℃直至实验。
表1患者基本信息
注:BBS:良性胆道梗阻;CBD:胆总管结石IBD:肝内胆管结石;TBIL:总胆红素;GGT:γ-谷氨酰转移酶
2.LC-MS/MS
(1)蛋白样品制备
①将保存的胆汁取出,置于冰上操作。对丙酮进行预冷,向胆汁中加入适量的丙酮震荡,使其充分混合,置于-20℃冰箱过夜沉淀。
②第二天在4℃、12000g的条件下对上述混合物离心10分钟,用移液枪弃去上清液,注意过程中避免冲散底部沉淀物,保留管底沉淀物。
③取适量的预冷丙酮加入上述沉淀物,将混合物置于涡旋仪震荡充分混匀,再次于上述同样的离心条件下离心15分钟,弃去上清收集沉淀物。再次重复该步骤一次。
④将上述所得到的沉淀物置于通风橱中室温干燥,向其中加入适量的组织裂解液,利用涡旋仪震荡混合,充分裂解蛋白。
⑤将上述混合物于室温下12000g离心15分钟,取上清液并将其置于新的EP管中,并再次离心该上清,保证充分去除不溶性杂质。
⑥最后得到的上清液即为胆汁的总蛋白溶液,然后测量每个标本的蛋白浓度并分装保存。
(2)检测蛋白浓度
①取出胆汁蛋白样品和超滤过的细胞上清并置于冰上操作。
②根据BCA试剂盒说明书配制BCA工作液,按照每个孔200ul进行配制(配制的时候可多配200-300ul,从而保证工作液充足)。
③按照BSA说明书配制适量的0.5mg/ml的蛋白质标准液,然后按照相应的稀释倍数将蛋白标准品和稀释液加入96孔板的标准品孔中,为提高准确度可设置两组复孔。
④在每个样品孔中加入2ul待测样品,为减少误差可以每个样品设置2个或3个复孔,并于每个孔中加18ul标准品稀释液,共计20ul。
⑤将上述各试剂添加结束后才能加BCA工作液,每孔200ul(加样过程中避免产生气泡),然后将加样完毕的96孔板置于37℃环境中孵育30分钟。
⑥使用酶标仪或紫外分光光度计测各孔A562nm处的吸光度值,利用标准孔的浓度和对应的OD值制作标准曲线,然后利用每个样品孔中的OD值计算蛋白浓度。
(3)SDS-PAGE电泳
①将样品全程置于冰上操作,根据样品的蛋白浓度和体积加入一定量的3×上样缓冲液,充分混合后置于100℃金属浴中5分钟,使其完全变性。
②配制浓度为12%的SDS-PAGE胶,每个样品取10ug进行电泳检测实验,电泳条件设置为浓缩胶70V,分离胶120V,然后在设定好的恒压条件下电泳。
③电泳结束后,打开玻璃板,轻轻取下凝胶并切除上下冗余的凝胶,将剩余的凝胶置于考马斯亮蓝染色液中进行染色,结束后持续水洗直至背景清晰。
④水洗结束后用ImageScanner扫描仪对凝胶进行扫描。
(4)蛋白还原烷基化及酶解
①蛋白定量后每个样品各取100ug,每个样品中加入5倍体积的预冷丙酮,置于-20℃冰箱1小时,充分沉淀蛋白。
②将上述混合物于4℃、12000rpm的条件下离心10分钟,用移液枪吸取上清液并弃掉,并对底部沉淀物进行真空冷冻处理,使其干燥。
③为了溶解干燥后的沉淀,向其中加入Dissolution Buffer,待蛋白充分溶解后向其中加入4ul Reducing Reagent,随后将混合物置于60℃反应1小时。
④向上述反应混合物中加入Cysteine-Blocking Reagent,让其在室温下进行还原烷基化反应,反应结束后将蛋白溶液转存于超滤管中,并在12000rpm条件下离心过滤25分钟。
⑤向上述收集到的超滤液中加入100μl Dissolution Buffer,待其充分混合后于12000rpm条件下离心20分钟,重复该步骤3次。
⑥将测序级胰蛋白酶溶剂加入上述收集到的溶液中充分反应,然后向收集到的肽段中加入Dissolution Buffer,离心并收集管底溶液。
(5)蛋白标记
①取出iTRAQ试剂并按照说明书向胆汁样品中加入一定量的异丙醇,待充分溶解后进行下列操作。
②还原烷基化及酶解的蛋白样品各取50μl,加入iTRAQ试剂并充分混匀,于室温下将混合物置于摇床充分反应2小时,然后向反应混合物中加入100ul蒸馏水终止反应。
③按照上述实验操作混合所有标记的胆汁样品,并涡旋振荡使其充分混合,然后离心至管底。
④将上述处理好的样品真空冷冻干燥并保存备用。
(6)LC-MS/MS分析
①将干燥后的各组蛋白样品溶解于流动相A溶液,利用涡旋震荡仪充分混合。
②利用Agilent 1200HPLC仪器对上述混合物进行肽段分离实验。
③肽段分离结束后,联合TripleTOF5600系统(AB SCIEX)和纳升喷雾III离子源(AB SCIEX)进行质谱鉴定和分析。
(7)蛋白定性、定量和识别
得到LC-MS/MS原始数据后,利用MaxQuant(1.6版)对原始文件进行分析,并通过与Swiss-Prot人类蛋白质序列数据库(2019年2月更新,20,413个蛋白质序列)中的比较来识别相应的蛋白质。在蛋白质和肽水平上,蛋白质的错误发现率小于1%(FDR<1%),并至少识别出两个肽进行进一步的数据处理。
3.蛋白质印迹:
(1)蛋白样品制备并测量浓度
向细胞培养皿中加入细胞裂解液200ul,室温下充分裂解细胞15分钟后,将其转移至EP管中后放置,全程于冰上操作,然后将裂解完毕的蛋白溶液以12000rpm的速度在4℃条件下离心20分钟,离心后EP管中混合物分为3层,下层为沉淀,中间层为细胞蛋白,上层为脂质,吸取中间层作为细胞蛋白并将其分装保存;利用丙酮法提取胆汁中的蛋白(相同于LC-MS/MS部分);对细胞上清液进行超滤得到细胞上清液蛋白。利用BCA方法对上述三种蛋白溶液进行浓度测量。
(2)SDS-PAGE电泳
①制胶:擦洗玻璃板,检查玻璃板正反面是否干净(严格保证清洁度),调整好玻璃板正反面,用夹子紧紧夹住玻璃板,然后将夹子紧紧的垂直卡在水平架上。配制适量的12%分离胶,然后用移液枪吸取分离胶进行灌胶,当胶面达到浓缩胶位置时停止灌胶,灌胶全程动作要轻柔,防止产生气泡。然后用200ul移液枪轻轻的在胶上加一层蒸馏水,当液面高出玻璃板顶端时即可。30分钟后分离胶已经凝集,然后弃去上层蒸馏水。按照说明书配制适量的5%浓缩胶,用移液枪灌注浓缩胶直至溢出,然后插入洗干净的梳子,大约20分钟后浓缩胶已经凝集。
②上样:取下玻璃板,洗干净后放入电泳槽,向电泳槽中注入电泳液,首先在内槽中加满,然后再向外槽中加电泳液,电泳液注入完毕后拔出梳子。根据蛋白浓度提前计算出每组样品需要上样的总体积,对样品进行震荡混合后,依次向孔中加入marker和各组样品。
③电泳:盖好电泳槽盖子,接通电源,于恒压条件下电泳,刚开始将电压设置为80V,当蛋白样品电泳至分离胶时将条件设置为恒压120V。时刻观察溴酚蓝条带位置,如若该条带已经到达玻璃板下缘时即可终止电泳,关闭电源,打开电泳槽盖子准备取下玻璃板。
(3)转膜
①电泳结束后用切割板轻轻撬起小玻璃板,然后切去浓缩胶和分离胶上无用的部分。在转膜夹黑色的一侧制备海绵和滤纸,然后将胶挪放到滤纸上,裁剪适当大小的PVDF膜放于胶上,用玻璃棒轻轻擀去膜上的气泡,保证滤纸和PVDF膜上均无气泡时关上转膜夹。
②将转膜夹置于转膜槽中,向转膜槽中倒入配制好的1×转膜液,预估转膜液完全淹没滤纸最高点时停止加液。根据分子量大小将转膜条件设置为恒流200mA 90分钟(不同的分子量对应不同的电流值和转膜时间)。
(4)封闭
取下转膜夹,并在PVDF膜上标记正反面,然后将膜正面朝上投放于装有脱脂奶粉的孵育盒中,室温下置于摇床上封闭1小时。
(5)免疫反应
用5%的脱脂奶粉将一抗和二抗稀释至适当的浓度,将GAPDH设置为内参。然后在4℃下与兔抗CLU抗体(1:1000,Cell Signaling)或小鼠抗GAPDH(1:2000,Proteintech)一起孵育过夜。第二天将膜取出并用TBST缓冲液在摇床上清洗三遍,每遍5分钟,然后将膜与山羊抗小鼠或抗兔IgG(1:2000,Cell Signaling)二抗室温下共同孵育1小时。
(6)化学发光显影
二抗孵育结束后将膜洗干净,除去膜上残留的抗体和脱脂奶粉,然后将膜浸泡于TBST缓冲液中等待显影。配制适量的化学发光液,利用化学发光分析仪采集并分析图像。
4.免疫组织化学(IHC)染色:
(1)烤片:为防止组织脱片和更好的脱蜡,在操作前需要将胆管癌组织切片放入75℃烤箱中烘烤2小时(烤片时间不能过短)。
(2)石蜡切片脱蜡及水化:烤片结束后立即将载玻片放入二甲苯试剂中脱蜡,每次10分钟,共3次;然后将载玻片放入浓度由高到低排列的乙醇溶液中进行水化,最后用蒸馏水持续冲洗载玻片2分钟。
(3)高温高压抗原修复:配制柠檬酸盐修复液约1000ml,置于高压锅中并用电磁炉加热至沸腾,然后将装有切片的塑料架垂直放入锅中(防止塑料架跌倒),待高压锅压力阀门开始喷气2分钟后停止加热,10分钟后打开锅盖并用持续流水冲洗高压锅降温(降温过程不宜过快)。
(4)内源性过氧化物酶阻断:将切片从高压锅中取出,用蒸馏水冲洗去除残存的柠檬酸盐修复液,然后将切片置于PBS缓冲液中并于摇床上冲洗5分钟,该步骤重复3次。甩干切片后在组织上方滴加内源性过氧化物酶阻断剂(阻断剂要完全盖住组织),盖上湿盒盖子让其在室温条件下反应10分钟。
(5)血清封闭:阻断结束后将载玻片置于装有PBS缓冲液的清洗罐中,放于摇床之上清洗3次。甩干切片并在组织上方滴加适量的山羊血清,将切片平放于湿盒中,盖上盖子于室温条件下封闭10分钟。
(6)一抗孵育:轻轻甩去切片上的封闭血清(不需要PBS冲洗),将切片置于湿盒中并滴加一抗(GRP78稀释浓度为1:1000),每张切片约150ul抗体,然后将其置于4℃冰箱中过夜孵育(该过程轻拿轻放,防止抗体从切片边缘流出)。
(7)二抗孵育:第二天将湿盒取出置于室温下,当湿盒内切片的温度恢复至室温后,甩去一抗,用PBS缓冲液充分冲洗切片。冲洗干净后甩干切片,在每张载玻片的组织上方滴加150ul辣根酶标羊抗小鼠/兔IgG聚合物。
(8)DAB显色:待二抗在室温下孵育40分钟后,倾倒掉载玻片上残存的二抗,用PBS缓冲液在摇床上充分冲洗切片,甩干切片后在组织上快速滴加足量的DAB显色剂(滴加过程要快,并且做好计时工作),判断组织染色结束后立即将切片放于自来水下冲洗,终止显色。
(9)苏木素复染:将组织切片放入苏木素试剂中进行苏木素染色(不同的苏木素染色时间不同),然后置于1%盐酸酒精分化并用自来水持续漂洗返蓝。
(10)脱水:将切片放入浓度由低到高排列的乙醇溶液中进行脱水,每个浓度浸泡2分钟。然后将切片置于通风橱中的二甲苯溶液中(该步骤在通风橱中操作)。
(11)封片:吸取适量的中性树胶对吹风机吹干的切片进行封片(根据切片中组织大小选取不同规格的载玻片,封片时防止产生气泡),结束后置于通风良好的地方。
(12)阅片:待切片晾干后进行结果判读。常用的方法主要有显微镜直接观察图像或者数字病理扫描仪扫描切片后观察图像。
(13)结果分析:图像通过Image pro plus 6.0软件进行分析。CLU的表达强度由两位资深病理学家在不了解任何临床和病理数据的情况下独立判断。其染色强度分为4级,0代表阴性表达(阴性),1代表弱表达(weak),2代表中表达(moderate),3代表强表达(strong)。最后,为了方便统计分析数据,我们将阴性、中度和弱表达(0-2分)定义为低表达,强表达(3分)定义为高表达。
5.酶联免疫吸附试验-ELISA
ELISA试剂盒用于检测胆汁或血清中CLU(E-TSEL-H0014,Elabscience)和CA19-9(E-EL-H0637c,Elabscience)的水平。ELISA实验按照制造商提供的说明进行。检测前需稀释胆汁和血清,测定CLU水平,将胆汁和血清分别稀释100倍和5000倍;为了测量CA19-9的水平,将胆汁和血清分别稀释10000倍和5倍。
6.统计分析
连续变量表示为中位数(四分位间距)或平均值±SD(标准差),并使用Mann-Whitney U检验或学生t检验进行比较。分类变量表示为比率,并通过卡方检验相互比较。ROC曲线用于评估各标志物或者标志物组合的诊断性能,并使用约登指数计算阈值。曲线下面积(AUC)采用梯形法计算,数值越大,诊断性能越好。敏感性、特异性和准确性(ACC)通过标准的2×2列联表计算,它们是评估诊断性能的主要指标。DCA(决策曲线分析)用于比较不同临床诊断模型或标志物的诊断价值。采用t分布随机邻域嵌入(tSNE)算法直观地评估诊断模型的效果。P值小于0.05被认为具有统计学意义。所有分析均使用SPSS Statistics20、GraphPad Prism 7.0版和R 4.1.0版(R Foundation for Statistical Computing;http://www.R-project.org)进行
7.结果分析
(1)胆管癌胆汁和细胞上清液的蛋白质组学
如图1-4所示,胆汁和细胞上清液蛋白质组学用于筛选可作为诊断胆管癌的候选生物标志物(图1A)。在胆汁蛋白质组学中,胆管癌与良性胆管狭窄比较,以Fold Change≥5.0或Fold Change≤0.2为标准,共鉴定出1585个蛋白,筛选出差异表达蛋白167个,其中上调蛋白130个,下调蛋白37个(图1A和2B)。通过GO分析和KEGG分析对差异表达蛋白的生物学功能和关键途径进行注释(图2C)。结果表明,这些差异表达的蛋白质主要与肿瘤发生和细胞间相互作用有关,包括趋化因子信号通路、炎症和免疫、内吞作用和溶酶体等。
从四种胆管癌细胞系(TFK-1、HuCCT-1、RBE和HCCC-9810)和一种正常人肝内胆管上皮细胞系(HIBEpiC)收集的细胞上清液用于无标记定量分析,共鉴定出932种蛋白质,包括273种上调蛋白和659种下调蛋白(图1A和3D)。GO和KEGG分析表明,这些差异表达的蛋白质与肿瘤进展过程中的信号转导和免疫调节有关,包括ECM-受体相互作用、内吞囊泡和内吞作用(图3E)。与HIBEpiC细胞系相比,胆管癌细胞系中有54种蛋白质升高(图4F)。将胆汁和上清液中的上调蛋白相交时共筛选出五种蛋白(图4G),包括CLU、COL6A1、GOLM1、QSOX1和IGFBP1。考虑到我们的胆汁标本数量有限,引用了Marut Laohaviroj等人研究中的另一个胆汁蛋白质组数据集(External bile 1)[8]。基于倍数≥1.5的标准比较胆管癌和对照组,在External bilis 1中鉴定出63个上调蛋白,但在5个候选蛋白中只有CLU在Externalbile 1中升高(图4H)。最后,选择CLU进行进一步研究。
(2)CLU在胆管癌中的高表达
如图5-图8所示,在临床标本和细胞中验证了胆管癌中CLU蛋白和mRNA的水平。收集了16份胆汁样本(8份来自胆管癌,8份来自良性胆管狭窄)用于验证CLU的蛋白质水平。如图5A所示,胆管癌中CLU蛋白水平较高,但在良性胆管狭窄的胆汁中表达很少或没有表达。包含90例胆管癌组织和31例小叶间胆管组织的组织微阵列(TMA)用于免疫组织化学染色。CLU主要位于细胞质中(图5B)。在90例胆管癌组织中,89例为CLU阳性(98.9%)。在阳性染色病例中,弱、中、强表达的病例数分别为4例(4.5%)、36例(40.4%)和49例(55.1%)。31例小叶间胆管组织中,染色阴性12例(38.7%)。免疫组化图像分析显示胆管癌中CLU蛋白明显升高(P<0.001)(图5B)。Kaplan-Meier生存分析表明,具有高CLU水平的胆管癌患者的总生存(OS)时间(p<0.0001)和无复发生存(RFS)时间更短(p<0.001)(图6C和5D)。总之,CLU的高表达可以促进CCA的进展。如图7E、7F和7G所示,CLU蛋白和mRNA在4个胆管癌细胞系中均呈高表达(P<0.05)。我们已经成功地从术后组织中提取了五个原代胆管癌细胞,并且CLU在其中也高表达(图8H、8I和8J)。
(3)胆汁CLU和血清CA19-9对CCA的诊断价值
为了验证胆汁CLU和血清CLU哪个更适合用于胆管癌诊断,收集了胆管癌或良性胆管狭窄患者的胆汁和血液各40例,以及40例健康志愿者的血液进行初步研究,如图9和10所示。如图9B和9C所示,与对照组相比,胆管癌患者血清和胆汁中的CLU均呈高表达。CLU在胆管癌血清中的表达水平特别高,即使在健康人中的平均表达也为102,028.5±36,784.1ng/ml。然而,胆管癌或良性胆管狭窄胆汁中CLU的平均水平分别仅为2,458.1±3,366.0ng/ml和302.5±283.2ng/ml。高丰度的蛋白质由于其敏感性低而不适合作为诊断标志物。因此,胆汁CLU被确定为CCA的候选生物标志物。CA19-9在血清和胆汁中均有表达(图9D)。如图9E和9F所示,胆汁或血清中CA19-9的水平在胆管癌中较高。胆管癌和良性胆管狭窄患者胆汁平均水平分别为688307.0±803859.0IU/ml和293463.6±321862.1IU/ml,血清中分别为270.6±361.8IU/ml和42.5±50.0IU/ml。同样,血清中的CA19-9更适合作为胆管癌的诊断生物标志物。然后将287名患者纳入交叉验证集进行进一步研究(图9G)。如图9H和10J所示,胆汁CLU在胆管癌中高表达,ROC分析结果表现出了良好的的诊断能力,AUC为0.857(敏感性为73.98%,特异性为93.29%)。血清CA19-9在胆管癌中高表达,其AUC值为0.809(敏感性为84.55%,特异性为67.68%)(图9I和10J)。由于胆汁CLU特异性高、敏感性低,而CA19-9正好相反,我们考虑建立一个包含胆汁CLU和血清CA19-9的模型以获得更好的准确性。如图10J所示,CLU&CA19-9模型的诊断价值显著增加,AUC为0.917,远高于它的两个成员。其敏感性和特异性分别提高到88.6%和82.9%,表明诊断性能更好。tSNE算法可用于简化复杂的混淆矩阵,可以帮助我们可视化疾病的分布。如图10K所示,胆管癌组和对照组利用tSNE形成了不同的簇,说明CLU&CA19-9可以很好的鉴别胆管癌。采用决策曲线分析(DCA)观察CLU、CA19-9和CLU&CA19-9的临床表现,结果表明CLU&CA19-9模型比单独使用CLU或CA19-9模型增加了更多的临床综合效益预测CCA(图10L)。
实施例二、通过机器学习筛选生物标志物组合
1.筛选方法
包含以下步骤:
(1)胆汁标志物的筛选:采用液相色谱质谱联用技术对胆汁和细胞上清液进行蛋白质组学分析,分析鉴定胆管癌和对照组之间的差异表达蛋白;对胆管癌的胆汁和细胞上清液中异常高表达的蛋白取交集,得到胆汁标志物;具体的筛选步骤与实施例一相同。
(2)对步骤(1)筛选得到的胆汁标志物与血清指标混合,使用随机森林方法建立分类预测模型,并将每个标志物按照交叉验证集中预测结果的重要性进行排序,利用R语言的glment软件包,基于10倍交叉验证分类法,将287例患者的所有指标数据分为10组不重叠的部分,其中2组用于测试队列,8组用于训练队列;共种植了2000棵决策树;所述的血清指标包括37个血液生化指标、24个常规血液指标和两个肿瘤生物标志物。
(3)根据基尼指数≥0.25筛选出12个标志物,将所述的12种标志物纳入Lasso分类器训练集的初始输入变量,只有对分类有贡献的变量被赋予非零权重,当增加标志物的数量,Lasso分类器中准确度、灵敏度和特异度不再上升时,Lasso分类器的性能在测试集上达到最佳的准确度、灵敏度和特异度;所述的随机森林和LASSO在glment版本4.1-3中进行。
(4)引用受试者工作特征ROC曲线来评价Lasso模型的最佳诊断性能,以ROC曲线上准确度、灵敏度和特异度最佳为截断点,得到相对最优特征数及组合方式;
(5)在外部验证集中利用ROC曲线验证步骤(4)得到的相对最优特征数及组合方式,得到适合于胆管癌诊断的标志物组合。
2.结果分析
表2标志物和多指标组合的诊断价值
通过将生物标志物与不同类型的循环生物标志物相结合,可以提高其诊断性能。用于机器学习的每位患者的数据包含胆汁CLU和常见的63个血液指标,包括37个血液生化指标、24个常规血液指标和两个肿瘤生物标志物。在交叉验证集中,使用随机森林(RF)模型对上述特征进行分类。如图11A所示,根据其准确性(左)和基尼指数(右)进行筛选,前30个标志物被陈列出来。为了选择最合适的特征,选择了12个基尼指数≥0.25的标志物进行进一步研究,包括CLU、DBIL、TBIL、CA19-9、IBIL、LDLC、GGT、ALP、TG、AST、CL和ALT。并且它们的AUC值大约等于或高于0.7(表2)。
选择最合适的标志物数量对于建立最终分类模型至关重要。基于上述12个选定的标志物,应用LASSO方法进行筛选。当组合包含不同数量的标志物时,LASSO筛选出了最佳组合。ROC分析显示,five-panel的AUC值最高(0.958)。Six-ten panel的AUC值相同,均为0.954,但ACC值最高(图12B和表2)。如图12C所示,Six-ten panel的灵敏度和特异性均比较理想(灵敏度:90.2%,特异性:89.0%)。综上所述,Six-panel模型在复杂性和准确性之间表现出良好的平衡,因此被确定为诊断胆管癌的最佳模型。
Six-panel模型的AUC值显著高于它的6个成员(图13D)。并且六种生物标志物之间几乎没有相关性(r<0.5),表明它们可以形成一个很好的诊断模型(图13E)。Six-panel的tSNE结果显示,胆管癌组和对照组形成了不同的聚类(图13F),表明即使在可视化条件下,Six-panel也能很好地区分胆管癌。DCA结果表明,Six-panel在鉴别胆管癌和良性胆道狭窄方面提高了更多的临床整体益处(图13G)。为了进一步评估Six-panel的稳定性和可靠性,我们将其应用于独立的外部验证集。在外部验证集中,Six-panel表现出良好的的预测能力,AUC为0.926,灵敏度为86.2%,特异性为85.3%,明显高于单独的CLU(AUC为0.840)。tSNE和DCA 分析也显示出很好的诊断能力。
综上所述,本发明采用蛋白质组学技术以及人工智能数据分析技术得到适合于胆管癌诊断的诊断标志物组合,所述的诊断标志物包括胆汁和血清中的标志物,实验结果显示,Six-panel表现出良好的的预测能力,AUC为0.926,灵敏度为86.2%,特异性为85.3%,明显高于单独的CLU(AUC为0.840)。本发明诊断标志物筛选方法可操作性强,模型构建方法简单,所得诊断标志物灵敏度高,特异性好,适合于胆管癌的诊断。本发明将胆汁和血清标志物结合,进一步增加了诊断的可信度,能够很好地替代现有影像学诊断模式,并且本发明诊断简单快速,有利于胆管癌的早诊早治,具有很好的临床使用和推广价值。
Claims (10)
1.一种胆管癌的诊断标志物,其特征在于,所述的诊断标志物包括以下3种物质组成的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC)。
2.如权利要求1所述的诊断标志物,其特征在于,所述的诊断标志物包括以下4种物质的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC),γ-谷氨酰基转移酶(GGT)。
3.如权利要求2所述的诊断标志物,其特征在于,所述的诊断标志物包括以下5种物质的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC),γ-谷氨酰基转移酶(GGT),糖类抗原19-9(CA19-9)。
4.如权利要求3所述的诊断标志物,其特征在于,所述的诊断标志物包括以下6种物质的组合:簇集蛋白(CLU),间接胆红素(IBIL),低密度脂蛋白胆固醇(LDLC),γ-谷氨酰基转移酶(GGT),糖类抗原19-9(CA19-9),甘油三酯(TG)。
5.一种如权利要求1-4任一项所述的胆管癌诊断标志物的筛选方法,其特征在于,包含以下步骤:
(1)胆汁标志物的筛选:采用液相色谱质谱联用技术对胆汁和细胞上清液进行蛋白质组学分析,分析鉴定胆管癌和对照组之间的差异表达蛋白;对胆管癌的胆汁和细胞上清液中异常高表达的蛋白取交集,得到胆汁标志物;
(2)对步骤(1)筛选得到的胆汁标志物与血清指标混合,使用随机森林方法建立分类预测模型,并将每个标志物按照交叉验证集中预测结果的重要性进行排序,利用R语言的glment软件包,基于10倍交叉验证分类法,将287例患者的所有指标数据分为10组不重叠的部分,其中2组用于测试队列,8组用于训练队列;
(3)根据基尼指数≥0.25筛选出12个标志物,将所述的12种标志物纳入Lasso分类器训练集的初始输入变量,只有对分类有贡献的变量被赋予非零权重;当增加标志物的数量,Lasso分类器中准确度、灵敏度和特异度不再上升时,Lasso分类器的性能在测试集上达到最佳的准确度、灵敏度和特异度;
(4)引用受试者工作特征ROC曲线来评价Lasso模型的最佳诊断性能,以ROC曲线上准确度、灵敏度和特异度最佳为截断点,得到相对最优特征数及组合方式;
(5)在外部验证集中利用ROC曲线验证步骤(4)得到的相对最优特征数及组合方式,得到适合于胆管癌诊断的标志物组合。
6.如权利要求5所述的筛选方法,其特征在于,所述的随机森林和LASSO在glment版本4.1-3中进行。
7.如权利要求5所述的筛选方法,其特征在于,步骤(2)中共种植了2000棵决策树,所述的血清指标包括37个血液生化指标、24个常规血液指标和两个肿瘤生物标志物。
8.如权利要求1-4任一项所述的诊断标志物在制备用于胆管癌诊断产品中的应用。
9.如权利要求8所述的应用,其特征在于,所述的诊断产品包括试剂盒、试剂或芯片。
10.一种胆管癌早期诊断试剂盒,其特征在于,包含权利要求1-4任一项所述的诊断标志物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197099.XA CN115575635A (zh) | 2022-09-28 | 2022-09-28 | 一种胆管癌诊断标志物及其筛选方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197099.XA CN115575635A (zh) | 2022-09-28 | 2022-09-28 | 一种胆管癌诊断标志物及其筛选方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115575635A true CN115575635A (zh) | 2023-01-06 |
Family
ID=84582599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211197099.XA Pending CN115575635A (zh) | 2022-09-28 | 2022-09-28 | 一种胆管癌诊断标志物及其筛选方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115575635A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222282A1 (en) * | 2005-09-15 | 2009-09-03 | Trustees Of Tufts College | Method for Personalized Diet Design |
CN102216268A (zh) * | 2008-09-19 | 2011-10-12 | 卡罗生物股份公司 | 新的雌激素受体配体 |
US20120116685A1 (en) * | 2009-04-03 | 2012-05-10 | The Johns Hopkins University | Methods, System, And Medium For Associating Rheumatoid Arthritis Subjects With Cardiovascular Disease |
CN104093830A (zh) * | 2011-04-15 | 2014-10-08 | 吉恩勒克斯公司 | 减毒的痘苗病毒的克隆毒株及其使用方法 |
CN110709936A (zh) * | 2017-04-04 | 2020-01-17 | 肺癌蛋白质组学有限责任公司 | 用于早期肺癌预后的基于血浆的蛋白质概况分析 |
CN112881547A (zh) * | 2021-01-12 | 2021-06-01 | 中国科学院大学宁波华美医院 | 一种肝硬化及肝炎人群早期肝癌诊断标志物的筛选方法 |
CN114264828A (zh) * | 2022-01-28 | 2022-04-01 | 中国科学院基础医学与肿瘤研究所(筹) | 鉴别良性甲状腺结节与甲状腺癌的生物标志物及其应用 |
-
2022
- 2022-09-28 CN CN202211197099.XA patent/CN115575635A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222282A1 (en) * | 2005-09-15 | 2009-09-03 | Trustees Of Tufts College | Method for Personalized Diet Design |
CN102216268A (zh) * | 2008-09-19 | 2011-10-12 | 卡罗生物股份公司 | 新的雌激素受体配体 |
US20120116685A1 (en) * | 2009-04-03 | 2012-05-10 | The Johns Hopkins University | Methods, System, And Medium For Associating Rheumatoid Arthritis Subjects With Cardiovascular Disease |
CN104093830A (zh) * | 2011-04-15 | 2014-10-08 | 吉恩勒克斯公司 | 减毒的痘苗病毒的克隆毒株及其使用方法 |
CN110709936A (zh) * | 2017-04-04 | 2020-01-17 | 肺癌蛋白质组学有限责任公司 | 用于早期肺癌预后的基于血浆的蛋白质概况分析 |
CN112881547A (zh) * | 2021-01-12 | 2021-06-01 | 中国科学院大学宁波华美医院 | 一种肝硬化及肝炎人群早期肝癌诊断标志物的筛选方法 |
CN114264828A (zh) * | 2022-01-28 | 2022-04-01 | 中国科学院基础医学与肿瘤研究所(筹) | 鉴别良性甲状腺结节与甲状腺癌的生物标志物及其应用 |
Non-Patent Citations (6)
Title |
---|
GABRIELLA ANDREOTTI 等: "Serum Lipid Levels and the Risk of Biliary Tract Cancers and Biliary Stones: A Population-based Study in China" * |
JARINYA KHOONTAWAD 等: "Discovering proteins for chemoprevention and chemotherapy by curcumin in liver fluke infection-induced bile duct cancer" * |
JOY CUENCO 等: "Identification of a serum biomarker panel for the differential diagnosis of cholangiocarcinoma and primary sclerosing cholangitis" * |
MIKEL RUIZ DE GAUNA 等: "Cholangiocarcinoma progression depends on the uptake and metabolization of extracellular lipids" * |
SUMERA RIZVI 等: "Pathogenesis, Diagnosis, and Management of Cholangiocarcinoma" * |
刘秋艳: "血清CA19-9和CEA及IBIL对胆管癌患者的诊断效果研究" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5616892B2 (ja) | 前立腺癌バイオマーカー | |
CN110286235A (zh) | 一种用于肝癌早期筛查和诊断的联合检测血清标志物、试剂盒及检测方法 | |
CN108841954A (zh) | 生物标志物在卵巢癌评估中的应用 | |
CN110579611A (zh) | 一种用于肺癌早期筛查和诊断的联合检测血清标志物、试剂盒及检测方法 | |
CN105861692A (zh) | 研究前列腺癌复发和转移的方法 | |
CN112037852B (zh) | 一种t1期结直肠癌淋巴结转移预测方法和系统 | |
KR20070088979A (ko) | 암진단용 마커 단백질, 그리고 이를 이용한 암진단방법 및암 진단키트 | |
CN113777311B (zh) | 一种用于食管鳞癌辅助诊断的elisa试剂盒 | |
WO2020200323A1 (zh) | 一种胃癌极早期细胞标志和胃癌前病变早期细胞标志及其在诊断试剂盒中的应用 | |
CN111781358A (zh) | Xab2蛋白作为卵巢癌预后和/或预测铂类耐药标志物 | |
WO2023065609A1 (zh) | 确定胃癌极早期发生风险及评估胃癌前病变进展风险的分子标志及其在诊断试剂盒中的应用 | |
CN115575635A (zh) | 一种胆管癌诊断标志物及其筛选方法和应用 | |
CN116559462A (zh) | 用于肿瘤患者预后的生物标志物组及其用途 | |
CN113702637B (zh) | 乳腺癌新辅助化疗疗效预测的凝集素测试载体和试剂盒以及预测模型 | |
JP2024541220A (ja) | 胃がんの超早期発生リスクを確定し胃がんの前がん病変の進行リスクを評価する分子マーカー及びその診断キットにおける応用 | |
CN112229998B (zh) | 一种卵巢癌的预后诊断标志物Claudin22及其应用 | |
KR20150050776A (ko) | 난소암 진단용 바이오마커 조합 | |
CN114724707A (zh) | 一种肝细胞癌自身抗体标志物组合诊断模型 | |
CN115078726A (zh) | 一种用于卵巢癌诊断的生物标志物及检测试剂盒 | |
Bijelić et al. | Neoadjuvant Chemotherapy Affects TFF3 Peptide Expression in Luminal B Subtype of Breast Cancer–A Pilot Study | |
CN113721021B (zh) | Prkcz自身抗体在食管鳞癌辅助诊断中的应用 | |
EP2850209B1 (en) | Methods to predict progression of berret's esophagus to high grade dysplasia or esophageal adenocarcinoma | |
Gromov et al. | Proteomic strategies in bladder cancer: From tissue to fluid and back | |
CN114924075B (zh) | 基于聚焦阵列蛋白芯片筛选用于贲门腺癌诊断的生物标志物及其应用 | |
Guo et al. | The concordance of DNA mismatch repair protein between endoscopic biopsies and surgical specimens and inter-observers variations in colorectal cancer patients: reflections from endoscope doctors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |