[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102348979A - 胃癌诊断用蛋白标记的鉴定 - Google Patents

胃癌诊断用蛋白标记的鉴定 Download PDF

Info

Publication number
CN102348979A
CN102348979A CN2010800113264A CN201080011326A CN102348979A CN 102348979 A CN102348979 A CN 102348979A CN 2010800113264 A CN2010800113264 A CN 2010800113264A CN 201080011326 A CN201080011326 A CN 201080011326A CN 102348979 A CN102348979 A CN 102348979A
Authority
CN
China
Prior art keywords
cancer
sample
albumen
biological fluids
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800113264A
Other languages
English (en)
Inventor
崔娟
李凡
大卫·普特
C·洪
徐鹰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
University of Georgia Research Foundation Inc UGARF
Original Assignee
Jilin University
University of Georgia Research Foundation Inc UGARF
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University, University of Georgia Research Foundation Inc UGARF filed Critical Jilin University
Publication of CN102348979A publication Critical patent/CN102348979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6854Immunoglobulins

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了通过检测分泌到生物液中的蛋白而检测癌的方法以及诊断癌的方法。首先将本发明应用于检测分泌到血清和尿中的蛋白。但是,应该理解的是,所述方法具有更广泛的应用,以开发用于检测分泌到其它生物液中的蛋白的工具和系统,所述其它生物液例如,但不限于唾液、脊髓液、精液、阴道液和眼内液。通过该方法的实施方式提供的对分泌到生物液中的蛋白进行的可信检测能够更及时准确地检测和诊断癌。

Description

胃癌诊断用蛋白标记的鉴定
发明背景
技术领域
本发明主要涉及用于检测和/或诊断癌的检测患者的生物液中的蛋白标记的方法。
背景技术
癌领域中的主要挑战之一是检测处于早期的癌的能力。早期癌检测方面的挑战主要由于大多数癌在其早期不具有明显的可以暗示癌的身体症状所致。经证明如乳房造影法或结肠镜检查等身体检查是有效的,但是仅限于特定类型的癌,例如乳癌或结直肠癌。此外,当通过所述身体检查进行检测时,即使定期进行所述身体检查,癌可能已经超过了早期。非常常见的是当癌已经处于晚期时才被诊断,显然,需要用于早期癌检测的更有效的技术。
基因和蛋白表达的变化提供了关于组织或器官的生理状态的重要线索。恶性转化期间,肿瘤细胞中的基因变化可以干扰自分泌信号传导网络和旁分泌信号传导网络,引起例如生长因子、细胞因子或可以被分泌到癌细胞外部的激素等某类蛋白的过表达(Hanahan和Weinberg,2000;Sporn和Roberts,1985)。这些分泌蛋白以及其它分泌蛋白可以通过复杂的分泌途径进入血清、唾液、血液、尿、脑脊液(脊髓液)、精液、阴道液、眼内液、或其它生物液。
虽然如果检测出癌,组织标记基因可用于对癌进行分级,但是它们不可直接用于癌诊断,除非疑似为特定的癌并且对相关组织进行探测。来自生物液的蛋白标记确实是用于标记鉴定的最终目标,因为它们允许通过简单的分析测试来进行癌检测。
但是,生物液(例如,血清)中癌标记(蛋白、肽或其它分子)的鉴定与癌组织的基因表达研究相比,由于分子组成的复杂性更高和人类血清中分子丰度的动态范围较宽(可能高达6个数量级,差异范围从mg/ml至ng/ml),因此代表了更有挑战性的问题。例如,人类血清蛋白组是高丰度的天然血清蛋白的非常复杂的混合物,所述天然血清蛋白例如白蛋白和免疫球蛋白、以及由不同病变组织或正常组织分泌的或者从遍及人体的细胞渗漏的蛋白和肽。诸如疾病、饮食、甚至精神状态等许多因素都能相当迅速地改变血清中的分子组成及其丰度。将这些组织综合,大多数循环性天然血液蛋白的丰度比大多数经分泌的蛋白的丰度高出几个数量级。这些组织使得极其难以对来自患者群体和参照群体的生物液的蛋白组进行直接比较分析以用于生物标记鉴定。
基因组技术和蛋白组技术的最近进展使得对于鉴定用于癌早期检测的有效标记产生了极大热情和新的希望。通过使用诸如微阵列芯片等技术对癌组织与参照组织中的基因表达模式进行比较分析,即使对于非常早期的癌,也可以检测某些基因在癌组织中相对于正常组织的表达模式的持续变化。这是可行的,因为随着癌经过关键的发育阶段的发展,会获得许多新能力,例如(a)生长信号的自足性,(b)对于抗生长信号的不敏感性,(c)躲避凋亡,(d)无限复制潜能,(e)持续的血管生成和(f)组织入侵和转移,每一种都会改变某些基因的“正常”表达模式,例如,增加其表达水平以产生所获能力所需的相关蛋白;并且这些蛋白中的一些能够分泌到血液循环中,提供用于通过血液测试进行癌检测的可能痕迹。
使用组学(omics)技术,已经提出了同时位于癌组织和血清中的许多标记。质谱法一直是用于对诸如血清等生物液中的蛋白进行蛋白组学研究的主要技术,特别是用于对诸如血清等生物液中的蛋白的鉴定和定量(Tolson等,2004)。
表达蛋白的全局模式可用于某些病例,但是由于表达蛋白的全局模式的高度复杂性,显然它们不是良好的标记。
本领域的普遍共识是现有标记未有效地起作用,并且需要根本性的新观点以鉴定更有效的癌检测用标记,特别是对于早期癌检测。
本领域存在的另一问题是为了诊断癌和其它疾病,必须对以下情况做出准确的预测,即何种来自病变组织中(例如癌)中异常表达基因的蛋白可以被分泌到生物液中。与解决该问题相关的困难在于,目前对蛋白被分泌到细胞外部后的下游定位的理解非常有限,现有知识不足以提供关于蛋白到生物液的分泌方面的有用提示。因此,所需要的是用于预测何种蛋白可能被分泌到生物液中的数据分类方法。
本发明人认为将可源自癌组织的微阵列数据的信息与使用计算方法对生物液进行的蛋白组学研究结合,呈现出一种以更系统的方式发现新颖且更为有效的标记的新颖且更为有效的方法。
发明内容
本发明公开了用于检测癌的方法以及通过检测分泌到生物液中的蛋白来诊断癌的方法。通过本发明的实施方式提供的对分泌到生物液中的蛋白进行的可信检测会允许更及时准确地检测和诊断癌。
在一个实施方式中,本发明公开了确定用于癌检测的蛋白标记的方法,所述方法包括:a)获得癌样品和参照样品;b)确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因;c)鉴定作为所述一个或多个基因的产物的一个或多个蛋白;d)预测所述一个或多个蛋白被分泌到生物液中的可能性;和e)在所述生物液中检测经预测会分泌到所述生物液中的所述一个或多个蛋白的存在,其中所述生物液中的所述一个或多个蛋白的检测构成癌的检测。
在另一实施方式中,本发明公开了诊断罹患癌的患者的方法,所述方法包括:a)从所述患者获得生物液;和b)检测所述生物液中一个或多个标记蛋白的存在,其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验验证会分泌到所述生物液中,并且其中所述生物液中的所述一个或多个标记蛋白的检测构成癌的检测。
在第三实施方式中,本发明公开了诊断罹患癌的受试对象的方法,所述方法包括:a)从所述受试对象获得生物液;和b)测定所述生物液中一个或多个标记蛋白的水平,其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验证实会分泌到所述生物液中,并且其中所述生物液中的所述一个或多个标记蛋白相对于标准水平的差异性表达指示癌。
在又一实施方式中,本发明公开了用于癌鉴定的标记,所述标记包括选自由以下蛋白组成的组中的一个或多个蛋白:MUC13、GKN2、COL10A、AZTP1、CTSB、LIPF、GIF、EL和TOP2A,其中获自受试对象的生物液中的所述一个或多个蛋白相对于标准水平的差异性表达指示所述受试对象中癌的出现。
在另一实施方式中,本发明公开了用于检测受试对象中的癌的试剂盒,所述试剂盒包含:(a)与生物液中的蛋白特异性结合的一种或多种一抗,其中所述蛋白选自由MUC13、GKN2、COL10A、AZTP1、CTSB、LIPF、GIF、EL和TOP2A组成的组;(b)与所述一种或多种一抗特异性结合的二抗;以及可选的是,(c)参照样品。
为了说明本发明,首先将本发明应用于检测分泌到血清和尿中的蛋白。但是,应该理解,可将本发明更广泛地应用到开发用于检测分泌到其它生物液中的蛋白的工具和系统,所述其它生物液例如,但不限于,唾液、脊髓液、精液、阴道液和眼内液。
附图说明
图1显示(a)在转录物的全长上选择探针选择区(PSR)的示意图。PSR下面的短划线表示用于各PSR的各个探针(来源:Affymetrix:人、小鼠及大鼠用
Figure BDA0000090397930000041
Exon阵列系统)。浅色区表示外显子,深色区表示在剪接期间被除去的内含子。(b)三个所预测剪接同种型的PCR数据。x轴是组织样品轴(12个组织样品),其中NC是阴性对照。Y轴是质量轴。(i)略过外显子2的一个同种型;和(ii)分别是略过替代性外显子2(下方)和略过外显子1(上方)的两个同种型。(c)外显子同种型和探针的示意图。长的水平线表示人类基因组的部分,最窄的矩形表示外显子,三个较宽的矩形表示三个外显子同种型,位于底部的较短的黑线表示探针。
图2描述了(a)在癌组织中相对于参照组织差异性表达的总共2,540个基因和在早期癌中差异性表达的1,276基因的维恩图(Venn diagram)。(b)在癌组织和参照组织之间所述2,540个基因的表达差异性的分布。
图3描述了(a)所述2,540个差异性表达的基因、911个癌相关基因和1,276个在早期癌中差异性表达的基因的功能家族分布。(b)以上三组基因的亚细胞位置分布(*Cyt.:细胞质;Nuc.:细胞核;E.R.:内质网;Pla.:质膜;Ext.:细胞外间隙)。
图4描述了(上部)癌组织中MUC1的表达水平作为年龄的函数而改变,其与性别无关;(下部)THY1的表达与年龄和性别都无关。
图5描述了在基因的子集的80个样品上鉴定的双基因簇(bi-cluster),其中各行表示基因,各列表示一对癌组织/参照组织,(a)C1(上部)具有244个在癌组织中相对于参照组织一致性上调的基因;C2(中部)具有95个基因,其大多数下调;C3(下部)具有53个显示复合模式的基因。要注意的是用于不同双基因簇的组织样品的顺序不必相同,因为所述算法会将组织样品的顺序重排。(b)可能具有亚型特异性的双基因簇,由42个基因组成。已知以竖线标记的6个基因与胃癌的亚型相关。
图6描述了一个盒式图,显示了在出现所预测的外显子-略过事件时的紧邻上游内含子区(-150nt,+30nt)中的匹配基序的分布。
图7(a)以竖线标记的曲线表示k基因标记(k=1,..,100)的总精度,其是500个随机选择的子集的最佳精度的平均值;以十字交叉标记的曲线表示通过穷举搜索鉴定出的k基因标记(k=1,..,8)的5倍交叉验证(5-cross validation)精度。(b)最佳28个基因标记的热图,其包括13个上调基因和15个下调基因。其中,NKAP、TMEM185B、C14orf104和Clorf96上调,而KLF15、PI16和GADD45B在>89%的早期患者中下调。
图8描述了从对照组和癌组收集的血清样品的MS总离子色谱图。(a)对照组的基峰位于左侧,癌组的基峰位于右侧;(b)不同的分子量范围。
图9描述了以下8个蛋白的蛋白质印迹(SDS-PAGE之后转移至硝酸纤维素以随后用抗体进行印迹):MUC13、GKN2、COL10A1、AZTP1、CTSB、LIPF、GIF和TOP2A,显示了对照组和胃癌组之间丰度的差异。1)MUC13(1μg,稀释度:一抗1∶200;抗兔二抗,1∶10,000);2)GKN2(150μg,稀释度:一抗1∶1,000;抗兔二抗,1∶30,000);3)COL10A1(1μg,稀释度:一抗1∶500;抗兔二抗,1∶10,000);4)AZTP1(120μg,稀释度:一抗1∶500;抗鼠二抗,1∶3,000);5)CTSB(5μg,稀释度:一抗1∶1,500;抗兔二抗,1∶20,000);6)LIPF(120μg,稀释度:一抗1∶500;抗羊二抗,1∶10,000);7)GIF(120μg,稀释度:一抗1∶5,00;抗鼠二抗,1∶3,000);和8)TOP2A(60μg,稀释度:一抗1∶350;抗羊二抗,1∶10,000)。
图10描述了d值和p值之间的统计关系=P(TP),d表示离位于阳性训练数据和阴性训练数据之间的分离超平面的距离。
图11描述了由注释、可视化及综合发现用数据库(Database for Annotation,Visualization and Integrated Discovery(DAVID))富集的功能组。DAVID提供了一套全面的功能注释工具以理解大的基因列表所隐藏的生物学意义。x轴表示功能组,y轴表示富集度。
图12使用KEGG直系同源类注释系统(Orthology-based Annotation System(KOBAS))网络服务器描述了480个所预测尿蛋白的富集途径。KOBAS鉴定了与背景分布相比所查询序列中经常出现(或显著富集)的途径。各组中较短的条形表示所述480个蛋白的百分比,各组中较长的条形表示所有人类蛋白;x轴表示途径名称;以及y轴表示百分比。
图13描述了480个蛋白的代表性不足(underrepresented)的途径。各组中较短的条形表示所述480个蛋白的百分比,各组中较长的条形表示所有人类蛋白;x轴表示途径名称;以及y轴表示百分比。
图14描述了3个正常样品(N1、N2、N3)和3个胃癌样品(SC1、SC5、SC11)的274个细胞因子的抗体阵列。人类G6阵列显示Fit3-配体(白色矩形);人类G7阵列显示EGF-R(深灰色矩形)、SGP-130(白色矩形);人类G8阵列显示PDGF-AA(白色矩形);人类G9阵列显示Trappin-2(浅灰色矩形)、黄体化激素(白色矩形)、TIM-1(深灰色矩形);人类G10阵列显示CEACAM1(浅灰色矩形)、FSH(白色矩形)、CEA(深灰色矩形)。
图15描述了三个癌样品(GC)和三个对照样品(CTRL)的粘蛋白13(Mucin13)的蛋白质印迹。各泳道含有1μg的尿蛋白。Santa Cruz Mucin 13(M-250)兔多克隆抗体以1∶200稀释使用;抗兔二抗以1∶10,000稀释使用。
图16描述了三个对照样品(CTRL)和三个癌样品(GC)的COL10A1的蛋白质印迹。各泳道含有1μg的尿蛋白。Calbiochem的抗胶原X型Rabbit pAb以1∶200稀释使用;抗兔二抗以1∶10,000稀释使用。
图17(上部)三个对照样品(CTRL)和三个胃癌样品(GC)的内皮脂肪酶(EL)的蛋白质印迹。各泳道含有1μg的尿蛋白。用于EL的抗体是Santa Cruz EL(C-19)亲和纯化羊多克隆抗体(1∶200稀释);抗羊二抗以1∶15,000稀释使用。(下部)前7条泳道对应于正常样品;后7条泳道是癌样品。
图18描述了对前列腺癌和对照数据通过最佳1-基因标记和2-基因标记得到的分类表现。y轴是分类精度,x轴是通过其分类精度分选的前100个最佳标记的列表。
图19显示使用基于生物素标志的抗体阵列进行的蛋白阵列实验的结果。图19描述了癌血清和参照血清之间在103个蛋白中的蛋白丰度差异性的分布,x轴表示以其丰度差异性的log值的升序分选的103个蛋白的列表,y轴是丰度差异性的log值。
现在参照附图描述本发明。应该理解的是本申请的附图不必按比例绘出,并且这些图和图解仅是说明性的,并不限制本发明。
具体实施方式
本发明涉及检测癌的方法,所述方法通过以下步骤进行:预测蛋白是否被分泌到生物液中,以及通过在蛋白组学研究中确定所述生物液中所述蛋白的存在来验证所述预测,所述生物液例如但不限于血清、唾液、血液、尿、脊髓液、精液、阴道液和眼内液,其中所述生物液中所述蛋白的检测构成了癌的检测。本发明包括诊断罹患癌的患者的方法的实施方式,所述实施方式通过以下步骤进行:检测所述患者的生物液中由癌组织中的异常表达基因表达的一个或多个标记蛋白的存在,其中所述标记蛋白据预测并经实验验证会分泌到所述生物液中,并且其中所述生物液中的所述标记蛋白的检测构成癌的检测。
各种生物液中的任一种都适于使用本发明的装置和方法进行分析。所述生物液包括脑脊液、滑液、血液、血清、血浆、唾液、肠液、精液、眼泪、鼻分泌物等。应该意识到根据本发明可同样地使用任何流体生物样品(例如,组织提取物或活组织检查提取物、粪便提取物、痰等)。
在以下出于说明目的的描述中,所陈述的具体数值、参数和试剂是为了对本发明提供全面的理解。但是,应该理解的是,本发明无需这些具体细节即可实施。在某些情况下,为了不使本发明模糊,可以省略或简述公知特征。
说明书中所述的实施方式和参考文献提到“一种实施方式”、“本发明的实施方式”、“实施方式”、“示例性实施方式”等,表示所述的实施方式可以包括特定的特征、结构或特性,但是每一个实施方式可以不必包括该特定的特征、结构或特性。此外,以上术语不必指同一实施方式。另外,当将特定的特征、结构或特性结合实施方式进行描述时,应该理解,无论是否明确指出,在本领域中已知都可以结合其它实施方式实现所述特征、结构或特性。
本文的描述“a”或“an”物品可以指单数物品或复数物品。例如,某特征、蛋白、生物液或分类器可以是单个的特征、蛋白、生物液或分类器。作为另一种选择,某特征、蛋白、生物液或分类器可以是多个的特征、蛋白、生物液或分类器。因此,如本文所用,“a”或“an”可以是单数或复数的。类似地,对于复数项目的提及或描述可以指代单个项目。
应该理解的是,在本文无论何处以语言“包含”来描述实施方式,也就另外提供了以术语“由......组成”和/或“基本上由......组成”描述的类似实施方式。
说明书描述了通过检测生物液中标记蛋白的存在来检测和诊断癌的通常方法。本文提供了用于检测血清中的标记蛋白的具体示例性实施方式。本说明书公开了一个或多个并入本发明的特征的实施方式。所公开的实施方式仅仅是对本发明的举例说明。本发明的范围不限于所公开的实施方式。本发明由所附的权利要求限定。
虽然说明书中所要求保护的方法及其对应的描述通常要求保护的特征是对癌检测用蛋白标记的检测,应该理解的是,针对所述蛋白标记的存在对样品进行分析、发现没有所述标记蛋白并由此未诊断出癌仍然是对所述蛋白标记的存在性的检测。
定义
术语“多肽”、“肽”、“蛋白”和“蛋白片段”在本文中可相互替换地使用以指代氨基酸残基的聚合物。这些术语适用于其中一个或多个氨基酸残基是相应天然存在的氨基酸的人工化学模拟物的氨基酸聚合物,以及天然存在的氨基酸聚合物和非天然存在的氨基酸聚合物。如本文所用,“蛋白”或“肽”通常是指大于约200个氨基酸至最大为从基因翻译的全长序列的蛋白;多肽为约100个氨基酸~200个氨基酸;和/或“肽”为约3个氨基酸~约100个氨基酸,但并不限于以上定义。如本文所用,“氨基酸”是指任何天然存在的氨基酸、本领域已知的任何氨基酸衍生物或任何氨基酸模拟物。在某些实施方式中,蛋白或肽的残基是连续的,没有任何非氨基酸打断氨基酸残基的序列。在其它实施方式中,所述序列可以包含一个或多个非氨基酸部分。在特定实施方式中,蛋白或肽的残基的序列可以被一个或多个非氨基酸部分打断。
术语“氨基酸”是指天然存在的氨基酸和合成的氨基酸,以及与天然存在的氨基酸功能类似的氨基酸类似物和氨基酸模拟物。天然存在的氨基酸是由遗传密码编码的那些氨基酸,以及被稍后修饰的那些氨基酸,例如羟基脯氨酸、γ-羧基谷氨酸和O-磷酸丝氨酸。氨基酸类似物是指与天然存在的氨基酸具有相同的基本化学结构(例如与氢结合的α碳、羧基、氨基和R基)的化合物,例如高丝氨酸、正亮氨酸、蛋氨酸亚砜、蛋氨酸甲基锍。所述类似物可以具有经修饰的R基(例如正亮氨酸)或经修饰的肽主链,但是保留与天然存在的氨基酸相同的基本化学结构。氨基酸模拟物是指具有与氨基酸的一般化学结构不同的结构但是其功能与天然存在的氨基酸类似的化合物。
如本文所用,受试对象或患者中的“癌”是指拥有致癌细胞的典型特性的细胞的存在,所述典型特性例如不受控的增殖、永生化、转移潜能、快速生长和增殖速率和某些特征性形态学特征。通常,癌细胞是肿瘤的形式,但是此类细胞可以在受试对象内单独存在,或可以是非致瘤性癌细胞,例如白血病细胞。在某些情况下,癌细胞是肿瘤的形式,此类细胞可以在动物内局部存在,或在血流中作为独立细胞循环,例如白血病细胞。癌的实例包括但不限于乳癌、黑色素瘤、肾上腺癌、胆管癌、膀胱癌、脑癌或中枢神经系统癌、支气管癌、母细胞瘤、癌(carcinoma)、软骨肉瘤、口腔癌或咽癌、子宫颈癌、结肠癌、结直肠癌、食道癌、胃肠癌、成胶质细胞瘤、肝癌、肝细胞瘤、肾癌、白血病、肝癌、肺癌、淋巴瘤、非小细胞肺癌、骨肉瘤、卵巢癌、胰腺癌、外周神经系统癌、前列腺癌、肉瘤、唾液腺癌、小肠癌或阑尾癌、小细胞肺癌、鳞状细胞癌、胃癌、睾丸癌、甲状腺癌、膀胱癌、子宫癌或子宫内膜癌和外阴癌。
如本文所用,“样品”是指从患者、优选从人类患者获得的生物材料的样品,包括组织、组织样品、细胞样品,例如活组织检查(例如抽吸活组织检查、刷拭活组织检查、表面活组织检查、针吸活组织检查、钻取活组织检查、切除活组织检查、切开活组织检查、切取活组织检查或内窥镜活组织检查),肿瘤样品或从所述组织样品提取的RNA。样品还可以是生物液样品,包括但不限于尿、血液、血清、血小板、唾液、脑脊液、乳头抽吸液和细胞裂解物(例如全细胞裂解物的上清液、微粒体级分、膜级分或细胞质级分)。可以使用任何本领域已知的方法获得所述样品。
“生物样品”是指从个体获得的任何生物样品,包括但不限于,粪便(大便)样品、生物液(例如血液)、细胞、组织样品、RNA样品或组织培养物。从哺乳动物获得大便样品、组织活组织检查或其它生物样品的方法是本领域公知的。
如本文所用,“组织样品”是指从受试对象的完整组织获得或移取的组织的部分、碎片、局部、片段或级分。
术语“基因”是指包含产生多肽、前体或RNA(例如rRNA、tRNA)所需的编码序列的核酸(例如,DNA)序列。术语“基因”包括基因的cDNA和基因组形式。
基因的基因组形式或克隆物含有被命名为“内含子”或“插入区”或“插入序列”的非编码序列打断的编码区或“外显子”。内含子从核转录物或初级转录物中被除去或“剪除”;因此在信使RNA(mRNA)转录物中不存在内含子。除了含有内含子之外,基因的基因组形式还包括位于存在于RNA转录物上的序列的5′和3′末端的序列。将这些序列称为“侧接”序列或“侧接”区(这些侧接序列处在相对存在于mRNA转录物上的非翻译序列的5′或3′处)。
应该理解的是,对于特定的mRNA剪接变体而言“内含子”和“外显子”是相对的,一种剪接变体的外显子可以是另一种剪接变体的内含子,反之亦然。但是,在一个剪接变体内,“内含子”不能是“外显子”,反之亦然。这些术语“内含子”和“外显子”在本文是为方便和清楚起见而使用的,并非意在限制。
如本文所用,术语“基因表达”是指通过内源基因、其ORF或部分、或植物中的转基因的“转录”(例如,经由RNA聚合酶的酶促作用),将在内源基因、其ORF或部分、或植物中的转基因中编码的遗传信息转换为RNA(例如mRNA、rRNA、tRNA或snRNA)的过程,并且对于蛋白编码基因而言,通过mRNA的“翻译”转换为蛋白的过程。另外,表达是指正义(mRNA)或功能性RNA的转录和稳定累积。在该过程中的许多阶段可以调节基因表达。“上调”或“激活”是指增加基因表达产物(例如,RNA或蛋白)的产生的调节,而“下调”或“阻遏”是指减少产生的调节。涉及上调或下调的分子(例如转录因子)经常分别称为“激活子”或“阻遏子”。
术语“差异性表达的基因”、“差异性基因表达”及其同义词可相互替换地使用,是指相对于所述基因在正常受试对象或对照受试对象中的表达,其在罹患疾病、特别是癌(例如胃癌)的受试对象中的表达被激活至更高水平或更低水平的基因。这些术语还包括其表达在相同疾病的不同阶段被激活至更高水平或更低水平的基因。还应该理解的是,差异性表达的基因可以在核酸水平或蛋白水平被激活或抑制,或可以经受替代性剪接以产生不同的多肽产物。所述差异可以由例如mRNA水平、多肽的表面表达、分泌或其它配分的改变而证明。差异性基因表达可以包括两个或多个基因或其基因产物之间的表达的比较,或两个或多个基因或其基因产物之间的表达比例的比较,或甚至是相同基因的两种不同加工产物的比较,所述两种不同加工产物在正常受试对象和罹患疾病(特别是癌)的受试对象之间不同、或在相同疾病的不同阶段之间不同。差异性表达包括定量以及定性差异,例如正常细胞和病变细胞之间、或经历不同疾病事件或疾病阶段的细胞之间的时间上或基因或其表达产物中的细胞表达模式上的定量及定性差异。出于本发明的目的,当在正常受试对象和病变受试对象中或在病变受试对象的疾病发展的不同阶段中给定基因的表达之间的差异至少为约1.5倍、2倍,优选至少约4倍、更优选至少约6倍、最优选至少约10倍时,认为存在“差异性基因表达”。
如本文所用,术语“受试对象”或“患者”是指疑似患有癌或待要经受特定诊断的任何动物(例如,哺乳动物),包括但不限于人类、非人类灵长类和啮齿动物等。通常,提及人类受试对象时,在本文术语“受试对象”或“患者”可相互替换地使用。
如本文所用,“正常受试对象”或“对照受试对象”是指未罹患疾病的受试对象。
诸如“治疗中”、或“治疗”或“待治疗”、或“缓解”或“待缓解”等术语是指1)治愈、减慢、减轻所诊断病理性病况或病症的症状和/或暂停发展的治疗性措施,以及2)预防和/或减慢所针对的病理性病况或病症的发展的预防性或防止性措施。因此需要治疗的那些包括已经罹患所述病症的那些对象、倾向于罹患所述病症的那些对象和其中待预防所述病症的那些对象。如果患者显示出以下情况中的一种或多种,则已根据本发明的方法成功地“治疗”了受试对象:癌细胞的数量减少或完全不存在;肿瘤尺寸的减小;浸润到周围器官的癌细胞(包括例如癌至软组织和骨的扩散)的抑制或不存在;肿瘤转移的抑制或不存在;肿瘤生长的抑制或不存在;与特定癌相关的一种或多种症状的缓解;发病率和致死率减少;生活品质提高;或某些效果组合。
如本文所用,术语“分类器”是指用于执行数据分类的方法、算法、计算机程序或系统。
如本文所用,术语“分类”是学习将数据点分成不同类别的过程,其通过发现在已知类别内所收集的数据点之间的共同特征而进行。可以使用神经网络、回归分析或其它技术完成分类。
如本文所用,术语“数据分类方法”表示一种一般性计算方法的类别,其试图基于所提供的各数据要素的特征值,确定给定数据集合中的各数据要素属于哪种预定义类别。
术语“基于抗体的结合部分”或“抗体”包括免疫球蛋白分子和免疫球蛋白分子的免疫活性决定簇,例如含有特异性结合蛋白(与蛋白发生免疫反应)的抗原结合位点的分子。术语“基于抗体的结合部分”试图包括完整抗体,例如任何同型(IgG、IgA、IgM、IgE等)的完整抗体,并且包括其也与抑制蛋白或其片段特异性反应的其片段。可以使用常规技术将抗体片段化。因此,该术语包括抗体分子的蛋白水解-切割的部分或重组制备的部分的区段(segment),其能够与特定蛋白选择性地反应。所述蛋白水解片段和/或重组片段的非限制性实例包括Fab、F(ab′)2、Fab′、Fv、dAbs和含有通过肽连接子连接的VL域和VH域的单链抗体(scFv)。scFv可以共价连接或非共价连接以形成具有两个或多个结合位点的抗体。因此,“基于抗体的结合部分”包括多克隆抗体、单克隆抗体或抗体和重组抗体的其它纯化制品。术语“基于抗体的结合部分”还试图包括人源化抗体、双特异性抗体和具有至少一个源自抗体分子的抗原结合决定簇的嵌合抗体。在优选实施方式中,对基于抗体的结合部分进行可检测标记。
如本文所用,“经标记抗体”包括通过可检测手段标记的抗体,并且包括但不限于被酶促、放射性、荧光和化学发光标记的抗体。还可以用诸如c-Myc、HA、VSV-G、HSV、FLAG、V5或HIS等可检测标记将抗体标记。
本发明的一个方面中,提供了确定癌检测用血清蛋白标记的方法,所述方法包括:a)获得癌样品和参照样品;b)确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因;c)鉴定作为所述一个或多个基因的产物的一个或多个蛋白;d)预测所述一个或多个蛋白被分泌到生物液中的可能性;和e)在所述生物液中检测据预测会分泌到所述生物液中的所述一个或多个蛋白的存在,其中所述生物液中的所述一个或多个蛋白的检测构成癌的检测。
癌样品和参照样品可以从相同受试对象或从不同受试对象获得。“参照样品”是指含有基线量的一个或多个基因的表达的样品,该基线量在一个或多个不患有癌的受试对象中确定。基线可以从至少一个受试对象获得,并且优选从平均量的受试对象(例如,n=2~100或更多)获得,其中所述受试对象之前没有癌病史。基线还可以从来自疑似罹患癌的受试对象的一个或多个正常样品获得。例如,基线可以从至少一个正常样品获得,并且优选从平均量的正常样品(例如,n=2~100或更多)获得,其中所述受试对象疑似罹患癌。在一个方面,与参照样品相比,一个或多个基因的表达在癌样品中可以增加。在另一方面,与参照样品相比,一个或多个基因的表达在癌样品中可以减少。
基因表达的分析
对在癌样品和参照样品之间差异性表达的一个或多个基因的确定包括从癌样品和参照样品分离核酸。核酸样品可以是总RNA、cDNA样品、聚(A)RNA、不含一种或多种RNA的RNA样品,例如不含rRNA的RNA样品或RNA的扩增产物。在一个方面,所述样品来自哺乳动物,例如人类、大鼠或小鼠。所述样品还可以分离自组织,包括例如血液、肺、心脏、肾、胰腺、前列腺、睾丸、子宫、大脑或皮肤。
在癌样品和参照样品之间差异性表达的基因可以通过本领域已知的任何手段检验,包括但不限于微阵列图谱、聚合酶链式反应(PCR)、基于多核苷酸的杂交分析的方法、基于多核苷酸的测序的方法、基于选择性基因剪接的分析的方法和基于蛋白组学的方法。
用于通过将生物液中的RNA定量而研究基因表达的本领域已知的广泛应用的方法包括微阵列分析、RNA印迹分析(Harada,1990)和原位杂交(Parker&Barnes,1999);核糖核酸酶保护检验(Hod,1992);S1核酸酶作图(Fujita等,1987)和基于PCR的方法,例如逆转录聚合酶链式反应(RT-PCR)(Weis等,1992)、定量RT-PCR和连接酶链式反应(LCR)(Barany,1991),这些都是本领域的常规方法。作为另一选择,可以使用能够识别具有序列特异性的双链体(包括DNA双链体、RNA双链体和DNA-RNA杂交双链体或DNA-蛋白双链体)的抗体。基于测序的基因表达分析的代表性方法包括基因表达系列分析(SAGE)和通过大规模平行特征序列(parallel signature)测序(MPSS)进行的基因表达分析。
在一个实施方式中,确定在癌样品和参照样品之间差异性表达的一个或多个基因包括从癌样品和参照样品分离总RNA。用于总RNA提取的通常方法是本领域已知的,并且记载于分子生物学的标准课本中,包括Ausubel等,Current Protocols ofMolecularBiology,John Wiley和Sons(1997)。
在优选实施方式中,对分离自癌样品和参照样品的总RNA使用微阵列分析来研究在癌样品中相对于参照样品差异性表达的基因。
在另一实施方式中,使用RNA印迹分析研究在癌样品中相对于参照样品差异性表达的基因。
在又一实施方式中,使用RNA酶保护检验研究在癌样品中相对于参照样品差异性表达的基因。
在另一实施方式中,通过使分离的细胞RNA与经放射性标记的合成DNA序列杂交来评估RNA的表达,以便确定在癌样品中相对于参照样品差异性表达的基因,所述经放射性标记的合成DNA序列与所关注RNA的5′末端具有同源性。
在另一实施方式中,使用聚合酶链式反应(PCR)研究在癌样品中相对于参照样品差异性表达的基因。
在另一实施方式中,使用RT-PCR研究在癌样品中相对于参照样品差异性表达的基因。
RT-PCR技术的最近变化形式是实时定量PCR,其通过经双标记的荧光发生探针(即TaqManRTM探针)测定PCR产物的累积。实时PCR与以下PCR均相容:其中将各靶序列的内部竞争物用于标准化的定量竞争性PCR,以及与使用包含在样品内的标准化基因或RT-PCR用管家基因的定量比较PCR。详细资料参见例如Held等,1996。
可以使用代替PCR的替代性方法,例如“连接酶链式反应”(″LCR″)来研究基因表达(Barany,1991)。
另外的基于PCR的技术例如包括:差异性展示(Liang和Pardee,1992);扩增片段长度多态性(iAFLP)(Kawamoto等,1999);BeadArrayTM技术(Illumina,San Diego,Calif.;Oliphant等,Discovery of Markers for Disease(Supplement to Biotechniques),2002年6月;Ferguson等,2000);在基因表达用快速检验中使用商购Luminex100LabMAP系统和多色编码的微球(Luminex Corp.,Austin,Tex.)的用于检测基因表达的珠阵列(BADGE)(Yang等,2001);和高覆盖表达图谱(HiCEP)分析(Fukumura等,2003)。
在本发明的另一实施方式中,通过基因表达系列分析(SAGE)研究在癌样品中相对于参照样品差异性表达的基因。
在本发明的另一实施方式中,通过大规模平行特征序列测序(MPSS)研究在癌样品中相对于参照样品差异性表达的基因。关于该方法的描述,参见Brenner等,(2000)。
迄今,此前关于癌标记的研究一直不能检查全人类转录物组,由于缺乏有效研究手段而未能检查大多数人类转录物组、由基因的选择性剪接生成的剪接变体。因此,在本发明的另一实施方式中,通过鉴定在癌样品中相对于参照样品差异性表达的剪接变体来研究在癌样品中相对于参照样品差异性表达的基因。
选择性剪接是这样的真核细胞过程,通过其经由包含外显子的不同部分和/或经由保留内含子而可以从同一前mRNA产生多种成熟的mRNA转录物。据估计至少40%~75%的人类基因在不同条件下经受选择性剪接(Modrek和Lee,2002)。选择性剪接是造成人类转录物组和蛋白组的复杂性的主要原因。此前的估计表明,人类蛋白组具有由约20,000个基因编码的至少约100,000个、可能至多约150,000个不同的蛋白,表明每个人类基因平均编码5~7个蛋白。因此,人类细胞中大多数功能蛋白是剪接同种型,强调了当研究基因表达和蛋白(在本案中为生物液中的标记蛋白)时研究剪接变体的需要。
已知选择性剪接涉及人类的许多生物过程(Nakao等,2005),在正常和异常的功能过程中都涉及。异常剪接可对细胞的正常功能具有严重的影响。最近的调查回顾了在12种癌类型中出现在p53剪接位点处的29个突变(Holmila等,2003)。另一最近研究发现约200个基因的464个剪接变体在人类前列腺癌中差异性表达(Li等,2006)。
在一个实施方式中,由Affymetrix进行的新兴外显子阵列技术为研究选择性剪接提供了有力工具。
外显子阵列数据的分析代表了一个具有挑战性的问题,因为所述阵列的基本单元是外显子而不是基因。使用诸如鲁棒多芯片平均法(Robust Multichip Average,RMA)(Irizary等,2003)和探针对数强度误差(Probe Logarithmic Intensity Error,PLIER)估计法(Affymetrix,2005)等方法,可以从外显子阵列数据评估个体外显子的表达水平,而从所述表达水平并基于外显子的表达水平的相似性,可以推断出主要的剪接同种型。挑战在于在给定组织中,对于各个基因,可以存在具有不同表达水平的超过一种的表达剪接同种型,因此各外显子的所观察到的表达水平是含有该外显子的所有表达剪接同种型的总的表达水平。计算问题在于算出哪些剪接同种型被表达和以何种水平被表达,并且预测结果应该与外显子表达数据一致,但外显子表达数据通常具有噪音。虽然存在诸如ANOVA(Affymetrix,2005)等设计用于解读外显子阵列数据的计算机程序,因为外显子阵列从2006年才开始广泛应用,该问题提出了新的难题。关于外显子阵列数据的解读仍然存在许多挑战和未解决的问题。其中的关键问题是可信地预测主要的剪接同种型及其表达水平。
能够被从组织分泌到血液循环中的蛋白的预测
使用基因表达数据分析技术,已经鉴定或提出与诸如肝癌(Smith等,2003)、肾癌(Young等,2003)、乳癌(van der Vijver等、2002)、结直肠癌(Resnick,2004)和其它主要的癌(Sallimen等,2000;Hendrix等,2001)等特定的癌相关的许多基因。另外,已经提供用于评估癌阶段的几个标记。但是,通过将基于差异性基因表达数据得出的组织中的标记基因和通过蛋白组学分析发现的血清中的标记蛋白进行比较,观察到它们的关联相当弱,表明分别对癌组织和血清使用基因组学和蛋白组学技术得到的信息之间的无关联。
因此,虽然如果检测出癌,组织标记基因可用于对癌进行分级,但是它们不直接用于癌诊断,除非疑似为具体的癌并且对相关组织进行探测。获自生物液的标记确实是用于标记鉴定的最终目标,因为它们允许通过简单的分析测试来进行癌检测。将此成功完成的关键在于发现有效的途径来最大限度地利用源自在癌组织上进行的基因表达研究的信息,从而指导生物液中的癌标记鉴定。
具有预测病变组织中的哪些蛋白能够被分泌到生物液中的能力会在将可源自微阵列表达数据的信息与生物液中标记蛋白的鉴定连接起来方面提供关键的联系。
基于如信号肽、特定长度的跨膜域、氨基酸组成和蛋白功能等蛋白序列信息(Mott等,2002;Guda等,2006),已经进行了许多研究来预测蛋白的亚细胞定位,所述蛋白包括能够被运输到细胞表面或被分泌到胞外环境中的蛋白(Menne等,2000;Nair和Rost,2005;Guda等,2006;Horton等,2007)。虽然这些程序能够预测蛋白是否能够由细胞分泌,但是它们不涉及所述蛋白在离开细胞后最终在何处。
本发明中,该问题已经使用数据挖掘方法得以解决,所述数据挖掘方法通过以下过程进行:首先收集已知由于各种病理性病况被分泌到生物液中的人类蛋白,所述生物液例如但不限于血清、尿、唾液、脊髓液、精液、阴道液、羊膜液、龈沟液和眼内液,所述蛋白可通过蛋白组学研究进行检查,然后就可用于预测这些蛋白的其物化性质以及其序列和结构特征方面,鉴定在这些蛋白中存在的共同特征。使用该策略,已经开发并据报道用于预测能够从组织分泌到生物液中的蛋白的计算机程序。参见PCT申请第PCT/US2009/053309号,本文并入其全部内容作为参考。
该算法的基本思路如下。通过广泛的文献检索产生大人类蛋白集合,如通过之前的蛋白组学研究所检测已知会由于各种病理性病况而分泌到血流中的人类蛋白。绘出这些分泌蛋白共有的特征的列表,所述特征包括其物化性质、氨基酸序列和基序,以及结构特征(表1)。使用这些特征,对分类器进行训练来将能够被分泌到生物液中的蛋白与不能被分泌到生物液中的蛋白区分开。然后使用该算法来预测所述组织基因标记中的哪些可以被分泌到生物液中。
在一个实施方式中,所述算法包括以下步骤:选择蛋白的阳性分泌类别;选择阴性集的代表性蛋白;映射(mapping)蛋白特征以构建特征集;对分类器进行训练以识别蛋白的类别的特性;确定所映射特征的精度和相关性;除去最不重要的特征以产生经再训练的分类器;接收蛋白序列;载体生成和扩增;预测所接收蛋白序列的类别;和返回所接收蛋白序列的预测结果。该算法的详细描述在共同未决的申请PCT/US2009/053309中提供。
表1:预测血液分泌蛋白的初始特征的列表
应该理解,对于不同的生物液而言蛋白特征可以不同。因此对于不同的生物液而言表1中所列出的特征可以不同。表1中所列出的蛋白特征可以粗分为四类:(i)一般性序列特征,例如氨基酸组成、序列长度和二肽组成(Bhasin和Raghava,2004;Reczko and Bohr,1994);(ii)物化性质,例如溶解度,非稳定区、疏水性、标准化范德华体积、极性、极化率和电荷;(iii)结构特征,例如二级结构含量、溶剂可及性和回转半径,和(iv)结构域/基序,例如信号肽,跨膜域和双精氨酸信号肽基序(TAT)。
在一个实施方式中,选择注释为分泌蛋白并且从已知的蛋白数据库(例如Swiss-Prot and Secreted Protein Database(SPD)数据库)收集的人类蛋白,以及通过之前研究已经在血液中经过实验检测的蛋白。Chen等(2005)描述了基于网络的SPD。
根据本发明的实施方式,以FASTA格式接收与从生物液收集的蛋白相符的蛋白序列。
在本发明的其它实施方式中,以其它已知的格式接收与从生物液收集的蛋白相符的蛋白序列,所述其它已知的格式包括但不限于仅包含字母字符的‘raw’文本格式。根据本发明的实施方式,在raw文本格式中所接收的蛋白序列中的任何空格符,例如空格、回车或TAB字符都被忽略。
对于数据分离和回归模型可以广泛地执行各种受监督的学习方法,例如支持向量机(SVM)、人工神经网络(ANN)、决策树、回归模型和其它算法。基于已知数据(形式为训练数据集的知识),这些受监督的学习方法能够使计算机自动学习识别复杂的模式和开发分类器,其接下来可用于作出明智的决定和预测未知数据的类别(独立集)。
在本发明的一个实施方式中,分类器是支持向量机(SVM)。常规的SVM是基于定义判定边界的判定超平面的概念。判定超平面是将具有不同类别成员资格的目标的集合分开的超平面。例如,所收集的目标可以属于第一类或第二类,并且诸如SVM等分类器可用于确定(即预测)待分类的任何新目标的类别(例如,第一类或第二类)。常规的SVM是初级的分类器方法,其通过在分开不同类别标记的案例的多维空间中构建超平面来执行分类任务。SVM可以支持回归任务和分类任务,并且可以处理多个连续的分类变量。在本发明的实施方式中,训练基于SVM的分类器来预测蛋白序列的类别是被分泌到生物液中还是不被分泌到生物液中。
在本发明的另一实施方式中,分类器是专门化的、经改良的基于SVM的分类器。使用经改良的基于SVM的分类器来有效地计算蛋白被分泌到生物液中的可能性。高斯径向基函数核提供比用于SVM中的其它更常规的核(诸如线性核和多项式核)更优的性能。因此,在实施方式中,将高斯核SVM用于训练所述分类器。
在本发明的另一实施方式中,对基于SVM的分类器进行进一步训练来预测通过微阵列基因表达实验检测到的异常高表达的基因是否将其蛋白分泌到血流中。研究已经鉴定了在诸如癌等各种病理状况的患者中显示异常高表达水平的许多此类基因。配备有该知识后,基于SVM的分类器可用于基于计算某些蛋白被排泄到患者血流中的可能性来诊断各种癌。
在一个实施方式中,基于初始训练的各分类器的性能,使用命名为递归特征排除法(RFE)(Tang等,2007)的特征选择方法来除去与分类目的无关或可以忽略的特征。
根据一个实施方式,基于以上提出的多个数据集的结合,通过基于SVM的分类器产生的预测的总体预测精度为79.5%~98.1%,对于独立评价测试和额外的血液蛋白测试,至少80%已知的血液-分泌蛋白预测正确。从独立的负面评价测试可知,假阳性率经计算为约10%(合理的经误分类为非血液-分泌蛋白的百分比),这有助于减轻与低精度相关的疑虑。
分泌蛋白标记的验证
一旦使用以上算法预测被分泌到生物液中的蛋白,则通过使用蛋白组学方法评估癌患者的生物液中这些蛋白标记的存在来验证这些蛋白标记。
可以通过本领域已知的任何手段测定生物液中所述蛋白标记的存在,包括但不限于竞争结合检验、质谱、蛋白印迹、荧光激活细胞分选(FACS)、酶联免疫吸附检验(ELISA)、抗体阵列、高压液相色谱、光生物传感器和表面等离子共振。
在一个实施方式中,对生物液样品进行处理以防止蛋白降解。抑制或预防蛋白降解的方法包括但不限于用蛋白酶处理生物液样品、将生物液样品冷冻、或将生物液样品置于冰上。优选的是,在分析之前,将生物液样品持续地保持在防止蛋白降解的条件下。
在一个实施方式中,生物液是血清,并且通过测定血清中的蛋白水平来确定蛋白水平。
在一个实施方式中,生物液是血液,并且通过测定血液样品的血小板中的蛋白水平来确定蛋白水平。
在一个实施方式中,生物液是尿,并且通过测定尿中的蛋白水平来确定蛋白水平。
在一个实施方式中,在测定生物液中的蛋白水平之前除去生物液中存在的最丰富的蛋白。在一个方面,生物液中存在的最丰富的蛋白包括白蛋白、IgG、α1-酸糖蛋白、α2-巨球蛋白、HDL(载脂蛋白A-1和A-II)和纤维蛋白原。
在一个实施方式中,使用抗体柱除去生物液中存在的最丰富的蛋白。
在一个实施方式中,在除去生物液中存在的最丰富的蛋白之后将非特异性结合的蛋白从抗体柱洗脱。
在一个实施方式中,将特异性结合的蛋白从抗体柱洗脱以用于进一步分析。
在一个实施方式中,本发明的方法可以与检测其它分析物的方法一起进行,所述检测其它分析物例如检测mRNA或与癌有关的其它蛋白标记(例如,P-糖蛋白、β-微管蛋白、β-微管蛋白基因的突变或β-微管蛋白同型的过表达)。
在一个实施方式中,通过使生物液与基于抗体的结合部分接触来检测蛋白,所述基于抗体的结合部分与该蛋白或和该蛋白的片段特异性结合。然后检测抗体-蛋白复合物的形成并对其进行测定以指示蛋白水平。抗-蛋白抗体可商购获得(例如来自明尼阿波利斯的R&D Systems,Inc.的人类蛋白亲和纯化的多克隆抗体和单克隆抗体,MN55413;AVIVA Systems Biology,圣地亚哥,CA 92121;还参见美国专利第5,463,026号)。作为另一选择,可以建立针对全长蛋白或蛋白的一部分的抗体。还可以使用生产抗体的标准方法生产用于本发明的抗体,例如通过单克隆抗体产生。
在使用基于抗体的结合部分以检测分泌蛋白的本发明方法中,存在于生物液中的所关注蛋白的水平与从经可检测标记的抗体发出的信号强度相关。
在一个优选实施方式中,通过将抗体与酶连接来对基于抗体的结合部分进行可检测标记。化学发光是可用于检测基于抗体的结合部分的另一方法。还可以使用各种免疫检验中的任一种来实现检测。例如,通过对抗体进行放射性标记,可以通过使用放射免疫检验来检测抗体。还可以使用荧光化合物来标记抗体。最常使用的荧光标记化合物是CYE染料、异硫氰酸荧光素、罗丹明、藻红蛋白、藻蓝蛋白、别藻蓝蛋白、邻苯二甲醛和荧光胺。还可以使用诸如52Eu或镧系元素等荧光发射金属对抗体进行可检测标记。
在一个实施方式中,可以通过免疫检验测定生物液中的蛋白水平,所述免疫检验例如酶联免疫吸附(ELISA)、放射免疫检验(RIA)、免疫放射检验(IRMA)、蛋白质印迹或免疫组织化学。还可以使用抗体阵列或蛋白芯片,参见例如美国专利申请:20030013208A1;20020155493A1;20030017515和美国专利:6,329,209;6,365,418,本文并入其全部内容作为参考。
广泛使用的酶免疫检验是“酶联免疫吸附检验(ELISA)”。存在不同形式的ELISA,例如本领域公知的“夹心ELISA”和“竞争性ELISA”。本领域已知的ELISA标准技术记载于″Methods in Immunodiagnosis″,第二版,Rose和Bigazzi编著,John Wiley&Sons,1980;Campbell等,″Methods and Immunology″,W.A.Benjamin,Inc.,1964;和Oellerich,1984。
作为另一选择,可以通过将针对蛋白的经标记抗体导入受试对象中而在受试对象中体内检测细胞和/或肿瘤内的蛋白水平。例如,可以对抗体用放射性标记进行标记,所述放射性标记在受试对象中的存在和位置可以通过标准成像技术来检测。
在一个实施方式中,使用免疫组织化学(″IHC″)和免疫细胞化学(″ICC″)技术。
对于直接标记技术,使用经标记抗体。对于间接标记技术,使样品进一步与经标记物质反应。
基于现有的公开内容,根据从业者的偏好可以使用其它技术来检测蛋白水平。一种此类技术是蛋白质印迹(Towbin等,1979),其中经适当处理的生物液在SDS-PAGE凝胶上运行,然后被转移至诸如硝酸纤维素滤纸等固相载体上。在一个实施方式中,使用蛋白质印迹来检测血清或尿中的蛋白水平。在一个实施方式中,使用蛋白质印迹来检测血清或尿中的蛋白水平。然后使用经可检测标记的抗体来检测和/或评估蛋白水平,其中来自可检测标记的信号强度对应于蛋白的量。该水平可以例如通过光密度法定量。
另外,可以使用质谱法检测蛋白水平,所述质谱法例如MALDI/TOF(飞行时间)、SELDI/TOF、液相色谱-质谱(LC-MS)、气相色谱-质谱(GC-MS)、高效液相色谱-质谱(HPLC-MS)、毛细管电泳-质谱、核磁共振光谱法或串联质谱(例如MS/MS、MS/MS/MS、ESI-MS/MS等)。参见例如,美国专利申请:20030199001、20030134304、20030077616,本文并入它们作为参考。
质谱法是本领域公知的,并且一直用于定量和/或鉴定诸如蛋白等生物分子(参见例如Li等2000;Rowley等,2000;以及Kuster和Mann,1998)。此外,一直在开发允许对分离蛋白进行至少部分地从头测序的质谱技术(参见例如Chait等1993;Keough等,1999;Bergman的综述,2000)。
在某些实施方式中,使用气相离子分光光度法。在其它实施方式中,使用激光解吸/离子化质谱来分析生物液。现代的激光解吸/离子化质谱(″LDI-MS″)可以以两种主要变化形式来运行:基质辅助激光解吸/离子化(″MALDI″)质谱和表面增强激光解吸/离子化(″SELDI″)。
关于额外的与质谱法有关的信息,参见例如Principles of Instrumental Analysis,第3版,Skoog,Saunders College Publishing,Philadelphia,1985;和Kirk-OthmerEncyclopedia of Chemical Technology,第4版第15卷(John Wiley&Sons,New York1995),第1071-1094页。
检测蛋白标记的存在通常会包括检测信号强度。这反过来能够反映与底物结合的多肽的量和特性。例如,在某些实施方式中,可以比较来自第一样品和第二样品的光谱的峰值信号强度(例如,目视、通过计算机分析等),以确定具体生物分子的相对量。可以使用诸如Biomarker Wizard程序(Ciphergen Biosystems,Inc,Fremont,Calif.)等软件程序来辅助分析质谱。质谱及其技术是本领域技术人员公知的。
应该理解的是,诸如解吸源、质量分析器、检测器等质谱仪的任何组件,以及各种样品制剂可以与本文所述或本领域已知的其它合适的组件或制剂组合。例如,在一些实施方式中,对照样品可以含有重原子,例如13C,由此允许在同一次质谱分析中将测试样品与已知的对照样品混合。
在一个优选实施方式中,使用激光解吸飞行时间(TOF)质谱法。
在一些实施方式中,部分地通过利用可编程数字计算机执行算法,来确定存在于生物液的第一样品或第二样品中的一个或多个蛋白的相对量。该算法鉴定第一质谱和第二质谱中的至少一个峰值。然后该算法将质谱中第一质谱的峰值强度与第二质谱的峰值强度进行比较。相对信号强度是存在于第一样品和第二样品中的蛋白的量的指示。可以对含有已知量的蛋白的标准物作为第二样品进行分析,以更好地对存在于第一样品中的蛋白的量进行定量。在某些实施方式中,还可以确定第一样品和第二样品中蛋白的身份。
在本发明的一个实施方式中,通过MALDI-TOF质谱检测生物液中的蛋白水平。
检测生物液中的蛋白的方法还包括使用表面等离子共振(SPR)。
SPR生物传感技术也已经与MALDI-TOF质谱结合以用于生物分子的解吸和鉴定。
在一个实施方式中,使用抗体阵列检测生物液中的蛋白。在优选实施方式中,使用能够基于生物素标记的抗体阵列来检测蛋白。
在一个实施方式中,本发明公开了诊断受试对象中的癌的方法,所述方法包括检测获自所述受试对象的生物液中的一个或多个标记蛋白。
在另一实施方式中,本发明公开了诊断受试对象中的癌的方法,所述方法包括检测一个或多个标记蛋白在获自所述受试对象的生物液中相对于标准水平的差异性表达。在一个方面,所述一个或多个标记蛋白的差异性表达包括生物液中的所述一个或多个标记蛋白的水平相对于标准水平增加。在另一方面,所述一个或多个标记蛋白的差异性表达包括生物液中的所述一个或多个标记蛋白的水平相对于标准水平减少。
在一个实施方式中,本发明公开了用于癌鉴定的标记,所述标记包括选自由以下蛋白组成的组中的一个或多个蛋白:MUC13、GKN2、COL10A、AZTP1、CTSB、LIPF、GIF、EL和TOP2A,其中获自受试对象的生物液中的所述一个或多个蛋白相对于标准水平的差异性表达指示所述受试对象中癌的出现。
在一个实施方式中,使用单基因标记来检测早期癌。
在另一实施方式中,使用2基因标记来检测早期癌。
在另一实施方式中,使用k基因标记(k=1...8)来检测早期癌。
在另一实施方式中,本发明公开了用于检测受试对象中的癌的试剂盒,所述试剂盒包含:(a)包含获自正常受试对象的生物液的参照样品;(b)包含一种或多种与生物液中的蛋白特异性结合的一抗的溶液,其中所述蛋白选自由MUC13、GKN2、COL10A、AZTP1、CTSB、LIPF、GIF、EL和TOP2A组成的组;和(c)包含与所述一种或多种一抗特异性结合的二抗的溶液。
根据以下对某些优选实施方式进行的更详细描述和权利要求,本发明的具体优选实施方式会变得明显。
实施例
以下实施例说明了本发明的具体实施方式及其各种应用。它们的描述仅仅是出于说明目的,而不应理解为对本发明的限制。
实施例1
样品收集
从相同的80名患者(肿瘤局限在粘膜或粘膜下层)收集总共80个胃癌组织(4个I期、7个II期、54个III期以及15个IV期,来自27名女性和53名男性患者)和相同数量的相邻胃部但非癌性的组织。为了确保阵列实验中使用的mRNA的完整性,将所有组织在切除后20分钟内急速冷冻并贮存在液氮中。另外,还在外科手术前从每名癌患者收集血液样品。所有样品在中国长春的吉林大学医学院的3所附属医院和吉林省癌症医院收集。根据WHO标准和国际抗癌联盟的TNM分类系统由有经验的病理学家确定各个组织的组织分类和病理分期。根据肿瘤深度将癌分成早期(I期和II期)和晚期胃癌(III期和IV期)。诸如年龄、性别、组织分化、病理阶段以及饮酒/吸烟史等详细患者信息列于表2。
表2:(a)患者统计信息,(b)所收集样品的详细信息
(a)
(b)
Figure BDA0000090397930000261
Figure BDA0000090397930000271
实施例2
RNA制备和微阵列实验
使用Trizol试剂(Invitrogen)从癌组织和参照组织提取总RNA,然后使用RNeasyMini试剂盒(QIAGEN)根据制造商的建议进行纯化。使用A260/A280>1.9的比例和28S/18S rRNA等于2,确保RNA样品是高度纯化的且未经降解。按照用于阵列实验的基因芯片表达分析技术手册(Genechip Expression Analysis Technical Manual)(P/N900223)中详述的策略,使用基因芯片人外显子1.0ST(Affymetrix)对RNA样品进行分析。简言之,在rRNA减少和RNA浓缩后使用1μg总RNA作为模板以合成cDNA。通过体外逆转录,获得cRNA并将其用作第二轮循环中cDNA合成用模板。接着利用RNA酶H将cRNA水解,通过两种核酸内切酶将正义链DNA消化。使用DNA标记试剂将片段化的样品标记。使经标记样品与杂交混合物(hybridization cocktail)混合,在45℃以60rpm杂交至微阵列,并温育17小时。杂交后,在将阵列插入到Affymetrix自动进样器圆盘传送带中并使用
Figure BDA0000090397930000272
Scanner 3000利用
Figure BDA0000090397930000273
操作软件(GCOS)进行扫描之前,使用合适的射流轨迹(fluidics script),将阵列洗涤并在
Figure BDA0000090397930000274
Fluidics Station 450上进行染色。
除了RNA品质控制评估之外,定期对基因芯片QC和数据QC报告进行分析。根据Affymetrix基因芯片品质控制文档的要求和建议,对各个杂交阵列的品质量度,即平均背景、噪音(Raw Q)、换算因子、呼叫进行(present call)的百分比和内部对照基因(杂交和聚A对照)进行评估以确保各个阵列生成高品质的基因表达数据。使用Expression ConsoleTM软件来计算品质评估量度。利用主成份分析(PCA)来评估数据品质。生成两份报告来分别总结基因芯片品质控制和数据品质控制的评估结果。在基因芯片品质控制和数据品质控制分析中都未检测到离群芯片。
阵列设计。基因芯片人外显子1.0ST阵列设计为在外显子水平尽可能包含较大范围,源自范围为从根据经验确定的、经高度恢复(curated)的mRNA序列到从头算的预测结果的注释。该阵列含有约540万个5-μm探针,所述探针分组为140万个探针集,其询问超过100万个外显子基因簇。对于每个外显子,使用一个或数个探针选择区(PSR),每个探针选择区都是外显子的连续且不重叠的区段,并且具有不同的长度(图1)。PSR表示被预测为完整连贯的转录行为单元的基因组区域(组件HG18、构建块38)。在许多情况下,每个PSR都是外显子;在其它情况下,由于可能存在的重叠性外显子结构,数个PSR可以形成真生物外显子的连续而不重叠的子集。选择各个外显子内的PSR的位置的关键考量在于它们能够潜在地揭示在所表达剪接变体中使用的选择性剪接位点。为此,在基因的内含子内也使用一些PSR以捕获内含子保留。对于各PSR,通常使用4个探针,每个探针的长度为25碱基对,其通常是唯一的(图1)。约90%的PSR由4个探针表示(“探针集”)。所述冗余允许将鲁棒统计算法用于评估信号的存在、选择性剪接的相关表达和存在。Affymetrix外显子阵列包括一组1195个阳性对照探针集以及2904个阴性对照探针集,所述阳性对照探针集代表100个通常在大部分组织中高度表达的管家基因的外显子。
在各探针和提取自癌组织和参照组织的表达mRNA之间进行杂交,各探针附有荧光分子。将各PSR的表达水平估计作为置于该区域中的4个探针的平均强度。在本研究中,使用由Affymetrix推荐的算法PLIER(Affymetrix,2005)来进行估计。
实施例3
差异性表达的基因的鉴定
使用四分位数标准化方法对各外显子的原始探针强度进行标准化,并利用PLIER程序(Affymetrix,2005)程序来将探针信号总结成外显子水平表达和基因水平表达。除去在癌样品和参照样品中表达非常低的基因,具体而言,如果一个基因的表达水平低于10(标准化信号强度)则将其除去。为了检测在癌组织中相对于参照组织具有一致性差异性表达模式的基因,如下对表达数据应用简单的统计检验:对于各个基因,对癌组织/参照组织对的数目Kexp进行确定,所述癌组织/参照组织对的表达倍数变化大于k(k取决于具体问题而设定为1.25~4);如果所观察的Kexp的p值小于0.05,则认为该基因在大多数癌和参照组织对之间具有差异性表达。同样,使用另外的统计分析,即ANOVA检验和Wilcoxon符号秩检验,以确保所选择基因在整个癌组织和参照组织对中一致性地具有差异性表达模式。
实施例4
基于外显子阵列数据的剪接变体的预测
开发了基于所评估的外显子表达水平来预测剪接变体的新算法。该算法依赖于ECgene数据库(Lee等,2007),该数据库是最全面的人类转录物的数据库,其含有181,848个高可信度的剪接变体和129,209中等可信度的变体,所有都源自人类EST数据。假定各基因的所有转录物都在ECgene中,因此该算法需要确定对于给定阵列数据哪些转录物是最可能的。首先使用ANOVA来鉴定在癌组织和参照组织之间所有差异性表达的探针选择区(PSR)模式。然后该算法解决了以下优化问题。
对于具有n个外显子和m个已知剪接变体(所有都在ECgene中)的给定基因,需要计算m个剪接变体的子集和其表达水平,从而使得其总外显子表达水平与所观察到的外显子表达数据尽可能接近。设I为m×n的二元矩阵,各行表示剪接变体,各列表示外显子,当且仅当变体i不含有外显子j时Iij=0。设(e1,e2,...,en)为n个外显子的所观察到的表达值。需要计算使以下(二次方程)函数最小的{xi,}和{yi,}。
min Σ j = 1 n ( e j - Σ i = 1 m I ij x i y i )
条件为: Σ i = 1 m I ij x i y i ≤ e j , j = 1 , . . . , n x i = 0,1 , i = 1 , . . . , m ; y j > 0 , j = 1 , . . . , n . (方程式1)
其中xi是二进制变量,yi是实变量。使用以下启发式策略解决该问题。首先假设所有已知剪接变体正用于当前基因,即将所有{xi}设定为1。现在该问题缩为(方程式1中{yi}变量的)线性规划(LP)程序,其可以使用任何现有的用于最佳{yi}值的LP解算器来解决,所述最佳{yi}值是相应转录物的预测表达水平。为了评价该假设的可行性,针对基于所有可能的2n-1剪接变体区间获得的100,000个方案测试所观察的LP方案。如果统计显著性高(p值小于0.05),则可认为其是可信的预测方案。否则,这表明Ecgene所含的转录物不足以代表某些基因结构,在该情况下对于选择剪接变体需要一套特定标准。该信息可能是外显子/内含子长度、外显子存在频率或诸如基序、二级结构等其它类型的特性,其可以与选择性剪接机制相关并且需要更多的探索。
该算法已经作为计算机程序执行,所述计算机程序中使用Matlib (Dantzig等,1999)中提供的LP解算器解决各个LP问题。该程序使用根据经验确定的截留值来确定一组选定的剪接同种型是否给出了对于所观察到的外显子表达数据而言足够接近的方案。已经在利用根据经验验证的剪接同种型获得的一组外显子阵列数据上对该程序进行了检验(Xi等,2008),其中使用qRT-PCR确认了11个基因的17个剪接同种型。对于这11个基因,该方案覆盖了81.8%的根据经验证实的剪接同种型,表明该程序是高度可信的。
使用该计算方法,已经鉴定了总共2,540个在所收集的80个癌组织和80个参照组织之间差异性表达的剪接同种型(包括全长基因)。使用PCR和同种型特异性引物(图1)对数个所预测的剪接同种型进行简单的验证实验。例如,针对THY1基因的3个所预测的剪接同种型制备同种型-特异性引物,以检查所述3个所预测的同种型中的任一种是否可以通过相关引物进行检测。如图1(c)所示,从THY1的表达的剪接同种型的库中鉴定出与所述三种所预测同种型质量相同的剪接变体。
在替代性的方法中,对外显子阵列数据应用MIDAS(Affymetrix,2005)以检测某基因是否具有选择性剪接变体。基本思路是在对某基因没有选择性剪接的零假设的条件下,该基因中的所有外显子应该具有统计学一致的表达水平。接下来,对于所有样品使用单向ANOVA法,以通过检验恒定效果模型log(pi,j,k)=0来检验所述零假设(0≤Pi,j,k≤1是第k基因的第j样品的第i外显子的成比例的表达)。
对以上确定的具有剪接变体的各基因,应用该新算法以及各剪接变体的预测表达水平以预测剪接变体的最可能的集合,所述预测表达水平与从阵列数据观察到的外显子表达水平的一致性最高。具体而言,首先该算法使用ECgene数据库(Lee等,2007)中的基因的已知剪接变体以及各变体的最可能的表达水平的估计,来检查所述基因的所观察的外显子表达数据是否能够良好地近似。如果答案为是,然后该算法基于ECgene数据库对剪接变体的可能集合作出预测。否则,该算法试图鉴定新剪接变体的最小集合,并结合ECgene中的某些已知转录物,给出最简约意义上的对所观察到的外显子表达数据的良好近似。该剪接变体预测问题用公式表示为线性规划(LP)问题,并且使用公共LP解算器解决(Dantzig等,1999)。
对于剪接变体的各预测集,使用以下方法来评估其统计学显著性。在不丧失一般性的情况下,假设所有的剪接变体来自ECgene数据库。对于由n个外显子组成的基因,设S是剪接变体的预测集,v是来自微阵列数据的各外显子的所观察到的表达值和所有预测的剪接变体的累积表达值以及在所有n个外显子上的它们的预测表达水平之间的总差异。如下对该预测的剪接变体基以及表达水平的p值进行评估。从ECgene数据库中的相应基因入口随机选择|S|剪接变体,并且对于各剪接变体指定基因表达值,从而其使用与以上相同的步骤从整体上给出所观察到的外显子表达值的最佳拟合。将以上最佳拟合的差记为v′。执行该过程10,000次。如果v小于v值的95%,则承认预测的S是可信的,否则,拒绝该预测。对认为具有剪接变体的各基因使用该方法进行剪接变体预测。然后在所有80对组织上对各预测变体的频率计数。如果至少30%的组织具有该预测变体,则认为该剪接变体是可信的。
实施例5
在胃癌组织中相对于参照组织差异性表达的基因
收集总共80个胃癌组织和相同数量的邻近胃部但非癌性的组织(参见表2)。使用覆盖17,800个人类基因的Affymetrix基因芯片人外显子1.0ST Array平台对这些组织进行外显子阵列实验。使用一套以上所讨论的标准,发现总共2,540个基因在癌组织和参照组织之间显示差异性表达模式,其中715个显示至少2倍的表达变化,如图(a)所示。基因是指所有其外显子的集合,应该注意的是各个外显子的表达水平不必相同。在癌组织相对于参照组织差异性表达的基因是指癌组织相对于参照组织中的综合基因表达不同的基因。在癌中2,540个基因中的大多数上调,五分之一下调。另外,1,276个基因在早期癌(I期和II期)中差异性表达,其中935个上调,341个下调。1,276个基因中,208个在所有早期胃癌样品中差异性表达,其中186个上调,22个下调,其中48个为胃肠疾病相关的(图2)。
1,276个基因中,469个仅在早期癌组织中差异性表达,即在晚期癌组织中不具有实质性差异。此前所提出的标记基因中的大多数在癌中都上调(Takeno等,2008)。与集中在被上调的基因的此前研究相反,在本研究中发现了大量下调基因对胃癌具有高度特异性。这些包括GIF、GNK1、GNK2、TFF1、GHL1、LIPF和ATP4A,提供了癌中丰度减少的不同类型的标记。
对通过精细途径分析(Ingenuity Pathways Analysis(IPA))注释定义的2,540个基因的功能家族进行分析。其中,911个基因是癌相关的,219个与抗原呈递或免疫响应相关,414个是胃肠疾病相关的。13个主要的IPA功能家族中,当与全人类基因组相比时,分别发现第9和10家族在(2,540个的)2,094个IPA-注释的基因中显著富集,911个是癌相关的。从图3(a)中可见,诸如蛋白激酶、肽酶、细胞因子、生长因子、跨膜受体和转录调节子等蛋白家族在癌相关基因中是高度富集的,其中酶和转运蛋白在差异性表达的基因中更丰富。从图3(b)中可见,2,540个基因的蛋白产物通常位于细胞质、质膜、细胞外间隙、或细胞核中。类似地在468个仅在早期癌组织中差异性表达的基因中,129个基因是癌相关的,37个与与抗原呈递或免疫响应相关,54个是胃肠疾病相关的。发现3个功能家族在这些基因中显著富集,即酶、转录调节子和转运蛋白。
已经将在本研究中发现的差异性表达的基因与之前报道的胃癌相关基因进行比较。通过广泛的文献检索,发现77个基因是胃癌相关的,并且在癌发生和肿瘤进展期间具有显著差异性表达(参见表3)。对于77个基因中的64个(83.1%),在本研究中提出的表达数据与之前的发现一致,包括例如以下基因:TOP2A、CDK4和CKS2(El-Rifai等,2001)、E-钙粘蛋白(Becker等,1994)、GKN1、GKN2和TFF1(Hippo等2002;Moss等,2008)。对于其它13个基因,本研究中提出的数据是新的。例如,发现与染色体扩增、转录调节和信号转导相关的基因(如cyclinE1、POP4、RMP、UQCRFS和DKFZP762D096)在本研究中在80个癌组织中的55个(约68.7%)中具有差异性表达,而在之前研究中126个癌组织中仅约10%具有差异性表达(Chen等,2003)。另一实例是发现在不超过半数的本研究所分析的患者中发现致癌基因JUN(Dar等,2009)的上调和肿瘤抑制基因,TP53的下调(Kim等,2007;Katayama等2004)。这些差异的一个可能原因可能是本研究所用样品相对于之前研究中的患者群体的癌阶段、亚型、年龄和性别的不同分布。
表3:通过在胃癌上的转录组学研究和蛋白组学研究获得的生物标记的最新关键发现
Figure BDA0000090397930000331
还使用1-、2-、3-、4-和5个基因的组合鉴定了一组“标记”基因,其表达模式在癌组织和参照组织之间能最好地区分。为此,本发明人已经在本团队具有完全权限的计算机集群上使用R中的线性辩别分析(并且使用基于线性SVM的分类进行验证),通过所述2,540基因中的所有k-基因组合检索癌组织和参照组织之间的最佳标记。通过使用总体分类精度P=(TP+TN)/(TP+TN+FP+FN)对表现进行评价。表4给出了针对每个k的前几个k-基因标记。
表4.使用1-、2-、3-、4-和5-基因标记的在癌样品和参照样品之间的分类精度,其中精度定义为“真阳性”和“真阴性”预测与组织总数的比
Figure BDA0000090397930000341
实施例6
年龄和性别对基因表达数据的影响
已经通过使用ANOVA的多变量分析(Affymetrix,2005)和Cox比例风险回归模型(Proportional Hazard Regress Model)(Peduzzi等,1995)评估了年龄和性别对2,540个差异性表达的基因的影响。关键发现总结如下(详细内容参见表5)。据发现年龄显著地影响2,540个基因中的143个的表达水平,其中大多数(143中的113个)进一步增加了在癌组织和参照组织之间其表达水平的差异,这是一个对生物标记选择可能具有重要影响的观察。例如,发现平均MUC1表达水平在55岁以上的胃癌患者中相对于低于55岁的患者显著更高。对于例如Mucin家族的其它成员UBFD1和MDK等数个其它基因类似地观察也成立,而与之相反一些其它潜在标记(例如THY1)不具有年龄依赖性(图4)。
表5.对多种因素因子以及通过ANOVA和Cox比例风险回归分析(p值<0.05)鉴定的其高度相关的基因的统计
Figure BDA0000090397930000351
还对所提出的表达数据中可能的性别特异性偏向进行了检查,已知胃癌发生的男女比例为约2∶1(Chandanos和Lagergen,2008)。据发现诸如WNT2、ARSE和KCNN2等59个基因的表达水平是性别依赖性的(对于全部列表参见表5)。一个令人感兴趣的观察是年龄和性别的组合对包括COL1A1、THY1、REG4、ADH1A和CPS1在内的118个基因的基因表达水平具有更显著的影响。对于如TIMP1和ADH1A等基因,老年女性患者比年轻女性患者具有更高的表达水平。还发现,在早期癌所特有的差异性表达的基因中,28个基因和9个基因分别是年龄依赖性和性别依赖性的,其中如P2RY6和NSUN5等基因同时属于两个组。
实施例7
癌组织中的共表达基因和富集途径
出于发现具有特定亚型的基因与胃癌的发展阶段的新关联的目的,使用双基因簇分析对基因表达数据进行分析。对于该研究使用双基因簇程序QUBIC(Li等,2009)。该算法的基本思路是发现癌组织的某些(待鉴定)子集中具有相似(或相关)表达模式的基因的所有亚群。QUBIC程序的独特之处在于其检测复杂关系的能力(不仅是仅享有相似的表达模式),以及对即使含有数以万计基因和数以千计组织样品的数据集也能以非常有效的方式进行检测的能力。该算法在Li等,2009中详细提出。
利用双基因簇程序QUBIC,已经鉴定和分析了14个具有统计学显著性的双基因簇,其具有癌特异性、阶段特异性、亚型特异性或性别特异性。首先强调3个所鉴定的双基因簇,C1、C2和C3。图5(c)在所有80个癌组织-参照组织对中的大多数、特别是在所有的早期癌中的组织对上总结了C1和C2中的基因及其相关的表达模式。
对这两个双基因簇(C1和C2)进行的详细分析揭示,(a)诸如转录调节子、生长因子以及参与细胞周期(STMN和CDCA8)、转录调节(TCF 19和BRIP1)、血管发生(IL8)、染色体整合(TOP2A)和胞外基质重塑(MMP)的酶等基因在胃癌的非常早期就被激活(C1中),而参与代谢的基因失活(C2中);和(b)C1和C2中的大多数基因甚至在I期就显示区分癌组织和参照组织的能力。实例包括在所有早期癌和约80%的所有癌组织中上调的HOXB 13、TOP2A、CDC6和CLDN7,以及在所有早期癌和79.1%的所有癌组织中下调的CHIA。C3基因中的一些显示出特定癌阶段所特有的不同表达模式。例如,SPP1、SPRP4、COLBA1、INHBA、CTHRC1、COL1A1、THBS2、SULF1和COL12A1在大多数III期和IV期癌组织中过表达,而在I期和II期癌组织中未观察到一致的模式(图5)。这组基因可以提供潜在的用于为测定胃癌的标记。
如图5(b)所示,另一经鉴定的双基因簇提供了关于亚型方面的有用信息,图5(b)中将80名患者分成两个不同组(左边的绿色部分和右边的红色部分),其与阶段无关。该双基因簇由42个基因和80名患者组成。42个基因中的6个,即CNN1、MYH11、LMOD1、MAOB、HSPB8和FHL1,之前已经报道在胃癌的肠亚型和扩散亚型之间差异性表达(Kim等,2007)。这似乎表明这42个基因可以区分胃癌的两种可能亚型。
实施例8
途径富集分析
还已经检查了差异性表达的基因富集的途径。使用两个程序DAVID (Dennis等,2003)和KOBAS(Wu等,2006)完成给定基因集的途径富集分析。DAVID基于GOBiological Processes和BIOCARTA途径计算EASE评分(改良的费歇尔精确P值)以评价相关基因的富集比,而KOBAS使用所有KEGG途径和KEGG直系同源性(KO)计算4个统计学评分以评估富集途径。除了这些来源之外,将来自UCSC癌症途径数据库(Zhu等,2009)的信息整合,所述数据库包括由NCI-Nature维护的的人类途径相互作用数据库(human Pathway Interaction Database)。然后在针对人类基因组中的所有基因的受询基因上基于费歇尔精确检验对各富集途径计算改良p值。表6列出了13条此类途径。
表6:差异性表达基因利用的13条富集途径,↑表示上调,↓表示下调。对于所有阶段中富集的途径计算P值,例外的是用*标记的P值仅用于早期
Figure BDA0000090397930000371
从表6可看出,参与细胞增殖、细胞周期和DNA复制的基因在大多数癌样品中一致性上调,而参与脂肪酸代谢、消化和离子转运的基因一致性下调。这些途径中的大多数在早期癌中上调/下调,并且在晚期癌中高度富集。除了诸如细胞周期和调节、DNA损坏和修复、细胞生长、死亡和调节以及雌激素受体调节途径等一般性癌相关途径之外,还揭示了一些胃癌特异性过程。例如,新的甲状腺激素介导的胃癌发生信号传导途径在癌组织中与上调基因(TTHY、PKM2、GRP78、FUMH、ALDOA和LDHA)一起富集(Liu等,2009),所述上调基因中的大多数在晚期。另一令人感兴趣的观察是某些途径仅存在于男性或女性的组织样品中并且在其中更为富集。例如,Ran在有丝分裂纺锤体调节中的作用、Wnt信号传导途径和双酚A降解在男性但不在女性中富集,而胃促生长素(Ghrelin)、3-氯丙烯酸降解、补体旁路途径和组氨酸/酪氨酸/氮/半胱氨酸代谢在女性中更富集。这些发现可以为研究胃癌形成和进展提供新角度。
实施例9
在癌组织中相对于参照组织中基因的选择性剪接变体
使用特征选择方法来鉴定可以基于随机取样和基因排序一致性的多步评价来区分癌组织和参照组织的多基因标记(Bell等,1991)。基本思路如下:使用基于SVM的递归特征消除(RFE)法来发现基因(特征)的最小子集,所述最小子集在随机选择样品的500个大小相等的子集上获得500个经训练SVM的最佳分类表现。如果基因满足以下两条标准则将其消除:(1)对于本发明的分类,500个分类器中超过80%一致性地将其排序为10%最不重要的基因;和(2)它们从未在(1)中排序至最重要的50%之内。继续该基因选择过程直至在不低于分类精度的预定义截止值的同时基因的剩下集合不能进一步缩减。
2,540个差异性表达的基因中,通过如以上实施例4中所讨论的新算法将1,875个鉴定为具有选择性剪接变体。基于该预测,在参照组织和癌组织中1,875个基因中的分别69.2%和72.8%具有实质上的剪接结构改变。1,875个基因中,预测了总共11,757个不同的剪接变体,其中6,532个和6,827个分别存在于超过30%的癌组织和参照组织中,将这认为是可信预测。虽然低于该截止值的剪接变体也可能是真的,所述数据可信度较低,更加难以解读。因此,在本研究中不考虑低于该截止值的剪接变体。所述剪接变体中的6,114个似乎同时在癌组织和参照组织中出现,其中3,933个在胃癌组织中相对于参照组织差异性表达,94个仅在早期胃癌中差异性表达。已经对在这些预测的剪接变体中所预测的外显子-略过事件进行了检查,并且据发现在所预测的选择性剪接变体中略过频率更高的外显子倾向于与具有更多用于剪接调节的顺式调节性基序的内含子区有关,这与如图6所示的之前观察(Wang等,2008)一致,为所预测的剪接变体提供了一个支持证据,但需要实质实验来验证所有的剪接变体。
对剪接变体进行的所述分析揭示:(a)通过将其与Ensemble数据库中的已知转录物(Eyras等,2004)进行比较,预测了总共4,733个新剪接变体,所述Ensemble数据库是最全面的人类剪接变体数据库;(b)具有表达差异性最大的剪接变体的基因是癌相关的,包括COL11A1、CTSC、CDH11和WNT5A;(c)不同剪接变体的数量随着癌从I期至IV期进展而增加;和(d)发现了分别为女性和男性所特有的1,690和1,377个剪接变体,其中364个和126个分别在癌组织中相对于参照组织差异性表达。
早期癌特异性剪接变体中,其亲本基因中的84个涉及诸如紧密连接、钙信号传导、嘧啶代谢、Wnt信号传导和上皮细胞信号传导等已知与幽门螺旋杆菌感染相关的途径(Kanehisa和Kegg,2000)。另外,在所有差异性表达的剪接变体中,其亲本基因包括以下途径的成员:Wnt途径(CTNNB 1、WNT2、SFRP4、WISP1、WNT5A)、整联蛋白信号传导(ITGAX)、p53信号传导(E2F1、CDK2、PCNA、TP53、BAX、CDK4)和胞外基质蛋白(FN1、COL6A3)以及诸如VEGFC、FGFR4、CEACAM6、CDH3、NCAM1、MSH2、VCL和ANLN等其它基因。还注意到10个转录因子已经具有表达的剪接变体(但不是在早期),即TFAP2A、NOC2L、MYBL2、MSC、HOXA13、H2AFY、ETV4、E2F4、CCNA1和BRD8,其可以充当细胞生长和存活、增殖、分化或凋亡的重要指示物。
实施例10
胃癌和阶段的特征基因
如以上实施例9所讨论,已经鉴定了其表达模式通过使用有效RFE-SVM法可以良好地区分癌组织和参照组织的许多基因。图7(a)总结了对于所选择最佳k-基因标记(k为1~100)标记的分类精度。从该图可以看出,28-基因标记组在所有k中是最佳的,分别与癌组织和参照组织具有95.9%和97.9%的一致性(关于其基因名称参见表7)。
基于RFE-SVM的方法的设计考虑分类精度、稳定性和可再现性,因此结果具有高度的通用性。对于所有的k<=8,还已经使用线性SVM方法(Vapnik,1995),通过检查所有的k-基因组合对最佳k-基因标记组进行了穷举检索,这保证以损失RPE-SVM法的计算效率的代价发现全局最优标记。使用留一验证法和5倍交叉验证法评价了所鉴定k-基因标记的表现。如图7(a)所示,如此鉴定的k-基因标记(k=1,…,8)的最佳精度始终比通过RFE-SVM法得到的最佳精度更好。该分析表明,这些最佳标记基因与以下已知途径相关:细胞周期、ECM-受体相互作用、DNA复制的CDK调节以及TNFR1信号传导途径(详细资料参见表7)。
令人感兴趣的观察是一些标记对于某些患者组表现非常良好,但对诸如不同性别和年龄的其它患者组表现并不好。这与以上实施例6中存在的观察一致,即年龄和性别对基因表达水平具有显著的影响。为了解决该问题,已经对不同性别单独进行了标记检索。两个性别组的标记的详细列表在表7中给出,表7列出了性别特异性最高的标记,包括对于女性的LIPG、INHBA、MFAP2和TTYH3和对于男性的WNT2、CD276和MFAP2。
还对早期癌样品(I期和II期)进行了类似分析,并鉴定了早期胃癌所特有的许多有前景的标记。例如,诸如HOXB9、HIST1H3F、MEM25和CLDN3等基因一致地在所有早期癌组织中显示出差异性表达,但是在晚期癌中未观察到类似的差异性表达。表7给出了用于早期癌的最佳k-基因标记组以及其分类精度。总之,据发现最佳单基因标记可以获得至多94.4%的分类一致性,对于癌组织和参照组织分别为100%和88.9%。当使用最佳2基因标记时,该数值提高至97.3%。
为了检查所预测基因标记的通用性,在之前由其它团队公开的胃癌用大型微阵列数据集上对其分类精度进行检查。在Xin等,2003的GSE2701数据集上,当k为1~7时本研究的k-基因标记的成功率为81.7%~100%。当对来自Kim数据集(Kim等,2007)的早期样品进行评价时,诸如TFF3、CLDN4、MDK和MUC13等本研究的单基因标记在其早期样品的80%(15个中的12个)上显示出一致性的差异性表达。总体上这些结果表明所鉴定的组织标记是通用的。
已经对所预测基因标记的剪接变体进行了检查,并且已经基于所鉴定的基因标记及其预测的剪接变体(在癌组织中相对于参照组织过表达或表达不足),预测了作为可能标记的许多剪接变体。虽然详细结果在表7中给出,此处列出了数个剪接变体标记:过表达的剪接变体LMNB2:000111111111、WNT2:11111、WNT:00111、LIPG:1111111110和LIPG:1111110000,以及表达不足的剪接变体AQP4:111110、GRIA4:0001111110000000和ESRRG:0111110110000000,其中位于第i-位的“1”表示剪接变体中基因的第i个外显子的存在,“0”表示其不存在。
表7:为不同类别预测的前5个1-、2-、3-和4-基因标记的最佳检测精度,包括通用标记、早期特异性标记和性别特异性标记。将精度(Acc.)测定为100次5倍交叉验证(CV)检测精度的平均值
Figure BDA0000090397930000401
Figure BDA0000090397930000411
Figure BDA0000090397930000421
(用*标记的基因是在癌中相对于参照下调的基因;“-”:如果具有较小k值的组合标记已经对本发明的样品具有100%或不发生变化的最佳检测精度,则此处省略k-基因标记)
实施例11
用于预测血液分泌蛋白的计算方法的开发
已经为了预测能够被分泌到循环中的人类蛋白开发了计算技术(Cui等,2008)。该方法的基本思路是收集已知血液分泌蛋白的集合和与已经在人类血清中检测到的任何蛋白不具有同源性的蛋白的集合。然后训练分类器以区别这两个集合。已经对从蛋白序列可计算的大量特征进行检查,并且已经鉴定了能够在所述两个集合之间提供最高辨别力的特征。
用于收集训练数据的起点是含有约16,000个由血浆蛋白组项目(PPP)(Omenn等,2005)汇集的在人类血清中已检测出的蛋白。还从Swissprot和SPD数据库(Chen等,2005)收集了1,620个人类分泌蛋白。通过将该列表与PPP比较,发现了属于两个集合的305个蛋白不在天然血液蛋白之内。因此,认为这305个蛋白被分泌到血液中,并且用作阳性集。然后从不与PPP重叠的Pfam各家族(Bateman等,2002)中选择代表,并且收集了26,962个蛋白作为阴性集。然后将阳性集和阴性集分成训练集和测试集。
为了发现可以区分所述两个集合的特征,对50个特征进行检查,这50个特征大致落入4个类别:(i)诸如氨基酸组成和二肽组成等一般性序列特征(Reczko等,1994;Bhasin等,2004);(ii)诸如溶解度、非稳定区和电荷等物化特征;(iii)诸如二级结构含量和溶剂可及性等结构特征;和(iv)诸如信号肽、跨膜区和双精氨酸信号肽基序(TAT)等特异性结构域/基序。
使用这些特征,对基于支持向量机(SVM)的分类器进行训练以使用高斯核区分从阴性训练数据区分阳性训练数据(Platt等,1999;Keerthi等,2001)。基于起始SVM的性能,使用被称为递归特征消除(RFE)的特征选择方法来除去与分类目标无关或可忽略的特征。基于一致性评分方案和基因排序一致性评价(Tang等,2007),该特征选择方法反复地除去无关特征。具体而言,在各次重复中,从特征列表消除由RFE给出的具有最低评分(排序最低)的特征。继续该方法直到在维持分类表现的水平的同时获得特征的最小集。整个训练中,一直使用随机取样(Bell等,1991)来生成训练集和测试集,并且基于给定的训练集和测试集对分类器进行训练。该方法执行500次,并挑选出最具代表性的集合(Cui等,2008)作为选定集合。经过该过程,发现对于分类而言最重要的特征包括跨膜区、电荷、TatP基序、溶解度、信号肽和O-连接的糖基化基序。
基于所选择的特征,保留了基于SVM的分类器并对其进行交叉验证,在独立评价集上测试了其表现,其可以正确地分类90%的血液分泌蛋白和98%的非血液分泌蛋白。使用7个额外数据集来进一步评估该分类器的表现,每个数据集含有最新鉴定的血液分泌蛋白和文献中报道的蛋白。测试结果给出了与对所述评价集进行的相当的表现统计。例如,通过广泛地文献检索将通过质谱获得的人类血清中检测的122个蛋白的列表汇集。这些蛋白在14种人类癌中的至少一种中过表达,并且它们都不包括在本发明的训练集中。使用上述方法正确地预测了122个蛋白中的97个(79.5%)。
实施例12
血液分泌蛋白的预测
在所有差异性表达的基因中,集中于能够被分泌到血流中作为可能的血清标记的那些基因。已经为所述分泌蛋白的预测开发了计算方法(Cui等,2008)。该实施例描述了用于预测蛋白向血清的分泌的方法。但是,基于本文存在的教导和指导,应该理解,本领域已知可以容易地采取本文所述方法来预测蛋白向其它生物液的分泌,所述其它生物液例如但不限于唾液、脊髓液、精液、阴道液、羊膜液、龈沟液和眼内液。
已经基于所鉴定的其在癌组织中的差异性表达和血液分泌预测而预测了胃癌的许多血清蛋白标记(Cui等,2008)。将这些预测的血清标记分成3类:(a)胃癌的通用标记,(b)对早期癌具有特异性的标记,和(c)性别特异性标记。表8显示了被认为单独或组合成组时最有前景的蛋白。表9中给出了关于这些和其它有前景的标记蛋白的详细信息。
这些预测的血清标记中,MMP1、MUC13和CTSB是有效的区分癌组织和参照组织的基因区分物,但是由于它们在诸如乳癌、卵巢癌、肺癌和结肠癌等其它癌中的过表达(Poola等,2008),它们对胃癌不具有特异性。然而,LIPF、GAST、GIF、GHRL和GKN2具有胃组织特异性,因此使得它们成为有前景的用于胃癌的血清标记,特别是当与其它标记结合使用时。
表8:用于胃癌的最有前景的预测标记的实例
Figure BDA0000090397930000441
(
Figure BDA0000090397930000442
表示基因具有良好的分类精度但非性别依赖性)
表9:18个预测标记以及其功能注释、在癌中的表达特异性和相关疾病的详细信息
Figure BDA0000090397930000451
(FC:倍数变化;注释*是基于IPA注释;AS:检测到选择性剪接变体。癌表达信息获自Oncomine网站和Proteinatlas网站检索)
实施例13
所预测血清标记的实验验证
使用质谱和蛋白质印迹分析的组合方法来验证所预测的血清蛋白标记。使用抗体柱(来自Beckman Coulter的ProteomeLabTM IgY-12高容量蛋白组配分试剂盒)对血清样品进行加工以除去12种最丰富的蛋白(白蛋白、IgG、α1-抗胰蛋白酶、IgA、IgM、转铁蛋白、结合珠蛋白、α1-酸糖蛋白、α2-巨球蛋白、HDL(载脂蛋白A-1&A-II)和纤维蛋白原)。这12种高丰度的蛋白的特异性去除从人类血清或血浆中除去了96%的总蛋白质量。所预测的生物标记存在于剩下的4%总蛋白质量中,因此易于作为分离步骤的结果而鉴定。
免疫捕获12种最丰富的血清蛋白后,从所述柱洗脱和收集非特异性结合蛋白。还从所述柱洗脱特异性结合蛋白以用于进一步分析,以检查它们是否充当潜在的生物标记的载体。
对于蛋白(印迹)分析,在100℃温育蛋白样品5分钟,通过4%~20%的梯度聚丙烯酰胺凝胶(Bio-Rad)利用SDS-PAGE将其分离,然后转移到PVDF膜上。用3%在TBST中的脱脂奶粉(10mM Tris HCl、pH 7.5、150mM NaCl、0.05%聚氧乙烯山梨糖醇单月桂酸酯(Tween-20)[重量/体积])于室温封闭非特异性结合位点后,使膜与一抗一起在4℃于1.5%的TBST中的脱脂奶粉中温育过夜。用TBST洗涤3次后,在室温在含有二抗的1.5%的TBST中的脱脂奶粉中使所述膜温育2小时。然后使用增强型蛋白印迹放电化学发光试剂(Perkin Elmer,USA)使膜进行增强化学发光反应。使用MagicMark蛋白印迹蛋白标准物(Invitrogen,Karlsruhe,德国)来鉴定分子量。使用ImageJ 1.34软件(可从NIH网址上获得)的凝胶分析(Gel Analysis)功能就蛋白浓度的定量评价ECL膜图像。所述抗体来自Abnova,Inc.(台北,台湾),Santa CruzBiotechnology,Inc.(Santa Cruz,CA)和Abeam,Inc.(Cambridge,MA)。在抗体选择中使用所预测的剪接变体。如果最丰富的剪接同种型过短而不能覆盖任何抗原性区(表位),通过特别设计用于全长蛋白的抗体可能不会检测到标记。因此,基于所预测的剪接变体的分析,选择其表位区被大多数转录物覆盖的那些抗体。
对通过两种不同方法从所述凝胶提取的蛋白进行MS实验。用测序级改良胰蛋白酶消化之后,使用Agilent 1100系列HPLC对蛋白样品进行在线HPLC分析,所述Agilent 1100系列HPLC具有直接偶联到配备有Apollo II纳米电喷雾源的9.4T BrukerApex IV QeFTMS(Billerica,MA)上的75μm C-18反相柱。碰撞激活解离(CAD)用于离子解离,并且使用氩作为碰撞气体完成蛋白片段化,然后将其注射到ICR分析仪小室。对于蛋白鉴定使用在Protein Prospector网站上的Bruker数据分析软件和MS-Tag程序实现数据分析。同时,用蛋白组学级胰蛋白酶(Promega)将同一样品消化,并在与LTQ线性离子阱质谱仪(Thermo Electron,San Jose,CA)直接连接的Agilent1100毛细管LC(Pal Alto,CA)上进行分析。通过充满5-μm直径的C18珠的50-μm柱(New Objective,Woburn,MA)对PicoFrit 8-cm施加N2正压来将肽样品上样。以200nL/分钟的流速在55分钟的线性梯度期间将肽从所述柱洗脱到质谱仪中,所述线性梯度为从5%至60%的由流动相B组成的总溶液。将仪器设定为在9个来自各MS的最丰富的前体离子上采集MS/MS谱,重复数为3,重复持续时间15秒。使动态排除进行20秒,并通过Mascot(参见matrixscience网站)进行数据分析(图8)。
验证集由来自9名胃癌患者(4名早期癌,5名晚期癌)和5名年龄和性别匹配的对照成。该验证集包括除汇集用于质谱分析的样品之外的若干额外样品,其作为独立的评价集。基于本发明的计算预测选择了20个最有前景的候选物以用于蛋白质印迹分析,其中4个通过上述MS分析检测。在血清样品中发现这些蛋白中的15种,包括通过基于MS分析检测的2种(TOP2A和AZGP1)。其中,如图9所示,7种(GKN2、MUC13、LIPF、GIF、AZGP1、CTSB和COL10A1)在癌患者的血清和对照样品之间显示出某种程度的差异性丰度。
从图9中可以看出,存在两种潜在的标记:(1)在晚期癌中丰度增加/减少的蛋白。例如,在晚期癌血清中显示丰度增加的粘蛋白-13,其是覆盖气管和胃肠道的顶部表面的糖蛋白,在数种影响癌发生、运动性和细胞形态的信号传导途径中起作用。其可用作通常的癌标记,但是对于早期癌检测可能不太有效。胃脂肪酶(LIPF)和DNA拓扑异构酶2-α(TOP2A)在晚期癌血清中也差异性表达,其表达分别减少和增加。(2)在早期癌中具有差异性表达的蛋白,即GKN2、COL10A1和AZTP1。在癌血清中表达减少的GKN2对于检测早期癌是有效的,因为在本发明测试中一半早期样品的丰度改变,包括一个I期癌。
在这些有前景的标记中,已经提出CTSB作为潜在的胃癌标记(Ebert等,2005;Poon等,2006),其显示出差异性丰度,但在本发明的样品上不一致;之前已经提出MMP1和TOP2A通常是癌相关的(Poola,2005);这得到本文提出的数据支持。GKN2和LIPF是胃组织特异性的;COL10A1和GAST通常可与其它疾病或免疫响应相关。
这些个体蛋白的组合也被认为是潜在的组合标记。虽然由于缺乏这些蛋白的精确量测定而使组合标记的详细定量评估较为困难,但已基于来自蛋白质印迹数据的所评估蛋白丰度对分类精度进行了粗略评价。如表4所示,列出了k-蛋白标记的集合,其比个体血清标记给出了明显提高的分类精度。表10给出了k-蛋白血清标记的详细列表。
表10:经验证的k-蛋白标记的血清精度,基于5倍交叉验证精度在基因水平和蛋白水平上对所述经验证的k-蛋白标记进行了验证。
Figure BDA0000090397930000491
应该注意的是某些因素可能影响蛋白质印迹结果。例如,一个此类因素是不同的剪接同种型可以不必具有针对每种相关蛋白的全长常见形式设计的抗体类似的结合亲和力。基于所提出的预测,诸如MMP1、LIPG、LIPF和CTSB等标记都具有剪接变体。因此,基于所选择的剪接变体选择合适的抗体。
实施例14
尿中癌标记的鉴定
训练数据和测试数据的收集。将由主要的尿蛋白组学研究(Adachi等,2006)鉴定的1500个蛋白的集合用作阳性训练数据。在利用SwissProt登录ID的该蛋白组学研究中鉴定了总共1,313个人类蛋白,并包括在该训练集中。对于独立的测试集,使用来自三个其它主要尿蛋白组学研究(Pieper等,2004;Castagna等,2005;Wang等,2006)的数据,包括不与训练集重叠的总共460个人类蛋白。
对于阴性训练集和测试数据集,在进行Cui等,2008中所述的选择步骤后,从不与阳性数据重叠的Pfam家族中选择蛋白,以确保所选择的蛋白遵循相同的家族-大小分布(Finn等,2008)。结果,对于训练集和测试集分别选择了2,627和2,148个蛋白,所述训练集和测试集之间无任何重叠。
特征计算和选择。对于从SwissProt数据库检索的各蛋白序列,对18个特征进行计算。这些特征中的一些需要多个特征值来表示它们,例如,需要20个特征值来表示蛋白序列中的氨基酸组成;因此使用243个特征值表示18个特征。表11列出了该18个特征以及用于表示它们中每一个的特征值的数值。使用内部程序或如果可在互联网上获得则使用预测服务器对18个特征进行计算。
基于可获得的关于尿分泌的信息进行选择,该特征列表可潜在地用于区分尿分泌的蛋白和非尿分泌的蛋白。为了检查它们中哪些是确实有用的,使用支持向量机用文库(LIBSVM)中提供的特征选择工具来选择243个特征值中有用的特征。LIBSVM是用于支持向量分类(C-SVC,nu-SVC)、回归(ε-SVR,nu-SVR)和分布估算(一类SVM)的积分软件。该特征选择工具计算F评分(Chang&Lin 2001)来测定本发明的分类问题的各特征值的相关性的排序。除去所有F评分低于预选阈值的特征,认为剩下的特征对于分类问题有用。
表11:用于起始分类模型的总结
Figure BDA0000090397930000501
使用DAVID生物信息学资源网络服务器来完成对所有所预测的尿分泌蛋白进行的功能性富集分析。使用人类蛋白作为背景进行功能注释基因簇分析。对于各个基因簇通过EASE评分确定总富集评分(Dennis等,2003;Huang等,2009)。
使用KOBAS网络服务器(Mao等,2005;Wu等,2006)来计算所预测尿分泌蛋白中的统计学上富集的和代表性不足(underrepresented)的途径。KOBAS读取序列集合并且基于BLAST序列相似性对KEGG直系同源术语(orthology term)进行注释。然后针对所有人类蛋白比较经注释的KO术语。如果在百分比组成方面存在至少2倍的变化则认为途径是富集的或代表性不足的。
在中国长春吉林大学医学院收集来自10名处于转移期的胃癌患者(7名男性,3名女性)如10名性别匹配的健康人的尿样品。立即将这些样品冻干并在准备使用前贮存。使这些样品复原并在4℃于3,000相对离心力下旋转25分钟,以除去细胞成分。收集上清液并将其冷冻在-80℃直到进一步使用。然后使用Slide-A-Lyzer透析盒(Thermo Fisher Scientific,Rockford,IL)针对Millipore超纯水(更换三次缓冲液,然后进行过夜透析)在4℃对所述样品进行透析。使用Bio-Rad蛋白测定(Bio-Rad,Hercules,CA)利用牛血清白蛋白作为标准品测定蛋白浓度。
信号肽和二级结构是尿分泌蛋白的关键特征。使用基于F评分的特征选择,当特征值数值为74时观察到最高精度。使用这74个特征值,对基于SVM的分类器进行再训练。所选择的特征中,对于分泌蛋白的最有辨别力的特征是信号肽的存在。已知通过ER分泌的蛋白具有信号肽,并且根据特定的信号肽被运送到其目的地;因此大多数分泌蛋白具有该特征。另一突出的特征是二级结构的类型;数个与二级结构有关的特征值包括在前74个最佳特征中,并且α螺旋的百分比排在74个中的第2位。
对于分泌蛋白,蛋白的电荷在排在前几名的特征中。这与电荷实际上是确定哪些蛋白过滤透过肾中的肾小球膜的因素的通常理解一致。但是,发现排在第232位的蛋白的分子大小对于所述分类问题是无关的。
如表12所示,对两个分类器进行训练。模型1的特异性较高但敏感性较低,而模型2展示出更平衡的表现。由于阳性训练数据和阴性训练数据的不平衡数量,精度可能不是确定模型的性能的最佳度量。因此,使用马修相关系数作为分类品质的度量。
表12:训练时所训练模型的表现
  集合   模型   TP   TN   FP   FN   SEN   SP   ACC   MCC
  训练   1   792   2493   134   341   0.7403   0.9490   0.8794   0.5228
  训练   2   1164   2230   297   149   0.8865   0.8869   0.8868   0.5697
  独立   1   360   1983   165   100   0.7826   0.9232   0.8984   0.4500
  独立   2   404   1838   310   56   0.87820   0.85567   0.85966   0.39358
在预测置信度和蛋白距分离超平面的距离之间存在直接相关性,所述分离超平面存在于由基于SVM训练导出的阳性训练数据和阴性训练数据之间。具体而言,离分离超平面的距离越远,正确预测的可能性越高(图10)。使用置信区间作为指导,可以选择少量蛋白用于实验验证。
将经训练分类模型应用至胃癌数据。在致力于鉴定尿中的用于胃癌的潜在生物标记时,在Affymetrix人外显子测定1.0(Cui等,2009)上将本文开发的经训练模型应用于2048个差异性表达基因的集合,所述差异性表达基因基于来自相同的80名患者的80个胃癌组织及80个匹配的非癌性胃组织上的160个外显子阵列而鉴定出。在所述2,048个蛋白中,预测480个通过模型1被分泌到尿中,这480个蛋白中,11个蛋白的置信水平高于98%,表明它们非常有可能被分泌到尿中。480个蛋白中的总共203个蛋白具有至少92%的置信水平,这也被认为是高度可信的预测。
对所有480个蛋白进行功能和途径富集分析以帮助确定哪些类型的蛋白可以在尿中发现。具体而言,如果分析表明某具体的功能组或途径被富集,则在该组中发现生物标记的机会增加。分别使用DAVID(Dennis等,2003)和KOBAS(Wu等,2006)网络服务器,利用完整的人类蛋白作为背景对功能和途径富集分析进行分析。
通过DAVID进行的功能富集分析揭示,480个蛋白中的大多数富集的功能组涉及胞外基质(ECM)。ECM在癌进展中通过影响细胞增殖和移动性起重要作用。细胞表面受体与ECM中的配体之间的相互作用不仅影响细胞脱附和移动,而且ECM还充当细胞可以在其上粘附和生长的模板(Ashkenas等,1996;McKinnell等,2006)。ECM分子的组成、细胞类型和细胞表面受体组成可以通过经由整联素发送信号而促进或抑制细胞增殖(Stein&Pardee 2004)。因此,涉及ECM的蛋白不仅对于胃癌,而且对于所有其它类型的癌也是重要的尿生物标记。总之,480个蛋白中的164个在该组中。
下一最重要的富集组是涉及细胞粘附的蛋白。众所周知,细胞粘附是有助于癌生长的因素。例如,细胞彼此之间粘附或粘附到ECM上,但是当肿瘤形成时,细胞必须从原发瘤脱离,并且入侵淋巴系统以进行转移。因此,癌细胞不表达诸如E-钙粘蛋白等细胞粘附分子,并且失去其特征性形态以及变得具有入侵性(Frixen等,1991)。所鉴定的480个蛋白中,93个位于该组,因此为发现尿中的细胞粘附生物标记提供了谨慎的优化。其它富集功能组包括涉及发育、细胞移动、防御性/炎症性响应和血管发育/血管发生的蛋白。图11显示了功能富集分析的综合结果。
对480个蛋白进行的途径富集分析揭示,某些途径与背景(全人类集合)相比是统计学上富集的(图12)或代表性不足的(图13)。480个蛋白中,超过20%涉及细胞抗原途径,其可以通过免疫系统响应于癌形成和发育而触发。免疫系统在癌发育中的作用尚不明确,很大程度上地因为其对癌发育和进展具有自相矛盾的作用。例如,抗肿瘤适应性免疫响应的激活可以抑制肿瘤生长和发育,而浸润的淋巴细胞的丰度与更有利的预后有关,浸润的先天免疫细胞的丰度增加与血管发生和不良的预后有关(de Visser等,2006)。
由于蛋白容易进入血流,蛋白在抗原途径中的富集并不令人惊讶。而在血液循环中,所述蛋白与胞内蛋白不同,它们可以容易地过滤通过肾小球。这表明存在留待发现的更多的抗原癌标记。根据肽酶、细胞粘附分子和CAM配体在癌进展中的作用来预期,肽酶、细胞粘附分子和CAM配体在该途径分析中被过度代表(overrepresented)。
大多数代表性不足的蛋白是胞内蛋白(图3)。例如,在480个蛋白中蛋白激酶途径明显代表性不足。蛋白激酶涉及诸如离子转运、细胞增殖、激素响应、细胞凋亡、代谢、转录和细胞骨架重组以及细胞移动等胞内过程(Malumbres&Barbacid,2007)。激酶活性的失调经常导致肿瘤生长。例如,有证据表明许多激酶突变是促进癌发育的“驱动”突变(Greenman等,2009);此外,突变蛋白激酶的抑制在癌治疗中已经显示出功效(Sawyers,2004)。虽然其在癌进展中具有关键作用,蛋白激酶途径的代表性不足是由于这些蛋白是胞内蛋白,因此不可能被分泌到尿中。
抗体阵列筛选。2,048个在胃癌组织和正常组织之间差异性表达的基因中,26个蛋白包括274个抗体的阵列中(图14)。这26个蛋白中,通过我们的模型预测7个(FGF7、CD14、MMP9、MMP2、MMP10、TREM1、CEACAM1)会被分泌。所述抗体阵列数据确认,在至少一个或多个样品中经预测被分泌的7个蛋白中的6个存在于尿中。但是,在6个样品中的任一个中都未检测到MMP10,表明其是假阳性。尽管如此,该模型在预测分泌尿蛋白方面是精确的。
从抗体阵列中,发现10个蛋白(Fit3-配体、EGF-R、sgpBO、PDGF AA、黄体化激素、Tim-3、Trappin-2、CEA、CEACAM1、FSH)在所有癌样品中与正常样品相比基本上下调(图14),表明这些可以作为可能的新的生物标记,但是在胃癌中的浓度减少。这10个蛋白中,CEACAM1是唯一包括在2048个在胃癌样品和参照样品之间差异性表达的基因的数据集中的蛋白(Cui等,2009)。据预测该蛋白被该模型分泌,这表明了该模型在鉴定尿中潜在的生物标记方面的成功。
对数个所预测的尿分泌蛋白进行蛋白质印迹分析。基于尿分泌预测评级和蛋白功能选择了3个蛋白MUC13、COL10A1和EL。跨膜粘蛋白MUC13已经在胃癌组织中显示出上调,并且已经被建议作为潜在的诊断和治疗靶标(Shimamura等,2005)。其具有3个可能涉及细胞粘附、调节、细胞信号传导、趋化性、伤口愈合和粘蛋白/生长因子相互作用的EGF样结构域(Williams等,2001;N′Dow等,2004)。
据预测MUC13(58kD)被分泌到尿中,并且蛋白质印迹确认了该预测。如图15所示,MUC13同时存在于胃癌患者和对照的尿样品中。使用ImageJ软件确定条带的相对定量,其中对各泳道进行分析,并且确定和比较峰下的面积。虽然微阵列数据揭示MUC13显示了mRNA水平上的差异,蛋白质印迹条带的定量未显示在58kD的条带的癌样品和对照样品之间显示显著性差异。由于该条带位于55K~75K之间,这些结果表明该蛋白以完整形式或接近完整的形式被分泌到尿中。
COL10A1是同源三聚型胶原,具有较大的C端和N端结构域(Gelse等,2003)。据认为其参与较低的肥大区中的钙化过程,并且发现其位于透明软骨的推定矿化区(Schmid&Linsenmayer,1987;Kwan等,1989;Kirsch&Mark,99;Alini等,1994)。已经发现其在乳癌和卵巢癌中过表达(Ferguson等,2005)。本发明的微阵列数据还显示COL10A1在胃癌组织中过表达。
对COL10A(66kD)进行的蛋白质印迹显示了一条37kD~50kD之间的较清楚的条带,表明该蛋白可能由于一次或多次切割而以不完整形式主要出现在尿中(图16)。当比对照样品相比时胃癌样品的平均强度高出约50%。
内皮脂肪酶(EL)(55kD)由内皮细胞产生,并且在通常的脂质代谢中在合成位点处发挥作用(Choi等,2002;shida等,2003)。数个研究已经表明,该蛋白是控制HDL水平的决定因素,并且在EL和HDL的表达之间存在反相关(Ishida等,2003;Jin等,2003;Ma等,2003)。EL还与人类动脉粥样硬化损伤中的巨噬细胞有关,EL的抑制减少了人类巨噬细胞中促炎症细胞因子的表达,并且减少了胞内脂质浓度(0iu等,2007)。
该蛋白尚未与任何癌相联系,但是基于本发明的微阵列数据分析发现该蛋白在胃癌组织中上调(Cui等,2009)。令人感兴趣的是,用于EL的蛋白质印迹显示了在胃癌患者的尿样品中相对于对照样品其丰度明显减少(图17)。具体而言,对于所有3个对照样品都检测到EL,而胃癌样品显示几乎没有或没有EL。令人吃惊的是,检测到100kD以上的条带,表明EL以活性形式(头尾衔接构象的同源;聚体)(Griffon等,2009)被分泌到尿中;对于任何样品没有观察到其它条带。
实施例15
用于标记鉴定的抗体阵列实验
还使用基于生物素标记的抗体阵列对来自3个胃癌个体和3个对照的血清样品进行了蛋白阵列实验。对于基于生物素标记的阵列实验,对各血清样品进行透析,然后根据制造商说明(Pierce,Rockford,IL,USA)进行生物素标记步骤,其中将蛋白的伯胺生物素化。然后将经生物素标记的蛋白(50μl血清样品)与(抗体芯片RayBio
Figure BDA0000090397930000551
基于生物素标记的抗体阵列,RayBiotech,Inc.U.S.A)在室温一起温育2小时。与HRP-链霉亲和素或荧光染料-链霉亲和素一起温育后,通过化学发光或荧光使信号可视化,然后通过扫描阵列激光共聚焦幻灯片扫描器(PerkinElmer Life Science)成像。所有阵列实验重复3次。
测定507个已知人类蛋白的丰度,包括(抗)炎症性细胞因子、趋化因子、脂肪细胞激素、基质金属蛋白酶、血管发生因子、生长和分化因子、细胞粘附分子和可溶性受体。所述分析鉴定了103个在胃癌样品和对照样品之间具有非常显著的表达差异性的蛋白,其中28个蛋白在癌样品中丰度更高,而其它的蛋白在癌样品中相对于对照样品显示较低的丰度。丰度差异性的分布示于图19中,并且这些蛋白名称的列表在表13中给出。
这103个蛋白中只有一个蛋白(CCL28)通过本发明的质谱分析检测到,这可能归因于样品中的信号传导蛋白的丰度相对较低。基于本研究,可以总结出虽然抗体阵列可潜在地检测蛋白标记,其特异性可能成为问题。
表13:通过基于生物素标记的抗体阵列鉴定的在癌血清中相对于对照血清具有丰度差异性的103个蛋白
Figure BDA0000090397930000561
Figure BDA0000090397930000571
实施例16
用于其它癌的标记鉴定
除了胃癌之外,已经使用可公开获得的癌微阵列数据将上文概述的计算技术和额外的工具应用至其它癌。对于本研究,从互联网上的数据库已经收集了用于8种癌的微阵列基因表达数据:肝癌(Chen等,2002)、前列腺癌(Lapointe等,2004)、肺癌(Garber等,2001)、肾癌(Sarwal等,2001)、结直肠癌(Giacomini等,2005)、乳癌(Dairkee等,2004)、卵巢癌(Schaner等,2003)和胰腺癌(lacobuzio-Donahue等,2003),其中每一个都具有相对较大的样本尺寸。
对于各数据集,使用1-、2-、3-、4-和5-基因作为标记,使用同上文概述的步骤,预测能够区分癌组织和参照组织的前100个标记。图18分别显示了通过最佳的1-基因和2-基因标记在区分83个前列腺癌组织和50个参照前列腺组织时的分类精度(2/3的数据用于训练,剩下1/3的数据用于测试,使用5倍交叉验证)。对于前列腺癌,最佳的3个1-基因标记是AMACR、ITPR1和ACPP,分类精度分别是88.0%、86.1%和85.7%,最佳的3个2-基因标记是ITGA9-SPG3A、CREB3L4-ITGA9和BLNK-ITGA9,分类精度都是98.0%。令人感兴趣地观察到,在本发明的1-基因标记列表中在其区分癌组织和参照组织的辨别力方面广泛使用的PSA排在第167位。这与公认的PSA在区分前列腺癌和良性前列腺肥大上所具有的限制相一致。最近数个团队已经将AMACR从最佳的标记候选物中鉴定为用于前列腺癌的潜在血清标记(Bradford等,2006)。在以上列表中还对7个其它癌类型完成了类似的分析。
实施例17
通过针对公共微阵列数据的检索来对所预测的基因标记的特异性分析
为了检查所预测的基因标记对于胃癌是否具有特异性,开发了生物标记评价系统,针对用于人类疾病的GEO(Barrett等,2005)、Oncomine(Rhodes等,2004)和SMD(Sherlock等,2001)中的公共微阵列数据集检索各个预测标记。对于各预测标记、个体基因或基因的组以及其表达倍数变化信息,进行了以下检索。如果基因标记在多种疾病上给出大致阳性的预测(目前设定为30%),则认为该标记对于胃癌不具有特异性,并因此从候选物列表中将其除去。
实施例18
用于检测差异性表达的基因/转录物的算法
本研究的目标在于测试假设(H0),该假设为在大多数患者中,某特定基因在表达水平上不显示出k倍以上变化(p值<0.05)。对假设H0(即特定基因在癌中不显示特定的表达水平变化)的检查以及对该假设的否定将意味着对癌的选择性支持。设N[i]和C[i](i=1,...,m)是第i个患者的参照组织和癌组织中的基因表达,m是所有患者的数量。如果假设H0为真,假定基因表达是连续随机变量,则概率P(N[i]>C[i])=P(N[i]<C[i])=0.5。设K为具有N[i]/C[i]>0.5的患者的数量,则基于中心极限定理,随机变量K/m大致为正态的,平均值=0.5,并且
Figure BDA0000090397930000591
Figure BDA0000090397930000592
具有标准正态分布N(0,1)。因此可将p值估计为
Figure BDA0000090397930000593
其中是Kexp是具有P(N[i]<C[i])的患者的实验观察数。
实施例19
胃癌的公共微阵列数据
为了避免由样品分布的偏差引起的矛盾,从GEO数据库下载了用于胃癌的两个公共微阵列数据集用于进行比较性研究:一个(Kim数据集)(Kim等,2007)测定了韩国的不同阶段、癌类型和癌分化程度的50名癌患者的基因表达谱。对于各肿瘤相对于正常样品的平均值通过计算log2倍数变化值给出原始数据;另一个(Xin数据集,GSE2701)(Chen等,2003)使用针对常见对照(CRG)的44K人类阵列进行评估,测定了从香港收集的总共126名胃癌患者肿瘤的基因表达。第一集合已经进行标准化和对数转化,并且我们通过按照(Sharma等,2008)中所述的相同步骤对Xin数据集进行了预处理。
将具有韩国50名胃癌患者的基因表达数据的Kim数据集,用于评价早期标记,将具有100个胃癌组织和24个参照组织的基因表达数据的Xin数据集,用于评估本发明所提出的基因标记的通用性。
实施例20
将已知的剪接用顺式调控基序映射到紧邻于被略过的外显子之前的内含子
已经收集了据认为参与剪接调节的362个内含子顺式调控基序(Wang等,2008)。Wang等,2008中的研究表明,外显子的紧邻上游内含子区(相对于5′剪接位点的-150nt~-30nt)富集有所述顺式调控基序通常表明该外显子可以被选择性剪接。进一步的分析表明,所述顺式调控基序的更高的出现次数与更高的所述外显子的外显子略过事件的发生次数相关。因此,对于各外显子,对这些调控基序(100%序列匹配)在如上限定的内含子区中的出现进行计数。
本文通过援引将以上说明书中提到的所有出版物和专利并入。考虑到本文公开的本发明的说明书和实践,对本领域技术人员而言本发明的其它实施方式会变得显而易见。说明书和实例旨在仅被视作示例性的,而本发明的真实范围和主旨由后附权利要求所指定。
参考文献
Adkins JN,Varnum SM,Auberry KJ,Moore RJ,Angell NH,Smith RD等.Toward ahuman blood serum proteome:analysis by multidimensional separation coupled with massspectrometry.MoI Cell Proteomics.2002;1(12):947-55.
Schrader M,Schulz-Knappe P.Peptidomics technologies for human body fluids.Trends Biotechnol.2001;19(10Suppl):S55-60.
Tolson J,Bogumil R,Brunst E,Beck H,Eisner R,Humeny A等.Serum proteinprofiling by SELDI mass spectrometry:detection of multiple variants of serum amyloidalpha in renal cancer p atients.Lab Invest.2004;84(7):845-56.
Holmila R,Fouquet C,Cadranel J,Zalcman G,Soussi T.Splice mutations in the p53gene:case report and review ofthe literature.Hum Mutat.2003;21(1):101-2.
Li HR,Wang-Rodriguez J,Nair TM,Yeakley JM,Kwon YS,Bibikova M等.Two-dimensional transcriptome profiling:identification of messenger RNA isoformsignatures in prostate cancer from archived paraffin-embedded cancer specimens.CancerRes.2006;66(8):4079-88.
Smith MW,Yue ZN,Geiss GK,Sadovnikova NY,Carter VS,Boix L等.Identification of novel tumor markers in hepatitis C virus-associated hepatocellularcarcinoma.Cancer Res.2003;63(4):859-64.
Young AN,de Oliveira Salles PG,Lim SD,Cohen C,Petros JA,Marshall FF等.Betadefensin-1,parvalbumin,and vimentin:a panel of diagnostic immunohistochemicalmarkers for renal tumors derived from gene expression profiling studies using cDNAmicroarrays.Am J Surg Pathol.2003;27(2):199-205.
van de Vijver MJ,He YD,van′t Veer LJ,Dai H,Hart AA,Voskuil DW等.Agene-expression signature as a predictor of survival in breast cancer.N Engl J Med.2002;347(25):1999-2009.
Resnick MB,Routhier J,Konkin T,Sabo E,Pricolo VE. Epidermal growth factorreceptor,c-MET,beta-catenin,and p53expression as prognostic indicators in stage IIcolon cancer:a tissue microarray study.Clin Cancer Res.2004;10(9):3069-75.
Sallinen SL,Sallinen PK,IIaapasalo HK,IIelin HJ,Helen PT,Schraml P等.Identification of differentially expressed genes in human gliomas by DNA microarray andtissue chip techniques.Cancer Res.2000;60(23):6617-22.
Hendrix MJ,Senor EA,Meltzer PS,Gardner LM,Hess AR,Kirschmann DA等.Expression and functional significance of VE-cadherin in aggressive human melanomacells:role in vasculogenic mimicry.Proc Natl Acad Sci U S A.2001;98(14):8018-23.PMCID:35460.
Menne KM,Hermj akob H,Apweiler R.A comparison of signal sequence predictionmethods using a test set of signal peptides.Bioinformatics.2000;16(8):741-2.
Nair R,Rost B.Mimicking cellular sorting improves prediction of subcellularlocalization.J MoI Biol.2005;348(1):85-100.
Horton P,Park KJ,Obayashi T,Fujita N,Harada H,Adams-Collier CJ等.WoLFPSORT:protein localization predictor. Nucleic Acids Res. 2007;35(Web Serverissue):W585-7.
Guda C.pTARGET:a web server for predicting protein subcellular localization.Nucleic Acids Res.2006;34(Web Server issue):W210-3.
Mott R,Schultz J,Bork P,Ponting CP.Predicting protein cellular localization using adomain projection method.Genome Res.2002;12(8):1168-74.
Smialowski P,Martin-Galiano AJ,Mikol ajka A,Girschick T,Holak TA,F rishman D.Protein solubility:sequence based prediction and experimental verification.Bioinformatics,2007;23(19):2536-42.
Chen Y,Zhang Y,Yin Y,Gao G,Li S,Jiang Y等.SPD--a web-based secretedprotein database.Nucleic Acids Res.2005;33(Database issue):D 169-73.
Tang ZQ,Han LY,Lin HH,Cui J,Jia J,Low BC等.Derivation of stable microarraycancer-differentiating signatures using consensus scoring of multiple random sampling andgene-ranking consistency evaluation.Cancer Res.2007;67(20):9996-10003.
Lee Y,Kim B,Shin Y,Nam S,Kim P,Kim N等.ECgene:an alternative splicingdatabase update.Nucleic Acids Res.2007;35(Database issue):D99-103.PMCID:1716719.
Dantzig GB,A.Orden,and P.Wolfe.Generalized Simplex Method for Minimizing aLinear from Under Linear Inequality Constraints.Pacific Journal  Math.1999;Vol.5:183-95.
Takeno,A.等.Integrative approach for differentially overexpressed genes in gastriccancer by combining large-scale gene expression profiling and network analysis.Br JCancer99,1307-1315(2008).
El-Rifai,W.,Frierson,H.F.,Jr.,Harper,J.C,Powell,S.M.&Knuutila,S.Expressionprofiling of gastric adenocarcinoma using cDNA array.Int J Cancer92,832-838(2001).
Becker,K.F.等.E-cadherin gene mutations provide clues to diffuse type gastriccarcinomas.Cancer Res 54,3845-3852(1994).
Hippo,Y.等.Global gene expression analysis of gastric cancer by oligonucleotidemicroarrays.Cancer Res 62,233-240(2002).
Moss,S.F.等.Decreased expression of gastrokine 1and the trefoil factor interactingprotein TFIZ 1/GKN2in gastric cancer:influence of tumor histology and relationship toprognosis.Clin Cancer Res14,4161-4167(2008).
Chen,X.等.Variation in gene expression patterns in human gastric cancers.Mol BiolCell14,3208-3215(2003).
Dar,A.A.,Belkhiri,A.&El-Rifai,W.The aurora kinase A regulates GSK-3beta ingastric cancer cells.Oncogene 28,866-875(2009).
Kim,K.R.等.[Gene expression profiling using oligonucleotide microarray in atrophicgastritis and intestinal metaplasia].Korean J Gastroenterol49,209-224(2007).
Katayama,H.等.Phosphorylation by aurora kinase A induces Mdm2-mediateddestabilization and inhibition of p53.Nat Genet 36,55-62(2004).
Chen,L.等.,Clinicopathological significance of overexpression of TSPANl,Ki67andCD34in gastric carcinoma.Tumori,2008.94(4):p.531-8.
Long,Y.M.等.,Nuclear factor kappa B:a marker of chemotherapy for human stageIV gastric carcinoma.World J Gastroenterol,2008.14(30):p.4739-44.
Yamada,Y.等.,Identification of prognostic biomarkers in gastric cancer usingendoscopic biopsy samples.Cancer Sci,2008.99(11):p.2193-9.
Silva,E.M.等.,Cadherin-catenin  adhesion  system  and  mucin  expression:acomparison between young and older patients with gastric carcinoma.Gastric Cancer,2008.11(3):p.149-59.
Xu,Y.,L.Zhang,and G.Hu,Potential application of alternatively glycosylated serumMUCl and MUC5AC in gastric cancer diagnosis.Biologicals,2009.37(1):p.18-25.
Takeno,A.等.,Integrative approach for differentially overexpressed genes in gastriccancer by combining large-scale gene expression profiling and network analysis.Br JCancer,2008.99(8):p.1307-15.
Kon,O.L.等.,The distinctive gastric fluid proteome in gastric cancer reveals amulti-biomarker diagnostic profile.BMC Med Genomics,2008.1:p.54.
Bernal,C等.,Reprimo as a potential biomarker for early detection in gastric cancer.Clin Cancer Res,2008.14(19):p.6264-9.
Taddei,A.等.,NF2expression levels of gastrointestinal stromal tumors:a quantitativereal-time PCR study.Tumori,2008.94(4):p.551-5.
Ebert,M.P.等.,Overexpression of cathepsin B in gastric cancer identified byproteome analysis.Proteomics,2005.5(6):p.1693-704.
Stefatic,D.等.,Optimization of diagnostic ELISA-based tests for the detection ofautoantibodies against tumor antigens in human serum.Bosn J Basic Med Sci,2008.8(3):p.245-50.
Jin,B.等.,Detection of serum gastric cancer-associated MG7-Ag from gastric cancerpatients using a sensitive and convenient ELISA method.Cancer Invest,2009.27(2):p.227-33.
Ren,H.等.,Analysis of variabilities of serum proteomic spectra in patients withgastric cancer before and after operation.World J Gastroenterol,2006.12(17):p.2789-92.
Peduzzi P,C.J.,Feinstein AR,Holford TR Importance of events per independentvariable in proportional hazards regression analysis.II.Accuracy and precision ofregression estimates.Journal of ClinicalEpidemiology 48,1503-1510(1995).
Chandanos,E.&Lagergren,J.Oestrogen and the enigmatic male predominance ofgastric cancer.Eur J Cancer 44,2397-2403(2008).
Guojun Li,Q.M.,Haibao Tang,Ying Xu.QUBIC:A Qualitative BiclusteringAlgorithm for Analyses of Gene Expression Data.(2009).
Dennis,G.,Jr.等.DAVID:Database for Annotation,Visualization,and IntegratedDiscovery.Genome Biol4,P3(2003).
Wu,J.,Mao,X.,Cai,T.,Luo,J.&Wei,L KOBAS server:a web-based platform forautomated annotation and pathway identification.Nucleic Acids Res 34,W720-724(2006).
Zhu,J.等.The UCSC Cancer Genomics Browser.NatMethods 6,239-240(2009).
Schaefer,C.F.等.PID:the Pathway Interaction Database.Nucleic Acids Res 37,D674-679(2009).
Liu,R.等.Mechanism of cancer cell adaptation to metabolic stress:proteomicsidentification of a novel thyroid hormone-mediated gastric carcinogenic signaling pathway.MolCell Proteomics 8,70-85(2009).
Bell,G.I.等.Facilitative glucose transport proteins:structure and regulation ofexpression in adipose tissue.Int J Obes 15Suppl 2,127-132(1991).
Wang,ET.等.Alternative isoform regulation in human tissue transcriptomes.Nature456,470-476(2008).
Eyras,E.,Caccamo,M.,Curwen,V.&Clamp,M.ESTGenes:alternative splicingfrom ESTs in Ensembl.Genome Res 14,976-987(2004).
Kanehisa,M.a.G.,S.KEGG:Kyoto Encyclopedia of Genes and Genomes.NucleicAcidsRes.28,27-30(2000).
Cui,J.,Liu,Q.,Puett,D.&Xu,Y.Computational Prediction of Human Proteins ThatCan Be Secreted into the Bloodstream.Bioinformatics(2008).
Omenn GS,States DJ,Adamski M,Blackwell TW,Menon R,Hermj akob H等.Overview of the HUPO Plasma Proteome Project:results from the pilot phase with 35collaborating laboratories and multiple analytical groups,generating a core dataset of 3020proteins and a publicly-available database.Proteomics.2005;5(13):3226-45.
Chen Y,Zhang Y,Yin Y,Gao G,Li S,Jiang Y等.SPD-a web-based secretedprotein database.Nucleic Acids Res.2005;33(Database issue):D169-73.
Bateman A,Birney E,Cerruti L,Durbin R,Etwiller L,Eddy S等.The Pfam proteinfamilies database.Nucleic acids research.2002;30(1):276-80.
Reczko M,Bohr H.The DEF data base of sequence based protein fold classpredictions.Nucleic Acids Res.1994;22(17):3616-9.
Bhasin M,Raghava GP.Classification of nuclear receptors based on amino acidcomposition and dipeptide composition.J Biol Chem.2004;279(22):23262-6.
Platt JC.Fast Training of Support Vector Machines using  Sequential MinimalOptimization.Advances in kernel methods:support vector learning.Camb ridge,MA,USA:MIT Press 1999.p.185-208.
S.S.Keerthi SKS,C.Bhattacharyya,K.R.K.Murthy.Improvements to Platt′s SMOAlgorithm for SVM Classifier Design Neural Computation.2001;13:637-49.
Poola,L等.Identification of MMP-I as a putative breast cancer predictive marker byglobal gene expression analysis.Nat Med 11,481-483(2005).
Ebert,M.P.等.Overexpression of cathepsin B in gastric cancer identified by proteomeanalysis.Proteomics 5,1693-1704(2005).
Poon,T.C.等.Diagnosis of gastric cancer by serum proteomic fingerprinting.Gastroenterology 130,1858-1864(2006).
Pieper R,Gatlin C,McGrath A,Makusky A,Mondal M,Seonarain M,Field E,Schatz C,Estock M,Ahmed N,al e(2004).Characterization of the human urinaryproteome:a method for high-resolution display of urinary proteins on two-dimensionalelectrophoresis gels with a yield of nearly  1400nearly protein spots.Proteomics,1159-1174.
Castagna A,Cecconi D,Sennels L,Rappsilber J,Guerrier L,Fortis F,Boschetti E,Lomas L,Righetti P(2005).Exploring the hidden human urinary  proteome via ligandlibrary beads.JProteome Res,1917-1930.
Wang L,Li F,Sun W,Wu S,Wang X,Zhang L,Zheng D,Wnag J,Gao Y(2006).Concanavalin A captured glycoproteins in healthy human urine.Mol Cell Proteomics,560-562.
Chang C-C,Lin C-J(2001).LIB SVM:a library for support vector machines.
Li ZR,Lin HH,Han LY,Jiang L,Chen X,Chen YZ(2006).PROFEAT:a webserver for computing structural and physicochemical features of proteins and peptides fromamino acid sequence.Nucleic AcidsRes.34,W32-37.
Prilusky J,Felder CE,Zeev-Ben-Mordehai T,Rydberg EH,Man O,Beckmann JS,Silman I,Sussman JL(2005).Foldlndex:a simple tool to predict whether a given proteinsequence is intrinsically unfolded.Bioinformatics.21,3435-3438.
Gasteiger E,Gattiker A,Hoogland C,Ivanyi I,Appel RD,Bairoch A(2003).ExPASy:The proteomics server for in-depth protein knowledge and analysis.NucleicAcids Res.31,3784-3788.
Bendtsen JD,Nielsen H,Widdick D,Palmer T,Brunak S(2005).Prediction oftwin-arginine signal peptides.BMC Bioinformatics.6,167.
Kail L,Krogh A,Sonnhammer EL(2007).Advantages of combined transmembranetopology and signal peptide prediction-the Phobius web server.Nucleic Acids Res.35,W429-432.
Julenius K,Molgaard A,Gupta R,Brunak S(2005).Prediction,conservation analysis,and structural characterization of mammalian mucin-type O-glycosylation sites.Glycobiology.15,153-164.
Gupta R,Jung E,Brunak S(2004).Prediction of N-glycosylation sites in humanproteins eds).
Eisenhaber F,Imperiale F,Argos P,Froemmel C(1995).Prediction of SecondaryStructural Content of Proteins from Their Amino Acid Comosition Alone UtilizingAnalytic Vector Decompositioned eds).
Mao X,Cai T,Olyarchuk JG,Wei L(2005).Automated Genome Annotation andPathway Identification Using the KEGG Orthology(KO)As a Controlled Vocabulary.Bioinformatics,3787-3793.
Ashkenas J,Muschler J,Bissell M(1996).The extracellular matrix in epithelialbiology:Shared molecules and common themes in distant phyla.Dev Biol.180,433-444.
McKinnell RG,Parchment RE,Perantoni A,Damj anov I,Pierce GB(2006).TheBiological Basis of Cancer.2.
Stein GS,Pardee AB  (2004).Cell cycle and Growth Control:BiomolecularRegulation and Cancer.2.
Frixen U,Behrens J,Sachs M,Elberle G,Voss B,Warda A,Lochner D,BirchmeierW (1991).E-Cadherin-mediated cell-cell adhesion prevents invasiveness of humancarcinoma cells.J Cell Biology.113,173-185.
de Visser KE,Eichten A,Coussens LM(2006).Paradoxical roles of the immunesystem during cancer development.Nat Rev Cancer.6,24-37.
Malumbres M,Barbacid M(2007).Cell cycle kinases in cancer.Curr Opin GenetDev.17,60-65.
Greenman C,Stephens P,Smith R(2009).Patterns of Somatic Mutation in HumanCancer Genomes.Nature.446,153-158.
Sawyers C(2004).Targeted cancer therapy.Nature.432,294-297.
Cui J,Chen Y,Chou J,Sun L(2009).Biomarker Identification for Gastric Cancerededs):The University of Georgia.
Shimamura T,Ito H,Shibahara J,Watanabe A,Hippo Y,Taniguchi H,Chen Y,Kashima T,Ohtomo T,Tanioka F,Iwanari H,Kodama T,Kazui T,Sugimura H,Fukayama M,Aburatani H(2005).Overexpression of MUC 13is associated withintestinal-type gastric cancer.Cancer Sci.96,265-273.
Williams SJ,Wreschner DH,Tran M,Eyre HJ,Sutherland GR,McGuckin MA(2001).Mucl3,a novel human cell surface mucin expressed by epithelial and hemopoieticcells.J Biol Chem.276,18327-18336.
N′Dow J,Pearson J,Neal D(2004).Mucus production after transposition ofintestinal segments into the urinary tract.World J Urol.22,178-185.
Gelse K,Poschl E,Aigner T(2003).Collagens-structure,function,and biosynthesis.Adv Drug DelivRev.55,1531-1546.
Schmid TM,Linsenmayer TF(1987).Type X collagen.Orlando:Academic Press.
Ferguson DA,Muenster MR,Zang Q,Spencer JA,Schageman JJ,Lian Y,Garner HR,Gaynor RB,Huff JW,Pertsemlidis A,Ashfaq R,Schorge J,Becerra C,Williams NS,Graff JM(2005).Selective identification of secreted and transmembrane breast cancermarkers using Escherichia coli ampicillin secretion trap.CancerRes.65,8209-8217.
Choi SY,Hirata K,Ishida T,Quertermous T,Cooper AD(2002).Endothelial lipase:a new lipase on the block.J Lipid Res.43,1763-1769.
Ishida T,Choi S,Kundu RK,Hirata K,Rubin EM,Cooper AD,Quertermous T(2003).Endothelial lipase is a major determinant of HDL level.J Clin Invest.111,347-355.
Jin W,Millar JS,Broedl U,Glick JM,Rader DJ(2003).Inhibition of endotheliallipase causes increased HDL cholesterol levels in vivo.J ClinInvest.111,357-362.
Ma K,Cilingiroglu M,Otvos JD,Ballantyne CM,Marian AJ,Chan L(2003).Endothelial lipase is a major genetic determinant for high-density lipoprotein concentration,structure,and metabolism.Proc Natl Acad Sci USA.100,2748-2753.
Qiu G,Ho AC,Yu W,Hill JS(2007).Suppression of endothelial or lipoproteinlipase in THP-I macrophages attenuates proinflammatory cytokine secretion.J LipidRes.48,385-394.
Griffon N,Jin W,Petty TJ,Millar J,Badellino KO,Saven JG,Marchadier DH,Kempner ES,Billheimer J,Glick JM,Rader DJ(2009).Identification of the Active Formof Endothelial Lipase,a Homodimer in a Head-to-Tail Conformation.J Biol Chem.284,23322-23330.
Chen X,Cheung ST,So S,Fan ST,Barry C,Higgins J等.Gene expression patterns inhuman liver cancers.MoI Biol Cell.2002;13(6):1929-39.PMCID:117615.
Lapointe J,Li C,Higgins JP,van de Rij n M,Bair E,Montgomery K等.Geneexpression profiling identifies clinically relevant subtypes of prostate cancer.Proc NatlAcad Sci U S A.2004;101(3):811-6.PMCID:321763.
Garber ME,Troyanskaya OG,Schluens K,Petersen S,Thaesler Z,Pacyna-Gengelbach M等.Diversity of gene expression in adenocarcinoma of the lung.Proc Natl Acad Sci U S A.2001;98(24):13784-9.PMCID:61119.
Sarwal M,Chang S,Barry C,Chen X,Alizadeh A,Salvatierra O等.Genomicanalysis of renal  allograft dysfunction using cDNA microarrays.Transplant Proc.2001;33(1-2):297-8.
Giacomini CP,Leung SY,Chen X,Yuen ST,Kim YH,Bair E等.A gene expressionsignature of genetic instability in colon cancer.Cancer Res.2005;65(20):9200-5.
Dairkee SH,Ji Y,Ben Y,Moore DH,Meng Z,Jeffrey S S.A molecular′signature′ofprimary breast cancer cultures;patterns resembling tumor tissue.BMC Genomics.2004;5(l):47.PMCID:509241.
Schaner ME,Ross DT,Ciaravino G,Sorlie T,Troyanskaya O,Diehn M等.Geneexpression patterns in ovarian carcinomas.MoI Biol Cell.2003;14(l l):4376-86.PMCID:266758.
Iacobuzio-Donahue CA,Maitra A,Olsen M,Lowe AW,van Heek NT,Rosty C等.Exploration of global gene expression patterns in pancreatic adenocarcinoma using cDNAmicroarrays.Am J Pathol.2003;162(4):1151-62.PMCID:1851213.
Bradford TJ,Tomlins SA,Wang X,Chinnaiyan AM.Molecular markers of prostatecancer.Urol Oncol.2006;24(6):538-51.
Barrett T,Suzek TO,Troup DB,Wilhite SE,Ngau WC,Ledoux P等.NCBI GEO:mining  millions  of expression profiles-database and tools.Nucleic  Acids Res.2005;33(Database issue):D562-6.PMCID:539976.
Rhodes DR,Yu J,Shanker K,Deshpande N,Varambally R,Ghosh D等.ONCOMINE:a cancer microarray database and integrated data-mining  platform.Neoplasia.2004;6(1):1-6.PMCID:1635162.
Sherlock,G.等.The Stanford Microarray Database.Nucleic Acids Res 29,152-155(2001).

Claims (38)

1.确定用于检测癌的血清蛋白标记的方法,所述方法包括:
(a)获得癌样品和参照样品;
(b)确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因;
(c)鉴定作为所述一个或多个基因的产物的一个或多个蛋白;
(d)预测所述一个或多个蛋白被分泌到生物液中的可能性;和
(e)检测据预测会分泌到所述生物液中的所述一个或多个蛋白在所述生物液中的存在,
其中所述生物液中的所述一个或多个蛋白的检测构成癌的检测。
2.如权利要求1所述的方法,其中所述癌样品或所述参照样品包含组织样品。
3.如权利要求1所述的方法,其中在所述癌样品和所述参照样品之间所述一个或多个基因的表达存在至少1.5倍的变化。
4.如权利要求1所述的方法,其中在所述癌样品和所述参照样品之间所述一个或多个基因的表达存在至少2倍的变化。
5.如权利要求1所述的方法,其中,与参照样品相比,所述一个或多个基因的表达增加。
6.如权利要求1所述的方法,其中,与参照样品相比,所述一个或多个基因的表达减少。
7.如权利要求1所述的方法,其中所述确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因的步骤包括从所述癌样品和所述参照样品分离总RNA。
8.如权利要求7所述的方法,其中所述确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因的步骤进一步包括对从所述癌样品和所述参照样品分离的RNA进行微阵列分析。
9.如权利要求1所述的方法,所述方法还包括鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征。
10.如权利要求9所述的方法,其中鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征的步骤包括鉴定在所述癌样品中相对于所述参照样品差异性表达的基因。
11.如权利要求9所述的方法,其中鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征的步骤包括鉴定在癌样品中相对于参照样品差异性表达的基因剪接变体。
12.如权利要求9所述的方法,其中鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征的步骤包括鉴定能够区分所述癌样品和所述参照样品的标记基因。
13.如权利要求9所述的方法,其中所述预测包括使用所鉴定的在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征,并且其中所述特征对应于在已知被分泌到所述生物液中的蛋白的集合中呈现的性质。
14.如权利要求13所述的方法,其中在已知被分泌到所述生物液中的蛋白的集合中存在的性质包括:一般序列特征、物化性质、结构性质、以及结构域和基序。
15.如权利要求14所述的方法,其中所述一般序列特征包括:氨基酸组成、序列长度、二肽组成、序列顺序、标准化Moreau-Broto自相关指数和Geary自相关指数。
16.如权利要求14所述的方法,其中所述物化性质包括:疏水性、标准化范德华体积、极性、极化率、电荷、二级结构、溶剂可进入性、溶解度、不可折叠性、非稳定区、全局电荷和亲水性。
17.如权利要求14所述的方法,其中所述结构性质包括:二级结构含量和形状。
18.如权利要求14所述的方法,其中所述结构域和基序包括:信号肽、跨膜域、糖基化和双-精氨酸信号肽基序(TAT)。
19.如权利要求1所述的方法,其中所述检测包括对所述生物液进行质谱分析。
20.如权利要求1所述的方法,其中所述检测包括对所述生物液进行蛋白质印迹分析。
21.如权利要求1所述的方法,其中所述检测包括对所述生物液进行MS/MS分析。
22.如权利要求1所述的方法,所述方法还包括在所述检测之前除去在所述生物液中存在的最丰富的蛋白。
23.如权利要求22所述的方法,所述方法包括使用抗体柱除去在所述生物液中存在的最丰富的蛋白。
24.如权利要求23所述的方法,所述方法还包括在除去所述生物液中存在的最丰富的蛋白之后从所述抗体柱洗脱非特异性结合的蛋白。
25.如权利要求23所述的方法,所述方法还包括从所述抗体柱洗脱特异性结合的蛋白以用于进一步分析。
26.如权利要求22所述的方法,其中所述生物液中存在的最丰富的蛋白包括白蛋白、IgG、α1-酸糖蛋白、α2-巨球蛋白、HDL(载脂蛋白A-1和A-II)和纤维蛋白原。
27.如权利要求1所述的方法,其中所述生物液是血清、唾液、血液、尿、脊髓液、精液、阴道液、羊膜液、龈沟液或眼内液中的一种或多种。
28.如权利要求1所述的方法,其中所述癌包括胃癌、胰腺癌、肺癌、卵巢癌、肝癌、结肠癌、结直肠癌、乳癌、鼻咽癌、肾癌、子宫颈癌、脑癌、膀胱癌、肾癌和前列腺癌、黑素瘤以及鳞状细胞癌。
29.如权利要求1所述的方法,其中所述蛋白为人类蛋白。
30.诊断罹患癌的患者的方法,所述方法包括:
(a)从所述患者获得生物液;和
(b)检测所述生物液中一个或多个标记蛋白的存在,
其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验证实会分泌到所述生物液中,并且其中所述生物液中的所述一个或多个标记蛋白的检测构成癌的检测。
31.诊断罹患癌的受试对象的方法,所述方法包括:
(a)从所述受试对象获得生物液;和
(b)测定所述生物液中一个或多个标记蛋白的水平,
其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验证实会分泌到所述生物液中,并且其中所述生物液中的所述一个或多个标记蛋白相对于标准水平的差异性表达指示癌。
32.如权利要求31所述的方法,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平增加。
33.如权利要求31所述的方法,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平减少。
34.如权利要求31所述的方法,其中一个或多个标记蛋白选自由MUC13、GKN2、COL10A、AZTP1、CTSB、LIPF、GIF、EL和TOP2A组成的组。
35.用于癌鉴定的标记,所述标记包含选自由MUC13、GKN2、COL10A、AZTP1、CTSB、LIPF、GIF、EL和TOP2A组成的组的一个或多个蛋白,其中获自受试对象的生物液中的所述一个或多个蛋白相对于标准水平的差异性表达指示所述受试对象中癌的出现。
36.如权利要求32所述的标记,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平增加。
37.如权利要求32所述的标记,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平减少。
38.一种用于检测受试对象中的癌的试剂盒,所述试剂盒包含:
(a)与生物液中的蛋白特异性结合的一种或多种一抗,其中所述蛋白选自由MUC13、GKN2、COL10A、AZTP1、CTSB、LIPF、GIF、EL和TOP2A组成的组;
(b)与所述一种或多种一抗特异性结合的二抗;以及可选的是,
(c)参照样品。
CN2010800113264A 2009-03-09 2010-02-19 胃癌诊断用蛋白标记的鉴定 Pending CN102348979A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US15868309P 2009-03-09 2009-03-09
US61/158,683 2009-03-09
US24134709P 2009-09-10 2009-09-10
US61/241,347 2009-09-10
PCT/US2010/024830 WO2010104662A1 (en) 2009-03-09 2010-02-19 Protein markers identification for gastric cancer diagnosis

Publications (1)

Publication Number Publication Date
CN102348979A true CN102348979A (zh) 2012-02-08

Family

ID=42728661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800113264A Pending CN102348979A (zh) 2009-03-09 2010-02-19 胃癌诊断用蛋白标记的鉴定

Country Status (4)

Country Link
US (1) US20120053080A1 (zh)
KR (1) KR20120034593A (zh)
CN (1) CN102348979A (zh)
WO (1) WO2010104662A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103525941A (zh) * 2013-10-29 2014-01-22 上海市奉贤区中心医院 Cthrc1基因在制备检测/治疗宫颈癌药物中的应用
CN105886656A (zh) * 2016-06-24 2016-08-24 河北医科大学第四医院 Gif基因在食管鳞癌诊治中的应用
CN106519007A (zh) * 2016-12-12 2017-03-22 王家祥 一种单链多肽及其在制备用于预防和治疗胃癌的药物中的应用
CN109073655A (zh) * 2016-02-04 2018-12-21 安口生物公司 鉴定和分析蛋白的氨基酸序列的方法
CN110261618A (zh) * 2019-06-14 2019-09-20 上海四核生物科技有限公司 Sprr4蛋白作为胃癌血清生物标志物的应用及其试剂盒
CN110837859A (zh) * 2019-11-01 2020-02-25 越亮传奇科技股份有限公司 一种融合多维度医疗数据的肿瘤精细分类系统及方法
CN111705120A (zh) * 2019-03-18 2020-09-25 上海市精神卫生中心(上海市心理咨询培训中心) 一种检测人类mif基因catt重复序列纯合子的试剂盒及步骤
CN111971560A (zh) * 2017-12-01 2020-11-20 康奈尔大学 用于检测和治疗癌症的纳米颗粒和不同的外泌体子集
US11285210B2 (en) 2016-02-03 2022-03-29 Outlook Therapeutics, Inc. Buffer formulations for enhanced antibody stability

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441013B1 (ko) * 2011-06-30 2014-09-18 충남대학교산학협력단 유방암 진단용 바이오마커
CN103890587A (zh) * 2011-08-31 2014-06-25 昂科赛特公司 用于治疗和诊断癌症的方法和组合物
WO2013142721A1 (en) * 2012-03-21 2013-09-26 The Regents Of The University Of Colorado, A Body Corporate Compositions and methods for preventing or treating acute kidney injury using proton pump inhibitors
US20150105289A1 (en) * 2013-10-15 2015-04-16 The Regents Of The University Of Michigan Biomarkers for lower urinary tract symptoms (luts)
GB201511546D0 (en) 2015-07-01 2015-08-12 Immatics Biotechnologies Gmbh Novel peptides and combination of peptides for use in immunotherapy against ovarian cancer and other cancers
MY191654A (en) 2015-07-01 2022-07-05 Immatics Biotechnologies Gmbh Novel peptides and combination of peptides for use in immunotherapy against ovarian cancer and other cancers
WO2018174863A1 (en) * 2017-03-21 2018-09-27 Mprobe Inc. Methods and composition for detecting early stage colon cancer with rna-seq expression profiling
CN108445097A (zh) * 2017-03-31 2018-08-24 北京谷海天目生物医学科技有限公司 弥漫型胃癌的分子分型、用于分型的蛋白标志物及其筛选方法和应用
JP2020532732A (ja) 2017-09-01 2020-11-12 ヴェン バイオサイエンシズ コーポレーション 診断および治療モニタリングのためのバイオマーカーとしての糖ペプチドの同定および使用
CN110146705B (zh) * 2019-04-28 2022-05-13 北京谷海天目生物医学科技有限公司 检测早期胃癌的试剂盒或芯片、胃癌蛋白标志物在制备试剂盒和/或芯片中的应用
CN112379097B (zh) * 2020-10-22 2022-07-26 上海良润生物医药科技有限公司 Cst1-ctsb复合物作为结肠直肠癌诊断标志物的应用
CN112415200B (zh) * 2020-12-01 2022-07-26 瑞博奥(广州)生物科技股份有限公司 一种在胃炎患者中检测胃癌自身抗体的生物标志物组合及应用
CN112597311B (zh) * 2020-12-28 2023-07-11 东方红卫星移动通信有限公司 一种基于低轨卫星通信下的终端信息分类方法及系统
CN112746107A (zh) * 2020-12-30 2021-05-04 北京泱深生物信息技术有限公司 胃癌相关生物标志物及其在诊断中的应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060211017A1 (en) * 2001-08-02 2006-09-21 Chinnaiyan Arul M Expression profile of prostate cancer
CN1852974A (zh) * 2003-06-09 2006-10-25 密歇根大学董事会 用于治疗和诊断癌症的组合物和方法
CN1908189A (zh) * 2005-08-02 2007-02-07 博奥生物有限公司 体外辅助鉴定肠型胃癌及其分化程度的方法与专用试剂盒

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2314716A1 (en) * 2002-08-20 2011-04-27 Millennium Pharmaceuticals, Inc. Compositions, kits, and methods for identification, assessment, prevention, and therapy of cervical cancer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060211017A1 (en) * 2001-08-02 2006-09-21 Chinnaiyan Arul M Expression profile of prostate cancer
CN1852974A (zh) * 2003-06-09 2006-10-25 密歇根大学董事会 用于治疗和诊断癌症的组合物和方法
CN1908189A (zh) * 2005-08-02 2007-02-07 博奥生物有限公司 体外辅助鉴定肠型胃癌及其分化程度的方法与专用试剂盒

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZIAD J. SAHAB ET AL: "Methodology and Applications of Disease Biomarker Identification in Human Serum", 《BIOMAKER INSIGHTS》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103525941A (zh) * 2013-10-29 2014-01-22 上海市奉贤区中心医院 Cthrc1基因在制备检测/治疗宫颈癌药物中的应用
US11285210B2 (en) 2016-02-03 2022-03-29 Outlook Therapeutics, Inc. Buffer formulations for enhanced antibody stability
CN109073655A (zh) * 2016-02-04 2018-12-21 安口生物公司 鉴定和分析蛋白的氨基酸序列的方法
CN105886656B (zh) * 2016-06-24 2019-11-12 河北医科大学第四医院 Gif基因在食管鳞癌诊治中的应用
CN105886656A (zh) * 2016-06-24 2016-08-24 河北医科大学第四医院 Gif基因在食管鳞癌诊治中的应用
CN106519007B (zh) * 2016-12-12 2019-07-02 王家祥 一种单链多肽及其在制备用于预防和治疗胃癌的药物中的应用
CN106519007A (zh) * 2016-12-12 2017-03-22 王家祥 一种单链多肽及其在制备用于预防和治疗胃癌的药物中的应用
CN111971560A (zh) * 2017-12-01 2020-11-20 康奈尔大学 用于检测和治疗癌症的纳米颗粒和不同的外泌体子集
CN111971560B (zh) * 2017-12-01 2024-06-11 康奈尔大学 用于检测和治疗癌症的纳米颗粒和不同的外泌体子集
CN111705120A (zh) * 2019-03-18 2020-09-25 上海市精神卫生中心(上海市心理咨询培训中心) 一种检测人类mif基因catt重复序列纯合子的试剂盒及步骤
CN110261618A (zh) * 2019-06-14 2019-09-20 上海四核生物科技有限公司 Sprr4蛋白作为胃癌血清生物标志物的应用及其试剂盒
CN110261618B (zh) * 2019-06-14 2021-08-31 上海四核生物科技有限公司 Sprr4蛋白作为胃癌血清生物标志物的应用及其试剂盒
CN110837859A (zh) * 2019-11-01 2020-02-25 越亮传奇科技股份有限公司 一种融合多维度医疗数据的肿瘤精细分类系统及方法

Also Published As

Publication number Publication date
US20120053080A1 (en) 2012-03-01
WO2010104662A1 (en) 2010-09-16
KR20120034593A (ko) 2012-04-12

Similar Documents

Publication Publication Date Title
CN102348979A (zh) 胃癌诊断用蛋白标记的鉴定
KR101857462B1 (ko) 췌장암 바이오마커 및 그것의 용도
EP3069143B1 (en) Method, array and use thereof for determining pancreatic cancer
US9689874B2 (en) Protein biomarker panels for detecting colorectal cancer and advanced adenoma
Kim et al. Gastric cancer-specific protein profile identified using endoscopic biopsy samples via MALDI mass spectrometry
KR20140040118A (ko) 췌장암의 존재를 결정하기 위한 방법, 어레이 및 그의 용도
Svedlund et al. Generation of in situ sequencing based OncoMaps to spatially resolve gene expression profiles of diagnostic and prognostic markers in breast cancer
GB2551415A (en) Protein biomarker panels for detecting colorectal cancer and advanced adenoma
EP3940086A1 (en) Kit for early screening of liver cell cancer and preparation method and use thereof
US20190056402A1 (en) Organ specific diagnostic panels and methods for identification of organ specific panel proteins
Shin et al. Integrative analysis for the discovery of lung cancer serological markers and validation by MRM-MS
Aras et al. Mitochondrial autoimmunity and MNRR1 in breast carcinogenesis
Laohaviroj et al. A comparative proteomic analysis of bile for biomarkers of cholangiocarcinoma
Wang et al. Identification of MATN3 as a novel prognostic biomarker for gastric cancer through comprehensive TCGA and GEO data mining
Wang et al. Decreased albumin-to-alkaline phosphatase ratio predicted poor survival of resectable gastric cancer patients
Lima et al. Application of proteogenomics to urine analysis towards the identification of novel biomarkers of prostate cancer: an exploratory study
KR102208140B1 (ko) 전립선암의 바이오마커 검출에서 사용하기 위한 방법 및 어레이
Loch et al. Use of high density antibody arrays to validate and discover cancer serum biomarkers
Suehara et al. Discovery of biomarkers for osteosarcoma by proteomics approaches
KR20210016362A (ko) 결장암 예측 바이오마커로서의 l1td1
Ku et al. Deciphering tissue‐based proteome signatures revealed novel subtyping and prognostic markers for thymic epithelial tumors
Deng et al. Comprehensive analysis of serum tumor markers and BRCA1/2 germline mutations in Chinese ovarian cancer patients
Ren et al. Tumor markers for early detection of ovarian cancer
Wang et al. Clinical Value of Combined Determination of Serum B7‐H4 with Carcinoembryonic Antigen, Osteopontin, or Tissue Polypeptide‐Specific Antigen for the Diagnosis of Colorectal Cancer
Karley et al. Biomarkers: The future of medical science to detect cancer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120208