本申请要求于2018年7月23日提交的题为“游离DNA损伤分析及其临床应用(CELL-FREE DNA DAMAGE ANALYSIS AND ITS CLINICAL APPLICATIONS)”的美国临时申请第62/702,080号;以及于2018年12月26日提交的题为“游离DNA损伤分析及其临床应用”的美国临时申请第62/785,118号的优先权,且作为专利合作条约(PCT)进行申请,出于所有目的所述美国专利申请的公开内容以其全文引用的方式并入本文中。
附图说明
图1示出了根据本发明的实施例的使用锯齿状末端值来分析生物样品的方法。
图2示出了根据本发明的实施例的用于评估5'突出端的程度的一个实例。
图3展示了根据本发明的实施例的在定位到人类参考基因组之后沿着DNA分子的甲基化水平的计算。
图4示出了根据本发明的实施例的分析从个体获得的生物样品以使用甲基化水平计算锯齿状末端值的方法。
图5A-5B示出了根据本发明的实施例的超声处理的肝组织DNA(A)、孕妇的血浆DNA(B)中的突出端指数的代表性绘图。
图6示出了根据本发明的实施例的超声处理的组织DNA与游离DNA样品之间的突出端指数的差异。
图7A-7C示出了根据本发明的实施例的不同妊娠期的孕妇血浆中胎儿与母体DNA分子之间的突出端指数的差异。
图8示出了根据本发明的实施例的胎儿DNA分子的突出端指数与胎儿DNA浓度呈正相关。
图9示出了根据本发明的实施例的来自孕妇的血浆DNA分子在不同尺寸范围的突出端指数。
图10示出了根据本发明的实施例的某一特定尺寸范围内的不同妊娠期母体和胎儿DNA的突出端指数与两个不同尺寸范围突出端指数比率的一个实例。
图11示出了根据本发明的实施例的与胎儿DNA浓度相关的总体突出端指数比率。另外,与超声处理的组织DNA相比,血浆DNA跨不同尺寸表现出不同的突出端指数谱式特征(图12)。
图12示出了根据本发明的实施例的血浆DNA分子与超声处理的DNA之间跨不同尺寸范围的突出端指数的比较。
图13示出了根据本发明的实施例的不同妊娠期的胎儿DNA与母体DNA之间的锯齿状指数的相关性。
图14示出了根据本发明的实施例的胎儿DNA浓度与锯齿状末端指数比率之间的相关性。
图15示出了根据本发明的实施例的在末端修复中使用甲基化胞嘧啶的方法。
图16示出了根据本发明的实施例的使用甲基化胞嘧啶来测定锯齿状末端的长度。
图17是根据本发明的实施例的使用甲基化胞嘧啶进行末端修复分析的DNA样品的表。
图18示出了根据本发明的实施例的使用两个具有已知长度锯齿状末端的合成双链DNA片段作为内部对照。
图19A和19B示出了根据本发明的实施例的具有已知序列的已知锯齿状末端的两个作为内部对照的序列的测序结果。
图20示出了根据本发明的实施例的孕妇血浆DNA中甲基化胞嘧啶在CH或CG位点所占比例的代表性绘图。
图21是根据本发明的实施例的比较使用甲基化胞嘧啶(mC)与未甲基化胞嘧啶(C)进行末端修复的方法之间的提供有用信息能力的表。
图22示出了根据本发明的实施例的通过“CC标签”推导出的锯齿状末端长度的分布。
图23A、23B和24示出了根据本发明的实施例的在不同尺寸范围游离DNA片段的锯齿状末端的概况。
图25示出了根据本发明的实施例的不同孕妇的测序信息和其胎儿DNA浓度的表。
图26示出了根据本发明的实施例的一位孕妇血浆DNA中CH位点处甲基化胞嘧啶比例的代表性绘图。
图27A、27B、28A和28B示出了根据本发明的实施例的胎儿特异性DNA分子和共享DNA分子在不同尺寸范围的锯齿状末端的概况。
图29A和29B示出了根据本发明的实施例的长度在140-150bp内的分子的锯齿状末端长度分布。
图30A、30B和31示出了根据本发明的实施例的长度为140bp、166bp和200bp分子的锯齿状末端长度相对于胎儿DNA浓度的变化。
图32示出了根据本发明的实施例的具有不同长度锯齿状末端的分子的尺寸分布。
图33示出了根据本发明的实施例的计算具有CC标签的锯齿状末端值的方法。
图34示出了根据本发明的实施例的利用DNA片段末端连接测定血浆DNA突出端的方法。
图35示出了根据本发明的实施例的使用基因组常见序列进行的DNA片段末端连接测定血浆DNA突出端。
图36示出了根据本发明的实施例的母体血浆DNA中的突出端长度的频率分布图。
图37示出了根据本发明的实施例的突出端长度频率在比对到全基因组序列与在人类基因组中常见序列的邻近序列之间的的相关性。
图38示出了根据本发明的实施例的使用识别分子分析从个体获得的生物样品以测定锯齿状末端的长度的方法。
图39示出了根据本发明的实施例的特定突出端长度的相对丰度可以从亚硫酸氢盐测序结果推断。
图40示出了根据本发明的实施例的特定突出端长度的相对丰度可以从亚硫酸氢盐测序结果推断。x轴是所研究的突出端长度。y轴是两个邻近测序循环之间相对甲基化的减少。
图41示出了根据本发明的实施例的基于连接的方法和基于亚硫酸氢盐测序的方法之间的比较。
图42示出了根据本发明的实施例的使用亚硫酸氢盐测序分析从个体获得的生物样品以测定锯齿状末端的长度和量的方法。
图43示出了根据本发明的实施例的能够与设计的寡核苷酸连接的片段的尺寸分布。
图44示出了根据本发明的实施例的突出端长度与片段尺寸之间的关系。
图45示出了根据本发明的实施例的癌症与非癌症受试者之间的血浆DNA的突出端指数的差异。
图46示出了根据本发明的实施例的不同临床病状的锯齿状指数比率。
图47示出了根据本发明的实施例的锯齿状指数比率和高甲基化的受试者工作特征曲线(receiver operating characteristic)(ROC)分析。
图48示出了根据本发明的实施例的不同临床病状的锯齿状指数比率。
图49示出了根据本发明的实施例的使用高甲基化和锯齿状指数比率结合的方法对临床病状的分析。
图50示出了根据本发明的实施例的健康受试者、非活跃期全身性红斑狼疮(SLE)与活跃期SLE受试者之间的血浆DNA的突出端指数的差异。
图51示出了根据本发明的实施例的对于健康对照和HCC患者在不同尺寸范围的突出端指数。
图52A示出了根据本发明的实施例的在健康对照与HCC患者之间不同尺寸范围的突出端指数的受试者工作特征曲线(ROC)分析的曲线下值。AUC:受试者工作特征曲线下的面积。
图52B示出了根据本发明的实施例在不进行任何尺寸选择的情况下癌症与非癌症受试者之间的血浆DNA的突出端指数的差异。
图53示出了根据本发明的实施例的不同尺寸范围的锯齿状指数的热图。
图54示出了根据本发明的实施例的针对健康受试者、非活跃期全身性红斑狼疮与活跃期SLE受试者不同尺寸范围的突出端指数。
图55示出了根据本发明的实施例的在健康/非活跃期SLE受试者与活跃期SLE患者之间在不同尺寸范围的突出端指数的受试者工作特征曲线(ROC)分析的曲线下值。AUC:受试者工作特征曲线下面积。
图56示出了根据本发明的实施例的HCC患者的术前与术后血浆DNA之间的突出端指数的圆环图(circos plot)。染色体模式图(图的外环)以顺时针方向由短臂(pter)指向长臂(qter)。在内环中显示术前血浆DNA(红色矩形)和术后血浆DNA(蓝色三角形)的突出端指数的每个1-Mb组距(bin)的突出端。突出端指数的范围为0%(最内侧)到16%(最外侧),并且两条线之间的距离为2%。每个斑点表示1-Mb基因组区域。
图57示出了根据本发明的实施例的在TSS周围不均匀分布的突出端指数。TSS:转录起始位点。
图58A示出了根据本发明的实施例的在健康受试者中不同组织特异性开放染色质区域的突出端指数:跨不同组织的开放染色质区域与非开放染色质区域之间的突出端指数。
图58B示出了根据本发明的实施例的在HCC受试者中不同组织特异性开放染色质区域的突出端指数:跨不同组织的开放染色质区域与非开放染色质区域之间的突出端指数。
图58C示出了根据本发明的实施例的在健康受试者和HCC受试者中不同组织特异性开放染色质区域的突出端指数:跨不同组织的开放染色质区域与非开放染色质区域之间的突出端指数的差异。
图58D示出了根据本发明的实施例的跨不同组织特异性开放染色质区域的突出端指数:跨不同组织的开放染色质区域与非开放染色质区域之间的突出端指数差异的统计学显著性(曼-惠特尼(Mann-Whitney)测试)。
图59示出了根据本发明的实施例的使用锯齿状末端值分析生物样品以测定组织类型是否表现出癌症的方法。
图60示出了根据本发明的实施例的通过环化血浆DNA从而直接评估血浆DNA粘性末端/突出端的技术。
图61示出了根据本发明的实施例的使用限制酶环化血浆DNA从而直接评估血浆DNA锯齿状末端的技术。
图62示出了根据本发明的实施例的用于使用聚合酶结合位点环化血浆DNA从而直接评估血浆DNA锯齿状末端的技术。
图63示出了根据本发明的实施例的通过环化血浆DNA而无需随机标记扩增直接评估血浆DNA粘性末端/突出端。
图64示出了根据本发明的实施例的使用环化双链核酸分子分析生物样品以测定其是否存在锯齿状末端的方法。
图65示出了根据本发明的实施例的使用核苷酸类似物分析生物样品以测定其是否存在锯齿状末端的方法。
图66示出了根据本发明的实施例的使用基于肌苷的测序评估锯齿状末端。
图67示出了根据本发明的实施例的用于测量双链核酸分子的锯齿状末端的方法。
图68示出了根据本发明的实施例的基于突出端指数的年龄预测。
图69展示了根据本发明的实施例的测量系统。
图70示出了根据本发明的实施例的可与系统和方法一起使用的示例计算机系统的框图。
术语
“组织”与集合在一起作为功能单元的一组细胞相对应。可以在单一组织中发现多于一种类型的细胞。不同类型的组织可以由不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞)组成,但也可以与来自不同生物体(母亲相对于胎儿)的组织相对应或与健康细胞相对于肿瘤细胞相对应。“参考组织”可以与用于测定组织特异性甲基化水平的组织相对应。可以使用来自不同个体的同一组织类型的多个样品来测定所述组织类型的组织特异性甲基化水平。
“生物样品”是指取自受试者(例如,人类,如孕妇、患有癌症的个人或疑似患有癌症的个人、器官移植接受者或疑似患有涉及器官的疾病过程(例如,心肌梗塞的心脏、中风的脑或贫血的造血系统)的受试者)且含有一个或多个感兴趣的核酸分子的任何样品。生物样品可以是体液,如血液、血浆、血清、尿液、阴道液、水囊肿(例如,睾丸)液、阴道冲洗液、胸膜液、腹水液、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如,甲状腺、乳房)的抽吸液等。也可以使用粪便样品。在各个实施例中,已经富集了游离DNA的生物样品(例如,通过离心方案获得的血浆样品)中的大多数DNA可以是游离的,例如大于50%、60%、70%、80%、90%、95%或99%的DNA可以是游离的。离心方案可以包含例如,3,000g×10分钟获得流体部分,并且在例如30,000g下再离心另外10分钟以除去残留的细胞。
“序列读数”是指从核酸分子的任何部分或全部测序的一串核苷酸。例如,序列读数可以是从核酸片段测序的短核苷酸串(例如,20-150个)、在核酸片段的一个或两个末端处的短核苷酸串或生物样品中存在的整个核酸片段的测序。序列读数可以通过多种方式获得,例如使用测序技术或使用探针,例如通过杂交阵列或捕获探针或扩增技术,如聚合酶链反应(PCR)或使用单一引物的线性扩增或等温扩增。
“片段结束位点”或“末端定位”(或仅是“末端”)可以指基因组坐标或基因组同一性或例如血浆DNA分子等游离DNA分子的最外碱基,即末端的核苷酸同一性。末端定位可以与DNA分子的任一末端相对应。以此方式,如果一端是指DNA分子的起点和末端,则两端均可以与片段结束位点相对应。在实践中,一个末端定位是通过分析方法检测或测定的游离DNA分子的一个末端上的最外碱基的基因组坐标或核苷酸同一性,所述分析方法是如但不限于大规模平行测序或下一代测序、单分子测序、双链或单链DNA测序文库制备方案、聚合酶链反应(PCR)或微阵列。
“校准数据点”包含“校准值”和样品或受试者的测得或已知性质,例如年龄或组织特异性浓度(例如,胎儿或肿瘤)。校准值可以是如对于性质已知的校准样品所测定的相对丰度。校准数据点可以包含校准值(例如,锯齿状末端值,也被称为突出端指数)和已知(测得)性质。校准数据点可以以各种方式定义,例如作为离散点或作为校准函数(也被称为校准曲线或校准表面)。可以从校准数据点的另外数学变换导出校准函数。校准功能可以是线性的或非线性的。
“位点”(也被称为“基因组位点”)与单个位点相对应,所述单个位点可以是单个碱基定位或一组相关的碱基定位(例如,CpG位点)或较大的一组相关的碱基定位。“基因座”可以与包含多个位点的区域相对应。基因座可以包含仅一个位点,这将使得所述基因座在此背景中等同于位点。
每个基因组位点(例如,CpG位点)的“甲基化指数”或“甲基化状态”可以指在所述位点处显示出甲基化的DNA片段(例如,如根据序列读数或探针所测定的)占覆盖所述位点的读数总数的比例。“读数”可以与从DNA片段获得的信息(例如,位点处的甲基化状态)相对应。可以使用优先与特定甲基化状态的DNA片段杂交的试剂(例如,引物或探针)来获得读数。通常,在用根据其甲基化状态来差异性地修饰或差异性地识别DNA分子的方法(例如,亚硫酸氢盐转化、或甲基化敏感性限制酶、或甲基化结合蛋白、或抗甲基胞嘧啶抗体、或识别甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术)处理之后应用此类试剂。
区域的“甲基化密度”可以指区域内显示甲基化的位点处的读数数除以覆盖所述区域中的所述位点的读数总数。位点可以具有具体的特性,例如,是CpG位点。因此,区域的“CpG甲基化密度”可以指显示CpG甲基化的读数数除以覆盖所述区域中的CpG位点(例如,特定CpG位点、CpG岛内或更大区域内的CpG位点)的读数总数。例如,人类基因组中每个100-kb组距的甲基化密度可以利用亚硫酸氢盐处理之后的CpG位点处未转化的胞嘧啶(其与甲基化胞嘧啶相对应)总数占定位到100-kb区域的序列读数所覆盖的所有CpG位点的比例来测定。这种分析也可以针对其它组距尺寸,例如500bp、5kb、10kb、50-kb或1-Mb等进行。区域可以是整个基因组或染色体或染色体的一部分(例如,染色体臂)。当区域仅包含CpG位点时,所述CpG位点的甲基化指数与所述区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以指区域中在所分析的胞嘧啶残基(即,包含CpG背景外的胞嘧啶)的总数内显示被甲基化(例如,在亚硫酸氢盐转化之后未转化)的胞嘧啶位点“C's”的数量。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实例。除了亚硫酸氢盐转化之外,本领域的技术人员已知的其它方法也可以用于研究DNA分子的甲基化状态,包含但不限于对甲基化状态敏感的酶(例如,甲基化敏感性限制酶)、甲基化结合蛋白、使用对甲基化状态敏感的平台进行单分子测序(例如,纳米孔测序(Schreiber等人,《美国国家科学院院刊》2013;110:18910-18915)以及太平洋生物科学公司(Pacific Biosciences)的单分子实时分析(Flusberg等人,《自然方法(Nat Methods)》2010;7:461-465))。
术语“测序深度”是指基因座被与所述基因座比对的序列读数所覆盖的次数。基因座可以与核苷酸一样小、或者与染色体臂一样大、或者与整个基因组一样大。测序深度可以表示为50x、100x等,其中“x”是指基因座被序列读数覆盖的次数。测序深度也可以应用于多个基因座或整个基因组,在此情况下,x可以分别指对基因座或单倍体基因组或整个基因组进行测序的平均次数。超深测序可以指测序深度为至少100x。
“分离值”涉及两个值(例如,两个分数贡献或两个甲基化水平)的差或比率相。分离值可以是简单的差或比率。作为实例,x/y以及x/(x+y)的直接比率是分离值。分离值可以包含其它因子,例如,乘法因子。作为其它实例,可以使用值的函数的差或比率,例如两个值的自然对数(ln)的差或比率。分离值可以包含差和比率。
如本文所使用的术语“分类”是指与样品的特定性质相关的任何一个或多个数字或其它一个或多个字符。例如,符号“+”(或词语“正”)可以表示样品被分类为具有缺失或扩增。分类可以是二进制的(例如,正或负)或具有更多的分类等级(例如,1到10或0到1的标度)。术语“截止值”和“阈值”是指在操作中使用的预定数量。例如,截止尺寸可以指高于其则排除该片段的尺寸。阈值可以是高于或低于特定分类适用的值。这些术语中的任一个都可以在这些背景中的任一个背景下使用。
当描述DNA分子时,术语“损伤”可以指DNA切口、存在于双链DNA中的单链、双链DNA的突出端、用氧化鸟嘌呤的氧化DNA修饰、脱碱基位点、胸苷二聚体、氧化嘧啶、封闭的3'末端或锯齿状末端。
术语“锯齿状末端”可以指DNA的粘性末端、DNA的突出端或其中双链DNA包含未与DNA的另一条链杂交的DNA的一条链。“锯齿状末端值”是锯齿状末端的范围的量度。锯齿状末端值可能与双链DNA中一条链的突出于第二条链的平均长度成比例。多个DNA分子的锯齿状末端值可以包含考虑DNA分子中的平端。
具体实施方式
此处,发明了用于评估游离DNA损伤程度的新方法。受损的游离DNA分子可以表现为但不限于链DNA切口内、双链DNA的突出端、氧化鸟嘌呤的氧化DNA损伤、脱碱基位点、胸苷二聚体、氧化嘧啶或封闭的3'末端等。在患肿瘤小鼠研究中指出,肿瘤的存在可以在体内诱导慢性炎症应答,从而导致增加的包含双链断裂(DSB)的DNA损伤的全身性水平和氧化诱导的非DSB集簇性DNA损伤(Redon CE等人,《美国国家科学院院刊》2010;107:17992-7)。然而,对血浆DNA中DNA损伤的评估及其临床效用不明显。
假设的是,之前未得到重视的游离DNA的DNA损伤可能具有许多临床应用。首先,游离DNA损伤的程度可以反映游离DNA样品的质量,无论是新近收集的还是已存档的样品,样品是否已经储存并且处理良好,样品是否已经经受重复的冷冻和解冻。第二,游离DNA损伤在某些病理学中,如与炎症(例如,由某些药物的摄入引起的氧化应激)、免疫攻击和自身免疫(如全身性红斑狼疮)相关的那些病理学中可能会增加。第三,游离DNA损伤的程度在源自不同组织或器官来源的游离DNA分子之间可能不同。换言之,游离DNA损伤可以与组织来源相关并且反映肿瘤来源的同一性。另外,游离DNA损伤的程度在母体血浆中胎儿与母体DNA之间可能不同,并且提供用于区分循环母体游离DNA与循环胎儿游离DNA的方式或提供用于富集或分选循环游离胎儿DNA的方式。
已知游离DNA在体内是天然片段化的。因此,游离DNA分子在生物流体中作为短片段存在,所述生物流体如血浆、血清、尿液、唾液、胸膜液、脑脊髓液、腹膜液、滑液等。器官或组织内的病理学可以导致不同程度或形式的片段化或对游离DNA的损伤。另外,病理学、过程或条件(例如,氧化药物或化学品的摄入)可以在细胞释放之后对生物流体内的游离DNA分子的分子形式造成另外的损伤或改变。体外过程(例如,重复的冷冻和解冻、暴露于极端温度)可能诱导对含有游离核酸的生物流体样品或样本中的游离DNA分子的另外的损伤。
引起特定器官或组织中的细胞死亡的不同致病原因可能导致存在于游离DNA分子中的DNA损伤的表现状态的改变。例如,双链DNA的突出端将具有与组织来源的关系。因此,用于分析游离DNA损伤的本发明的实施例将提供用于检测或监测(但不限于)癌症检测、器官损伤、免疫疾病以及进行非侵入性产前测试等的新可能性。另外,提供了用于进行DNA损伤(例如,被称为锯齿状末端)测量的新技术。
I.检查游离DNA分子的突出端
游离DNA末端将根据末端的模态被分类成两种形式。一种形式的游离DNA将是以平端存在于血液循环中,而另一种形式将携带粘性末端。粘性末端是指具有至少一个最外侧核苷酸未与另一条链杂交的的双链DNA的末端。粘性末端也被称为突出端或锯齿状末端。不受任何特定理论的束缚,认为锯齿状末端可能与游离DNA片段化的方式有关。例如,DNA可以分阶段地进行片段化,并且锯齿状末端的尺寸可以反映片段化的阶段。锯齿状末端的数量和/或锯齿状末端中的突出端的尺寸可以用于分析具有游离DNA的生物样品并且提供关于样品和/或从其获得样品的个体的信息。
图1示出了使用锯齿状末端值来分析生物样品的方法100。生物样品可以从个体中获得。生物样品可以包含游离的多个核酸分子。所述多个核酸分子中的每个核酸分子可以是双链的,所述双链具有第一链和第二链,所述第一链具有第一部分,其中所述多个核酸分子中的至少一些核酸分子的所述第一链的所述第一部分不具有与所述第二链的互补部分、不与所述第二链杂交并且位于所述第一链的第一末端处。第一末端可以是3'末端或5'末端。
在框102处,方法100可以包含测量第一链和/或第二链的性质,所述性质与突出于第二链的第一链的长度成比例。可以测量多个核酸中的每个核酸的性质。性质可以通过本文所述的任何技术来测量。
性质可以是在所述多个核酸分子中的每一个的第一链和/或第二链的末端部分处的一个或多个位点处的甲基化状态。锯齿状末端值可以包含在第一链和/或第二链的末端部分的一个或多个位点处的所述多个核酸分子上的甲基化水平。
在一些实施例中,方法100可以包含测量核酸分子的尺寸。所述多个核酸分子的尺寸可以处于指定范围内。指定范围可以为140到160bp、小于生物样品中存在的尺寸的整个范围的任何范围或本文所述的任何范围。尺寸范围可以基于较短链或较长链的尺寸。尺寸范围可以基于末端修复之后分子的最外侧核苷酸。如果5'末端突出,则”由聚合酶介导的5’到3’的延伸将会发生,并且尺寸可以是较长链。如果3'末端突出,在没有具有3'到5'合成功能的DNA聚合酶的情况下,3'突出的单链可以被修整,尺寸可以是较短链。
在实施例中,方法100可以包含分析核酸分子以产生读数。可以将读数与参考基因组进行比对。所述多个核酸分子可以在相对于转录起始位点的一定距离范围内读取。
在框104处,可以使用所述多个核酸分子所测得的性质来测定锯齿状末端值。
如果第一组多个核酸分子处于指定尺寸范围内,则方法可以包含测量第二组多个核酸分子中的每个核酸分子的性质。所述第二组多个核酸分子的尺寸可以处于第二组指定尺寸范围内。测定锯齿状末端值可以包含使用所述第一组多个核酸分子的所测量性质和所述第二组多个核酸分子的所测量性质来计算比率。锯齿状末端值可以包含本文所述的锯齿状末端比率或突出端指数比率。
在框106处,可以将锯齿状末端值与参考值进行比较。参考值或这项比较可以使用具有训练数据集的机器学习来测定。
所述比较可以用于测定关于生物样品或个体的不同信息。在实施例中,所述比较可以包含框108、110或112中的至少一个。
在框108处,可以基于所述比较测定个体的病状水平。病状可以包含疾病、病症或怀孕。病状可以是癌症、自身免疫性疾病、怀孕相关病状或本文所述的任何病状。作为实例,癌症可以包含肝细胞癌(HCC)、结肠直肠癌(CRC)、白血病、肺癌或咽喉癌。自身免疫性疾病可以包含全身性红斑狼疮(SLE)。以下各种数据提供了用于测定病状水平的实例。
当实施框108时,参考值可以使用患有病状的受试者的一个或多个参考样品来测定。作为另一个实例,所述参考值是使用未患有病状的受试者的一个或多个参考样品测定的。多个参考值可以从参考样品中测定,其中不同的参考值可潜在地区分不同的病状水平。
在一些实施例中,与参考的比较可以涉及机器学习模型,例如使用监督学习来训练。从其获得训练样品的训练受试者的锯齿状末端值(和其它潜在的标准,如拷贝数、DNA片段的尺寸和甲基化水平)和已知条件可以形成训练数据集。可以基于训练集优化机器学习模型的参数,以在对病状水平进行分类时提供优化的准确性。示例机器学习模型包含神经网络、决策树、聚类和支援向量网路。
在框110处,可以基于所述比较测定生物样品中的临床相关DNA的浓度。临床相关DNA可以包含胎儿DNA、肿瘤源性DNA或移植DNA。参考值可以使用来自具有临床相关DNA的已知浓度的一个或多个参考受试者的核酸分子来获得。用于测定临床相关DNA的浓度的方法可以包含在测量第一链和/或第二链的性质之前通过方案处理所述多个核酸分子。来自一个或多个参考受试者的核酸分子可以通过与具有所测量性质的所述多个核酸分子相同的方案进行处理。
如下所述,校准数据点可以包含临床相关DNA的测得锯齿状末端值和测得/已知浓度,例如,如针对图8、11、14、27A、30A、30B和31所述这些图示出了校准数据点,所述校准数据点的校准值可以用作参考值以测定新样品的浓度。通过另一种技术(例如,使用组织特异性等位基因)测量其浓度的任何样品的所测得锯齿状末端值可以与参考值相对应。作为另一实例,校准曲线(函数)可以拟合到校准数据点,并且参考值可以与校准曲线上的点相对应。因此,新样品的所测得锯齿状末端值可以输入到校准函数中,所述校准函数可以输出临床相关DNA的浓度。
作为实例,临床相关DNA的浓度可以通过多种方法测定,例如但不限于测定样品中的组织特异性(例如,胎儿、肿瘤或移植物)等位基因、对怀孕状态下所包含的男性染色体Y上的靶标的定量以及对组织特异性甲基化标记的分析。使用此信息,可以基于校准曲线(例如,图8中的曲线802)测定所测试DNA样品(例如,血浆或血清)中的临床相关DNA浓度。
在框112处,可以基于所述比较测定个体的年龄。图68示出了这样一个实例,其中校准曲线6802可以用于使用锯齿状末端值来测定个体的年龄(例如,遗传年龄)。
下文更详细地描述了与框108、110和112有关的方法。
II.在用未甲基化胞嘧啶修复之后使用甲基化状态测量锯齿状末端
在常规文库制备方案中,通常在双链DNA片段与通用接头连接之前进行双链DNA片段的末端修复。这种末端修复将使用DNA聚合酶填充粘性末端以形成平末端。可以用腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和未甲基化胞嘧啶(C)进行这种末端修复。因此,在传统的文库制备方案中,突出端信息无法从最终测序结果反映和追踪。在末端修复后用于形成平末端的步骤所导致的甲基化的缺乏可以用于测量锯齿状末端。
A.测定甲基化水平和锯齿状末端值
在本专利申请中,一个实施例包含使用亚硫酸氢钠来处理经过末端修复的DNA分子,并且新填充的未甲基化C将被转化为通过PCR扩增为T的尿嘧啶(U),而驻留在分子内的原始甲基化的C保持未修饰。因此,在测序之后,由于亚硫酸氢钠转化的单链DNA不能与其互补链配对,并且以此方式产生的亚硫酸氢盐测序文库是链特异性的(即,沃森链和克里克链(Watson and Crick strand)),所以与接近同一条链的5'末端的邻近核苷酸(5'末端邻近核苷酸)相比,靠近一条链DNA分子的3'末端的邻近核苷酸(3'末端邻近核苷酸)将产生低甲基化水平,这是因为在接近末端的空位中填充未甲基化C。接近末端的邻近核苷酸将由与其所述末端具有相对距离的那些核苷酸来定义,所述相对距离为但不限于1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、50个碱基或由这些数量的碱基中的任何两个限定的任何范围。用于计算DNA分子中的突出端程度的一个实施例是测定5'末端邻近核苷酸与3'末端邻近核苷酸之间的甲基化水平的差,并且这种差可以是比率或减法。
图2展示了显示如何可以推断出游离DNA分子的突出端程度(即,突出端指数)的一个实例。图表210、220、230:有填充的圆圈(lollipop)表示甲基化CpG位点,并且未填充的圆圈表示未甲基化CpG位点。图表220和230:虚线表示新填充的核苷酸。图表230:红色箭头是测序结果中的第一次读数(读数1),并且青色箭头表示第二次读数(读数2)。图240:读数1和读数2中5'到3'的甲基化水平的图。计算式250:R1:读数1的甲基化水平。R2:读数2的甲基化水平。
在将来自沃森和克里克链的所有DNA分子定位到人类参考基因组之后,根据相对定位和方向分别将其堆叠(图3)。根据如图3所示的比对结果中相对于5'末端的定位,使用堆叠的分子来计算总体突出端指数。
图3是在定位到人类参考基因组之后,沿着DNA分子的甲基化水平的计算的说明。通过C的数量与C和T的总数的比率,对在相对于最近末端(即,读数1的5'末端)的特定定位i处的甲基化水平进行定量。第一读数(具有5'末端,即读数1)的平均甲基化水平将比第二读数(具有3'末端,即读数2)更高,因为第二读数中的3'空位将由将在亚硫酸氢盐测序结果中转化为T的未甲基化C填充。
图4示出了分析从个体获得的生物样品的方法400。生物样品可以包含多个核酸分子。所述多个核酸分子可以是游离的。所述多个核酸分子中的每个核酸分子可以是双链的,所述双链具有第一链和第二链,所述第一链具有第一部分,其中所述多个核酸分子中的至少一些核酸分子的所述第一链的所述第一部分不具有与所述第二链的互补部分、不与所述第二链杂交并且位于所述第一链的第一末端处。
在框402处,包含一个或多个核苷酸的第一化合物可以与所述多个核酸分子中的每个核酸分子的第一链的该局部杂交。第一化合物可以连接到第二链的第一末端,以形成具有包含第一化合物的该局部末端的延长的第二链。第一化合物可以包含未接触第二链的第一末端。所述一个或多个核苷酸可以是未甲基化的。在其它实施方案中,某些核苷酸(例如,胞嘧啶)是全部甲基化的,而其它核苷酸不是甲基化的。第一化合物可以一次一个核苷酸地与第一部分杂交。
在框404处,对于所述多个核酸分子中的每个核酸分子,第一链可以与被延长的第二链分离。
在框406处,可以测定所述多个核酸分子中的每个核酸分子的被延长的第二链中的一个或多个第一位点中的每一个的甲基化状态。所述一个或多个第一位点可以位于延长的第二链的第一末端处。
在框408,可以随机地测定所述多个核酸分子中的每个核酸分子中延长的第二链中的一个或多个第二位点中的每一个的甲基化状态。所述一个或多个第二位点可以位于延长的第二链的第二末端处。所述一个或多个第二位点可以包含在延长的第二链的第二末端处的最外侧30个位点。在一些实例中,可以不需要测定第二位点的甲基化状态,并且可以替代地假定为平均甲基化状态。平均甲基化状态可以从基因组特定区域中甲基化CpG位点的已知水平得知。在一些情况下,平均甲基化状态可以根据从其获得生物样品的同一个体和/或其它个体的参考样品来测定。
在框410,使用所述一个或多个第一位点处的多个延长的第二链的第一甲基化状态计算第一甲基化水平。第一甲基化水平可以是第一甲基化状态的平均值或中位值。
在框412处,可以任选地使用所述一个或多个第二位点处的多个延长的第二链的第二甲基化状态计算第二甲基化水平。第二甲基化水平可以是第二甲基化状态的平均值或中位值。在一些实施例中,第二甲基化水平可以假定为平均甲基化水平。平均甲基化水平可以基于基因组特定区域中甲基化CpG位点的已知水平。在一些情况下,平均甲基化水平可以根据从其获得生物样品的同一个体和/或其它个体的参考样品来测定。例如,第二甲基化水平可以假定为70%到80%的值。
在框414处,可以使用第一甲基化水平和第二甲基化水平计算锯齿状末端值。第一甲基化水平与第二甲基化水平之间的差可以与突出于第二链的第一链的平均长度成比例。计算锯齿状末端值可以通过计算第一甲基化水平与第二甲基化水平之间的差并且将所述差除以第一甲基化水平进行(例如,图3中的总体突出端指数)。
在框414中计算的锯齿状末端值可以用于关于图1描述的任何方法中。
B.胎儿和母体DNA的锯齿状末端差异
实验显示,所测得锯齿状末端值在胎儿DNA与母体DNA之间不同。因此,可以使用锯齿状末端值来测定胎儿DNA浓度和怀孕阶段。锯齿状末端值可以通过甲基化水平的分析或通过本文所述的任何技术来测定。另外,锯齿状末端值可以用于测定其它临床相关DNA(如癌症/肿瘤DNA或移植DNA)的浓度。
C.超声处理的组织DNA与游离DNA片段之间的差异突出端指数
首先,使用大量成对末端亚硫酸氢盐测序(75bp x 2)分析来自健康受试者的8个超声处理的组织DNA样品和47个游离DNA样品。对于每个样品(范围:120万-2.618亿),实现了中位值为1.329亿的成对末端读数。在图5A和5B中,游离DNA结果证明具有较长的3'空位,这由以下事实指示:甲基化水平的下降开始于120bp(距3'末端30bp),而超声处理的DNA显示甲基化水平的下降开始于145bp(距3'末端仅5bp)。
图6示出了超声处理的组织DNA与游离DNA样品之间的突出端指数的差异的箱形图。游离DNA样品的突出端指数显著高于超声处理的DNA样品的突出端指数(P值<0.0001,曼-惠特尼测试),这表明新方法可以通过对突出端指数进行定量来区分DNA的切割方式。
D.胎儿与母体DNA分子之间的差异突出端指数
为了分别评估胎儿与母体DNA分子之间的突出端指数的差异,使用微阵列平台(Human Omni2.5,依诺米那公司(Illumina))对母体白细胞层和胎儿样品进行基因型分型。从妊娠早期(12-14周)、妊娠中期妊娠期(20-23周)和妊娠晚期妊娠期(38-40周)的每一个中,从10名孕妇获得外周血样品,并且收获每种情况下的血浆和母体白细胞层样品。还通过绒毛膜绒毛取样、羊膜穿刺术或胎盘取样获得胎儿样品。存在中位值为195,331的包含信息的单核苷酸多态性基因座(范围:146,428-202,800),对于所述基因座母亲是纯合的并且胎儿是杂合的。存在中位值为190,706的包含信息的单核苷酸多态性基因座(范围:150,168-193,406),对于所述基因座母亲是杂合的并且胎儿是纯合的。携带胎儿特异性等位基因的血浆DNA分子被标识为源自胎儿。携带母体特异性等位基因的血浆DNA分子被标识为源自胎儿。在那些样品中的中位值胎儿DNA浓度是17.1%(范围:7.0%-46.8%)。对于每种情况,获得中位值为1.03亿(范围:5200万-1.86亿)的定位成对末端读数。对92%的全基因组CpG进行测序。
将来自沃森链的所有胎儿DNA分子堆叠并且用于计算总体突出端指数,如图3中所示。读数1和读数2的相对定位处的平均甲基化水平可以通过在所述特定定位处测序的C的数量与C和T的总数的比率来推导。读数1与读数2之间的平均甲基化水平的差异(图3)可以用于指示样品中的总体突出端指数,因为末端修复将仅在读数2中进行。类似地,将来自沃森链的所有母体DNA分子堆叠并且用于根据测序循环计算母体总体突出端指数。如图7A-7C所示,胎儿DNA的突出端指数分别显著低于妊娠早期(P值=0.005,曼-惠特尼测试)(7A)、妊娠中期(P值=0.005,曼-惠特尼测试)(7B)和妊娠晚期(P值=0.02,曼-惠特尼测试)(7C)的怀孕受试者的孕妇血浆中的母体DNA的突出端指数。此外,发现胎儿DNA分子的突出端指数与胎儿DNA浓度相关(图8,P值<0.0001,r=0.86)。此类数据表明游离DNA分子的突出端可以携带组织来源的信息。
E.与片段尺寸相关的突出端指数分析
进一步研究了突出端指数与待分析的尺寸范围之间的关系。已经证明血浆中非造血源性DNA比造血源性DNA短(Zheng YW等人,《临床化学》2012;58:549-58)。为了显现和研究突出端指数与片段尺寸之间的关系,汇集了来自30个怀孕样品的所有测序片段。有趣的是,突出端指数在不同尺寸范围不均匀地分布(图9),显示出波状和非随机的谱式特征。
突出端指数的多个主峰分别出现在约100bp、240bp、400bp和560bp处。发现图9中的两个邻近主峰之间的距离为约160bp,这表明此类突出端指数可能与核小体结构相关。突出端指数的最大值存在于约230bp处。不同尺寸的突出端指数的不均匀性还可以表明特定尺寸范围可以增强具有不同临床病状的样品之间的分离。为了更清楚的探究此方面,将血浆DNA分子分成不同尺寸的窗口,包含但不限于80-100bp、100-120bp、120-140bp、140-160bp、160-180bp、180-200bp、200-220bp、220-240bp和240-260bp,并且对不同受试者之间的突出端指数进行定量。图10示出了来自不同妊娠期的样品的140-160bp的代表性尺寸范围的突出端指数。发现在胎儿DNA分子中,尺寸范围为140-160bp的那些分子与所有片段的突出端指数的比率显著高于母体DNA分子的突出端指数比率,这表明与同一个体内的母体DNA分子相比,较短的胎儿DNA分子的突出端丰度相对较高。
图11指示,包含母体和胎儿DNA分子的片段的总体突出端指数比率与胎儿DNA浓度相关(r=0.5,P=0.02),这表明基于尺寸范围的突出端指数分析将用于指示血浆DNA分子的组织来源。
图12示出了血浆DNA分子与超声处理的DNA之间跨不同尺寸范围的突出端指数的比较。
图13示出了不同妊娠期的胎儿DNA与母体DNA之间的锯齿状指数的另外结果。使用温和的清除条件(MinElute PCR纯化试剂盒)的实验方案来分析怀孕病例。在图10中,实验方案使用GeneRead DNA FFPE试剂盒。通过利用胎儿与母体基因组之间的基因型差异来标识胎儿DNA和母体DNA分子。利用这些结果,发现胎儿DNA分子携带更多的锯齿状末端,因为胎儿DNA的锯齿状指数显著高于母体DNA的锯齿状指数。这些结果不同于图10,所述图显示胎儿DNA分子不太可能包含锯齿状末端。然而,发现尺寸范围为140-160bp的胎儿DNA分子的锯齿状指数比率高于母体DNA分子的锯齿状指数比率。锯齿状指数比率与图10的第三列中的结果一致,所述结果基于另一种清除条件。
当使用锯齿状末端测定临床相关DNA的浓度时,同一实验方案应用于参考样品和待测试样品两者。
图14示出了胎儿DNA浓度与锯齿状末端指数比率(r=0.5和p值=0.0048)之间的相关性。图14示出了与图11一致的相关性。
III.在用甲基化胞嘧啶修复之后使用甲基化状态测量锯齿状末端
如以上所讨论的,可以用腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和未甲基化胞嘧啶(C)进行末端修复。然而,可以修饰末端修复以使用甲基化胞嘧啶(mC)代替未甲基化胞嘧啶。在末端修复后用于形成平末端的切片中所得甲基化可以用于测量锯齿状末端。另外,使用甲基化胞嘧啶进行末端修复还可以导致测量锯齿状末端的精确长度或标识平末端。
A.用于检查血浆DNA分子的锯齿状末端的原理
图15示出了使用-核糖核苷三磷酸(dNTP)(包含dATP(A)、dGTP(G)、dTTP(T)和甲基化dCTP(mC)而不是未甲基化dCTP(C))来填充锯齿状末端,以便在文库制备中在末端修复过程期间形成平末端的方法。在图15中,有填充的圆圈(例如,1502)表示甲基化胞嘧啶(mC),并且无填充的圆圈(例如,1504)表示未甲基化胞嘧啶(C)。在图表1510中,示出了具有锯齿状末端的双链DNA分子。双链DNA分子在两条链中包含未甲基化胞嘧啶。DNA分子可以包含DNA分子中的可以被甲基化的一些CpG位点。
图表1520示出了用甲基化胞嘧啶末端修复之后的DNA分子。虚线表示新填充的核苷酸。新填充的胞嘧啶被甲基化,而末端修复前的DNA分子包含未甲基化胞嘧啶。“克列诺,外切-(Klenow,exo–)”意指聚合酶片段保留聚合酶活性,但缺乏5'到3'和3'到5'外切核酸酶活性两者。因此,不会因外切核酸酶引入多余的锯齿状末端。
图表1530示出了在连接测序接头1506和1508之后的末端修复的DNA分子。
图表1540显示了亚硫酸氢盐处理之后的DNA分子。在亚硫酸氢盐处理之后,末端修复的DNA分子中新填充的甲基化C保持不变,而驻留在分子内的原始未甲基化C被转化为随后通过PCR扩增为T的尿嘧啶(U)。与接近同一分子的5'末端(5'末端邻近核苷酸)的邻近核苷酸相比,靠近DNA分子的3'末端(3'末端邻近核苷酸)的邻近核苷酸将显示甲基化水平的增加,这是因为在接近3'末端的空位中填充mC。因为末端修复前的DNA分子可能已经包含甲基化CpG位点,所以除了末端修复中添加的mC之外,一些C可能在末端修复之后保持为mC。为了考虑这些mC,对C的分析可以限于CH(其中H是A、C或T)位点并且排除CpG位点。由于CH位点占人类基因组中的二核苷酸背景的约19.2%,因此可以检测到相当大比例的具有锯齿状末端的分子。
图1550示出了跨两个读数的CH胞嘧啶的甲基化水平的图。图表1550类似于图240,其中图表1550的x轴可以从5'到3'。对于CH胞嘧啶,读数1的甲基化水平接近0。读1与图1510-1540中的顶部链1508的5'末端相对应。当甲基化水平接近100时,读数2的甲基化水平接近0直到靠近3'末端。增加的甲基化水平是末端修复中提供的核苷酸中的甲基化胞嘧啶(例如,1502)的结果。
增加的甲基化水平可以与锯齿状末端相关。锯齿状末端的长度可以根据甲基化水平的增加来测定。锯齿状末端的长度还可以通过分析亚硫酸氢盐处理之后胸腺嘧啶和甲基化胞嘧啶出现的位置来测定。
图16示出了使用甲基化胞嘧啶进行末端修复的这种方法如何能够准确地推导出锯齿状末端的精确长度。基因组1602显示存在两个连续的C。具有锯齿状末端的DNA片段具有第一链1604和第二链1606。基因组1602可以是第二链206的序列。胞嘧啶1608可以位于第一链1606的3'末端。胞嘧啶1610可以添加到具有末端修复的第一链1606的3'末端。通过在末端修复中使用甲基化胞嘧啶,此胞嘧啶是甲基化胞嘧啶1612。在这种配置中,基因组中的这种“CC”标签将在测序结果中转换成“TC”谱式特征。通过亚硫酸氢盐处理,将与胞嘧啶1608相对应的未甲基化胞嘧啶转化为胸腺嘧啶1614。与胞嘧啶1610相对应的甲基化胞嘧啶1612保持甲基化胞嘧啶。通过使用这种“TC”谱式特征,可以精确地测定锯齿状末端长度。将这种技术称为“CC标签”策略。
虽然可以分析连续的CC以测定精确的锯齿状末端长度,但是非连续的CC也可以在测定锯齿状末端长度方面提供信息。例如,CC可以被不是C的若干个核苷酸分离。如果一个C转换成T并且另一个保持为C,则可以测定锯齿状末端长度的范围。锯齿状末端的最大长度可以通过T的定位推导出,并且锯齿状末端的最小长度可以通过3'末端上最接近T的C的定位推导出。
B.具有已知锯齿状末端的掺入序列
可以在末端修复中使用具有已知序列的已知锯齿状末端长度的核酸分子,以使用具有甲基化胞嘧啶的末端修复来验证结果。这些已知的序列(即,掺入序列)还可以用于测定锯齿状末端的量(例如,浓度、摩尔量)。
图17示出了使用具有甲基化胞嘧啶的末端修复分析的16个血浆DNA样品的表。使用大量成对末端亚硫酸氢盐测序(75bp x 2)分析来自妊娠早期(12-14周)、妊娠中期(20-23周)和妊娠晚期(38-40周)的16个血浆DNA样品。对于每个样品(范围:1.480亿-2.624亿),实现了中位值为2.069亿的成对末端读数。“样品”是指样品的标识。“原始片段”是指所测序的片段的数量。“比对片段”表示可以比对上的片段数量。“比对比例”是被可被比对的原始片段的百分比。“重复率”是将通过过滤除了一个具有相同起始和片段结束位点基因组坐标的重复片段之外的所有片段的过程而去除的DNA片段的百分比。“孕龄(妊娠期)”是从其获取样品的女性怀孕的妊娠时期。
图18示出了使用具有已知长度的锯齿状末端的两个合成的双链DNA片段1802和1804作为内部对照。这些内部对照可以验证甲基化胞嘧啶的使用在分析锯齿状末端中是有效的。两个双链合成DNA中的每一个由针对P7的靶序列(针对测序接头的粘接位点,依诺米那公司)(靶序列1806和1808)、连接子DNA(1810和1812)、锯齿状末端分子标签(JMT)(1814和1816)组成。双链DNA片段1802包含13-nt探针1818,并且双链DNA片段1804包含22-nt探针1820。13-nt和22-nt单链片段是Alu 1822的24-bp常见序列的子序列。13-nt片段1818和22-nt片段1820作为实例示出。常见序列的其它长度可以用作对照。JMT 1814和1816各自是允许将具有13-nt锯齿状末端的合成DNA对照与具有22-nt锯齿状末端的合成DNA对照区分开的一串6个核苷酸。
图19A和19B示出了具有已知序列的已知锯齿状末端的两个掺入序列的测序碱基组成。使用合成的双链DNA片段,其类似于图18中的那些片段。图19A示出了使用22-nt已知刺入序列,并且图19B示出了使用13-nt已知掺入序列,其中两个序列与锯齿状末端互补并且具有甲基化胞嘧啶。x轴中的水平橙色条(1910和1920)指示掺入序列中锯齿状末端的存在。水平深蓝色条1912和1914表示类似于连接子1810和1812的连接子。这些连接子不具有甲基化胞嘧啶。水平浅蓝色条1916和1918是测序接头。测序接头也可以是甲基化的。用绿色、蓝色、灰色和红色着色的垂直条分别表示A、C、G和T的频率。例如,垂直条1930和1940指示T。一些垂直条具有多种颜色,其中每种颜色表示所述基底的百分比。
垂直条1950和垂直条1954两者均与加标的锯齿状末端中的甲基化胞嘧啶相对应。甲基化胞嘧啶被测序为胞嘧啶,如两者均指示C的垂直条1950和垂直条1954所示。箭头(例如,1960和1970)表示在锯齿状末端中甲基化胞嘧啶(mC)的填充。垂直条1950的顶部是垂直条1952,其指示T。垂直条1954的顶部是垂直条1956,其指示T。T的这些指示可以是测序误差的结果,因为T的百分比低。
观察到在锯齿状末端(以小写字母表示)内的所有胞嘧啶由于在末端修复步骤期间掺入mC而不变。相比之下,双链内的未甲基化C(如大写字母的连接子区域中所示)几乎全部转化为T。结果表明双链DNA内的核苷酸的亚硫酸氢盐转化的高效率以及mC在锯齿状末端中的成功掺入。
包含具有已知程度的锯齿状末端的已知量的分子可以允许测定最初存在于样品中的其它锯齿状末端物种的实际量。例如,如果在添加和不添加掺入的锯齿状末端的情况下测试样品,则在添加掺入的锯齿状末端的测试中,掺入物种的锯齿状末端物种的百分比将比在不添加掺入的锯齿状末端的测试中更高。因为知道掺入量和所得百分比增加,所以可以测定样品中的其它物种的锯齿状末端的量(例如,浓度、摩尔量)。
C.血浆DNA锯齿状末端的测定
可以将使用甲基化胞苷进行末端修复所产生的甲基化水平与使用未甲基化胞苷进行末端修复所产生的甲基化水平进行比较。可以将两种方法的有效性进行比较。
图20示出了在CH和CG背景下孕妇血浆DNA中的甲基化胞嘧啶比例的代表性绘图,以便验证使用甲基化胞嘧啶进行末端修复的方法。在文库制备期间,分别针对每种情况使用甲基化C(即,mC)和未甲基化C(即,C)两者对每个样品的两个等分试样(案例M12855和M13017)进行末端修复。分析了人类基因组的CH和CG二核苷酸背景两者中甲基化水平的比例。据报道,人类基因组中的那些CH位点(意指不是CpG的二核苷酸)通常表现出非常低的甲基化水平,大约0%(Hyun Sik Jang等人,《基因(Gene)》8(6):2-20)。对于用mC进行末端修复的样品,观察到对于所有样品,在CH背景中的甲基化胞嘧啶的比例在分子的5'末端(读数1)中接近0%,无论其是用mC还是C进行末端修复的(图表2010和2030)。
这一观察表明,游离DNA分子的这个5'部分本质上是双链的,并且由于末端修复,dNTP的掺入非常少。相反,甲基化胞嘧啶的比例沿着3'方向从游离DNA分子的读数2序列中的25bp定位快速增加到高达80%。读数2序列与其3'末端(图表2010和2030)相对应。这些数据表明锯齿状末端朝向游离DNA分子的3'末端存在,因为由于末端修复,mC掺入增加甲基化水平。相比之下,对于用C进行末端修复的样品,CH位点处的甲基化胞嘧啶的比例保持接近0%(图表2010和2030),因为在末端修复期间新掺入的未甲基化C将不会升高分子的甲基化水平,其中CH二核苷酸位点处的甲基化基线水平为约0%。总之,在CH二核苷酸背景中解释的mC掺入导致甲基化胞嘧啶增加,并且由此揭示血浆DNA或游离DNA中存在锯齿状末端。
对于CG背景,也被称为CpG二核苷酸,在分子的5'末端(即,读数1)中观察到高比例的甲基化C,这与先前的研究(其中CpG位点上的甲基化水平在人类基因组中为大约80%)很大程度上一致(Hyun Sik Jang等人,《基因》8(6):2-20)。甲基化胞嘧啶的比例沿着3'方向从读数2中的25bp定位逐渐上升到几乎100%,这表明在末端修复期间沿着血浆DNA锯齿状末端掺入mC(图表A520和A540)。这一观察与在末端修复过程期间掺入mC以填充锯齿状末端有关,通过末端修复的体外过程将在CpG处的80%的背景甲基化升高到100%。另外,当将未甲基化C用于末端修复过程时,跨读数2的对应位置的甲基化胞嘧啶的比例显著减少(图表A520和A540)。这些数据揭示了锯齿状末端的存在,因为在体外末端修复过程期间,高甲基化CpG通常被未甲基化C置换。甲基化胞嘧啶可以用于CG背景中以测定锯齿状末端,尽管由于约80%的背景甲基化水平,这种技术的灵敏度将受到限制。
这些结果揭示,用甲基化胞嘧啶代替未甲基化胞嘧啶进行修复的方法允许检测锯齿状末端。在文库制备中在末端修复过程期间利用mC填充,从而允许在CH的背景中进行锯齿状末端分析的方法可以大大提高锯齿状末端分析的分辨率。人类基因组中的此类CH位点比CG位点普遍得多(2.71亿个CH位点相对于2800万个CG位点)。
图21示出了使用填充甲基化胞嘧啶(mC)与未甲基化胞嘧啶(C)的方法之间的相对信息性比较。“锯齿状末端中的信息“C”的数量”是当使用甲基化胞嘧啶方法时为甲基化的或当使用未甲基化胞嘧啶方法时为未甲基化的锯齿状末端中的胞嘧啶的数量。“样品”是指样品的标识。“末端修复方法”是指在末端修复中使用的胞嘧啶的类型。“C”表示未甲基化胞嘧啶,并且“mC”表示甲基化胞嘧啶。“携带信息“C”的片段的百分比”是样品中具有未甲基化C或甲基化C的DNA片段的百分比,这取决于末端修复方法。“相对富集倍数(X)”是在甲基化胞嘧啶方法中携带mC的片段的百分比与在未甲基化胞嘧啶方法中携带C的片段的百分比的比率。如图21的表中所示,分析了携带可以推断为与锯齿状末端相关的胞嘧啶的片段的百分比(即,锯齿状末端中的信息“C”)。观察到使用甲基化胞嘧啶的填充的方法可以检测高得多比例的携带锯齿状末端的片段。
例如,当考虑分子的锯齿状末端中的至少一个信息“C”时,存在58.73%的可以通过填充mC的方法推断为与锯齿状末端相关的片段,这远高于通过填充C的方法推断的片段(8.29%)。换言之,mC填充的方法可以比未甲基化C填充的方法富集7.1倍更多的信息。当考虑在锯齿状末端中的至少两个信息“C”时,mC填充的方法可以比未甲基化C填充的方法富集大于30倍的更多的信息。用未甲基化C填充将信息C限制到CG位点,而用甲基化C填充允许更普遍的CH位点包含信息C。
图22示出了通过“CC标签”策略推导出的锯齿状末端长度的分布。“CC标签”方法提供了在单碱基分辨率下测量锯齿状末端的可能性。使用这种方法,图22揭示,在锯齿状末端的池中,具有1-4bp长度的锯齿状末端更加丰富(约25%),并且具有1bp的锯齿状末端似乎是最常见的。通常,锯齿状末端越长,在血浆DNA或游离DNA中将看到的相对频率越低。通过使用“CC标签”方法,还可以测定具有平末端(即,尺寸为0bp的锯齿状末端)的分子的数量。具有平末端的分子的比例范围为12.4%到15.5%。
图23A、23B和24示出了跨不同尺寸范围的游离DNA片段的锯齿状末端的概况。图23A分析了CH二核苷酸的甲基化水平,如在图15的技术中。图23B和24使用了图16的CC标签方法。在图23A中,纵轴是读数2序列中的CH二核苷酸中的甲基化胞嘧啶的比例,这反映接近分子3'末端的甲基化胞嘧啶并指示锯齿状末端。读数2中的甲基化“CH”胞嘧啶水平越高表明DNA分子中锯齿状末端的程度越高,这可能是由于(1)具有较长锯齿状末端的分子和/或(2)携带锯齿状末端的分子的数量增加。横轴是测量其平均比例的DNA片段的尺寸。因此,跨不同的游离DNA尺寸分析了读数2序列(即锯齿状末端位于其中的血浆或游离DNA分子的3'末端)中CH二核苷酸中的甲基化胞嘧啶的比例之间的关系。
图23A示出了跨不同尺寸范围读数2的CH位点处的甲基化水平的比例。甲基化水平越高,预期的锯齿状末端越多。如图23A所示,甲基化水平跨不同的尺寸范围不均匀地分布,这表现出波状非随机谱式特征。当尺寸小于160bp时,甲基化水平低于10%。当片段尺寸大于160bp时,甲基化水平持续增加,并且在240bp处达到约28%的峰值。甲基化水平的增加表明来自较长锯齿状末端或具有锯齿状末端的更多分子的锯齿状末端的更高程度。发现甲基化水平的两个连续主峰之间的距离为约170bp,这与核小体定相谱式特征和使人联想到核小体之间的距离高度一致。这可能表明锯齿状末端可能受到染色质结构的影响。染色质结构可以增加降解,从而产生锯齿状末端。
图23B示出了基于“CC标签”方法的不同尺寸范围的平均锯齿状末端长度。垂直轴示出了平均锯齿状末端长度。横轴是测量其锯齿长度末端长度的DNA片段的尺寸。在图23A中,CH位点处的甲基化水平的比例可以由锯齿状末端的长度和量中的至少一个产生。相反,在图23B中,使用CC标签方法测定锯齿状末端的精确长度。通常,图23A中的甲基化水平越高,通过图23A中的CC标签方法推断出的长度越长。
图24示出了基于“CC标签”方法的不同尺寸范围的中位值锯齿状末端长度。平均值和中位值锯齿状末端长度产生与接近分子3'末端的CH位点处的甲基化胞嘧啶的比例类似的谱式特征。锯齿状末端长度的波状信号让人联想到核小体结构。因此,染色质结构可以在锯齿状末端的长度中发挥作用。
D.胎儿与母体DNA分子之间的差异锯齿状末端
为了评估锯齿状末端在母体血浆中的游离母体与游离胎儿DNA分子之间是否具有不同的特性(例如,锯齿状末端是否可用于告知组织来源),使用微阵列平台(HumanOmni2.5,依诺米那公司)对母体白细胞层和胎儿组织样品进行基因型分型。
胎儿样品还通过绒毛膜绒毛取样、羊膜穿刺术或胎盘取样来获得,这取决于哪种类型的组织DNA样品是可获得的。存在中位值为201,352的包含信息的单核苷酸多态性(SNP)基因座(范围:178,623-208,552),对于所述基因座母亲是纯合的并且胎儿是杂合的。携带胎儿特异性等位基因的血浆DNA分子被标识为源自胎儿。
图25示出了具有不同孕妇的测序信息和胎儿DNA浓度的表。“样品”是指样品的标识。“胎儿DNA浓度(%)”是样品中源自胎儿的DNA片段的百分比。“信息SNP的数量”是通过基于微阵列的SNP基因型分型测定的母亲是纯合的并且胎儿是杂合的SNP的数量。“共享序列”是具有胎儿和怀孕女性两者共有的等位基因的DNA片段的数量。“胎儿特异性序列”是具有仅存在于胎儿中的等位基因的DNA片段的数量。在那些样品中的中位值胎儿DNA浓度是20.1%(范围:5.1%-41.3%)。“孕龄(三个月)”是从其获取样品的女性怀孕的三个月。
图26示出了在CH位点处的孕妇血浆DNA中甲基化胞嘧啶比例的一个样品的代表性绘图。首先检查在携带胎儿特异性和共享等位基因(即主要是母体起源的)的那些血浆DNA片段中,读数1和读数2在CH背景的甲基化胞嘧啶的比例。胎儿特异性和共享的片段两者均显示在接近分子的3'末端(即,读数2)的区域中甲基化水平的显著增加。胎儿特异性分子表现出比共享的分子略高的甲基化水平,这表明在母体DNA和胎儿DNA分子两者中均存在锯齿状末端。其它样品的结果基本上类似。
图27A、27B、28A和28B示出了胎儿特异性和共享的DNA分子的在不同尺寸范围的锯齿状末端的概况。为了研究锯齿状末端与胎儿DNA浓度之间的关系,将读数2上CH位点处的甲基化C的比例与胎儿DNA浓度相关。发现胎儿DNA浓度与读数2上CH位点处的甲基化C的比例之间存在负相关(图27A)。这可能由以下事实引起:胎儿DNA比母体DNA含有更多较短片段,并且较短DNA分子通常比较长DNA分子具有较低程度的锯齿状末端(图27B)。换言之,具有较高胎儿DNA浓度的样品将导致锯齿状末端的量和/或长度减少。这可能表明,锯齿状末端将由血浆DNA尺寸混杂。
为了克服血浆DNA尺寸的这种混杂因素,检查了不同尺寸的锯齿状末端。对于携带胎儿特异性等位基因的血浆DNA分子,与携带共享等位基因的序列相比,在CH背景中在140-200bp的一定尺寸范围下观察到更大比例的甲基化胞嘧啶(图27B)。较大比例的甲基化胞嘧啶指示来自较长和/或较大量锯齿状末端的较高程度的锯齿状末端。还使用“CC标签”方法来测定胎儿特异性和共享DNA分子中的精确的锯齿状末端长度,并且发现胎儿特异性分子中的平均值和中位值锯齿状末端长度两者的值在100-200bp的一定尺寸范围下大于共享的分子的值(图28A和28B)。结果揭示,锯齿状末端长度分布确实受尺寸的影响,并且胎儿特异性与共享片段之间的差异主要发生在100-200bp的尺寸范围内。这些结果表明,将锯齿状末端的分析限制到游离DNA片段的某些尺寸范围可以帮助提供样品的另外信息,如胎儿DNA浓度、肿瘤DNA浓度、受试者的年龄、器官移植DNA浓度或免疫应答的水平。
图29A和29B示出了在140-150bp内的分子中的锯齿状末端长度分布。在图29A中,纵轴是尺寸在140-150bp内的DNA片段的平均值锯齿状末端长度,并且横轴是样品的标识。在图29B中,纵轴是尺寸在140-150bp内的DNA片段的中位值锯齿状末端长度,并且横轴是样品的标识。进一步检查了在140-150bp范围内的胎儿特异性和共享分子的平均锯齿状末端长度,并且发现胎儿特异性片段含有比共享片段(中位值:10.16bp;8.02-14.91bp)更长的锯齿状末端(中位值:13.73bp;10.24-19.38bp)(p值:0.0014,曼惠特尼U测试)(图29A)。在140-150bp处分布的胎儿特异性和共享分子的中位值锯齿状末端长度显示出与平均值类似的谱式特征(p值<0.0001,曼惠特尼U测试)(图29B)。这些结果与使用填充未甲基化胞嘧啶的替代性方法的观察一致,其中从CG背景推断的共享DNA分子的锯齿状指数略小于胎儿特异性DNA分子的锯齿状指数。
图30A、30B和31示出了140bp、166bp和200bp分子的锯齿状末端长度相对于胎儿DNA浓度。考虑到锯齿状末端长度会根据以上提及的不同尺寸而变化,将分子的尺寸固定在140bp、166bp和180bp,并且然后评估其相对锯齿状末端长度。这种尺寸带状分析揭示了对于140bp,平均锯齿状末端长度与孕妇血浆中胎儿DNA浓度之间的正相关(图30A)。在166bp或200bp下的锯齿状末端长度未显示与胎儿DNA浓度的正相关(图30B和31)。总之,此处所描述的结果可以表明源于范围为140bp到150bp的那些分子的锯齿状末端可能携带胎盘特异性锯齿状末端。
图32示出了携带不同尺寸的锯齿状末端长度(平端的、1nt、2nt、3nt和4nt)的分子的尺寸分布。根据分子的锯齿状末端长度,将所述分子分类为不同的组。对具有不同锯齿状末端长度的每一组进行血浆DNA分子的相对尺寸分布。观察到,对于具有平末端的那些分子,尺寸分布具有低于155bp的尖锐得多的10bp的周期性。另一方面,发现随着锯齿状末端长度变得更长,观察到其相对周期性更弱,这表明锯齿状末端将根据不同的染色质结构而变化。周期性可以与核小体距离相对应。DNA分子可以在相对于核小体的某些位置处形成平末端,由此导致某些尺寸的DNA分子的更多平末端。图32还示出了较小锯齿状末端在这些峰处更普遍,与图22中的数据一致。
E.使用甲基化胞嘧啶修复锯齿状末端的示例方法
使用甲基化胞嘧啶修复锯齿状末端来分析生物样品可以类似于图4中的方法400。生物样品可以是用图4描述的生物样品或本文所述的任何生物样品。生物样品可以包含多个核酸分子。所述多个核酸分子可以是游离的。所述多个核酸分子中的每个核酸分子可以是双链的,所述双链具有第一链和第二链,所述第一链具有第一部分,其中所述多个核酸分子中的至少一些核酸分子的所述第一链的所述第一部分不具有与所述第二链的互补部分、不与所述第二链杂交并且位于所述第一链的第一末端处。
所述多个核酸分子的尺寸可以处于一定尺寸范围内。尺寸范围可以小于生物样品中的所有游离核酸分子的尺寸范围。作为实例,尺寸范围可以为100到200bp、140到200bp或140到150bp。可以测定生物样品中的第二多个核酸分子的尺寸。所述第二多个核酸分子可以包含生物样品中的所有游离核酸分子。尺寸可以通过对读数序列读数进行测序并将所述读数序列读数与参考基因组进行比对来测定。可以将所述第二多个核酸分子过滤成尺寸在所述尺寸范围内的核酸分子。
类似于框402,包含一个或多个核苷酸的第一化合物可以与所述多个核酸分子中的每个核酸分子的第一链的第一部分杂交。第一化合物可以连接到第二链的第一末端,以形成具有包含第一化合物的第一末端的延长的第二链。第一化合物可以包含未接触第二链的第一末端。所述一个或多个核苷酸可以是全部甲基化的或全部未甲基化的。
所述一个或多个核苷酸可以是全部甲基化的。甲基化核苷酸可以是一种类型的核苷酸,如胞嘧啶。第一化合物可以包含除了甲基化核苷酸之外的核苷酸。第一化合物中的甲基化胞嘧啶可以邻近腺嘌呤、胞嘧啶或胸腺嘧啶。第一化合物中的甲基化胞嘧啶可以不邻近鸟嘌呤。胞嘧啶与另一个核苷酸的邻接方向可以是5'到3'方向。
类似于框404,对于所述多个核酸分子中的每个核酸分子,第一链可以与延长的第二链分离。
类似于框406,可以测定所述多个核酸分子中的每个核酸分子的延长的第二链中的一个或多个第一位点中的每个第一位点的第一甲基化状态。所述一个或多个第一位点可以位于延长的第二链的第一末端处。第一位点可以排除邻近鸟嘌呤的胞嘧啶,或者可以包含邻近腺嘌呤、胞嘧啶或胸腺嘧啶的胞嘧啶。甲基化状态可以是邻近腺嘌呤、胞嘧啶或胸腺嘧啶的胞嘧啶的甲基化状态。
与框408不同,可以不测定延长的第二链的第二末端处的一个或多个第二位点中的每个第二位点的第二甲基化状态。第二位点可以排除邻近鸟嘌呤的胞嘧啶,或者可以包含邻近腺嘌呤、胞嘧啶或胸腺嘧啶的胞嘧啶。甲基化状态可以是邻近腺嘌呤、胞嘧啶或胸腺嘧啶的胞嘧啶的甲基化状态,或者可以排除邻近鸟嘌呤的胞嘧啶的甲基化状态。邻近腺嘌呤、胞嘧啶或胸腺嘧啶的胞嘧啶不太可能在第二链中被甲基化。因此,可以假定对于所述一个或多个第二位点,第二甲基化状态不是甲基化的。
类似于框410,使用所述一个或多个第一位点处的所述多个延长的第二链的第一甲基化状态计算第一甲基化水平。第一甲基化水平可以是第一甲基化状态的平均值、中位值、百分位或另一统计值。
与框412不同,可以不使用所述一个或多个第二位点处的所述多个延长的第二链的第二甲基化状态计算第二甲基化水平。因为邻近腺嘌呤、胞嘧啶或胸腺嘧啶的很少胞嘧啶被甲基化,所以第二甲基化水平将接近零并且不需要计算。
类似于框414,可以使用第一甲基化水平计算锯齿状末端值。锯齿状末端值可以与突出于第二链的第一链的平均长度成比例。计算锯齿状末端值可以通过计算第一甲基化水平与第二甲基化水平之间的差并且将所述差除以第一甲基化水平进行(例如,图3中的总体突出端指数)。
具有已知长度的锯齿状末端的对照核酸分子(例如,图18的掺入序列)可以用于测定样品中的锯齿状末端的量。作为实例,可以将多个对照核酸分子添加(掺入)到生物样品,使得其与最初来自生物样品的核酸分子同时杂交。在一些实施方案中,对照核酸分子可以通过第一化合物与全部甲基化或全部未甲基化的核苷酸杂交。第一甲基化水平可以包含来自对照核酸分子的经过修复的锯齿状末端的位点的甲基化状态。可以使用一种或多种甲基化水平测定锯齿状末端值,例如,如上所述。
因此,可以使用甲基化状态或其它技术(例如,如本文所述的)根据经过修复的对照核酸分子计算锯齿状末端值。可以将用对照核酸分子测定的这个锯齿状末端值与参考值进行比较。参考值可以在不杂交对照核酸分子的情况下获得。作为实例,参考值可以在没有掺入序列(例如,来自图18的分子)的情况下获得。
具有锯齿状末端的核酸的量(例如,绝对量)可以使用锯齿状末端值与参考值的比较,结合所添加的所述第二多个核酸分子的已知量来测定。所添加的已知量可以用于校准所测量的给定频率的绝对量。因此,由于添加了已知量的对照核酸分子,因此可以将特定长度处的相对量转化为绝对量,例如摩尔质量或体积。
作为实例,参考值可以是在没有对照核酸分子的情况下测定的锯齿状末端值。对照核酸分子的锯齿状末端值可以高于参考值。锯齿状末端值的增加可以与对照核酸分子的已知量成比例。可以测定没有对照核酸分子的锯齿状末端的量,这可以包含计算参考值与锯齿状末端值增加的比率并且乘以已知量。以类似的方式,突出端的特定长度处的量可以基于特定长度处的频率、添加的对照核酸分子的已知长度处的频率和向生物样品中添加的已知长度处的对照核酸分子的已知量来测定。
例如,锯齿状末端值可以从当不包含对照核酸分子时的第一值增加到当包含对照核酸分子时的第二值。从第一值到第二值的增加可以归因于对照核酸序列的存在,并且增加的量值可以因此反映对照核酸分子的已知量(例如,摩尔浓度)。基于增加的量值与已知量的关系,还可以测定第一值和/或第二值的量。此所计算的量可以反映锯齿状末端的总浓度。作为实例,如果当包含1M对照核酸分子时锯齿状末端值从x增加到1.1x,则0.1x增加可以反映1M的浓度。没有对照核酸的锯齿状末端的量可以计算为10M(x/0.1x×1M)。在一些实施例中,这种关系可能不是线性的,并且锯齿状末端的量的计算可能涉及非线性回归或其它统计分析。这种非线性可能部分地由用于检测锯齿状末端的方法的动力学控制。例如,一些方法对于短锯齿状末端可能比长锯齿状末端更有效。
在一些实施例中,还可以计算某些长度的锯齿状末端的量。可以计算某些长度的锯齿状末端值,并且此值的量值可以与基于来自对照核酸分子的锯齿状末端值的增加和对照核酸分子的已知量的量有关。对照核酸分子也可以限于某些长度的锯齿状末端。例如,具有13-nt锯齿状末端的1M对照核酸分子可以将锯齿状末端值从x增加到1.1x。20-nt锯齿状末端的锯齿状末端值可以为0.5x。20-nt锯齿状末端的浓度可以计算为5M(0.5x/0.1x×1M)。
在其它实施方案中,锯齿状末端的测量的其它技术可以与对照核酸分子结合使用。因此,可以使用各种技术来使用来自生物样品的核酸分子和多个对照核酸分子(例如,当游离片段和对照分子混合在一起时)测定锯齿状末端值,其中所述照核酸分子中的每个对照核酸分子的突出端长度是已知的。然后,可以将锯齿状末端值与参考值进行比较,所述参考值是在不使第一化合物与所述多个对照核酸分子杂交的情况下获得的。并且,可以使用锯齿状末端值与参考值的比较并且使用已知量的所述第二组多个核酸分子来计算锯齿状末端的量。
在框414中计算的锯齿状末端值可以用于关于图1描述的任何方法中。例如,锯齿状末端值可以用于测定生物样品中的临床相关DNA(如胎儿DNA)的浓度。
F.示例CC标签方法
图33示出了用于计算具有CC标签的锯齿状末端值的方法3300。方法3300涉及分析从个体获得的生物样品。所述生物样品包含多个核酸分子。核酸分子是游离的。所述多个核酸分子中的每个核酸分子可以是双链的,所述双链具有第一链和第二链,所述第一链具有末端处的第一部分。所述多个核酸分子的第一子集的第一链的第一部分不具有与第二链的互补部分。第一链的第一部分未与第二链杂交并且位于第一链的第一末端处。
在框3302处,使第一化合物与所述多个核酸分子的第一子集中的每个核酸分子的第一链的第一部分杂交。第一化合物可以连接到第二链的第一末端,以形成具有包含第一化合物的第一末端的延长的第二链。第一化合物的第一末端可以未接触第二链。第一化合物可以包含作为甲基化胞嘧啶的一个或多个核苷酸。第一组子集可以包含一个核酸分子或多个核酸分子。
在框3304处,对于第一组子集中的每个核酸分子,将作为未甲基化胞嘧啶的一个或多个核苷酸转化为胸腺嘧啶。
在框3306处,对于第一组子集中的每个核酸分子,第一链可以与延长的第二链分离。
在框3308处,测定第一位置,其中对于第一子集中的每个核酸分子,所述第一位置是在最接近延长的第二链的第一末端的第二链中具有胸腺嘧啶的位置。
在框3310处,测定第二位置,其中所述第二位置在最接近胸腺嘧啶的第一化合物中具有甲基化胞嘧啶。第二位置可以位于第一位置的3'侧上。甲基化胞嘧啶可以不邻近鸟嘌呤。
在框3312处,可以使用第一子集中的每个核酸分子的第一位置或第二位置中的至少一个来测定距延长的第二链的第一末端的距离。距离可以是锯齿状末端的长度。如图16所述,TC可以指示锯齿状末端的边界。在一些情况下,胸腺嘧啶可以不直接邻近甲基化胞嘧啶。在那些情况下,距离可以是长度范围而不是单个长度。例如,第一位置可以指示最长可能的锯齿状末端,并且第二位置可以指示最短可能的锯齿状末端。然后可以将距离表示为从最短长度到最长长度的范围。在一些实施例中,距离可以是最短长度和最长长度的平均值。
在框3314处,可以使用所述多个核酸分子的第一子集的距离计算锯齿状末端值。
在一些实施例中,分析可以包含所述多个核酸分子的第二子集。所述多个核酸分子的第二子集中的每个核酸分子的第一部分具有与第二链的互补部分并且与第二链杂交。第二子集可以包含不具有锯齿状末端、仅具有平末端的核酸分子。第二子集可以包含一个核酸分子或多个核酸分子。
第二子集的核酸分子中未甲基化胞嘧啶可以转化为胸腺嘧啶。第二子集中未甲基化胞嘧啶的转化可以基本上与框3304中的转化同时进行。
胸腺嘧啶可以被测定为位于第二链的末端处。因此,可以测定第二链不是被延长的。可以将核酸分子标识为不具有锯齿状末端。可以测定胸腺嘧啶到第二链的末端的距离。当胸腺嘧啶位于第二链的末端处时,此距离可以为零。可以使用第二子集的距离来计算锯齿状末端值。
在框3314中计算的锯齿状末端值可以用于关于图1描述的任何方法中。例如,锯齿状末端值可以用于测定生物样品中的临床相关DNA(如胎儿DNA)的浓度。
IV.血浆DNA末端连接介导的突出端直接测定
评估血浆DNA突出端的另一个实施例是将携带单链合成的寡核苷酸(突出端探针)的双链序列接头与允许追溯探针序列组成和长度的序列标签连接到血浆DNA。此类合成的寡核苷酸能够被粘接并且连接到携带与设计寡核苷酸互补的突出端的血浆DNA。通过对接头上的序列标签进行测序,可以推断出血浆DNA突出端序列及其对应的尺寸。图34展示了DNA末端连接介导的突出端直接测定的原理。
步骤3402示出了具有锯齿状末端的双链DNA分子。锯齿状末端发生在Alu重复序列的常见序列中。Alu重复序列的常见序列在人类基因组中可能具有数千个拷贝。
如步骤3404所示,常见序列可以与合成探针(虚线之间的红色条)杂交。这种探针连接到接头,所述接头包括连接子(绿色)、锯齿状末端分子标签(JMT,用斜条纹填充的矩形)和测序接头的测序引物结合位点(即,依诺米那公司P7)。因为常见序列的长度是有限的,所以可以列举合成探针的类型。特定类型的合成探针与独特的JMT序列相对应。探针的类型将等于常见序列的长度。例如,如果常见序列的长度是24-nt,则待合成的探针类型是24并且独特的JMT序列的数量将是24。
在阶段3406处,在与对应探针进行锯齿状末端特异性连接之后,将进行末端修复和A-加尾。
在阶段3408处,随后测序接头(例如,依诺米那公司P5)将连接到修复的分子。
在阶段3410处,P5连接的分子可以由P5和P7引物通过PCR扩增进行变性和扩增,从而产生适合于依诺米那公司平台中进行测序的分子。
在阶段3412处,进行双端测序。读数2含有允许追踪与携带感兴趣的锯齿状末端的分子杂交的原始探针的JMT序列。预期读数1携带常见序列及其侧接序列,从而允许标识其基因组来源。
这种方法可以通过合成标记到独特的JMT接头的随机探针而推广成研究任何血浆DNA分子的锯齿状末端,因此使得能够以全基因组方式检测锯齿状末端的可行性。
在基于连接的血浆DNA突出端评估中的一个实施例是搜索存在于人类基因组中的具有众多拷贝的常见序列,例如存在于Alu重复序列中的常见序列。通过合成有限数量的连接寡核苷酸将允许测定在这种常见序列中出现的所有血浆DNA突出端,所述常见序列以约500,000个拷贝存在于人类基因组中(图35)。
合成寡核苷酸覆盖了源于在人类基因组中以500,000个拷贝出现的这种常见序列的突出端的所有组合。因此,从这个共有区域产生的血浆DNA突出端可以通过对与有限数量的设计的寡核苷酸特异性连接的血浆DNA分子进行测序来标识。
使用基于常见序列介导的突出端测定的策略,在血浆DNA分子与如图35中所示的设计的寡核苷酸连接之后对孕妇的一个血浆DNA样品进行测序。在第一试验中获得了3200万个双端测序读数,其中开始寡核苷酸覆盖3-nt到24-nt突出端(即,由接头中的分子标签唯一标记的总共22种类型的寡核苷酸)。有1630万个(51%)第一末端读数(读数1)被唯一地定位到人类基因组,并且1210万个(37%)第一末端读数是可定位的但与多个基因组位置比对。因此,可以将总计88%测序读数与人类参考进行比对用于下游数据分析。然后,尝试标识具有可定位读数1的片段的配对第二读数(读数2)中的OMT序列。存在1280万(45%)个片段,所述片段具有携带有效OMT序列的可定位读数1,这表明成功地实现了连接过程。计算在案例M01624的连接母体血浆DNA中标识的每个测序OMT的频率和百分比。图36示出了母体血浆DNA的突出端长度的频率分布。大多数血浆DNA分子(71%)携带长度低于10nt(核苷酸)的突出端,但仍存在携带长度高于16nt的突出端的一小部分(9%)血浆DNA分子。这种相对分布可以与某种病理生理学相关。其它分子的尺寸介于10nt与16nt之间。与某一对照组相比,突出端长度的频率的相对变化可以告知患者的状态,例如包含但不限于炎症、创伤、癌症和/或器官损伤等。
另一方面,测序读数可以定位到从人类基因组挖掘的常见序列周围的序列,这可以加速生物信息学数据分析。如图37中所示,使用两种比对策略(定位到全基因组对比具有常见序列的Alu序列)推断的血浆DNA突出端长度的频率是高度一致的。具有8nt的突出端的急剧减少可能是由于所述合成接头的二级结构,因为通过计算机上第二结构预测,发现在OMT序列与具有8nt的寡核苷酸之间形成的特殊的自连回环。这种自粘接问题可以通过在新设计中改变OMT序列的序列背景来解决。另外,携带靶向连接0-nt、1-nt和2-nt突出端的寡核苷酸的接头也可以是可设计的。
图38示出了分析从个体获得的生物样品的方法3800。生物样品可以包含多个核酸分子。所述多个核酸分子可以是游离的。所述多个核酸分子中的每个核酸分子可以是双链的,所述双链具有第一链和第二链,所述第一链具有第一部分,其中所述多个核酸分子中的至少一些核酸分子的所述第一链的所述第一部分不具有与所述第二链的互补部分、不与所述第二链杂交并且位于所述第一链的第一末端处。
在框3802处,可以向生物样品中添加一组第一化合物。所述一组第一化合物可以包含不同核苷酸长度的寡核苷酸。所述寡核苷酸的子集中的每个寡核苷酸包括可以与多个第一部分中的至少一个第一部分互补的核苷酸。所述子集可以包含所述一组所有寡核苷酸。寡核苷酸可以包含Alu序列的核苷酸。
所述一组第一化合物中的每种第一化合物可以包含标识符分子。标识符分子可以指示第一化合物的寡核苷酸的长度。标识符分子可以是荧光团。在一些实施例中,标识符分子可以包含被预先设定为与寡核苷酸的长度相对应的序列。
在框3804处,所述一组第一化合物中的第一化合物的寡核苷酸可以与第一链的第一部分杂交以形成延长的第二链,所述延长的第二链是聚集体分子的一部分并且包含标识符分子。可以对所述多个核酸分子中的每个核酸分子进行杂交。
在框3806处,可以分析聚集体分子以检测标识符分子。聚集体分子可以作为双链分子进行分析,或者可以被变性使得分析单链分子。分析可以通过测序或检测荧光信号进行。所述方法可以进一步包含对延长的第二链进行测序以产生与标识符分子相对应的读数。可以对所述多个核酸分子中的每个核酸分子进行分析。
在框3808处,可以基于标识符分子测定第一部分的长度。所述测定可以涉及指将特定标识符分子与特定长度连接的参考。可以对所述多个核酸分子中的每个核酸分子进行测定。
基于杂交的方法3800可以允许通过合成杂交探针的不同链而获得5'和/或3'突出的末端(单链部分)。然而,基于DNA聚合酶的方法由于其延伸的方向性可能仅适用于5'突出的单链末端。
在框3808中测定的长度可以在关于图1描述的任何方法中用作所测得性质。因此,可以使用方法3800来测定锯齿状末端值。
方法3800还可以应用于用于测定锯齿状末端的量的掺入序列,如上文第III(E)章节和图18所述。可以添加已知量的具有已知锯齿状末端长度和已知序列的核酸分子。如方法3800中所述,然后可以测定锯齿状末端的长度。一旦测量了锯齿状末端值,就可以使用已知量的掺入序列来测定生物样品中锯齿状末端的量。
V.具有大量平行亚硫酸氢盐测序的锯齿状末端分析
在另一个实施例中,特定尺寸的相对突出端丰度也可以根据大量平行亚硫酸氢盐测序来估计(图39)。具有特定尺寸的突出端的丰度越高,与前一测序循环相比甲基化水平的降低将越多。例如,最后一个测序循环与倒数第二个测序循环之间的甲基化水平的差异将反映1-nt突出端的相对丰度。如图40所示,主要的血浆DNA分子将具有1-nt的突出端。通过基于连接的方法和基于亚硫酸氢盐测序的方法测量的突出端长度的频率呈正相关(图41)。
图42示出了分析从个体获得的生物样品的方法4200。生物样品可以包含多个核酸分子。所述多个核酸分子可以是游离的。所述多个核酸分子中的每个核酸分子可以是双链的,所述双链具有第一链和第二链,所述第一链具有第一部分,其中所述多个核酸分子中的至少一些核酸分子的所述第一链的所述第一部分不具有与所述第二链的互补部分、不与所述第二链杂交并且位于所述第一链的第一末端处。
在框4202处,测量所述多个核酸分子的第一链和第二链中的多个位点中的每个位点的甲基化状态。所述多个位点中的每个位点可以与测序过程的循环相对应。所述多个位点可以覆盖第一链和第二链的末端。第一链和第二链的末端可以包含第一链的第一末端。在一些实施例中,可以在不分离链的情况下测量甲基化状态。例如,可以使用纳米孔来测量甲基化状态。在其它实施例中,仅一条链可以被扩增和测序。
在一些实施例中,包含一个或多个核苷酸的第一化合物可以与第一链的第一部分杂交。所述一个或多个核苷酸可以是未甲基化的。第一化合物可以连接到第二链的第一末端,以形成具有包含第一化合物的第一末端的延长的第二链。第一化合物的第一末端可以未接触第二链。第一链可以与延长的第二链分离。可以使用延长的第二链的位点测量甲基化状态。
在框4204处,基于指示位点处的甲基化的甲基化状态的量来测定所述多个位点中的每个位点的甲基化水平。在一些实施例中,指示位点处的甲基化的甲基化状态的量可以根据指示位点处没有甲基化的甲基化状态的量测定。
在框4206处,在朝向第一链和第二链的末端的方向上,在所述多个位点中的第一位点处标识甲基化水平到第一值的第一变化。第一变化可以是甲基化水平的增加或减少。
在框4208处,基于测序过程的对应测序循环来测定第一位点相对于第一链的第一末端处的最外侧核苷酸的第一距离。
在框4210处,测定甲基化水平的第一降低的第一量值。
在框4212处,使用第一位点的第一距离测定第一多个第一部分的第一长度。
在框4214处,使用甲基化水平的第一降低的第一量值测定第一量的核酸分子,所述第一量的核酸分子包括长度小于或等于第一长度的第一部分。
可以重复框4206到4214。例如,方法4200可以包含在朝向第一链和第二链的末端的方向上,在所述多个位点中的第二位点处标识甲基化水平到第二值的第二变化。第二变化可以是增加或减少,但应当是与第一变化相同类型的变化。第二位点可以位于相对于第一链的第一末端处的最外侧核苷酸的第二距离处。第二距离小于第一距离。第二值低于第一值。可以测定甲基化水平的第二变化的第二量值。可以使用第二位点的第二距离测定第二组多个第一部分的第二长度。可以使用甲基化水平的第二变化的第二量值测定第二量的核酸分子。第二量的核酸分子包含长度小于或等于所述第二组多个第一部分的第二长度的第一部分。第一量包含长度大于第二长度的第一部分。
在此方法中测定的长度和/或量可以在关于图1描述的任何方法中用作所测得性质。
VI.基于尺寸的突出端分析
可以在用血浆DNA末端连接进行分析之后测量具有锯齿状末端的片段的尺寸。在将假设携带邻近常见序列的独特部分(通常存在于读数1中)的测序片段以最大两个错配的方式与人类参考基因组进行唯一地比对之后,通过利用读数1定位信息,通常具有在人类基因组中高度重复的常见序列的读数2仍然可以毫无疑义地位于接近读数1的区域中。因此,可以使用定位片段的最外侧基因组坐标来推断原始片段尺寸。被分析的片段在尺寸概况中还显示了166bp的主峰和在约320bp处的第二峰(图43)。
一旦获得片段尺寸信息,就可以对血浆DNA分子的突出端长度与片段尺寸之间的关系进行定量。在一个实施例中,将血浆DNA分子分成不同的尺寸范围并且对每个尺寸范围内的相对突出端长度(平均值或加权平均值)进行定量,例如包含但不限于100bp、101bp、102bp、103bp、104bp、105bp、106bp、107bp、108bp、109bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、300bp、400bp、500bp、600bp等,或者<100bp、<110bp、<120bp、<130bp、<140bp、<150bp、<160bp、<170bp、<180bp、<190bp、<200bp等,或者>210bp、>220bp、>230bp、>240bp、>250bp、>260bp、>270bp、>280bp、>290bp、>300bp等或任何组合之间的比率。相对突出端长度可以通过比率、差或由一组加权系数(例如,线性变换或对数变换)调整的线性或非线性组合来进行定量。在图44中,突出端长度显示为跨不同片段尺寸的波状单一。在由基于连接的方法产生的结果中,突出端长度的最大值位于约200bp处。在源于基于BS测序的方法(图44)的结果中,可以重现类似的谱式特征(r=0.7,p<0.0001)。片段尺寸分析可以与本文所述的其它技术结合使用以分析锯齿状末端。
本发明的实施例可以包含治疗从其获得生物样品的患者。治疗的实例可以包含提供对癌症、器官损伤、免疫疾病、新生儿并发症、炎症、创伤或任何其它病状的治疗。
VII.游离DNA损伤分析及其临床应用
如针对图1所述,锯齿状末端值可以用于测定病状水平。提供了癌症和自身免疫性疾病的实例。
A.癌症与非癌症受试者之间的突出端指数
分别进一步分析了47名健康受试者和28名HCC受试者的突出端指数。使用大量平行双端亚硫酸氢盐测序(75bp x 2)对那些样品进行测序,以得出中位值为1.329亿的成对读数(范围:120万-2.618亿)。在图45中,观察到与健康受试者相比,在HCC受试者中尺寸介于120与140bp之间的那些片段的突出端指数显著升高(P值:0.048,曼-惠特尼测试),这表明突出端指数可以用于指出患者患有癌症的可能性。
图46示出了不同临床病状的锯齿状指数比率。与所有其它尺寸的锯齿状末端值相比,使用尺寸为140到160bp的锯齿状末端值测定锯齿状指数比率。为了测定使用游离DNA锯齿状末端指数、使用大量平行亚硫酸氢盐测序技术检测癌症的诊断性能,对20名健康对照(CTR)、12名肝硬化受试者(Cirr)、22名HBV载体(HBV)、24名早期HCC(eHCC)、11名中期HCC(iHCC)和7名晚期HCC(aHCC)进行测序。如果采用就锯齿状指数比率而言的0.38的截止值,则可以实现91%的总体特异性和74%的敏感性。对于特定条件,可以分别实现对于CTR的90%特异性、对于Cirr的100%特异性和对于HBV的86%特异性;以及分别对于eHCC的75%敏感性、对于iHCC的54%敏感性和对于aHCC的85%敏感性。
图47示出了锯齿状指数比率方法和在HCC的CpG岛上使用高甲基化的受试者工作特征曲线(ROC)。显示使用锯齿状指数比率的性能优于使用CpG岛的高甲基化的常规方法,其中与高甲基化的曲线下面积(AUC)为0.80相比,锯齿状指数比率的曲线下面积为0.89。
图48示出了不同临床病状的锯齿状指数比率。与所有其它尺寸的锯齿状末端值相比,使用尺寸为140到160bp的锯齿状末端值测定锯齿状指数比率。为了测定使用游离DNA锯齿状末端指数、使用大量平行亚硫酸氢盐测序技术检测癌症的诊断性能,对20名健康对照(CTR)、20名肝硬化受试者(Cirr)、34名HBV载体(HBV)和11名结肠直肠癌受试者(CRC)进行测序。发现患有CRC的患者(平均值0.48)中的锯齿状指数比率显著高于非癌性患者(平均值:0.35)(p值<0.0001)。
图49示出了使用高甲基化和锯齿状指数比率两者的组合分析可以改善临床病状的分类。为了通过组合使用高甲基化和锯齿状指数比率来探索协同效应,构建了高甲基化(x轴)与锯齿状指数比率(y轴)之间的散点图。为了测定高甲基化,首先标识基因组中的在一系列健康器官中被发现是“稳定未甲基化的”的CpG位点。癌症患者的这些位点可能会变为甲基化的。其甲基化水平可能取决于癌症进展(例如,癌症阶段)。健康器官中的稳定未甲基化的CpG位点包含以下参考组织:CD4、CD8、成红细胞、巨噬细胞、单核细胞、天然B细胞和中性粒细胞、NK细胞和肝。在这些参考组织中甲基化水平可能需要<2%(或另一个百分比)。在基因组分布的约1百万个CpG位点都满足这些标准。
当分析样品时,游离DNA文库被亚硫酸氢盐转化。对游离DNA分子进行测序,并且然后将其与参考基因组进行比对。然后测定在大约1百万个CpG位点处的甲基化密度。使用于2013年3月15日提交的美国专利公开号2014/0080715A1中描述的方法来测量甲基化密度,所述美国专利的全部内容出于所有目的通过引用并入本文。甲基化密度可以是与限定的基因组区域比对的经测序的游离DNA分子上存在的所有胞嘧啶中甲基化胞嘧啶的百分比。在图49中,甲基化密度被测定为1百万个CpG位点的一个聚集体数量。预期非癌血浆样品的甲基化水平较低。当血浆样品含有肿瘤来源的游离DNA时,预期甲基化水平将增加。
HCC与非-HCC之间的最佳分隔边界由虚线表示。在93%特异性下将实现93%敏感性,这表明与使用单一度量标准(仅高甲基化或锯齿状指数比率)相比,在同时使用甲基化和锯齿状末端信号的情况下检测HCC患者中有好得多的改进。组合分析可以用于除了HCC之外的其它临床病状。
因此,图46-48示出了用于使用锯齿状末端值测定病状水平(例如,如图1中所述)的示例数据,其中所述病状是癌症,例如HCC或CRC。
B.患有和未患有自身免疫性疾病的患者之间的差异突出端指数
分析了14名健康受试者、21名无活性的全身性红斑狼疮(SLE)无活性受试者和19名活性的SLE受试者的突出端指数。使用大规模双端亚硫酸氢盐测序对那些样品进行测序,以得出中位值为1.295亿的成对读数(范围:2640万-1.914亿)。使用上述方法,使用尺寸介于120与140bp之间的分子对每个样品的突出端指数进行定量。在图50中,观察到与健康受试者(P值<0.0001)和非活跃期SLE受试者(P值=0.0006)相比,在活跃期SLE受试者中看到突出端指数显著升高,这表明突出端指数可以用于告知患者患有自身免疫性疾病的可能性并且在治疗后监测。因此,图50示出了用于使用锯齿状末端值测定病状水平(例如,如图1中所述)的示例数据,其中所述病状是自身免疫性疾病,具体来说,比如SLE。
C.突出端指数与尺寸范围之间的关系
进一步研究了突出端指数与待分析的尺寸范围之间的关系。已经证明血浆中非造血源性DNA比造血源性DNA短(Zheng YW等人,《临床化学》2012;58:549-58)。为了可视化和研究突出端指数与片段尺寸之间的关系,将分别来自健康受试者和HCC受试者的所有测序片段合并,以获得相对较高的测序覆盖率。有趣的是,突出端指数跨健康受试者和HCC受试者两者中分析的不同尺寸范围不均匀分布(图51),显示波状且非随机的谱式特征。在约80bp、240bp、400bp和560bp处分别出现多个主峰。发现图51中的两个邻近主峰之间的距离为约160bp,这表明此类突出端指数可能与核小体结构相关。HCC和对照受试者两者的突出端指数的最大值均存在于230bp处。HCC受试者的突出端指数在不同尺寸范围通常高于健康受试者,并且对照受试者与HCC受试者之间的突出端指数的差异不是均匀的,这表明特定的尺寸范围可能增强HCC受试者与健康受试者之间的区分。因此,认为不同的尺寸范围可能产生用于区分癌症受试者、监测免疫性疾病和非侵入性产前测试等的不同辨别能力。为此,将血浆DNA分子分成不同尺寸的窗口,包含但不限于60-80bp、80-100bp、100-120bp、120-140bp、140-160bp、160-180bp、180-200bp、200-220bp、220-240bp、240-260bp、260-280bp、280-300bp、300-320bp、320-340bp、340-360bp、380-400bp、420-440bp、440-460bp、480-500bp、520-540bp、560-580bp和580-600bp,并且对不同受试者之间的突出端指数进行定量。图52A示出了在健康对照与HCC患者之间跨不同尺寸范围的突出端指数的受试者工作特征曲线(ROC)分析的曲线下面积值。在120-140bp的尺寸范围下实现了健康受试者与癌症受试者之间的最佳区分,而没有在计算机上进行尺寸选择的所有片段示出了较小的辨别能力(图52B,p值=0.2,曼-惠特尼测试),这表明基于尺寸范围的分析将改进基于突出端指数的癌症检测的性能。
图53示出了具有不同病状的样品的跨不同尺寸范围的锯齿状指数的热图。游离DNA分子在尺寸方面显示出巨大的多样性,其范围可以为但不限于50bp到600bp。可以在具有同一尺寸的一组分子中测量锯齿状指数。因此,每个血浆DNA样品将具有600组不同尺寸、对应600个锯齿形指数。这种600维锯齿状指数向量可以用于分层聚类、机器学习和深度学习分析。图53显示,600维锯齿状指数通常允许区分HCC患者群和非HCC患者群,这表明尺寸带状的高维锯齿状末端指数可能携带用于检测患有癌症的患者的信息。
还将基于尺寸范围的分析应用于活跃期全身性红斑狼疮(SLE)患者。有趣的是,还发现,在非活跃期的和活跃期的SLE患者中,在80bp、240bp、400bp和560bp处出现多个类似的峰(图54),并且140-160bp的尺寸范围在区分活跃期SLE患者中产生最佳能力(图55)。
在另一个实施例中,源自不同尺寸范围的两个突出端指数的比率将用于区分疾病受试者与非疾病受试者。跨不同尺寸范围的突出端指数的谱式特征可以用作通过机器学习算法训练区分疾病与健康状态的分类器的特征。
D.HCC患者的术前与术后血浆DNA之间的差异突出端指数。
还通过使用尺寸介于120与140bp之间的那些分子对一个HCC患者的术前和术后血浆DNA样品进行突出端分析。因此,发现术前血浆DNA(平均值为8.9)的突出端指数以全基因组方式显著高于术后血浆DNA(平均值为7.4)(P值<0.0001)(图56),这表明血浆DNA中存在的突出端指数将与不同的临床病状相关。
E.在感兴趣的基因组区域处的突出端指数将告知组织来源
进一步研究了以下假设:血浆DNA在一组特定基因组区域中的突出端指数将增强血浆DNA的组织来源的解密,这可以反映肿瘤或起源的身份并且允许癌症检测。为此,实施了用于研究跨不同组织特异性开放染色质区域(包含但不限于转录起始位点(TSS)、DNaseI超敏感区域和增强子或超增强子区域)的突出端指数的性质的方法。发现突出端指数不均匀地分布在TSS区域周围。TSS近侧的突出端指数相对低于TSS远侧的突出端指数(图57)。从HCC受试者汇集的数据的突出端指数比从健康受试者汇集的数据的突出端指数略高(图57),这表明不同的基因组区域将在HCC受试者与健康受试者之间表现出不同的辨别能力。
还研究了在不同组织/器官的开放染色质区域与非染色质区域之间的突出端指数。在ENCODE项目中注释开放染色质区域(ENCODE项目联盟牵头(The ENCODE ProjectConsortium.)《自然(Nature.)》2012;489:57-74)。通常,开放染色质区域中的突出端指数似乎高于非开放染色质区域的突出端指数(图58A-图58B)。开放染色质区域与非开放染色质区域之间的突出端指数的最显著差异位于血谱系(图58C-图58D)。开放染色质区域与非开放染色质区域之间的突出端指数的次级显著差异指向肝组织(图58C-图58D)。这个结果表明,血浆DNA的突出端指数的分析将揭示涉及癌症的组织。
图59示出了通过分析从个体获得的生物样品来分析组织类型的方法5900。生物样品可以包含多个核酸分子。所述多个核酸分子可以是游离的。所述多个核酸分子中的每个核酸分子可以是双链的,所述双链具有第一链和第二链,所述第一链具有第一部分,其中所述多个核酸分子中的至少一些核酸分子的所述第一链的所述第一部分不具有与所述第二链的互补部分、不与所述第二链杂交并且位于所述第一链的第一末端处所述多个核酸分子中的至少一些核酸分子的第一链的第一部分可以突出于第二链、可以不与所述第二链杂交并且可以位于所述第一链的第一末端处。
在框5902处,测量第一链和/或第二链的与突出于第二链的第一链的长度成比例的性质。性质可以通过本文所述的任何技术来测量。可以对所述多个核酸分子中的每个核酸分子的性质进行测量。
在框5904处,对所述多个核酸分子中的每个核酸分子进行测序以产生一个或多个读数。测序可以以多种方式进行,例如如本文所述。示例技术可以使用探针、合成测序、连接和纳米孔。
在框5906处,例如通过将所述一个或多个读数与参考序列进行比对或通过使用对特定基因组位置具有特异性的提供,测定所述多个核酸分子中的每个核酸分子的基因组位置。
在框5908处,标识了在与第一组织类型相关的开放染色质区域和非开放染色质区域中具有基因组位置的一组核酸分子。在于2019年5月3日提交的美国申请第16/402,910号中描述了染色质区域,所述美国申请的内容出于所有目的通过引用并入本文。作为实例,组织类型可以包含血液、肝、肺、肾、心脏或脑。可以从数据库中检索与第一组织类型相关的开放染色质区域和非开放染色质区域。
在框5910处,对于所述一组核酸分子,使用第一组多个第一部分的第一组多个所测得性质来计算参数的第一值。所述第一组多个第一部分来自位于第一组织类型的开放染色质区域中的核酸分子。所测得性质可以是本文所述的任何锯齿状末端值。参数可以是所测得性质的统计性质。例如,参数可以是所测得性质的平均值、中位值、众数或百分位。
在框5912处,对于所述一组核酸分子,使用第二组多个第一部分的第二组多个所测得性质来计算参数的第二值。所述第二组多个第一部分来自位于第一组织类型的非开放染色质区域中的核酸分子。
在框5914处,可以计算参数的第一值与参数的第二值之间的分离值。作为实例,分离值可以包含或可以是第一值与第二值之间的差或第一值与第二值的比率。本文提供了各种比率和其它分离值的实例,例如在术语部分中。
在框5916处,可以基于将分离值与参考值进行比较来测定第一组织类型是否表现出癌症。参考值可以使用来自已知患有影响某种组织的癌症的参考受试者和/或来自已知未患有影响某种组织类型的癌症的参考受试者的参考样品来测定。第一组织类型可以被测定为表现出癌症、被测定为不表现出癌症或可以是不测定的。
在一些实施例中,可以使用机器学习模型来执行测定,例如如针对图1的框108所述。
VIII.用于评估锯齿状末端的DNA环化
图60示出了通过将一个额外的单链分子接头添加到两个粘性末端来直接测定每个DNA分子的突出端的另一个实施例。之后,使用亚硫酸氢钠处理具有封闭单链末端的双链DNA,使得双链体结构将被破坏以形成单链环状DNA。此类单链环状DNA分子将经受基于随机标记的扩增。经过扩增的产物将通过超声处理剪切以产生短片段,随后将对所述短片段进行测序。原始突出端信息可以从与人类参考基因组比对之后额外添加的接头旁边的接合点推断出。
图60示出了通过血浆DNA的环化直接评估血浆DNA粘性末端/突出端。血浆DNA将通过单链DNA(ssDNA)连接酶与单链DNA接头(黄色)连接。亚硫酸氢盐处理将使得沃森链(顶链)和克里克链(底链)不再互补,因为来自两条链中的非CpG位点的几乎所有胞嘧啶都将转化为尿嘧啶,从而导致形成环化单链DNA分子。可以使用标记有3'测序接头(例如,依诺米那公司P7,蓝色)的随机引物(例如,5-聚体)扩增此类环化单链DNA,从而产生可以包括单链DNA接头(黄色)的许多线性DNA分子。侧接最初连接的单链接头的DNA序列将允许推断锯齿状末端。为了使线性DNA分子能够适合于测序,5'测序接头(红色,例如依诺米那公司P5,红色)将通过粘接和基于PCR的延伸掺入。然后将标记有P5和P7接头的分子进行扩增和测序。侧接原始单链接头(黄色)的序列(“a”和“b”由红色箭头指示)将通过比对或通过研究如示意图中所示的“a”和“b”序列的相对定位的自身互补性分析来测定。可以通过与用于分析“a”和“b”序列类似的策略来分析环化分子中的“c”和“d”序列。
图61示出了类似于图60的技术的技术,但使用限制酶。如图60所示,血浆DNA将通过单链DNA(ssDNA)连接酶与单链DNA接头(黄色)连接。然而,单链DNA接头之一具有限制酶切割位点。亚硫酸氢盐处理将使得沃森链(顶链)和克里克链(底链)不再互补,因为来自两条链中的非CpG位点的几乎所有胞嘧啶都将转化为尿嘧啶,从而导致形成环化单链DNA分子。对应的限制酶将用于切割环化DNA分子,以产生线性化DNA分子。线性化DNA分子可以通过接头上的通用序列(黄色)扩增。经过扩增的DNA分子可以与测序接头连接进行测序。测序读数中的“a”、“b”、“c”和“d”部分可以用于通过比较如示意图中所展示的相对末端定位来推断锯齿状末端。这种方法允许测定DNA分子两端上的锯齿状末端。
图62示出了类似于图60的技术的技术,但使用聚合酶结合位点。如图60所示,血浆DNA将通过单链DNA(ssDNA)连接酶与单链DNA接头(黄色)连接。然而,单链DNA接头之一具有促进单DNA分子测序的DNA聚合酶结合位点(例如,PacBio SMRT测序)。因此,没有亚硫酸氢盐处理的环化分子可以在PacBio SMRT孔中与DNA聚合酶结合并且初始化单分子测序。整个环化分子将通过“滚动(rolling)”进行多次测序。每次全面滚动都会产生所谓的子读数。共有序列将由许多子读数产生。通过分析共有序列,将使测序误差最小化。将“ab”和“cd”完整序列进行比较允许以单个碱基分辨率测定锯齿状末端。所述方法可以避免亚硫酸氢盐处理,因此减少分析期间的DNA降解。锯齿状末端的形式可以以示意图中所展示的形式之一存在,但不限于此。显示的是,携带锯齿状末端的分子至少在分子的一个末端处是非平端的。这种方法可以在单个分子水平上检测任何形式的锯齿状末端和平末端。
图63示出了直接评估突出端但跳过随机标记步骤的实施例。可以避免进行随机标记,因为相当大部分的DNA分子将在亚硫酸氢钠处理期间被片段化,并且所述片段允许DNA的直接测序以检测亚硫酸氢钠处理之后的突出端信息。
在图63中,通过血浆DNA的环化而无需随机标记扩增直接评估血浆DNA锯齿状末端/突出端。红色箭头指示DNA与额外插入的接头之间的接合点,其将用于通过比较与红色箭头所指出的直接邻近接合点的碱基之间的互补性程度来推断突出端。参考接合点,被询问突出端的左短序列的接合点旁边的末端将标记为“a”;被询问突出端的右短序列的接合点旁边的末端将标记为“b”。在将标记为“a”和“b”的短序列与人类参考基因组进行比对之后,最初用“a”和“b”标记的末端之间的基因组坐标的偏移将直接反映血浆中存在的突出端。这种突出端推理还可以在不与参考基因组进行比对的情况下进行,因为直接邻近接合点的左短序列和右短序列可能是部分互补的。在“a”与“b”末端之间形成的非互补单链指示突出端。
A.切割环状核酸分子的示例方法
图64示出了分析从个体获得的生物样品的方法6400。生物样品可以包含双链核酸分子。双链核酸分子可以是游离的。双链核酸分子具有第一链和第二链。双链核酸分子具有第一末端和与所述第一末端相对的第二末端。
在框6402处,使用具有已知谱式特征的寡核苷酸使双链核酸分子环化。产生了环状核酸分子。环状核酸分子可以包含亚硫酸氢盐处理之后的图60或图61中的分子或图63中的ssDNA连接酶之后的分子,即使分子本身不是完美的圆。
可以通过将第一寡核苷酸连接到第一末端处的第一链和第二链来形成环状核酸分子。第二寡核苷酸可以连接到第二末端处的第一链和第二链。第二寡核苷酸可以包含核苷酸的第二已知谱式特征。环状核酸分子可以包含第一链、第二链、第一化合物和第二化合物。
在框6404处,切割环状核酸分子以形成单链核酸分子。
在框6406处,分析单链核酸分子以产生第一读数和第二读数。单链核酸分子可以包含第一区段,所述第一区段包含在第一读数所对应的第一末端处的第一链的核苷酸的谱式特征。单链核酸分子还可以包含具有核苷酸的第一已知谱式特征的第一核苷酸。单链核酸分子可以进一步包含第二区段,所述第二区段包含在第二读数所对应的第一末端处的第二链的核苷酸的第二谱式特征。分析单链核酸分子还可以产生与第一寡核苷酸相对应的读数。可以通过对单链核酸分子进行测序来产生读数。
在一些实施例中,分析单链核酸分子可以包含对单链核酸分子进行随机标记。第三寡核苷酸可以粘接到单链核酸分子。如图60中所示,第三寡核苷酸可以是3'封端标记寡核苷酸。可以扩增单链核酸分子以添加测序接头。
在框6408处,将第一读数和第二读数与参考序列或彼此进行比对。所述参考序列可以是人类参考基因组。
在框6410处,使用所述第一读数和所述第二读数的所述比对来测定所述双链核酸分子是否包含所述第一链的未与所述第二链杂交的部分。
方法6400可以进一步包含测定第一链的未与第二链杂交的部分的长度。测定所述长度可以使用所述比对。长度可以是用关于图1描述的任何方法测量的性质。
B.分析环状核酸分子的示例方法
图65示出了分析从个体获得的生物样品的方法6500。生物样品可以包含双链核酸分子。双链核酸分子可以是游离的。双链核酸分子具有第一链和第二链。双链核酸分子具有第一末端和与所述第一末端相对的第二末端。
在框6502处,使用具有已知谱式特征的寡核苷酸使双链核酸分子环化。产生了环状核酸分子。环状核酸分子可以包含图62中的分子。
可以通过将第一寡核苷酸连接到第一末端处的第一链和第二链来形成环状核酸分子。第二寡核苷酸可以连接到第二末端处的第一链和第二链。第二寡核苷酸可以包含核苷酸的第二已知谱式特征。环状核酸分子可以包含第一链、第二链、第一化合物和第二化合物。
在框6504处,分析单链核酸分子以产生第一读数和第二读数。单链核酸分子可以包含第一区段,所述第一区段包含在第一读数所对应的第一末端处的第一链的核苷酸的谱式特征。单链核酸分子还可以包含具有核苷酸的第一已知谱式特征的第一核苷酸。单链核酸分子可以进一步包含第二区段,所述第二区段包含在第二读数所对应的第一末端处的第二链的核苷酸的第二谱式特征。
分析单链核酸分子还可以产生与第一寡核苷酸相对应的读数。可以通过环状核酸分子的单分子测序来产生读数。聚合酶可以与第一寡核苷酸结合,并且所述聚合酶可以初始化单分子测序,如关于图62和PacBio SMRT孔所述。方法J00可以排除亚硫酸氢盐处理。
在框6506处,将第一读数和第二读数与参考序列或彼此进行比对。所述参考序列可以是人类参考基因组。
在框6508处,使用所述第一读数和所述第二读数的所述比对来测定所述双链核酸分子是否包含所述第一链的未与所述第二链杂交的部分。
方法6500可以进一步包含测定第一链的未与第二链杂交的部分的长度。测定所述长度可以使用所述比对。长度可以是用关于图1描述的任何方法测量的性质。
IX.用于评估游离DNA突出端的基于肌苷的测序
图66示出了可以如何使用基于肌苷的测序来评估锯齿状末端。可以在末端修复期间使用肌苷而不是常规dNTP。如图66中所示,肌苷碱基将掺入到相对于相对链(由一段“I”指示)呈现压痕的链的3'末端中。
由于肌苷(I)能够与四种碱基中的每种碱基配对(杂交),如果仅肌苷与DNA聚合酶混合在一起,则在末端修复期间,血浆DNA的锯齿状末端将被一系列肌苷填充。DNA聚合酶将从5'到3'合成DNA。因此,5'突出的链将用作DNA模板以促进肌苷掺入到相对链的3'末端上。一旦携带锯齿状末端的DNA分子填充有肌苷,则存在多种方式来检测5'突出的末端的相对链上的这种一系列肌苷。(1)这种分子可以与测序接头连接。接头标记的分子可以变性成单链DNA分子,并且加载到含有接头的隔室(即孔、流动池、液滴)上。
一个隔室将仅含有一个分子。在介质中,存在数百万个这种隔室。隔室中的分子将通过与分别被标记为4种类型的染料的4种类型的核苷酸(A、C、G和T)混合的DNA聚合酶扩增。隔室中的非I碱基(共有序列)将产生比对应原始锯齿状末端的I碱基更高的由激光活化的染料发射的光的纯度。荧光的纯度可以通过最亮的碱基强度除以最亮和次亮碱基强度之和来定义。(2)隔室中的经过克隆扩增的分子可以在依诺米那公司测序平台中进行。与共有序列相比,源自锯齿状末端的测序结果将含有高得多的测序误差,从而允许区分每个分子的锯齿状末端。另一方面,测序质量(碱基质量)将在锯齿状末端的区域上显著降低,这也可以用于推断锯齿状末端。
检测分子中的肌苷的另一个实施例使用离子半导体测序或PacBio SMRT测序。对于离子半导体测序,可以使用天然核苷酸而不是使用染料标记的核苷酸在隔室(微孔)中进行乳液PCR。在测序期间,将核苷酸物种一次一个地添加到孔中,并且进行标准延伸反应。每次掺入碱基,就会产生单个质子(H+)作为副产物,所述副产物将被半导体转化成电子电压信号。由于在乳液PCR中的克隆扩增期间特定类型的DNA模板的有效浓度被稀释的事实,与其它区域相比,锯齿状末端中的主要电子信号将显著减少。另一方面,背景电子信号的基线沿锯齿状末端区域将比共有区域的基线高,因为每个新核苷酸的添加将有机会掺入到可变序列之一中,而在共有区域期间每4个核苷酸旋转将仅正确掺入一种类型的核苷酸。在PacBio SMRT测序中,当从子读数构建共有序列时,误差率将在锯齿状末端中增加。其它类型的测序技术还可以用于检测在末端修复期间填充的此类类似物,例如但不限于基于连接的测序。
图67示出了根据本发明的实施例的用于测量双链核酸分子的锯齿状末端的方法6700。方法6700可以在如本文所述的锯齿状末端上进行。
在框6702处,对于所述多个核酸分子中的每个核酸分子,使包括一种或多种核苷酸类似物的第一化合物与第一链的第一部分杂交。第一化合物和第二链可以形成延长的第二链。所述一种或多种核苷酸类似物可以与任何核苷酸杂交。
在框6704处,将第一链与第一化合物和第二链分离。
在框6706处,对所述多个延长的第二链中的每个延长的第二链进行测序,以在延长的第二链上的多个定位中的每个定位处产生核苷酸信号。作为实例,核苷酸信号可以是荧光信号或电信号。如上所述,测序可以包含对延长的第二链进行克隆扩增,使得不同的碱基可以出现在延长的第二链的末端处。
在框6708处,对于所述多个延长的第二链中的每个延长的第二链,通过检测从第一定位到后续定位的最大核苷酸信号的强度变化来标识对应第二链的末端的第一定位。如上所述,所述变化可以与信号质量的总体下降相关,因为所有核苷酸(碱基)将具有类似的强度,因为其均以等概率(频率)与类似物杂交。
强度变化可以大于阈值。对于相对于第一定位的N个定位,可能需要维持大于阈值的强度变化,其中N是大于一的整数,例如2、3、4、5、6、7、8、9、10等。最大核苷酸信号的强度变化可以相对于第二高核苷酸信号。最大核苷酸信号的强度变化可以被测量为第一定位处的碱基调用的质量评分。
X.衰老和突出端
从分子谱预测人类衰老的能力在许多领域都具有重要意义,包含但不限于疾病治疗、预防、衰老、药物反应以及法医学。实足年龄与基于游离分子概况的年龄预测之间的不一致将提示疾病和健康状态,并且可以是寿命或寿命缺乏的生物标志物。图68示出了血浆DNA突出端概况可以用于预测衰老。通过120到140bp范围内的分子的突出端指数相对于没有任何尺寸选择的所有分子的突出端指数来计算突出端指数比率。
因此,在一些实施例中,可以将锯齿状末端值与参考值进行比较,并且可以基于所述比较测定个体的年龄。例如,参考值可以从拟合到校准数据点6804的校准曲线6802或从任何校准数据点6804来测定。因此,参考值可以使用来自具有已知年龄的一个或多个参考受试者的核酸分子来获得,所述一个或多个参考受试者的校准样品是针对锯齿状末端值测量的。在一些实施方案中,所述多个核酸分子的尺寸处于特定尺寸范围内。
XI.示例系统
图69展示了根据本发明的实施方式的测量系统6900。所示系统包含样品6905,如样品固持器6910内的游离DNA分子,其中样品6905可以与测定6908接触以提供物理特性信号6915。样品固持器的实例可以是包含测定物的探针和/或引物的流动池或液滴移动通过的管(其中液滴包含测定)。检测器6920检测来自样品的物理特性6915(例如,荧光强度、电压或电流)。检测器6920可以以一定间隔(例如,周期间隔)来进行测量,以便获得组成数据信号的数据点。在一个实施例中,模数转换器在多个时间将来自检测器的模拟信号转换成数字形式。样品固持器6910和检测器6920可以形成测定装置,例如,根据本文所述的实施例进行测序的测序装置。数据信号6925从检测器6920发送到逻辑系统6930。数据信号6925可以存储在本地存储器6935、外部存储器6940或存储装置6945中。
逻辑系统6930可以是或可以包含计算机系统、ASIC、微处理器等。其还可以包含显示器(例如,监测器、LED显示器等)和用户输入装置(例如,鼠标、键盘、按钮等)或与所述显示器和用户输入装置耦合。逻辑系统6930和其它组件可以是独立的或网络连接的计算机系统的一部分,或者逻辑系统可以直接连接到或并入在包含检测器6920和/或样品固持器6910的装置(例如,测序装置)中。逻辑系统6930还可以包含在处理器6950中执行的软件。逻辑系统6930可以包含存储用于控制系统6900以执行本文所述的任何方法的指令的计算机可读介质。例如,逻辑系统6930可以向包含样品固持器6910的系统提供命令,使得测序或其它物理操作得以执行。可以按特定顺序执行此类物理操作,例如按特定顺序添加和去除试剂。此类物理操作可以由机器人系统(例如,包含机械臂的机器人系统)执行,其可以用于获得样品并执行测定。
本文提及的任何计算机系统均可以使用任何合适数量的子系统。在图70中,在计算机系统10中示出了此类子系统的实例。在一些实施例中,计算机系统包含单个计算机设备,其中子系统可以是计算机设备的组件。在其它实施例中,计算机系统可以包含具有内部组件的多个计算机设备,每个计算机设备是子系统。计算机系统可以包含台式计算机和膝上型计算机、平板电脑、移动电话和其它移动装置。
图70中所示的子系统通过系统总线75互连。示出了如打印机74、键盘78、一个或多个存储装置79、耦合到显示适配器82的监测器76(例如,显示屏,如LED)等另外的子系统以及其它子系统。可以通过本领域中已知的任何数量的如输入/输出(I/O)端口77(例如,USB、
)等装置来将耦合到I/O控制器71的外围设备和输入/输出(I/O)装置连接到计算机系统。例如,I/O端口77或外部接口81(例如,以太网、Wi-Fi等)可以用于将计算机系统10连接到如因特网等广域网、鼠标输入装置或扫描仪。通过系统总线75的互连允许中央处理器73与每个子系统通信并控制来自系统存储器72或一个或多个存储装置79(例如,如硬盘驱动器或光盘等固定盘)的多个指令的执行、以及子系统之间信息的交换。系统存储器72和/或一个或多个存储装置79可以体现为计算机可读介质。另一个子系统是数据收集装置85,如相机、麦克风、加速计等。本文提及的数据中的任何数据可以从一个组件输出到另一个组件且可以输出到用户。
计算机系统可以包含多个相同的组件或子系统,例如通过外部接口81、通过内部接口或通过可以从一个组件连接到另一个组件并且从一个组件去除的可移除存储装置连接在一起。在一些实施例中,计算机系统、子系统或设备可以通过网络进行通信。在此类情况下,一个计算机可以视为客户端并且另一个计算机视为服务器,其中每一个可以是同一个计算机系统的一部分。客户端和服务器可以各自包含多个系统、子系统或组件。
实施例的各个方面可以使用硬件电路系统(例如,专用集成电路或现场可编程门阵列)和/或使用具有以模块化或集成方式的一般可编程处理器的计算机软件以控制逻辑的形式实施。如本文所使用的,处理器可以包含单核处理器、在同一集成芯片上的多核处理器或者在单个电路板上或联网的多个处理单元,以及专用硬件。基于本文提供的公开和教导,本领域的普通技术人员将了解和理解使用硬件以及硬件和软件的组合实施本发明的实施例的其它方式和/或方法。
本申请中描述的任何软件组件或功能可以实施为被处理器使用任何合适的计算机语言,例如Java、C、C++、C#、Objective-C、Swift或如Perl或Python等脚本语言使用例如,常规或面向对象的技术执行的软件代码。软件代码可以存储为计算机可读介质上用于存储和/或传输的一系列指令或命令。合适的非瞬态计算机可读介质可以包含随机存取存储器(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘等磁性介质或如致密盘(CD)或DVD(数字多功能盘)或蓝光光盘等光学介质、闪存等。计算机可读介质可以是这类存储或传输装置的任何组合。
也可以使用适于通过符合各种协议的有线、光学和/或无线网络(包含因特网)传输的载波信号来编码和传输此类程序。因此,计算机可读介质可以使用以这类程序编码的数据信号产生。用程序代码编码的计算机可读介质可以与兼容装置打包在一起或与其它装置分开提供(例如,通过因特网下载)。任何这种计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)上或内,并且可以存在于系统或网络内的不同计算机产品上或内。计算机系统可以包含监测器、打印机或用于向用户提供本文提及的任何结果的其它合适的显示器。
本文所述的任何方法可以用包含一个或多个处理器的计算机系统完全或部分地执行,所述计算机系统可以被配置成执行步骤。因此,实施例可以涉及被配置成执行本文所述的任何方法的步骤的计算机系统,所述计算机系统可能具有执行相应步骤或相应步骤组的不同组件。尽管以编号的步骤呈现,但本文的方法的步骤可以在同一时间或在不同时间或以不同顺序执行。另外,这些步骤的部分可以与其它方法的其它步骤的部分一起使用。而且,步骤的全部或部分可以是任选的。另外,任何方法的任何步骤可以用模块、单元、电路或用于执行这些步骤的系统的其它装置来执行。
在不脱离本发明的实施例的精神和范围的情况下,可以以任何合适的方式组合特定实施例的具体细节。然而,本发明的其它实施例可以涉及与每个单独方面或这些单独方面的特定组合相关的特定实施例。
出于说明和描述的目的,已经呈现了本公开的示例实施例的以上描述。以上描述并非旨在是详尽的或将本公开限制于所描述的精确形式,并且根据上述教导,许多修改和变化均是可能的。
除非特别指出相反的情况,否则对“一个(a)”、“一种(an)”或“所述(the)”的叙述旨在表示“一个或多个”。除非特别指出相反的情况,否则“或”的使用旨在表示“包含性的或”而不是“排除性的或”。对“第一”组件的引用未必要求提供第二组件。此外,除非明确说明,否则对“第一”或“第二”组件的引用并不将所引用的组件限制到特定位置。术语“基于”旨在表示“至少部分地基于”。
本文所提及的所有专利、专利申请、出版物和描述出于所有目的以其全文引用的方式并入。不承认任何内容为现有技术。