CN112805380B

CN112805380B - 制备用于测序的模块化和组合核酸样品的系统和方法

Info

Publication number: CN112805380B
Application number: CN201980061747.9A
Authority: CN
Inventors: A·H·王
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2018-09-21
Filing date: 2019-09-19
Publication date: 2024-08-16
Anticipated expiration: 2039-09-19
Also published as: CN112805380A; US20220033806A1; JP7152599B2; WO2020058389A1; JP2022500062A; EP3853362A1

Abstract

本公开提供一种制备具有模块化末端序列的核酸文库的方法。所述方法包括将一组不同模块化核酸标签与核酸样品组合，所述核酸样品包括多个双链靶核酸。所述方法进一步包括将所述双链靶核酸中的每一者的末端接合至选自所述一组不同模块化核酸标签的标签，以形成多个双重标记靶核酸，扩增所述双重标记靶核酸中的每一者，从而制备具有模块化末端序列的核酸文库，以及检测具有模块化末端序列的扩增核酸文库。

Description

制备用于测序的模块化和组合核酸样品的系统和方法

背景技术

本公开总体上涉及核酸分析领域，并且更具体地涉及制备用于核酸测序的模板。

单分子核酸测序工作流程通常包括制备一个靶分子文库的步骤，该文库可对用所选测序技术的分析兼容。尽管存在多种文库制备方案，但是这些方案中有许多限于特定类型的样品或测序仪器。因此，需要适用于多种样品类型和测序系统的改进的文库制备方案。

发明内容

本发明通过提供制备用于测序的核酸样品的系统和方法克服了上述缺点。

根据本公开的一个实施例，一种制备具有模块化末端序列的核酸文库的方法包括将一组不同模块化核酸标签与核酸样品组合，该核酸样品包括多个双链靶核酸。该方法进一步包括将双链靶核酸各自的末端接合至选自所述组不同模块化核酸标签的标签，以形成多个双重标记靶核酸，扩增各自的双重标记靶核酸，从而制备具有模块化末端序列的核酸文库，和检测具有模块化末端序列的扩增核酸文库。不同模块化核酸标签各自具有第一链和第二链。第一链包括：i)定义第一链的5′末端的区段A，和ii)定义第一链的3′末端的区段B。第二链包括：i)定义第二链的5′末端并与第一链的区段B互补的区段B′，和ii)定义第二链的3′末端并与第一链的区段A互补的区段A′。

不同模块化核酸标签各自任选地包括区段C，该区段C位于i)区段A和区段B，以及ii)区段A’和区段B’之一之间。区段A、A′、B、B′和C各自选自具有不同核酸序列的区段的集合。区段的集合的每个区段具有至少10个核苷酸的确定序列，并且区段的集合的特征在于成对的编辑距离至少为3。

在一方面，不同模块化核酸标签各自包括在第一链和第二链之一上的区段C。

在另一方面，不同模块化核酸标签各自包括在第一链和第二链各自上的区段C。

在另一方面，区段C包括发夹。

在另一方面，发夹包括茎区域和环区域。

在另一方面，不同模块化核酸标签各自进一步包括至少一个链切割位点。

在另一方面，该方法进一步包括使双重标记靶核酸与切割剂接触，以在切割位点切割双重标记靶核酸，从而形成经切割的双重衔接化的靶核酸。

在另一方面，该方法进一步包括将双重标记靶核酸串联，从而形成串联的双重标记靶核酸。

在另一方面，该方法进一步包括将串联的双重标记靶核酸各自的末端与衔接子接合，从而形成多个双重衔接化串联体。

在另一方面，该方法进一步包括扩增各自双重衔接化串联体。

在另一方面，通过连接接合至模块化核酸标签。

在另一方面，连接是通过靶核酸和模块化核酸标签的粘性末端的接合来进行的。

在另一方面，切割位点包括一个或多个脱氧尿嘧啶，并且切割剂包括尿嘧啶-DNA-N-糖基化酶(UNG)和核酸内切酶。

在另一方面，核酸内切酶选自核酸内切酶III、核酸内切酶IV和核酸内切酶VIII。

在另一方面，切割位点包括一个或多个无碱基位点，并且切割剂包括选自核酸内切酶III、核酸内切酶IV和核酸内切酶VIII的核酸内切酶。

在另一方面，模块化核酸标签包括核酸酶保护核苷酸。

在另一方面，核酸酶保护核苷酸包含硫代磷酸基团。

在另一方面，不同模块化核酸标签各自进一步包括间断序列，该间断序列包括至少三个嵌段，该嵌段各自由至少三个相同核苷酸的均聚物组成。

在另一方面，不同模块化核酸标签各自进一步包括样品标识符序列和分子标识符序列中的至少一个。

在另一方面，接合步骤是靶向的。

在另一方面，接合是非靶向的。

在另一方面，该方法进一步包括对具有模块化末端序列的扩增核酸文库进行测序，从而生成多个测序读取；通过以下各项中的至少一项来分析多个测序读取：i)对多个测序读取进行去重复，以及ii)确定共有序列。

根据本公开的另一个实施例，一种组合物包括一组模块化核酸标签。标签各自包括第一链和第二链，第一链包括：i)定义第一链的5′末端的区段A，和ii)定义第一链的3′末端的区段B，以及第二链包括：i)定义第二链的5′末端并与第一链的区段B互补的区段B′，和ii)定义第二链的3′末端并与第一链的区段A互补的区段A′。模块化核酸标签各自任选地包括区段C，该区段C位于i)区段A和区段B，以及ii)区段A′和区段B′之一之间。区段A、A′、B、B′和C各自选自具有不同核酸序列的区段的集合。区段的集合的每个区段具有至少10个核苷酸的确定序列，并且区段的集合的特征在于成对的编辑距离至少为3。

在一方面，模块化核酸标签各自包括在第一链和第二链之一上的区段C。

本发明的前述和其他方面以及优点将从以下描述中显现。在说明书中，参考形成其一部分的附图，并且在附图中通过图示的方式示出了本发明的优选实施例。这样的实施例并不一定代表本发明的全部范围，然而因此，在此引用权利要求书来解释本发明的范围。

附图说明

图1A是根据本公开所述的模块化核酸标签的第一实例的示意图。

图1B是根据本公开所述的模块化核酸标签的第二实例的示意图。

图1C是根据本公开所述的双重标记靶核酸的第一实例的示意图。

图1D是根据本公开所述的双重标记靶核酸的第二实例的示意图。

图2A是根据本公开所述的不包括区段C的模块化核酸标签的实例的示意图。

图2B是图2A的模块化核酸标签的替代性表示，详述了模块化核酸标签的每条链的实例的核酸序列。

图2C是根据本公开所述的包括定义未配对环的区段C的模块化核酸标签的示意图。

图2D是图2A的模块化核酸标签的替代性表示，详述了模块化核酸标签的每条链的实例的核酸序列。

图2E是根据本公开所述的包括定义发夹和未配对环的区段C的模块化核酸标签的示意图。

图2F是图2A的模块化核酸标签的替代性表示，详述了模块化核酸标签的每条链的实例的核酸序列。

具体实施方式

I.定义

在本申请中，除非上下文另有明确说明，否则(i)术语“一个”(a)可以理解意为“至少一个”；(ii)术语“或”可以理解意为“和/或”；(iii)术语“包括”(comprising和including)可以理解为涵盖逐项列出的组分或步骤，无论它们是单独呈现还是与一个或多个其他组分或步骤一起呈现；(iv)术语“约”和“大约”可以理解为允许标准变化，如本领域普通技术人员将理解的那样；并且(v)其中提供范围，包括端点。

衔接子：如本文所用，术语“衔接子”意为核苷酸序列，可将其加入另一序列中以赋予该另一序列以另外的性质。衔接子典型是寡核苷酸，它可以是单链的或双链的，或者可具有单链部分和双链部分两者。术语“衔接化靶核酸”是指在一端或两端缀合有衔接子的核酸。本文中可互换地用于衔接子的其他术语是“标签”和“帽”。

扩增：如本文所用，术语“扩增”是指制备靶核酸的另外的拷贝的方法。扩增可具有超过一个循环，例如，指数式扩增的多个循环。扩增可仅具有一个循环(制备靶标核酸的单个拷贝)。该拷贝可具有另外的序列，例如，用于扩增的引物中存在的那些。扩增也可产生仅一条链的拷贝(线性扩增)或优先产生一条链的拷贝(不对称PCR)。

大约：如本文所用，如应用于一个或多个目标值的术语“大约”或“约”是指类似于所述参考值的值。在某些实施例中，术语“大约”或“约”是指在所述参考值的任一方向(大于或小于)的25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或以下范围内的值的范围，除非另有说明或从上下文可以明显看出(除非该数字超过可能值的100％)。

相关：如果一个事件或实体的存在、水平和/或形式与另一个事件或实体的存在、水平和/或形式有关，则两个事件或实体彼此“相关”，如本文所用术语。例如，如果特定实体(例如，多肽、遗传标记、代谢产物等)的存在、水平和/或形式与该疾病、病症或病状的发生率和/或易感性相关，则认为该特定实体与特定疾病、病症或病状相关(例如，在相关人群中)。在一些实施例中，如果两个或更多个实体直接或间接地相互作用，则它们在物理上彼此“相关”，使得它们在物理上彼此接近和/或保持彼此物理接近。在一些实施例中，彼此物理结合的两个或更多个实体彼此共价联接；在一些实施例中，彼此物理结合的两个或更多个实体不彼此共价联接，而是例如通过氢键、范德华相互作用、疏水性相互作用、磁性及其组合的非共价结合。

条形码：如本文所用，术语“条形码”是指可被检测和鉴定的核酸序列。可将条形码并入各种核酸中。条形码足够长，例如，2、5、20个核苷酸，使得在样品中，可根据条形码对掺入条形码的核酸进行区分或分组。

生物样品：如本文所用，术语“生物样品”通常是指从目标生物学来源(例如，组织或生物体或细胞培养物)获得或衍生的样品，如本文所述。在一些实施例中，目标源包括生物体，诸如动物或人，或由其组成。在一些实施例中，生物样品包括生物组织或流体，或由其组成。在一些实施例中，生物样品可以是或包括骨髓；血液；血细胞；腹水；组织或细针活检样品；含细胞的体液；游离的浮动核酸；痰；唾液；尿液；脑脊液；腹膜液；胸膜液；粪便；淋巴；妇科液；皮肤拭子；阴道拭子；口腔拭子；鼻拭子；洗涤或灌洗，诸如导管灌洗或支气管肺泡灌洗；抽出物；刮屑；骨髓标本；组织活检标本；手术标本；其他体液、分泌物和/或排泄物；和/或来自其中的细胞等。在一些实施例中，生物样品包括从个体获得的细胞，或由其组成。在一些实施例中，获得的细胞是或包括来自从其获得样品的个体的细胞。在一些实施例中，样品是通过任何适当的手段直接从目标源获得的“原始样品”。例如，在一些实施例中，通过选自由以下项组成的组的方法来获得原始生物样品：活检(例如，细针抽吸或组织活检)、手术、体液收集(例如，血液、淋巴、粪便等)。在一些实施例中，如从上下文中可以清楚地看出，术语“样品”是指通过处理原始样品(例如，通过去除其一种或多种组分和/或通过向其添加一种或多种试剂)来获得的制备物。例如，使用半透膜过滤。此类“经处理的样品”可以包括例如从样品中提取的核酸或蛋白质，或者通过使原始样品经受诸如mRNA的扩增或逆转录、某些成分的分离和/或纯化等技术而获得的核酸或蛋白质。

组合：如本文所用，术语“组合”具有其通常的含义(即组合的，与组合有关或涉及组合)。因此，被描述为“组合”的组合物表示该组合物由属于有限集合的离散元素的选择构成。组合集合包括满足某些给定条件的所有元素。例如，一组组合核酸标签包括由确定核酸序列的有限集合组成并以确定顺序排列的标签。在一个实例中，组合核酸标签可以由以A-B-C顺序的元素A、元素B和元素C组成，其中元素A选自不同核酸的第一有限集合，元素B选自不同核酸的第二有限集合，并且元素C选自不同核酸的第三有限集合。描述为组合的方法表示该方法包括一个或多个步骤或工作流程，所述步骤或工作流程选自步骤或工作流程的有限集合。

包括：本文描述为“包括”一个或多个命名元素或步骤的组合物或方法是开放式的，这意味着命名元素或步骤是必不可少的，但是可以在组合物或方法的范围内添加其他元素或步骤。应当理解，被描述为“包括”(comprising或comprises)一个或多个命名元素或步骤的组合物或方法还描述了相应的、更有限的“基本上由”相同的命名元素或步骤“组成”(consistingessentially of或consists essentially of)的组合物或方法，意指组合物或方法包括命名的基本元素或步骤，并且还可以包括实质上不影响该组合物或方法的基本和新颖特征的另外元素或步骤。还应理解，本文描述为“包括”或“基本上由”一个或多个命名的元素或步骤组成的任何组合物或方法还描述了相应的、更受限制的、封闭式的“由”命名元素或步骤“组成”(consisting of或consists of)的组合物或方法，以排除任何其他未命名元素或步骤。在本文公开的任何组合物或方法中，任何命名的必要元素或步骤的已知或公开的等同物可以代替该元素或步骤。

设计：如本文所用，术语“设计”是指如下试剂：(i)其结构是由人工选择的；(ii)其是由需要人工进行的方法所产生；和/或(iii)其与天然物质和其他已知试剂不同。

确定：阅读本说明书的本领域的那些普通技术人员将理解的，“确定”可以利用或通过使用本领域技术人员可用的多种技术中的任何一种来完成，包括例如本文中明确提及的特定技术。在一些实施例中，确定涉及对物理样品的操作。在一些实施例中，确定涉及对数据或信息的考虑和/或操作，例如利用适于执行相关分析的计算机或其他处理单元。在一些实施例中，确定涉及从来源接收相关信息和/或材料。在一些实施例中，确定涉及将样品或实体的一个或多个特征与可比参考进行比较。

同一性：如本文所用，术语“同一性”是指聚合物分子之间，例如，核酸分子(例如，DNA分子和/或RNA分子)之间和/或多肽分子之间的总体相关性。在一些实施例中，如果聚合物分子的序列为至少25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％相同，则认为它们彼此“基本上相同”。例如，出于最佳比较目的，两个核酸或多肽序列的同一性百分比计算可以通过比对两个序列来进行(例如，可以在第一序列和第二序列中的一个或两个中引入空位以实现最佳比对，而出于比较目的，可以忽略不相同的序列)。在某些实施例中，出于比较目的而比对的序列的长度是参考序列的长度的至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少100％。然后比较相应位置的核苷酸。当第一序列中的位置被与第二序列中的相应位置相同的残基(例如，核苷酸或氨基酸)占据时，则分子在该位置是相同的。考虑到每个空位的数目和空位的长度，两个序列之间的同一性百分比是序列共享的相同位置的数目的函数，这需要引入以实现两个序列的最佳比对。序列的比较和两个序列之间同一性百分比的确定可以使用数学算法来完成。例如，可以使用Meyers和Miller的算法(CABIOS，1989，4：11-17)确定两个核苷酸序列之间的同一性百分比，该算法已被并入ALIGN程序(2.0版)。在一些示例性实施例中，用ALIGN程序进行的核酸序列比较使用PAM120权重残基表、12的空位长度罚分和4的空位罚分。可替代地，可以使用NWSgapdna.CMP矩阵，使用GCG软件包中的GAP程序确定两个核苷酸序列之间的同一性百分比。

连接：如本文所用，术语“连接”是指将两条核酸链接合的缩合反应，其中一个分子的5′-磷酸酯基团与另一个分子的3′-羟基基团反应。连接典型是由连接酶或拓扑异构酶催化的酶促反应。连接可将两条单链接合以创建一个单链分子。连接也可将每个属于一个双链分子的两条链接合，从而将两个双链分子接合。连接也可将一个双链分子的两条链与另一个双链分子的两条链接合，从而将两个双链分子接合。连接也可将一个双链分子内的一条链的两端接合，从而修复该双链分子内的缺口。

经修饰的核苷酸：如本文所用，术语“经修饰的核苷酸”描述具有除由腺苷、乌苷、胸苷和胞嘧啶组成的四种常规DNA碱基以外的碱基的DNA中的核苷酸。核苷酸dA、dG、dC和dT是常规的。然而，脱氧尿嘧啶(dU)和脱氧肌苷(dI)是DNA中的经修饰的核苷酸。在本发明的上下文中，插入DNA中的核糖核苷酸(rA、rC、rU和rG)也被认为是“经修饰的核苷酸”。最后，在本发明的上下文中，代替核苷酸插入核苷酸链中的非核苷酸部分(诸如，PEG)也被认为是“经修饰的核苷酸”。核苷酸可以以其他方式进一步修饰，诸如通过包括非天然键合，包括硫代磷酸键合。

多重标识符：如本文所用，术语“多重标识符”或“MID”是指一种条形码，它鉴定靶核酸的来源(例如，该核酸所衍生自的样品)。来自相同样品的全部或基本上全部靶核酸将共享相同的MID。来自不同来源或样品的靶核酸可混合并同时测序。使用MID，可将序列读取分配给靶核酸自其起源的个体样品。可以互换使用的MID的另一个术语是“样品标识符”或“SID”。

核酸：如本文所用，术语“核酸”是指核苷酸(例如，核糖核苷酸和脱氧核糖核苷酸，天然的和非天然的两者)的聚合物，包括DNA、RNA和它们的子分类诸如cDNA、mRNA等。核酸可以是单链的或双链的，并且通常将会含有5′-3′磷酸二酯键，但在一些情况下，核苷酸类似物可以具有其他键合。核酸可包括天然出现的碱基(腺嘌呤、乌嘌呤、胞嘧啶、尿嘧啶和胸腺嘧啶)以及非天然碱基。非天然碱基的一些实例包括在例如Seela等人，(1999)Helv.Chim.Acta 82∶1640。非天然碱基可具有特定功能，例如，增加核酸双链体的稳定性、抑制核酸酶消化或阻断引物延伸或链聚合。

多核苷酸和寡核苷酸：如本文所用，术语“多核苷酸”和“寡核苷酸”可互换使用。多核苷酸是单链或双链的核酸。寡核苷酸是有时用来描述较短的多核苷酸的术语。寡核苷酸可通过本领域已知的任何合适方法来制备，例如，通过如在以下中所述的涉及直接化学合成的方法：Narang等人(1979)Meth.Enzymol.68：90-99；Brown等人(1979)Meth.Enzymol.68∶109-151；Beaucage等人(1981)Tetrahedron Lett.22∶1859-1862；Matteucci等人(1981)J.Am.Chem.Soc.103：3185-3191。

引物：如本文所用，术语“引物”是指单链寡核苷酸，它与靶核酸中的序列(“引物结合位点”)杂交并且能够用作在适用于合成的条件下沿着核酸的互补链启动该合成的点。

样品：如本文所用，术语“样品”是指任何含有或假定含有一个或多个靶核酸的组合物。这包括从个体分离的组织或液体的样品，例如，皮肤、血浆、血清、脊髓液、淋巴液、滑液、尿液、泪液、血液细胞、器官和肿瘤，也指从取自个体的细胞建立的体外培养物的样品，包括福尔马林固定石蜡包埋组织(FFPET)和自其分离的核酸。样品也可包括不含细胞的材料，诸如含有无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)的不含细胞的血液级分(fraction)。

自启衔接子：如本文所用，术语“自启衔接子”是指能够启动从衔接子本身链延伸(链的复制)的衔接子。自启衔接子与包括引物结合位点的传统衔接子形成对比，其中一个单独的引物分子与衔接子结合以启动从引物的链延伸。

测序：如本文所用，术语“测序”是指任何测定靶核酸中核苷酸序列的方法。

单遍准确性：如本文所用，术语“单遍准确性”是指在给定模板上单遍产生的并且在组装共有序列之前由测序平台确定的输出数据(例如，单个碱基调用)的准确性(如果适用)。在通过合成反应测序的情况下，单遍将涉及模板的单个拷贝的复制。在基于单个分子经过孔或其他类似通道的通过的单分子测序平台的情况下，单遍将涉及分子经过通道的单次通过。

基本上：如本文所用，术语“基本上”是指展现出目标特征或特性的全部或接近全部范围或程度的定性条件。生物学领域的普通技术人员将理解的，生物学和化学现象很少(如果有的话)去完成和/或继续完成或达到或避免绝对结果。因此，本文使用术语“基本上”来捕获许多生物学和化学现象中固有的潜在完整性不足。

合成的：如本文所用，术语“合成的”意指由人工产生的，并且因此以自然界中不存在的形式产生的，要么是因为其具有自然界中不存在的结构，要么是因为它与一个或多个其他组分(自然界中与其不结合)结合，要么不与一个或多个其他组分(自然界中与其结合)结合。

靶序列：如本文所用，术语“靶序列”、“靶核酸”或“靶”是指待检测或分析的样品中的核酸序列的一部分。术语靶标包括靶序列的全部变体，例如，一种或多种突变变体和野生型变体。

独特的分子标识符：如本文所用，术语“独特的分子标识符”或“UID”是一种条形码，其鉴定与其附接的核酸。来自相同样品的全部或基本上全部靶核酸会具有不同的UID。源自相同的初始靶核酸的全部或基本上全部子代(例如，扩增子)将共享相同的UID。

通用引物：如本文所用，术语“通用引物”和“通用引发结合位点”或“通用引发位点”是指存在于(通常通过体外添加到)不同靶核酸中的引物和引物结合位点。使用衔接子或使用在5′-端中具有通用引发位点的靶特异性(非通用)引物，将该通用引发位点添加至多个靶核酸。该通用引物可与通用引物位点结合并引导引物自该通用引物位点延伸。

更通常地，术语“通用的”是指可以添加到任何靶核酸并执行其功能而与靶核酸序列无关的核酸分子(例如，引物或其他寡核苷酸)。通用分子可通过与补体，例如，通用引物与通用引物结合位点杂交或通用环化寡核苷酸与通用引物序列杂交来执行其功能。

II.某些实施例的详细描述

同样如上所述，在各种情况下，提供制备用于测序的核酸样品的方法可能是有用的。如本领域普通技术人员将理解的，给定核酸测序平台的设计决定了可以测序的核酸的类型和构型。因此，为了使用测序平台，通常需要首先对样品中存在的核酸进行操作以提供与测序平台兼容的格式的核酸。典型的样品制备工作流程需要以下步骤，诸如，从其余样品中分离核酸，将核酸转化为双链分子(通常为双链DNA)，将核酸片段转化为具有均一的、确定长度的或长度分布的分子，以及用核酸衔接子修饰核酸的末端。

衔接子在核酸样品制备中的应用对于测序特别重要，因为这些衔接子可以任选地包括此类特征如引发位点、通用标识符序列(UID)(也称为条形码)和样品标识符序列(SID)(也称为样品索引)和多重标识符序列(MID)。

与制备用于测序的核酸样品的现有方法相关的一个挑战是该方法不普遍适用于样品类型或测序平台。也就是说，现有的工作流程通常是特定于特定样品类型和特定测序平台的。此外，这些工作流通常是相互独立的或不兼容的。结果，在需要与不同样品类型或测序平台一起使用的情况下，用户必须学习各种各样的不同工作流程并获得各种各样的试剂和设备。

这些和其他挑战可以通过根据本公开所述的制备用于测序的模块化和组合核酸样品的系统和方法来克服。在一方面，本公开提供了兼容的样品制备步骤和工作流程的集合，所述步骤和工作流程可以被混合和匹配，以便适应各种各样的样品类型和测序平台。以下描述分别描述了这些各自新颖的步骤和工作流程，然后示出了根据本公开所述的如何可以组合这些步骤和工作流程的实例。

如上所述，单分子测序方法涉及生成衔接化靶核酸文库的步骤。在一些方法中，文库由线性靶核酸制成。在线性文库准备工作流程期间，可能需要将单个文库片段与一个或多个UID、一个或多个SID等或其组合结合。当前的方法通常将此类标识符序列掺入通用衔接子序列中，该通用衔接子序列附加到靶核酸片段的一个或两个末端以提供衔接化的文库片段。在一方面，此类衔接子可限制文库片段的下游操作。在另一方面，此类衔接子可能与从多种样品类型衍生的核酸不兼容。

本公开的一个方面提供了新颖的模块化和组合核酸标签，其被附接到靶核酸片段的一个或两个末端。本发明的标签具有许多优点。标签促进包括但不限于UID和SID的标识符序列与靶核酸片段的一个或两个末端的结合。然后可以以多种方式进一步操作标记的靶核酸片段。在一个实例中，可将标记的片段连接在一起以形成适合于长读取测序方法的更长的分子。在另一个实例中，可以通过添加核酸衔接子诸如叉状衔接子或发夹衔接子来进一步修饰标记的片段。

本公开的标签与不同类型的靶核酸兼容，包括基因组DNA(gDNA)、短片段(即，小于约200个核苷酸)、长片段(即，大于约200个核苷酸)、核酸扩增产品等及其组合。靶核酸的长度和最终制备的与标签兼容的测序模板的总体长度仅受所选测序平台的限制。

本发明的标签进一步促进样品中靶核酸的检测。在一些实施例中，该样品获自受试者或患者。在一些实施例中，该样品可包括例如通过活检而获自该受试者或患者的固体组织或实体肿瘤的片段。该样品还可包括体液(如尿液、痰、血清、血浆或淋巴、唾液、痰、汗液、泪液、脑脊液、羊水、滑液、心包液、腹膜液、胸膜液、囊液、胆汁、胃液、肠液和/或粪便样品)，该样品可包括全血或可能存在肿瘤细胞的血液级分。在一些实施例中，该样品，特别是液体样品可包括无细胞材料，诸如无细胞DNA或RNA，包括无细胞肿瘤DNA或肿瘤RNA。本发明特别适合于分析稀有和少量靶。此外，本发明可以针对高丰度和低丰度样品进行模块化。在一些实施例中，该样品是无细胞样品，例如，存在无细胞肿瘤DNA或肿瘤RNA的无细胞血源性样品。在其他实施例中，该样品是培养样品，例如，含有或疑似含有感染源或源自该感染源的核酸的培养物或培养物上清液。在一些实施例中，该感染源是细菌、原生动物、病毒或支原体。

靶核酸是指样品中可能存在的目标核酸。在一些实施例中，该靶核酸是基因或基因片段。在其他实施例中，该靶核酸包括遗传性变型，例如多态性，包括单核苷酸多态性或变型(SNP或SNV)，或导致例如基因融合的基因重排。在一些实施例中，该靶核酸是生物标志物。在其他实施例中，该靶核酸具有特定生物体的特征，例如，有助于识别病原生物或病原生物的特征，例如药物敏感性或耐药性。在其他实施例中，该靶核酸具有人受试者的特征，例如，界定该受试者的独特HLA或KIR基因型的HLA或KIR序列。在其他实施例中，样品中的所有序列均为例如鸟枪法基因组测序中的靶核酸。

在本发明的一个实施例中，将双链靶核酸转化为本发明的模板构型。在一些实施例中，靶核酸在自然界中以单链形式存在(例如，RNA，包括mRNA、microRNA、病毒RNA；或单链病毒DNA)。单链靶核酸被转化成双链形式以实现所要求保护的方法的进一步步骤。

可以使更长的靶核酸片段化，尽管在某些应用中可能需要更长的靶核酸以实现更长的读取。在一些实施例中，靶核酸是天然片段化的，例如，循环无细胞DNA(cfDNA)或化学降解的DNA，诸如在保存的样品中发现的一种。在其他实施例中，例如通过物理手段诸如超声处理或通过核酸内切酶消化，例如，限制性消化在体外使靶核酸片段化。

在一些实施例中，本发明包括靶富集步骤。所述富集可以通过一个或多个靶特异性探针捕获靶序列来实现。样品中的核酸可变性并与单链靶特异性探针接触。该探针可以包括亲和力捕获部分的配体，以便在形成杂交复合物后，通过提供亲和力捕获部分来捕获它们。在一些实施例中，亲和力捕获部分为亲和素或链霉亲和素，且所述配体为生物素或脱硫生物素。在一些实施例中，该部分与固体支持物结合。如下文进一步详细描述的，该固体支持物可以包括超顺磁性球形聚合物颗粒，诸如DYNABEADS^TM磁性珠或磁性玻璃颗粒。

在本发明的一些实施例中，将衔接子分子与靶核酸连接。该连接可以是平末端连接，也可以是更有效的粘性末端连接。靶核酸或衔接子可以通过包括链填充的“末端修复”平末端化，即通过DNA聚合酶延伸3′-末端以消除5′-突出端。在一些实施例中，平末端化的衔接子和靶核酸可以通过向衔接子的3′-末端添加单个核苷酸和向靶核酸的3′-末端添加单个互补核苷酸(例如，通过DNA聚合酶或末端转移酶)具有粘性。在其他实施例中，该衔接子和该靶核酸可以通过使用限制性内切酶消化来获得粘性末端(突出端)。就已知含有限制性内切酶识别位点的已知靶序列而言，后一种选择更为有利。在一些实施例中，可能需要其他酶步骤来完成该连接。在一些实施例中，多核苷酸激酶可以用于向该靶核酸分子和衔接子分子添加5′-磷酸盐。

在一些实施例中，衔接子分子是在体外合成的人工序列。在其他实施例中，衔接子分子是在体外合成的天然存在的序列。在其他实施例中，衔接子分子是分离的天然存在的分子。

在一些实施例中，本发明包括通过连接含有条形码的标签或衔接子将条形码引入靶核酸。对单个分子进行测序通常需要分子条形码，诸如例如美国专利号7,393,665、8,168,385、8,481,292、8,685,678和8,722,368中所述。独特的分子条形码是短人工序列，其通常在体外操作的最初步骤中添加到样品(诸如患者的样品)中的每个分子上。该条形码标记了分子及其子代。该独特的分子条形码(UID)具有多种用途。条形码可以跟踪样品中的每个单个核酸分子，以评估例如患者的血液中循环肿瘤DNA(ctDNA)分子的存在和数量，以便在不进行活检的情况下检测和监测癌症。参见美国专利申请14/209,807和14/774,518。独特的分子条形码也可用于测序纠错。单个靶分子的整个子代都用相同的条形码标记，并形成条形码家族。不被带条形码家族的所有成员共享的序列变异被作为伪像丢弃而不是真突变。条形码还可以用于位置重复数据删除和靶定量，因为整个家族代表原始样品中的单个分子。参见同上。

在本发明的一些实施例中，衔接子包括一个或多个条形码。条形码可以是在样品被混合(多重化)的情况下用于鉴定样品来源的样品标识符(SID)或多重标识符序列(MID)。条形码也可以作为通用标识符序列UID，用于鉴定每个原始分子及其子代。条形码也可以是UID和MID的组合。在一些实施例中，将单个条形码用作UID和MID。

在一些实施例中，每个条形码包括预定义序列。在其他实施例中，条形码包括随机序列。条形码可以是1-40个核苷酸长。

在本发明的方法中，标签包括链切割位点。切割位点选自可使用特异性核酸内切酶的经修饰的核苷酸。经修饰的核苷酸-核酸内切酶对的实例的非限制性列表包括脱氧尿嘧啶-尿嘧啶-N-DNA糖基化酶(UNG)加核酸内切酶；无碱基位点-AP核酸酶；8-氧代乌嘌呤-8-氧代乌嘌呤DNA糖基化酶(也称为FPG(甲酰胺基嘧啶[fapy]-DNA糖基化酶))；脱氧肌苷-烷基腺嘌呤糖基化酶(AAG)加核酸内切酶以及核糖核苷酸-RNaseH。

不同的切割剂生成不同的产物。在一些实施例中，使用核酸内切酶VIII(EndoVIII)，其产生包括3′-P在内的产物的混合物。在其他实施例中，使用核酸内切酶III(EndoIII)，其产生3′-磷酸-α，β-不饱和醛。在其他实施例中，使用核酸内切酶IV(Endo IV)，其产生3′-OH末端。不可延伸的末端在使用单独的测序引物的实施例中是有利的。在没有单独的测序引物并且测序反应由可扩展的3′-末端自启的情况下，可扩展的3′-末端(3′-OH)很有优势。

在一些实施例中，该方法包括以下步骤：在可以发生此类切割的条件下，使反应混合物与能够切割切割位点的核酸内切酶接触。

在一些实施例中，该方法包括亲和捕获衔接化靶核酸或任何其他测序中间体(例如，孔蛋白、DNA聚合酶和用于纳米孔测序的模板的三元复合物)。为此，标签可以掺入亲和配体(例如，生物素)，该亲和配体将使靶能够被亲和捕获部分(例如，通过链霉亲和素)捕获。在一些实施例中，使用脱硫生物素。在一些实施例中，亲和捕获利用结合至固体支持物的亲和分子(例如，链霉亲和素)。固体支持物可能能够悬浮在溶液中(例如，玻璃珠、磁性珠、聚合物珠或其他类似的颗粒)或是固相支持物(例如，硅晶片、载玻片等)。液相支持物的实例包括超顺磁性球形聚合物颗粒诸如DYNABEADS^TM磁性珠或磁性玻璃颗粒诸如在美国专利656568、6274386、7371830、6870047、6255477、6746874和6258531中所述。在一些实施例中，亲和配体是核酸序列，并且其亲和分子是互补序列。在一些实施例中，固体底物包括聚-T寡核苷酸，而标签包括至少部分单链的聚-A部分。

在一些实施例中，通过选自单链结合蛋白的各种试剂(例如，细菌SSB，低复杂度DNA C0t DNA(富集重复序列的DNA))或化学试剂诸如碱、甘油、尿素、DMSO或甲酰胺来增强链分离。

在一些实施例中，本发明在标签连接步骤之后包括核酸外切酶消化步骤。核酸外切酶可以是单链特异性核酸外切酶、双链特异性核酸外切酶或其组合。核酸外切酶可以是核酸外切酶I、核酸外切酶III和核酸外切酶VII中的一种或多种。

在一些实施例中，本发明包括一种制备如本文所述的预备测序的标记的靶核酸文库的方法以及通过该方法产生的文库。具体地，文库包括从样品中存在的核酸衍生的标记的靶核酸的集合。文库的标记的靶核酸分子包括在每个末端与标记的序列连接的靶序列。

在一些实施例中，本发明包括通过核酸测序检测样品中的靶核酸。可以将多种核酸，包括样品中的所有核酸，转化到本发明文库中并进行测序。

在一些实施例中，该方法进一步包括从文库中消除受损或降解的靶的步骤，以便提高测序读取的质量和长度。该步骤可以包括使文库与尿嘧啶DNA N-糖基化酶(UNG或UDG)、AP核酸酶和FPG(甲酰胺基嘧啶[fapy]-DNA糖基化酶)(也被称为8-氧代乌嘌呤DNA糖基化酶)中的一种或多种接触，以便使此类受损的靶核酸降解。

测序可通过本领域已知的任何方法实施。尤其有利的是能够读取长靶核酸的高通量单分子测序。此类技术的实例包括利用SMRT的PacificBiosciences平台(PacificBiosciences，Menlo Park，Cal.)或利用纳米孔技术的平台诸如牛津纳米孔技术公司(Oxford，UK)或罗氏测序解决方案公司(Roche Genia，Santa Clara，Cal.)制造的那些，和任何其他现有的或将来的DNA测序技术，该技术涉及或不涉及通过合成的测序。测序步骤可利用平台特异性测序引物。

在一些实施例中，测序步骤涉及包括序列比对步骤的序列分析。在一些实施例中，比对用于从多个序列(例如，具有相同条形码(UID)的多个序列)中确定共有序列。在一些实施例中，条形码(UID)用于从具有相同条形码(UID)的多个序列中确定共有序列。在其他实施例中，使用条形码(UID)来消除伪像，即，存在于一些但并非全部具有相同条形码(UID)的序列中的变异。源自样品制备或测序误差的此类伪像可以被消除。

在一些实施例中，通过定量样品中每个条形码(UID)的序列的相对数量，可以定量样品中的每个序列的数量。每个UID代表原始样品中的单个分子，且计数与每个序列变体相关的不同UID可以确定每个序列在原始样品中的比例。本领域技术人员将能够确定为确定共有序列所必需的序列读出的数量。在一些实施例中，为了准确的定量结果，每个UID(“序列深度”)都需要读取相关数量。在一些实施例中，期望的深度是每个UID 5-50次读取。

本公开提供了将定义独特的识别序列(UID)、样品标识符序列(SID)或其组合的标签，其附接至待测序的dsDNA的一个或两个末端。这些标签可以是由模块化序列区段/盒组成的双链核酸。每个区段可以在第一链上包括确定序列，并且在第二链上包括互补序列。因此，用确定序列(或互补序列)标记双链靶核酸的两条链提供了组合标识符以及在测序过程之后确认UID序列数据。所得的标记的双链靶核酸可以直接附接到测序衔接子上或串联成长dsDNA。具有所得的串联体的每个片段在两端用标识符序列分开(间断化)，串联体的末端终止于测序衔接子。标记的靶核酸可以在串联、衔接子附接或两者之前或之后进一步扩增。

本公开描述了用于产生适用于但不限于长读取核酸测序仪器的测序文库的许多新颖方法。在一方面，所公开的方法与测序仪器兼容，所述测序仪器特征在于单遍准确性低(即，小于约99％)。在另一方面，所公开的方法通过掺入UID、MID或其组合而进一步与计数应用兼容。

根据一个实施例，本公开涉及模块化组合核酸标签的生成。标签不限于使用任何特定的核酸样品。例如，核酸样品可以包括特征在于多种长度、长度分布、序列复杂性等的核酸片段。本公开进一步提供了包括将不对称模块化核酸标签附接到双链靶核酸的两端的方法。标签可以包括UID、SID或其组合。在一些实施例中，在模块化核酸标签附接之前，使包括一种或多种靶核酸的核酸样品片段化。给定样品片段化的程度可以变化。例如，标签可以附着于高度片段化的DNA样品，诸如无细胞DNA，包括循环肿瘤DNA和无细胞胎儿DNA。所得的文库材料可以按指数方式扩增并保留定量信息，尤其是如果在与独特的分子ID序列串联后进行扩增。

现在转到图1A，模块化和组合核酸标签100的实施例包括第一链102和第二链104。第一链102包括多个区段，其包括定义第一链102的5′末端的区段A和定义第一链102的3′末端的区段B。第二链104还包括多个区段，其包括定义第二链104的5′末端并与第一链102的区段B互补的区段B′，定义第二链104的3′末端并与第一链102的区段A互补的区段A′，和在区段A′和区段B′之间的区段C。区段A和区段A′形成第一模块或A/A′区段对，而区段B和区段B′形成第二模块或B/B′区段对。

A/A′区段对和B/B′区段对各自都确定了标识符序列。标识符序列可以是UID和SID、标识符序列的另一类或其组合。区段C对区段对没有贡献，而是分别确定一个不对称标识符序列。不对称标识符序列可以有助于由A/A′区段对或B/B′区段对确定的标识符序列，或可以确定独立的UID、SID或其他标识符序列。在将包括区段C的标签附接至靶核酸后，可以例如通过聚合酶链式反应复制标记的靶核酸。所得的双链核酸产物将同时包括区段C的拷贝和补体。结果，原始模板的第一链和第二链可被识别为已配对。如本领域普通技术人员将理解的，该信息可以促进将各种不同的分析技术应用于所得的测序数据。

在一方面，区段(即，A、A′、B、B′和C)或区段对(即，A/A′、B/B′)各自选自具有不同的核酸序列的区段或区段对的集合。例如，A/A′区段对可以选自第一组核酸区段对，其中第一组核酸区段对的成员各自具有不同的序列。B/B′区段对可以类似地选自第二组核酸区段对，其中第二组核酸区段对的成员各自具有不同的序列。在一方面，可以将第一组核酸区段对和第二组核酸区段对设计成包括不同的序列，使得第一组和第二组之间没有重叠。在一方面，区段对的特征在于成对的编辑距离至少为3。在另一方面，区段对各自可以被设计为具有长度为至少10个核苷酸的确定序列。由此，将理解的是，核酸标签的总体设计因此具有包括至少三个模块化或部分的模块化设计：第一区段对(例如，A/A′区段)，第二区段对(例如，B/B′区段)和未配对的区段(例如，区段C)。从每个区段或区段对可以选自如上所述的不同区段或区段对的有限集合的意义上说，模块化核酸标签被进一步描述为模块化和组合核酸标签。

继续参考图1A，将理解的是，核酸标签100的元素不一定按比例绘制或示出以显示核酸区段的正确比对，如从以下描述中将理解的。例如，可以将元素A和元素A′设计成在核苷酸上具有相同的长度，而图1A示出了区段A的长度大于区段A′的长度。此外，将理解的是，在一些实施例中，代替或除了在区段A′和区段B′之间的区段C之外，核酸标签可以包括在区段A和区段B之间的区段C。例如，图1B示出了核酸标签106的另一个实施例，其包括第一链108和第二链110。第一链108包括定义第一链108的5′末端的区段A，定义第一链108的3′末端的区段B以及在区段A和区段B之间的区段C。第二链110包括定义第二链110的5′末端并与第一链108的区段B互补的区段B′，和定义第二链110的3′末端并与第一链108的区段A互补的区段A′。在又另一个实施例中，模块化核酸标签可以完全排除区段C，如例如图2A和图2B所示。

值得注意的是，区段C仅出现在核酸标签100和106的两条链之一上。在这些实施例中，区段C使得能够对靶核酸进行定向标记、对靶核酸进行不对称标记或其组合。因此，区段C可以通过将定向信息和定量信息两者嵌入到所得的测序数据中来促进所测序的靶核酸的最终组装。在一方面，区段C可以具有随机序列、确定序列或部分确定序列。

现在转到图1C和图1D，可以将核酸标签附接靶核酸片段以提供双重标记靶核酸。首先参考图1C，双重标记靶核酸112包括双链靶核酸片段或插入物114，附接到插入物114的第一末端的第一核酸标签100a和附接到插入物114的相对的第二末端的第二核酸标签100b。值得注意的是，标签100a和标签100b各自都包括总体结构，包括与图1A中的核酸标签100相当的区段A、A′、B、B′和C。继续参考图1C，标签100a和100b选自一组不同模块化核酸标签。因此，标签100b与标签100a相比可以在总体序列中包括一个或多个差异。换句话说，标签100a与标签100b相比其特征在于具有小于100％的序列同一性。

在一方面，使用基于连接的方法将标签100a和100b各自附接到插入物114。例如，图1C示出了使用T/A突出端为酶促连接提供粘性末端；然而，将理解的是，可以使用任何合适的方法将一个或多个标签附接到插入物。在所示的实施例中，首先将插入物114制备为平末端片段，然后进行A-尾化反应，以提供每条链具有3′单A(即腺嘌呤核苷酸)突出端的插入物114。标签100a和标签100b各自在标签100a和100b各自的两条链中的至少一条上具有3′单T(即胸腺嘧啶核苷酸)突出端，从而提供具有与插入物114兼容的标签100a和100b末端。如上所述，根据本公开可以实现用于将标签附接到插入物的其他方法。附接的其他实例包括平克隆，除T/A突出端之外的兼容末端的形成(例如，通过使用限制酶，尿嘧啶定向的切割)等。

在一方面，插入物114以及标签100a和100b中的一个或多个可以被设计或处理以防止自连接(即，第一标签与第二标签的连接，或第一插入物与第二插入物的连接)。防止自连接的一种方法包括选择性磷酸化，其中一个或多个末端核苷酸被去磷酸化或使其保持未磷酸化状态。限制不希望的连接事件的另一种方法包括在标签的一末端添加5′或3′突出端。突出端的长度可以大于1、2、3、4、5或10个核苷酸。在一个实例中，突出端可包括紧接在尿嘧啶核苷酸之后的三个连续的胞嘧啶核苷酸。在该实例中，在将标签的相对末端与插入物连接后，可以对标签进行处理(例如，用尿嘧啶脱糖基化酶和核酸内切酶IV)以生成与连接兼容的标签末端。防止不希望的连接事件的另一种方法包括将一个或多个尿嘧啶核苷酸引入标签序列，随后是引入终止于经修饰的核苷酸的序列(其能够防止连接)。修饰的核苷酸的非限制性实例包括3′双脱氧核苷酸，用三碳(C3)间隔基修饰的5′核苷酸、5′帽等及其组合。将标签连接至插入物后，可以处理标签(例如，用尿嘧啶脱糖基化酶和核酸内切酶VIII和核酸内切酶IV中的至少一种)以生成能够参与连接反应的标签末端。

在双重标记靶核酸112的情况下，每个第一链116和第二链118的3′区域包括区段C形式的另外的未配对序列。相比之下，图1D示出了该方案相反的替代性实施例。首先参考图1D，双重标记靶核酸120包括双链靶核酸插入物114′，附接到插入物114′的第一末端的第一核酸标签106a和附接到插入物114′的相对的第二末端的第二核酸标签106b。值得注意的是，标签106a和标签106b包括总体结构，其包括与图1B中的核酸标签106相当的区段A、A′、B、B′和C。继续参考图1D，标签106a和106b选自一组不同模块化核酸标签。因此，标签106b与标签106a相比可以在总体序列中包括一个或多个差异。换句话说，标签106a与标签106b相比其特征在于具有小于100％的序列同一性。

除图1C和1D所示的实施例之外，将理解的是，可以将多个不同的标签附接到插入物。例如，具有标签100的结构的第一标签可以被施加到插入物的第一末端，而具有标签106的结构的第二标签可以被施加到插入物的相对的第二末端。如本领域普通技术人员将理解的，可以制备标签和插入物的其他组合。

如上所述，标签(例如，标签100a和标签100b)可以通过将定向信息和定量信息两者嵌入到所得的测序数据中来促进所测序的靶核酸的最终组装。例如，在对双重标记靶核酸112进行扩增和测序之后，将从第一链116和第二链118衍生的扩增产物中生成多个读取。从第一链116生成的读取各自将包括相同的独特序列，该独特序列衍生自来自第一标签100a的区段A和B以及来自第二标签100b的区段A′、B′和C的组合。相比之下，从第二链118生成的读取各自将包括不同的独特序列，该独特序列衍生自来自第二标签100b的区段A和B以及来自第一标签100a的区段A′、B′和C的组合。值得注意的是，来自第一标签100a的区段A和B与来自第一标签100a的区段A′和B′互补，并且来自第二标签100b的区段A和B与来自第二标签100b的区段A′和B′互补。然而，第一链116和第二链118各自都与不同的区段C结合。在一方面，第一标签100a的区段C与第二标签100b的区段C不同(即既不互补也不相同)。因此，通过识别具有与第一链116结合的区段的独特组合的所有测序读取，可以对测序数据进行去重复，例如以使得能够对插入物114的丰度进行计数或定量。

在另一方面，双重标记靶核酸112的扩增将产生具有选自以下项的序列的组合的产物：第一标签100a或其补体、第二标签100b或其补体以及来自第一标签100a或第二标签100b或其补体的区段C。例如，第一链116衍生的互补链将包括5′至3′的，来自第二标签100b的：i)区段A，ii)区段C的补体，和iii)区段B，插入物114，以及来自第一标签100a的：i)区段B′，ii)区段C和iii)区段A′。因此，可以将源自第一链116及其补体的测序读取以及第二链118或其补体衍生的读取明确地组合在一起以实现共有分析。通常，将理解的是，如本文所公开的标签促进了对双重标记靶核酸衍生的测序数据的下游去重复和共有分析。例如，用至少一个区段C标记的靶核酸可以在测序数据分析过程使互补序列正确组装，从而促进从靶核酸的互补核酸链进行共有测序。

如图2A-2F所示，根据本公开，多种核酸标签适合使用。在图2A所示的实例中，标签200a完全排除了区段C。因此，标签200a的第一链202a和标签200a的第二链204a都不包括发夹或未配对环。转到图2B，标签200b包括具有以下序列的第一链202b：

和具有以下序列的第二链204b：

标签200b包括A/A′区段对206，其由第一链202b的5′部分(即，区段A)和第二链204b的3′部分(即，区段A′)组成。标签200b进一步包括B/B′区段对208，其由第一链202b的3′部分(即，区段B)和第二链204b的5′部分(即，区段B′)组成。值得注意的是，标签200b具有与图2A中的标签200a相同的整体结构，并且进一步示出了第一链202b和第二链202b都不包括发夹或未配对环。将理解的是，第一链202b包括5′的单G突出端和3′单T突出端，它们各自是未配对；然而，标签200b在A/A′区段对206和B/B′区段对208之间不包括中间未配对序列。

除了图2A和图2B所示的标签以外，根据本公开所述的标签可以包括定义发夹、未配对环或其组合的区段C。在区段C包括未配对环的情况下，定义未配对环的序列可以是确定序列、随机序列或其组合。

参考图2C，标签210a包括第一链212a和第二链214a。第二链214a包括未配对环216a。转到图2D，标签210b包括具有以下序列的第一链212h：

和具有以下序列的第二链214b：

标签210b包括A/A′区段对218，其由第一链212b的5′部分(即，区段A)和第二链214b的3′部分(即，区段A′)组成。标签210b进一步包括B/B′区段对220，其由第一链212b的3′部分(即，区段B)和第二链214b的5′部分(即，区段B′)组成。值得注意的是，标签210b具有与图2C中的标签210a相同的总体结构，并且进一步示出了第二链212b包括在A/A′区段对218和B/B′区段对220之间的未配对环216b。未配对环216b由四个连续的核苷酸(即“NNNN”)组成，其既没展现出与第二链214b的分子内配对，也没展现出与第二链212b的分子间配对。如在图2B中的标签200b的情况下，将理解的是，标签210b的第一链212b包括5′单G突出端和3′单T突出端，它们各自是未配对的。然而，标签210b在A/A′区段对206和B/B′区段对208之间不包括中间未配对序列。

接下来转到图2E，标签222a包括第一链224a和第二链226a。第二链226a包括发夹230a和定义C区段228a的未配对环232a。转到图2F，标签222b包括具有以下序列的第一链224b：

和具有以下序列的第二链226b：

标签222b包括A/A′区段对234，其由第一链224b的5′部分(即，区段A)和第二链226b的3′部分(即，区段A′)组成。标签222b进一步包括B/B′区段对236，其由第一链224b的3′部分(即，区段B)和第二链226b的5′部分(即，区段B′)组成。标签222b进一步包括C区段228b，其包括发夹230b和未配对环232b。值得注意的是，标签222b具有与图2E中的标签222a相同的总体结构，并且进一步示出了第二链226b包括在A/A′区段对234和B/B′区段对236之间的C区段228b。发夹230b由八个核苷酸的两个互补基团组成，其在第二链226b内展现出分子内配对。未配对环232b由四个连续的核苷酸(即“NNNN”)组成，其既没展现出与第二链226b的分子内配对，也没展现出与第二链226b的分子间配对。如在图2B中的标签200b的情况下，将理解的是，标签222b的第一链224b包括5′单G突出端和3′单T突出端，它们各自是未配对的。

在一方面，模块化核酸标签的区段各自可以由一个或多个亚基组装。例如，区段可以包括单个亚基或多个串联在一起的亚基。因此，可以基于多种因素(包括所选择的测序平台、待测序样品的类型等)以组合方式从各个亚基中选择。

在另一方面，模块化核酸标签可包括样品标识符或SID。在这种情况下，可以将具有相同SID的模块化核酸标签添加到各自给定样品中的靶核酸片段中。可替代地，可以将包括两个或更多个不同SID序列的模块化核酸标签添加到各自给定样品中的靶核酸片段中。在每个靶核酸样品采用一个以上的SID的情况下，模块化核酸标签可以包括SID/MID和UID的组合，以便增加总体核酸标签序列的组合能力。

如上所述，在一些实施例中，核酸标签可包括一种或多种修饰以防止标签末端的连接，使得产生能够连接的标签末端，或其组合。参考图2B，第一链202b的5′末端包括5′至3′的单个乌嘌呤核苷酸突出端，5个标准核苷酸和1个尿嘧啶核苷酸。在该实例中，末端乌嘌呤核苷酸可包括3-碳间隔基以防止标签200b的相应末端与另一分子的连接。在另一方面，第二链204b的3′末端包括3′至5′的单个胞嘧啶核苷酸和尿嘧啶核苷酸。末端胞嘧啶核苷酸可以作为双脱氧胞嘧啶核苷酸提供，以进一步防止标签200b的相应末端与另一分子的连接。相反，标签200b的相对末端可以被磷酸化以促进该末端(即，第二链204b的5′末端)的连接。将标签200b连接至插入物后，可以用尿嘧啶脱糖基化酶和核酸内切酶处理标签200b。该处理将最终在第一链202b的5′末端和第二链204b的3′末端靶向上述尿嘧啶核苷酸，从而在A/A′区段对206中形成一个3′突出端，其可以参与与另一个合适分子的连接，诸如与所选测序平台兼容的另一个双重标记的核酸插入物或通用核酸衔接子(例如，叉状衔接子或发夹衔接子)。可以将图2D中的标签210b和图2F中的标签222b设计成包括由粗体尿嘧啶核苷酸指示的类似修饰。

实例

作为组装模块化核酸标签的原理证明，用Q5 DNA聚合酶(NEWENGLAND BIOLABS)从TruQ1参考人gDNA(HORIZON DISCOVERYGROUP)生成116bp的KRAS外显子3的PCR扩增子。用AMPure PCR纯化试剂盒(BECKMAN COULTER)纯化产物，并使用基于AGILENTBioanalyzer微毛细管的电泳系统和变性凝胶进行验证。使用Taq DNA聚合酶(NEW ENGLAND BIOLABS)，将3′突出端dA添加到扩增子中。获得并纯化了具有图2D和2F所示的序列的含尿嘧啶寡脱氧核苷酸。在通过测量每个序列的特异性消光系数和紫外线范围内的样品吸收来确定化学计量后，将寡脱氧核苷酸退火。将退火的寡核苷酸复合物以Oligo复合物：插入物25∶1的比例添加到A尾化KRAS插入物中，并将混合物在37℃用T4 DNA连接酶处理30分钟。使用南极尿嘧啶脱糖基化酶(UDG)和核酸内切酶IV在37℃切割所得物质30分钟。用AMPure PCR纯化试剂盒(BECKMANCOULTER)以2倍体积纯化样品。使用15％PEG6000中的T4 DNA连接酶连接洗脱物。使用变性凝胶检查连接产物。

序列表

<110> F. Hoffmann-La Roche AG

豪夫迈·罗氏有限公司

<120> 制备用于测序的模块化和组合核酸样品的系统和方法

<130> P34430-WO

<150> US 62/734,809

<151> 2018-09-21

<160> 4

<170> PatentIn 3.5 版

<210> 1

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 单链的

<400> 1

ggaaattagt gcagtctctc agtcagtagc t 31

<210> 2

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 单链的

<400> 2

gctactgact gagagactgc actaatttc 29

<210> 3

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 单链的

<220>

<221> misc_feature

<222> (12)..(15)

<223> n 是 a、c、g 或 t

<400> 3

gctactgact gnnnnagaga ctgcactaat ttc 33

<210> 4

<211> 49

<212> DNA

<213> 人工序列

<220>

<223> 单链的

<220>

<221> misc_feature

<222> (20)..(23)

<223> n 是 a、c、g 或 t

<400> 4

gctactgact ggctcgagcn nnngctcgag cagagactgc actaatttc 49

Claims

1.一种制备具有模块化末端序列的核酸文库的方法，所述方法包括：

将一组不同模块化核酸标签与核酸样品组合，所述核酸样品包括多个双链靶核酸；

将所述双链靶核酸中的每一者的末端接合至选自所述一组不同模块化核酸标签的标签，以形成多个双重标记靶核酸；

扩增所述双重标记靶核酸中的每一者，从而制备具有模块化末端序列的核酸文库；以及

检测具有模块化末端序列的扩增核酸文库，

其中所述不同模块化核酸标签中的每一者均具有第一链和第二链，

其中所述第一链包括：i) 定义所述第一链的5'末端的区段A，和ii) 定义所述第一链的3'末端的区段B，

其中所述第二链包括：i) 定义所述第二链的5'末端并与所述第一链的所述区段B互补的区段B'，和 ii) 定义所述第二链的3'末端并与所述第一链的所述区段A互补的区段A'，

其中不同模块化核酸标签中的每一者包括区段C，所述区段C位于以下其中一项之间：i) 所述区段A和所述区段B，以及ii) 所述区段A'和所述区段B'，其中所述区段C包括发夹；

其中所述区段A、A'、B、B'和C中的每一者均选自具有不同核酸序列的区段的集合，

其中所述区段的集合中的每个区段均具有至少10个核苷酸的确定序列，并且

其中所述区段的集合的特征在于成对编辑距离至少为3。

2.根据权利要求1所述的方法，其中所述不同模块化核酸标签中的每一者均在所述第一链和所述第二链之一上包括所述区段C。

3.根据权利要求1所述的方法，其中所述不同模块化核酸标签中的每一者均在所述第一链和所述第二链中的每一者上包括所述区段C。

4.根据权利要求1所述的方法，其中所述发夹包括茎区域和环区域。

5.根据权利要求1所述的方法，其中所述不同模块化核酸标签中的每一者进一步包括至少一个链切割位点。

6.根据权利要求5所述的方法，其进一步包括使所述双重标记靶核酸与切割剂接触，以在所述切割位点切割所述双重标记靶核酸，从而形成经切割的双重衔接化靶核酸。

7.根据权利要求1所述的方法，其进一步包括将所述双重标记靶核酸串联，从而形成串联的双重标记靶核酸。

8.根据权利要求7所述的方法，其进一步包括通过衔接子接合所述串联的双重标记靶核酸中的每一者的末端，从而形成多个双重衔接化串联体。

9.根据权利要求8所述的方法，其进一步包括扩增所述双重衔接化串联体中的每一者。

10.根据权利要求1所述的方法，其中通过连接接合至所述模块化核酸标签。

11.根据权利要求5所述的方法，其中所述切割位点包括一个或多个脱氧尿苷，并且所述切割剂包括尿嘧啶-DNA-N-糖基化酶(UNG)和核酸内切酶。

12.根据权利要求11所述的方法，其中所述核酸内切酶选自核酸内切酶III、核酸内切酶IV 和核酸内切酶VIII。

13.根据权利要求5所述的方法，其中所述切割位点包括一个或多个无碱基位点，并且所述切割剂包括选自核酸内切酶III、核酸内切酶 IV 和核酸内切酶 VIII 的核酸内切酶。

14.根据权利要求1所述的方法，其中所述模块化核酸标签包括核酸酶保护核苷酸。

15.根据权利要求14所述的方法，其中所述核酸酶保护核苷酸包括硫代磷酸基团。

16.根据权利要求1所述的方法，其中所述不同模块化核酸标签中的每一者进一步包括间断序列，所述间断序列包括至少三个嵌段，所述嵌段中的每一者由至少三个相同核苷酸的均聚体组成。

17.一种包括一组模块化核酸标签的组合物，所述标签中的每一者均包括：

第一链，其包括：i) 定义所述第一链的5'末端的区段A，和ii) 定义所述第一链的3'末端的区段B；以及

第二链，其包括：i) 定义所述第二链的5'末端并与所述第一链的所述区段B互补的区段B'，和ii) 定义所述第二链的3'末端并与所述第一链的所述区段A互补的区段A'，

其中模块化核酸标签中的每一者包括区段C，所述区段C位于以下其中一项之间：i) 所述区段A和所述区段B，以及ii) 所述区段A'和所述区段B'，其中所述区段C包括发夹；

其中所述区段的集合的特征在于成对编辑距离至少为3。

18.根据权利要求17所述的组合物，其中所述模块化核酸标签中的每一者均在所述第一链和所述第二链之一上包括所述区段C。

19.根据权利要求1所述的方法，其进一步包括：

对所述具有模块化末端序列的扩增核酸文库进行测序，从而生成多个测序读取；并且通过以下各项中的至少一项来分析所述多个测序读取：i) 对所述多个测序读取进行去重复，以及ii) 确定共有序列。