附图简述
图l是用于使核酸片段化的方法的实施方案的示意图。
图2是用于使核酸片段化的方法的实施方案的示意图。
图3是引物浓度在MDA反应中对GC偏离的影响的图。
图4显示了DMSO和引物浓度在MDA反应中对变异性(图4A)和GC偏离(图4B)的影响。
图5显示了SSB(图5A)和甜菜碱(图5B)在MDA反应中对GC偏离的影响。
图6是用于生成包含多个衔接头的环形核酸模板的本发明实施方案的示意图。
图7是用于控制插入靶核酸中的衔接头的取向的本发明实施方案的示意图。
图8是不同取向的例示性实施方案的示意图,其中可以彼此连接衔接头和靶核酸分子。
图9是用于装配本发明的核酸模板的方法的一个方面的示意图。
图10是可用于控制此类衔接头插入靶核酸中的方式的衔接头构件的示意图。
图11是用于将衔接头插入靶核酸中的臂连臂连接过程的实施方案的示意图。图11A显示了臂连臂连接过程的例示性实施方案,而图11B显示了此过程中使用的衔接头臂的例示性构件。
图12是衔接头插入的可能取向的示意图。
图13是切口平移连接方法的一个实施方案的示意图。
图14是用于插入多个衔接头的方法的一个实施方案的示意图。
图15是切口平移连接方法的一个实施方案的示意图。
图16是切口平移连接方法的一个实施方案的示意图。
图17是利用切口平移环反转(nick translation circle inversion)(图17A)以及切口平移环反转结合尿嘧啶降解(图17B)的切口平移连接方法的一个实施方案的示意图。
图18是切口平移连接方法的一个实施方案的示意图。
图19是用于插入多个衔接头的方法的一个实施方案的示意图。
图20是用于插入多个衔接头的方法的一个实施方案的示意图。
图21是用于插入多个衔接头的方法的一个实施方案的示意图。
图22是用于插入多个衔接头的方法的一个实施方案的示意图。
图23是构象探针锚定连接方法的一个实施方案的示意图。
图24是构象探针锚定连接方法的一个实施方案的示意图。
图25是构象探针锚定连接方法的一个实施方案的示意图。
图26是构象探针锚定连接方法的一个实施方案的示意图。
图27是用于给核酸片段加标签的方法的一个实施方案的示意图。
图28(A)-(F)是本发明的长片段阅读的一个实施方案的步骤的示意性概述。
图29是使用本发明的长片段阅读技术的一个实施方案以限定单元型的示意性概述。
图30A是本发明的长片段阅读技术的一个实施方案的示意性概述。图30B是制备用于长片段阅读技术的片段的例示性方法的示意性概述。
发明详述
除非另外说明,可以采用有机化学、高分子技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学领域内的常规技术和描述来实施本发明。这些常规技术包括高分子阵列合成、杂交、连接和利用标记物检测杂交。参考下文中的实施例可以得到对适宜技术的详尽阐述。当然也可以使用其它等同的常规程序。这类常规技术和描述可见于标准的实验室手册,比如Genome Analysis:A Laboratory Manual Series(Vols.I-IV)、UsingAntibodies:A Laboratory Manual、Cells:A Laboratory Manual、PCR Primer:ALaboratory Manual以及Molecular Cloning:A Laboratory Manual(均由Cold SpringHarbor Laboratory Press出版)、Stryer,L.(1995)Biochemistry(4th Ed.)Freeman,NewYork、Gait,“Oligonucleotide Synthesis:A Practical Approach”1984,IRL Press,London、Nelson and Cox(2000),Lehninger,Principles of Biochemistry3rd Ed.,W.H.Freeman Pub.,New York,N.Y.以及Berg等(2002)Biochemistry,5th Ed.,W.H.FreemanPub.,New York,N.Y.,全部通过引用并入本文。
注意本文中和随附的权利要求中,单数形式的“一个/一种”和“所述”包括复数指称对象,除非上下文清楚地另有说明。因此,例如,提及“聚合酶”是指一种试剂或者这类试剂的混合物,提及“方法”包括本领域技术人员已知的等同步骤和方法,等等。
除非另外定义,文中使用的所有技术和科学名词与本发明所属领域的普通技术人员通常理解的含义相同。文中提及的所有出版物通过引用并入本文,以便于描述和公开这些出版物中描述过的并且可能用在这里描述的发明中的装置、组合物、制剂和方法学。
在提供了数值范围的情况中,应当理解为除非上下文清楚地另有说明,该范围中上限和下限之间的每个居间数值,到该下限的第十个单位处,以及所声称的范围内的任何其它提到的数值或居间数值,均包含在发明内。这些较小范围的上限和下限可以独立包含在这些较小范围内,它们也涵盖在本发明内,受限于所述范围中任何具体排除的限值。当所声称的范围包括上下限之一或两者时,排除了上下限之一种或两者的范围也涵盖在本发明内。
在以下描述中,给出了大量细节以便更全面地理解本发明。但是,对本领域技术人员,很显然可能不需要这些细节中的一种或多种即可实施本发明。其它情况中,那些本领域技术人员熟知的特性和程序未做描述以避免使本发明含混不清。
尽管主要通过参考具体的实施方案对本发明进行了描述,可以想象得到在阅读了本公开文本后,其它实施方案对本领域技术人员也将是显而易见的,在本发明方法中也意图包含这类实施方案。
I.概述
本发明涉及用于核酸鉴定和检测的组合物和方法,其在如本文中所描述的极其多种应用中得到应用。此类应用包括全基因组的测序、多个全基因组的测序、及检测特定靶序列,其包含单核苷酸多态性(SNP)和感兴趣的基因靶物。
本发明提供了用于将来自样品的核酸分离并片段化的组合物和方法。对于一些应用,使用受控随机酶(CoRE)方法来生成片段。通常,CoRE片段化方法牵涉用经修饰的核苷酸或核苷酸类似物替换靶核酸中的许多核苷酸。然后,通过酶方法除去经修饰的/类似的核苷酸以生成有缺口的核酸。进一步的酶处理沿着核酸平移那些缺口,直至相反链上的缺口会聚,产生平端核酸片段。可以可再现地对依照本发明生成的片段控制长度、偏离和会聚。
依照CoRE片段化方法在靶核酸中替换核苷酸的一个方法是经由扩增靶核酸的初始群。一般在存在dNTP群的情况中进行此扩增,其中所述群包括预定的dNTP类似物与天然存在的核苷酸的比率。例如,在胸腺嘧啶被脱氧尿嘧啶替换的CoRE方法中,使用含有预定的dUTP与dTTP比率的dNTP群扩增靶核酸。可以通过操作dUTP与dTTP的比率来控制替换的胸腺嘧啶的数目(及如此所得片段的长度)。相似地,用5-甲基胞嘧啶替换胞嘧啶或用肌苷替换腺嘌呤的CoRE方法会利用掺入预定的5-甲基胞嘧啶或肌苷比例的dNTP群。如应当领会的,CoRE方法也可以利用脱氧尿嘧啶、5-甲基胞嘧啶、和肌苷的任何组合以替换核酸内的多个核苷酸。
用于CoRE或扩增本文中所描述的任何核酸构建体的扩增方法可以包括本领域中已知的大量扩增方法。在一些应用中,使用多重置换扩增(Multiple DisplacementAmplification,MDA)来扩增在本文中进一步详细描述的测序和其它应用中使用的核酸。本发明提供了降低许多扩增方法,特别地全基因组扩增方法固有的GC偏离的MDA组合物和方法。在一些应用中,本发明的方法包括利用添加剂诸如甜菜碱、甘油、和单链结合蛋白以阻止或改善GC偏离的MDA方法。
可以在许多测序应用中使用核酸,包括依照本发明生成的核酸片段。在某些应用中,使用长片段阅读(LFR)测序自核酸片段获得序列信息。此类方法包括物理分离许多不同等分试样间的长基因组DNA片段,使得母本和父本组分中基因组的某给定区域同时出现在相同等分试样中的可能性罕见。通过在每个等分试样中放入独特的鉴别物,并对聚集物中的许多等分试样进行分析,可以将长DNA片段装配成二倍体基因组,例如,可以获得每个亲代染色体的序列。在某些LFR应用中,使用乳剂液滴,其中每个液滴含有少量片段,并且所有乳剂液滴共同含有代表整个基因组的一个或多个拷贝或等同物的片段。组合含有核酸片段的乳剂液滴与含有衔接头的乳剂液滴。组合的液滴提供连接衔接头与片段的密封空间,使得不同组合的液滴含有用不同衔接头加标签的片段。在一些应用中,在衔接头液滴中组合两个或更多个衔接头标签组分(构件)(component),使得在含有核酸片段的液滴组合后,连接独特的构象标签与片段。在利用液滴的应用中,可以将试剂诸如连接酶和缓冲液包含在含有核酸片段的乳剂液滴,即含有衔接头的液滴中,或者在然后与片段和衔接头液滴组合的不同液滴中。使用乳剂液滴的优点在于反应体积降低至皮升水平,这提供与生成LFR文库有关的成本和时间的减少。也可以在不同容器或器皿,诸如多孔微量滴定板中的不同孔间分配核酸的等分试样以进行LFR测序。
不管不同LFR等分试样文库生成和加标签的方法,然后可以使用本领域中已知的且在本文中进一步详细描述的方法来对所得的核酸测序。来自个别片段的序列阅读可以使用来自其相关标签衔接头的序列信息来装配以鉴定来自相同等分试样的片段。
II.核酸的制备
本发明包括用于自样品分离核酸的方法和组合物。“核酸”或“寡核苷酸”或“多核苷酸”或语法等同物在本文中意指共价连接在一起的至少两个核苷酸。核酸可以是DNA(基因组和cDNA两者)、RNA或杂合物,其中核酸含有脱氧核糖和核糖核苷酸的任何组合及碱基(包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等)的任何组合。如本文中所使用的,术语“核苷酸”涵盖核苷酸和核苷两者及核苷和核苷酸类似物,及经修饰的核苷酸诸如氨基经修饰的核苷酸。另外,核苷酸包括非天然存在的类似物结构。如此,例如,肽核酸的个别单元(其各含有碱基)在本文中可以称为核苷酸。
在本发明中,如本文中进一步讨论的,在许多实施方案中使用核苷酸类似物。核苷酸类似物包括可以掺入基因组DNA中的任何核苷酸,其容许随后的切割(酶促或化学方式)。如此,认为dUTP是核苷酸类似物,因为尿嘧啶通常不为多样状态。认为肌苷和5-甲基胞嘧啶也是经修饰的核苷酸或核苷酸类似物。另外,如下文进一步描述的,可以将数个RNA碱基掺入基因组DNA中以容许随后的RNA酶H的切割,并且如此在这些实施方案中,出于本发明的目的,会认为那些RNA碱基是类似物。核苷酸类似物还可以包括非碱性残基,诸如2’-脱氧核糖基甲酰胺、2’-脱氧核糖、1’2’-双脱氧呋喃核糖或丙二醇。
本发明的核酸通常含有磷酸二酯键,尽管在某些情况中,如下文列出的(例如在引物和诸如标记探针的探针构建中),包含了可能含有替代的骨架的核酸类似物,例如包含磷酰胺(Beaucage等,Tetrahedron49(10):1925(1993)及其中的参考文献;Letsinger,J.Org.Chem.35:3800(1970);Sprinzl等,Eur.J.Biochem.81:579(1977);Letsinger等,Nucl.Acids Res.14:3487(1986);Sawai等,Chem.Lett.805(1984),Letsinger等,J.Am.Chem.Soc.110:4470(1988);和Pauwels等,Chemica Scripta26:14191986))、硫代磷酸酯(Mag等,Nucleic Acids Res.19:1437(1991);和美国专利5,644,048)、二硫代磷酸酯(Briu等,J.Am.Chem.Soc.111:2321(1989)、O-甲基磷酰胺酯键(参见Eckstein,Oligonucleotides and Analogues:A Practical Approach,Oxford University Press)以及肽核酸(文中又称为“PNA”)骨架和键(参见Egholm,J.Am.Chem.Soc.114:1895(1992);Meier等,Chem.Int.Ed.Engl.31:1008(1992);Nielsen,Nature,365:566(1993);Carlsson等,Nature380:207(1996),所有这些文献均通过引用并入本文)。其它核酸类似物包括那些具有双环结构的,包括锁核酸(本文中又称为“LNA”),Koshkin等,J.Am.Chem.Soc.120:132523(1998);正电荷骨架(Denpcy等,Proc.Natl.Acad.Sci.USA92:6097(1995);非离子性骨架(美国专利5,386,023、5,637,684、5,602,240、5,216,141和4,469,863;Kiedrowshi等,Angew.Chem.Intl.Ed.English30:423(1991);Letsinger等,J.Am.Chem.Soc.110:4470(1988);Letsinger等,Nucleoside&Nucleotide13:1597(1994);Chapters2and3,ASCSymposium Series580,"Carbohydrate Modifications in Antisense Research",Ed.Y.S.Sanghui and P.Dan Cook;Mesmaeker等,Bioorganic&Medicinal Chem.Lett.4:395(1994);Jeffs等,J.Biomolecular NMR34:17(1994);Tetrahedron Lett.37:743(1996))以及非核糖骨架,包括美国专利5,235,033和5,034,506以及ASC SymposiumSeries580,"Carbohydrate Modifications in Antisense Research"(Ed.Y.S.Sanghuiand P.Dan Cook)的第6和7章中描述的那些。含有一或多个碳环糖的核酸也包含在核酸的定义范围内(参见Jenkins等,Chem.Soc.Rev.(1995),169-176页)。Rawls,C&E News Jun.2,1997,35页描述了几种核酸类似物。“锁核酸”(LNATM)也包含在核酸类似物的定义范围内。LNAs是这样一类核酸类似物,其中的核糖环被连接2’-O原子和4’-C原子的亚甲基桥“锁定”。为了所有目的,尤其是与核酸有关的全部教导,这些参考文献均通过引用明确地并入本文。可以进行核糖-磷酸骨架的这些修饰以便提高这类分子在生理环境中的稳定性和半寿期。例如,PNA:DNA和LNA-DNA混合体可以显示出更高的稳定性,因此可以用于某些实施方案。
利用本领域已知的方法可以从样品中获取靶核酸。术语靶核酸指感兴趣的核酸,并且除非另有规定,与术语核酸和多核苷酸可互换使用。可以理解,样品可能包含任何数量的物质,包括但不限于,体液(包括但不限于几乎任何生物体的血液、尿、血清、淋巴液、唾液、肛门和阴道分泌物、汗和精液,优选哺乳动物样品,尤其优选人的样品);环境样品(包括但不限于,空气、农业、水和土壤样品);生物战剂样品;研究样品(即,对于核酸,样品可以是扩增反应的产物,包括象PCT/US99/01705中大概描述的目标和信号扩增,比如PCR扩增反应的产物);纯化的样品,比如纯化的基因组DNA、RNA、蛋白等;粗样品(细菌、病毒、基因组DNA等),正如本领域技术人员能够理解的,可以对样品进行几乎任何试验操作。一个方面中,本发明的核酸构建体形成自基因组DNA。在某些实施方案中,基因组DNA从全血或来自全血或细胞培养物的细胞制备物中获得。
本发明的一个方面中,靶核酸是基因组核酸,虽然可以使用包括mRNA(及相应的cDNAs等)的其它靶核酸。靶核酸包括天然的或基因改变的或者合成制备的核酸(比如来自哺乳动物疾病模型的基因组)。靶核酸几乎可以从任何来源获得,也可以利用本领域已知的方法制备。例如,靶核酸可以不经扩增直接分离,通过利用本领域已知的方法经扩增分离,所述扩增方法包括但不限于聚合酶链式反应(PCR)、多重置换扩增(MDA)(其涵盖术语链置换法(SDA),并且与术语链置换法(SDA)可互换使用)、滚环扩增(RCA)(其涵盖术语滚环复制(RCR),并且与术语滚环复制(RCR)可互换使用)及其它扩增方法。靶核酸还可以通过克隆获得,包括但不限于克隆到诸如质粒、酵母菌和细菌人工染色体的载体中。
在某些方面,靶核酸包含mRNAs或cDNAs。在特定实施方案中,靶DNA是利用从生物样品中分离的转录物产生的。同样如Genome Analysis:A Laboratory Manual Series(Vols.I-IV)或Molecular Cloning:A Laboratory Manual中描述的,分离的mRNA可以利用常规技术反转录成cDNAs。
靶核酸可以是具体指明的单链的或双链的,或者既含有双链又含有单链序列部分。根据具体应用,核酸可以是DNA(包括基因组和cDNA)、RNA(包括mRNA和rRNA)或者它们的混合体,在所述混合体核酸中含有脱氧核糖-和核糖核苷酸的任何组合,以及碱基的任何组合,包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等。
在一些实施方案中,靶核酸是基因组DNA,在一些实施方案中,哺乳动物基因组DNA,且特别是人基因组DNA。在一些情况中,基因组DNA可以自正常的体细胞组织、生殖细胞组织、或者在以一些情况中自患病组织,诸如肿瘤组织获得。在许多实施方案中,如本文中所概述的,使用许多基因组等同物,通常1至30,5至20个在许多实施方案中是有用的。许多实施方案利用10个基因组等同物。基因组等同物可以包含来自一个或个细胞的完整基因组或者可以包含涵盖一个或多个细胞(即,单个二倍体细胞具有2个DNA基因组等同物)的基因组的DNA量。在一些实施方案中,在本发明的方法中使用至少两个基因组等同物以完全覆盖二倍体基因组。
在一个例示性的实施方案中,基因组DNA分离自靶生物体。“靶生物体”意味着目标生物体,正如可以理解的,该名词包含可以从中获得核酸的任何生物体,尤其是哺乳动物,包括人,尽管在某些实施方案中,靶生物体是病原体(例如要检测细菌或病毒感染时)。由靶生物体获得核酸的方法是本领域公知的。包含人基因组DNA的样品在本发明的许多方面和实施方案中都有用。在某些方面,比如全基因组测序,优选获得等同于约1至约100或更多个基因组的DNA以保证靶DNA片段群足以涵盖整个基因组。获得的基因组等同物的数量可能部分取决于本发明中进一步制备基因组DNA片段所使用的方法。例如,在下文中进一步描述的长片段阅读法中,通常使用约1到约50个基因组的等同物。在又一些实施方案中,在本发明的方法中使用约2-40、3-30、4-20、和5-10个基因组等同物。在又一些实施方案中,使用约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个基因组等同物。对于某些方法,通常利用约1000至约100,000个基因组等同物。对于一些在片段化前不进行扩增的方法,使用大约100,000到大约1,000,000个基因组的等同物。
自含有一个或多个基因组等同物的群生成的含有核酸构建体或片段的文库会包含靶核酸,其序列一旦鉴定并装配后会提供整个基因组的大部分或全部序列。
利用常规技术,例如如Sambrook and Russell,Molecular Cloning:ALaboratory Manualcited(上文引用的)中公开的技术分离靶核酸。
在一些实施方案中,处理靶核酸以在随后的化学或机械操作过程中保护它们。例如,在某些实施方案中,在存在亚精胺或聚乙烯吡咯烷酮40(PVP40)的情况中分离靶核酸(或者在分离后组合)以保护它们免于机械操作诸如移液过程中的剪切。此类保护对于利用长核酸片段的应用,诸如下文进一步详细描述的LDR方法是特别有用的。在一些情况中,当仅有少量样品DNA并且还有可能由于与例如容器壁等的非特异结合而损失DNA时,提供载体DNA(例如无关的环状合成双链DNA)与样品DNA混合并使用是有益的。
II.A.将靶核酸片段化
在本发明的一些方面,将靶核酸片段化。靶核酸的片段大小可以随来源靶核酸和所使用的文库构建方法而变化。对于某些应用,在本发明中使用更长的片段。此类更长的片段大小范围可以是长约100,000至约1,000,000个核苷酸。在又一个实施方案中,更长的片段长度是约50,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、700,000、900,000、1,000,000、1,500,000个核苷酸。在又一些实施方案中,更长的片段长度范围为约150,000-950,000、200,000-900,000、250,000-850,000、300,000-800,000、350,000-750,000、400,000-700,000、450,000-650,000、和500,000-600,000个核苷酸。对于某些应用,可以在本发明的方法中使用长度范围为约50至约600个核苷酸的片段。在又一些实施方案中,这些片段的长度为约100,200,300,400,500,600,700,800,900,1000,1200,1400,1600,1800和2000个核苷酸。在又一些实施方案中,片段的长度为10-100,50-100,50-300,100-200,200-300,50-400,100-400,200-400,300-400,400-500,400-600,500-600,50-1000,100-1000,200-1000,300-1000,400-1000,500-1000,600-1000,700-1000,700-900,700-800,800-1000,900-1000,1500-2000,1750-2000和50-2000个核苷酸。
许多机械和酶促片段化方法是本领域中公知的。在许多实施方案中,裂解和提取过程中产生的剪切力会以机械方式生成期望范围中的片段。别的机械片段化方法包括超声处理和中和。机械片段化方法具有以可预测的方式生成特定大小范围的片段的优点。然而,机械片段化方法通常需要大的(>2μg)或一定体积(>200μL)的输入核酸。如此,机械片段化方法仅在单一样品加工中使用。
也可以使用酶片段化方法来生成核酸片段,特别地大小为1-5kb的更短片段。酶片段化方法包括使用内切核酸酶。酶方法可以以适度的核酸质量和体积使用,并且比机械片段化方法更适用于多样品加工。然而,酶片段化方法固有地倾向于片段化程度的变化性,因为为了在此类方法中实现一致的片段大小分布,需要极其小心地控制酶活性、底物量和浓度及消化时间。
在一些实施方案中,分离特定大小或特定大小分为的片段。此类方法是本领域中公知的。例如,可以使用凝胶分级来生成一定范围的碱基对内的特定大小,例如500个碱基对±50个碱基对的片段群。
在一些情况中,特别地在期望分离长片段(诸如长度为约150至约750千碱基的片段)时,本发明提供了如下的方法,其中将细胞裂解,并在温和的离心步骤的情况中将完整的核酸移液。在几小时里使用例如蛋白酶K和RNA酶消化经由酶消化来释放核酸,通常为基因组DNA。然后,将所得的材料透析过夜或者直接稀释以降低剩余的细胞废物的浓度。因为分离核酸的此类方法不牵涉许多破坏过程(诸如乙醇沉淀、离心、和涡旋振荡),所以基因组核酸仍大部分完整,产生大多数超过100千碱基的片段。
II.A.1.CoRE片段化
如上文所讨论的,本发明使用的片段化方法包括机械和酶片段化方法两者,及酶和片段化方法的组合。一方面,本发明提供了一种片段化方法,在本文中称为受控随机酶(CoRE)片段化。可以单独地或与本领域中已知的其它机械和酶片段化方法组合使用本文中所描述的CoRE片段化方法。
通常,CoRE片段化方法牵涉用核苷酸类似物替换靶核酸中的许多核苷酸。然后,以酶或化学方式处理含有核苷酸类似物的核酸以生成有缺口的核酸。在某些实施方案中,酶/化学处理自核酸切割核苷酸类似物以形成有缺口的核酸。在某些实施方案中,酶/化学处理刚好在核苷酸类似物的3’或5’处生成切口以形成有缺口的核酸。有缺口的核酸通常是在至少一条链中含有单一核苷酸或多个核苷酸的切口或缺口的双链核酸。
对有缺口的核酸的进一步酶处理沿着核酸平移那些缺口,直至相当链上的缺口会聚,得到平端核酸片段。可以对依照本发明生成的片段可再现地控制长度、偏离和覆盖。CoRE片段化具有酶片段化的优点(诸如使用低量和/或体积的DNA的能力),而没有许多其缺点(包括对底物或酶浓度变化的灵敏性及对消化时间的灵敏性)。
在又一些实施方案中,通过在存在包含预定的核苷酸类似物与天然存在的核苷酸比率的dNTP的情况中扩增核酸来将核苷酸类似物导入核酸中。用核苷酸和核苷酸类似物的此混合群的扩增生成许多天然存在的核苷酸被核苷酸类似物替换的扩增子。通过控制扩增方法中使用的dNTP中的类似物与天然存在的核苷酸的预定比率来控制被类似物替换的核苷酸数目。此预定的比率是生成期望长度的片段需要的类似物与天然核苷酸的比率。例如,若起始核酸长度为约100,000个碱基,则可以调节预定的类似物与核苷酸比率以替换期望数目的核苷酸,最终生成(在非限制性例子中)长度为10,000个碱基的片段(在处理后生成有缺口的核酸,然后是进一步的处理以生成双链片段)。
通过操作扩增方法中使用的dNTP群中的核苷酸类似物与天然存在的核苷酸的比率来控制在扩增子中被核苷酸类似物替换的核苷酸数目。在一些实施方案中,在扩增过程中用于生成扩增子(其中用核苷酸类似物替换核苷酸)的dNTP群包括约0.05%至约30%核苷酸类似物。在又一些实施方案中,dNTP群包含约0.1%-0.5%、0.5%-0.7%、1%-25%、5%-20%、10%-15%核苷酸类似物。在又一些实施方案中,dNTP群包含至少约0.5%,0.75%,1%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%,13%,14%,15%核苷酸类似物。
在一些实施方案中,依照本文中所描述的方法用核苷酸类似物替换约0.01-5%的一种或多种核苷酸种类(A,C,G和/或T)。在又一些实施方案中,依照上文所描述的方法用核苷酸类似物替换约0.05%-4%、0.1%-3%、0.2%-2%、0.3%-1%、0.4%-0.9%、0.5%-0.8%、和0.6%-0.7%的一种或多种核苷酸种类。在又一些实施方案中,依照上文所描述的方法用核苷酸类似物替换至少约0.1%,0.2%,0.25%,0.3%,0.4%,0.5%,0.6%,0.7%,0.75%,0.8%,0.9%,1%,2%,3%,4%,和5%的一种或多种核苷酸种类。
在存在含有预定的核苷酸类似物比率的dNTP的情况中扩增核酸后,所得的扩增子具有被核苷酸类似物替换的一些天然存在的核苷酸。然后,以化学方式或者用一种或多种酶处理扩增子以除去核苷酸类似物或者在扩增子中在核苷酸类似物的5’或3’生成切口以生成有缺口的核酸。然后,用酶,通常是聚合酶处理有缺口的核酸以沿着核酸的长度平移缺口,直至相反链上的缺口会聚。这产生平端双链片段群。
在一些实施方案中,本发明提供了CoRE方法,其中胸腺嘧啶被尿嘧啶或脱氧尿嘧啶替换,使用含有预定的dUTP与dTTP比率的dNTP群来扩增靶核酸。如上文所讨论的,可以通过操作dUTP与dTTP比率来控制替换的胸腺嘧啶数目(及如此所得片段的长度),例如dUTP与dTTP相比的比例较高会导致靶核酸中用尿嘧啶替换的胸腺嘧啶的数目较大。然后,除去dUTP(或在dUTP的3’或5’产生切口)的随后处理会生成较短的片段,因为取代会沿着核酸以更大的频率发生。类似地,用5-甲基胞嘧啶替换胞嘧啶或者用肌苷替换腺嘌呤的CoRE方法会利用掺入预定的5-甲基胞嘧啶或肌苷比例的dNTP群。如应当领会的,依照本发明的CoRE方法可以利用脱氧尿嘧啶、5-甲基胞嘧啶、和肌苷的任何组合以用类似物替换沿着核酸的多个核苷酸种类。
在又一些实施方案中,使用相对于dTTP包含4%dUTP的dNTP群来扩增核酸以生成扩增子,其中用脱氧尿嘧啶替换胸腺嘧啶的比例。此类dUTP浓度一般会导致约0.05%-0.1%胸腺嘧啶在用脱氧尿嘧啶替换的所得扩增子中的掺入。如上文所讨论的,可以通过用于扩增核酸的dNTP中包含的dUTP与dTTP比例微调掺入扩增子中的脱氧尿嘧啶量。在某些实施方案中,相对于dTTP的dUTP群包含约0.1%-0.5%,0.5%-0.8%,1%-25%,5%-20%,10%-15%dUTP。在又一些实施方案中,dNTP群包含至少约0.5%,0.75%,1%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%,13%,14%,15%dUTP。
在一些实施方案中,在CoRE方法的扩增步骤中使用核苷酸类似物的组合,使得用核苷酸类似物在所得的扩增子中替换两种不同核苷酸种类。例如,在一些实施方案中,用核苷酸类似物替换胸腺嘧啶和胞嘧啶两者。在又一些实施方案中,胸腺嘧啶被脱氧尿嘧啶替换,而胞嘧啶被5-甲基胞嘧啶替换。如上文所讨论的,可以使用类似物与天然存在的核苷酸的比例范围来控制在处理扩增子以形成有缺口的核酸,然后处理加缺口的核酸以形成双链片段时产生的片段的大小。在某些实施方案中,相对于天然存在的核苷酸使用相同比例的dUTP和5-甲基胞嘧啶。换言之,使用相对于dTTP包含约0.05%-25%dUTP和相对于胞嘧啶包含0.05%-25%5-甲基胞嘧啶的dNTP群来创建扩增子,其中胸腺嘧啶和胞嘧啶的比例用相应的类似物替换。在又一些实施方案中,dNTP群包含约4-5%5-甲基胞嘧啶和0.75-1%dUTP。在又一个实施方案中,相对于dTTP的dUTP群和相对于胞嘧啶的5-甲基胞嘧啶群包含约0.1%-0.5%,0.5%-0.8%,1%-25%,5%-20%,10%-15%dUTP。在又一些实施方案中,相对于dTTP的dUTP群和相对于胞嘧啶的5-甲基胞嘧啶群包含至少约0.5%,0.75%1%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%,13%,14%,15%dUTP。如应当领会的,可以在本发明的此实施方案中使用与5-甲基胞嘧啶与胞嘧啶的比例相比相同比例或不同比例的dUTP与dTTP。若在使用不同核苷酸类似物时使用不同比例,则可以使用上文所列的比例的任何组合来生成扩增子,其中用核苷酸类似物替换天然存在的核苷酸的至少一部分。
图1中显示了例示性的CoRE片段化方法。首先,在有dNTPs的情况下,将核酸101进行酶催化的多重置换扩增(MDA),其中dNTPs中加入了与dTTP成一定比例的dUTP或UTP。这导致扩增产物的两条链上的T以一定的和可控的比例被脱氧尿嘧啶(“dU”)或尿嘧啶(“U”)所取代(103)。然后一般是通过使用一种或多种酶,包括但不限于UDG、EndoIV、EndoVIII和T4PNK将U部分切除(104),产生带有功能性5’磷酸和3’羟基端的单碱基缺口(在本文中又称为切口)(105)。会产生单碱基缺口的平均间隔由MDA产物中dU的U的出现频率决定。用具有外切核酸酶活性的聚合酶处理带有缺口的核酸(105)导致切口或缺口沿着核酸长度的平移或移位,直至相反链上的切口会聚,从而形成双链断裂,得到大小相对匀一的双链片段的相对群(107)。聚合酶(诸如Taq聚合酶)的外切核酸酶活性会将毗邻切口的短DNA链切除,而聚合酶活性会填上切口和该链中后续的核苷酸(基本上,Taq沿着链移动,利用核酸外切酶活性将碱基切除并添加相同的碱基,其结果就是切口或缺口沿链移位,直至酶达到链末端)。双链片段(107)的大小分布是由MDA反应中使用的dTTP与dUTP或UTP的比率的结果,而不是酶处理的时长或程度决定的。也就是说,dUTP量越高,所得的片段越短。如此,与其它酶或机械片段化方法相比,CoRE片段化方法产生高度的片段化重现性。
如应当领会的,在上述例示性实施方案中及在CoRE方法的任何实施方案中,可以在该步骤中使用许多扩增方法以用经修饰的核苷酸或核苷酸类似物替换核苷酸。此类扩增方法在下文更为详细地描述,并且可以包括但不限于聚合酶链式反应(PCR)、多重置换扩增(MDA)、滚环扩增(RCA)(对于环化的片段)及本领域中已知的任何其它可应用的扩增方法。如下文也会更为详细地讨论的,在某些实施方案中,CoRE方法的此步骤中使用的扩增反应的方法和组合物还可以降低偏离,并提高所得片段的覆盖。
图2中显示了CoRE片段化方法的别的例示性实施方案。在此例示性实施方案中,用核苷酸类似物替换两种不同核苷酸:用尿嘧啶替换胸腺嘧啶,并用5-甲基胞嘧啶替换胞嘧啶。如图2中所显示的,在有dNTPs的情况下,将核酸201进行酶催化的多重置换扩增(MDA),其中dNTPs中加入了与dTTP成一定比例的dUTP或UTP。dNTP也以限定比例的dCTP掺入5-甲基-dCTP。这导致DNA产物的两条链上的T和C位置以限定的(且可控的)比例被dU和5-甲基dC所取代(103)。接着,切割U和接近5-甲基C部分的区域,在一个非限制性例子中,切割(204)通过McrBC、UDG和EndoIV或EndoVIII和T4PNK的组合实现,以创建具有功能性5’PO4和3’OH末端的单碱基缺口(或者在McrBC的情况中为双链切口),其均值间隔由MDA产物(203)中的尿嘧啶和5-甲基胞嘧啶的频率限定。单碱基缺口会以由MDA产物中dU的U的频率限定的平均间隔创建。用聚合酶诸如Taq聚合酶或大肠杆菌DNA pol I(206)处理有缺口的核酸(205)导致缺口的平移,直至相反链上的缺口会聚,由此创建双链断裂(207)。用大肠杆菌DNA pol I处理还填充或除去通过McrBC自双链切割创建的任何悬突物。如在图1中所显示的方法中,CoRE的此例示性实施方案导致双链片段,其长度可以通过改变扩增期间包含在dNTP群中的核苷酸类似物的比例来可再现地控制。与仅将单一核苷酸类似物种类引入靶核酸中的方法相比,在CoRE的此实施方案中的别的核苷酸类似物(5-甲基胞嘧啶)的引入改善基因组的富含GC区中的片段化。例如,图1中显示的CoRE的实施方案可以显示在偏向CoRE的基因组实施方案(其中引入超过一个核苷酸类似物),诸如图2中所显示的实施方案的富含AT区中更高的片段化降低在仅使用单一核苷酸类似物种类的实施方案中或在其它酶和/或机械片段化方法中可以观察到的覆盖偏离。
如应当领会的,可以依照上文所描述的CoRE方法使用本领域中已知的任何核苷酸类似物和经修饰的核苷酸来生成核酸片段。在上文所讨论的尿嘧啶和5-甲基胞嘧啶核苷酸类似物外,可以在本发明的CoRE方法中使用的别的例示性经修饰的核苷酸和核苷酸类似物包括但不限于肽核苷酸、经修饰的肽核苷酸、经修饰的磷酸盐-糖主链核苷酸、N-7-甲基鸟嘌呤、脱氧尿嘧啶和脱氧-3’-甲基腺嘌呤。
II.B.片段的进一步酶促和化学处理
在一些实施方案中,片段化后,将靶核酸进一步修饰以制备它们供以后应用,诸如在制备核酸构建体中,如下文更为详细地讨论的。需要进行这类修饰是因为片段化的过程有可能使产生的靶核酸所带有的末端无法进行某些反应,尤其是使用诸如连接酶和聚合酶的酶。对于文中概述的所有步骤,这个进一步修饰的步骤是任选的,可以以任何次序与任何其它步骤组合。
在一个例示性的实施方案中,在片段化后,靶核酸通常具有平端和悬突末端的组合及末端的磷酸酯和羟基化学的组合。可以用数种酶处理此类片段以创建具有特定化学的平端。在一个实施方案中,使用聚合酶和dNTP来填充悬突物的任何5’单链以创建平端。使用具有3’外切核酸酶活性的聚合酶(一般但不总是与5’活性聚合酶相同的酶,诸如T4聚合酶)以除去3’悬突物。合适的聚合酶包括但不限于:T4聚合酶、Taq聚合酶、大肠杆菌DNA聚合酶1、Klenow片段、逆转录酶、Φ29相关的聚合酶(包括野生型Φ29聚合酶和该聚合酶的衍生物)、T7DNA聚合酶、T5DNA聚合酶、RNA聚合酶。这些技术可以用于产生具有多种用途的平末端。
在另外的任选实施方案中,末端的化学物被改变以避免靶核酸相互连接。例如,除了聚合酶,还可以在产生平末端的过程中使用蛋白激酶,利用其3’磷酸酶活性将3’磷酸基团转化为羟基基团。这类激酶包括但不限于诸如T4激酶的商品激酶,以及还没有商业产品但具有所需活性的激酶。
类似地,可以利用磷酸酶将末端的磷酸基团转化为羟基基团。合适的磷酸酶包括,但不限于碱性磷酸酶(包括小牛肠碱性磷酸酶(CIP))、Antarctic Phosphatase、腺苷三磷酸双磷酸酶(Apyrase)、焦磷酸酶、无机(酵母)热稳定无机焦磷酸酶等,这些酶是本领域已知的,并且可以从例如New England Biolabs购买到。
本领域技术人员应当领会,对于文中概述的所有步骤,可以使用这些步骤和酶的任何组合。例如,某些酶法片段化技术,诸如使用限制性内切酶,可能使得这些酶法“末端修补”步骤中的一种或多种成了多余的。
以上描述的修饰可以防止形成含有以未知构象连接的不同片段的核酸模板,因此减少了和/或消除了由这类不希望的模板造成的序列鉴定和组装中的错误。
在又一些实施方案中,在片段后使DNA片段变性以生成单链片段。
II.C.扩增
在一个实施方案中,片段化后(实际上在本文概括的任何步骤之前或之后),可以对片段化的核酸群进行扩增步骤以保证全部片段有足够大的浓度可用于随后的应用。这类扩增方法是本领域公知的,包括但不限于聚合酶链式反应(PCR)、连接酶链式反应(有时被称为寡核苷酸连接酶扩增OLA)、环状探针技术(CPT)、多重置换扩增(MDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化的片段),并且与术语链置换扩增(SDA)可互换使用。
II.C.1.多重置换扩增(MDA)
在本发明的一方面,使用MDA来扩增依照本文中所描述的方法生成的片段或核酸构建体。MDA一般牵涉使至少一种引物、DNA聚合酶和靶样品接触,并在促进靶序列扩增的条件下温育靶样品。若使用一种引物(例如,Watson引物,与Crick靶物互补),则生成双链靶物的一条链(例如Crick)的多拷贝,若为第二引物(例如Crick)(其与靶物的第二条链(例如Watson)互补),则发生这两条链的扩增。靶序列的复制生成复制链,使得在复制过程中,复制链通过另一条复制链的链置换复制而自靶序列置换。在MDA的一些实施方案中,使用随机引物组来随机引发基因组核酸的样品(或高度复杂性的核酸的另一个样品)。通过选择足够大的具有随机或部分随机序列的引物组,该组中的引物会共同且随机地与样品中的核酸间分布的核酸序列互补。扩增通过用高持续性聚合酶的复制进行,在每个引物处启动,并且一直继续直至自发终止。此方法的关键特征是在复制过程中通过聚合酶置换居间引物。因此,可以在较短的时间中合成全基因组的多个重复拷贝。MDA的通用方法是本领域中已知的,并且披露于例如美国专利No7,074,600,在此为了所有目的及特别地涉及MDA的所有教导通过提及而将其完整收录。
常规的MDA方法的一个弱点(特别地在用于全基因组扩增时)在于经常将偏离引入扩增产物中。在许多情况中,此偏离是GC偏离,其中对基因组序列中富含GC的区域生成较大数目的拷贝。在一些情况中,看到AT偏离,其中基因组的富含AT的区域以比其它序列更大的量扩增。本发明提供了改善或阻止可导致扩增反应,特别是MDA反应的偏离的组合物和方法。
在一些实施方案中,与MDA反应中常规使用的随机六聚体不同,使用随机8聚体引物来降低片段群中的扩增偏离。另外,可以将MDA反应中使用的引物设计为具有较低的GC含量,其也具有降低GC偏离的效果。例如,图3显示了引物浓度对GC偏离的影响。在图3中,x轴上方的点代表偏向富含AT的序列,而x轴下方的点显示偏向富含GC的序列。低GC含量6聚体(图3中正方形)显示了于30℃进行90分钟的MDA反应中的宽浓度范围间的相对低偏离。
在又一些实施方案中,可以将某些酶添加到MDA反应以降低扩增的偏离。例如,非持续性5’外切核酸酶的低浓度可以降低GC偏离。
在又一些实施方案中,MDA反应中包含添加剂以阻止或改善GC偏离。此类添加剂包括但不限于单链结合蛋白、甜菜碱、DMSO、海藻糖、甘油。
图4表明DMSO降低MDA反应中由较高的引物浓度引起的GC偏离(参见图4B)。如应当领会的,可以依照本发明使用宽范围的DMSO浓度。在例示性的非限制性实施方案中,使用约0.5%至约10%DMSO作为本发明的MDA反应中的添加剂。在又一些实施方案中,在本发明的方法中使用约1%,2%,3%,4%,5%,6%,7%8%,9%,10%DMSO。在又一些实施方案中,使用约1%-2%,2%-4%,5%-8%,和3%-6%DMSO。
图5显示了SSB(图5A)和甜菜碱(图5B)两者都可以降低宽范围的浓度间的GC偏离。图4和5的实验于30℃进行90分钟。如应当领会的,可以依照本发明使用宽范围的SSB和甜菜碱浓度。在一些实施方案中,依照本发明使用约1至约5000ng SSB。在又一些实施方案中,使用约1-10,20-4000,30-3000,40-2000,50-1000,60-500,70-400,80-300,90-200,10-100,15-90,20-80,30-70,40-60ng SSB。在一些实施方案中,依照本发明使用约0.1至约5μM甜菜碱。在又一些实施方案中,使用约0.2-4、0.5-3、和1-2μM甜菜碱。在又一些实施方案中,使用约0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0,1.1,1.2,1.3,1.4和1.5μM甜菜碱。
在某些实施方案中,组合核酸片段与亚精胺,之后用MDA扩增以在移液或其它物理操作过程中提供保护免于剪切。然而,高浓度的亚精胺可以干扰MDA。在某些实施方案中,在MDA前,在存在高浓度(约100mM)亚精胺的情况中使核酸片段变性。然后,稀释混合物以产生1mM终浓度的亚精胺,然后,使用MDA或本领域中已知的其它扩增方法来扩增。
如应当领会的,可以与用于使核酸片段化或者为生成DNA纳米球生成核酸的任何方法(其中那些方法包括一个或多个扩增步骤)一起使用阻止或改善MDA反应中的偏离的方法。
II.D.环形构建体的制备
在一方面,可以使用如上文所描述的那样生成的核酸片段来生成环形核酸模板构建体。这些环形构建体可以充当用于生成DNA纳米球(其在下文更为详细地描述)的模板。本发明提供了环形核酸模板构建体,其包含靶核酸和多个分散的衔接头。通过在遍及每个靶核酸片段的多个位点处插入衔接头分子来装配核酸模板构建体。分散的衔接头容许连续或同时自靶核酸中的多个位点获得序列信息。
虽然本文中所描述的本发明的实施方案一般就环形核酸模板构建体而言进行描述,但是应当领会,核酸模板构建体也可以是线性的。此外,本发明的核酸模板构建体可以是单链或双链,其中后一种在一些实施方案中使优选的。如本文中所使用的,除非另有记录,术语“靶核酸”和“靶核酸片段”及所有语法等同物可互换使用。
本发明的核酸模板(文中又称为“核酸构建体”和“文库构建体”)包含靶核酸和衔接头。名词“衔接头”用于本文是指序列已知的寡核苷酸。本发明中使用的衔接头可以包含多种元件。所述衔接头中包含的元件(文中又称为“特征”)的类型和数量取决于衔接头的预期用途。用于本发明的衔接头通常包括但不限于限制性内切核酸酶的识别和/或切割位点(特别是II型识别位点,如下文描述,这种识别位点允许内切核酸酶结合位于衔接头内部的识别位点,而在衔接头之外切割);引物结合位点(用于扩增核酸构建体)或锚定引物(文中有时又称为“锚定探针”)结合(用于给核酸构建体中的靶核酸测序)、切口酶位点等。在一些实施方案中,衔接头包含限制性内切核酸酶的单个识别位点,而在其它实施方案中,衔接头包含一或多种限制性内切核酸酶的两个或更多个识别位点。如文中的概述,识别位点经常(但不是必然)存在于衔接头的末端,以便双链构建体的切割在离衔接头结尾最可能远的位置进行。
在一些实施方案中,衔接头不包括任何限制性内切核酸酶的识别位点。
在一些实施方案中,本发明的衔接头根据衔接头中包含的特征的数量和大小,长度为大约10到大约250个核苷酸。在某些实施方案中,本发明的衔接头长度大约50个核苷酸。在其它实施方案中,本发明使用的衔接头长度为约20到约225、约30到约200、约40到约175、约50到约150、约60到约125、约70到约100,和约80到约90个核苷酸。
在其它实施方案中,衔接头任选包含的元件可以作为两个“臂”连接到靶核酸上。这些臂中的一个或两者可以包含限制性内切核酸酶的完整识别位点,或者两个臂可以包含限制性内切核酸酶的部分识别位点。在后一种情况中,包含靶核酸的构建体每端结合着衔接头臂,其环化将构成完整的识别位点。
还有一些实施方案中,本发明使用的衔接头在其5’和3’端包含不同的锚定分子结合位点。正如文中进一步描述的,这类锚定分子结合位点可以用于测序应用,包括本文和美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593和12/266,385、11/938,106、11/938,096、11/982,467、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214以及11/451,691中描述的复合探针锚定分子连接(cPAL)的测序方法,以上文献均通过引用全部并入本文,特别是与通过连接来测序有关的公开内容。
在一方面,本发明的衔接头是分散衔接头。本文中的“分散衔接头”意味着在靶核酸内部插入间隔位置的寡核苷酸。一方面,就靶核酸而言的“内部”意味着在诸如环化和切割的处理之前,靶核酸以内的位点,上述处理可能引入序列反转或者类似的转变,因此打乱了靶核酸中核苷酸的顺序。
II.D.1.模板构建过程的概述
本发明的核酸模板构建体含有插入靶核酸中且为特定取向的多个分散衔接头。如本文中进一步讨论的,自从一个或多个细胞,包括1至数百万个细胞分离的核酸生成靶核酸。然后,使用机械或酶方法来将这些核酸片段化。在具体的实施方案中,使用利用本文中所描述的CoRE方法生成的核酸片段来生成本发明的核酸模板构建体。
变为本发明的核酸模板构建体的一部分的靶核酸在预定位置处的靶核酸的连续区域内可以具有以一定间隔插入的分散衔接头。间隔可能是相同或不同的。在一些方面,分散衔接头之间的间距可能只能准确知道到一至几个核苷酸。在其它方面,衔接头的间距是已知的,每个衔接头相对库构建体中其它衔接头的方向是已知的。这就是说,在许多实施方案中,衔接头以已知距离插入,因此一个末端的靶序列与另一个末端的靶序列是连续的天然基因组序列。例如,对于从距离识别位点16个碱基处切割的II型限制性内切核酸酶,3个碱基位于衔接头内,内切核酸酶从离衔接头末端13个碱基处切割。当插入第二个衔接头时,衔接头“上游”的靶序列和衔接头“下游”的靶序列实际上在原始靶序列中是连续序列。
本发明提供了核酸模板,其包含含有多个分散的衔接头的靶核酸。在又一个实施方案中,由多个基因组片段形成的核酸模板可以用于产生核酸模板库。这类核酸模板库在某些实施方案中涵盖的靶核酸合在一起能够覆盖整个基因组全部或部分。这就是说,通过使用足够数量的起始基因组(例如细胞),结合随机片段化,所得的用于产生本发明的环形模板的特定大小的靶核酸能够有效地覆盖基因组,虽然可以理解,少数情况中,可能会引入偏性而阻碍整个基因组均得以表现。
本发明的核酸模板构建体包含多个分散衔接头,在某些方面中,这些分散的衔接头包含限制性内切核酸酶的一或多个识别位点。另一方面,所述衔接头包含切口内切核酸酶、1型内切核酸酶、II型内切核酸酶和/或III型内切核酸酶诸如EcoP1和EcoP15的识别位点。在另一方面,衔接头包含II型内切核酸酶的识别位点。II型和III型内切核酸酶通常可以购买到,是本领域公知的。此类内切核酸酶识别双链多核苷酸序列中的特异核苷酸碱基对序列。当识别到该序列时,II型内切核酸酶将切割该多核苷酸序列,通常会留下序列中一条链的突出,或“粘末端”。II型和III型内切核酸酶通常是在其识别位点之外切割,取决于具体的内切核酸酶,这个距离可能离识别位点在大约2到30个核苷酸之间。某些II型内切核酸酶是从离识别位点数量已知的碱基处切割的“精确切刀”。在某些实施方案中,所用的II型内切核酸酶不是“精确切刀”,而是在特定范围内切割(例如6到8个核苷酸)。通常本发明中使用的II型限制性内切核酸酶的切割位点与其识别位点相隔至少6个核苷酸(即,识别位点结尾与最近的切割点之间的核苷酸数量)。例示性的II型限制性内切核酸酶包括,但不限于Eco57M I、Mme I、Acu I、Bpm I、BceA I、Bbv I、BciV I、BpuE I、BseM II、BseR I、Bsg I、BsmF I、BtgZ I、Eci I、EcoP15I、Eco57M I、Fok I、Hga I、Hph I、Mbo II、Mnl I、SfaN I、TspDT I、TspDW I、Taq II等。在某些例示性的实施方案中,本发明中使用的II型限制性内切核酸酶是AcuI,该酶的切割长度大约16个碱基,产生2个碱基的3’突出;和III型内切核酸酶EcoP15,该酶切割长度约25个碱基,产生2个碱基的5’突出。正如以下将进一步讨论的,在发明所述核酸模板构建体中的衔接头中包含上II型和III型位点提供了一个便于在靶核酸的限定位置上插入多个衔接头的工具。
应当理解,衔接头还可以包含其它元件,包括文中进一步描述的其它(非II型)限制性核酸内切酶的识别位点、用于扩增的引物结合位点以及测序反应中使用的探针(“锚定探针”)的结合位点。另外,本发明使用的衔接头可以含有回文序列,正如下文更详细讨论的,如果包含这类衔接头的核酸模板被用于产生多联体,回文序列可以用来促进分子内结合。
能够控制每个后续衔接头的间隔和插入方向比随机插入分散的衔接头具有许多优势。特别是本文描述的方法改善衔接头插入过程的效率,因此减少了在插入每个后续衔接头时引入扩增步骤的需要。另外,控制每个添加的衔接头的间隔和方向确保每个衔接头中通常含有的限制性内切核酸酶识别位点所处方位使得随后的切割和连接步骤在核酸构建体的适宜位点发生,从而通过减少或消除含有处于不合适位置或方向的衔接头的核酸模板形成而进一步提高所述过程的效率。另外,控制每个随后加入的衔接头的位置和方向对得到的核酸构建体的某些用途是有益的,因为衔接头在测序应用中行使多种功能,包括作为序列已知的参照点,从而协助确认靶核酸中特定位点上鉴定到的碱基的相对空间位置。文中进一步描述了衔接头在测序应用中的这类用途。
如上文所述,任选调节双链片段的5’和3’端。例如,许多用于将核酸分级的技术产生的是长度和化学性质各异的片段末端。例如,末端可能含有重叠,用于许多目的,优选平末端双链片段。利用已知技术,比如聚合酶和dNTPs可以做到这一点。类似地,分级技术也有可能得到各种末端,比如3’和5’羟基基团和/或3’和5’磷酸基团。在某些实施方案中,正如下文描述的,可能希望酶法改变这些末端。例如,为了防止不含衔接头的多个片段发生连接,可能希望改变末端的化学性质,使得不存在正确的磷酸和羟基基团方向,从而防止靶序列的“聚合”。利用本领域已知的方法可以控制末端的化学性质。例如,在某些情况中,利用磷酸酶除去所有磷酸基团,从而使得全部末端含有羟基基团。然后可以对每个末端进行选择性地改变以允许期望的成分连接在一起。
此外,按照需要还任选利用大量已知技术进行扩增来增加基因组片段的数量以便之后的操作,虽然在许多实施方案中,在这个阶段不需要扩增步骤。
在一些实施方案中,若使用扩增来增加构建核酸模板的任何步骤之前或之后的片段数目,则所述扩增是使用上文所描述的一种或多种添加剂来降低在其它情况中可源自扩增的偏离的MDA反应。
分级和任选的末端调节后,给基因组片段末端加上一套衔接头“臂”。两个衔接头臂,当连接在一起时,形成第一衔接头。例如,如图6中描述的,每个末端带有一个衔接头臂的线性构建体的环化(605)将两个臂连在一起形成完整衔接头(606)和环形构建体(607)。因此,基因组片段的一个末端加上了第一衔接头的第一衔接头臂(603),该基因组片段的另一个末端加上第一衔接头的第二衔接头臂(604)。一般来说,正如下文更充分描述的,根据需要的系统,衔接头臂之一或两者包含II型核酸内切酶的识别位点。替代地,衔接头臂可以各自含有部分识别位点,当臂发生连接时,重新构成完整识别位点。
为了将后续衔接头按照希望的位置和方向连接以便测序,本发明提供了这样的方法,所述方法中II型限制性核酸内切酶与环形核酸构建体的第一衔接头内的识别位点结合,然后在基因组片段(文中又称为“靶核酸”)中该第一衔接头之外的点进行切割。然后在发生切割的这个点连接上第二衔接头(同样通常是通过给第二衔接头加上两个衔接头臂)。为了在已知位点切割靶核酸,也许希望将靶核酸中可能随机包含的同一酶的任何其它识别位点阻断,从而使得限制性核酸内切酶可以结合的唯一位点在第一衔接头内,因此避免构建体发生不需要的切割。一般来说,首先保护第一衔接头中的识别位点不被失活,然后通常通过甲基化将构建体中任何其它未被保护的识别位点失活。即,甲基化的识别位点不会与酶结合,因此不发生切割。只有衔接头中未被甲基化的识别位点能够与酶结合,并随后发生切割。
保护第一衔接头中的识别位点不被失活的一个方法是使该位点变成单链,因为甲基化酶不会与单链结合。因此,保护第一衔接头中的识别位点的一种方法是通过利用尿嘧啶修饰过的引物,扩增与两个第一衔接头臂连接的线性基因组片段。所述引物与衔接头臂互补,并且经尿嘧啶修饰过,因此在扩增(通常是利用PCR)时,得到的线性构建体含有尿嘧啶镶嵌在一个第一衔接头臂的识别位点中。利用已知技术切割尿嘧啶使所述第一衔接头臂(或者任何含有尿嘧啶的片段)变成单链。然后给线性构建体使用序列特异的甲基化酶,该酶将与第一衔接头中含有的相同核酸内切酶的所有双链识别位点甲基化。这种序列特异性甲基化酶不能甲基化第一衔接头臂中的单链识别位点,因此第一衔接头臂中的识别位点被保护免于经甲基化失活。正如下文描述的,如果限制性位点被甲基化,其将不会被限制性核酸内切酶切割。
正如下文将充分描述的,某些情况中,单个衔接头可能含有两个相同的识别位点,以便能够从同一衔接头的“上游”及“下游”切割。在该实施方案中,如图7所示意的,引物和尿嘧啶位置经过了适当的选择,从而使得“上游”或者“下游”识别位点可以被选择性地保护,而免于失活或被失活。例如,在图7中,两个不同衔接头臂(以长方形表示)各自包含限制性核酸内切酶的一个识别位点(在一个衔接头臂中以圆圈表示,另一个中以三角形表示)。如果需要利用以上描述的尿嘧啶降解法来保护带有以圆圈表示的识别位点的衔接头臂,则设计尿嘧啶修饰的扩增引物给该识别位点引入尿嘧啶。然后一经尿嘧啶降解,该衔接头臂变成单链(以半个长方形表示),从而保护识别位点免于失活。
保护第一衔接头臂中的识别位点不被甲基化后,通过利用例如桥寡核苷酸和T4连接酶将线性构建体环化。环化使得第一衔接头臂中的限制性核酸内切酶重新形成双链。在某些实施方案中,桥寡核苷酸具有被封闭的末端,这使得借助桥接寡核苷酸进行环化,未封闭末端的连接,并在识别位点附近留下切口。这个切口如下文的讨论可以被进一步利用。应用限制性核酸内切酶产生第二个线性构建体,其包含位于靶核酸内部的第一衔接头和包含(取决于酶)双碱基突出的末端。
将第二衔接头的第二套衔接头臂连接到第二线性构建体上。某些情况中,当利用切口时,为了确保衔接头以恰当的方向连接,通过利用具有核酸外切酶活性的聚合酶将第一衔接头中的切口“平移”(或“移位”)。聚合酶(比如Taq聚合酶)的核酸外切酶活性将切除邻接切口的短DNA链,而聚合酶活性将在该链“填上”切口和随后的核苷酸(基本上,Taq沿着链移动,利用核酸外切酶活性切除碱基并加上相同的碱基,结果就是切口沿着链移位,直至酶到达链末端)。
此外,为了形成模板的不对称,构建体的一个末端被修饰上一个碱基。例如,某些聚合酶(比如Taq)会进行没有模板的核苷酸添加,因此造成在平DNA双链体的3’端添加一个核苷酸,产生3’突出。本领域技术人员理解,根据溶液中的dNTP浓度,可以添加任何碱基。在特定实施方案中,所用的聚合酶只能添加单独一个核苷酸。例如Taq聚合酶能够添加单个G或A。也可以使用其它聚合酶来添加其它核苷酸从而产生突出端。在一个实施方案中,使用了过量的dGTP,造成在一条链的3’端没有模板地添加了鸟嘌呤。第二线性构建体3’端的这个“G尾”造成末端的不对称,因此能够与带有C-尾的第二衔接头臂连接,使得第二衔接头臂与第二线性构建体的3’端复性。意图连接到5’端的衔接头带有C-尾,其位置使得它能够与5’G-尾连接。第二衔接头臂连接后,将构建体环化产生包含两个衔接头的第二环形构建体。第二衔接头通常含有II型核酸内切酶的识别位点,而该识别位点与第一衔接头中含有的识别位点可能是相同的或者是不同的,后一种情况有许多应用。
通过用限制性核酸内切酶切割,可以在第一衔接头的另一侧插入第三衔接头,所述内切酶结合第一衔接头的第二个臂中的识别位点(即最初通过甲基化失活的识别位点)。为了使这个识别位点可以使用,利用与第一衔接头中的识别位点互补的尿嘧啶修饰引物来扩增环形构建体产生第三线性构建体,该线性构建体中的第一衔接头包含镶嵌在第二限制性识别位点中的尿嘧啶。将尿嘧啶降解使第一衔接头变成单链,这样就保护衔接头中的识别位点免于甲基化。然后采用序列特异性甲基化酶将所有未被保护的识别位点失活。一经环化,第一衔接头中的识别位点重新形成,施用限制性核酸内切酶将切割环形,在第三线性构建体中产生可以插入第三衔接头的位点。第三衔接头臂与第三线性构建体的连接遵循与以上描述相同的基本程序—第三线性构建体将带有A-或G-尾,第三衔接头臂带有T-或C-尾,使得衔接头臂能够与第三线性构建体复性,被连接。然后将包含第三衔接头臂的线性构建体环化形成第三环形构建体。与第二衔接头一样,第三衔接头通常包含与第一衔接头所含有的识别位点不同的限制性核酸内切酶识别位点。
通过利用在第二和第三衔接头中有识别位点的II型限制性核酸内切酶可以添加第四衔接头。用这些限制性核酸内切酶进行的切割将产生第四线性构建体,然后该构建体与第四衔接头臂连接。连接了第四衔接头臂的第四线性构建体的环化将产生本发明的核酸模板构建体。正如本领域技术人员可以理解的,还可以添加其它衔接头。因此,本文描述的方法允许两个或更多个衔接头以方向、有时是距离依赖性的方式加入。
本发明还提供了方法来控制每个后加入的衔接头的插入方向。这类“切口平移”法提供了一种控制靶核酸与衔接头连接方式的方法。通过防止衔接头与其它衔接头连接和靶核酸分子与其它靶核酸分子连接(大致就是避免衔接头和靶核酸分子各自的“聚合”),这些方法还能够防止形成假核酸构建体。图8图示了衔接头和靶核酸分子连接可以采取的不同方向的实例。靶核酸801和802优选与衔接头803和804以希望的方向连接(正如该图中显示的,希望的方向是具有相同形状—圆圈或方形—的末端相互连接的那个方向)。修饰分子的末端可以避免不希望的构象807、808、809和810,这些构象中靶核酸相互连接,衔接头相互连接。此外,正如下文将更详细讨论的,可以通过控制衔接头和靶核酸的末端的化学性质来控制每次衔接头-靶核酸连接的方向。利用本领域已知方法可以控制末端的化学性质。例如,某些情形中,使用磷酸酶除去所有磷酸基团,使得全部末端含有羟基基团。然后可以限制性地改变每个末端以便希望的成分之间进行连接。下文更详细地描述了本发明的切口平移法中末端修饰和控制衔接头插入的这些和其它方法。
然后这些核酸模板构建体(包含散布了这些衔接头的靶序列的“单体”)可以用于产生多联体,而这些多联体又可以形成用于正如测序和检测特异靶序列的下游应用的核酸纳米球。
本发明提供了形成核酸模板构建体的方法,其中所述模板构建体包含插入靶核酸的多个散在分布的衔接头。正如文中进一步讨论的,本发明的方法允许通过利用衔接头中包含的II型限制性核酸内切酶的识别位点来插入每个后续衔接头。为了以希望的顺序和/或方向插入多个衔接头,可能有必要将靶核酸中含有的限制性核酸内切酶识别位点封闭,从而使得只有衔接头中的识别位点可供酶的结合和随后的切割。这类方法的优势之一是每个衔接头中可以使用相同的限制性核酸内切酶位点,这就简化了最终用于制备多联体的环形模板的产生过程,衔接头的插入可以利用先前插入的衔接头作为下一个衔接头的“垫脚石”,每个新的衔接头通过顺着片段“走”即可实现添加。控制可供限制性酶使用的识别位点还避免了切除某些序列,因此只能达到有限的序列代表(如果可以接近靶核酸内部的位点,就可能发生这种情况)。
II.D.2.第一衔接头的添加
作为产生本发明的核酸模板的第一步,将第一衔接头与靶核酸连接。可以将整个第一衔接头添加到一个末端,或者将第一衔接头的文中称为“衔接头臂”的两部分与靶核酸的两个末端分别连接。第一衔接头臂被设计成通过连接可以重新构成完整的第一衔接头。正如上面具体描述的,第一衔接头通常包含一或多个II型限制性核酸内切酶的识别位点。在某些实施方案中,II型限制性核酸内切酶识别位点分到两个衔接头臂上,因此位点只有在两个衔接头臂发生连接后,才能供限制性核酸内切酶进行结合。
图6是组装衔接头/靶核酸模板(文中又称为“靶文库构建体”、“文库构建体”和所有语法上的等同体)的方法的一个方面的示意图。利用以上描述的标准技术分离DNA,比如基因组DNA601,并片段化为靶核酸602。然后片段化的靶核酸602被修复,使得每个链的5'和3'端是齐的或平的末端。这个反应后,利用没有校正功能的聚合酶给片段化的靶核酸每个链的3’端添加单个A,使每个片段带上“A-尾”。加A尾通常是通过使用聚合酶(比如Taq聚合酶)并仅提供腺嘌呤核苷酸实现的,这样聚合酶被迫以模板序列非依赖性的方式给靶核酸的末端添加一或多个A。
在图6显示的例示性方法中,第一衔接头的第一臂(603)和第二臂(604)与各个靶核酸连接,产生带有连接到各末端的衔接头臂的靶核酸。在一个实施方案中,衔接头臂是“加T尾的”,因此与靶核酸的A尾互补,这样通过提供一种方式使衔接头臂首先与靶核酸复性,然后采用连接酶将衔接头臂连到靶核酸上,协助了衔接头臂与靶核酸的连接。
在其它实施方案中,本发明提供了衔接头与各片段连接的方式使分子内或分子间连接人工产物的产生最小化。这是有益的因为靶核酸随机片段相互形成连接假象会产生假的靶核酸片段间的基因组邻近关系,使序列比对过程复杂化。利用加A和T尾将衔接头附着到DNA片段上防止了衔接头和片段的随机分子内或分子间关联,这就减少了自连接(衔接头-衔接头或片段-片段连接)会产生的假象。
作为加A/T尾(或加G/C尾)的替代,可以采取各种其它方法来防止靶核酸和衔接头形成连接假象,以及衔接头臂相对靶核酸的定向,包括利用靶核酸和衔接头臂中的互补NN突出,或者采用合适的靶核酸与衔接头的比率进行平末端连接从而优化单片段核酸/衔接头臂连接比率。
产生包含靶核酸并且每个末端都带有衔接头臂的线性构建体后,将线性靶核酸环化(605)(这个过程在文中将更详细地讨论),产生包含靶核酸和衔接头的环形构建体607。注意环化过程导致第一衔接头的第一和第二臂被带到一起在环形构建体中形成连续的第一衔接头(606)。在某些实施方案中,环形构建体607利用例如随机六聚体和Ф29或螺旋酶,通过比如环依赖性扩增被扩增。替代地,靶核酸/衔接头结构可以保持线性,通过从衔接头臂内的位点引导的PCR来进行扩增。扩增优选是受到调控的扩增过程,使用高忠实度、有校正活性的聚合酶,产生序列准确的扩增靶核酸/衔接头构建体文库,其中被查询的基因组或基因组的一或多个部分有足够的代表。
II.D.3.添加多个衔接头
如上文所讨论的,图6是组装衔接头/靶核酸模板(文中又称为“靶文库构建体”、“文库构建体”和所有语法上的等同体)的方法的一个方面的示意图。利用标准技术分离DNA,比如基因组DNA601,并片段化为靶核酸602。然后在某些实施方案中(如文中所述)片段化的靶核酸602被修复,使得每个链的5'和3'端是齐的或平的末端。
在图6显示的例示性方法中,第一衔接头的第一臂(603)和第二臂(604)与各个靶核酸连接,产生带有连接到各末端的衔接头臂的靶核酸。
产生包含靶核酸并且每个末端都带有衔接头臂的线性构建体后,将线性靶核酸环化(605)(这个过程在文中将更详细地讨论),产生包含靶核酸和衔接头的环形构建体607。注意环化过程导致第一衔接头的第一臂和第二臂被带到一起在环形构建体中形成连续的第一衔接头(606)。在某些实施方案中,环形构建体607利用例如随机六聚体和Ф29或螺旋酶,通过比如环依赖性扩增被扩增。替代地,靶核酸/衔接头结构可以保持线性,通过从衔接头臂内的位点引导的PCR来进行扩增。扩增优选是受到调控的扩增过程,使用高忠实度、有校正活性的聚合酶,产生序列准确的扩增靶核酸/衔接头构建体文库,其中被查询的基因组或基因组的一或多个部分有足够的代表。
与添加第一衔接头过程类似,可以给线性分子(609)的每个末端添加第二套衔接头臂(610)和(611),然后连接(612)形成完整衔接头(614)和环形分子(613)。同样,通过利用切割衔接头(609)另一侧的II型核酸内切酶可以给衔接头(609)的另一侧添加第三衔接头,然后将第三套衔接头臂(617)和(618)连接到线性化分子的各个末端。最后,通过再次切割环形构建体并给线性化分子添加第四套衔接头臂来加上第四衔接头。图6所画的实施方案是采用了衔接头(620)和(614)中有其识别位点的II型核酸内切酶来切割环形构建体的一个方法。衔接头(620)和(614)中的识别位点可以是相同或不同的。类似地,图6显示的所有衔接头中的识别位点可以说相同或不同的。
如图9大概展示的,包含第一衔接头的环形构建体在该衔接头中可能含有两个II型限制性核酸内切酶识别位点,其位置使得识别序列之外(衔接头之外)的靶核酸被切割(910)。结构510周围的箭头指示识别位点和限制位点。在过程911中,使用了一种II型限制性核酸内切酶EcoP15来切割环形构建体。注意在图9所显示的方面中,每个文库构建体中做图到部分靶核酸的的部分将被从构建体中切割掉(结构910中箭头之间的靶核酸部分)。过程(process)911中用EcoP15限制性切割文库构建体产生了含有第一衔接头的线性构建体文库,其中第一衔接头位于线性构建体912末端以内。得到的线性文库构建体的大小由核酸内切酶识别位点和核酸内切酶限制位点之间的距离加上衔接头的大小决定。在过程913中,线性构建体912,与片段化的靶核酸904一样,通过常规方法处理变成平的或齐的末端,利用不具有校正活性的聚合酶给线性文库构建体的3’端加上包含单个A的A尾,通过A-T复性和连接将第二衔接头的第一臂和第二臂连接到线性化的文库构建体的末端913。得到的文库构建体包含914处可以看到的结构,其中第一衔接头位于线性构建体末端以内,靶核酸通过第一衔接头侧接在一个末端,另一端通过第二衔接头的第一臂或第二臂。
在过程915中,双链线性文库构建体被处理成为单链916,然后单链文库构建体916被连接(917)形成散在分布着两个衔接头的靶核酸918单链环。917中的连接/环化过程是在使分子内连接最优化的条件下进行的。在特定浓度和反应条件下,更倾向于每个核酸构建体末端的局部分子内连接,而不是分子之间的连接。
II.D.4.控制靶核酸和衔接头之间的连接方向
本发明一个方面提供的方法中衔接头与靶核酸的连接,如上文所述是以希望的方向进行的。这种方向控制是有益的,因为靶核酸随机片段相互形成连接假象会产生假的靶核酸片段间的基因组邻近关系,使序列比对过程复杂化。
有几种方法可以用来控制衔接头的插入方向。如上文所述,可以改变靶核酸和衔接头末端的化学性质,从而使连接仅发生在方向正确的情况下。替代地,可以进行“切口平移法”,如下面概述的,该方法同样依赖于末端的化学性质。最后,可以按照下面的描述,采取涉及用特别选择的引物进行扩增的方法。
图12示意了第二衔接头可以添加到核酸构建体的不同方向。同样,过程1200以含有已插入第一衔接头1210的环形文库构建体1202开始。第一衔接头1210具有特定的方向,其中的三角形示意第一衔接头的外链(“outer strand”),菱形示意第一衔接头的内链(“inner strand”)(Ad1方向1210)。箭头1201的尾部指示了第一衔接头1210中的II型限制性核酸内切酶位点,箭头的头部指示切割位点。过程1203包含以II型限制性核酸内切酶进行切割,连接第二衔接头的第一臂和第二臂,以及重新环化。从得到的文库构建体1204和1206可以看出,第二衔接头可以相对第一衔接头以两种不同的方式插入。在希望的方向1204中,椭圆形插入带三角形的外链,蝴蝶结插入了带菱形的内链(Ad2方向1220)。在不希望的方向中,椭圆形插入了带菱形的内链,蝴蝶结形插入了带三角形的外链(Ad2方向1230)。
尽管为了清楚起见,以下讨论和提及的示意图主要针对第二衔接头相对第一衔接头的插入,但可以理解下文讨论的过程适用于第二衔接头之后添加的衔接头,将产生带有三、四、五、六、七、八、九、十或更多个插入衔接头的文库构建体。
在一个实施方案中,使用了加A尾和加T尾将衔接头附着于核酸片段。例如,按照以上描述的修饰来修复片段末端,利用不具有校正活性的聚合酶给片段化的靶核酸每条链的3’端添加单个A,将每个片段“加A尾”。加A尾通常是利用聚合酶(比如Taq聚合酶)并且仅提供腺嘌呤核苷酸(或者过量的腺嘌呤核苷酸),这样聚合酶被迫以模板-序列-非依赖性的方式将一或多个A添加到靶核酸末端。在采用“加A尾”的实施方案中,与衔接头(或衔接头臂)的连接是通过给衔接头/衔接头臂添加“T尾”,从而与靶核酸的A尾互补,这样通过提供一种方式使衔接头臂首先与靶核酸复性,然后采用连接酶将衔接头臂连到靶核酸上,协助了衔接头臂与靶核酸的连接。
因为当核酸模板处于所需大小并且包含来源于单个片段的靶核酸时,所述发明的各方面实现最优化,所以保证产生核酸模板的整个过程环化反应是在分子内进行的是有益的。这就是说,确保靶核酸在与第一、第二、第三等衔接头连接的过程中,不会自身相互连接是有益的。图10展示了控制环化过程的一个实施方案。如图10所示,封闭寡核苷酸1017和1027被分别用于封闭结合区域1012和1022。封闭寡核苷酸1017与结合序列1016互补,封闭寡核苷酸1027与结合序列1026互补。在5’衔接头臂和3’衔接头臂的示意图中,带下划线的碱基是双脱氧胞嘧啶(ddC),粗体碱基是磷酸化的。封闭寡核苷酸1017和1027与衔接头臂不是共价结合,可以在衔接头臂与文库构建体连接后和环化之前“融化掉”;并且,双脱氧核苷酸(这里是ddC,或者替代的另一种无法连接的核苷酸)防止封闭分子与衔接头发生连接。另外或者作为一种替代,在某些方面中,封闭寡核苷酸-衔接头臂的杂交体在衔接头臂和封闭分子之间含有一或多个碱基的缺口以减少封闭分子与衔接头的连接可能。在某些方面中,封闭分子/结合区杂交体的Tms约为37℃以便封闭序列在衔接头臂连接(环化)前容易融化。
II.D.5.连接方向的控制:臂连臂连接
在一个方面中,利用“臂连臂”连接方法可以控制衔接头的方向性插入,而无需修饰靶核酸末端。一般来说,这是一个有两个步骤的连接过程,其中衔接头臂被加至靶核酸,伴随链置换的引物延伸产生两个双链分子,每个有一个衔接头臂位于一端,然后可以给没有衔接头臂的末端添加第二衔接头臂。这个过程可以防止产生两端含有相同衔接头臂的核酸分子—例如,象图11A显示的,臂连臂连接过程可以防止形成两端均被衔接头A或衔接头B占据的核酸分子。在许多实施方案中,优选靶核酸的每端与不同的衔接头臂连接,这样当两个臂连在一起时它们能够形成完整的一个衔接头。这在添加各衔接头臂后减少需要的扩增步骤的数量尤其有用,因为臂连臂连接减少了每个连接反应中无用分子的数量。
图11显示了臂连臂连接方法的一个实施方案。在这个实施方案中,去磷酸化的靶核酸的两条链均被加上了第一衔接头臂A的一条链。通常利用碱性磷酸酶将该衔接头臂的一端(显示为闭合环形)封闭。引物置换可以用来换下带有封闭端的链。伴随链置换的引物延伸(在一个例示性实施方案中,这可以通过利用phi29或Pfu聚合酶来实现)从两个末端开始,延伸过整个插入片段,产生两个双链核酸分子,每个一端带有衔接头臂A,一端为平末端。在替代实施方案中,衔接头臂A可以先与引物在被封闭链的上游杂交从而起动引物延伸,而无需引物置换反应。链置换聚合酶反应后,即可给通常是靶核酸的平末端连接上第二衔接头臂,而不是已带有衔接头臂的末端。这种臂连臂连接过程可以防止形成两端包含相同衔接头臂的靶核酸。
II.D.6.连接方向的控制:切口平移法
在一个实施方案中,本发明提供了用于构建核酸分子的“切口平移法”。在一个实施方案中,所述切口平移法被用于以希望的方向来连接核酸分子。在另一个实施方案中,切口平移法被用于以希望的方向插入衔接头。这些方法通常涉及将待连接的核酸分子之一或者两者的一个或两个末端进行修饰。例如,将衔接头连接至靶核酸时,要连接的靶核酸和衔接头中的一个或者这两者的一个或两个末端被修饰。这类修饰后,插入到构建体一条链中的切口的“移位”或“平移”提供了控制连接好的衔接头—靶核酸构建体的最终方向的能力。如下文更详细描述的,本文描述的“切口平移法”还可以包括引物延伸或缺口填平法。虽然以下讨论是就控制衔接头与靶核酸的连接而言的,可以理解这些方法并不限于衔接头与靶核酸的连接,这些方法还可以用于控制任何两个核酸分子的连接。例如,切口平移法和本文描述的任何其它控制连接的方法可以作为基因和/或DNA工程方法的一部分,比如构建新的质粒或其它DNA载体,基因或基因组合成或修饰,以及用于构建纳米技术构建体的组件。
图13示意了这种“切口平移”类型的过程。图13中的构建体1306是利用本文讨论的方法形成的,其含有散在的衔接头1304,限制性核酸内切酶识别位点(图13中的箭头尾部)和切割位点。在图14中,文库构建体未被环化,而是靶核酸片段1406(含有限制性核酸内切酶识别位点1404)和衔接头1412交替的分支多联体;但是,图13中显示的切口平移类型的过程也可以在文库构建体构型上进行。名词“文库构建体”用在文中是指包含一或多个衔接头的核酸构建体,与名词“核酸模板”可以互换。
带有插入的第一衔接头的文库构建体经限制性核酸内切酶消化(过程1301),在某些方面中,是切割靶核酸产生3’核苷酸突出1308的II型限制性核酸内切酶。在图11中,显示了两个核苷酸(NN-3')的1308,虽然不同方面中突出端核苷酸的数目至少部分取决于所用限制性核酸内切酶而各不相同。文库构建体1310被线性化,其中的第一个插入的衔接头显示为1304。第一个插入的衔接头1304被工程化成包含位于衔接头片段边界的切口1312;或者包含核酸切口内切酶的识别位点,可以在衔接头内部引入切口1314。两种情况下,均用聚合酶1316处理(1303)文库构建体,该聚合酶能够将文库构建体1310的上链从切口1312或1314延伸至下链末端形成一端带有3’突出,另一端为平末端的链。过程1305中给这个文库构建体1310连接上第二衔接头1318,该第二衔接头1318一端有简并核苷酸突出,另一端为单个3’核苷酸(例如dT)突出形成文库构建体1320。然后在过程1307中处理文库构建体1320在其平末端添加3'dA。然后可以利用例如含有尿嘧啶的引物经PCR扩增文库构建体1322。替代地,可以在过程1309中将文库构建体1322环化,这种情况中可以进行CDA(比如在图14中的步骤1421)。这里讨论的过程与图13中显示的切口平移过程联合可以选择后续添加的衔接头与任何先前插入文库构建体的衔接头的相对位置和相对方向。
为了利用切口平移类型的程序,象上文讨论过的将靶核酸和/或衔接头的一个或两个末端修饰可能是有益的。在一个例示性实施方案中,意欲与靶核酸3’端连接的衔接头的第一臂可以设计成其3’末端被封闭,因此只有衔接头臂的5’端可供与靶核酸的3’端连接。类似的,意欲与靶核酸5’端连接的第二臂可以设计成其5’端被封闭,因此只有第二臂的3’端可以与靶核酸的5’端连接。封闭衔接头臂和/或靶核酸的一端的方法是本领域已知的。例如,用上文讨论过的能够产生特定功能的末端并从3’和5’端除去磷酸的酶处理靶核酸(文中又称为“核酸插入”或“DNA插入”或“插入”)。除去全部磷酸基团使得靶核酸分子不能相互连接。该实施方案中的衔接头也被设计成有一条链可以进行连接(例如通过产生或者保留5’磷酸基团),互补链的3’端被保护不能连接。通常,对3’端的保护是利用双脱氧核苷酸将3’端失活而实现的。因此,当被修饰的靶核酸两端都没有磷酸基团,修饰的衔接头在一个5’端包含磷酸基团,互补链上3’被封闭(例如,双脱氧),唯一可能形成的连接产物是靶核酸连接至带有磷酸基团的衔接头5’端。该连接步骤之后,衔接头被保护的3’端可以置换为含有功能性3’端的链。实现这个置换通常是利用了3’被保护的链一般较短,容易变性这一事实。带有功能性3’端的置换链较长,因此能够更有效地结合互补链–在其它实施方案中,带有功能性末端的链同时添加浓度更高,从而进一步影响反应向着被保护的链被带有功能性末端的链置换进行。然后通过加入具有切口平移活性的DNA聚合酶将带有功能性3’端的链引发,聚合酶从靶核酸的5’端核酸外切地除去碱基,从而暴露出功能性5’磷酸。这个新产生的5’磷酸可以经连接酶连接至延伸产物上。(如果延伸反应过程中没有连接酶,两个聚合酶分子将从靶核酸的每个末端切口平移直至相遇,产生断裂的分子)。例如,如图2所示,靶核酸(插入)首先被末端修复形成特定功能的末端,优选是平末端。然后,为了避免插入物形成多联体,去除5’端磷酸。然后将插入物与DNA连接酶和DNA衔接头混合。所述DNA衔接头含有两个寡核苷酸,当两个寡核苷酸同时杂交时,有一个平末端和一个粘末端。平末端一侧含有一个带有被保护/失活的3’端的“上游链(top-strand)”,和一个带有功能性5’端磷酸的“下游链(bottom-strand)”,因此也不能自身连接。这样唯一可能的连接组合是每个末端平末端连接一个“下游链”的一个插入物。然后带有3’端保护的“上游链”与含有功能性3’端的寡核苷酸置换,该寡核苷酸可以作为聚合酶延伸反应中的引物。一加入聚合酶和连接酶,即可通过切口平移和连接反应嵌入第二个寡核苷酸。当聚合酶延伸至插入物内,它会引入一个带有功能性5’磷酸的切口,该切口可以被DNA连接酶所识别和封上。得到的每条链的每端带有衔接头或衔接头臂的插入物这时可以利用衔接头特异引物进行PCR。
通常在诸如上文描述的切口平移反应中,在加入聚合酶之前或者与聚合酶同时,混合物中存在或者要加入活性连接酶。在某些实施方案中,使用低活性聚合酶(低切口平移)条件可能是有益的。在聚合酶之前或者同时加入连接酶以及低活性条件都有助于保证平移的切口在到达DNA片段相反一端前被封上。在某些实施方案中,这可以通过在37℃(该温度通常导致低聚合酶活性和高连接酶活性)温育Taq聚合酶和T4连接酶来实现。然后反应可以在更高温度(比如50-60℃)继续进行温育以便保证反应中的多数/全部构建体都完成切口平移连接。
在其它实施方案中,本发明提供了形成核酸模板构建体的方法,所述核酸模板构建体包含多个散在分布的衔接头。本发明的方法包括插入多个衔接头,使每个后续的衔接头在相对先前添加的衔接头的特定位置上插入的方法。插入多个散在分布的衔接头的某些方法是本领域已知的,例如象美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/679,124、11/981,761、11/981,661、11/981,605、11/981,793和11/981,804中讨论的,为了所有目的,特别是涉及产生包含多个散在分布衔接头的核酸模板的方法和组合物,以及这类核酸模板的所有使用方法的全部教导,这些文献均通过引用全文并入本文。将已知衔接头序列插入靶序列,从而使得连续的靶序列被多个散在分布的衔接头打断,提供了给每个衔接头“上游”和“下游”测序的能力,因此增加了由每个核酸模板可以产生的序列信息量。本发明提供了相对一或多个先前添加的衔接头特定位置插入每个后续衔接头的其它方法。
切口平移连接通常是在连接了第一链之后通过向反应至少添加聚合酶来进行的。在某些实施方案中,切口平移反应可以通过将所有成分一次性加入以一步反应进行,而在另一些实施方案中,反应步骤顺序进行。切口平移反应的“一步”法有多种可能的实施方案。例如,可以使用含有引物的单一混合物,其中Taq在反应开始加入。使用热稳定的连接酶提供了通过简单提高温度来进行引物交换和切口平移连接(以及PCR,如果需要)的能力。在另一个例示性的实施方案中,反应混合物含有最低浓度的非进行性的切口平移聚合酶,和能够活化3’封闭链的弱3’核酸外切酶。
在其它实施方案中,利用T4多核苷酸激酶(PNK)或碱性磷酸酶来改变衔接头和/或靶核酸的3’端,准备切口平移过程。例如,可以作为环化反应的一部分插入衔接头。末端修复并且碱性磷酸酶处理过的靶核酸与衔接头连接,在该例示性实施方案中被设计成能够形成自身互补的发夹形单元(图16)。所述发夹被设计成在给定位置含有可以被酶或化学物识别和切割的修饰。例如,如果发夹含有脱氧尿苷,脱氧尿苷可以被UDG/Endo VIII识别和切割。切割后,两个发夹变成其各自的3’端带有磷酸的单链。然后这些3’磷酸可以经T4多核苷酸激酶(PNK)或碱性磷酸酶(SAP)除去以便如文中进一步描述的进行切口平移法。在例示性实施方案中,比如图4A中示意的实施方案,两个发夹被设计成相互部分互补,因此可以通过分子内杂交形成环形分子。最后,环化的分子进入切口平移过程,过程中聚合酶延伸至插入物中,引入能够被DNA连接酶识别和封上的带有功能性5’端磷酸的切口。
除了如上所述利用发夹结构,还可以使用一对互相部分互补的双链衔接头进行环化。一对一条链上含有可以被UDG/Endo VIII识别和切割的脱氧尿苷。还可以使用其它在一条链做切口的方法,包括但不限于:切口酶、引入可以被内切核苷酸类的酶识别的肌苷修饰的DNA,以及给DNA引入可以被RNA-核酸内切酶识别的RNA修饰。可以如上文所述,将靶核酸和衔接头准备好进行受控的连接,例如通过用碱性磷酸酶处理靶核酸产生不能与其它靶核酸连接的平末端。环化的激活是通过将衔接头中的短3’保护的链从与靶核酸连接的链中变性,在靶核酸插入的每个末端留下两个部分互补的单链末端。然后这些末端通过分子内杂交连到一起,进行切口平移和连接,形成共价闭合环。然后用UDG/Endo VIII处理这些环,产生供下一个衔接头定向插入的环。
图15显示的再一些实施方案中,用虾碱性磷酸酶(SAP)处理线性靶核酸以除去5’磷酸。然后,将靶核酸与衔接头的一个臂(臂A)连接,所述臂包含带有5’磷酸的一条链,和带有被保护的3’末端的较短互补链。然后对连接产物进行切口平移。环化反应中产生的切口位于第一衔接头的上游链,可以作为切口平移反应中聚合酶使用的引物。聚合酶将上游链延伸至衔接头—插入物会合处的切口,释放衔接头A臂之一,产生平末端或A或G突出。然后,得到的聚合酶产生的插入物末端与第二衔接头臂(臂B)连接。通过设计第一衔接头在环化反应中产生切口,后续的衔接头可以以预先确定的方向加入。这个策略可以应用于所有II型限制性酶或其它酶促或非酶促片段化方法中,不论它们产生的消化产物是带有平末端、3’突出还是5’突出。之后的引物置换、延伸、连接和PCR与图2中描述的类似。还可以利用非扩增方式来封闭环形,包括将被封闭的寡核苷酸熔解,然后经切口平移连接反应实现DNA环化。
具有校正活性的聚合酶(具有3’-5’核酸外切酶活性,比如Pfu聚合酶)和不具有校正活性的聚合酶(缺乏3’-5’核酸外切酶活性,比如Taq),都可以用于本文描述的切口平移和包括链置换过程的链合成。具有校正活性的聚合酶在切口平移过程中可以有效地产生平末端,但其缺点是会同样降解未保护的3’突出。因此得到的切口平移产物会有两个平末端,因此不能以特定的方向与随后的衔接头连接。一个解决方法是例如在3’端上使用双脱氧核糖核苷三磷酸(ddNTP)以保护已连接的衔接头(例如图15中的臂A)的3’端不被降解。但是,ddNTP保护也保护了3’端不能进行之后的延伸,因此限制了衔接头在直接环化过程中被向前推进。另一种潜在的解决方法是利用3’端上的修饰(例如3’磷酸)保护3’端不被聚合酶降解,其中所述修饰可以在切口平移环化之前去除(例如利用碱性磷酸酶)。另一种方法是在切口平移反应中利用发夹形的衔接头结合具有校正活性的聚合酶。这些衔接头能够免于被降解,但缺点是需要额外的UDG/EndoVIII步骤。此外,发明人发现有一种具有校正活性的聚合酶Pfu聚合酶,能够在不降解未被保护3’突出的情况下有效地产生平末端,表明其具有较低的3’-5’核酸外切酶活性。
不具有校正活性的聚合酶,比如Taq聚合酶,在切口平移过程中既可以产生平末端,也可以产生单碱基突出(Taq除了平末端,还可以产生不依赖模板的A-和G-尾)。在切口平移过程中使用不具有3’-5’核酸外切酶活性的聚合酶的优点是未被保护的3’突出可以保持完整。这使得不需要保护3’突出免于降解,即可以特定的方向连接随后的衔接头。许多具有校正活性的聚合酶的潜在缺点是它们有在不依赖模板的过程中,向3’端添加单个核苷酸的功能。这个过程非常难以控制,经常会产生混合的3’末端群体,导致低衔接头对插入物连接产率。一般来说,采用平末端连接的方法比单碱基突出连接效率更高。
在一个实施方案中,连接第一衔接头后,不是形成环形然后用第一衔接头中含有其识别位点的II型核酸内切酶切割(这是本发明产生核酸模板的某些实施方案中的一个步骤,比如图6和图9中图示的实施方案),而是利用切口平移法的一种变化来添加第二衔接头。图17中图示了这种变化的例示性实施方案。通常,如以上详细描述及图6和图9中显示的,这些实施方案开始是给靶核酸添加第一衔接头,然后环化。在图17A显示的实施方案中,利用具有5’-3’核酸外切酶活性的聚合酶(比如Taq聚合酶)进行切口平移,产生的是第一衔接头位于靶核酸内部的反转圆环。然后可以将这个产物末端修复,进行与衔接头2的连接(利用以上详细描述过的方法)。这个实施方案的一个缺点是靶核酸可能比测序所需要的更长,而在由模板产生的任何核酸多联体(由本发明的核酸模板产生多联体在下文有更详细的讨论)中,这种长模板可能很容易形成二级结构.当这些多联体被用于测序应用(比如下文讨论的cPAL方法)时,这类二级结构可能导致信号下降。克服这个缺点的一种方式是通过将靶核酸变短—图17B画出了这种方法的一个例示性实施方案。在该实施方案中,利用本文描述的方法用尿嘧啶修饰第一衔接头。切口平移-包含第一衔接头的环反转之后,衔接头C臂被添加到末端修复过的分子的两个末端。尿嘧啶修饰的衔接头1经处理除去尿嘧啶,产生缺口,并且经处理产生被活化的3’端。通常,通过使用UDG/EndoVIII酶混合物除去尿嘧啶,用PNK和/或碱性磷酸酶除去3’磷酸产生活化的3’端。衔接头1的活化3’端和衔接头臂C的3’端被切口平移聚合酶(即具有5’-3’核酸外切酶活性的聚合酶)识别,产生的产物中衔接头1被已修剪到其原始长度大约一半的靶核酸围绕。如果衔接头1被其它切口修饰(包括但不限于引入肌苷、RNA修饰等等)所修饰过,可以反复进行这一聚合酶切割程序以便进一步降低靶核酸的大小。
如图17C所示的其它实施方案中,图17A和B中显示的切口平移法可以扩展到插入多个衔接头。通过修饰衔接头,可以形成切口、缺口和功能性3’端由多个衔接头同时引导切口平移反应。如图17C所示,包含靶核酸和两个衔接头(每个的一条链上含有尿嘧啶修饰)的核酸构建体被环化。然后,用诸如UDG/EndoVIII的酶混合物处理圆环以便除去尿嘧啶并引入缺口。这些缺口可以同时进行切口平移将圆环反转,使得构建体可以与另外的衔接头连接。通过在相同衔接头上加上多个修饰,可以进行随后的切口/缺口和切口平移反转来引入多个衔接头。在某些实施方案中,可以将尿嘧啶加回到衔接头中的相同位置,使衔接头适合进行进一步切口平移反应。可以通过例如将切口平移反应与单独尿嘧啶温育给衔接头重建修饰,然后添加更高浓度未修饰的核苷酸来填充构建体的其它部分将尿嘧啶加回去。
图17D显示的再一些实施方案中,通过控制切口平移酶的速度可以修短靶核酸。例如,可以通过改变温度或限制试剂使切口平移酶变慢,可能导致环化插入物中被引入两个切口,利用切口平移过程从衔接头中的原始位点开始移动。类似的,利用链置换聚合酶(比如phi29)会导致切口被移动,由于核酸的一个区段被置换而产生分支点。这些切口或分支点可以被多种酶(包括但不限于,S1核酸内切酶、Bal31、T7核酸内切酶、绿豆核酸内切酶以及酶的组合,比如5’-)3’核酸外切酶,比如T7核酸外切酶和S1或绿豆核酸内切酶)识别,这些酶会切割切口的相反链,产生线性产物。该产物然后可以被末端修复(如果需要),并与下一个衔接头连接。剩下的靶核酸的大小将被切口平移反应速度所控制,同样通过例如降低试剂(比如dNTPs)浓度,或通过在不是最佳的温度下进行反应。靶核酸的大小还可以通过切口平移反应的温育时间来控制。
其它实施方案中,可以利用切口平移法不经任何环化步骤的转换来形成核酸模板。图18中展示了这类方法的例示性实施方案,该图显示了利用以上描述的连接方法,比如通过用虾碱性磷酸酶处理靶核酸以除去磷酸基团从而控制可供与第一衔接头连接的靶核酸的末端,发夹形的第一衔接头1801与靶核酸1802连接。连接第一衔接头后,进行受控的双链特异性5’-3’核酸外切酶反应来产生单链3’端。在某些实施方案中,使用T7核酸外切酶进行核酸外切酶反应,虽然可以理解发明的这些实施方案中可以使用其它双链特异性核酸外切酶。其它实施方案中,核酸外切酶反应产生了长度大约100到大约3000碱基的单链3’端。再一些实施方案中,核酸外切酶反应产生长度大约150到大约2500、大约200到大约2000、大约250到大约1500、大约300到大约1000、大约350到大约900、大约400到大约800、大约450到大约700和大约500到大约600碱基的单链3’端。
可以理解,本文描述的切口平移过程可以与文中描述的任何其它添加衔接头的方法联用。例如,上面描述过并在图11A中示意的臂连臂连接过程可以与切口平移过程联用来制备用于PCR扩增的构建体。
其它实施方案中,臂连臂连接反应中使用的衔接头臂A可以设计成不需PCR直接环化,然后经切口平移连接封上圆环。在例示性实施方案中,用于直接环化,衔接头臂A可以设计成图11B画的那样。区段1101被设计成与衔接头臂B互补。图11B中的构建体可以通过链置换聚合酶(比如phi29)直接引物延伸,而不需要引物交换反应来除去被封闭的末端(聚合酶不会延伸跨过区段1102上的3’磷酸)。这个构建体还提供了用于环化的3’突出。区段1102防止衔接头臂A与衔接头臂B在环化前杂交。在某些实施方案中,可能不需要区段1102来防止与臂B杂交(比如当衔接头臂B处于非常高的浓度)或者区段1102可以作为衔接头臂B而不是衔接头臂A的设计的一部分。
产生单链3’端后,第二衔接头1803与靶核酸的单链3’末端杂交,通过切口平移连接反应(在一个实施方案中,所述切口平移连接是“引物延伸”或“缺口填平”反应)与第一衔接头相连。第二衔接头带有5’磷酸和3’封闭(标识为竖线1804)。某些实施方案中,3’封闭可以是可除去的封闭,比如3’磷酸,这在某些例示性实施方案中,可以利用多核苷酸激酶(PNK)和/或虾碱性磷酸酶除去。第二衔接头在某些实施方案中在3’和/或5’端带有简并碱基。某些例示性实施方案中,第二衔接头在5’端有大约2-6个简并碱基,在3’端有4-9个简并碱基,但可以理解,本发明涵盖第二衔接头一端或两端带有任何数量组合的简并碱基。在图18图示的实施方案中,第二衔接头包含5’端3个简并碱基(“N3”),3’端7个简并碱基(“N7”)。在某些实施方案中可以在有利于衔接头与靶核酸杂交的反应条件下实现第一衔接头与第二衔接头的接合。某些例示性实施方案中,这种反应条件可能包括从大约20到大约40℃的温度。可以在这种反应条件下使用的聚合酶包括但不限于phi29、Klenow、T4聚合酶和PolI。
然后将连接产物1805变性和/或进一步用5’-3’核酸外切酶处理,之后通过重新退火步骤形成两个单链核酸分子(以图18中的“x2”指示)。在重新退火过程中,第二衔接头的N7部分可以与离第一杂交序列基元随机距离的区段杂交,从而形成单链圈1806。某些实施方案中,第二衔接头的N7末端可能不发生杂交,直至变性产生长的单链核酸区域1807。两个被捕获的基因组区段(它们的通常长度为大约20到大约200个碱基)的平均距离在许多实施方案中在大约0.5到大约20kb之间。这个平均距离部分取决于衔接头中简并碱基(“Ns”)的数量和杂交条件的严紧度。然后重新退火步骤之后可以进行另一轮衔接头杂交和切口平移连接。最后的衔接头(图18中,这个最后的衔接头显示为第三衔接头1808,但可以理解,最后的衔接头可以是按照本文描述的任何方法插入的第四、第五、第六、第七或更多衔接头)与第二衔接头类似,但在许多实施方案中缺少3’端的简并碱基。其它实施方案中,最后的衔接头可能包含扩增反应引物,例如PCR引物的结合位点。
其它实施方案中,扩增反应,比如PCR反应(参见图18中的1809),可以通过利用第一和最后的衔接头中包含的引物结合位点来进行。再一些实施方案中,第一和最后的衔接头可能是同一衔接头的两个臂,可以在添加最后的衔接头前插入一个以上衔接头。还有一些实施方案中,扩增产物可以用于形成环形双链核酸分子,以便利用本文描述的或者本领域已知的任何过程进一步插入衔接头。
II.D.7.后续衔接头的受控插入:限制性核酸内切酶识别位点的保护
除了如上所述控制插入靶核酸的衔接头的方向,还可以相对先前插入的衔接头以特定的位置在靶核酸中插入多个衔接头。这种方法包括的实施方案中,某些限制性核酸内切酶识别位点,特别是先前插入的衔接头中含有的识别位点,被保护不被失活。为了将随后的衔接头以希望的位置和方向连接,本发明提供的方法中II型限制性核酸内切酶与环形核酸构建体中第一衔接头内的识别位点结合,然后在第一衔接头外,基因组片段(文中又称为“靶核酸”)内的某个点切割。然后可以在发生切割的点上连接第二衔接头(同样一般是通过添加第二衔接头的两个衔接头臂)。为了在已知点切割靶核酸,有必要封闭靶核酸中可能随机包含的相同酶的任何其它识别位点,这样限制性核酸内切酶可以结合的唯一位点在第一衔接头内,从而避免对构建体进行不需要的切割。通常,首先保护第一衔接头中的识别位点不被失活,然后一般是通过甲基化将构建体中任何其它未被保护的识别位点失活。文中限制性核酸内切酶识别位点的“失活”意味着以某种方式使所述识别位点不能被限制性核酸内切酶结合,从而阻止了该酶的下游切割步骤。例如,甲基化的识别位点不能与限制性核酸内切酶结合,因此不发生切割。一旦核酸构建体中的所有未被保护的识别位点被甲基化,只有衔接头内的未甲基化识别位点允许酶结合以及随后的切割。使识别位点失活的其它方法包括但不限于给识别位点使用甲基化酶阻断剂、利用封闭寡核苷酸封闭识别位点、利用诸如锌指蛋白的其它封闭分子来封闭识别位点,以及给识别位点做切口来防止甲基化。这类保护所需识别位点的方法在2008年11月5日提交的美国专利申请12/265,593和2008年11月6日提交的12/266,385中有描述,为了所有目的,尤其是与在靶核酸中插入多个散在分布的衔接头有关的全部教导,这两份文献通过引用全文并入本文。
可以理解,以上描述的用于控制衔接头与靶核酸相互连接的方向的方法还可以与下文描述的控制每个随后加入的衔接头的间隔的方法联用。
本发明一个方面提供了保护第一衔接头中的识别位点不被失活的方法,所述方法通过使第一衔接头中的识别位点成为单链,这样只能将双链分子甲基化的甲基化酶不能甲基化被保护的识别位点。使第一衔接头中的识别位点单链化的一种方法是利用经尿嘧啶修饰的引物扩增与两个第一衔接头臂连接的线性基因组片段。引物与衔接头臂互补,并用尿嘧啶修饰,这样在扩增(通常利用PCR)时,得到的线性构建体含有镶嵌在一个衔接头臂的识别位点中的尿嘧啶。引物产生的PCR产物中尿嘧啶靠近第一衔接头的第一和/或第二臂中的II型限制性核酸内切酶识别位点。针对尿嘧啶进行消化使得衔接头臂中包括II型识别位点的区域被保护单链化。然后给线性构建体使用序列特异性甲基化酶,该酶将与第一衔接头中含有的相同核酸内切酶的所有双链识别位点甲基化。这种序列特异性甲基化酶不能将第一衔接头臂中的单链识别位点甲基化,因此第一衔接头臂内的识别位点被保护免于通过甲基化失活。
某些情况中,如下文更充分描述的,单个衔接头可能有两个相同的识别位点,可以允许从同一衔接头的“上游”和“下游”切割。在该实施方案中,如图7阐述的,恰当地选择引物和尿嘧啶位置,从而使“上游”或“下游”识别位点选择性地受保护免于失活或被失活。
可以通过用与第一衔接头的第二臂中的识别位点(即开始通过甲基化被失活的识别位点)结合的限制性核酸内切酶切割来将第三衔接头插入到第一衔接头的另一侧。为了使这个识别位点可供使用,利用尿嘧啶修饰的引物(该引物与第一衔接头中的第二识别位点互补)扩增环形构建体产生第三线性构建体,其中第一衔接头包含镶嵌在第二限制性识别位点的尿嘧啶。降解尿嘧啶使第一衔接头单链化,从而保护衔接头中的识别位点不被甲基化。然后使用序列特异性甲基化酶将所有未被保护的识别位点失活。当环化时,第一衔接头中的识别位点重新构成,使用限制性核酸内切酶切割环形,产生第三衔接头可以在此插入第三线性构建体的位置。第三衔接头臂与第三线性构建体的连接遵循以上描述的同一大概程序—第三线性构建体将被加A或G尾,第三衔接头臂将被加T或C尾,使得衔接头臂与第三线性构建体退火,并连接。然后将包含第三衔接头臂的线性构建体环化形成第三环形构建体。与第二衔接头相同,第三衔接头通常包含的限制性核酸内切酶的识别位点与第一衔接头中含有的识别位点不同。
利用第二和第三衔接头中含有其识别位点的II型限制性核酸内切酶,可以加入第四衔接头。用这些限制性核酸内切酶进行切割产生第四线性构建体,然后与第四衔接头臂连接。连接了第四衔接头臂的第四线性构建体的环化将产生本发明的核酸模板构建体。
总的来说,本发明的方法提供了特异保护II型核酸内切酶识别位点不被失活的方式,这样一旦构建体中所有其它未保护识别位点失活后,加入II型核酸内切酶将导致与被保护位点的结合,因此可以控制构建体中何处发生随后的切割。以上描述的方法提供了如何保护所需识别位点不被失活的一种实施方案。可以理解,利用本领域已知技术可以改进上述方法,并且这些改进的方法也涵盖在本发明内。
在一个例示性实施方案中,每个随后插入的衔接头的插入方法中联用一些方法保护识别位点不被失活。图19图示的实施方案中第二衔接头以希望的位置相对第一衔接头插入,其采用的过程是组合使用尿嘧啶降解和切口酶来甲基化和保护不被甲基化。图19显示目的基因组DNA1902带有位于1904的II型限制性核酸内切酶识别位点。所述基因组DNA在过程1905中分级或片段化产生带有II型限制性核酸内切酶识别位点1904的片段1906。过程1907中衔接头臂1908和1910与片段1906连接。过程1911中,利用与衔接头臂1908和1910互补的尿嘧啶修饰的引物1912,经PCR扩增片段1906与第一和第二衔接头臂1908和1910(文库构建体)。引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程1913中,利用例如尿嘧啶-DNA糖基化酶(Krokan,等,(1997)Biochem.J.325:1-16)特异降解尿嘧啶,留下的PCR产物在II型限制性核酸内切酶识别位点区域是单链的。正如已显示的,可以利用尿嘧啶的引入和降解使II型限制性核酸内切酶识别位点单链化;但是,正如本文进一步描述的,可以采用其它方法,包括使用3'或5'核酸外切酶有限地消化使这些区域单链化。
过程1915中,利用序列特异的切口酶将每个双链的II型限制性核酸内切酶识别位点做切口以便保护这些位点不被II型限制性核酸内切酶识别。但是,第一和第二衔接头臂1908和1910中单链的II型限制性核酸内切酶识别位点部分不会被切开,一旦环化并连接(1917),第一和第二衔接头臂中的II型限制性核酸内切酶识别位点重新形成,该II型限制性核酸内切酶识别位点可以被限制消化。当选择用于这个过程的切口酶和II型限制性核酸内切酶时,优选这两个酶识别相同的序列或者一个酶识别另一个酶的亚序列(某序列内的序列)。替代地,所述切口酶可以识别不同的序列,但是该序列位于衔接头内,因此切口酶在II型限制性核酸内切酶识别位点内切开。利用尿嘧啶或者3'或5'降解允许整个过程使用一种切口酶。替代地,可以采用一种以上序列特异性切口酶。然后在过程1919中用II型限制性核酸内切酶切割环化的构建体,其中II型限制性核酸内切酶识别位点指示为1922,构建体在1920切割,切口如1918所示,得到的线性构建体可以用于第二套衔接头臂在过程1921中连接添加到构建体中。
连接过程1921将第二衔接头的第一(1924)和第二(1926)衔接头臂加入线性化构建体,过程1923中经PCR进行第二次扩增,同样是使用与衔接头臂1924和1926互补的尿嘧啶修饰过的引物1928。与上面一样,引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程1925中,尿嘧啶被特异降解,留下的PCR产物在第二衔接头的第一和第二衔接头臂1924和1926中的II型限制性核酸内切酶识别位点是单链的。连接过程1921同样可以修复靶核酸片段1906中的II型限制位点1904中的切口1918。过程1927中,再次利用序列特异的切口酶将靶核酸片段(发生II型限制性核酸内切酶识别位点1904的切开1914)和第一衔接头1930中的双链II型限制性核酸内切酶识别位点的碱基切开,以保护这些位点不被II型限制性核酸内切酶识别。
带有切口的构建体然后在过程1929被环化和连接,其中第二衔接头的第一和第二臂1924和1926中的II型限制性核酸内切酶识别位点重新形成(1932),重复进行这一过程,环化的构建体在过程1931中被再次用II型限制性核酸内切酶切割产生另一个线性化的构建体(这个中已加入了第一和第二衔接头)供第三对衔接头臂1936和1938连接到构建体中。所述II型限制性核酸内切酶识别位点如1922所示,限制位点如1920所示,靶核酸片段中的被切开的II型限制性核酸内切酶识别位点如1918所示,第一衔接头中的切口如1934所示。可以重复这一过程以便加入所需数量的衔接头。正如这里显示的,第一个加入的衔接头含有一个II型限制性核酸内切酶识别位点;但是,在其它方面中,第一个加入的衔接头可以含有两个II型限制性核酸内切酶识别位点以便精确地选择构建体所需的靶核酸大小。
一个方面,衔接头可以设计成含有在II型限制性核酸内切酶识别位点周围或与之部分重叠的序列特异性切口酶位点。通过利用切口酶,可以选择性地保护每个衔接头中的II型限制性核酸内切酶识别位点不被甲基化。其它实施方案中,切口酶可以识别另一个序列或位点,但是在II型限制性核酸内切酶识别位点切开。切口酶是识别双链DNA中特异识别序列的核酸内切酶,并能在相对识别序列的特异位置切开一条链,从而在双链体DNA中造成单链断裂,切口酶包括但不限于Nb.BsrDI、Nb.BsmI、Nt.BbvCI、Nb.Bbv.Nb.BtsI和Nt.BstNBI。通过组合使用序列特异性切口酶和II型限制性核酸内切酶,靶核酸中的所有II型限制性核酸内切酶识别位点以及任何先前已插入的衔接头中的II型限制性核酸内切酶识别位点可以受到保护不被消化(当然假设II型限制性核酸内切酶是切口敏感的,即不会结合到已被切开的识别位点上)。
图20图示了发明所述方法的实施方案,其中利用甲基化和序列特异性切口酶选择了所需的第二衔接头与第一衔接头的相对位置。图20显示了目的基因组DNA2002,其带有位于2004的II型限制性核酸内切酶识别位点。该基因组DNA在过程2005中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2004的片段2006。衔接头臂2008和2010在过程2007中连接至片段2006。带有衔接头臂2008和2010的片段2006(文库构建体)在过程2009中环化,在过程2011中通过环依赖性扩增被扩增,得到靶核酸片段2006(其中的II型限制性核酸内切酶识别位点位于2004)和第一衔接头2012交替的高度分支多联体。
过程2013中,序列特异性切口酶2030被用于在文库构建体中的衔接头里的特异II型限制性核酸内切酶识别位点中的或者其附近的核酸做切口,从而阻止这些位点的甲基化。这里,衔接头臂2012和2014中的II型限制性核酸内切酶识别位点被序列特异性切口酶2030切开。过程2015中,构建体中没有被切开的II型限制性核酸内切酶识别位点被甲基化(这里是II型限制性核酸内切酶识别位点2004的甲基化2016)以保护这些位点不被II型限制性核酸内切酶识别。但是,衔接头2012和2014中的II型限制性核酸内切酶识别位点因为有切口存在不被甲基化。
过程2017中,文库构建体中的切口被修复,产生的文库构建体中衔接头2012里的II型限制性核酸内切酶识别位点可以用于识别和限制性消化2018,而基因组片段2004中的II型限制性核酸内切酶识别位点不能。然后甲基化的构建体与第二对衔接头臂连接,环化,并借助环依赖扩增在过程2021扩增,得到靶核酸片段2006(II型限制性核酸内切酶识别位点在2004)、第一衔接头2012和第二衔接头2020交替的多联体。然后,在过程2023中,再次进行序列特异型切开,这次用的是识别第二衔接头2020中的位点的序列特异性切口酶,从而阻止第二衔接头2020中的II型限制性核酸内切酶识别位点的甲基化,但无助于构建体中的其它II型限制性核酸内切酶识别位点(即,片段中的II型限制性核酸内切酶识别位点2004和第一衔接头2012中的II型限制性核酸内切酶识别位点)。过程继续进行甲基化2015,如果需要可以进一步加入衔接头臂。每个不同衔接头中使用不同的序列特异性切口酶位点,以便整个过程中可以进行序列特异性切开。
图21图示的过程中利用甲基化和序列特异性甲基化酶阻断剂选择了所需的第二衔接头与第一衔接头的相对位置。图21显示了目的基因组DNA(靶核酸)2212,其带有位于2214的II型限制性核酸内切酶识别位点。该基因组DNA在过程2105中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2104的片段2106。衔接头臂2108和2110在过程2107中连接至片段2106。带有衔接头臂2108和2110的片段2106(文库构建体)在过程2109中环化,在过程2111中通过环依赖性扩增被扩增,得到靶核酸片段2106(其中的II型限制性核酸内切酶识别位点位于2104)和第一衔接头2112交替的高度分支多联体。
过程2113中,利用序列特异性甲基化酶阻断剂2130(比如锌指)来阻断文库构建体中特异II型限制性核酸内切酶识别位点发生甲基化。这里,衔接头臂2112和2114中的II型限制性核酸内切酶识别位点被甲基化酶阻断剂2130所封闭。当选择用于该过程的甲基化酶阻断剂和II型限制性核酸内切酶时,不需要这两个实体识别相同的位点序列或者一个实体识别另一个实体的亚序列。所述阻断剂序列可以在II型限制性核酸内切酶识别位点的上游或下游,但处于甲基化酶阻断剂封闭所述位点的构型(比如锌指或其它核酸结合蛋白或其它实体)。过程2115中,构建体中未被保护的II型限制性核酸内切酶识别位点被甲基化—这里,是II型限制性核酸内切酶识别位点2104的甲基化2116)—保护这些位点不被II型限制性核酸内切酶识别。但是,衔接头2112和2114中的II型限制性核酸内切酶识别位点因为存在甲基化酶阻断剂不被甲基化。
过程2117中,甲基化酶阻断剂从文库构建体中释放,得到的文库构建体中衔接头2112里的II型限制性核酸内切酶识别位点可以被识别和限制性消化2118,而基因组片段2104中的II型限制性核酸内切酶识别位点不能。然后将甲基化的构建体与第二对衔接头臂连接,环化,并在过程2121经环依赖性扩增被扩增,得到靶核酸片段2106(带有位于2104的II型限制性核酸内切酶识别位点)、第一衔接头2112和第二衔接头2120交替的多联体。然后,在过程2123中,再次进行甲基化酶封闭,这次是用识别第二衔接头2120中的位点的甲基化酶阻断剂来阻断第二衔接头2120中的II型限制性核酸内切酶识别位点的甲基化,但无助于构建体中其它的II型限制性核酸内切酶识别位点(即,片段中的II型限制性核酸内切酶识别位点2104和第一衔接头2112中的II型限制性核酸内切酶识别位点)。过程继续进行甲基化2115,如果需要可以进一步加入衔接头臂。每个不同衔接头中使用不同的甲基化酶阻断剂位点,以便整个过程中可以进行序列特异性甲基化酶阻断。虽然图9和21显示了第二衔接头相对第一衔接头的插入,应当明白这个过程可以应用于在第二衔接头之后加入的衔接头,产生带有多达四个、六个、八个、十个或更多个插入衔接头的文库构建体。
图22图示的过程中利用甲基化和尿嘧啶降解选择了所需的第二衔接头与第一衔接头的相对位置。图22显示了目的基因组DNA2202,其带有位于2204的II型限制性核酸内切酶识别位点。该基因组DNA在过程2205中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2204的片段2206。衔接头臂2208和2210在过程2207中连接至片段2206。带有第一和第二衔接头臂2208和2210的片段2206(文库构建体)在过程2211中,利用与衔接头臂2208和2210互补的尿嘧啶修饰的引物2212经PCR扩增。引物产生的PCR产物中带有位于或者靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程2213中,利用例如尿嘧啶-DNA糖基化酶(Krokan,等,(1997)Biochem.J.325:1-16)特异降解尿嘧啶,留下的PCR产物在II型限制性核酸内切酶识别位点区域是单链的。正如已显示的,可以利用尿嘧啶的引入和降解可以使II型限制性核酸内切酶识别位点单链化;但是,正如本文进一步描述的,也可以采用其它方法,包括使用3'或5'核酸外切酶有限地消化使这些区域单链化。
过程2215中,利用序列特异性甲基化酶将每个双链II型限制性核酸内切酶识别位点中的碱基甲基化(这里II型限制性核酸内切酶识别位点2204的甲基化2214),以保护这些位点不被II型限制性核酸内切酶识别。但是,第一和第二衔接头臂2208和2210中单链的II型限制性核酸内切酶识别位点不被甲基化,一旦环化和连接2217,II型限制性核酸内切酶识别位点重新形成2216,因此该II型限制性核酸内切酶识别位点可以被限制消化。但选择用于该过程的甲基化酶和II型限制性核酸内切酶时,这两种酶需要识别相同的序列或者一种酶识别的是另一种酶的亚序列(某序列内的序列)。然后在过程2219中,环化构建体被II型限制性核酸内切酶切割,其中II型限制性核酸内切酶识别位点显示位于2218,构建体在2220切割,得到线性化的构建体可以在过程2221中供第二套衔接头臂连接加入构建体。
连接过程2221在线性化的构建体中加入第二衔接头的第一(2222)和第二(2224)衔接头臂,过程2223中再次使用与衔接头臂2222和2224互补的尿嘧啶修饰的引物2226,经PCR进行第二次扩增。与上面一样,引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程2225中,尿嘧啶被特异降解,留下的PCR产物在第二衔接头的第一和第二衔接头臂2222和2224中的II型限制性核酸内切酶识别位点区域是单链的。过程2227中,再次利用序列特异性甲基化酶将靶核酸片段中双链的II型限制性核酸内切酶识别位点的碱基(同样,这是II型限制性核酸内切酶识别位点2204的甲基化2214)和第一衔接头2228中的II型限制性核酸内切酶识别位点的碱基甲基化,以保护这些位点不被II型限制性核酸内切酶识别。然后甲基化的构建体在过程2229中被环化,其中第二衔接头的第一和第二臂2222和2224中的II型限制性核酸内切酶识别位点重新形成2230,重复这一过程,在过程2219中再次用II型限制性核酸内切酶切割环化的构建体产生另一个线性构建体(这一个已加入第一和第二衔接头),以供第三对衔接头臂与构建体连接。可以重复这一过程以便加入所需数量的衔接头。正如这里显示的,第一个加入的衔接头含有一个II型限制性核酸内切酶识别位点;但是,在其它方面中,第一个加入的衔接头可以含有两个II型限制性核酸内切酶识别位点以便精确地选择构建体所需的靶核酸大小。
除了上述控制多个散在分布的衔接头的插入的方法,包含处于特定方向的衔接头的构建体还可以通过富集这样的构建体群来进一步挑选,这些构建体中带有的衔接头即处于所需方向。这类富集方法在美国专利申请60/864,992(11/09/06提交)、11/943,703(11/02/07提交)、11/943,697(11/02/07提交)、11/943,695(11/02/07提交)和PCT/US07/835540(11/02/07提交)中有描述,为了所有目的,特别是与挑选特定方向衔接头的方法和组合物有关的全部教导,这些文献均通过引用并入本文。
II.E.制备DNB
一个方面中,本发明的核酸模板被用于制成核酸纳米球,其在文中又称为“DNA纳米球”、“DNBs”和“扩增子”。虽然本发明的核酸纳米球可以利用这里描述的方法由任何核酸分子制成,这些核酸纳米球通常是包含多拷贝发明所述核酸模板的多联体。
一个方面中,利用滚环复制(RCR)来产生本发明的多联体。RCR过程曾被用于制备连续拷贝的M13基因组(Blanco,等,(1989)J Biol Chem 264:8935-8940)。在这种方法中,核酸经线性多联体化复制。本领域技术人员可以在许多参考文献中找到关于选择RCR反应的条件和试剂的指南,包括美国专利5,426,180、5,854,033、6,143,495和5,871,921,为了所有目的,特别是与利用RCR或其它方法制备多联体有关的全部教导,这些文献均通过引用全文并入本文。
通常,PCR反应成分包括单链DNA环、能够与DNA环退火的一或多种引物、具有链置换活性的DNA聚合酶,能够延伸与DNA环退火的引物的3’末端、核苷三磷酸和常规的聚合酶反应缓冲液。在允许引物退火到DNA环上的条件下将这些成分合并。通过DNA聚合酶延伸这些引物形成DNA环互补链的多联体。在某些实施方案中,本发明的核酸模板是双链环,这些双链环变性形成可以用于RCR反应的单链环。
某些实施方案中,环形核酸的扩增可以通过从含有所有可能序列的混合物中连续连接上短的寡核苷酸(例如6聚体),或者如果环是合成的,通过这些短寡核苷酸的有限混合物含有用于环复制的选定序列来实现,该过程被称为“环依赖性扩增”(CDA)。“环依赖性扩增”或“CDA”是指利用与环形模板的两条链均能退火的引物,多次置换扩增双链环形模板产生能够代表模板的两条链的产物,造成一系列多重-杂交、引物延伸和链置换事件。这导致引物结合位点的数量指数增加,结果产生的产物的量随时间也呈指数增加。所用引物可能是随机序列(例如,随机六聚体)或者具有特异序列以便选择用于所需产物的扩增。CDA导致一组多联体双链片段的形成。
在存在与靶分子的开头和末端均互补的桥连模板DNA的情况下,还可以通过将靶DNA连接,产生多联体。一群不同的靶DNA可借助相应桥连模板的混合物而在多联体内转换(converted)。
某些实施方案中,可以根据特定特征,比如所需数目或类型的衔接头来分离核酸模板群的一个亚组。这个群体可以利用常规技术(例如常规的离心柱等)进行分离或另外的加工(例如按大小挑选过)形成可以利用诸如RCR的技术由其产生多联体群的群体。
形成本发明的DNBs的方法在公开的专利申请WO2007120208、WO2006073504、WO2007133831和US2007099208,以及美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/938,096、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730(2007年10月31日提交)、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214、11/451,692和11/451,691中有描述,为了所有目的,特别是与形成DNB有关的全部教导,这些文献均通过引用全文并入本文。
III.获得序列信息的方法
可以在获得序列信息的应用中使用依照本文中所描述的任何方法分离并生成的核酸、核酸片段、和模板核酸构建体。此类方法包括对靶核酸中的特定序列进行测序和检测(例如,检测特定的靶序列(例如特定的基因)和/或鉴定和/或检测SNP)。还可以使用本文中所描述的方法来检测核酸重排和拷贝数变化。也可以使用本文中所描述的方法来实现核酸量化,诸如数字基因表达(即,分析全转录物组:样品中存在的所有mRNA)及检测样品中的特定序列或序列组的数目。
在一方面,依照本发明生成的片段和核酸构建体提供了使较短的序列阅读组合并装配以提供关于靶核酸的较长连续区(在一行中包含两个或更多个核苷酸的连续核酸区段在本文中又称为重叠群)的序列信息的优点。如本文中所使用的,“序列阅读”指鉴定或确定靶核酸区域中的一个或多个核苷酸的身份。一般地,序列阅读提供关于包含两个或更多个连续核苷酸的核酸区段的序列的序列信息。在某些方面,使用解除的(unchained)碱基阅读来产生序列信息,如记载于Drmanac等,(2010),Science,327:78-81及增补的在线材料,在此完整地且特别地为了涉及对核酸测序的方法和组合物的所有教导而将其收录。
III.A.LFR
在一方面,长片段阅读(LFR)测序方法与本文中所描述的任何片段或核酸模板构建体或DNA纳米球一起使用。虽然下文主要就基因组核酸片段而言进行描述,但是应当领会,任何核酸分子会适用于下文所描述的方法。通用LFR方法记载于2006年6月13日提交的美国专利申请No11/451,692(现在为美国专利No7,709,197)及2008年12月5日提交的美国专利申请No12/329,365,在此完整地且特别地为了涉及LFR以及使用LFR方法测序的所有教导而将每篇收录。
一般地,LFR方法包括物理分开许多不同等分试样间的长基因组DNA片段,使得母本和父本成分中基因组的某给定区域同时出现在相同等分试样中的可能性非常低。通过在每个等分试样中放入独特的鉴别物,对聚集体中的许多等分试样进行分析,归结起来可以由DNA长片段组装出二倍体基因组,例如,可以获得每个亲代染色体的序列。
LFR片段的等分试样在本文中又称为LFR文库和LFR等分试样文库。这些LFR文库可以包括加标签的和不加标签的片段。
LFR提供DNA制备和加标签的新的且便宜的方式及相关的算法和软件,从而以显著降低的实验和计算成本(低于1000美元)实现双倍体基因组(诸如在人胚胎或成年体细胞中)中的亲本染色体的不同序列的精确装配(即,完整的单元型分型)。此方法(普遍可适用于任何现有的基因组或宏基因组(metagenome)测序技术,包括未来的较长阅读(约1kb)方法)以许多方式等同于对长度大于100kb的单一DNA分子测序,即一种技术上有挑战的提议。提出的长片段阅读(LFR)方法不需要昂贵的、不太精确的且较低收率的单分子检测。LFR方法基于以如下的方式将长片段(100-1000kb)基因组随机物理分成许多等分试样,使得每个等分试样含有单倍体基因组的10%或更小。
如本文中所描述的LFR方法在要分析的DNA的起始量较低时特别有用。在一些实施方案中,使用本发明的LFR方法来分析个别细胞的基因组。在又一些实施方案中,使用本发明的LFR方法来分析来自1-100个细胞的基因组。在又一些实施方案中,使用本发明的LFR方法来分析来自1-5,5-10,2-90,3-80,4-70,5-60,6-50,7-40,8-30,9-20,及10-15个细胞的基因组。在使用少量细胞时分离DNA的方法与上文所描述的方法相似,但是在较小的体积中发生。如应当领会的,还可以在DNA的起始量较高(即,大于来自50-100个细胞的等同物)时使用本发明的LFR方法。
在一些实施方案中,在分离DNA后且在将其分成不同等分试样(诸如分入多孔板的各孔中或者分入不同乳剂液滴中,如下文更为详细地描述的)前,必须小心地将基因组DNA片段化以避免材料的损失,特别是避免丢失每个片段的末端序列,因为丢失这种材料会导致最后的基因组组装存在缺口。某些情况中,通过使用罕见切口酶来避免序列的丢失,所述切口酶产生相距大约100kb的聚合酶(比如phi29聚合酶)起始位点。随着聚合酶产生新的DNA链,旧链被置换,最后的结果是聚合酶起始位点附近存在着重叠序列,使得序列缺失很少。
在具体的实施方案中,在本文中所描述的LFR方法中使用依照如上文所描述的一个或多个CoRE实施方案生成的片段。一般地,自样品分离DNA的方法会生成100kb片段。然后,可以将这些片段进一步片段化或者用于生成更短的片段,其在分成不同等分试样之前或之后之任一或者在分成不同等分试样之前和之后使用本文中所描述的方法(包括CoRE)来进行。
在一些实施方案中,将DNA自样品分离,然后等分成许多不同的分开混合物(此类分开的混合物在本文中可互换地称为等分试样)。在等分后,然后使用本文中所描述的任何方法(包括上文所讨论的CoRE片段化的任何实施方案)来将分开的混合物中的DNA片段化。还可以使用分开的混合物中的DNA作为模板通过使用受控DNA合成或扩增使用分开的混合物中的DNA来生成较短的片段。此类合成和扩增方法是本领域中已知的,并且一般使用与分开的混合物中的DNA的不同区域对应的多个相隔分开的引物来复制和/或扩增DNA。在此类实施方案中,形成DNA片段的第二群,其比衍生它们的较长片段具有更短的长度。在又一些实施方案中,将分开的混合物中的DNA片段化(或者作为模板用于生成较短的片段)多次。在又一些实施方案中,在一轮或多轮片段化后,依照本文中所描述的方法用衔接头标签给每个等分试样中的DNA加标签。
在一个实施方案中,将基因组片段(在片段化之前或之后)分成等分试样,使核酸被稀释到每份含有大约10%单倍体基因组的浓度。在这一稀释水平,特定等分试样中大约95%的碱基对是没有重叠的。这种分等分试样的方法,文中又称为长片段阅读(LFR)片段化方法,在特定实施方案中可以用于根据以上和文中进一步描述的方法分离到的大分子量的片段。LFR通常一开始是用5’外切核酸酶将基因组核酸,一般是基因组DNA做短时处理,产生3’单链突出。这种单链突出作为多重置换扩增(MDA)的起始位点。然后将5’外切核酸酶处理过的DNA稀释到亚基因组浓度,并在许多等分试样间分散。在一些实施方案中,在多孔板中的多个孔间分散这些等分试样。在其它实施方案中,等分试样包含在不同乳剂液滴中,如下文更为详细地描述的。通常使用MDA方法来扩增每个等分试样中的片段,所述MDA方法包括上文所描述的用于降低或阻止偏离的一种或多种添加剂。
如上文所讨论的,为了将片段恰当地分开,一般要将DNA分成等分试样/稀释成每份等分试样大约1-15%单倍体基因组的浓度。在又一个实施方案中,将DNA分成等分式样至每个等分试样约10%单倍体基因组的浓度。在这样的浓度,等分试样中95%的碱基对没有重叠。稀释到亚基因组等分试样导致统计学分离,使得母本和父本片段通常落在不同等分试样中。应当明白,稀释因子可能取决于片段的原始大小。能够产生较大片段的技术需要更少等分试样,而产生较短片段的技术可能需要更大数目的等分试样。
在又一些实施方案中,将DNA稀释(即,分成等分试样)到每个等分试样约1,2,3,4,5,6,7,8,9,10,11,12,13,14,和15%单倍体基因组的浓度。在又一些实施方案中,将DNA稀释到每个等分试样小于1%单倍体基因组的浓度。在又一些实施方案中,将DNA稀释到每个等分试样约0.1-1%,0.2-0.9%,0.3-0.8%,0.4-0.7%,和0.5-0.6%的单倍体基因组。
在一些实施方案中,在分成等分试样之前、之后或之前和之后都扩增片段。在又一些实施方案中,然后,将每个等分试样中的片段进一步片段化,然后用衔接头标签加标签,使得来自相同等分试样中的片段会都包含相同标签衔接头,参见例如US2007/0072208,在此通过提及而完整,且特别地关于额外的分等分试样和覆盖的讨论而将其收录。在某些实施方案中,不在分成等分试样后扩增片段,而是使用本文中讨论的且本领域中已知的任何方法来进一步片段化。在某些实施方案中,不在分成等分试样前扩增DNA,而是在分开的等分试样中将DNA分成等分试样后进行片段化和扩增,而且在又一些实施方案中片段和扩增多次。
在又一些实施方案中,在本发明的LFR方法中使用多排的分等分式样。可以给一排或多排中的等分式样加标签,使得每个随后排中的等分式样可以通过其在先前排中其起源等分试样来鉴定。每轮等分式样中的片段可以或者不可再下一轮分等分试样前扩增和/或进一步片段化。
在又一些实施方案中,使用全面利用来自大量的约10Mb等分试样的信息的生物信息学技术(其将计算投入(即计算机的资金成本)降低约100倍)来装配自LFR等分试样获得的序列信息。阅读10个碱基的标签的添加成本(测序试剂上的10%及2x50个碱基配对阅读的仪器时间)将此计算上的节省及升高的序列准确性抵消数倍。
在又一个实施方案中,将本发明的方法与高通量低成本短阅读DNA测序技术,诸如那些记载于公开的专利申请号WO2007120208,WO2006073504,WO2007133831,及US2007099208,及美国专利申请No11/679,124,11/981,761,11/981,661,11/981,605,11/981,793,11/981,804,11/451,691,11/981,607,11/981,767,11/982,467,11/451,692,11/541,225,11/927,356,11/927,388,11/938,096,11/938,106,10/547,214,11/981,730,11/981,685,11/981,797,11/934,695,11/934,697,11/934,703,12/265,593,11/938,213,11/938,221,12/325,922,12/252,280,12/266,385,12/329,365,12/335,168,12/335,188,及12/361,507(为了所有目的且特别地为了涉及DNA测序的所有教导通过提及而完整将所有文献收入本文)的方法合并。
III.A.1.加标签
可以用一个或多个衔接头标签给不同等分试样中的片段加标签以鉴定包含在相同等分试样中的片段。在一些实施方案中,可以用一个或多个衔接头标签(有时称为加标签序列、标签或条形码(注意这些在2009年6月15日提交的美国临时申请No61/187,162中又称为衔接头)给不同等分试样中的片段加标签。衔接头标签一般是与核酸片段连接以在本文中所描述的LFR方法过程中充当鉴定物的寡核苷酸。虽然一般对衔接头标签及其附接的靶片段一起测序,但是衔接头标签一般不(但是在一些实施方案中,可以)与如本文中所描述的用于构建核酸构建体或在cPAL测序方法中的衔接头执行相同的功能。通常,使用衔接头标签的序列来鉴定附接所述标签的片段的来源等分试样。
如上文所概述的,LFR的一些实施方案不需要衔接头标签,在这些实施方案中,将LFR等分试样放入不同器皿中,诸如本文中所讨论的微量滴定板实施方案。在这些实施方案中,可以再次将LFR片段额外地进行片段化,而不添加衔接头标签,只要每个等分试样的来源得到追踪。
或者,如下文详细描述的,用衔接头标签给等分试样加标签以鉴定包含在相同等分试样中的片段。可以以多种方式添加衔接头标签,如下文所概述的。在一些情况中,可以以如下的方式添加衔接头标签(关于本文中所描述的其它衔接头添加),使得阻止衔接头标签的聚合。
在利用加标签的实施方案中,用一个或多个衔接头标签给每个等分试样中的片段加标签。在一些实施方案中,在两个区段中设计衔接头标签:一个区段对于所有孔是共同的,而平端使用本文中进一步描述的方法来直接连接片段。第二区段对于每个孔而言是独特的,并且还可以含有条形码序列,使得在当每个孔的内容物结合起来,可以鉴定出每个孔的片段。图27显示了,可以对关于本发明的此方面的片段添加一些例示性的条形码衔接头标签。
在本发明的许多方面,有用的是具有修复成具有平端的片段,且在一些情况中,可以期望改变末端化学,使得不存在磷酸根和羟基基团的正确取向,如此阻止靶序列的聚合。可以使用本领域中已知的且在上文关于对片段的进一步处理及关于连接衔接头与靶核酸的更为详细地描述的方法来提供对末端化学的控制。此类方法还适用于在本文中所描述的方法中控制连接衔接头标签与片段的方向性。图7中显示了别的用于控制衔接头标签取向的取向的方法,其中引物和尿嘧啶位置选择为使得可以选择性保护上游或下游识别位点免于失活。例如在7中,两个不同衔接头标签臂(以方形(retangles)表示)各包含限制性内切核酸酶的识别位点(在一条衔接头臂中以圆形表示,而在另一条中以三角形表示)。若具有以圆形表示的识别位点的衔接头标签臂需要使用上文所描述的尿嘧啶降解方法来保护,则将经尿嘧啶修饰的扩增引物设计为将尿嘧啶掺入所述识别位点中。然后,在尿嘧啶降解后,使所述衔接头标签臂为单链(以半-方形表示),如此保护所述识别位点免于失活。
在一些情况中,使用磷酸酶除去所有磷酸根基团,使得全部末端含有羟基基团。然后可以选择地改变每个末端以便希望的成分之间进行连接。然后,可以将片段的一端“激活”,在一些实施方案中,通过用碱性磷酸酶处理实现。
图27提供了依照本文中所描述的LFR方法作为标签使用的衔接头标签设计的一些实施方案的示意图。通常,衔接头标签被设计为两个区段,一个区段是所有小孔共有的,利用文中进一步描述的方法与片段直接平末端连接。可以使用共同的衔接头标签作为等分试样间的任何潜在的浓度差异的对照。在图27中显示的实施方案中,添加的“共有”衔接头标签具有两个衔接头标签臂:一个臂与片段的5’端平末端连接,而另一个臂与片段的3’末端平末端连接。衔接头标签的第二个区段是每个小孔独特的“条形码”区段。该条形码通常是独特的核苷酸序列,特定孔中的每个片段被给予相同的条形码。然后,当来自所有等分试样的加标签片段被重新合并在一起进行测序应用时,可以通过鉴定条形码衔接头标签来鉴定来自相同等分试样的片段。在图27示意的实施方案中,条形码被连接到共有衔接头标签臂的5’端。共有衔接头和条形码衔接头标签可以顺序或者同时连接至片段。正如文中将进一步详细地描述的那样,可以修饰共有衔接头标签和条形码衔接头标签的末端使得每个衔接头区段可以连接成正确的方向并与合适的分子连接。这类修饰通过确保片段不会相互连接,并且衔接头标签区段只能以期望的方向连接,从而防止衔接头标签区段的“聚合”。这类修饰在上述部分也得以详细论述,其是有关调控衔接头连接到靶核酸以产生本发明核酸模板构建体。
在其它实施方案中,可以采用三区段设计来给每孔中的片段加标签的衔接头标签。该实施方案与上面描述的条形码衔接头标签设计类似,除了条形码衔接头标签区段被分成两个区段(参见图27)。通过将不同条形码区段连接在一起形成完全的条形码区段因此产生组合条形码衔接头标签区段,该设计允许更宽范围的可能的条形码。这种组合设计提供了更大的可能条形码衔接头标签全集,而减少了需要产生的完全条形码衔接头标签的数量。
在一个实施方案中,加标签的片段的多个等分试样的LFR文库的构建牵涉使用不同衔接头标签组。A和B衔接头标签容易修饰成各含有不同半-条形码序列以产生数千种组合。在某些实施方案中,将半-条形码序列掺入相同衔接头标签中。这可以通过将B衔接头标签分成两个部分(各具有由用于连接的共同重叠序列分开的半条形码序列)来实现(图28E)。两个标签组分各具有4-6个碱基。8-碱基(2x4个碱基)标签组能够给65,000个等分试样独特地加标签。一个额外的碱基(2x5个碱基)会容许错误检测,并且可以使用Reed-Solomon设计来将12个碱基标签(2x6个碱基,1千2百万独特的条形码序列)设计为容许10,000或更多个等分试样中的实质性错误检测和改正。用于设计衔接头标签的方法进一步披露于2010年2月1日提交的美国专利申请No12/697,995,在此为了所有目的且特别地为了涉及Reed-Solomon算法及其在设计衔接头标签(其在所述申请中又称为衔接头)中的用途的教导通过提及而将其完整收录。
在又一些实施方案中,对衔接头标签的连接控制取向,也就是说,本发明提供了衔接头标签的定向连接。此类定向连接可以利用本文中所描述的用于连接衔接头与靶核酸的任何方法。在一个例示性的实施方案中,在两个分开的步骤中在DNA片段的每侧连接半-衔接头标签(在本文中又称为标签组分和衔接头标签区段)。第一半-衔接头标签通过在一条链上掺入双脱氧核苷酸在其3’端阻断,如此容许仅连接DNA片段的3’端。如此,双链片段具有与片段的每条链的3’端连接的半-衔接头标签(即,存在着与Watson链3’端及与Crick链连接的半-衔接头标签)。然后,将这些加半-标签的片段变性,并与连接的衔接头标签互补的引物和聚合酶组合以自与第一半-衔接头标签连接的每条DNA片段链生成双链DNA。在某些实施方案中,第一半-衔接头标签包含条形码或半-条形码,如在本文中更为详细讨论的。然后,可以将第二半-衔接头标签(其在一些实施方案中不含条形码)与包含第一半-衔接头标签的复制片段的新创建的3’端连接。对片段添加每个半-衔接头标签的此序贯方法的优点在于仅那些与第一半-衔接头标签连接的片段然后会经历与第二半-衔接头标签的连接。如应当领会的,可以在每个循环期间添加多个半-衔接头标签:换言之,可以将1或多个标签组分与每个片段的选定末端定向连接,然后在变性并复制后,可以将1或多个额外的标签组分添加至新创建的3’端。如此,可以以多种组合使用不同标签组分组来生成为片段加标签的组合标签。
在又一些实施方案中,将第一半-衔接头标签在5’端阻断,容许仅连接DNA片段的5’端,并且将第二半-衔接头标签在3’端阻断,容许仅连接DNA片段的3’端。如此,在此实施方案中可以将衔接头标签的这两半与片段同时连接。
在又一些实施方案中,依照WO2007120208、WO2006073504、WO2007133831、和US2007099208、和美国专利申请No11/679,124,11/981,761,11/981,661,11/981,605,11/981,793,11/981,804,11/451,691,11/981,607,11/981,767,11/982,467,11/451,692,11/541,225,11/927,356,11/927,388,11/938,096,11/938,106,10/547,214,11/981,730,11/981,685,11/981,797,11/934,695,11/934,697,11/934,703,12/265,593,11/938,213,11/938,221,12/325,922,12/252,280,12/266,385,12/329,365,12/335,168,12/335,188,及12/361,507(在此为了所有目的且特别地为了涉及衔接头的所有教导通过提及而将每篇完整收录)中添加衔接头的公开内容进行将衔接头标签或其它标签添加至片段的方法。
在将每孔中的片段加标签后,在一些实施方案中可以组合所有等分试样以形成单一群体。根据与每个片段附接的条形码标签衔接头标签,自这些加标签的片段获得的序列信息会可鉴定为属于特定的等分试样。
III.A.2.多孔格式LFR
在许多实施方案中,每个等分试样包含在多孔板(例如,384或1536孔微量滴定板)的不同孔中。应当领会,虽然就多孔板而言提供以下的LFR讨论,但是可以使用许多不同类型的容器和系统来容纳此方法中生成的不同等分试样。此类容器和系统是本领域中公知的,并且本领域技术人员会显而易见的是,何种类型的容器和系统会适合于依照本发明的此方面使用。
在一些实施方案中,将10%基因组等同物等分入多孔板的每孔中。若使用384孔板,则等分入每孔中的10%基因组等同物产生总共包含38个基因组的每块板。在又一些实施方案中,将5-50%基因组等同物等分入每孔中。如上文所记录的,本发明的LFR方法中使用的等分试样的数目和基因组等同物可以取决于初始片段大小。
分离到多个孔后,通常可以利用MDA方法将每个孔中的片段扩增。在某些实施方案中,所述MDA反应是经过改良的基于Phi29聚合酶的扩增反应。虽然本文中的讨论主要是就MDA反应而言,本领域技术人员可以理解,许多不同种类的扩增反应可以用于本发明,这些扩增反应是本领域公知的,在Maniatis等,Molecular Cloning:A Laboratory Manual,第2版,1989和Short Protocols in Molecular Biology,Ausubel等编(通过引用并入本文)中有概述。在某些实施方案中,每个等分步骤之前或之后使用的MDA方法可以包括添加剂以降低扩增偏离,如在上文更为详细讨论的。
在每孔中扩增片段后,扩增产物可以进行另一轮片段化。在一些实施方案中,在扩增后使用以上描述的CoRE方法将每个孔中的片段进一步片段化。正如以上讨论过的,为了使用CoRE方法,用于扩增各孔中的片段的MDA反应被设计成给MDA产物引入尿嘧啶或其它核苷酸类似物。
III.A.3.乳剂液滴
在某些LFR应用中,在等分和加标签的方法中使用乳剂液滴。用于生成含有核酸和/或供酶反应用的试剂的乳剂液滴的方法是本领域中公知的,参见例如Weizmann等,(2006),Nature Methods第3卷第7期,第545页-第550页,在此为了所有目的且特别地为了涉及形成乳剂及在乳剂液滴内进行酶反应的所有教导而将其完整收录。
在一些实施方案中,乳液液滴内包含自样品分离的核酸或核酸片段,包括使用本文中所描述的CoRE法生成的片段。在此类实施方案中,每个液滴一般含有少量片段。在用于全基因组测序的LFR方法中,乳剂液滴的群体共同会含有代表一个或多个基因组等同物的片段。在又一些实施方案中,乳剂液滴的群体共同会含有代表5-15个基因组等同物的片段。在又一些实施方案中,乳剂液滴的群体共同会含有代表1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19或20个基因组等同物的片段。
在又一些实施方案中,乳液液滴中还含有两个或更多个衔接头标签组分。为了清楚的目的,含有靶核酸片段的乳液液滴称为靶核酸液滴,而含有衔接头标签的乳液液滴称为衔接头标签液滴。
在某些实施方案中,靶核酸液滴内和/或衔接头标签液滴中还含有酶诸如连接酶和其它试剂诸如缓冲剂和辅因子。可以通过如上文更为详细描述的那样改变末端,使得仅以优选的取向在片段与衔接头间发生连接,从而阻止片段或衔接头标签在同一液滴内成链。连接酶和其它试剂也可以包含在乳剂液滴的不同组中。
在又一些实施方案中,将个别靶核酸液滴与个别衔接头标签液滴组合,使得液滴合并。在靶核酸液滴或衔接头标签液滴含有连接酶和/或供连接反应用的其它试剂的实施方案中,在衔接头标签和核酸液滴合并后,核酸片段会与一个或多个衔接头标签连接。在连接酶和其它试剂包含在乳剂液滴的不同组中的实施方案中,连接会在个别靶核酸液滴、个别衔接头标签液滴和连接酶/试剂液滴合并后发生。
在衔接头标签液滴含有两个或更多个“半-衔接头”(在本文中又称为“标签组分)的实施方案中,液滴的合并导致每个液滴中的靶核酸片段与独特的组合衔接头标签连接(图28A-B)。两组的100个半条形码足以独特地鉴定10,000个等分试样(图2E)。然而,将半条形码衔接头的数目增加至超过300可以容许以任何两个等分试样含有相同条形码组合的低概率随机添加要与样品DNA组合的条形码液滴。这点的优点在于数万独特的组合条形码衔接头标签液滴可以大量生成,并在单一管中贮存以作为数千个不同LFR文库的试剂使用。
在一些实施方案中,在本发明的方法中使用10,000至100,000或更多个等分试样文库(即,乳剂液滴)。在又一些实施方案中,通过增加初始半条形码衔接头标签的数目来放大乳液LFR方法。然后,将这些组合衔接头标签液滴一对一地与含有代表小于1%的单倍体基因组的已连接DNA的液滴融合(图28D)。使用每个液滴1nl和10,000个液滴的保守估计,这代表整个LFR文库为10μl的总体积,约400倍的体积降低及如此成本降低可以是有可能的。在此类实施方案中,乳剂液滴提供使LFR等分试样从微升微型化至纳升的能力,并将此类方法中一般使用的等分试样的数目从数百增加值数千(将每个等分试样的DNA从10%降低至小于1%)。具有10,000或更多个乳剂液滴的此类系统打开仅以一个细胞开始进行完整的基因组测序的可能性。
在又一些实施方案中,在本发明的方法中使用1,000至500,000个片段和衔接头标签液滴。在又一些实施方案中,在本发明的方法中使用10,000-400,000、20,000-300,000、30,000-200,000、40,000-150,000、50,000-100,000、60,000-75,000个片段和衔接头标签液滴。在又一些实施方案中,在本发明的方法中使用至少1,000、至少10,000、至少30,000、和至少100,000个片段和衔接头标签液滴。
在衔接头标签液滴含有至少2,3,4,5,6,7,8,9,10个不同衔接头标签组或构件的又一些实施方案中,组合这些衔接头标签液滴与核酸片段的液滴产生具有用不同标签组分组合加标签的片段的所得的组合液滴的至少一部分。在又一些实施方案中,至少1,000、至少10,000、至少30,000、和至少100,000个不同液滴含有用不同标签组分组合加标签的片段。在又一些实施方案中,1,000至500,000个液滴含有用不同标签组分组合加标签的片段。在又一些实施方案中,10,000-400,000,20,000-300,000,30,000-200,000,40,000-150,000,50,000-100,000,60,000-75,000个液滴含有用不同标签组分组合加标签的片段。
在一些实施方案中,使用本文中所描述的任何方法生成的来自样品的核酸或核酸片段包含在乳剂液滴内,如上文所讨论的。在与衔接头标签液滴组合并加标签前,使用本文中所描述的任何方法来使每个核酸液滴内的核酸或片段片段化。此类片段化及然后随后的加标签容许鉴定同一液滴中含有的且也可以作为基因组的相同区域的连续区段的片段。如此,可以使用附接的标签的鉴定结果来装配并整理加标签的靶核酸片段的序列信息。在某些实施方案中,片段的测序包括获得关于其附接的衔接头标签的信息。
在某些实施方案中,使用本领域中已知的方法来控制乳剂液滴的大小以在他们包含在液滴内时阻止剪切及如此对靶核酸片段的进一步片段化。在一些实施方案中,使用1nL液滴(即,100μm3体积的液滴)。已经显示了50kb lambda dsDNA形成1μm3球,并且如此会预期200kb人基因组dsDNA形成约2μm3立方体球,其会在由于纳入(乳化)过程所致的最小剪切的情况中容易地包含在1nl液滴中。单链DNA(其是MDA的起始步骤,并且在等分之前或之后扩增DNA的实施方案中是一般用于形成本发明的液滴的材料)是甚至更紧密或柔性的,因为它具有dsDNA的约十分之一的持续长度。另外,且如上文更为详细地讨论的,在移液过程期间对DNA添加元件诸如亚精胺也帮助保护DNA免于剪切,其有可能(不限于理论)是由于诸如亚精胺等物质压缩DNA的能力。
目前存在着数种类型的微射流(例如,Advanced Liquid Logic)或皮/纳升级液滴(例如RainDance Technologies)装置,其可以改良为接受LFR试剂和方法。这些仪器具有目前完全操作的皮/纳升级制滴、融合(3000/秒)和收集功能。此类小体积还可以帮助阻止由扩增方法引入的偏离,而且还可以降低背景扩增。
使用乳剂液滴的优点是将反应体积降低至微升、纳升和皮升水平提供与生成LFR文库有关的成本和时间的降低。
III.A.4.LFR的优点和例示性应用
在一方面,依照上文所描述的方法,使用来自LFR等分试样文库的片段来生成DNB。然后,可以在本领域中已知的且在本文中更为详细地描述的测序方法中使用这些DNB。
在又一方面,将初始的长DNA片段等分,然后片段,并在每个等分试样中加标签。然后,将这些加标签的片段合并在一起,并且随后在不扩增的情况中对片段的至少一部分测序。在某些实施方案中,对片段的约30%-80%测序。在又一些实施方案中,对片段的约35%-70%,40%-65%,45%-60%和50%-55%测序。在又一个实施方案中,在不扩增的情况中对等分的且加标签的片段的至少30%,40%,50%,60%,70%,80%,90%,95%测序。
在其它实施方案中,扩增片段,然后对扩增片段的约35%-70%,40%-65%,45%-60%,和50%-55%测序。在又一个实施方案中,在扩增后对等分的且加标签的片段的至少30%,40%50%,60%,70%,80%,90%,95%测序。
在一方面,装配来自LFR片段的序列阅读以提供关于比个别序列阅读长的初始靶核酸的连续区域的序列信息。序列阅读可以按20-200个碱基或者在一些方法中200-2,000个碱基或更长的次序。如本文中更为详细地讨论的,等分的片段一般为约20-200kb或者甚至长于1Mb。在又一方面,这种装配依赖于鉴定相同等分试样中含有的片段的每个片段标签的身份。在又一些实施方案中,标签是寡核苷酸衔接头标签,并且通过测定标签序列的至少一部分来鉴定个别标签。标签的身份用来鉴定附接片段的来源等分试样,并且也可以用于整理来自个别片段的序列阅读并分辨单元型。例如,如上文所讨论的,在LFR中等分长片段的过程一般导致将相应的亲本DNA片段分成不同等分试样,使得随着等分试样的数目增加,具有母本和父本单元型两者的等分试样的数目变为小得可以忽略。如此,可以装配并整理来自相同等分试样中的片段的序列阅读。此方法中使用的较长片段也帮助桥接缺乏杂合基因座的区段或解析长的区段复制。
LFR的别的优点在于可以使用自较长片段获得的序列信息来装配含有其长度大于自无论使用何种测序方法获得的个别序列阅读的重复序列的基因组区域的序列。LFR的此类优点和应用也在2006年6月13日提交的美国专利申请No11/451,692(现在为美国专利No7,709,197)及2008年12月5日提交的美国专利申请No12/329,365(在此完整地且特别地为了涉及LFR及使用LFR方法测序的所有教导通过提及而将每篇收录)中讨论。
应当认可,生物科学(包括关于农业和生物燃料生产)和医学的进展决定性地取决于精确的低成本且高通量基因组和转录物组测序。为了实现这些益处,对个体基因组的精确测序的成本应当是非常低的,诸如小于1000美元。此成本应当包括该方法的所有组分诸如DNA制备试剂、测序仪器折旧、和计算。
也可以在没有参照序列(例如,宏基因组学)的情况中使用目前的LFR发明来进行快速的完全从头装配。首先,可以在每个等分试样内实现部分装配。然后,使用对装配的重叠群的有限比对来寻找具有重叠片段的等分试样以完成共享的DNA区段的完全装配。然后,以两个方向增殖区段的装配。大量具有小于0.1%的基因组的LFR等分试样确保从头装配中的短阅读的较短重叠的唯一性(即,12个碱基对于完整基因组需要的0.1%基因组对17个碱基中的独特阅读重叠是足够的),导致较低阅读覆盖的较长序列重叠群。阅读覆盖一般指基因组的分数或倍数覆盖。
在一方面,本发明涵盖以高效率执行依照上述例示性方法的方案的软件和算法。
在又一方面,使用本发明的方法和组合物进行基因组甲基化分析。存在着目前可用于全局基因组甲基化分析的数种方法。经济上最易得到的方法牵涉对基因组DNA的硫酸氢盐处理及对通过甲基化特异性限制酶片段化获得的重复元件或基因组的一部分测序。此技术产生关于总体甲基化的信息,但是没有提供基因座特异性数据。下一高水平的解析利用DNA阵列,并且其受到芯片上的特征数目限制。最后,最高解析且最昂贵的办法需要硫酸氢盐处理,然后对整个基因组测序。使用本发明的LFR技术,有可能的是,对基因组的所有碱基测序,并以关于人基因组中的每个胞嘧啶位置的甲基化水平的数字信息装配完整的二倍体基因组(即,5碱基测序)。此外,LFR容许阻断要与序列单元型连接的100kb或更大的甲基化的序列,提供甲基化单元型分型,即用任何目前可用的方法不可能实现的信息。
在一个非限制性的例示性实施方案中,在如下的方法中获得甲基化状态,其中首先将基因组DNA等分并变性以进行MDA。接着,用亚硫酸氢盐处理DNA(即需要变性的DNA的步骤)。剩余的制备遵循那些记载于例如6/13/2006提交的美国申请流水号11/451,692和12/15/2008提交的12/335,168的方法,在此为了所有目的且特别地为了涉及依照长片段阅读技术对片段混合物的核酸分析的所有教导通过提及而将每篇收录。
在一方面,MDA会独立地扩增特定片段的每条链,对任何给定的胞嘧啶位置产生50%的阅读,如不受亚硫酸氢盐影响的(即,与胞嘧啶相反的碱基,鸟嘌呤不受亚硫酸氢盐影响),且50%提供甲基化状态。每等分试样降低的DNA复杂性帮助精确的定位及提供较少信息的、主要为3-碱基(A,T,G)的阅读的装配。
在历史上已经发现亚硫酸氢盐处理使DNA片段化。然而,变性和亚硫酸氢盐缓冲液的小心滴定可以避免基因组DNA的过度片段化。LFR中可以耐受胞嘧啶向尿嘧啶的50%转化,容许将DNA暴露于亚硫酸氢盐的降低以使片段化最小化。在一些实施方案中,等分后的一定程度的片段化是可接受的,因为它不会影响单元型分型。
在一方面,本发明的方法自单细胞产生质量基因组数据。对单细胞测序的能力会在基因组研究和诊断学方面打开许多新的通路。假设没有DNA损失,以少量细胞(10或更小)开始,代替使用来自大量制备物的等量DNA存在益处。以小于10个细胞开始并精确地等分所有DNA确保基因组的任何给定区域的长片段的一致覆盖。以5个或更少的细胞开始容许每个等分试样中的每100kb DNA片段的四倍或更大的覆盖,而不增加高于120Gb(6Gb二倍体基因组的20倍覆盖)的阅读总数。然而,在对自少量细胞获得的样品测试时,大量等分试样(10,000或更多)和更长的DNA片段(大于200kb)可以是有用的,因为对于任何给定的序列,仅有与起始细胞数目一样多的重叠片段,并且等分试样中的两条亲本染色体的重叠片段的发生可以是信息的破坏性损失。
针对小输入DNA量的问题改编本发明的LFR技术,因为它在起始输入基因组DNA的仅约10个细胞价值的情况中是有效的。在又一些实施方案中,对自约1-20,2-18,3-16,4-14,5-12,6-10,和7-8个细胞获得的核酸进行LFR。在又一些实施方案中,也可以与自单细胞获得的核酸一起使用LFR,因为LFR中的第一步一般是低偏离全基因组扩增,其在单细胞基因组分析中可以是特别有用的。由于处理中的DNA链断裂和DNA损失,甚至单分子测序方法可能会需要自单细胞的一定水平的DNA扩增。对单细胞测序的困难来自设法如实地扩增整个基因组。使用MDA对细菌实施的研究已经遭受最终装配序列中的约一半基因组的损失及那些测序区域间的覆盖的相当高的变化量。由于具有不能在末端复制并且如此在MDA过程期间损失的切口和链断裂的初始基因组DNA,这可以部分得到解释。在某些方面,LFR提供了此问题的解决办法,因为它包括在全基因组扩增方法诸如MDA前生成基因组的长重叠片段的步骤。如上文更为详细地讨论的,在一些实施方案中使用自所使用的细胞分离基因组DNA的温和方法来生成这些长片段。然后,用常见的切口酶轻轻地处理主要为完整的基因组DNA,生成半随机切口的基因组。然后,使用Φ29的链置换能力来自切口聚合,创建非常长的(大于200kb)重叠片段。然后,使用这些片段作为LFR过程的起始模板。在其它实施方案中,在MDA前使用如上文所讨论的CoRE片段化技术来生成长片段。如应当领会的,也可以利用CoRE和本领域中已知的用于生成片段的其它方法的组合来为本文中所讨论的LFR方法的步骤提供材料。
使用扩增的DNA或依赖于单分子检测的先进基因组测序存在着两种基本方法。一般地,期望第一组具有较低的检测成本(较高的通量),而期望第二组在DNA制备和试剂上具有较低的成本。为了实现精确的测量,单分子测序可能比使用扩增DNA需要多100次的测量,这是因为非同步的碱基阅读和/或较长的检测时间。或者,扩增的DNA阵列已经表明经由微型化降低的试剂成本,同时仍维持高质量低成本检测,并且经由微射流装置的进一步试剂减少完全力所能及。因此,使用扩增的DNA的先进微型化方法有可能是提供低成本医学基因组测序的第一系统。
对于诊断医学应用,低成本不能包括序列的精确性和完整性。在高的每碱基精确性外,人基因组测序的精确性和完整性的重要构件是来自双倍体细胞的两条亲本染色体的独立的且精确的序列的装配(包括甲基化的单元型状态)。这对于合成的蛋白质或RNA等位基因的一级结构的精确预测可以是重要的,并且其表达共有序列信息的相应水平不能进行这些预测,因为负责等位表达水平的增强子和其它序列可以在感兴趣基因上游超过100kb,或者因为影响蛋白质氨基酸序列的两个相邻SNP可能驻留于感兴趣基因的不同等位基因上。
为了实现染色体水平单元型分型,模拟实验显示了需要范围为至少70-100kb间的等位基因连锁信息。这用使用扩增DNA的技术不能实现。这些技术最可能会受限于小于1000个碱基的阅读,这是由于长DNA分子的一致扩增的困难和测序中连锁信息的丧失。配对技术可以提供延伸的阅读长度的等同物,但是限于小于10kb,这是由于生成此类DNA文库的低效率(即,长于几个kb的DNA环化是非常困难的)。此方法也需要极端的阅读覆盖以连接所有杂合子。若加工此类长的分子是可行的,且若单分子测序的精确性是高的,而且检测/仪器成本是低的,则这点的理想技术会是大于100kb DNA片段的单分子测序。这对具有高收率的较短分子非常难以实现,更别说对100kb片段。
LFR提供了与便宜的长的单一DNA分子测序等同的通用解决办法,其会使目前较短的阅读扩增DNA技术和潜在的未来较长阅读但分子技术变得更便宜以获得并精确装配基因组序列数据。同时,此方法会提供复杂二倍体基因组中的完全单元型解析,而且容许宏基因组混合物的装配。
在一方面,本发明基于长度约100-1000kb的实际阅读长度。另外,LFR也可以显著降低计算需要和任何短阅读技术的相关成本。重要地,LFR消除延伸测序阅读长度的需要,若其降低总体收录的话。与低成本短阅读技术,诸如基于DNA纳米阵列的cPAL(组合探针锚定连接)化学(记载于例如公布的专利申请号WO2007120208,WO2006073504,WO2007133831,和US2007099208,及US专利申请No11/679,124,11/981,761,11/981,661,11/981,605,11/981,793,11/981,804,11/451,691,11/981,607,11/981,767,11/982,467,11/451,692,11/541,225,11/927,356,11/927,388,11/938,096,11/938,106,10/547,214,11/981,730,11/981,685,11/981,797,11/934,695,11/934,697,11/934,703,12/265,593,11/938,213,11/938,221,12/325,922,12/252,280,12/266,385,12/329,365,12/335,168,12/335,188,和12/361,507,为了所有目的且特别地为了涉及测序技术的所有教导通过提及而将所有专利完整收入本文)组合,LFR以负担得起的成本为医学和研究应用提供了人基因组测序的完全解决办法。
仅与亲本或相关染色体(尽管其高度相似性及长重复和区段复制的存在)的共有序列相反,LFR提供了获得个别染色体的实际序列的能力。为了产生此类数据,一般在长的DNA范围,诸如100kb至1Mb里建立序列的连续性。传统上,通过BAC克隆,即一种昂贵的且不可靠的方法(例如,不可克隆的序列)获得此类信息。大多数测序技术产生相对较短的DNA阅读(100至几千个碱基)。此外,在多个加工步骤中维持长片段是非常困难的。如此,LFR的一个优点在于它提供了一种通用的体外方法以便以较低成本获得此类信息。
具有10,000或更多个等分试样的LFR经由短阅读长度测序技术招致的计算成本大幅降低和基因组装配的复杂性。这对于降低低于1000美元的人基因组测序的总成本可以是特别重要的。
LFR提供错误或可疑的碱基调用(call)的相对高比率的降低,通常100kb或30,000个假阳性调用中的一个和每个人基因组的不可检出变体的相似数目,其补充(plaque)本基因组测序技术。为了使检出变体的追踪确认最小化并且为了容许采用人基因组测序进行诊断应用,使用本发明的方法,此类误差率可以是10-1000倍。
使用乳剂液滴的LFR在降低成本和提高效率方面是特别有用的。通过将LFR方法的总反应体积降低超过1000倍,将等分试样的数目增加至约10,000,并改善数据的质量,经由以下方法加工的完整基因组的总成本会小于1,000美元,所述方法诸如那些本文中及公布的专利申请号WO2007120208,WO2006073504,WO2007133831,和US2007099208,和US专利申请No.11/679,124,11/981,761,11/981,661,11/981,605,11/981,793,11/981,804,11/451,691,11/981,607,11/981,767,11/982,467,11/451,692,11/541,225,11/927,356,11/927,388,11/938,096,11/938,106,10/547,214,11/981,730,11/981,685,11/981,797,11/934,695,11/934,697,11/934,703,12/265,593,11/938,213,11/938,221,12/325,922,12/252,280,12/266,385,12/329,365,12/335,168,12/335,188,和12/361,507的(为了所有目的且特别地为了涉及测序和核酸制备的所有教导通过提及而将所有专利收入本文)。
在对于所有测序平台通用外,基于LFR的测序可以就在标准的个体基因组分析外应用于低成本-高通量测序的所有主要应用(例如,癌症基因组中的结构重排,完全甲基化组(methylome)分析,包括甲基化位点的单元型,和甚至复杂的多倍体基因组,如存在于植物中的基因组的宏基因组学或新基因组测序的从头装配应用)。
由于在提供相隔100-1000kb的序列的连锁信息方面的通用性质和成本有效性,预期此新的DNA加工和加条形码技术对生物科学、医学遗传学、和新诊断学和药物的开发,包括新的癌症治疗具有广泛的且高度有益的影响。各种基因组应用中的重要目的之一是产生具有高度精确和完整性的足够的基因组序列数据以能够形成关于驱动复杂遗传调节网络的各种基因组密码的知识。本发明涵盖对所有基因组学和测序平台应用的LFR试剂盒、工具和软件。
LFR提供了了解数千种疾病,特别地大量仅少数患者可用于研究的散发性遗传病(具有新的或组合的遗传缺陷)的遗传基础的能力。在这些病例中,基因组序列的完整性(包括所有序列变体和甲基化状态的完全单元型分型)容许发现导致此类罕见疾病的实际遗传缺陷。
在一些实施方案中,本发明在癌症基因组的遗传医学诊断学和个体基因组测序方面是有用的。在帮助更好地了解肿瘤形成外,对癌症基因组的完整测序对于选择最佳的个人化癌症疗法会是至关重要的。来自少量细胞的低成本的精确且完整的序列数据在此重要的健康应用中可以是有用的。其次,为了个人化疾病诊断、预防和治疗的个体基因组测序必须是完整的(包括完整的染色体单元型)、精确的且负担得起,必须是有效的。本发明显著改善所有三种成功度量。可以实施此类低成本通用遗传测试作为体外受精方法(其中仅可用一个或两个细胞)的一部分,作为出生前诊断或新生儿筛选及作为常规成人健康护理的一部分。一旦在实现影响范围执行(每年测序超过1千万基因组),此遗传测试可以经由预防性措施及适当的药物使用来显著降低健康护理成本。
本发明可以产生超过100kb的单元型阅读。在一些方面,可以通过将体积降低至亚微升水平来实现约10倍的成本降低。这由于容许在不进行DNA纯化的情况中在同一孔中实施所有六个酶步骤的本发明的方法、组合物和反应条件而可实现。在一些实施方案中,本发明包括在1536孔格式中使用商品化自动化移液方法。可以使用提供50-100nl的非接触移液的纳升(nl)分配工具(例如,Hamilton Robotics纳升移液头,TTP LabTech Mosquito等)来进行快速且低成本的移液以平行生成数十个基因组文库。等分试样的4倍增加导致每孔内的基因组的复杂性的大幅降低,将计算的总体成本降低超过10倍并提高数据质量。另外,此过程的自动化提高通量,并降低生成文库的成本方面的操作。
在又一些实施方案中,且如上文更为详细地讨论的,用条形码衔接头标签实现每个等分试样的独特鉴定结果。在利用多孔板的实施方案中,也使用相同数目的衔接头标签(在两个非限制性的例子中为384和1536)。在又一些实施方案中,基于两组40个半-条形码衔接头标签经由新的组合标签方法降低与生成衔接头标签有关的成本。
在10,000个等分试样中将体积降低至皮升水平可以实现甚至更大的成本降低,可能为试剂成本多达30-400倍和计算成本的额外的10倍(总共超过100倍)降低。在一些实施方案中,通过组合LFR方法与对乳剂或微射流型装置的组合加标签来实现成本降低和广泛等分的此水平。此外,在不进行DNA纯化的情况中在同一反应中实施所有六个酶步骤的条件的在本发明中的一个进展提供微型化和自动化及对极其多种平台和样品制备方法的适应性的能力。
LFR的另一个优点在于全基因组扩增可以有效得多,并且由于LFR中所使用的小体积和长片段而显示显著更小的偏离。许多研究已经检查不想要的扩增偏离、背景产物形成、和经由基于Φ29的MDA引入的嵌合人工产物的范围,但是许多这些缺点已经在扩增的极端条件(大于1百万倍)下发生。LFR仅需要所述扩增水平的百分之一。另外,LFR以对于有效的MDA至关重要的长DNA片段(约100kb)开始。
在一方面,本发明提供了二倍体基因组测序技术,其容许调用亲本单元型。LFR解决通过将长度大于100kb的相应亲本DNA片段分成物理上分开的亚基因组等分试样来测定亲本单元型的问题。随着等分试样的数目增加,例如增加至1536,及基因组的百分比降低至单倍体基因组的约1%,单元型的统计学支持显著增加,因为同一孔中的母本和父本单元型两者的散发性存在减少。因此,大量的小等分试样及每个等分试样的混合单元型的忽略频率容许使用更少的细胞。类似地,更长的片段(例如,300kb或更长)帮助桥接缺乏杂合基因座的区段。
可以通过为一对相邻等位基因计算共享等分试样百分比(PSA)进行用于单元型分型的有效算法(图29)。此方法解析具有混合单元型的等分试样或在一些等分试样中的未调用等位基因的情况。对于1536孔板中等分的20个细胞的100kb片段,代表真实单元型的对的平均PSA从接近100%降低至21%,此时相邻杂合位点间的距离从0增加至80kb。罕见情况(小于1%)中的假单元型对的PSA可以代表5-10%(20个等分试样中的1-2个,接近真实单元型中的80kb分开等位基因的PSA),因为两个单元型的随机几率存在于相同等分试样中。如此,对相隔超过80kb的相邻杂合基因座进行单元型分型需要甚至长于100kb的片段。
在一方面,本发明的方法和组合物提供了完整的二倍体基因组测序技术,其容许调用多态性基因座为纯合的。由于随机取样,存在着显著的如下可能性,即在基因组的任何给定的区域,仅已经对亲本染色体之一进行测序。一种昂贵的解决办法及常规测序技术中通常采用的方法是提供整个基因组间的高度平均阅读覆盖。本发明显著降低此问题,因为它需要比常规技术中的需要少得多的序列覆盖。作为一个非限制性的例子,考虑人基因组中用5个重叠阅读检测的纯合位置(99.9%的情况中的参照)。若此类位置表明为纯合,则LFR方法在32(每个阅读提供为正确的0.5概率,所有5种情况中为错误的概率是0.55或1/32)情况(约3%)之一中会是不正确的,也就是说在1/32情况中,所有5个阅读来自相同染色体,而无一来另一条。由于这点,通常优选的是表明所有这些位置为无调用或半调用。那导致每个基因组的数百万个半调用位置。若使用本发明的方法(1536或更多个等分试样),则32/33个情况可以认为实际的纯合位置(5个阅读的一些来自每个亲本的等分试样),而仅剩余的3%会表明为半调用(所有阅读来自一个亲本的等分试样)。为了实现此改善,在单元型分期后调用纯合参照或SNP位置。
可以实现相似的优点以降低假阳性调用率(call rate)。大多数假调用具有来自实际的第二等位基因的较低的,但是仍足够的覆盖。使用LFR数据,可以通过测定得到更好支持的等位基因存在于来自这两个亲本的等分试样中来识别假阳性情况。例如,测序中遇到的常见情况是由7个阅读覆盖的区域,其中5个对应于特定基因座处的A,而2个对应于G。若G的两个阅读是假的(例如,在DNA加工期间突变),则它们会最有可能来自相同等分试样,并且A的5个阅读会来自属于这两个亲本的多个等分试样。这会指示所讨论的基因座处的纯合A。
将短阅读定位于参照基因组,而在计算上没有从头测序复杂,这需要实质计算,特别在存在通过多处突变、插入和/或缺失创建的趋异的或新的序列的情况中。此类基因组区段需要短序列阅读的局部或全面从头装配。将这点与关于每块显微镜载玻片具有30-60亿个点(每块载玻片1-4个基因组)的新一代DNA阵列的试剂和成像成本降低偶联,并且序列装配的计算努力快速地变为基因组测序的主要成本。降低与全基因组测序有关的成本的一种方式是降低这些计算需要。
本发明提供了LFR方法(大于1500个等分试样),其在多个水平上提供短阅读测序计算问题的解决办法:(a)对参照序列的快速阅读定位,(b)使需要广泛局部装配的基因座的数目最小化,及(c)更快的局部和全局从头装配的数量级。这部分因为通过每次局部装配小于1%的基因组而实现。实质上,将人基因组装配降低至1000个细菌基因组装配的等同值。在一方面,使用以下序列装配过程:
1.将小于1%阅读定位于整个基因组参照
2.为每个等分试样限定3-10Mb(对于10,000个等分试样)参照序列
3.将来自每个等分试样的所有阅读定位于短等分试样参照
4.调用约80%的明显杂合位置
5.通过将杂合基因座分期来建立亲本染色体单元型
6.调用所有纯合参照(无变异)或SNP和短Indel及低覆盖杂合位置
7.限定需要广泛(包括从头)装配的剩余的约40K区域的序列(约1百万个碱基中的1个)
作为降低定位成本(a)的例子,考虑已经分成10,000个等分试样的来自5个细胞的DNA的测序和定位,所述等分试样由每个等分试样0.1%的单倍体人基因组(3Mb或30个100kb片段)组成。若将每个等分试样测序至具有120个碱基对阅读的4倍覆盖,则每个等分试样会存在着约100,000个阅读(3Mb X4/120)。等分试样内的每个100kb片段会被3,300个阅读覆盖。通过针对整个人参照定位等分试样中所有阅读中的500个(或0.5%)(步骤1),总计每个片段约15个阅读,会限定与每个等分试样中的片段对应的参照区段(步骤2)。然后,会将剩余的阅读定位于对每个等分试样独特限定的0.1-0.2%的复合参照(3-6Mb)(步骤3)。此方法仅使用没有LFR情况中需要的总定位努力的1%或者定位的计算成本降低100倍。在一个实施方案中,本发明包括用于等分试样参照序列的快速收集和编入索引的软件。
本发明改善二倍体基因组测序的效率,其通过首先限定单元型(步骤4和5),然后使用等分试样-单元型配对来为大多数剩余的碱基实现精确的且计算上有效的碱基(变体)调用(步骤6)进行。例如,对于个人人基因组中的超过几乎30亿个碱基位置,存在着参照/参照纯合状态,没有LFR单元型,关于超过1亿个位置的信息不能在没有广泛评估新序列的情况中在两条染色体上都得到调用。凭借先进的LFR,可以在没有任何从头类型序列装配的情况中将这些位置中的大多数精确测定为参照/参照。对于此基因组装配步骤,这产生约1000倍的计算降低。此外,基因组中所有变体的99.9%(例如,SNP和1-2个碱基Indel)会在此步骤得到精确调用,并且代表更复杂的变化的剩余的0.1%(每个个体人基因组找到的4百万个变体中的4万个)会在步骤7中得到解析。
假设单倍体基因组的标准的40倍覆盖(10亿个120-碱基阅读),可以使用约100,000个阅读(在10,000个等分试样的约10个中)来实现包含亲本染色体中的未解析位置的序列的重头装配(步骤7)。这比在没有LFR的标准装配中的超过1亿(大于10%)个预期未使用的阅读有效得多。另外,甚至在连续阅读间的较短重叠的情况中使假装配最小化。如此,每个从头装配位点可以实现超过100倍的成本降低。
本发明的LFR技术对基因组的非常长的(大于100kb)片段测序和装配的能力使它完全适合于对完整的癌症基因组测序。已经提示了超过90%的癌症以某种方式含有人基因组区域中的显著丧失或获得,称作非整倍性,其中已经观察到一些个别癌症含有超过4个拷贝的一些染色体。这增加染色体拷贝数的复杂性,而且染色体内的区域可以使使用与LFR不同的方法的测序不能维持。
在又一些实施方案中,本发明利用自动化来进一步降低与全基因组测序有关的成本。本发明的方法和组合物还包括微型化,其可以通过许多技术,包括使用纳升液滴来实现。在又一些实施方案中,使用改良的纳升级移液或声学液滴喷出技术(例如,LabCyteInc)或者使用能够处理多至9216个单独反应孔的微射流装置以3072-6144格式(仍是成本有效的总MDA体积60μl,而不损失计算成本节约或自4个孔测序的能力)或更高在平板中或在玻璃载玻片上沉积约10-20纳升液滴。
在一方面,本发明涵盖具有处理来自超过10,000个等分试样的数据的性能的软件。因为对仅几兆碱基的参照实施等分试样定位,可以使用Smith-Waterman算法,替换不定位具有Indel的阅读的快速变址。这容许以成本有效方式甚至对具有多处变化或Indel的参照序列的阅读的精确比对。
III.B.别的测序方法
如应当领会的,本发明的核酸(包括LFR等分试样文库中的片段和DNB)可以在本领域中已知的任何测序方法中使用,包括但不限于通过连接的测序、通过杂交的测序、通过合成的测序(包括通过引物延伸的测序)、通过连接可切割探针的链式测序等。
也可以使用与本文中所描述的用于测序的方法类似的方法来检测靶核酸中的特定序列,包括检测单核苷酸多态性(SNP)。在此类方法中,可以使用会与特定序列,诸如含有SNP的序列杂交的测序探针。可以将此类测序探针差别地标记以鉴定哪个SNP存在于靶核酸中。也可以与此类测序探针组合使用锚定探针以提供进一步的稳定性和特异性。
在一方面,本发明的方法和组合物与如下的技术组合使用,诸如那些记载于WO2007120208、WO2006073504、WO2007133831、和US2007099208及美国专利申请No60/992,485,61/026,337,61/035,914,61/061,134,61/116,193,61/102,586,12/265,593,12/266,385,11/938,096,11/981,804,No11/981,797,11/981,793,11/981,767,11/981,761,11/981,730,11/981,685,11/981,661,11/981,607,11/981,605,11/927,388,11/927,356,11/679,124,11/541,225,10/547,214,11/451,692和11/451,691的,为了所有目的,且特别地为了涉及测序,特别地核酸测序的所有教导通过提及而将所有专利完整收入本文。
在又一个方面,使用本领域中已知的测序方法来鉴定核酸的序列,包括但不限于基于杂交的方法,诸如Drmanac,美国专利6,864,052、6,309,824和6,401,267;以及Drmanac等,美国专利公开2005/0191656;和合成法测序方法,例如Nyren等,美国专利6,210,891、Ronaghi,美国专利6,828,100、Ronaghi等(1998),Science,281:363-365、Balasubramanian,美国专利6,833,246、Quake,美国专利6,911,345、Li等,Proc.Natl.Acad.Sci.,100:414-419(2003)、Smith等,PCT公开WO2006/074351;以及基于连接的方法,例如Shendure等(2005),Science,309:1728-1739、Macevicz,美国专利6,306,597,其中为了所有目的,特别是涉及(尤其是与测序有关的)描述组合物、组合物使用方法和组合物制备方法的图、图标和附带文字,这些文献分别通过引用全文并入本文。
III.B.1.cPAL
虽然下文就对DNA测序而言进行描述,但是本文中所描述的任何测序方法也可适用于靶核酸片段,诸如上文所描述的LFR测序方法生成的。如应当进一步领会的,本发明还涵盖测序方法的组合。
在一方面,使用在本文中称为组合探针锚定连接(cPAL)的方法及其变型来鉴定DNB的序列,如下文所描述的。简言之,cPAL牵涉通过检测探针连接产物来鉴定靶核酸中特定检测位置上的核苷酸,所述探针连接产物是通过至少一个锚定探针和测序探针的连接形成的,其中的锚定探针与衔接头完全或部分杂交,测序探针在对应(例如,会杂交到)检测位置的“询问位点”上含有特定核苷酸。如果询问位点上的核苷酸与检测位置上的核苷酸互补,可以发生连接,形成的连接产物含有所述独特标记,即可被检测到。下文中提供了对cPAL方法的不同例示性实施方案的描述。可以理解,以下描述并非出于限制目的,下述实施方案的变形涵盖在本发明中。
“互补”或“基本互补”是指核苷酸或核酸之间的杂交或碱基配对或者形成双链体,比如象双链DNA分子两条链之间或者寡核苷酸引物和单链核酸上的引物结合位点之间。互补核苷酸一般是A和T(或A和U)或者C和G。当一条链的核苷酸,在最佳地比对和比较并适当地进行了核苷酸插入或缺失的情况下,与另一条链的至少大约80%、通常至少大约90%到约95%,甚至大约98%到100%配对,这两个单链RNA或DNA分子被称为基本互补。
“杂交”用于本文是指两个单链多核苷酸非共价结合形成稳定的双链多核苷酸的过程。得到的(通常)双链多核苷酸是“杂交体”或“双链体”。“杂交条件”一般包括低于大约1M,更常见的是低于大约500mM,可能是低于大约200mM的盐浓度。“杂交缓冲液”是缓冲盐溶液,比如5%SSPE或其它本领域已知的这类缓冲液。杂交温度可以低至5℃,但一般高于22℃,更典型的是高于大约30℃,一般超过37℃。杂交一般在严紧条件下进行,即那种探针能够与其靶亚序列杂交但不会与其它不互补的序列杂交的条件。严紧条件是序列依赖性的,在不同情形中是不同。例如,较长的片段可能需要比短片段更高的杂交温度以进行特异杂交。虽然其它因素,包括碱基组成和互补链长度、有机溶剂的存在以及碱基错配程度,可能影响杂交的严紧度,参数的组合比任何单独一个参数的绝对度量更重要。通常,严紧条件是在限定的离子强度和pH下,选择比特异序列的Tm低大约5℃的温度。例示性的严紧条件包括至少0.01M到不超过1M钠离子浓度(或其它盐)的盐浓度,pH大约7.0到大约8.3,温度至少25℃。例如,5x SSPE(750mM NaCl、50mM磷酸钠、5mM EDTA,pH7.4)和30℃的条件适合等位特异探针杂交。严紧条件的其它实例是本领域已知的,参见例如Sambrook J等(2001),MolecularCloning,A Laboratory Manual,(3rd Ed.,Cold Spring Harbor Laboratory Press。
名词“Tm”用于本文通常是指半数的双链核酸分子解离成单链的温度。计算核酸的Tm的公式是本领域公知的。正如标准参考文献指出的,当核酸处于阳离子浓度为0.5M或更低的水溶液中,(G+C)含量在30%和70%之间,可以通过公式Tm=81.5+16.6(log10[Na+])0.41(%[G+C])-675/n-1.0m简单估计Tm值,n是碱基数,m是错配碱基对(参见例如,Sambrook J等(2001),Molecular Cloning,A Laboratory Manual,(3rd Ed.,Cold Spring HarborLaboratory Press).其它参考文献包含更复杂的计算方法,这些方法在计算Tm时考虑到结构和序列特性(还可以参见,Anderson and Young(1985),Quantitative FilterHybridization,Nucleic Acid Hybridization,and Allawi and SantaLucia(1997),Biochemistry36:10581-94)。
在cPAL方法的一个实例中,如图23显示的文中称为“单一cPAL”,锚定探针2302与DNB2301的衔接头2308中的互补区杂交。锚定探针2302与直接挨着靶核酸2309的衔接头区域杂交,但在某些情况中,如图24图示并在以下进一步描述的,可以通过在锚定探针末端引入希望数量的简并碱基,将锚定探针设计成可以“伸进”靶核酸。区别标记的测序探针集合2305与靶核酸的互补区杂交,通常通过使用连接酶,邻近锚定探针杂交的测序探针连接形成探针连接产物。测序探针通常是包含两个部分的寡核苷酸的组或集合,即询问位点上的不同寡核苷酸,和其它位置上的所有可能碱基(或通用碱基);因此每个探针代表特定位置上的每个碱基类型。测序探针标记有可检测的标记,将每个测序探针与在该位置含有其它核苷酸的测序探针区别开。因此,在图23显示的实例中,邻近锚定探针2302杂交并与该锚定探针连接的测序探针2310将鉴定出靶核酸中离衔接头5个碱基的位置上的碱基是“G”。图23描绘的情形中,询问碱基离连接位点5个碱基,但是正如以下更充分描述的,询问碱基可以离连接位点“更近”,某些情况中就在连接点。一旦连接好,洗去未发生连接的锚定和测序探针,利用标记检测阵列上存在的连接产物。锚定探针和测序探针的多重杂交和连接循环可以用来鉴定出DNB中每个衔接头每侧的靶核酸的希望数量的碱基。锚定探针和测序探针的杂交可以顺序或者同时发生。碱基测定(base call)的忠实度部分依赖于连接酶的忠实度,如果在连接位点附近有错配,通常不会连接。
本发明还提供了在每个杂交-连接循环中使用两个或以上锚定探针的方法。图25显示了“带有突出的双重cPAL”方法的另外一个实例,其中第一锚定探针2502和第二锚定探针2505各自与衔接头的互补区杂交。在图25显示的实例中,第一锚定探针2502与衔接头2511的第一区域完全杂交,第二锚定探针2505与和第一锚定探针杂交位置相邻的第二衔接头区互补。第二锚定探针不与第一锚定探针相邻的末端同样包含简并碱基。这样,第二锚定探针能够与靶核酸2512中靠近衔接头2511的区域(“突出”部分)杂交。第二锚定探针通常太短,不能独自保持在双链体杂交状态,但与第一锚定探针连接后形成较长的锚定探针,在随后的方法中能够稳定杂交。正如以上对“单一cPAL”方法的讨论,测序探针集合2508与衔接头-锚定探针双链体杂交,并连接在连在一起的锚定探针的末端5’或3’碱基上,所述测序探针集合代表靶核酸检测位置上每个碱基类型并标记了可检测的标记能够将每个测序探针与在该位置含有其它核苷酸的测序探针区分开。在图25显示的实例中,测序探针被设计成询问碱基距离测序探针2514和连接的锚定探针2513之间的连接点5’端5个核苷酸。因为第二衔接头探针2505在其5’端有5个简并碱基,它达到靶核酸2512之内5个碱基处,允许测序探针询问从靶核酸2512和衔接头2511之间的交界处开始的整整10个碱基。
在以上描述的双重cPAL方法的实例的某些变化中,如果第一锚定探针结束得更靠近衔接头的末端,第二衔接头探针将成比例地更简并,因此有更大的可能性不仅与第一衔接头探针末端连接,还能与DNB上多个位点上的其它第二衔接头探针连接。为了防止这种连接假象,可以选择性地活化第二锚定探针以便其参与和第一锚定探针或者测序探针的连接。这种活化方法在下文有更详细的描述,包括比如选择性地修饰锚定探针的末端从而使它们只能够以相对衔接头特定的方向与特定锚定探针或测序探针连接。
与以上描述的双重cPAL方法类似,可以理解使用三种或更多种锚定探针的也被本发明所涵盖。
此外,测序反应可以在每个衔接头的一端或两端进行,例如测序反应可以是“单向的”,在衔接头的3’或5或者另一端进行检测;或者反应可以是“双向的”,其中在衔接头的3’和5’检测位置检测碱基。双向测序反应可以同时进行,即衔接头两侧的碱基同时被检测;或者以任何顺序依次进行。
多循环cPAL(不管是单一、双重、三重的等)将鉴定到与衔接头相邻的靶核酸区域中的多个碱基。简单来说,通过循环进行锚定探针杂交和酶促连接反应,并将设计用于检测不同位置之核苷酸的测序探针集合从衔接头和靶核酸的交界处移开,重复cPAL方法询问靶核酸中多个相邻碱基。在任何给定循环中,所用的测序探针被设计成一个或多个位置上的一个或多个碱基的身份与附着在该测序探针上的标记的身份呼应。连接的测序探针(以及询问位点处的碱基)一旦被检测到,连接复合体即被剥离DNB,并进行新一轮衔接头和测序探针的杂交和连接。
可以理解,除了以上描述的cPAL方法,本发明的DNBs可以用于其它测序方法,包括其它连接法测序的方法以及其它测序方法,包括但不限于杂交法测序、合成法测序(包括引物延伸法测序)、可切割探针连接法链式测序(chained sequencing by ligation ofcleavable probes)等。
与以上描述的类似的测序方法还可以用于检测靶核酸中的特异序列,包括检测单核苷酸多态性(SNPs)。这类方法中,将采用能够与特定序列(比如含有SNP的序列)杂交的测序探针。所述测序探针可以区别标记以鉴定靶核酸中存在哪个SNP。还可以将锚定探针与这类测序探针组合使用提供更高的稳定性和特异性。
在本发明的测序方法中使用的靶核酸包含具有多个检测位置的靶序列。术语“检测位置”指靶核酸中希望获得其序列信息的位置。正如本领域技术人员可以理解的,通常靶序列含有多个需要其序列信息的检测位置,例如象文中描述的全部基因组的测序。某些情况中,例如在SNP分析中,可能希望仅读取特定区域中的单个SNP。
如上文所讨论的,本发明提供了组合使用锚定探针和测序探针的测序方法。文中使用的“测序探针”是指设计用于提供靶核酸特定检测位置上的核苷酸身份的寡核苷酸。测序探针与靶序列内的结构域杂交,例如第一测序探针可能与第一靶结构域杂交,第二测序探针与第二靶结构域杂交。名词“第一靶结构域”和“第二靶结构域”或文中的语法等同体意味着接受检验的核酸内靶序列的两个部分。第一靶结构域可能与第二靶结构域之间相邻,或者第一和第二靶结构域被插入的序列(例如衔接头)隔开。名词“第一”和“第二”并非希望传达序列就靶序列的5’-3’方向而言的方向。例如,假设互补靶序列是5'-3'方向,第一靶结构域可能位于第二结构域的5’方向,或者第二结构域的3’方向。测序探针可以重叠,例如第一测序探针可以与衔接头一个末端相邻的最开始的6个碱基杂交,第二测序探针可以与从衔接头末端开始的第3到第9个碱基杂交(例如当锚定探针有三个简并碱基)。替代地,第一测序探针可以与衔接头“上游”末端相邻的6个碱基杂交,第二测序探针可以与衔接头“下游”末端相邻的6个碱基杂交。
测序探针一般会包含许多简并碱基和位于探针内特定位置上的特异核苷酸以便查询检测位置(文中又称为“询问位点”)。
一般来说,当利用简并碱基时,使用测序探针集合。就是说,具有序列“NNNANN”的探针实际上是一组含有5个位点上4种核苷酸碱基的所有可能组合,并且在第6个位点上是腺嘌呤的探针(即,1024种序列)。(如文中指出的,该技术还可以用于衔接头探针:例如,当衔接头探针含有“三个简并碱基”,它实际上是这样一组衔接头探针,其包含与锚定位点对应的序列和3个位点上的所有可能组合,所以是64种探针的集合)。
在一些实施方案中,对于每个询问位点,可以将四个不同标记的集合合并到单个集合中,用于测序步骤。因此,在任何特定测序步骤中,使用4个集合,每个在询问位点带有不同的特异碱基,并有不同标记与询问位点的碱基对应。即,测序探针同样被标记,其中特定询问位点上的特定核苷酸所关联的标记与在相同询问位点带有不同核苷酸的测序探针的标记不同。例如,在一个步骤中可以使用四个集合:NNNANN-染料1、NNNTNN-染料2、NNNCNN-染料3和NNNGNN-染料4,只要这些染料是光学可分辨的。某些实施方案中,例如用于SNP检测,可能只需要包含两个集合,因为所述SNP只能是C或A等。类似的,某些SNPs包含三种可能。替代地,在某些实施方案中,如果反应是顺序而非同时进行的,可以使用同一染料,只是要在不同的步骤中:例如,可以在反应中单独使用NNNANN-染料1探针,检测到或者未检测到信号,洗去探针;任何引入第二个集合NNNTNN-染料1。
在本文描述的任何一种测序方法中,测序探针可以有多变的长度,包括大约3到大约25个碱基。其它实施方案中,测序探针的程度可能在大约5到大约20、大约6到大约18、大约7到大约16、大约8到大约14、大约9到大约12和大约10到大约11个碱基的范围内。
本发明的测序探针被设计成与靶序列中的序列互补,并且一般是完全互补,使得能够发生部分靶序列和发明所述探针的杂交。具体来说,询问位点碱基和检测位点碱基完全互补是非常重要的,除非它们的确完全互补本发明的方法不会产生信号。
许多实施方案中,测序探针和它们所杂交的靶序列是完全互补的;即,试验在如本领域已知的有利于形成完全碱基配对的条件下进行。本领域技术人员可以理解,与靶序列第一结构域完全互补的测序探针只能与相同靶序列的第二结构域基本互补;即本发明许多情况中依赖于使用一组探针,例如一组与某些靶序列完全互补,而不与其它互补的六聚体。
在一些实施方案中,取决于具体应用,序列探针和靶序列之间的互补性不需要是完美的;可以有任意数量的可能干扰靶序列和发明所述单链核酸之间杂交的碱基对错配。但是,如果错配数量太高,即使在最不严紧的杂交条件下都不能发生杂交,该序列不与靶序列互补。因此,文中的“基本互补”意味着测序探针与靶序列的互补程度足够在正常的反应条件下发生杂交。但对于多数应用来说,只有存在完全互补,条件才设定为有利于探针杂交的。替代地,要有足够的互补性以便连接酶反应发生,即序列的某些部分可能有错配,但询问位点的碱基应当在只有该位点存在完全互补,才允许连接发生。
某些情况中,本发明的探针在简并碱基之外或者代替简并碱基,还可以使用与一个以上碱基杂交的通用碱基。例如,可以使用肌苷。可以采用这些系统和探针成分的任意组合。
用于本发明的方法中的测序探针通常带有可检测的标记。文中的“标记”、“带有标记”意味着化合物至少附着了一种元素(element)、同位素或化学物质从而能够对化合物进行检测。一般来说,用于本发明的标记包括但不限于同位素标记,可以是放射性或者重金属同位素、磁性标记、电子标记、热敏标记、显色和发光染料、酶和磁球等。用于发明的染料可以是生色团、磷或荧光染料,因为它们产生的信号强烈,可以提供良好的信噪比用于解码。测序探针还可以用量子点、荧光纳米珠或其它包含一个以上相同荧光团分子的结构。包含相同荧光团的多个分子的标记通常能提供更强的信号,对淬火的敏感性低于包含单个荧光团分子的标记。此处关于包含荧光团的标记的任何讨论应当理解为适用于包含单个或多个荧光团分子的标记。
本发明的许多实施方案中涉及使用荧光标记。适用于本发明的染料包括,但不限于荧光稀土(包括铕和铽的)配合物、荧光素、罗丹明、四甲基罗丹明、伊红、赤藓红、香豆素、甲基香豆素、芘、孔雀石绿(Malacite green)、茋类(stilbene)、萤光黄(Lucifer Yellow),Cascade BlueTM、Texas Red和第6版Molecular Probes Handbook by Richard P.Haugland中描述的其它染料,为了所有目的,特别是关于符合本发明的标记使用的全部教导,该文献通过引用明确全文并入本文。用于与任何核苷酸使用引入核酸的商品荧光染料包括,但不限于:Cy3&Cy5(Amersham Biosciences,Piscataway,New Jersey,USA)、荧光素、四甲基罗丹明、Texas Red、Cascade Blue、BODIPYFL-14、BODIPYR、BODIPYTR-14、Rhodamine GreenTM、Oregon Green488、BODIPY630/650、BODIPY650/665-、AlexaFluor488、Alexa Fluor532、Alexa Fluor568、Alexa Fluor594、Alexa Fluor546(Molecular Probes,Inc.Eugene,OR,USA)、Quasar570、Quasar670、Cal Red610(BioSearch Technologies,Novato,Ca)。其它可供合成后附着的荧光团包括,Alexa Fluor350、Alexa Fluor532、Alexa Fluor546、Alexa Fluor568、Alexa Fluor594、Alexa Fluor647、BODIPY493/503、BODIPY FL、BODIPY R6G、BODIPY530/550、BODIPY TMR、BODIPY558/568、BODIPY558/568、BODIPY564/570、BODIPY576/589、BODIPY581/591、BODIPY630/650、BODIPY650/665、Cascade Blue、Cascade Yellow、Dansyl、丽斯胺罗丹明(lissamine rhodamine)B、Marina Blue、Oregon Green488、Oregon Green514、PacificBlue、罗丹明6G、罗丹明绿、罗丹明红、四甲基罗丹明、Texas Red(可从Molecular Probes,Inc.,Eugene,OR,USA购买)以及Cy2、Cy3.5、Cy5.5和Cy7(Amersham Biosciences,Piscataway,NJ USA,and others)等等。某些实施方案中,包括荧光素、Cy3、Texas Red、Cy5、Quasar570、Quasar670和Cal Red610的标记被用于本发明的方法中。
可以利用本领域已知的方法将标记附着到核酸上形成本发明的标记测序探针,以及附着到核苷上的各种位置。例如,附着可以在核酸的一个或两个末端,或者在内部位置或者两种情况都有。例如,在一个实施方案中,标记可以通过酰胺或胺键附着到核糖-磷酸骨架中核糖的2’或3’位置(后一种情况用于末端标记)。还可以经由核糖-磷酸骨架中的磷酸来进行附着,或者附着到核苷酸的碱基上。标记可以附着到探针的一个或两个末端,或者沿着探针上的任何一个核苷酸上。
根据所希望的询问位点,测序探针的结构有所不同。例如,对于标记了荧光团的测序探针,每个测序探针中的一个位点将与标记探针使用的荧光团的身份呼应。一般来说,荧光团分子会被附着到测序探针中将与锚定探针连接的末端相反的一端。
文中使用的“锚定探针”意味着被设计成与衔接头的至少一部分(文中称为“锚定位点”)互补的寡核苷酸。如文中所述,衔接头可以含有多个锚定位点与多个锚定探针杂交。正如文中进一步讨论的,用于本发明的锚定探针可以设计成与衔接头杂交,从而使锚定探针的至少一端与衔接头一个末端齐平(“上游”或“下游”或者这两者)。其它实施方案中,锚定探针可以设计成与衔接头的至少一部分(第一衔接头位点)和邻接衔接头的靶核酸中的至少一个核苷酸(“突出”)杂交。如图24所示,锚定探针2402包含与衔接头的一部分互补的序列。锚定探针2402在一个末端也包含4个简并碱基。这一简并性允许锚定探针群体的一部分与邻接衔接头的靶核酸序列完全或部分匹配,并允许锚定探针与衔接头杂交并伸进与衔接头邻接的靶核酸,而无论与衔接头邻接的靶核酸的核苷酸身份为何。锚定探针末端碱基移到靶核酸内使得待测定的碱基位点更靠近连接位点,从而保持了连接酶的忠实性。一般来说,如果探针与其杂交的靶核酸区域完全互补,连接酶能够更高效地连接探针,但是连接酶的忠实度随着离开连接位点的距离增加而下降。因此,为了减少和/或防止测序探针和靶核酸之间不正确配对造成的错误,保持待检测核苷酸与测序和锚定探针的连接位点之间的距离可能是有用的。通过设计使锚定探针伸进靶核酸,可以保持连接酶的忠实度,但仍然能够鉴定到更多数量的与每个衔接头连接的核苷酸。虽然图24显示的实施例是测序探针与衔接头一侧的靶核酸区域杂交,可以理解测序探针杂交到衔接头另一侧的实施方案也涵盖在本发明中。在图24中,“N”代表简并碱基,“B”代表未测定序列的核苷酸。正如可以理解的,在某些实施方案中,可以使用通用碱基而非简并碱基。
本发明的锚定探针可以包含使得锚定探针能与DNB,通常是DNB上的衔接头杂交的任何序列。这类锚定探针可能包含这样的序列,当锚定探针与衔接头杂交时,锚定探针的全部长度包含在衔接头中。某些实施方案中,锚定探针可以包含与衔接头的至少一部分互补的序列,还包含能够与邻接衔接头的靶核酸杂交的简并碱基。某些例示性实施方案中,锚定探针是包含3个与衔接头互补的碱基和3个简并碱基的六聚体。某些例示性实施方案中,锚定探针是包含3个与衔接头互补的碱基和5个简并碱基的8聚体。其它实施方案中,特别是使用了多种锚定探针时,第一锚定探针在一端包含多个与衔接头互补的碱基,另一端包含简并碱基,而第二锚定探针包含的全部是简并碱基,被设计成与第一锚定探针包含简并碱基的一端相连接。可以理解,这些是例示性的实施方案,已知和简并碱基的多种组合可以用于产生适合本发明使用的锚定探针。
某些方面中,本发明的连接法测序方法包括提供不同组合的锚定探针和测序探针,这两种探针当杂交到DNB上相邻区域时,可以连接形成探针连接产物。然后检测探针连接产物,可以提供靶核酸中的一或多个核苷酸的身份。文中使用的“连接”是指将两个或多个核苷酸相互连在一起的任何方法。连接可以包括化学和酶法连接。一般来说,文中讨论的连接法测序方法利用连接酶进行酶法连接。发明中使用的这类连接酶可以和以上讨论的用于形成核酸模板的连接酶相同或不同。这类连接酶包括但不限于DNA连接酶I、DNA连接酶II、DNA连接酶III、DNA连接酶IV、大肠杆菌DNA连接酶、T4DNA连接酶、T4RNA连接酶1、T4RNA连接酶2、T7连接酶、T3DNA连接酶和热稳定连接酶(包括但不限于Taq连接酶)等。正如以上讨论的,连接法测序方法经常依赖连接酶的忠实度,只将和它们所杂交的核酸完全互补的探针连接起来。这一忠实度随着探针中特定位点上的碱基和两个探针之间的连接点的距离的增加而下降。因此,常规的连接法测序方法只能鉴定到有限数量的碱基。正如文中进一步描述的,本发明采用多个探针集合来提高可以鉴定的碱基数量。
多种杂交条件可以用于连接法测序方法和文中讨论的其它测序方法。这些条件包括高、中等和低严紧度条件,参见通过引用并入本文的例如Maniatis等,MolecularCloning:A Laboratory Manual,2d Edition,1989,和Short Protocols in MolecularBiology,ed.Ausubel,等。严紧条件是序列依赖性的,并且在不同情形中是不同的。较长的序列在较高温度特异杂交。关于核酸杂交的全面指南可见于Tijssen,Techniques inBiochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes,"Overview of principles of hybridization and the strategy of nucleic acidassays,"(1993)。通常,严紧条件选择比特异序列在限定离子强度和pH的熔点(Tm)低大约5-10℃。Tm是平衡时,与靶互补的探针有50%杂交到靶序列时的温度(限定离子强度、pH和核酸浓度下)(因为存在着过量的靶序列,在Tm,50%的探针在平衡时被占据)。严紧条件可以是这样一些条件,其中盐浓度低于大约1.0M钠离子,一般是大约0.01到1.0M钠离子浓度(或其它盐),pH7.0到8.3,温度对于短的探针(例如,10到50个核苷酸)是至少大约30℃,对于长探针(例如,超过50个核苷酸)是至少大约60℃。严紧条件还可以通过加入诸如甲酰胺的螺旋去稳定剂来达到。如本领域已知的,当使用非离子型骨架,即PNA时,杂交条件也可能发生变化。此外,可以在靶结合后,加入交联剂来将杂交复合体的两条链交联,即共价附着。
对于本领域已知的和文中描述的利用本发明的核酸(包括LFR等分试样片段和DNB)进行的任何测序方法,本发明提供了确定靶核酸中至少大约10到大约200个碱基的方法。其它实施方案中,本发明提供了确定靶核酸中至少约20到约180、约30到约160、约40到约140、约50到约120、约60到约100和约70到约80个碱基的方法。还有一些实施方案中,测序方法被用于鉴定邻接发明所述核酸模板中的每个衔接头的一端或两端的至少5、10、15、20、25、30或更多碱基。
本文描述的和本领域已知的任何测序方法都可以应用到处于溶液中或者在表面上和/或阵列中的核酸。
III.B1(a).单一cPAL
本发明一个方面提供了通过利用测序探针和锚定探针的组合来鉴定DNBs的序列的方法,其中所述测序和锚定探针杂交到DNB的相邻区域,并通常通过使用连接酶连接在一起。这种方法文中一般称为cPAL(复合探针-锚定分子连接)法。一个方面中,本发明的cPAL法产生包含单一锚定探针和单一测序探针的探针连接产物。只使用单一锚定探针的cPAL方法在文中称为“单一cPAL”。
图23显示了单一cPAL的一个实施方案。DNB的单体单元2301包含靶核酸2309和衔接头2308。锚定探针2302与衔接头2308上的互补区域杂交。在图23显示的实例中,锚定探针2302与直接邻接靶核酸2309的衔接头区域杂交,虽然如文中进一步讨论的,也可以通过在锚定探针末端引入需要数量的简并碱基,将锚定探针设计成可以伸进邻接衔接头的靶核酸内。区别标记的测序探针集合2306与靶核酸中的互补区域杂交。邻接锚定探针2302,与靶核酸2309的区域杂交的测序探针2310与锚定探针连接形成探针连接产物。当探针中询问位点的碱基与靶核酸的检测位点中的未知碱基互补时,杂交和连接的效率增加。这一增加的效率有利于完全互补的(而不是含有错配的)测序探针和锚定探针连接。如上文讨论过的,连接通常是利用连接酶经酶促实现的,但也可以使用适合本发明的其它连接方法。图23中,“N”代表简并碱基,“B”蛋白未确定序列的核苷酸。可以理解,某些实施方案中,可以使用通用碱基代替简并碱基。
正如上文还讨论过的,测序探针可以是代表特定位点上各种碱基类型并标记来可检测标记的寡核苷酸,其中所述标记可以将每种测序探针与在该位置上带有其它核苷酸的测序探针区分开。因此,在图23显示的实例中,邻接锚定探针2302杂交并被连接到该锚定探针上的测序探针2310鉴定出靶核酸中离衔接头5个碱基的位点上的碱基是“G”。可以利用多个循环的锚定探针和测序探针杂交和连接来鉴定出DNB中每个衔接头每侧的靶核酸中希望数量的碱基。
可以理解,文中描述的任何cPAL方法中的锚定探针和测序探针的杂交可以是顺序的或同时的。
在图23显示的实施方案中,测序探针2310杂交到衔接头“上游”区域,但可以理解,所述测序探针也可以与衔接头“下游”杂交。名词“上游”和“下游”是指取决于系统的方向,在衔接头5’和3’方向的区域。一般来说,“上游”和“下游”是相对名词,不是限制性的;它们只是为了便于理解。如图6所示,测序探针607可以杂交到衔接头604下游,从而鉴定出距离衔接头和靶核酸603的交界处4个碱基的核苷酸。其它实施方案中,测序探针可以与衔接头上游和下游杂交来鉴定衔接头两侧的核酸位点上的核苷酸。这些实施方案允许单一cPAL方法中每个杂交-连接-检测循环,由每个衔接头产生多个信息点。
某些实施方案中,用于单一cPAL方法的探针可能含有对应衔接头的大约3到大约20个碱基,以及大约1到大约20个简并碱基(即,锚定探针集合中)。这些锚定探针还可以包含通用碱基,以及简并碱基和通用碱基的组合。
某些实施方案中,含有简并碱基的锚定探针,为了增加简并碱基完全匹配杂交的稳定性,可能与衔接头序列有大约1-5个错配。这样的设计提供了另一种方式来控制连接在一起的锚定和测序探针的稳定性,以便有利于那些与靶(未知)序列完全匹配的探针。其它实施方案中,锚定探针中简并碱基部分的多个碱基可以用脱碱基位点(即糖上没有碱基的位点)或其它核苷酸类似物代替来影响杂交探针的稳定性,从而有利于锚定探针简并部分的远端(如文中所述将参与和测序探针的连接反应)形成完全匹配杂交体。可以在内部的碱基,特别是包含大量(即5个以上)简并碱基的锚定探针的内部碱基引入这类修饰。此外,如下文进一步描述的,锚定探针远端的某些简并或通用碱基可以设计成杂交后可以切割(例如通过引入尿嘧啶)从而为测序探针或第二锚定探针产生连接位点。
其它实施方案中,可以通过操纵反应条件,例如杂交的严紧度来控制锚定探针的杂交。在例示性实施方案中,锚定杂交过程可以从高严紧度(较高的温度、较低盐浓度、较高pH、甲酰胺浓度较高等)条件开始,这些条件可以逐渐或逐步放松。这可能需要连续的杂交循环,其中不同锚定探针集合被移开,然后加入随后的循环中。这样的方法提供了更高百分比的靶核酸被完全互补的锚定探针占据,特别是在将与测序探针连接的远端位点完全互补的锚定探针。还可以控制各严紧度条件下的杂交时间来获得更多数量的完全匹配杂交体。
III.B1(b).双重(及以上)cPAL
还在另一些实施方案中,本发明提供了每个杂交-连接循环中使用两种连接在一起的锚定探针的cPAL方法。参见例如美国专利申请60/992,485、61/026,337、61/035,914和61/061,134,这些文献通过引用全文,特别是实施例和权利要求并入本文。图25显示了“双重cPAL”方法的一个实例,其中第一锚定探针2502和第二锚定探针2505杂交至衔接头的互补区域;即第一锚定探针与第一锚定位点杂交,第二锚定探针与第二锚定位点杂交。在图25显示的实例中,第一锚定探针2502与衔接头2511的一个区域(第一锚定位点)完全互补,第二锚定探针2505与邻接第一锚定探针杂交位点的衔接头区域(第二锚定位点)互补。一般说来,第一和第二锚定位点是相邻的。
第二锚定探针任选在不与第一锚定探针相邻的那个末端也包含简并碱基,因此它将与靶核酸2512中邻接衔接头2511的区域杂交。这使得能够获得离衔接头/靶交界处更远的靶核酸碱基的序列信息。同样,如文中概括的那样,说到探针含有“简并碱基”时,意味着该探针实际上包含一组探针,是简并位点所有可能序列的组合。例如,如果锚定探针长度为9个碱基,有6个已知碱基和3个简并碱基,则锚定探针实际上是64种探针的集合。
第二锚定探针通常太短,不能单独维持双链体杂交状态,但是在与第一锚定探针连接后,形成较长的在随后的方法中稳定的锚定探针。某些实施方案中,第二锚定探针含有与衔接头互补的大约1到大约5个碱基和大约5到大约10个简并序列的碱基。正如以上“单一cPAL”方法中讨论过的,代表靶核酸检测位点的每个碱基类型并标记了可检测标记(能将每个测序探针与在该位点带有其它核苷酸的测序探针区分开)的测序探针集合2508与衔接头-锚定探针双链体杂交2509,并连接到相连的锚定探针的末端5’或3’碱基上。在图25所示的实例中,测序探针被设计成询问距离测序探针2514和相连的锚定探针2513之间的连接点5’方向5个位点的碱基。因为第二锚定探针2505在其5’端有5个简并碱基,它向靶核酸2512伸进5个碱基,允许测序探针在距离靶核酸2512和衔接头2511之间的交界处整整10个碱基的地方进行询问。图25中“N”代表简并碱基,“B”代表未确定序列的核苷酸。可以理解,某些实施方案中,可以使用通用碱基代替简并碱基。
在某些实施方案中,第二锚定探针可能含有与衔接头对应的大约5-10个碱基和与靶核酸对应的一般是简并碱基的大约5-15个碱基。该第二锚定探针可能首先在最佳条件下进行杂交,从而有利于高百分比的靶序列在两种锚定探针连接点周围的少数碱基上是完全匹配杂交的。第一衔接头探针和/或测序探针可以在单一步骤中或顺序地杂交并连接至第二锚定探针。某些实施方案中,第一和第二锚定探针可能在它们的连接点有大约5到大约50个互补碱基不与衔接头互补,因此形成“分支”杂交体。这种设计允许杂交的第二锚定探针的衔接头特异性稳定。某些实施方案中,第二锚定探针在与第一锚定探针杂交前先连接到测序探针上;某些实施方案中,第二锚定探针在与测序探针杂交前,先连接到第一锚定探针上;某些实施方案中,第一和第二锚定探针以及测序探针同时杂交,第一和第二锚定探针之间以及第二锚定探针和测序探针之间同时或基本同时发生连接,而在其它实施方案中,第一和第二锚定探针之间的以及第二锚定探针和测序探针之间的连接以任何顺序依次发生。可以利用严紧清洗条件来除去未发生连接的探针(例如,温度、pH、盐、含有最佳浓度的甲酰胺的缓冲液都可以使用,其中的最佳条件和/或浓度利用本领域已知方法确定)。这种方法在使用带有大量简并碱基的第二锚定探针的方法中尤其有用,其中所述简并碱基在锚定探针和靶核酸之间的相应交接点以外杂交。
特定实施方案中,双重cPAL方法利用两种锚定探针的连接,其中一个锚定探针与衔接头完全互补,第二个锚定探针全部是简并碱基(同样,实际上是探针集合)。图26显示了这类双重cPAL方法的一个实例,其中第一锚定探针2602与DNB2601的衔接头2611杂交。第二锚定探针2605全部是简并碱基,因此能够与邻接衔接头2611的靶核酸区域中的未知核苷酸杂交。第二锚定探针被设计成短得无法单独维持在双链体杂交状态,但在与第一锚定探针连接后形成较长的相连锚定探针构建体,提供了cPAL过程中后续步骤需要的稳定性。完全简并的第二锚定探针在某些实施方案中可以长大约5到大约20个碱基。为了较长的长度(即,10个碱基以上),可以对杂交和连接条件进行改动以降低简并锚定探针的有效Tm。较短的第二锚定探针通常会与靶核酸和衔接头非特异性地结合,但它的较短长度影响杂交动力学,因此一般来说只有那些与邻接衔接头和第一锚定探针的区域完全互补的第二锚定探针有能力使连接酶将第一和第二锚定探针连在一起,产生较长的相连锚定探针构建体。非特异杂交的第二锚定探针没有能力与DNB杂交足够长的时间以便随后与任何相邻杂交的测序探针发生连接。某些实施方案中,第二和第一锚定探针连接后,通常通过清洗步骤除去任何没有连接的锚定探针。图26中,“N”代表简并碱基,“B”代表未确定序列的核苷酸。可以理解,在某些实施方案中,可以使用通用碱基代替简并碱基。
其它例示性实施方案中,第一锚定探针是包含3个与衔接头互补的碱基和3个简并碱基的六聚体,而第二锚定探针仅包含简并碱基,并且第一和第二锚定探针被设计成只有第一锚定探针带有简并碱基的末端能够与第二锚定探针连接。其它例示性实施方案中,第一锚定探针是包含3个与衔接头互补的碱基和5个简并碱基的8聚体,同样第一和第二锚定探针被设计成第一锚定探针只有带有简并碱基的末端能够与第二锚定探针连接。可以理解,这些是例示性实施方案,已知的和简并碱基的许多种组合可以用在第一和第二(某些实施方案中,第三和/或第四)锚定探针的设计中。
在上述双重cPAL方法的实例的改进方法中,如果第一锚定探针结束在更靠近衔接头的末端处,第二锚定探针将成比例地含有更多简并碱基,因此更有可能不仅与第一锚定探针末端连接,还会与DNB上多个位点的其它第二锚定探针连接。为了防止这类连接假象,可以选择性地活化第二锚定探针使它限于与第一锚定探针或测序探针的连接。这类活化包括选择性地修饰锚定探针的末端,使它们只能与相对衔接头特定方向的特定锚定探针或测序探针连接。例如,可以给第二锚定探针引入5’和3’磷酸基团,这样被修饰的第二锚定探针能够与杂交到衔接头上的第一锚定探针的3’端连接,但两个第二锚定探针不能相互连接(因为3’末端被磷酸化,将阻止酶促连接)。一旦第一和第二锚定探针连在一起来,可以通过除去3’磷酸基团(例如用T4多核苷酸激酶或者诸如虾碱性磷酸酶和小牛肠磷酸酶的磷酸酶)来活化第二锚定探针的3’端。
如果希望连接发生在第二锚定探针的3’端和第一锚定探针的5’端,可以设计和/或修饰第一锚定探针使其5’端被磷酸化,设计和/或修饰第二锚定探针使其不带有5’或3’磷酸。同样,第二锚定探针将能够与第一锚定探针连接,但不能与其它第二锚定探针连接。第一和第二锚定探针连接之后,可以在第二锚定探针的自由末端上引入5’磷酸基团(例如,通过使用T4多核苷酸激酶)使它可用于在cPAL过程的随后步骤中与测序探针连接。
某些实施方案中,两种锚定探针被同时加到DNBs。某些实施方案中,两种锚定探针是顺序加给DNBs,允许一种锚定探针在另一种之前与DNBs杂交。某些实施方案中,在第二衔接头与测序探针连接之前,两种锚定探针先相互连接。某些实施方案中,锚定探针和测序探针在一个步骤中连接。两种锚定探针和测序探针是在一个步骤中连接的实施方案中,可以将第二衔接头设计成有足够的稳定性维持其位置,直至三种探针(两种锚定探针和测序探针)就位进行连接。例如,可以使用包含5个与衔接头互补的碱基和5个用于与邻接衔接头的靶核酸区域杂交的简并碱基的第二锚定探针。这样的第二锚定探针可能有足够的稳定性在低严紧洗涤时维持,因此在第二锚定探针杂交和测序探针杂交步骤之间不需要连接步骤。在随后的测序探针与第二锚定探针的连接步骤中,第二锚定探针也将连接到第一锚定探针上,产生的双链体稳定性高于单独的任何一种锚定探针或测序探针。
与以上描述的双重cPAL方法类似,可以理解,有三种或更多种锚定探针的cPAL也涵盖在本发明中。这些锚定探针可以按照本文描述的和本领域已知的方法设计成在与衔接头区域杂交时,其中一种锚定探针的一个末端可以与邻接末端锚定探针杂交的测序探针连接。例示性实施方案中,提供了三种锚定探针—两种与衔接头内的不同序列互补,第三种包含简并碱基与靶核酸内的序列杂交。其它实施方案中,与衔接头内的序列互补的两种锚定探针之一其末端还可以包含一或多个简并碱基,以便该锚定探针伸进靶核酸内与第三锚定探针连接。其它实施方案中,锚定探针中的一种可能与衔接头完全或部分互补,第二和第三锚定探针完全是简并碱基用于与靶核酸杂交。其它实施方案中,四个或多个完全简并的锚定探针可以与三个相连的锚定探针顺序连接,从而使测定进一步延伸进靶核酸序列内。在例示性实施方案中,包含与衔接头互补的12个碱基的第一锚定探针可以与第二六聚体锚定探针连接,所述六聚体锚定探针中的6个碱基全部是简并碱基。同样是完全简并的六聚体的第三锚定分子也可以与第二锚定探针连接,进一步伸进靶核酸未知序列内。还可以加入第四、第五、第六等锚定探针以便进一步延伸进未知序列内。还在另一些实施方案中,根据本文描述的任何cPAL方法,一种或多种锚定探针可以包含一种或多种标记,所述标记用于给锚定探针做“标签”和/或用于鉴定DNB的衔接头上杂交的特定锚定探针。
III.B1(c).检测荧光标记的测序探针
正如以上讨论的,可以用各种标记将用于本发明的测序探针可检测地标记。虽然以下描述主要是针对测序探针以荧光团标记的实施方案,可以理解,使用了包含其它类型标记的测序探针的类似实施方案也涵盖在本发明中。
多个循环的cPAL(无论是单一、双重、三重等)将鉴定到邻接衔接头的靶核酸区域内的多个碱基。简单来说,通过循环进行锚定探针杂交和酶促连接反应,并从衔接头和靶核酸的交界处移走测序探针集合(设计用于检测不同位点的核苷酸)来重复进行cPAL方法以便询问靶核酸内的多个碱基。任何给定循环中,使用的测序探针被设计成一或多个位点上的一或多个碱基的身份与附着在该测序探针上的标记的身份呼应。一旦对发生连接的测序探针(以及因此询问位点的碱基)进行了检测,连接复合体即被剥离DNB,执行新一轮的衔接头和测序探针杂交和连接。
一般来说,通常使用四个荧光团来鉴定测序探针内询问位点上的碱基,每个杂交-连接-检测循环查询一个碱基。但是,可以理解,使用8、16、20和24或更多种荧光团的实施方案也涵盖在本发明内。增加荧光团的数量将增加任意一个循环中可以鉴定的碱基的数量。
一个例示性实施方案中,采用了具有以下结构的一组7聚体测序探针集合:
3’-F1-NNNNNNAp
3’-F2-NNNNNNGp
3’-F3-NNNNNNCp
3’-F4-NNNNNNTp
其中的“p”代表可供连接的磷酸,“N”代表简并碱基。F1-F4代表四种不同的荧光团–因此每种荧光团与特定的碱基相关联。这组例示性探针在测序探针与杂交到衔接头的锚定探针连接后,能够检测出紧邻衔接头的碱基。就用于连接测序探针和锚定探针的连接酶能够区别探针询问位点的碱基和靶核酸检测位点的碱基之间的互补性而言,测序探针杂交和连接时将检测到的荧光信号提供了靶核酸检测位点的碱基身份。
某些实施方案中,一组测序探针将包含三种区别标记的测序探针,留下第四种任选的测序探针未标记。
进行杂交-连接-检测循环后,将锚定探针-测序探针连接产物剥离,开始新的循环。某些实施方案中,可以获取距离锚定探针和测序探针之间的连接点6个或更多个碱基,以及距离靶核酸和衔接头之间的交界处12个或更多个碱基的准确序列信息。利用本文描述的方法,包括使用带有简并末端能够进一步伸进靶核酸内的锚定探针,可以增加能够被鉴定的碱基数量。
可以利用本领域已知的方法,包括利用诸如Metamorph(Molecular Devices,Sunnyvale,CA)的商品成像软件包来进行图像获取。数据提取可以通过一系列以例如C/C++写的二进制文件进行,碱基测定和测定-做图可以通过一系列Matlab和Perl script进行。
在例示性实施方案中,排列在表面上的DNBs如文中所述经历一轮cPAL,其中使用的测序探针标记了四种不同荧光团(每种对应探针内询问位点上的特定碱基)。为了确定表面上排列的每个DNB的碱基的身份,每个视野(“相框”)用对应四种荧光标记的测序探针的四个波长成像。每个循环得到的所有图像存储在循环目录中,其中图像的数量是相框的四倍(使用四种荧光团时)。任何可以将循环图像数据存储到为下游数据加工组织的目录结构中。
某些实施方案中,数据提取依赖于两种类型的图像数据:亮视野图像来区分表面上的所有DNBs的位置,和每个测序循环中获取的多组荧光图像。可以利用数据提取软件以亮视野图像识别出所有对象,任何对于每个这种对象,利用软件计算每个测序循环的平均荧光值。对于任意给定循环,共有四个数据点,它们对应不同波长下摄取的四个图像来查询该碱基是否A、G、C或T。将这些原始数据点(文中又称为“碱基测定”)进行整理,给每个DNB产生不连续测序结果。
然后可以将鉴定到的碱基群组装以提供靶核酸的序列信息和/或鉴定靶核酸中是否存在某特定序列。某些实施方案中,通过由多个DNBs上进行的多个测序循环获得的重叠序列的比对,将鉴定到的碱基组装成完整序列。名词“完整序列”用于本文是指部分或整个基因组的序列以及部分或整个靶核酸的序列。在其它实施方案中,组装方法利用了可以将重叠序列“拼接”以提供完整序列。再一些实施方案中,利用参照表来协助将鉴定到的序列组装成完整序列。可以利用所选生物体的已有测序数据汇总成参照表。例如,人基因组数据可以从National Center for Biotechnology Information(ftp.ncbi.nih.gov/refseq/ release),或者J.Craig Venter Institute(http://www.jcvi.org/researchhuref/)获取。可以利用全部人基因组信息或其子集来制作特定测序查询的参照表。此外,可以由来源于特定群体的经验数据构建具体参照表,包括来自特定种族、地理传承、宗教或文化限定的人群体的基因序列,因为根据参照数据中含有的信息的来源,人基因组内的差异可能歪曲这些数据。
本文讨论的任何发明的实施方案中,核酸模板和/或DNBs群可以包含许多靶核酸从而基本覆盖整个基因组或整个靶多核苷酸。“基本覆盖”用于本文意味着被分析的核苷酸(即靶序列)的数量至少等同于两个拷贝的靶多核苷酸;或者在另一方面中,至少十个拷贝;或者在另一方面中,至少二十个拷贝;或者在另一方面中,至少100个拷贝。靶多核苷酸可以包括DNA片段(包括基因组DNA片段和cDNA片段)和RNA片段。可以在以下通过引用并入本文的文献中找到关于重构靶多核苷酸序列的步骤的指南:Lander等,Genomics,2:231-239(1988);Vingron等,J.Mol.Biol.,235:1-12(1994)及类似的参考文献。
III.B1(d).探针组
正如可以理解的,可以根据以上描述的各种cPAL方法,使用测序和锚定探针的不同组合。以下关于本发明中使用的探针组(文中还称为“探针集合”)的描述是例示性的实施方案,可以理解本发明并不局限于这些组合。
一方面,探针组被设计成鉴定离衔接头特定距离的位点上的核苷酸。例如,一定的探针组可以用于鉴定离衔接头最多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30和更多个位点的碱基。正如以上讨论过的,一端带有简并碱基的锚定探针可以设计成伸进与衔接头相邻的靶核酸内,允许测序探针连接到离衔接头更远的位置,从而提供离衔接头更远的碱基的身份。
在例示性实施方案中,一组探针包含至少两种被设计成与衔接头邻接区域杂交的锚定探针。一个实施方案中,第一锚定探针与衔接头区域完全互补,而第二锚定探针与衔接头邻接区域互补。某些实施方案中,第二锚定探针包含一个或多个简并核苷酸,这些核苷酸延伸并与衔接头相邻的靶核酸的核苷酸杂交。在例示性实施方案中,第二锚定探针包含至少1-10个简并碱基。其它例示性实施方案中,第二锚定探针包含2-9、3-8、4-7和5-6个简并碱基。再一些例示性实施方案中,第二锚定探针的一端或两端和/或其序列内部区域包含一个或多个简并碱基。
其它实施方案中,一组探针还可以包含一或多个测序探针群,用于确定靶核酸内一或多个检测位点上的碱基。在一个实施方案中。所述探针组包含足够的不同测序探针群,能够鉴定靶核酸内的大约1到大约20个位点。其它例示性实施方案中,所述探针组包含足够的测序探针群,能够鉴定靶核酸内的大约2到大约18、大约3到大约16、大约4到大约14、大约5到大约12、大约6到大约10和大约7到大约8个位点。
其它例示性实施方案中,按照本发明使用了10个标记了的或带标签的探针集合。再一些实施方案中,探针组包含两种或更多种序列不同的锚定探针。还有一些实施方案中,探针组包含3、4、5、6、7、8、9、10、11、12、13、14、15或更多种序列不同的锚定探针。
其它例示性实施方案中,提供的一组探针包含一或多个测序探针群和三种锚定探针。第一锚定探针与第一衔接头区域互补,第二锚定探针与第二衔接头区域互补,并且第一和第二衔接头区域是相邻的。第三锚定探针包含三个或更多个简并核苷酸,能够与邻接衔接头的靶核酸内的核苷酸杂交。第三锚定探针在某些实施方案中还可以与第三衔接头区域互补,所述第三区域可以与第二区域相邻,从而第二锚定探针侧接着第一和第三锚定探针。
某些实施方案中,锚定和/或测序探针组包含不同浓度的每种探针,并且该浓度部分取决于锚定探针中可能含有的简并碱基。例如,具有较低杂交稳定性的探针,比如有较多A和/或T的探针,可以相对浓度较高从而弥补它们的较低稳定性。在其它实施方案中,相对浓度的差别是通过独立制备小的探针集合,然后将这些独立制备的探针集合以合适的量混合来实现的。
III.B.1(e).两阶段测序
一方面,本发明提供了“两阶段”测序方法,文中又称为“鸟枪法测序”。这种方法在2008年12月1日提交的美国专利申请12/325,922中有描述,为了所有目的,特别是与两阶段或鸟枪测序有关的全部教导,该文献通过引用全文并入本文。
通常,用于本发明的两阶段-测序法包括以下步骤:(a)测定靶核酸序列,产生包含一或多个目标序列的初级靶核酸序列;(b)合成复数个靶特异的寡核苷酸,其中所述复数靶特异的寡核苷酸中的每个对应至少一个目标序列;(c)提供靶核酸片段库(或者包含这种片段并进一步包含例如文中描述的衔接子和其他序列的构建体),与复数个靶特异的寡核苷酸杂交;以及(d)测定片段库(或包含这种片段的构建体)的序列,产生次级靶核酸序列。为了填补丢失序列造成的缺口或者解决基因组DNA(比如人基因组DNA)初级序列中低可信度的碱基测定,合成用于这些方法的靶特异的寡核苷酸数量可以在大约1万到大约1百万,因此本发明考虑了使用至少大约10,000个靶特异的寡核苷酸,或者大约25,000、或大约50,000、或大约100,000、或大约20,000、或大约50,000、或大约100,000、或大约200,000或更多个靶特异的寡核苷酸。
说到复数个靶特异的寡核苷酸“对应”至少一个目标序列,意味着这种靶特异的寡核苷酸被设计成与接近,包括但不限于邻接目标序列的靶核酸杂交,这样很大的可能性与该寡核苷酸杂交的靶核酸片段将包含目标序列。因此所述靶特异的寡核苷酸可以用于杂交体捕获方法来产生富集了目标序列的片段库,作为给目标序列测序的测序引物,扩增目标序列的扩增引物或用于其他目的。
根据本发明的鸟枪法测序和其他测序方法,组装测定后,本领域技术人员容易理解,组装好的序列中存在缺口,或者序列特定位点上的一或多个碱基或一串碱基可信度较低。通过将初级靶核酸序列与参照序列进行比较,也可以鉴定到可能包含这类缺口、低可信度序列,或者只是特定位置上不同的序列(即靶序列中一或多个核苷酸的变化)的目标序列。
根据这些方法的一个实施方案,测定靶核酸序列产生初级靶核酸序列包括计算机处理的序列测定输入和计算机处理的序列测定组装来产生初级靶核酸序列。此外,设计靶特异寡核苷酸也可以计算机化,而且这种计算机化的靶特异寡核苷酸的合成可以与输入的计算机处理和序列测定的计算机组装以及靶特异寡核苷酸的设计合并在一起。由于待合成的靶特异寡核苷酸的数量对于高等生物体,比如人的基因组,可能在几万或几十万,这一点特别有用。因此发明可以自动集成由已确定序列和已鉴定区域产生寡核苷酸集合的过程以便进一步处理。某些实施方案中,计算机驱动程序利用已鉴定的区域和确定的序列来设计寡核苷酸用于分离和/或产生覆盖这些区域的新片段,其中所述确定的序列靠近或者邻接所述已鉴定区域。然后可以如本文所述用寡核苷酸从第一测序库、从第一测序库的前体、从由相同靶核酸产生的不同测序库、直接从靶核酸等分离片段。其他实施方案中,鉴定需进一步分析的区域和/或分离/产生第二文库的自动集成限定了寡核苷酸集合内的寡核苷酸序列并指导这些寡核苷酸的合成。
在本发明的两阶段测序方法的某些实施方案中,杂交体捕获过程后进行释放步骤,该技术的其他方面中,第二个测序过程前进行扩增步骤。
又一些实施方案中,鉴定步骤中通过比较已确定序列和参照序列鉴定到某些或者全部区域。某些方面中,第二鸟枪测序库是根据参照序列,利用包含寡核苷酸的寡核苷酸集合分离的。同样,某些方面中,所述寡核苷酸集合包含至少1000个序列不同的寡核苷酸,其他方面中,所述寡核苷酸集合包含至少10,000、25,000、50,000、75,000或100,000或更多个序列不同的寡核苷酸。
本发明的某些方面中,所述两阶段测序方法中采用的一或多个测序过程是通过连接法测序进行的;在其他方面中,一或多个测序过程是通过杂交法测序或合成法测序进行的。
发明的某些方面中,大约1到大约30%的复杂靶核酸被鉴定为需要在方法的阶段II中重新测序;其他方面中,大约1到大约10%的复杂靶核酸被鉴定为需要在方法的阶段II中重新测序。某些方面中,对于复杂靶核酸的鉴定百分比的覆盖度在大约25x到100x。
其他方面中,给每个在所述方法的阶段II中重新测序的靶核酸区域确定和合成1到大约10个靶特异的选择寡核苷酸;其他方面中,给每个在所述方法的阶段II中重新测序的靶核酸区域确定大约3到大约6个靶特异的选择寡核苷酸。
该技术的再一些方面中,通过自动程序确定和合成靶特异的选择寡核苷酸,其中鉴定复杂核酸中丢失核酸序列或者核酸序列可信度低的区域的过程以及确定靶特异的选择寡核苷酸的序列的过程与寡核苷酸合成软件和硬件进行交流,从而合成靶特异的选择寡核苷酸。该技术的其他方面中,靶特异的选择寡核苷酸长度在大约20到大约30个碱基,并且在某些方面中是未修饰的。
不是所有被鉴定要进行进一步分析的复杂靶核酸的区域实际上存在。某区域预期缺少覆盖度的一个原因可能是被预测存在于复杂靶核酸中的区域实际上并不存在(例如,所述区域可能在靶核酸中被删除或重排),因此不是所有集合产生的寡核苷酸可以分离到片段包含在第二个鸟枪测序库中。某些实施方案中,对于每个被鉴定要进行进一步分析的区域至少要设计和制备一个寡核苷酸。其他实施方案中,对于被鉴定要进行进一步分析的区域平均提供三个或更多个寡核苷酸。本发明的一个特点是寡核苷酸集合可以直接用于通过利用来源于靶核酸的模板,经聚合酶延伸所述寡核苷酸产生第二个鸟枪测序库。发明的另一个特点是寡核苷酸集合可以直接用于利用所述寡核苷酸集合经环依赖性复制产生复制子。发明的再一个特点是所述方法能够提供序列信息来鉴定缺少的目标区域,例如被鉴定做进一步分析但由于例如删除或重排而实际不存在的预测区域。
以上描述的两阶段测序方法的实施方案可以与本文描述的以及本领域已知的任何核酸构建体和测序方法组合使用。
III.B.1(f).SNP检测
以上讨论的方法和组合物在其他实施方案中可以用于检测诸如DNBs的核酸构建体中的特异序列。特别是使用测序和锚定探针的cPAL方法可以用于检测多态性或者与基因突变相关的序列,包括单核苷酸多态性(SNPs)。例如,为了检测是否存在SNP,可以使用两组区别标记的测序探针,这样检测到一种而非另一种探针表明样品中是否存在多态性。这种测序探针可以与类似于上述cPAL方法中的锚定探针联合使用,进一步提高SNP检测的特异性和效率。
IV.测定法
一个方面中,核酸(包括LFR等分试样片段和DNB)排列在表面上形成单个分子的随机阵列。核酸可以通过多种技术,包括共价连接和非共价附着被固定在表面上。非共价附接包括氢键合、范德华力、静电吸引等。
形成本发明的阵列的方法在公开的专利申请WO2007120208、WO2006073504、WO2007133831和US2007099208,以及美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/938,096、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214、11/451,692和11/451,691中有描述,为了所有目的,特别是与形成DNBs阵列有关的全部教导,这些文献全部通过引用并入本文。
在一些实施方案中,通过在标准硅片的表面上形成二氧化硅层来形成定型的基片。在二氧化硅上沉积金属(诸如钛)层,并用常规的光刻术和干蚀刻技术通过加框标给钛层定型。然后,可以通过蒸汽沉积将六甲基二硅氮烷(HMDS)(Gelest lnc,Mornsville,PA)层添加至基片表面,并通过离心力将深-UV、正色调光致抗蚀剂材料涂到表面上。然后,可以用248nm光刻工具以阵列样式暴露光致抗蚀剂材料,并形成抗蚀剂以产生具有暴露的HMDS的离散区域的阵列。可以除去穴中的HMDS层,在一些实施方案中用等离体-蚀刻方法进行,并可以在穴中蒸汽沉积功能性模块以提供核酸的附着位置。在某些实施方案中,这些功能性模块是氨基硅烷模块,其提供可以用于经由静电吸引来非共价固定核酸的正电荷。在一些实施方案中,可以在氨基硅烷模块沉积后用光致抗蚀剂层进一步包被表面,并切割成预定大小的基片。例如,在一些实施方案中,75mmx25mm面积的基片在本发明的各方面是有用的。在又一些实施方案中,可以使用本领域中已知的方法(包括超声处理)自个别基片剥去光致抗蚀剂材料。在又一些实施方案中,离散的氨基硅烷特征间的区域是惰性的,以阻止核酸结合离散区域间的空间。例如,定型到依照本文中所描述的实施方案的基片上的氨基硅烷特征充当核酸结合位点,而剩余的HMDS抑制剂特征间的核酸结合。在又一些实施方案中,以一系列平行线将聚苯乙烯珠和聚氨基甲酸酯胶的混合物应用于每个切成方块的基片,并将盖玻片压到管道线中以形成6道重力/毛细管驱动的流动载玻片。在某些实施方案中,聚苯乙烯珠是50μm珠。可以通过将核酸移液到载玻片上来将核酸加载到流动载玻片中。在某些实施方案中,将比载玻片上存在的结合位点的数目大数量的核酸应用到载玻片。在又一个例示性的实施方案中,对载玻片应用比结合位点多2-20倍的核酸单分子。在又一个实施方案中,对载玻片应用比结合位点多2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19和20倍的核酸单分子。
如应当领会的,可以将宽密度范围的本发明的核酸在包含离散区的表面上放置以形成阵列。一般地,通过本领域中已知的且在下文更为详细描述的多种方法来将核酸固定于离散区。在具体的实施方案中,经由非共价静电相互作用来将核酸固定于阵列上的离散区。
在优选的实施方案中,至少大多数离散区包含与其附接的单分子,并且离散区和/或单分子分布为使得固定于离散区的至少大多数单分子在光学上可解析。在又一些实施方案中,至少50%-100%的离散区具有与其附接的单分子。在又一些实施方案中,阵列上至少55%-95%、60%-90%、65%-85%、和70%-80%的离散区具有与其附接的单分子。在又一些实施方案中,阵列上至少60%,65%,70%,75%,80%,85%,90%,95%,96%,97%,98%和99%的离散区具有与其附接的单分子。
在又一些实施方案中,本发明的随机阵列上的至少50%-100%的单分子是光学可解析的。在又一些实施方案中,本发明的随机阵列上的至少55%-95%,60%-90%,65%-85%和70%-80%的单分子是光学可解析的。在又一些实施方案中,本发明的随机阵列上的至少60%,65%,70%,75%,80%,85%,90%,95%,96%,97%,98%和99%的单分子是光学可解析的。
在一些实施方案中,离散区的面积小于1μm2,且在一些实施方案中,离散区面积的范围为0.04μm2至1μm2,且在一些实施方案中,离散区面积的范围为0.2μm2至1μm2。在又一些实施方案中,离散区的面积是约0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1,1.5,2,2.5μm2。在离散区的形状为接近环形或正方形,从而其大小可以以单一线性尺寸指示的实施方案中,此类区域的大小范围为125nm至250nm,或者范围为200nm至500nm。在一些实施方案中,离散区的最近相邻的中心-与-中心距离范围为0.25μm至20μm,且在一些实施方案中,此类距离范围为1μm至10μm,或者范围为50至1000nm。在又一些实施方案中,离散区的最近相邻的中心-与-中心距离范围为约100-900,200-800,300-700,400-500nm。在又一些实施方案中,离散区的最近相邻的中心-与-中心距离范围为约650-750,660-740,650-730,660-720,670-710,680-700,700-710nm。在某些实施方案中,离散区的最近相邻的中心-与-中心距离是707nm。一般地,将离散区设计为使得表面上大多数离散区在光学上可解析。在一些实施方案中,可以以实质上任何样式在表面上排布区域,其中各区域具有限定的位置。如上文更为详细地描述的,在某些实施方案中,单核酸附接于表面上的至少大多数离散区之每个。
在一些实施方案中,本发明的阵列包含每立方微米1,2,3,4,5,6,7,8,9或10个单分子。
在一些实施方案中,以每立方毫米至少50,100,200,300,400,500,600,700,800,900或1000万个分子的密度提供核酸阵列。
在一些实施方案中,以如下的密度在本文中所描述的且本领域中已知的基片上随机布置核酸,使得每个离散区包含其固定的单核酸分子。在又一些实施方案中,以每立方微米100,200,500,750,1000,2000,3000,4000,5000,10,000,50,000,100,000,250,000,500,000,750,000,1,000,000个分子的密度在基片上布置核酸。
在一些实施方案中,表面可以具有与多核苷酸分子上的互补官能度起反应以形成共价连接的反应性官能度,例如经由用于将cDNA附接于微阵列的相同技术,例如Smirnov等(2004),Genes,Chromosomes&Cancer,40:72-77,Beaucage(2001),Current MedicinalChemistry,8:1213-1244(通过提及而将其收入本文)。也可以将核酸有效地附接于疏水性表面,诸如清洁的玻璃表面,其具有低浓度的各种反应性官能度,诸如-OH基团。经由多核苷酸分子与表面上的反应性官能度间形成的共价键的附接在本文中又称为化学附接。
在一方面,将表面上的核酸限制于离散区的面积。可以使用本领域中已知的且下文进一步描述的方法来将离散区并入表面中。如应当领会的,可以经由非特异性相互作用,或者经由非共价相互作用,诸如氢键合、范德华力、静电吸引等来将本发明的核酸固定于离散区。也可以经由使用捕捉探针或者经由与反应性官能度的共价相互作用来将核酸附接于离散区,如本领域中已知的及本文中更为详细地描述的。如应当领会的,附接还可以包括改变严格性以除去不完全附接的单分子或自较早制备步骤存在的其它试剂(其存在是不想要的或者其非特异性结合表面)的清洗步骤。
离散区可以在规则的阵列(其可以对应于直线样式、六边形样式等)中具有限定的位置。此类区域的规则阵列对于分析过程中自阵列收集的信号的检测和数据分析是有利的。此外,局限于离散区的受限面积的第一和/或第二阶段扩增子提供更浓缩的或强烈的信号,特别在分析操作中使用荧光探针时,由此提供更高的信噪比数值。在一些实施方案中,将核酸随机地分布于离散区上,使得给定的区域同等地有可能接受任何不同单一分子。换言之,所得的阵列在制作后不立即在空间上可寻址,但是可以通过实施鉴定、测序和/或译码操作来使得如此。因而,表面上分布的本发明的多核苷酸分子的身份可辨别,但是最初在其在表面上布置后不知道。在一些实施方案中,选择离散的面积及附接化学、所采用的大分子结构等,对应于本发明的单分子的大小,从而在对表面应用单分子时,实际上每个区域都被仅仅一个单分子占据。在一些实施方案中,将核酸以定型的方式在包含离散区的表面上布置,使得将特定的核酸(鉴定的,在一个例示性的实施方案中,通过标签衔接头或其它标志物)在特定的离散区或离散区的组上布置。
另外的实施方案中,分子被导向表面上的分立区域,因为分立区域之间的面积(文中称为“区域间面积”)是惰性的,因为多联体或其它大分子结构不与它们结合。某些实施方案中,可以用阻断剂,例如与多联体DNA无关的DNA、其它高分子等处理这种区域间面积。
有许多种支持物可以利用来与本发明的组合物和方法形成随机阵列。一个方面中,支持物是具有表面的刚性固体,优选基本上是平面区域,这样待询问的单分子处于同一平面。后一种特性允许通过例如检测光学进行有效的信号收集。另一方面,所述支持物包含珠子,这种情况中珠子表面含有可以用来固定多核苷酸分子的反应性功能团或捕获探针。
再一方面,本发明的固体支持物是无孔的,特别是当单分子随机阵列是通过杂交反应进行分析时,需要小体积。合适的固体支持物材料包括诸如玻璃、聚丙烯酰胺涂层的玻璃、陶瓷、硅石、硅、石英、各种塑料等的材料。一个方面中,平面区域的面积可以在0.5到4cm2的范围内。一个方面中,所述固体支持物是玻璃或石英,比如具有均匀硅烷化表面的显微镜载片。这可以使用常规试验方案来达到,例如酸处理后浸泡在80℃的3-缩水甘油醚氧丙基三甲氧基硅烷、N,N-二异丙基乙胺和无水二甲苯(8:1:24v/v)溶液中,形成环氧硅烷化的表面(例如Beattie et a(1995),Molecular Biotechnology,4:213)。这样的表面很容易经过处理被捕获寡核苷酸末端附着,例如通过在施加到表面前,给捕获寡核苷酸提供3’或5’三乙二醇磷酰间隔臂(参见以上引用的Beattie等)。将表面功能化和进一步准备以用于本发明的其它实施方案在例如美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/938,096、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214、11/451,692和11/451,691中有描述,为了所有目的,特别是与制备形成阵列的表面有关的全部教导以及与形成阵列、尤其是核酸阵列有关的全部教导,以上文献均通过引用全文并入本文。
在本发明中要求分立区域处于特定样式的实施方案中,可以利用光刻法、电子术光刻、纳米压印光刻和纳米印刷在多种表面上产生这类样式,例如Pirrung等,美国专利5,143,854、Fodor等,美国专利5,774,305、Guo,(2004)Journal of Physics D:AppliedPhysics,37:R123-141,这些文献通过引用并入本文。
一个方面中,含有复数个分立区域的表面是通过光刻法制造的。将商品光学平面的石英基片旋涂上100-500nm厚的光阻层。然后将光阻层烧到石英基片上。利用步进器,将带有待激活区域样式的标线图像投射到光阻层表面。曝光后,给光阻层显影,除去投射样式中暴露在UV源下的区域。这是通过等离子蚀刻,一种能够产生非常细微的细节的干式显影技术实现的。然后将基片烘烤来强化剩下的光阻层。烘烤后,石英晶片即可以进行功能化。然后将晶片经过3-氨基丙基二甲基乙氧基硅烷气相沉积。通过改变单体的浓度和基片的曝光时间,可以严格控制氨基功能化单体的密度。只有接受等离子蚀刻过程的石英区域可以与所述单体反应并捕获单体。然后基片再次被烘烤将单层的氨基功能化单体烤到暴露的石英上。烘烤后,用丙酮除去剩下的光阻剂。因为光阻剂和硅烷的附着化学特性的不同,基片上氨基硅烷功能化的面积在丙酮清洗过程中保持完整。可以通过与溶于吡啶和N-N-二甲基甲酰胺的溶液中的p-次亚苯基二异硫氰酸盐反应将这些面积进一步功能化。然后基片能够与胺修饰的寡核苷酸反应。替代地,可以用5’-羧基-改性剂-c10连接分子(Glen Research)将寡核苷酸准备好。这项技术允许寡核苷酸直接附着到胺修饰过的支持物上,从而避免另外的功能化步骤。
另一方面中,含有复数个分立区域的表面是通过纳米压印光刻法(NIL)制造的。为了制备DNA阵列,给石英基片旋涂一层光阻剂,通常被称为转移层。然后在转移层上施加第二类光阻剂,通常称为压印层。然后主压印工具在压印层上留下压痕。然后通过等离子蚀刻减小压印层的总厚度,直至压印层较低的区域碰到转移层。因为转移层比压印层更难除去,其基本不受影响。然后通过加热使压印层和转移层硬化。然后将基片放入等离子蚀刻仪,直至压印层较低的区域碰到石英。然后通过如上描述的气相沉积将基片衍生化。
另一方面中,含有复数个分立区域的表面是通过纳米印刷术制造的。这个过程利用光、压印或电子束刻印术产生主模具,它是打印头上需要的特征图样的负片图像。打印头通常是由软的柔性聚合物,比如聚二甲基硅氧烷(PDMS)制成的。属性不同的这种材料或者材料层旋涂到石英基片上。然后在控制好的温度和压力条件下,用模具将特征图样浮雕到光阻材料的表层。然后对打印头进行基于等离子的蚀刻过程以便提高打印头的长宽比,并消除由于被加浮雕的材料随时间松弛而造成的打印头的变形。随机阵列基片是利用纳米印刷术通过在均质衍生化表面上留下胺修饰的寡核苷酸图样制造的。这些寡核苷酸将作为核酸的捕获探针。纳米印刷术的一个可能的优势是能够将不同捕获探针的交织图样印刷到随机阵列支持物上。这可以用多个打印头通过接连印刷来实现,其中每个打印头带有不同图样,所有图样配合在一起形成最终的带结构的支持物图样。这类方法允许在随机阵列中对DNA元件进行一些定位编码。例如,含有特异序列的对照多联体可以以规律的间隔结合在随机阵列上。
再一方面中,利用打印头或压印主机(imprint-master)制备亚微米大小的捕获寡核苷酸点的高密度阵列,其中所述打印头或压印主机是由一束或多束大约10,000到1亿包含轴芯和被覆材料的光纤制备的。通过光纤的拉丝和熔接产生独特的材料,含有大约50-1000nm的轴芯,被类似大小或者小或大2-5倍大小的被覆材料隔开。通过被覆材料的差异蚀刻(溶解)获得含有非常大量纳米级的小杆(posts)的纳米打印头。这种打印头可以用于放置寡核苷酸或者其它生物(蛋白质、寡肽、DNA、适配子)或化学化合物,比如带有各种活性基团的硅烷。在一个实施方案中,玻璃纤维工具被用作带有图样的支持物来存放寡核苷酸或其它生物或化学化合物。这种情况中,只有通过蚀刻产生的小杆可以与待存放的材料接触。可以利用熔接纤维束平切来引导光穿过轴芯,只允许光诱发的化学物发生在轴芯头表面,因此不需要进行蚀刻。两种情况中,同一支持物然后可以作为给寡核苷酸或其它反应物贴标签使用的荧光标记成像的光导/收集装置。该装置提供具有大数值孔径(可能>1)的大视野。可以利用实施活性材料或寡核苷酸的存放的印章或印刷工具将2到100个不同的寡核苷酸印刷为交织的式样。这个过程需要将打印头精确地定位在大约50-500nm。这种类型的寡核苷酸阵列可以用于附着2到100个不同的DNA群体,比如不同的源DNA。它们还可以通过利用DNA特异性锚定分子或标签,用于平行读取亚光分辨率光点。可以通过DNA特异性标签(例如针对16种DNA的16种特异锚定分子)获取信息,通过5-6种颜色的组合,利用16个连接循环或者一个连接循环和16个解码循环来读取2个碱基。如果每个片段只需求有限的信息(例如,少量循环),这种制备阵列的方式是有效的,因此每个循环可以提供更多信息或者每个表面可以做更多循环。
一个方面,本发明的多重阵列可以放置在单个表面上。例如,可以生产定型的阵列基片与标准96或384孔板格式匹配。生产格式可以是在单片玻璃或塑料和其它光学兼容材料上的6mmx6mm阵列,间距9mm的8x12式样,或者3.33mmx3.33mm阵列,间距4.5mm的16x24式样。在一个实例中,每个6mmx6mm阵列由3千6百万个间隔1微米的250-500nm方形区域构成。可以利用疏水性或者其它表面的或物理的障碍来防止单元阵列之间发生不同反应的混合。
形成分子阵列的其它方法是本领域已知的,可以用来形成核酸阵列。
V.例示性的实施方案
以下提供了本发明的某些例示性的实施方案。应当领会,可以使用本领域技术人员公知的方法来改变或扩充这些实施方案。因为可以在不背离目前所描述的技术的精神和范围的前提下进行许多方面,所以合适的范围在于所附权利要求书。因此,涵盖其它方面。此外,应当理解,可以以任何次序进行任何操作,除非另有明确要求保护或者权利要求语言本质上需要特定次序。
在一个例示性的实施方案中,本发明提供了一种使双链靶核酸片段化的方法。本方法包括(a)提供基因组DNA;(b)将DNA分成许多分开的等分试样;(c)在存在包含dNTP类似物的dNTP群的情况中扩增分开的等分试样中的DNA,使得DNA中的许多核苷酸被dNTP类似物替换,(d)除去dNTP类似物以形成有缺口的DNA;(e)处理有缺口的DNA以平移缺口,直至相反链上的缺口会聚,由此创建平端DNA片段。在又一个实施方案中,分开的混合物中的实际上每个片段与相同等分试样的相隔片段是不重叠的。
在又一个实施方案中且依照上文,dNTP类似物选自包括肌苷、尿嘧啶和5-甲基胞嘧啶的组。
在又一个实施方案中且依照上文的任何内容,dNTP类似物包括脱氧-尿嘧啶和5-甲基胞嘧啶两者。
在又一个实施方案中且依照上文的任何内容,本发明的方法包括自每个分开的混合物的片段获得许多序列阅读的进一步的步骤。
在又一个实施方案中且依照上文的任何内容,在获得序列阅读前,使用片段来生成DNA纳米球。
在又一个实施方案中且依照上文的任何内容,分开的混合物包含平均小于约0.1%,0.3%,1%,或3%的基因组。
在又一个实施方案中且依照上文的任何内容,本发明提供了一种用于使核酸片段化的方法,其包括下列步骤:(a)为至少一个基因组提供至少两个DNA基因组等同物;(b)将DNA分成第一层分开的混合物;(c)扩增分开的混合物中的DNA,其中用dNTP群进行扩增,所述dNTP群包含预定的dUTP与dTTP比率(使得所述DNA中的许多胸腺嘧啶被尿嘧啶替换)和预定的5-甲基dCTP与dCTP比率,使得许多胞嘧啶被5-甲基胞嘧啶替换,(d)除去尿嘧啶和5-甲基胞嘧啶以形成有缺口的DNA;(e)处理有缺口的DNA以平移所述缺口,直至相反链上的缺口会聚,由此创建平端DNA片段,其中与在没有5-甲基胞嘧啶的情况中生成的片段相比,平端片段具有更小的GC偏离和更小的覆盖偏离。
在又一个实施方案中且依照上文的任何内容,获得来自第一层的每个分开的混合物的片段的序列阅读。
在又一个实施方案中且依照上文的任何内容,将片段的分开混合物进一步分成第二层分开的混合物。在又一个实施方案中,自第二层中的每个分开的混合物的片段获得序列阅读。
在又一个实施方案中且依照上文的任何内容,等分和/或片段化的第一层、第二层或更大层次中分开的混合物具有小于1μl,100nl,10nl,1nl或100pl的体积。
在又一个实施方案中且依照上文的任何内容,在存在选自下组的成员的情况中进行扩增:糖原、DMSO、ET SSB、甜菜碱、及其任何组合。
在又一个实施方案中且依照上文的任何内容,在一轮或多轮片段化后,片段具有约100kb至约1mb的长度。
在又一个实施方案中且依照上文的任何内容,本发明提供了一种将双链靶核酸片段化的方法,其包括下列步骤:(a)提供基因组DNA;(b)将DNA分成分开的等分试样;(c)扩增所述分开的等分试样中的所述DNA以形成多个扩增子,其中用包含dNTP类似物的dNTP群进行扩增,使得扩增子中的许多核苷酸被dNTP类似物替换,且其中在存在选自下组的添加剂的情况中进行扩增:糖原、DMSO、ET SSB、甜菜碱、及其任何组合;(d)自扩增子除去dNTP类似物以形成有缺口的DNA;(e)处理有缺口的DNA以平移所述缺口,直至相反链上的缺口会聚,由此创建平端DNA片段,其中与没有添加的情况中生成的片段相比,平端片段具有较小的GC偏离。
在又一个实施方案中且依照上文的任何内容,自每个分开的混合物的片段获得许多序列阅读。
在又一个实施方案中且依照上文的任何内容,获得序列阅读的步骤之前或之后第二次扩增每个分开的混合物的片段。
在又一个实施方案中且依照上文的任何内容,dNTP类似物选自包括肌苷、尿嘧啶和5-甲基胞嘧啶的组。
在又一个实施方案中且依照上文的任何内容,dNTP类似物包括脱氧-尿嘧啶和5-甲基胞嘧啶两者。
在又一个实施方案中且依照上文的任何内容,片段具有约10,000至约200,000bp的长度。
在又一个实施方案中且依照上文的任何内容,片段具有约100,000bp的长度。
在又一个实施方案中且依照上文的任何内容,本发明提供了自基因组获得序列信息的方法,其包括下列步骤:(a)提供所述基因组的第一片段群;(b)制备第一片段的乳剂液滴,使得每个乳剂液滴包含第一片段群的亚组;(c)获得每个乳液液滴内的第二片段群,使得第二片段比衍生它们的第一片段短;(d)组合第二片段的乳剂液滴与衔接头标签的乳剂液滴组合;(e)连接第二片段与衔接头标签以形成加标签的片段;(f)将加标签的片段组合成单一组合物,(g)自加标签的片段获得序列阅读,其中序列阅读包括来自衔接头标签和片段的序列信息以鉴定来自相同乳剂液滴的片段,由此提供关于基因组的序列信息。
在又一个实施方案中且依照上文的任何内容,衔接头的乳剂液滴包含至少两组不同标签组分,使得在连接步骤(f)中用标签组分的不同组合给至少一些乳剂液滴中的片段加标签。
在又一个实施方案中且依照上文的任何内容,至少1000个不同乳剂液滴包含用标签组分的不同组合加标签的片段。
在又一个实施方案中且依照上文的任何内容,至少10,000,30,000或100,000个不同乳剂液滴包含用标签组分的不同组合加标签的片段。
在又一个实施方案中且依照上文的任何内容,标签组分来自作为油中的液滴群制备的一组超过1000个独特条形码。
在又一个实施方案中且依照上文的任何内容,第一片段的乳液液滴在每个液滴中仅包含1-5个第一片段。
在又一个实施方案中且依照上文的任何内容,片段的乳剂液滴或衔接头的乳剂液滴进一步包含连接酶和/或连接反应需要的其它试剂。