JP6808617B2

JP6808617B2 - 連続性を維持した転位

Info

Publication number: JP6808617B2
Application number: JP2017520884A
Authority: JP
Inventors: ジェイスティーマーズフランク; エルガンダーソンケヴィン; チャンファン; リチャードベトリージェイソン; アントニーゴームリーニール; メウールマンウーター; ウィアージャクリーン; イオアノウアヴグスタ; ジェンキンスガレス; ジャクソンロザモンド; モレルナタリー; ケイポコロックドミトリー; ジェイノルベルクスティーブン; ホーモーリー; キアアミラーリ; ガルィシンイゴール; パントーハリゴー
Original assignee: イルミナケンブリッジリミテッド
Priority date: 2014-10-17
Filing date: 2015-10-16
Publication date: 2021-01-06
Anticipated expiration: 2035-10-16
Also published as: IL299976B1; JP7127104B2; RU2017116989A3; IL251737A0; AU2015331739A1; BR122021026781B1; SG10201903408VA; JP2018501776A; RU2019138705A; US20190040382A1; KR102643955B1; KR20170107423A; JP7532455B2; SG11201703139VA; RU2017116989A; JP2022172158A; IL287853B2; KR102472027B1; US11873480B2; IL287853A

Description

関連出願
本願は、その全体が参照により本明細書に組み込まれる、２０１４年１０月１７日出願の米国仮特許出願第６２／０６５，５４４号及び２０１５年５月５日出願の米国仮特許出願第６２／１５７，３９６号の優先権を主張する。

本発明の実施形態は、核酸のシークエンシングに関する。具体的には、本明細書で提供する方法及び組成物の実施形態は、核酸鋳型の調製及び核酸鋳型からの配列データの取得に関する。

生体試料中に存在する特定の核酸配列の検出は、例えば、微生物の同定及び分類、感染症の診断、遺伝子異常の検出及び特徴付け、癌に関連した遺伝子変化の同定、疾患への遺伝的感受性の研究、並びに様々な種類の治療に対する反応の測定を行う方法として用いられてきた。生体試料中の特定の核酸配列を検出する一般的な技術は、核酸シークエンシングである。

核酸シークエンシング法は、Ｍａｘａｍ及びＧｉｌｂｅｒｔが用いた化学分解法、及びＳａｎｇｅｒが用いた鎖伸長法から著しく発展してきた。今日、核酸の並列処理を全て１回のシークエンシングランで行うことを可能にする、いくつかのシークエンシング法が用いられている。従って、１回のシークエンシングランから生成される情報は、膨大なものとなる可能性がある。

１つの態様において、本明細書は、標的核酸のバーコード化ＤＮＡフラグメントのライブラリーを調製する方法について記載する。当該方法は、標的核酸を複数のトランスポソーム複合体と接触させることを含むものであり、各トランスポソーム複合体は、トランスポゾン及びトランスポザーゼを含み、トランスポゾンは転移鎖及び非転移鎖を含む。トランスポソーム複合体の少なくとも１つのトランスポゾンは、相補的な捕捉配列にハイブリダイズすることが可能なアダプター配列を含む。標的核酸を複数のフラグメントにフラグメント化し、標的核酸の連続性（ｃｏｎｔｉｇｕｉｔｙ）を維持しながらフラグメントの少なくとも１つの鎖の５’末端に複数の転移鎖を挿入する。標的核酸の複数のフラグメントを複数の固体支持体と接触させる。複数の固体支持体の各々は複数の固定化オリゴヌクレオチドを含み、各オリゴヌクレオチドは相補的な捕捉配列及び第１のバーコード配列を含み、複数の固体支持体中の各固体支持体からの第１のバーコード配列は、複数の固体支持体中の他の固体支持体からの第１のバーコード配列とは異なる。バーコード配列の情報を標的核酸のフラグメントに転移させ、それにより、同じ標的核酸の少なくとも２つのフラグメントが同一のバーコード情報を受け取るように、少なくとも１つの鎖が第１のバーコード配列で５’タグ化された、二本鎖フラグメントの固定化ライブラリーを作製する。

１つの態様において、本明細書は、標的核酸配列の連続性情報を決定する方法について記載する。当該方法は、標的核酸を複数のトランスポソーム複合体と接触させることを含むものであり、各トランスポソーム複合体は、トランスポゾン及びトランスポザーゼを含み、トランスポゾンは転移鎖及び非転移鎖を含み、トランスポソーム複合体のトランスポゾンの少なくとも１つは、相補的な捕捉配列にハイブリダイズすることが可能なアダプター配列を含む。標的核酸を複数のフラグメントにフラグメント化し、標的核酸の連続性を維持しながら複数の転移鎖を複数のフラグメントに挿入する。標的核酸の複数のフラグメントを複数の固体支持体と接触させる。複数の固体支持体の各々は複数の固定化オリゴヌクレオチドを含み、各オリゴヌクレオチドは相補的な捕捉配列及び第１のバーコード配列を含み、複数の固体支持体中の各固体支持体からの第１のバーコード配列は、複数の固体支持体中の他の固体支持体からの第１のバーコード配列とは異なる。バーコード配列情報を、同じ標的核酸の少なくとも２つのフラグメントが同一のバーコード情報を受け取るように、標的核酸フラグメントに転移させる。標的核酸フラグメントの配列及びバーコード配列を決定する。標的核酸の連続性情報を、バーコード配列を識別することにより決定する。いくつかの実施形態において、トランスポソーム複合体のトランスポザーゼを転位（ｔｒａｎｓｐｏｓｉｔｉｏｎ）後に除去し、続いて、トランスポゾンのアダプター配列を相補的な捕捉配列にハイブリダイズさせる。いくつかの実施形態において、トランスポザーゼをＳＤＳ処理により除去する。いくつかの実施形態において、トランスポザーゼをタンパク質分解酵素処理により除去する。

１つの態様において、本明細書は、標的核酸配列のフェージング情報及びメチル化状態を同時に測定する方法について記載する。当該方法は、標的核酸を複数のトランスポソーム複合体と接触させることを含むものであり、各トランスポソーム複合体は、トランスポゾン及びトランスポザーゼを含み、トランスポゾンは転移鎖及び非転移鎖を含み、トランスポソーム複合体のトランスポゾンの少なくとも１つは、相補的な捕捉配列にハイブリダイズすることが可能なアダプター配列を含む。標的核酸を複数のフラグメントにフラグメント化し、標的核酸の連続性を維持しながら複数の転移鎖を標的核酸フラグメントに挿入する。標的核酸の複数のフラグメントを複数の固体支持体と接触させ、複数の固体支持体の各々は複数の固定化オリゴヌクレオチドを含み、各オリゴヌクレオチドは相補的な捕捉配列及び第１のバーコード配列を含み、複数の固体支持体中の各固体支持体からの第１のバーコード配列は、複数の固体支持体中の他の固体支持体からの第１のバーコード配列とは異なる。バーコード配列情報を、同じ標的核酸の少なくとも２つのフラグメントが同一のバーコード情報を受け取るように、標的核酸フラグメントに転移させる。バーコードを含む標的核酸フラグメントを亜硫酸水素塩処理に付し、それにより、バーコードを含む亜硫酸水素塩処理標的核酸フラグメントを生成する。亜硫酸水素塩処理標的核酸フラグメントの配列及びバーコード配列を決定する。標的核酸の連続性情報を、バーコード配列を識別することにより決定する。

１つの態様において、本明細書は、タグ化ＤＮＡフラグメントの固定化ライブラリーを調製する方法について記載する。当該方法は、それに固定化されたトランスポソーム複合体を有する複数の固体支持体を提供することを含み、トランスポソーム複合体は多量体であり、同じトランスポソーム複合体のトランスポソーム単量体単位は互いに結合し、トランスポソーム単量体単位は第１のポリヌクレオチドに結合したトランスポザーゼを含み、第１のポリヌクレオチドは、（ｉ）トランスポゾン末端配列を含む３’部分、及び（ｉｉ）第１のバーコードを含む第１のアダプターを含む。標的ＤＮＡを、標的ＤＮＡがトランスポソーム複合体によりフラグメント化され、第１のポリヌクレオチドの３’トランスポゾン末端配列がフラグメントの少なくとも１つの鎖の５’末端に転移する条件下で、複数の固体支持体に適用する。それにより、少なくとも１つの鎖が第１のバーコードで５’タグ付けされた二本鎖フラグメントの固定化ライブラリーを作製する。

１つの態様において、本明細書は、標的核酸のメチル化状態を決定するためのシークエンシングライブラリーを調製する方法について記載する。当該方法は、標的核酸を２つ又はそれ以上のフラグメントにフラグメント化することを含む。第１の共通アダプター配列を標的核酸のフラグメントの５’末端に組み込み、アダプター配列は、第１のプライマー結合配列及び親和性部分を含み、親和性部分は、結合ペアの１つのメンバーに存在する。標的核酸フラグメントを変性させる。標的核酸フラグメントを固体支持体に固定化する。固体支持体は、結合ペアの他のメンバーを含み、標的核酸の固定化は、結合ペアの結合により行う。固定化標的核酸フラグメントを亜硫酸水素塩処理に付す。第２の共通アダプター配列を亜硫酸水素塩処理した固定化標的核酸フラグメントに組み込み、第２の共通アダプターは、第２のプライマー結合部位を含む。固体支持体に固定化された亜硫酸水素塩処理固定化標的核酸フラグメントを増幅し、それにより、標的核酸のメチル化状態を決定するためのシークエンシングライブラリーを作製する。

１つの態様において、本明細書は、標的核酸のメチル化状態を決定するためのシークエンシングライブラリーを調製する方法について記載する。当該方法は、それに固定化された固定化トランスポソーム複合体を含む複数の固体支持体を提供することを含む。トランスポソーム複合体は、トランスポゾン及びトランスポザーゼを含み、トランスポゾンは、転移鎖及び非転移鎖を含む。転移鎖は、（ｉ）トランスポザーゼ認識配列を含む３’末端の第１の部分及び（ｉｉ）第１のアダプター配列及び結合ペアの第１のメンバーを含む５’から第１の部分に位置する第２の部分を含む。結合ペアの第１のメンバーは、固体支持体上で結合ペアの第２のメンバーに結合し、それにより、トランスポゾンを固体支持体に固定化する。第１のアダプターはまた、第１のプライマー結合配列を含む。非転移鎖は、（ｉ）トランスポザーゼ認識配列を含む５’末端の第１の部分及び（ｉｉ）３’末端の末端ヌクレオチドがブロックされている第２のアダプター配列を含む３’から第１の部分に位置する第２の部分を含む。第２のアダプターはまた、第２のプライマー結合配列を含む。標的核酸を、固定化トランスポソーム複合体を含む複数の固体支持体と接触させる。標的核酸を複数のフラグメントにフラグメント化し、複数の転移鎖をフラグメントの少なくとも１つの鎖の５’末端に挿入し、それにより、標的核酸フラグメントを固体支持体に固定化する。フラグメント化された標的核酸の３’末端を、ＤＮＡポリメラーゼで伸長させる。非転移鎖を、フラグメント化された標的核酸の３’末端にライゲートする。固定化標的核酸フラグメントを亜硫酸水素塩処理に付す。亜硫酸水素塩処理中に損傷を受けた固定化標的核酸フラグメントの３’末端を、固定化標的核酸フラグメントの３’末端がホモポリマーテイルを含むように、ＤＮＡポリメラーゼを用いて伸長させる。第２のアダプター配列を、亜硫酸水素塩処理中に損傷を受けた固定化標的核酸フラグメントの３’末端に導入する。固体支持体に固定化された亜硫酸水素塩処理標的核酸フラグメントを、第１及び第２のプライマーを用いて増幅し、それにより、標的核酸のメチル化状態を決定するためのシークエンシングライブラリーを作製する。

１つの態様において、本明細書は、標的核酸のメチル化状態を決定するためのシークエンシングライブラリーを調製する方法について記載する。当該方法は、標的核酸をトランスポソーム複合体と接触させることを含むものであり、トランスポソーム複合体は、トランスポゾン及びトランスポザーゼを含む。トランスポゾンは、転移鎖及び非転移鎖を含む。転移鎖は、（ｉ）トランスポザーゼ認識配列を含む３’末端の第１の部分及び（ｉｉ）第１のアダプター配列及び結合ペアの第１のメンバーを含む５’から第１の部分に位置する第２の部分を含み、結合ペアの第１のメンバーは、結合ペアの第２のメンバーに結合する。非転移鎖は、（ｉ）トランスポザーゼ認識配列を含む５’末端の第１の部分及び（ｉｉ）３’末端の末端ヌクレオチドがブロックされている第２のアダプター配列を含む３’から第１の部分に位置する第２の部分を含み、第２のアダプターは、第２のプライマー結合配列を含む。標的核酸を複数のフラグメントにフラグメント化し、複数の転移鎖をフラグメントの少なくとも１つの鎖の５’末端に挿入し、それにより、標的核酸フラグメントを固体支持体に固定化する。トランスポゾン末端を含む標的核酸フラグメントを結合ペアの第２のメンバーを含む複数の固体支持体に接触させ、結合ペアの第１のメンバーと結合ペアの第２のメンバーとの結合により、標的核酸を固体支持体に固定化する。フラグメント化された標的核酸の３’末端を、ＤＮＡポリメラーゼで伸長させる。非転移鎖を、フラグメント化された標的核酸の３’末端にライゲートする。固定化標的核酸フラグメントを亜硫酸水素塩処理に付す。亜硫酸水素塩処理中に損傷を受けた固定化標的核酸フラグメントの３’末端を、固定化標的核酸フラグメントの３’末端がホモポリマーテイルを含むように、ＤＮＡポリメラーゼを用いて伸長させる。第２のアダプター配列を、亜硫酸水素塩処理中に損傷を受けた固定化標的核酸フラグメントの３’末端に導入する。固体支持体に固定化された亜硫酸水素塩処理標的核酸フラグメントを、第１及び第２のプライマーを用いて増幅し、それにより、標的核酸のメチル化状態を決定するためのシークエンシングライブラリーを作製する。

いくつかの実施形態において、第２のアダプターの３’末端の末端ヌクレオチドを、ジデオキシヌクレオチド、リン酸基、チオリン酸基、及びアジド基からなる群から選択される１つのメンバーによりブロックする。

いくつかの実施形態において、親和性部分を結合ペアのメンバーとすることができる。いくつかのケースにおいて、修飾された核酸は、結合ペアの第１のメンバーを含んでいてもよく、捕捉プローブは、結合ペアの第２のメンバーを含んでいてもよい。いくつかのケースにおいて、捕捉プローブを固体表面に固定化してもよく、修飾された核酸は、結合ペアの第１のメンバーを含んでいてもよく、捕捉プローブは、結合ペアの第２のメンバーを含んでいてもよい。そのようなケースでは、結合ペアの第１及び第２のメンバーの結合により、修飾された標的核酸を固体表面に固定化する。結合ペアの例としては、これに限定されないが、ビオチン−アビジン、ビオチン−ストレプトアビジン、ビオチン−ニュートラアビジン、リガンド−受容体、ホルモン−受容体、レクチン−糖タンパク質、オリゴヌクレオチド−相補的オリゴヌクレオチド、及び抗原−抗体が挙げられる。

いくつかの実施形態において、第１の共通アダプター配列を、片側（ｏｎｅ−ｓｉｄｅｄ）転位により標的核酸の５’末端フラグメントに組み込む。いくつかの実施形態において、第１の共通アダプター配列を、ライゲーションにより標的核酸の５’末端フラグメントに組み込む。いくつかの実施形態において、第２の共通アダプター配列を亜硫酸水素塩処理固定化標的核酸フラグメントに組み込むステップは、（ｉ）固定化標的核酸フラグメントの３’末端を、ターミナルトランスフェラーゼを用いて伸長し、ホモポリマーテイルを含ませるステップ、（ｉｉ）一本鎖ホモポリマー部分を含むオリゴヌクレオチドと、第２の共通アダプター配列を含む二本鎖部分とをハイブリダイズさせるステップであって、一本鎖ホモポリマー部分がホモポリマーテイルに相補的である、ステップ、及び（ｉｉｉ）第２の共通アダプター配列を固定化標的核酸フラグメントにライゲートし、それにより、第２の共通アダプター配列を亜硫酸水素塩処理固定化標的核酸フラグメントに組み込むステップを含む。

いくつかの実施形態において、標的核酸は、単一の細胞に由来する。いくつかの実施形態において、標的核酸は、単一の細胞小器官に由来する。いくつかの実施形態において、標的核酸は、ゲノムＤＮＡである。いくつかの実施形態において、標的核酸は、他の核酸と架橋する。いくつかの実施形態において、標的核酸は、ホルマリン固定パラフィン包埋（ＦＦＰＥ：ｆｏｒｍａｒｉｎｆｉｘｅｄｐａｒａｆｆｉｎｅｍｂｅｄｄｅｄ）サンプルに由来する。いくつかの実施形態において、標的核酸は、タンパク質と架橋する。いくつかの実施形態において、標的核酸は、ＤＮＡと架橋する。いくつかの実施形態において、標的核酸は、ヒストンに保護されたＤＮＡである。いくつかの実施形態において、ヒストンを標的核酸から除去する。いくつかの実施形態において、標的核酸は、無細胞腫瘍ＤＮＡである。いくつかの実施形態において、無細胞腫瘍ＤＮＡは、胎盤液から得る。いくつかの実施形態において、無細胞腫瘍ＤＮＡは、血漿から得る。いくつかの実施形態において、血漿は、血漿用採取ゾーンを有する膜分離装置を用いて全血から採取する。いくつかの実施形態において、血漿用採取ゾーンは、固体支持体に固定化されたトランスポソーム複合体を含む。いくつかの実施形態において、標的核酸は、ｃＤＮＡである。いくつかの実施形態において、固体支持体は、ビーズである。いくつかの実施形態において、複数の固体支持体は、複数のビーズであり、複数のビーズは、様々なサイズである。

いくつかの実施形態において、単一のバーコード配列が、各個々の固体支持体上の複数の固定化オリゴヌクレオチドに存在する。いくつかの実施形態において、異なるバーコード配列が、各個々の固体支持体上の複数の固定化オリゴヌクレオチドに存在する。いくつかの実施形態において、標的核酸フラグメントへのバーコード配列情報の転移は、ライゲーションによる。いくつかの実施形態において、標的核酸フラグメントへのバーコード配列情報の転移は、ポリメラーゼ伸長による。いくつかの実施形態において、標的核酸フラグメントへのバーコード配列情報の転移は、ライゲーション及びポリメラーゼ伸長の両方による。いくつかの実施形態において、ポリメラーゼ伸長は、ライゲートした固定化オリゴヌクレオチドを鋳型として用い、非ライゲートトランスポゾン鎖の３’末端をＤＮＡポリメラーゼで伸長させることによる。いくつかの実施形態において、アダプター配列の少なくとも一部は、第２のバーコード配列をさらに含む。

いくつかの実施形態において、トランスポソーム複合体は、多量体であり、各単量体単位のトランスポゾンのアダプター配列は、同じトランスポソーム複合体の他の単量体単位とは異なる。いくつかの実施形態において、アダプター配列は、第１のプライマー結合配列をさらに含む。いくつかの実施形態において、第１のプライマー結合部位は、捕捉配列又は捕捉配列の相補体に対して、配列相同性を持たない。いくつかの実施形態において、固体支持体上の固定化オリゴヌクレオチドは、第２のプライマー結合配列をさらに含む。

いくつかの実施形態において、トランスポソーム複合体は、多量体であり、トランスポソーム単量体単位は、同じトランスポソーム複合体内で互いに結合する。いくつかの実施形態において、トランスポソーム単量体単位のトランスポザーゼは、同じトランスポソーム複合体の別のトランスポソーム単量体単位のトランスポザーゼに結合する。いくつかの実施形態において、トランスポソーム単量体単位のトランスポゾンは、同じトランスポソーム複合体の別のトランスポソーム単量体単位のトランスポゾンに結合する。いくつかの実施形態において、トランスポソーム単量体単位のトランスポザーゼは、同じトランスポソーム複合体の別のトランスポソーム単量体単位のトランスポザーゼに共有結合により結合する。いくつかの実施形態において、１つの単量体単位のトランスポザーゼは、同じトランスポソーム複合体の別のトランスポソーム単量体単位のトランスポザーゼにジスルフィド結合により結合する。いくつかの実施形態において、トランスポソーム単量体単位のトランスポゾンは、同じトランスポソーム複合体の別のトランスポソーム単量体単位のトランスポゾンに共有結合により結合する。

いくつかの実施形態において、標的核酸配列の連続性情報は、ハプロタイプ情報を示す。いくつかの実施形態において、標的核酸配列の連続性情報は、ゲノム変異を示す。いくつかの実施形態において、ゲノム変異は、欠損、転位（ｔｒａｎｓｌｏｃａｔｉｏｎｓ）、染色体間の遺伝子融合、重複、及びパラログからなる群から選択される。いくつかの実施形態において、固体支持体に固定化されたオリゴヌクレオチドは、部分的二本鎖領域及び部分的一本鎖領域を含む。いくつかの実施形態において、オリゴヌクレオチドの部分的一本鎖領域は、第２のバーコード配列及び第２のプライマー結合配列を含む。いくつかの実施形態において、バーコードを含む標的核酸フラグメントを、標的核酸フラグメントの配列を決定する前に増幅する。いくつかの実施形態において、後続の増幅を、標的核酸フラグメントの配列を決定する前に、単一の反応区画で行う。いくつかの実施形態において、第３のバーコード配列を、増幅中に標的核酸フラグメントに導入する。

いくつかの実施形態において、上記方法は、バーコードを含む標的核酸フラグメントを、複数の第１のセットの反応区画から、バーコードを含む標的核酸フラグメントのプールにまとめるステップ、バーコードを含む標的核酸フラグメントの前記プールを複数の第２のセットの反応区画に再分配するステップ、及び標的核酸フラグメントを第２のセットの反応区画内でシークエンシング前に増幅することにより、第３のバーコードを標的核酸フラグメントに導入するステップをさらに含んでいてもよい。

いくつかの実施形態において、上記方法は、標的核酸をトランスポソーム複合体と接触させる前にプレフラグメント化するステップをさらに含んでいてもよい。いくつかの実施形態において、標的核酸のプレフラグメント化は、超音波処理及び制限消化からなる群から選択される方法により行われる。

トランスポソームをビーズ表面に結合させる方法の一例を示すフローチャートである。図１の方法のステップを絵で示す図である。ビーズ表面上でのタグメント化工程の一例を示す模式図である。ＤＮＡ収量の一例を、図３のビーズベースタグメント化工程からのクラスター数の観点から示すデータ表である。図３のビーズベースタグメント化工程の再現性の別例を、均一なサイズの観点から示すデータ表である。図６Ａ及び６Ｂは、それぞれ、図５のインデックス付きサンプルのプール１の挿入サイズのプロット及びプール２の挿入サイズのプロットを示す図である。リードの合計数及び図５に記載の実験のためにアラインしたリードの割合の再現性を示す棒グラフである。図８Ａ、８Ｂ、及び８Ｃは、それぞれ、エクソーム濃縮アッセイにおける、コントロールライブラリーでの挿入サイズのプロット、ビーズベースタグメント化ライブラリーでの挿入サイズのプロット、及びサマリーデータ表を示す図である。図９Ａ、９Ｂ、及び９Ｃは、それぞれ、エクソーム濃縮アッセイにおける、ｄｕｐｓＰＦ画分の棒グラフ、ｓｅｌｅｃｔｅｄｂａｓｅｓ画分の棒グラフ、及びＰＣＴｕｓａｂｌｅｂａｓｅｓｏｎｔａｒｇｅｔの棒グラフを示す図である。ビーズ表面上でのトランスポソーム複合体の形成方法の一例を示すフローチャートである。図１０の方法のステップを絵で示す図である。図１０の方法のステップを絵で示す図である。図１０の方法のステップを絵で示す図である。図１３に示すトランスポソーム被覆ビーズを用いたタグメント化工程の模式図である。固体支持体上でのトランスポソーム形成の例示的なスキームを示す図である。固有インデックスを有する連結（ｃｏｎｔｉｇｕｏｕｓｌｙｌｉｎｋｅｄ）ライブラリー作製の例示的なスキームを示す図である。固有インデックスを有する連結ライブラリー作製の例示的なスキームを示す図である。ＣＰＴ−ＤＮＡがビーズに巻き付いている、単一のクローンインデックス付きビーズ上での単一のＣＰＴ−ＤＮＡの捕捉を表わす図である。ＣＰＴ−ＤＮＡがビーズに巻き付いている、単一のクローンインデックス付きビーズ上での単一のＣＰＴ−ＤＮＡの捕捉を表わす図である。固体表面に固定化したＹ−アダプターを、ライゲーション及びギャップ充填により標的ＤＮＡに結合させる例示的なスキームを示す図である。ＣＰＴ−ＤＮＡと固体支持体上の固定化オリゴヌクレオチドとのライゲーションの間に、前記Ｙ−アダプターを作製する例示的なスキームを示す図である。サイズ排除クロマトグラフィーによる連結ライブラリーからの遊離トランスポソームの除去を示す、アガロースゲル電気泳動を表わす図である。特定のＤＮＡフラグメントのショットガン配列ライブラリーを生成する例示的なスキームを示す図である。クローンインデックス付きシークエンシングライブラリーからの配列情報をアセンブルする例示的なスキームを示す図である。ビーズ上の捕捉プローブ密度の最適化の結果を示す図である。分子内ハイブリダイゼーションによるビーズ上でのＣＰＴ−ＤＮＡのインデックス付きシークエンシングライブラリーの調製の実現性を試験した結果を示す図である。クローンインデックス化の実現性を試験した結果を示す図である。タグメント化後の鋳型核酸に対して隣接して（ｎｅｉｇｈｂｏｕｒｉｎｇ）アラインされたリードの島内（ｉｎｔｒａ）及び島間（ｉｎｔｒａ）の特定の距離に対する、シークエンシングリードの頻度を示すグラフである。図２９Ａ及び２９Ｂは、固体支持体上の連続性情報を引き出す例示的なアプローチを示す図である。単一の反応容器（ワンポット）におけるインデックス付きクローンビーズ転位の概略図及び転位結果を示す図である。単一の反応容器（ワンポット）におけるインデックス付きクローンビーズ転位の概略図及び転位結果を示す図である。５’又は３’ビオチン化オリゴヌクレオチドを用いたビーズ上でのクローントランスポソームの作製を示す概略図である。ビーズ上のトランスポソームに対するライブラリーサイズを示す図である。挿入サイズに対するトランスポソーム表面密度の影響を示す図である。サイズ分布に対するインプットＤＮＡの影響を示す図である。ビーズベース及び溶液ベースのタグメント化反応を用いた島のサイズ及び分布を示す図である。それぞれ固有インデックスを受け取った、いくつかの個々のＤＮＡ分子のクローンインデックス化を示す図である。全血から血漿を分離する装置の略図である。血漿を分離する装置及び分離された血漿のその後の使用を示す略図である。血漿を分離する装置及び分離された血漿のその後の使用を示す略図である。ゲノムの特定の領域を濃縮することによる標的フェージングの例示的なスキームを示す図である。エクソン間のＳＮＰを用いたエクソームフェージングの例示的なスキームを示す図である。フェージング及びメチル化の同時検出の例示的なスキームを示す図である。フェージング及びメチル化の同時検出の別の例示的なスキームを示す図である。単一アッセイにおいて、種々のサイズのクローンインデックス付きビーズを用いて種々のサイズのライブラリーを生成する、例示的なスキームを示す図である。異なる長さスケールのライブラリーで遺伝的変異を決定する例示的なスキームを示す図である。染色体１における６０ｋｂヘテロ接合欠損の検出結果を示す図である。染色体１における６０ｋｂヘテロ接合欠損の検出結果を示す図である。本願の方法を用いた遺伝子融合検出の結果を示す図である。本願の方法を用いた遺伝子欠損検出の結果を示す図である。亜硫酸水素塩変換前後のＭＥ配列を示す図である。亜硫酸水素塩変換効率の最適化の結果を示す図である。亜硫酸水素塩変換後の結果をＩＶＣプロット（各塩基当たりの強度対サイクル）で示す図である。ＢＳＣの後のＰＣＲ後のインデックス付き結合ライブラリーのアガロースゲル電気泳動の画像を示す図である。サイズ選択をしていない濃縮前の全ゲノムインデックス付き結合ＣＰＴ−ｓｅｑライブラリーのバイオアナライザートレースを示す図である。濃縮後のライブラリーのアガロースゲル分析を示す図である。標的化ハプロタイピングを染色体のＨＬＡ領域に適用した結果を示す図である。ＭＥ交換（ｓｗａｐｐｉｎｇ）のいくつかの考え得るメカニズムを示す図である。ＭＥ交換（ｓｗａｐｐｉｎｇ）のいくつかの考え得るメカニズムを示す図である。Ｃｙｓで置換することができる例示的なアミノ酸残基Ａｓｐ４６８、Ｔｙｒ４０７、Ａｓｐ４６１、Ｌｙｓ４５９、Ｓｅｒ４５８、Ｇｌｙ４６２、Ａｌａ４６６、Ｍｅｔ４７０を有するＴｎ５トランスポザーゼの一部を示す図である。システイン残基が２つの単量体単位間でジスルフィド結合を形成できるようにした、Ｓ４５８Ｃ、Ｋ４５９Ｃ、及びＡ４６６Ｃのアミノ酸置換を有するＴｎ５トランスポザーゼの一部を示す図である。アミン被覆ナノ粒子を用いた二量体トランスポザーゼ（ｄＴｎｐ）ナノ粒子（ＮＰ）バイオコンジュゲート（ｄＴｎｐ−ＮＰ）の作製及び使用の例示的なスキームを示す図である。トランスポソーム二量体とアミン被覆固体支持体とのコンジュゲーションの例示的なスキームを示す図である。トランスポゾン末端が結合したＭｕトランスポソーム複合体を示す図である。疑似遺伝子のアセンブリ／フェージングのためのインデックス付き結合リードの略図、及びより短いフラグメントを用いた疑似遺伝子の変異識別の利点を示す図である。交換された（ｓｗａｐｐｅｄ）インデックスの割合（％）として示す、４つの別個の実験からのインデックス交換（ｅｘｃｈａｎｇｅ）のプロットを示す図である。Ｔｓ−Ｔｎ５滴定のフラグメントサイズの、ＡｇｉｌｅｎｔＢｉｏＡｎａｌｙｚｅｒによる分析を示す図である。亜硫酸水素塩処理後の破損したライブラリーエレメントを回復させる酵素法を用いて、Ｅｐｉ−ＣＰＴＳｅｑプロトコルのＤＮＡ収量を改善する、例示的なスキームを示す図である。図６８Ａ〜６８Ｃは、亜硫酸水素塩処理後の破損したライブラリーエレメントを回復させる酵素法を用いて、Ｅｐｉ−ＣＰＴＳｅｑプロトコルのＤＮＡ収量を改善する、いくつかの例示的なスキームを示す図である。ランダムプライマー伸長を用いた鋳型救出（ｒｅｓｃｕｅ）の例示的なスキームを示す図である。亜硫酸水素ナトリウム変換中のＤＮＡライブラリーのフラグメント化を示す図である。左のパネルは、磁性ビーズ上にタグメント化されたＤＮＡの一部を亜硫酸水素変換している最中のフラグメント化を示す。右のパネルは、ＣＰＴ−ｓｅｑ及びＥｐｉ−ＣＰＴ−ｓｅｑ（Ｍｅ−ＣＰＴ−ｓｅｑ）ライブラリーのバイオアナライザートレースを示す。ＴｄＴ媒介ｓｓＤＮＡライゲーション反応の例示的なスキーム及び結果を示す図である。ライブラリーに結合した亜硫酸水素ナトリウム変換ビーズのＴｄＴ媒介回復のスキーム及び結果を示す図である。左のパネルは、ＴｄＴ媒介ライゲーション反応を用いた損傷亜硫酸水素塩変換ＤＮＡライブラリーの救出の操作フローを示す。ＤＮＡライブラリー救出実験の結果を右のパネルに示す。メチル−ＣＰＴ−ｓｅｑアッセイの結果を示す図である。ＤＮＡのビーズベース亜硫酸水素塩変換の例示的なスキームを示す図である。図７５Ａ及び７５Ｂは、亜硫酸水素塩変換効率の最適化の結果を示す図である。

１つの態様において、本発明は、タグメント化（フラグメント化及びタグ化）した標的核酸ライブラリーを構築するために、固体支持体上で標的核酸をタグメント化する方法に関する。１つの実施形態において、固体支持体は、ビーズである。１つの実施形態において、標的核酸は、ＤＮＡである。

１つの態様において、本発明は、標的核酸の連続性情報を引き出すことが可能な、固体支持体、トランスポザーゼに基づく方法の、方法及び組成物に関する。いくつかの実施形態において、組成物及び方法は、アセンブリ／フェージング情報を引き出すことができる。

１つの態様において、本発明は、連結した転位標的核酸を固体支持体上に捕捉することにより、連続性情報を引き出す方法及び組成物に関する。

１つの態様において、本明細書に開示する方法及び組成物は、ゲノム変異の分析に関する。例示的なゲノム変異としては、これに限定されないが、欠損、染色体間転位、重複、パラログ、染色体間遺伝子融合が挙げられる。いくつかの実施形態において、本明細書に開示する方法及び組成物は、ゲノム変異のフェージング情報の決定に関する。

１つの態様において、本明細書に開示する方法及び組成物は、標的核酸の特定の領域のフェージングに関する。１つの実施形態において、標的核酸は、ＤＮＡである。１つの実施形態において、標的核酸は、ゲノムＤＮＡである。いくつかの実施形態において、標的核酸は、ＲＮＡである。いくつかの実施形態において、ＲＮＡは、ｍＲＮＡである。いくつかの実施形態において、標的核酸は、相補的ＤＮＡ（ｃＤＮＡ：ｃｏｍｐｌｉｍｅｎｔａｒｙＤＮＡ）である。いくつかの実施形態において、標的核酸は、単一の細胞に由来する。いくつかの実施形態において、標的核酸は、循環腫瘍細胞に由来する。いくつかの実施形態において、標的核酸は、無細胞ＤＮＡである。いくつかの実施形態において、標的核酸は、無細胞腫瘍ＤＮＡである。いくつかの実施形態において、標的核酸は、ホルマリン固定パラフィン包埋組織サンプルに由来する。いくつかの実施形態において、標的核酸は、架橋標的核酸である。いくつかの実施形態において、標的核酸は、タンパク質に架橋する。いくつかの実施形態において、標的核酸は、核酸に架橋する。いくつかの実施形態において、標的核酸は、ヒストンに保護されたＤＮＡである。いくつかの実施形態において、ヒストンに保護されたＤＮＡを、ヒストンに対する抗体を用いて細胞溶解物から沈殿させ、ヒストンを除去する。

いくつかの態様において、インデックス付きライブラリーは、クローンインデックス付きビーズを用いて、標的核酸から作製する。いくつかの実施形態において、タグメント化標的核酸は、トランスポザーゼが標的ＤＮＡに結合したままで、クローンインデックス付きビーズを用いて捕捉することができる。いくつかの実施形態において、特異的な捕捉プローブを用いて、標的核酸中の目的の特異的な領域を捕捉する。標的核酸の捕捉された領域は、種々のストリンジェンシーで洗浄し、任意選択的に増幅し、その後シークエンシングすることができる。いくつかの実施形態において、捕捉プローブは、ビオチン化してもよい。ビオチン化捕捉プローブがインデックス付き標的核酸の特異的な領域にハイブリダイズした複合体は、ストレプトアビジンビーズを用いて分離することができる。標的フェージングの例示的なスキームを図４１に示す。

いくつかの態様において、本明細書に開示する組成物及び方法は、エクソームのフェージングに用いることができる。いくつかの実施形態において、エクソン、プロモーターを濃縮することができる。マーカー、例えば、エクソン領域間のヘテロ接合ＳＮＰは、特にエクソン間の距離が大きい場合に、エクソンのフェージングに役立つ可能性がある。例示的なエクソームのフェージングを図４２に示す。いくつかの実施形態において、インデックス付き結合リードは、隣接しているエクソンのヘテロ接合ＳＮＰに同時に及ぶ（カバーする）ことができない。従って、２つ又はそれ以上のエクソンをフェージングすることは困難である。本明細書に開示する組成物及び方法はまた、エクソン間のヘテロ接合ＳＮＰを濃縮し、例えば、エクソン１をＳＮＰ１に、ＳＮＰ２をエクソン２にフェージングする。従って、ＳＮＰ１の使用を通じて、エクソン１及びエクソン２を、図４２に示すようにフェージングすることができる。

１つの態様において、本明細書に開示する組成物及び方法は、フェージング及び同時のメチル化の検出に用いることができる。亜硫酸水素塩変換（ＢＳＣ：ｂｉｓｕｌｆｉｔｅｃｏｎｖｅｒｓｉｏｎ）によるメチル化検出は、ＢＳＣ反応がＤＮＡに対して厳しい（ｈａｒｓｈ）ものであり、ＤＮＡをフラグメント化し、それにより連続性／フェージング情報を除去するため、困難である。また、本願に開示する方法は、従来のＢＳＣアプローチで必要とされるのとは対照的に、更なる精製ステップを必要としないことにより、収率を改善するため、さらに利点がある。

１つの態様において、本明細書に開示する組成物及び方法を用いて、異なるサイズのライブラリーを１つのアッセイで調製することができる。いくつかの実施形態において、異なるサイズのクローンインデックス付きビーズを用いて、異なるサイズのライブラリーを調製することができる。図１は、トランスポザーゼをビーズ表面に結合させる方法１００の一例のフローチャートを示す。トランスポザーゼは、トランスポゾンオリゴヌクレオチド、トランスポザーゼ、及び固相に加えてもよい任意の化学物質を用いて、ビーズ表面に結合させてもよい。１つの例において、トランスポソームを、ビオチン−ストレプトアビジン結合複合体を介してビーズ表面に結合させる。方法１００は、これに限定されないが、以下のステップを含む。

１つの実施形態において、トランスポゾンは、シークエンシングプライマー結合部位を含んでいてもよい。シークエンス結合部位の例示的な配列としては、これに限定されないが、ＡＡＴＧＡＴＡＣＧＧＣＧＡＣＣＡＣＣＧＡＧＡＴＣＴＡＣＡＣ（Ｐ５配列）及びＣＡＡＧＣＡＧＡＡＧＡＣＧＧＣＡＴＡＣＧＡＧＡＴ（Ｐ７配列）が挙げられる。いくつかの実施形態において、トランスポゾンをビオチン化してもよい。

図１のステップ１１０において、Ｐ５及びＰ７ビオチン化トランスポゾンを生成する。トランスポゾンはまた、１つ又はそれ以上のインデックス配列（固有の識別子）を含んでいてもよい。例示的なインデックス配列としては、これに限定されないが、ＴＡＧＡＴＣＧＣ、ＣＴＣＴＣＴＡＴ、ＴＡＴＣＣＴＣＴ、ＡＧＡＧＴＡＧＡ、ＧＴＡＡＧＧＡＧ、ＡＣＴＧＣＡＴＡ、ＡＡＧＧＡＧＴＡ、ＣＴＡＡＧＣＣＴが挙げられる。別の例では、Ｐ５トランスポゾンのみ又はＰ７トランスポゾンのみをビオチン化する。さらに別の例では、トランスポゾンは、モザイク末端（ＭＥ：ｍｏｓａｉｃｅｎｄ）配列のみ、又はＭＥ配列に加えてＰ５及びＰ７配列ではない追加の配列を含む。この例では、Ｐ５及びＰ７配列は、後続のＰＣＲ増幅ステップで付加する。

図１のステップ１１５において、トランスポソームをアセンブルする。アセンブルしたトランスポソームは、Ｐ５及びＰ７トランスポソームの混合物である。Ｐ５及びＰ７トランスポソームの混合物は、図１１及び１２と関連してより詳細に説明する。

図１のステップ１２０において、Ｐ５／Ｐ７トランスポソーム混合物を、ビーズ表面に結合させる。この例では、ビーズは、ストレプトアビジン被覆ビーズであり、トランスポソームを、ビオチン−ストレプトアビジン結合複合体を介してビーズ表面に結合させる。ビーズは、種々のサイズであってもよい。１つの例において、ビーズは、２．８μｍビーズであってもよい。別の例において、１μｍビーズであってもよい。１μｍビーズの懸濁液（例えば、１μＬ）は、体積当たり大きな表面積をトランスポソーム結合にもたらす。トランスポソーム結合に用いることができる表面積により、反応当たりのタグメント化生成物の数が増加する。

図２は、図１の方法１００のステップ１１０、１１５、及び１２０を絵で示す。この例では、トランスポゾンを二本鎖で示す。別の例（図示しない）では、ヘアピン等の別の構造、即ち、二本鎖を形成することができる自己相補的な領域を有する単一のオリゴヌクレオチドを用いてもよい。

方法１００のステップ１１０において、複数のビオチン化Ｐ５トランスポゾン２１０ａ及び複数のＰ７トランスポゾン２１０ｂを生成する。Ｐ５トランスポゾン２１０ａ及びＰ７トランスポゾン２１０ｂをビオチン化する。

方法１００のステップ１１５において、Ｐ５トランスポゾン２１０ａ及びＰ７トランスポゾン２１０ｂをトランスポザーゼＴｎ５２１５と混合し、複数のアセンブルしたトランスポソーム２２０を形成する。

方法１００のステップ１２０において、トランスポソーム２２０を、ビーズ２２５に結合させる。ビーズ２２５は、ストレプトアビジン被覆ビーズである。トランスポソーム２２０を、ビオチン−ストレプトアビジン結合複合体を介してビーズ２２５に結合させる。

１つの実施形態において、トランスポソームの混合物を、図１０、１１、１２、及び１３に示すように、ビーズ表面等の固体支持体上で形成してもよい。この例では、Ｐ５及びＰ７オリゴヌクレオチドを、トランスポソーム複合体のアセンブリ前に、初めにビーズ表面に結合させる。

図３は、ビーズ表面上におけるタグメント化工程３００の例の模式図を示す。工程３００において、トランスポソーム２２０が結合した図２のビーズ２２５を示す。ＤＮＡ３１０の溶液をビーズ２２５の懸濁液に加える。ＤＮＡ３１０がトランスポソーム２２０に接触すると、ＤＮＡがタグメント化（フラグメント化及びタグ化）され、トランスポソーム２２０を介してビーズ２２５に結合する。結合及びタグメント化されたＤＮＡ３１０をＰＣＲ増幅して、溶液中（ビーズを含まない）で増幅産物３１５のプールを生成してもよい。増幅産物３１５は、フローセル３２０の表面に転移させてもよい。クラスター生成プロトコル（例えば、ブリッジ増幅プロトコル、又はクラスター生成に使用することができる任意のその他の増幅プロトコル）を用いて、複数のクラスター３２５をフローセル３２０の表面上に生成してもよい。クラスター３２５は、タグメント化ＤＮＡ３１０のクローン増幅産物である。これでクラスター３２５は、シークエンシングプロトコルの次のステップ用に準備できたことになる。

別の実施形態において、トランスポソームは、マイクロ遠心チューブの壁等の任意の固体表面に結合してもよい。

ビーズ表面上にトランスポソーム複合体の混合物を形成する別の実施形態において、オリゴヌクレオチドは、トランスポソームのアセンブリ前に、初めにビーズ表面に結合させる。図１０は、ビーズ表面上でトランスポソーム複合体を形成する方法１０００の一例のフローチャートを示す。方法１０００は、これに限定されないが、以下のステップを含む。

ステップ１０１０において、Ｐ５及びＰ７オリゴヌクレオチドを、ビーズ表面に結合させる。１つの例において、Ｐ５及びＰ７オリゴヌクレオチドは、ビオチン化し、ビーズは、ストレプトアビジン被覆ビーズである。このステップはまた、図１１の模式図１１００に絵で示す。ここで、図１１を参照すると、Ｐ５オリゴヌクレオチド１１１０及びＰ７オリゴヌクレオチド１１１５は、ビーズ１１２０の表面に結合する。この例においては、１つのＰ５オリゴヌクレオチド１１１０及び１つのＰ７オリゴヌクレオチド１１１５が、ビーズ１１２０の表面に結合しているが、任意の数のＰ５オリゴヌクレオチド１１１０及び／又はＰ７オリゴヌクレオチド１１１５が、複数のビーズ１１２０の表面に結合してもよい。１つの例において、Ｐ５オリゴヌクレオチド１１１０は、Ｐ５プライマー配列、インデックス配列（固有の識別子）、リード１シークエンシングプライマー配列、及びモザイク末端（ＭＥ）配列を含む。この例において、Ｐ７オリゴヌクレオチド１１１５は、Ｐ７プライマー配列、インデックス配列（固有の識別子）、リード２シークエンシングプライマー配列、及びＭＥ配列を含む。別の例（図示せず）において、インデックス配列は、Ｐ５オリゴヌクレオチド１１１０のみに存在する。さらに別の例（図示せず）において、インデックス配列は、Ｐ７オリゴヌクレオチド１１１５のみに存在する。さらに別の例（図示せず）において、インデックス配列は、Ｐ５オリゴヌクレオチド１１１０及びＰ７オリゴヌクレオチド１１１５のいずれにも存在しない。

ステップ１０１５において、相補的モザイク末端（ＭＥ’）オリゴヌクレオチドを、ビーズ結合Ｐ５及びＰ７オリゴヌクレオチドにハイブリダイズさせる。このステップはまた、図１２の模式図１２００に絵で示す。ここで、図１２を参照すると、相補的ＭＥ配列（ＭＥ’）１１２５は、Ｐ５オリゴヌクレオチド１１１０及びＰ７オリゴヌクレオチド１１１５にハイブリダイズする。相補的ＭＥ配列（ＭＥ’）１１２５（例えば、相補的ＭＥ配列（ＭＥ’）１１２５ａ及び相補的ＭＥ配列（ＭＥ’）１１２５ｂ）は、Ｐ５オリゴヌクレオチド１１１０及びＰ７オリゴヌクレオチド１１１５のＭＥ配列にそれぞれハイブリダイズする。相補的ＭＥ配列（ＭＥ’）１１２５は、典型的には、約１５塩基長であり、５’末端でリン酸化されている。

ステップ１０２０において、トランスポザーゼ酵素をビーズ結合オリゴヌクレオチドに添加し、ビーズ結合トランスポソーム複合体の混合物を形成する。このステップはまた、図１３の模式図１３００に絵で示す。ここで図１３を参照すると、トランスポザーゼ酵素が添加されて、複数のトランスポソーム複合体１３１０を形成する。この例において、トランスポソーム複合体１３１０は、トランスポザーゼ酵素、２つの表面結合オリゴヌクレオチド配列、及びそれらにハイブリダイズした相補的ＭＥ配列（ＭＥ’）１１２５を含む二本鎖構造である。例えば、トランスポソーム複合体１３１０ａは、相補的ＭＥ配列（ＭＥ’）１１２５にハイブリダイズしたＰ５オリゴヌクレオチド１１１０及び相補的ＭＥ配列（ＭＥ’）１１２５にハイブリダイズしたＰ７オリゴヌクレオチド１１１５（即ち、Ｐ５：Ｐ７）を含み、トランスポソーム複合体１３１０ｂは、相補的ＭＥ配列（ＭＥ’）１１２５にハイブリダイズした２つのＰ５オリゴヌクレオチド１１１０（即ち、Ｐ５：Ｐ５）含み、トランスポソーム複合体１３１０ｃは、相補的ＭＥ配列（ＭＥ’）１１２５にハイブリダイズした２つのＰ７オリゴヌクレオチド１１１５（即ち、Ｐ７：Ｐ７）含む。Ｐ５：Ｐ５、Ｐ７：Ｐ７、及びＰ５：Ｐ７トランスポソーム複合体の割合は、例えば、２５：２５：５０であってもよい。

図１４は、図１３のトランスポソーム被覆ビーズ１１２０を用いたタグメント化工程の例示的な模式図１４００を示す。この例において、トランスポソーム複合体１３１０を有するビーズ１１２０を、タグメント化バッファー中のＤＮＡ１４１０の溶液に加え、タグメント化を生じさせ、ＤＮＡをビーズ１１２０の表面にトランスポソーム１３１０を介して結合させる。ＤＮＡ１４１０の連続したタグメント化により、トランスポソーム１３１０間に複数のブリッジ分子１４１５が生じる。ブリッジ分子１４１５の長さは、ビーズ１１２０の表面におけるトランスポソーム複合体１３１０の密度に依存する可能性がある。１つの例において、ビーズ１１２０の表面上のトランスポソーム複合体１３１０の密度は、図１０の方法１００のステップ１０１０においてビーズ１１２０の表面に結合するＰ５及びＰ７オリゴヌクレオチドの量を変化させることにより調整してもよい。別の例において、ビーズ１１２０の表面上のトランスポソーム複合体１３１０の密度は、図１０の方法１０００のステップ１０１５において、Ｐ５及びＰ７オリゴヌクレオチドにハイブリダイズする相補的ＭＥ配列（ＭＥ’）の量を変化させることにより、調整してもよい。さらに別の例において、ビーズ１１２０の表面上のトランスポソーム複合体１３１０の密度は、図１の方法１０００のステップ１０２０において加えるトランポザーゼ酵素の量を変化させることにより、調整してもよい。

ブリッジ分子１４１５の長さは、タグメント化反応で用いられた、トランスポソーム複合体１３１０が結合したビーズ１１２０の量に依存しない。同様に、タグメント化反応においてより多い又はより少ないＤＮＡ１４１０を加えることは、最終的なタグメント化産物のサイズを変えないが、反応の収率に影響を与える可能性がある。

１つの例において、ビーズ１１２０は、常磁性ビーズである。この例では、タグメント化反応の精製は、ビーズ１１２０を磁石で固定化し、洗浄することにより容易に行うことができる。従って、タグメント化及びその後のＰＣＲ増幅を、単一の反応区画（「ワンポット（ｏｎｅ−ｐｏｔ）」）での反応で実施してもよい。

１つの態様において、本発明は、固体支持体上で標的核酸の連続性情報を引き出すことが可能なトランスポザーゼに基づく方法の、方法及び組成物に関する。いくつかの実施形態において、組成物及び方法は、アセンブリ／フェーズ情報を引き出すことができる。１つの実施形態において、固体支持体は、ビーズである。１つの実施形態において、標的核酸は、ＤＮＡである。１つの実施形態において、標的核酸は、ゲノムＤＮＡである。いくつかの実施形態において、標的核酸は、ＲＮＡである。いくつかの実施形態において、ＲＮＡは、ｍＲＮＡである。いくつかの実施形態において、標的核酸は、相補的ＤＮＡ（ｃＤＮＡ）である。

いくつかの実施形態において、トランスポゾンを、ビーズ等の固体支持体に二量体として固定化し、その後トランスポザーゼをトランスポゾンに結合してトランスポソームを形成してもよい。

いくつかの実施形態において、固相化トランスポゾン及びトランスポザーゼの添加による、固相でのトランスポソームの形成に特に関連して、２つのトランスポゾンを、固体支持体において互いにごく近接して（好ましくは、一定の距離で）固定化してもよい。このアプローチには、いくつかの利点がある。１つ目としては、好ましくは、２つのトランスポゾンがトランスポソームを効率良く形成するのに最適なリンカー長及び方向で、２つのトランスポゾンが、常に同時に固定化されることになる。２つ目としては、トランスポソームの形成効率が、トランスポゾン密度の関数とはならないであろうことである。２つのトランスポゾンが、トランスポソームを形成するのに適切な方向及び両者間の距離で、常に利用できることになる。３つ目としては、表面上のランダムな固定化トランスポゾンにより、トランスポゾン間に種々の距離が形成され、それにより、１つの画分のみがトランスポソームを効率良く形成するのに最適な方向及び距離を有する。結果として、全てのトランスポゾンがトランスポソームに変換するのではなく、固相化非複合体化トランスポゾンが存在することになる。これらのトランスポゾンは、ＭＥ部分が二本鎖ＤＮＡであるため、転位の標的となり易い。これにより、転位効率の低下をもたらし、望ましくない副産物を形成する可能性がある。従って、続けて使用して、タグメント化及びシークエンシングを通じて連続性情報を導き出すことができる固体支持体上に、トランスポソームを調製してもよい。例示的なスキームを図１５に示す。いくつかの実施形態において、トランスポゾンは、化学的結合以外の手法で固体支持体に固定化してもよい。固体支持体上にトランスポゾンを固定化する例示的な方法としては、これに限定されないが、ストレプトアビジン−ビオチン、マルトース−マルトース結合タンパク質、抗原−抗体、ＤＮＡ−ＤＮＡ又はＤＮＡ−ＲＮＡハイブリダイゼーション等の親和結合が挙げられる。

いくつかの実施形態において、トランスポソームは、プレアセンブルした後、固体支持体に固定化することができる。いくつかの実施形態において、トランスポゾンは、固有のインデックス、バーコード、及び増幅プライマー結合部位を含む。トランスポザーゼを、トランスポゾンを含む溶液に添加し、固体支持体上に固定化することが可能なトランスポソーム二量体を形成することができる。１つの実施形態において、各セットが固定化トランスポゾンに由来する同じインデックスを有し、それによりインデックス付きビーズを生成する、複数のビーズセットを生成することができる。図２９Ａに示すように、標的核酸を、インデックス付きビーズの各セットに添加することができる。

いくつかの実施形態において、標的核酸は、インデックス付きビーズの各セットに添加することができ、タグメント化及びその後のＰＣＲ増幅を別々に行ってもよい。

いくつかの実施形態において、標的核酸、インデックス付きビーズ、及びトランスポソームは、多くの液滴が、１つのビーズと１つ又はそれ以上のＤＮＡ分子及び十分なトランスポソームとを含むように、液滴内で組み合わせることができる。

いくつかの実施形態において、インデックス付きビーズをプールすることができ、プールに標的核酸を加えることができ、タグメント化及びその後のＰＣＲ増幅を単一の反応区画（「ワンポット」）で行ってもよい。

１つの態様において、本発明は、連結転位標的核酸を固体支持体上に捕捉することにより、連続性情報を引き出す方法及び組成物に関する。いくつかの実施形態において、連続性保存転位（ＣＰＴ：ｃｏｎｔｉｇｕｉｔｙｐｒｅｓｅｒｖｉｎｇｔｒａｎｓｐｏｓｉｔｉｏｎ）をＤＮＡ上で行うが、ＤＮＡは、無傷（ｉｎｔａｃｔ）のままであり（ＣＰＴ−ＤＮＡ）、従って、連結ライブラリーを形成する。連続性情報は、トランスポザーゼを用いて標的核酸に隣接した鋳型核酸フラグメントの関連性（ａｓｓｏｃｉａｔｉｏｎ）を維持することにより、保存することができる。ＣＰＴ−ＤＮＡは、固体支持体、例えば、ビーズに固定化された、固有のインデックス又はバーコードを有する相補的オリゴヌクレオチドのハイブリダイゼーションにより捕捉することができる（図２９Ｂ）。いくつかの実施形態において、固体支持体に固定化されたオリゴヌクレオチドは、バーコードに加えて、プライマー結合部位、固有分子インデックス（ＵＭＩ：ｕｎｉｑｕｅｍｏｌｅｃｕｌａｒｉｎｄｉｃｅｓ）をさらに含んでいてもよい。

有利なことに、このようにトランスポソームを用いて、フラグメント化された核酸の物理的近接性を保つことにより、同じ起源の分子、例えば、染色体からのフラグメント化された核酸が、同じ固有のバーコード及びインデックス情報を固体支持体に固定化されたオリゴヌクレオチドから受け取る可能性が増える。これにより、固有のバーコードを有する連結シークエンシングライブラリーが得られることになる。連結シークエンシングライブラリーをシークエンスして、連続配列情報を引き出すことができる。

図１６及び１７は、固有のバーコード又はインデックスを有する連結ライブラリーを作製する本発明の上記態様の、例示的な実施形態の模式図を示す。例示的な方法は、ＣＰＴ−ＤＮＡと、固有のインデックス及びバーコードを有する固体支持体上の固定化オリゴヌクレオチドとのライゲーション、及び鎖置換ＰＣＲを活用して、シークエンシングライブラリーを生成する。１つの実施形態において、クローンインデックス付きビーズは、ランダム又は特定のプライマー及びインデックス等の固定化ＤＮＡ配列で生成してもよい。連結ライブラリーは、固定化オリゴヌクレオチドへのハイブリダイゼーションとその後のライゲーションにより、クローンインデックス付きビーズ上に捕捉することができる。分子内ハイブリダイゼーション捕捉は、分子間ハイブリダイゼーションよりもはるかに速いため、連続転位ライブラリーが、ビーズに「巻き付く（ｗｒａｐａｒｏｕｎｄ）」ことになる。図１８及び１９は、クローンインデックス付きビーズ上でのＣＰＴ−ＤＮＡの捕捉及び連続性情報の保存を示す。鎖置換ＰＣＲは、クローンビーズインデックス情報を個々の分子に転移することができる。従って、各連結ライブラリーは、特異的にインデックス付けされることになる。

いくつかの実施形態において、固体支持体に固定化されたオリゴヌクレオチドは、一方の鎖は固体支持体に固定化され、もう一方の鎖は、固定化された鎖に部分的に相補的であることによりＹ−アダプターとなるような、部分的二本鎖構造を含むことができる。いくつかの実施形態において、固体支持体に固定化されたＹ−アダプターは、ライゲーション及びギャップ充填により連結タグメント化ＤＮＡに結合する。図２０に示す。

いくつかの実施形態において、Ｙ−アダプターは、ビーズ等の固体支持体上のプローブ／インデックスを用いた、ＣＰＴ−ＤＮＡのハイブリダイゼーション捕捉を通じて、形成される。図２１は、このようなＹ−アダプターを作製する例示的なスキームを示す。これらのＹ−アダプターを使用することにより、潜在的に各フラグメントがシークエンシングライブラリーになる可能性があることを確かにする。これにより、シークエンシング当たりの適用範囲（ｃｏｖｅｒａｇｅ）が増加する。

いくつかの実施形態において、遊離トランスポソームを、ＣＰＴ−ＤＮＡから分離してもよい。いくつかの実施形態において、遊離トランスポソームの分離は、サイズ排除クロマトグラフィーによる。１つの実施形態において、分離は、ＭｉｃｒｏＳｐｉｎＳ−４００ＨＲＣｏｌｕｍｎｓ（ペンシルバニア州ピッツバーグ、ＧＥＨｅａｌｔｈｃａｒｅＬｉｆｅＳｃｉｅｎｃｅｓ社）により行ってもよい。図２２は、遊離トランスポソームから分離したＣＰＴ−ＤＮＡのアガロースゲル電気泳動を示す。

ハイブリダイゼーションを通じた連結転位標的核酸の固体支持体上への捕捉には、いくつかの特有の利点がある。１つ目としては、方法は、ハイブリダイゼーションに基づくものであり、転位に基づくものではない。分子内ハイブリダイゼーション率＞＞分子間ハイブリダイゼーション率である。従って、単一の標的ＤＮＡ分子の連続転位ライブラリーが固有インデックス付きビーズに巻き付く可能性は、２つ又はそれ以上の異なる単一の標的ＤＮＡ分子が固有インデックス付きビーズに巻き付くのに比べてはるかに高い。２つ目としては、ＤＮＡの転位及び転位したＤＮＡのバーコード化は、２つの別個のステップで生じる。３つ目としては、ビーズ上の活性化トランスポソームのアセンブリ及び固体表面上のトランスポゾンの表面密度の最適化に関連した課題を、回避することができる。４つ目としては、自己転位産物をカラム精製により除去することができる。５つ目としては、連結転位ＤＮＡがギャップを含むため、ＤＮＡがより柔軟であり、それ故、トランスポソームをビーズに固定化する方法に比べて、転位密度（挿入サイズ）への負荷が少ない。６つ目としては、方法に、組み合わせ（ｃｏｍｂｉｎａｔｏｒｉａｌ）バーコードスキームを用いることができる。７つ目としては、インデックス付きオリゴをビーズに共有結合させるのが容易である。従って、インデックス交換の可能性が少ない。８つ目としては、タグメント化及びその後のＰＣＲ増幅を多重化してもよく、単一反応区画（「ワンポット」）反応で行うことができるため、各インデックス配列に対して個々の反応を行う必要がなくなる。

いくつかの実施形態において、転位の間に、複数の固有のバーコードを標的核酸全体にわたって挿入してもよい。いくつかの実施形態において、各バーコードは、間にフラグメント化部位が配置された第１のバーコード配列及び第２のバーコード配列を含む。第１のバーコード配列及び第２のバーコード配列は、互いにペアとなるように同定又は設計することができる。第１のバーコードと第２のバーコードとが関連するようにペアを作ることは、有益（ｉｎｆｏｒｍａｔｉｖｅ）である可能性がある。有利なことに、ペアとなったバーコード配列を用いて、シークエンシングデータを鋳型核酸のライブラリーからアセンブルすることができる。例えば、第１のバーコード配列を含む第１の鋳型核酸、及び第１のバーコード配列とペアとなる第２のバーコード配列含む第２の鋳型核酸を同定することは、第１及び第２の鋳型核酸が、標的核酸の配列表示において互いに隣接した配列を表すことを意味する。このような方法を用いて、参照ゲノムを必要とすることなく、標的核酸の配列表示をデノボで（新たに）アセンブルすることができる。

１つの態様において、本発明は、特定のＤＮＡフラグメントのショットガン配列ライブラリーを生成する方法及び組成物に関する。

１つの実施形態において、クローンビーズインデックス付きビーズを、固定化オリゴヌクレオチド配列：ランダム又は特異的なプライマー及び固有のインデックスで生成する。標的核酸を、クローンインデックス付きビーズに加える。いくつかの実施形態において、標的核酸は、ＤＮＡである。１つの実施形態において、標的ＤＮＡを変性させる。標的ＤＮＡは、固体表面（例えば、ビーズ）に固定化された固有のインデックスを含むプライマーにハイブリダイズし、続いて、同じインデックスを有する別のプライマーにハイブリダイズする。ビーズ上のプライマーは、ＤＮＡを増幅させる。１つ又はそれ以上の更なる増幅ラウンドを行ってもよい。１つの実施形態において、増幅は、３’ランダムｎ量体配列を有するビーズ固定化プライマーを用いて、全ゲノム増幅により行ってもよい。好ましい実施形態において、ランダムｎ量体は、増幅中のプライマー−プライマー相互作用を防ぐために、疑似相補的塩基（２−チオチミン、２−アミノｄＡ、Ｎ４−エチルシトシン等）を含む（Ｈｏｓｈｉｋａ，Ｓ；Ｃｈｅｎ，Ｆ；Ｌｅａｌ，ＮＡ；Ｂｅｎｎｅｒ，ＳＡ，Ａｎｇｅｗ．Ｃｈｅｍ．Ｉｎｔ．Ｅｄ．４９（３２）５５５４−５５５７（２０１０））。図２３は、特定のＤＮＡフラグメントのショットガン配列ライブラリーを生成する例示的なスキームを示す。クローンインデックス付きシークエンシングライブラリー及び増幅産物のライブラリーを生成することができる。１つの実施形態において、このようなライブラリーは、転位により生成することができる。インデックス情報を指針として用いることにより、クローンインデックス付きライブラリーの配列情報を用いて、連続性情報をアセンブルすることができる。図２４は、クローンインデックス付きシークエンシングライブラリーから配列情報をアセンブルする例示的なスキームを示す。

上記実施形態の方法には、いくつかの利点がある。ビーズ上での分子内増幅は、ビーズ間増幅よりもはるかに速い。従って、ビーズ上の生成物は、同じインデックスを有することになる。特定のＤＮＡフラグメントのショットガンライブラリーを、作製することができる。ランダムプライマーは、ランダムな場所で鋳型を増幅するため、同じインデックスを有するショットガンライブラリーを特定の分子から生成することができ、インデックス付き配列を用いて配列情報をアセンブルすることができる。上記実施形態の方法の大きな利点は、反応を単一の反応（ワンポット反応）で多重化することができ、多くの個別のウェルを用いる必要がなくなることである。多くのインデックス付きクローンビーズを調製することができ、そのため、多くの異なるフラグメントを固有にラベルすることができ、同じゲノム領域に対して親対立遺伝子を識別することができる。多数のインデックスを用いることにより、父親のＤＮＡコピー及び母親のＤＮＡコピーが同じゲノム領域に対して同じインデックスを受け取る可能性は低い。当該方法は、内（ｉｎｔｒａ）反応が間（ｉｎｔｅｒ）反応よりもはるかに速いという事実を利用するものであり、ビーズは、大きな物理的区画において実質的な仕切りを基本的に作り出す。

本発明の全ての上記態様のうちのいくつかの実施形態において、方法を、無細胞ＤＮＡ（ｃｆＤＮＡ：ｃｅｌｌｆｒｅｅＤＮＡ）アッセイにおいてｃｆＤＮＡに用いてもよい。いくつかの実施形態において、ｃｆＤＮＡは、血漿、胎盤液から得る。

１つの実施形態において、血漿は、膜ベースの沈降支援血漿分離器を用いて無希釈の全血から得ることができる（Ｌｉｕｅｔａｌ．ＡｎａｌＣｈｅｍ．２０１３Ｎｏｖ５；８５（２１）：１０４６３−７０）。１つの実施形態において、血漿分離器における血漿採取ゾーンは、トランスポソームを含む固体支持体を含んでいてもよい。トランスポソームを含む固体支持体は、血漿が全血から分離される時に、単離された血漿からｃｆＤＮＡを捕捉してもよく、ｃｆＤＮＡの濃縮及び／又はＤＮＡのタグメント化を行うことができる。いくつかの実施形態において、タグメント化は、固有のバーコードをさらに導入することにより、続いて分離（ｄｅｍｕｌｔｉｐｌｅｘｉｎｇ）を、ライブラリープールのシークエンシング後に行うことを可能にするであろう。

いくつかの実施形態において、分離器の採取ゾーンは、ＰＣＲマスターミックス（プライマー、ヌクレオチド、バッファー、金属）及びポリメラーゼを含んでいてもよい。１つの実施形態において、マスターミックスは、血漿が分離器から出てくる時に再構成されるように、乾燥状態であってもよい。いくつかの実施形態において、プライマーは、ランダムプライマーである。いくつかの実施形態において、プライマーは、特定の遺伝子に対する特異的プライマーであってもよい。ｃｆＤＮＡのＰＣＲ増幅の結果として、分離された血漿から直接ライブラリーを生成することになる。

いくつかの実施形態において、分離器の採取ゾーンは、ＲＴ−ＰＣＲマスターミックス（プライマー、ヌクレオチド、バッファー、金属）、逆転写酵素、及びポリメラーゼを含んでいてもよい。いくつかの実施形態において、プライマーは、ランダムプライマー又はオリゴｄＴプライマーである。いくつかの実施形態において、プライマーは、特定の遺伝子に対する特異的プライマーであってもよい。得られたｃＤＮＡは、シークエンシングに用いることができる。或いは、ｃＤＮＡは、配列ライブラリー調製のために、固体支持体に固定化されたトランスポソームで処理してもよい。

いくつかの実施形態において、血漿分離器は、バーコード（１Ｄ又は２Ｄバーコード）を含んでいてもよい。いくつかの実施形態において、分離装置は、採血装置を有していてもよい。これにより、血液を血漿分離器及びライブラリー調製装置に直接送ることになる。いくつかの実施形態において、装置は、下流配列分析器を有していてもよい。いくつかの実施形態において、配列分析器は、単回使用シークエンサーである。いくつかの実施形態において、シークエンサーは、まとめてシークエンシングする前に、サンプルの列を作ることができる。或いは、シークエンサーは、サンプルがシークエンシング領域に送達される、ランダムアクセス機能を有していてもよい。

いくつかの実施形態において、血漿用採取ゾーンは、無細胞ＤＮＡが濃縮されるように、シリカ基質を含んでいてもよい。

フェージング及びメチル化の同時検出
５−メチルシトシン（５−Ｍｅ−Ｃ）及び５−ヒドロキシメチルシトシン（５−ヒドロキシ−Ｃ）は、エピジェネティック（Ｅｐｉ）修飾としても知られ、細胞代謝、分化、及び癌増殖において重要な役割を果たす。本願の発明者らは、驚くべきことに、且つ予想外にも、フェージング及び同時のメチル化の検出が、本願の方法及び組成物を用いて可能であることを見出した。本願の方法は、ビーズ上でのＣＰＴシークエンシング（ＣＰＴ−ｓｅｑ）（インデックス付き連結ライブラリー）とＤＮＡメチル化検出とを組み合わせることを可能にするものである。例えば、ビーズ上に生成された個々のライブラリーを亜硫酸水素塩で処理して、非メチル化ＣをＵに変換するが、メチル化ＣはＵに変換しないことにより、５−Ｍｅ−Ｃの検出を可能にすることができる。ヘテロ接合ＳＮＰを用いた更なるフェージング分析を通じて、Ｅｐｉ−メチル化−フェージングブロックを複数のメガ塩基領域で確立することができる。

いくつかの実施形態において、分析されるＤＮＡのサイズは、約１００塩基〜約複数メガ塩基まで可能である。いくつかの実施形態において、分析されるＤＮＡのサイズは、約１００塩基、２００塩基、３００塩基、４００塩基、５００塩基、６００塩基、７００塩基、８００塩基、９００塩基、１０００塩基、１２００塩基、１３００塩基、１５００塩基、２０００塩基、３０００塩基、３５００塩基、４０００塩基、４５００塩基、５０００塩基、５５００塩基、６０００塩基、６５００塩基、７０００塩基、７５００塩基、８０００塩基、８５００塩基、９０００塩基、９５００塩基、１０，０００塩基、１０，５００塩基、１１，０００塩基、１１，５００塩基、１２，０００塩基、１２，５００塩基、１３，０００塩基、１４，０００塩基、１４，５００塩基、１５，０００塩基、１５，５００塩基、１６，０００塩基、１６，５００塩基、１７，０００塩基、１７，５００塩基、１８，０００塩基、１８，５００塩基、１９，０００塩基、１９，５００塩基、２０，０００塩基、２０，５００塩基、２１，０００塩基、２１，５００塩基、２２，０００塩基、２２，５００塩基、２３，０００塩基、２３，５００塩基、２４，０００塩基、２４，５００塩基、２５，０００塩基、２５，５００塩基、２６，０００塩基、２６，５００塩基、２７，０００塩基、２７，５００塩基、２８，０００塩基、２８，５００塩基、２９，５００塩基、３０，０００塩基、３０，５００塩基、３１，０００塩基、３１，５００塩基、３２，０００塩基、３３，０００塩基、３４，０００塩基、３５，０００塩基、３６，０００塩基、３７，０００塩基、３８，０００塩基、３９，０００塩基、４０，０００塩基、４２，０００塩基、４５，０００塩基、５０，０００塩基、５５，０００塩基、６０，０００塩基、６５，０００塩基、７０，０００塩基、７５，０００塩基、８０，０００塩基、８５，０００塩基、９０，０００塩基、９５，０００塩基、１００，０００塩基、１１０，０００塩基、１２０，０００塩基、１３０，０００塩基、１４０，０００塩基、１５０，０００塩基、１６０，０００塩基、１７０，０００塩基、１８０，０００塩基、２００，０００塩基、２２５，０００塩基、２５０，０００塩基、３００，０００塩基、３５０，０００塩基、４００，０００塩基、４５０，０００塩基、５００，０００塩基、５５０，０００塩基、６００，０００塩基、６５０，０００塩基、７００，０００塩基、７５０，０００塩基、８００，０００塩基、８５０，０００塩基、９００，０００塩基、１，０００，０００塩基、１，２５０，０００塩基、１，５００，０００塩基、２，０００，０００塩基、２，５００，０００塩基、３，０００，０００塩基、４，０００，０００塩基、５，０００，０００塩基、６，０００，０００塩基、７，０００，０００塩基、８，０００，０００塩基、９，０００，０００塩基、１０，０００，０００塩基、１５，０００，０００塩基、２０，０００，０００塩基、３０，０００，０００塩基、４０，０００，０００塩基、５０，０００，０００塩基、７５，０００，０００塩基、１００，０００，０００塩基、又はそれ以上である。

５−ヒドロキシ−Ｃ、ＤＮＡ酸化生成物、ＤＮＡアルキル化生成物、ヒストン末端（ｈｉｓｔｏｎｅ−ｆｏｏｔ）プリンティング等の他のＥｐｉ修飾はまた、本願に開示する方法及び組成物を用いてフェージングの中で分析することもできる。

いくつかの実施形態において、ＤＮＡは、初めに、固体支持体上でインデックス付き結合ライブラリーに変換される。元のＤＮＡよりもはるかに小さい個々のインデックス付きライブラリーは、個々のライブラリーがより小さいため、フラグメント化され難い。インデックス付きライブラリーの小画分が消失したとしても、フェージング情報は、インデックス付きＤＮＡ分子の全長にわたって依然として維持される。例えば、１００ｋｂの分子の場合、従来の亜硫酸水素塩変換（ＢＳＣ）では半分にフラグメント化され、連続性はもはや５０ｋｂに制限される。本明細書に開示する方法では、１００ｋｂのライブラリーは、初めにインデックス化され、個々のライブラリーの画分が消失しても、連続性は、依然として〜１００ｋｂである（全ライブラリーがＤＮＡ分子の一端から消失する稀な事態を除いて）。また、本明細書に開示する方法は、従来の亜硫酸水素塩変換アプローチでは必要とされるのとは対照的に、更なる精製ステップが必要とされないことにより、収率が上がるため、さらに利点を有する。本明細書に開示する方法では、ビーズは、亜硫酸水素塩変換の後に洗浄するだけである。さらに、ＤＮＡが固相に結合しているままで、ＤＮＡ（インデックス付きライブラリー）の最小限の消失及び少ない手間でバッファー交換を容易に行うことができる。

フェージング及びメチル化の同時検出の例示的なスキームを図４３に示す。操作フローは、ビーズ上でのＤＮＡのタグメント化、９塩基対の反復領域のギャップ充填ライゲーション、ＳＤＳによるＴｎ５の除去、及びビーズ上の個々のライブラリーの亜硫酸水素塩変換からなる。隣接する相補的ライブラリーが再アニールしないことを確実にするために、亜硫酸水素塩変換を変性条件下で行い、それにより、亜硫酸水素塩変換効率を低下させる。ＢＳＣは、非メチル化ＣをＵに変換し、メチル化Ｃは、変換されない。

図４４は、フェージング及びメチル化の同時検出の別の例示的なスキームを示す。転位後にシークエンシングライブラリーを調製した後、一本鎖鋳型を調製するために、ギャップ充填ライゲーションしたライブラリーの画分を分解する。一本鎖鋳型は、既に鋳型が、ライブラリーの消失を低減すること又は亜硫酸水素塩変換効率を改善することができる一本鎖であるため、亜硫酸水素塩変換に対してより穏やかな条件を必要とする。１つの実施形態において、３’チオ保護トランスポゾン（Ｅｘｏ抵抗性）及び非保護トランスポゾンの混合物を、同じビーズ上で用いる。酵素、例えば、ＥｘｏＩを用いて、非チオ保護ライブラリーを分解し、それらを一本鎖ライブラリーに変換することができる。チオ保護トランスポゾン：非保護トランスポゾンが５０：５０である混合物を用いることにより、ライブラリーの５０％を一本鎖ライブラリーに変換し（５０％では、ライブラリーの１つのトランスポゾンは保護されており、１つのトランスポゾン（相補鎖）は保護されていない）、２５％は変換せず（両方のトランスポゾンがチオ保護されている）、２５％は両方とも変換してライブラリー全体を除去する（両方のトランスポゾンが保護されていない）。

ストレプトアビジン磁性ビーズ等の固相に結合したＤＮＡの亜硫酸水素塩変換を行う上での１つの課題は、ＤＮＡが結合したビーズを、亜硫酸水素ナトリウムにより高温で長時間処理することで、ＤＮＡ及びビーズの両方に損傷を与えることである。ＤＮＡ損傷の回復を助けるため、キャリアＤＮＡ（即ち、ラムダＤＮＡ）を亜硫酸水素塩処理前に反応混合物に加える。キャリアＤＮＡが存在しても、当初のＤＮＡの約８０％が消失することが予測された。結果として、ＣＰＴＳｅｑ連続性ブロックは、従来のＣＰＴＳｅｑプロトコルよりも少ないメンバーを有する。

従って、本明細書において、Ｅｐｉ−ＣＰＴＳｅｑプロトコルのＤＮＡ収量を改善するためのいくつかのストラテジーを提案する。第１のストラテジーは、ストレプトアビジンビーズにトランスポソーム複合体をより密集させることで、ライブラリー挿入サイズを小さくすることに依拠する。ライブラリーサイズを小さくすることにより、より少ない割合のライブラリーエレメントが亜硫酸水素塩処理により分解される。

Ｅｐｉ−ＣＰＴＳｅｑプロトコルのＤＮＡ収量を改善するための第２のストラテジーは、破損したライブラリーエレメントを酵素により回復させることである。回復ストラテジーの目的は、ライブラリー増幅に必要な３’共通配列を、亜硫酸水素塩処理中に３’部分が分解及び消失したビーズ結合ライブラリーエレメントに再び加えることである。３’共通配列を加えた後は、これらのエレメントをＰＣＲ増幅及びシークエンシングすることができる。図６７及び６８は、このストラテジーの例示的なスキームを示す。二本鎖ＣＰＴＳｅｑライブラリーエレメントを変性し、亜硫酸水素塩変換する（上段）。亜硫酸水素塩変換の間に、ＤＮＡ鎖の１つが損傷を受け（中段）、３’末端上のＰＣＲ共通配列が消失する。鋳型救出ストラテジーにより、ＰＣＲ増幅に必要な３’共通配列（緑色）を回復させる（下段）。１つの例において、３’リン酸化アテニュエーターオリゴ、即ち、シークエンシングアダプターとそれに続くオリゴｄＴストレッチを含む配列の存在下で、ターミナルトランスフェラーゼを使用する（図６８Ａ）。簡単に言えば、ＴｄＴが、１０〜１５ｄＡのストレッチを、アテニュエーターオリゴのオリゴｄＴ部分にアニールする破損ライブラリーエレメントの３’末端に、加える。このＤＮＡハイブリッドの形成により、ＴｄＴ反応が停止し、破損ライブラリーエレメントの３’末端をＤＮＡポリメラーゼにより結果的に伸長させるための鋳型をもたらす。

別の操作フロー（図６８Ｂ）では、ＴｄＴテーリング反応を、一本鎖オリゴｄＴ部分及び５’リン酸化二本鎖シークエンシングアダプター部分を有する部分的二本鎖アテニュエーターオリゴの存在下で行う。ＴｄＴ反応の終結時、最後に付加されたｄＡと５’リン酸化アテニュエーターオリゴとの間のニックを、ＤＮＡリガーゼで封止する。

記載した操作フローのどちらも、近年開発された制御可能なＴｄＴテーリング反応に依拠しており、米国特許出願公開第２０１５／００８７０２７号明細書に記載されている。共通シークエンシングアダプターはまた、近年導入されたＭＭＬＶＲＴのｓｓＤＮＡ鋳型スイッチング活性により、破損ライブラリーエレメントの３’末端に付加することができる。つまり、ＭＭＬＶＲＴ及び鋳型スイッチオリゴ（ＴＳオリゴ：ｔｅｍｐｌａｔｅｓｗｉｔｃｈ＿ｏｌｉｇｏ）を、損傷ＤＮＡに加える（図６８Ｃ）。この反応の最初のステップにおいて、逆転写酵素は、一本鎖ＤＮＡフラグメントの３’末端にいくつかの追加のヌクレオチドを付加し、これらの塩基は、ＴＳオリゴの１つの３’末端に存在するオリゴ（Ｎ）配列とペアを作る。次いで、逆転写酵素の鋳型スイッチング活性により、アニールされた共通プライマーの配列をＢＳＣ破損ライブラリーエレメントの３’末端に付加し、共通シークエンシングプライマーによるＰＣＲで増幅される能力を回復させる。

第３のストラテジーの一部として、Ｅｐｉｃｅｎｔｒｅ社のＥｐｉＧｅｎｏｍｅキット「ポスト亜硫酸水素塩変換」ライブラリー構築法を用いて、亜硫酸水素塩変換中に３’末端の共通配列を消失したライブラリーエレメントを救出することができる。図６９に示すように、このライブラリー救出法は、共通配列及びそれに続く短いストレッチのランダム配列を有する３’リン酸化オリゴを利用する。これらの短いランダム配列は、亜硫酸水素塩処理一本鎖ＤＮＡにハイブリダイズし、続いて共通配列が、ＤＮＡポリメラーゼにより破損ライブラリー鎖に複製される。

図７４は、ビーズ上での亜硫酸水素塩シークエンシング法を改良する第４のストラテジーを示す。捕捉タグを含む第１の共通配列を、ＤＮＡの５’末端に共有結合させる。第１の共通配列は、片側転位（図示する）、アダプターライゲーション、又は米国特許出願公開第２０１５／００８７０２７号明細書に記載されたターミナルトランスフェラーゼ（ＴｄＴ）アダプターライゲーションを含む、種々の方法を用いてＤＮＡに結合させることができる。

次に、ＤＮＡを変性させ（例えば、高熱でのインキュベーション）、固体支持体に結合させる。ビオチンをＣＳ１上の捕捉タグとして使用する場合は、例えば、ＤＮＡは、ストレプトアビジン磁性ビーズ（図示する）を用いて結合させることができる。固体支持体に結合してしまえば、バッファー交換を容易に行うことができる。

次のステップにおいて、ｓｓＤＮＡの亜硫酸水素塩変換を行う。一本鎖の形では、ＤＮＡは、亜硫酸水素塩変換に容易に利用できるはずであり、Ｐｒｏｍｅｇａ社のＭｅｔｈｙｌＥｄｇｅＢＳＣキットの改良版を用いて変換効率９５％まで観察した（図７５）。

亜硫酸水素塩変換後、第２の共通配列を、固体支持体に結合したｓｓＤＮＡの３’末端に共有結合させる。オリゴをｓｓＤＮＡに共有結合させるためのいくつかの方法を、上述してきた。ＴｄＴアテニュエーター／アダプターライゲーション法を用いて、＞９５％のライゲーション効率を達成した。結果として、提案したメチルシークエンシング（ＭｅｔｈｙｌＳｅｑ）操作フローを用いた最終ライブラリーの収量は、既存の方法よりも高くなるはずである。

最終ステップにおいて、ＰＣＲを行ってライブラリーを増幅し、ライブラリーを固体支持体から除去する。ＰＣＲプライマーは、シークエンシングアダプター等の追加の共通配列を、ＭｅｔｈｙｌＳｅｑライブラリーの末端に付加するようにデザインすることができる。

単一アッセイにおける様々なサイズのライブラリーの調製
ゲノムのアセンブリの精度は、様々な長さスケールの技術の使用次第である。例えば、ショットガン（数百ｂｐ）−メイトペア（〜３Ｋｂ）から−Ｈｉ−Ｃ（Ｍｂスケール）は全て、アセンブリ及びコンティグ長を経時的に改良する方法である。課題は、これを行うために多重アッセイが必要であり、多層アプローチを扱い難く且つ費用が掛かるものとしていることである。本明細書に開示する組成物及び方法は、単一のアッセイで複数の長さスケールに対応することができる。

いくつかの実施形態において、ライブラリー調製を、サイズの異なる固体支持体、例えば、ビーズを用いて単一アッセイで達成することができる。各ビーズのサイズは、ビーズの物理的サイズがライブラリーサイズを決定し、特定のライブラリーサイズ又はサイズ範囲をもたらすことになる。様々なサイズのビーズは全て、ライブラリーに転移する固有のクローンインデックスを有する。従って、様々なサイズのライブラリーが、固有にインデックス付けされた異なる各ライブラリースケール長で生成される。様々な長さスケールのライブラリーを同じ物理的区画で同時に調製するため、コストが減り、操作フロー全体を改善する。いくつかの実施形態において、各特定の固体支持体サイズ、例えば、ビーズサイズは、固有のインデックスを受け取る。いくつかの他の実施形態において、同じ固体支持体サイズ、例えば、同じビーズサイズの複数の異なるインデックスもまた調製することで、複数のＤＮＡ分子をそのサイズ範囲に対してインデックス区分することができる。図４５は、単一アッセイで、様々なサイズのクローンインデックス付きビーズを用いて様々なサイズのライブラリーを生成する例示的なスキームを示す。

いくつかの実施形態において、生成されるライブラリーのサイズは、約５０塩基、７５塩基、１００塩基、１５０塩基、２００塩基、２５０塩基、３００塩基、３５０塩基、４００塩基、５００塩基、６００塩基、７００塩基、８００塩基、９００塩基、１０００塩基、１２００塩基、１３００塩基、１５００塩基、２０００塩基、３０００塩基、３５００塩基、４０００塩基、４５００塩基、５０００塩基、５５００塩基、６０００塩基、６５００塩基、７０００塩基、７，５００塩基、８０００塩基、８５００塩基、９０００塩基、９５００塩基、１０，０００塩基、１０，５００塩基、１１，０００塩基、１１，５００塩基、１２，０００塩基、１２，５００塩基、１３，０００塩基、１４，０００塩基、１４，５００塩基、１５，０００塩基、１５，５００塩基、１６，０００塩基、１６，５００塩基、１７，０００塩基、１７，５００塩基、１８，０００塩基、１８，５００塩基、１９，０００塩基、１９，５００塩基、２０，０００塩基、２０，５００塩基、２１，０００塩基、２１，５００塩基、２２，０００塩基、２２，５００塩基、２３，０００塩基、２３，５００塩基、２４，０００塩基、２４，５００塩基、２５，０００塩基、２５，５００塩基、２６，０００塩基、２６，５００塩基、２７，０００塩基、２７，５００塩基、２８，０００塩基、２８，５００塩基、２９，５００塩基、３０，０００塩基、３０，５００塩基、３１，０００塩基、３１，５００塩基、３２，０００塩基、３３，０００塩基、３４，０００塩基、３５，０００塩基、３６，０００塩基、３７，０００塩基、３８，０００塩基、３９，０００塩基、４０，０００塩基、４２，０００塩基、４５，０００塩基、５０，０００塩基、５５，０００塩基、６０，０００塩基、６５，０００塩基、７０，０００塩基、７５，０００塩基、８０，０００塩基、８５，０００塩基、９０，０００塩基、９５，０００塩基、１００，０００塩基、１１０，０００塩基、１２０，０００塩基、１３０，０００塩基、１４０，０００塩基、１５０，０００塩基、１６０，０００塩基、１７０，０００塩基、１８０，０００塩基、２００，０００塩基、２２５，０００塩基、２５０，０００塩基、３００，０００塩基、３５０，０００塩基、４００，０００塩基、４５０，０００塩基、５００，０００塩基、５５０，０００塩基、６００，０００塩基、６５０，０００塩基、７００，０００塩基、７５０，０００塩基、８００，０００塩基、８５０，０００塩基、９００，０００塩基、１，０００，０００塩基、１，２５０，０００塩基、１，５００，０００塩基、２，０００，０００塩基、２，５００，０００塩基、３，０００，０００塩基、４，０００，０００塩基、５，０００，０００塩基、６，０００，０００塩基、７，０００，０００塩基、８，０００，０００塩基、９，０００，０００塩基、１０，０００，０００塩基、１５，０００，０００塩基、２０，０００，０００塩基、３０，０００，０００塩基、４０，０００，０００塩基、５０，０００，０００塩基、７５，０００，０００塩基、１００，０００，０００塩基、又はそれ以上である。

いくつかの実施形態において、上述の複数の長さスケールのライブラリーを、１つの大きな長さスケールを有する代わりに、疑似遺伝子、パラログ等のアセンブリに用いることができる。いくつかの実施形態において、複数の長さスケールのライブラリーを、単一アッセイで同時に調製する。利点は、少なくとも１つの長さスケールが、疑似遺伝子又は遺伝子のみを有し、両方は有さない固有領域に結合することである。従って、この長さスケールで検出される変異は、遺伝子又は疑似遺伝子のどちらかに変異を一意的に決めることができる。同じことがコピー数の変異、パラログ等にも当てはまる。アセンブリの長所は、異なる長さスケールの使用である。本明細書に開示する方法を用いることにより、異なる長さスケールのインデックス付き結合ライブラリーを、異なる長さスケールのための個々の異なるライブラリー調製を行わずに、単一のアッセイで生成することができる。図４６は、異なる長さスケールのライブラリーで遺伝子変異を決定する例示的なスキームを示す。

遺伝子変異の分析
本明細書に開示する組成物及び方法は、遺伝子変異の分析に関する。例示的な遺伝子変異としては、これに限定されないが、欠損、染色体間転位、重複、パラログ、染色体間遺伝子融合が挙げられる。いくつかの実施形態において、本明細書に開示する組成物及び方法は、遺伝子変異のフェージング情報の決定に関する。以下の表は、例示的な染色体間遺伝子融合を示す。

表２は、染色体１における例示的な欠損を示す。

いくつかの実施形態において、標的核酸は、標的核酸をトランスポソームに曝す前にフラグメント化することができる。例示的なフラグメント化法としては、これに限定されないが、超音波処理、機械的剪断、及び制限消化が挙げられる。タグメント化（フラグメント化及びタグ化）前の標的核酸のフラグメント化は、疑似遺伝子（例えば、ＣＹＰ２Ｄ６）のアセンブリ／フェージングに有利である。インデックス付き結合リードの長い島（＞３０ｋｂ）は、図６４に示すように、疑似遺伝子Ａ及びＡ’に及ぶであろう。高い配列相同性のため、どの変異が遺伝子Ａ及び遺伝子Ａ’に属するのかを決定することが課題となるであろう。より短い変異は、固有の周囲配列で疑似遺伝子の１つの変異に結合するであろう。そのようなより短い島は、タグメント化前に標的核酸をフラグメント化することにより達成することができる。

結合トランスポソーム
いくつかの実施形態において、トランスポザーゼは、トランスポソーム複合体中で多量体であり、例えば、二量体、四量体等をトランスポソーム複合体中で形成する。本願の発明者らは、驚くべきことに、且つ予想外にも、多量体トランスポソーム複合体中の単量体トランスポザーゼを結合させること、又は多量体トランスポソーム複合体中のトランスポソーム単量体のトランスポゾン末端を結合させることには、いくつかの利点があることを見出した。１つ目としては、トランスポザーゼ又はトランスポゾンの結合は、より安定した複合体をもたらし、大きな画分が活性化状態にある。２つ目としては、より低い濃度のトランスポソームを、転位反応によるフラグメント化において用いることができる可能性がある。３つ目としては、結合により、トランスポソーム複合体のモザイク末端（ＭＥ）の交換が少なくなり、それにより、バーコード又はアダプター分子の混合が少なくなる。そのようなＭＥ末端の交換は、複合体がバラバラになり、再編成する場合、又は、トランスポソームがストレプトアビジン／ビオチンにより固体支持体上に固定化され、ストレプトアビジン／ビオチン相互作用が壊れて再編成する場合、又は、コンタミネーションの可能性がある場合に、生じる可能性がある。本願の発明者らは、種々の反応条件下で、ＭＥ末端の重大な交換（ｓｗａｐ又はｅｘｃｈａｎｇｅ）があることに気付いた。いくつかの実施形態において、交換は、１５％にまで達する可能性がある。交換は、高塩濃度バッファーで顕著であり、グルタミン酸バッファーでは低下する。図５７及び５８は、ＭＥ交換のいくつかの考え得るメカニズムを示す。

いくつかの実施形態において、トランスポソーム複合体中のトランスポザーゼのサブユニットは、共有及び非共有手段により互いに結合させることができる。いくつかの実施形態において、トランスポザーゼ単量体は、トランスポソーム複合体を形成する前に（トランスポゾンが加わる前に）結合させることができる。いくつかの実施形態において、トランスポザーゼ単量体は、トランスポソームの形成後に結合させることができる。

いくつかの実施形態において、天然アミノ酸残基を多量体界面でシステイン（Ｃｙｓ）アミノ酸で置換し、ジスルフィド結合の形成を促進していてもよい。例えば、Ｔｎ５トランスポザーゼにおいて、Ａｓｐ４６８、Ｔｙｒ４０７、Ａｓｐ４６１、Ｌｙｓ４５９、Ｓｅｒ４５８、Ｇｌｙ４６２、Ａｌａ４６６、Ｍｅｔ４７０をＣｙｓで置換して、単量体サブユニット間のジスルフィド結合を促進していてもよい。図５９及び６０に示す。Ｍｏｓ−１トランスポザーゼに関して、システインで置換することができる例示的なアミノ酸としては、これに限定されないが、Ｌｅｕ２１、Ｌｅｕ３２、Ａｌａ３５、Ｈｉｓ２０、Ｐｈｅ１７、Ｐｈｅ３６、Ｉｌｅ１６、Ｔｈｒ１３、Ａｒｇ１２、Ｇｌｎ１０、Ｇｌｕ９が挙げられる。図６１に示す。いくつかの実施形態において、システインで置換されたアミノ酸残基を有する修飾トランスポザーゼは、マレイミド又はピリジルジチオール反応基を用いた化学架橋剤を用いて、互いに化学的に架橋させることができる。例示的な化学架橋剤は、ＰｉｅｒｃｅＰｒｏｔｅｉｎＢｉｏｌｏｇｙ／ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ社（米国ニューヨーク州グランドアイランド）から市販されている。

いくつかの実施形態において、トランスポソーム多量体複合体は、固体支持体に共有結合させることができる。例示的な固体支持体としては、これに限定されないが、ナノ粒子、ビーズ、フローセル表面、カラムマトリックスが挙げられる。いくつかの実施形態において、固体表面は、アミン基で被覆されていてもよい。システインで置換されたアミノ酸残基を有する修飾トランスポザーゼは、そのようなアミン基に対し、アミン−スルフヒドリル架橋剤（即ち、スクシンイミジル−４−（Ｎ−マレイミドメチル）シクロヘキサン−１−カルボキシレート（ＳＭＣＣ））を用いて、化学的に架橋させることができる。例示的なスキームを図６２に示す。いくつかの実施形態において、マレイミド−ＰＥＧ−ビオチン架橋剤を用いて、ｄＴｎｐをストレプトアビジン被覆固体表面に結合させてもよい。

いくつかの実施形態において、トランスポザーゼ遺伝子は、単一のポリペプチドで多量体タンパク質を発現するように、修飾することができる。例えば、Ｔｎ５又はＭｏｓ−１遺伝子は、単一のポリペプチドで、２つのＴｎ５又はＭｏｓ−１タンパク質を発現するように修飾することができる。同様に、Ｍｕトランスポザーゼ遺伝子は、単一のポリペプチドで、４つのｍｕトランスポザーゼユニットをコードするように修飾することができる。

いくつかの実施形態において、トランスポソーム単量体単位のトランスポゾン末端を結合させて、結合トランスポソーム多量体複合体を形成することができる。トランスポゾン末端を結合させることにより、プライマー部位を挿入することができ、シークエンシングプライマー、増幅プライマー、又は任意のロール（ｒｏｌｅ）ＤＮＡが、標的ＤＮＡをフラグメント化することなくｇＤＮＡに働くことができる。そのような機能性の挿入は、情報を無傷分子から抽出する必要があるか又はサブサンプリングが重要である、ハプロタイプアッセイ又は結合部タグ化アッセイにおいて、利点である。いくつかの実施形態において、Ｍｕトランスポソームのトランスポゾン末端は、「ループ状の」Ｍｕトランスポザーゼ／トランスポゾン構造に結合させることができる。Ｍｕは四量体であるため、これに制限されないが、Ｒ２ＵＪ及び／又はＲ１ＵＪをＲ２Ｊ及び／又はＲ１Ｊに結合させることにより、種々の構造が可能である。これらの構造において、Ｒ２ＵＪ及びＲ１ＵＪは、Ｒ２Ｊ及びＲ１Ｊと、それぞれ結合することができる又は結合しない。図６３は、トランスポゾン末端が結合したＭｕトランスポソーム複合体を示す。いくつかの実施形態において、Ｔｎ５のトランスポゾン末端又はＭｏｓ−１トランスポソームのトランスポゾン末端を、結合させることができる。

本明細書で用いる場合、用語「トランスポゾン」は、ｉｎｖｉｔｒｏ転位反応において機能するトランスポザーゼ又はインテグラーゼ酵素と複合体を形成するのに必要なヌクレオチド配列（「トランスポゾン末端配列」）のみを示す、二本鎖ＤＮＡを意味する。トランスポゾンは、トランスポゾンを認識し、且つ結合するトランスポザーゼ又はインテグラーゼとともに、「複合体」又は「シナプス複合体」又は「トランスポソーム複合体」又は「トランスポソーム組成物」を形成する。複合体は、ｉｎｖｉｔｒｏ転位反応において一緒にインキュベートする標的ＤＮＡに、トランスポゾンを挿入又は転位することが可能である。トランスポゾンは、「転移トランスポゾン配列」すなわち「転移鎖」、及び「非転移トランスポゾン配列」すなわち「非転移鎖」からなる２つの相補的配列を示す。例えば、ｉｎｖｉｔｒｏ転位反応において活性がある機能亢進性Ｔｎ５トランスポザーゼ（例えば、ＥＺ−Ｔｎ５（商標）トランスポザーゼ、米国ウィスコンシン州マディソン、ＥＰＩＣＥＮＴＲＥＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓ社）とともに複合体を形成する１つのトランスポゾンは、以下の「転移トランスポゾン配列」を示す転移鎖：
５’ＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ３’
及び以下の「非転移トランスポゾン配列」を示す非転移鎖：
５’ＣＴＧＴＣＴＣＴＴＡＴＡＣＡＣＡＴＣＴ３’
を含む。

転移鎖の３’末端は、ｉｎｖｉｔｒｏ転位反応において、標的ＤＮＡに結合又は転移する。非転移鎖は、転移トランスポゾン末端配列に相補的なトランスポゾン配列を示し、ｉｎｖｉｔｒｏ転位反応において、標的ＤＮＡに結合又は転移しない。いくつかの実施形態において、トランスポゾン配列は、以下の配列うちの１つ又はそれ以上を含んでいてもよい：バーコード、アダプター配列、タグ配列、プライマー結合配列、捕捉配列、固有分子識別（ＵＭＩ：ｕｎｉｑｕｅｍｏｌｅｃｕｌａｒｉｄｅｎｔｉｆｉｅｒ）配列。

本明細書で用いる場合、用語「アダプター」は、バーコード、プライマー結合配列、捕捉配列、捕捉配列に相補的な配列、固有分子識別（ＵＭＩ）配列、親和性部分、制限部位を含むことができる核酸配列を意味する。

本明細書で用いる場合、用語「連続性情報」は、共有情報に基づいた、２つ又はそれ以上のＤＮＡフラグメント間の空間的関係を指す。情報の共有態様は、隣接関係、区画関係、及び距離空間関係に関するものとすることができる。これらの関係に関する情報は、順に、ＤＮＡフラグメントに由来する配列リードの階層的なアセンブリ又はマッピングを容易にする。この連続性情報は、そのようなアセンブリ又はマッピングの効率及び精度を改善する。なぜなら、従来のショットガンシークエンシングと関連して用いられる伝統的なアセンブリ又はマッピング法では、個々の配列リードが由来した２つ又はそれ以上のＤＮＡフラグメントの空間的関係に関して、個々の配列リードの相対的なゲノム起源又は座標を考慮に入れないからである。従って、本明細書に記載する実施形態によれば、連続性情報を捕捉する方法を、隣接空間関係を決定する短距離連続性法、区画空間関係を決定する中距離連続性法、又は距離空間関係を決定する長距離連続性法により行ってもよい。これらの方法は、ＤＮＡ配列アセンブリ又はマッピングの精度及び質を高める。また、これらの方法は、上述のシークエンシング法等の任意のシークエンシング法とともに用いてもよい。

連続性情報は、個々の配列リードが由来した２つ又はそれ以上のＤＮＡフラグメントの空間的関係に関して、個々の配列リードの相対的なゲノム起源又は座標を含む。いくつかの実施形態において、連続性情報は、非重複配列リードからの配列情報を含む。

いくつかの実施形態において、標的核酸配列の連続性情報は、ハプロタイプ情報を示す。いくつかの実施形態において、標的核酸配列の連続性情報は、ゲノム変異を示す。

本明細書で用いる場合、用語「標的核酸の連続性の維持」は、核酸のフラグメント化との関連において、同じ標的核酸からのフラグメントの核酸配列の順番を維持することを意味する。

本明細書で用いる場合、用語「少なくとも一部」及び／又はその文法的等価物は、全量のうちの任意の分量を指すことができる。例えば、「少なくとも一部」は、全量の少なくとも約１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９９％、９９．９％、又は１００％を指すことができる。

本明細書で用いる場合、用語「約」は、±１０％を意味する。

本明細書で用いる場合、用語「シークエンシングリード」及び／又はその文法的等価物は、ポリマー中の単量体の順序を示すシグナルを得るために行われる物理的又は化学的ステップの繰り返し工程を指すことができる。シグナルは、単一の単量体解像度又はより低い解像度で単量体の順序を示すことができる。特定の実施形態において、ステップを、核酸標的に対して開始し、核酸標的中の塩基の順序を示すシグナルを得るために行うことができる。工程は、典型的な完了まで行うことができ、典型的な完了とは、通常、工程からのシグナルが、合理的なレベルの確実性で、標的の塩基をそれ以上区別することができない時点までと定義される。所望する場合、例えば、所望の配列情報量が得られるまで等、より早く完了することができる。シークエンシングリードは、単一の標的核酸分子に対して、又は同じ配列を有する標的核酸分子群に対して同時に、又は異なる配列を有する標的核酸群に対して同時に行うことができる。いくつかの実施形態において、シークエンシングリードは、シグナルが、シグナル取得が開始された１つ又はそれ以上の標的核酸分子からそれ以上は得られない時点で、終了する。例えば、シークエンシングリードは、固相基質上に存在する１つ又はそれ以上の標的核酸分子に対して開始し、１つ又はそれ以上の標的核酸分子を基質から除去した時点で終了させることができる。或いは、シークエンシングは、シークエンシングランを開始した時に基質上に存在していた標的核酸の検出を中止することにより、終了することができる。例示的なシークエンシング方法は、その全体が参照により本明細書に組み込まれる、米国特許第９，０２９，１０３号明細書に記載されている。

本明細書で用いる場合、用語「シークエンシング表示」及び／又はその文法的等価物は、ポリマー中の単量体単位の順序及び種類を示す情報を指すことができる。例えば、情報は、核酸中のヌクレオチドの順序及び種類を示すことができる。情報は、例えば、描写、画像、電子メディア、一連の記号、一連の数字、一連の文字、一連の色等を含む、任意の種々の形式であってよい。情報は、単一の単量体解像度又はより低い解像度であってもよい。例示的なポリマーは、ヌクレオチド単位を有するＤＮＡ又はＲＮＡ等の核酸である。一連の「Ａ」、「Ｔ」、「Ｇ」、及び「Ｃ」文字は、単一のヌクレオチド解像度でＤＮＡ分子の実際の配列と相関性があるＤＮＡに対する周知の配列表示である。その他の例示的なポリマーは、アミノ酸単位を有するタンパク質、及び糖単位を有する多糖類である。

固体支持体
本明細書全体を通じて、固体支持体及び固体表面は、交換可能に用いられる。いくつかの実施形態において、固体支持体又はその表面は、管又は容器の内表面又は外表面等、非平面である。いくつかの実施形態において、固体支持体は、ミクロスフェア又はビーズを含む。本明細書において、「ミクロスフェア」又は「ビーズ」又は「粒子」又はその文法的等価物は、小さな分散粒子を意味する。適切なビーズ組成物としては、これに限定されないが、プラスチック、セラミック、ガラス、ポリスチレン、メチルスチレン、アクリルポリマー、常磁性物質、トリアゾル（ｔｈｏｒｉａｓｏｌ）、カーボングラファイト、二酸化チタン、ラテックス、又は、セファロース等の架橋デキストラン、セルロース、ナイロン、架橋ミセル、及びテフロンが挙げられ、同様に、固形支持体として本明細書で概説する任意の他の材料を全て使用することができる。ＢａｎｇｓＬａｂｏｒａｔｏｒｉｅｓ社（インディアナ州フィッシャーズ）の「ミクロスフェア検出ガイド（ＭｉｃｒｏｓｐｈｅｒｅＤｅｔｅｃｔｉｏｎＧｕｉｄｅ）」は、役立つガイドである。特定の実施態様において、ミクロスフェアは、磁性ミクロスフェア又はビーズである。いくつかの実施形態において、ビーズは、色分けされていてもよい。例えば、Ｌｕｍｉｎｅｘ社（テキサス州オースティン）のＭｉｃｒｏＰｌｅｘ（登録商標）ミクロスフェアを用いてもよい。

ビーズは球状である必要はなく、不規則粒子を用いてもよい。代わりに又は加えて、ビーズは多孔質であってもよい。ビーズのサイズは、直径で、ナノメートル即ち約１０ｎｍから、ミリメートル即ち１ｍｍに及び、約０．２ミクロン〜約２００ミクロンのビーズが好ましく、約０．５〜約５ミクロンのビーズが特に好ましいが、いくつかの実施態様において、より小さい又はより大きいビーズを用いてもよい。いくつかの実施態様において、ビーズは、直径が約０．１μｍ、０．２μｍ、０．３μｍ、０．４μｍ、０．５μｍ、０．６μｍ、０．７μｍ、０．８μｍ、０．９μｍ、１μｍ、１．５μｍ、２μｍ、２．５μｍ、２．８μｍ、３μｍ、３．５μｍ、４μｍ、４．５μｍ、５μｍ、５．５μｍ、６μｍ、６．５μｍ、７μｍ、７．５μｍ、８μｍ、８．５μｍ、９μｍ、９．５μｍ、１０μｍ、１０．５μｍ、１５μｍ、２０μｍ、２５μｍ、３０μｍ、３５μｍ、４０μｍ、４５μｍ、５０μｍ、５５μｍ、６０μｍ、６５μｍ、７０μｍ、７５μｍ、８０μｍ、８５μｍ、９０μｍ、９５μｍ、１００μｍ、１５０μｍ、又は２００μｍであってもよい。

トランスポソーム
「トランスポソーム」は、インテグラーゼ又はトランスポザーゼ等の組み込み（インテグレーション）酵素、及びトランスポザーゼ認識部位等の組み込み認識部位を含む核酸を含む。本明細書で提供する実施形態において、トランスポザーゼは、転位反応を触媒することが可能なトランスポザーゼ認識部位とともに機能的複合体を形成することができる。トランスポザーゼは、「タグメント化」と称することもある工程において、トランスポザーゼ認識部位に結合し、トランスポザーゼ認識部位を標的核酸に挿入する可能性がある。いくつかのそのような組み込み事象において、トランスポザーゼ認識部位の１つの鎖が、標的核酸に転移してもよい。１つの例において、トランスポソームは、２つのサブユニットを含む二量体トランスポザーゼ、及び２つの非連続トランスポゾン配列を含む。別の例において、トランスポソームは、２つのサブユニットを含む二量体トランスポザーゼを含むトランスポザーゼ、及び連続トランスポゾン配列を含む。

いくつかの実施形態は、機能亢進性Ｔｎ５トランスポザーゼ及びＴｎ５型トランスポザーゼ認識部位（ＧｏｒｙｓｈｉｎａｎｄＲｅｚｎｉｋｏｆｆ，Ｊ．Ｂｉｏｌ．Ｃｈｅｍ．，２７３：７３６７（１９９８））、又は、ＭｕＡトランスポザーゼ、及びＲ１及びＲ２末端配列を含むＭｕトランスポザーゼ認識部位（Ｍｉｚｕｕｃｈｉ，Ｋ．，Ｃｅｌｌ，３５：７８５，１９８３；Ｓａｖｉｌａｈｔｉ，Ｈ，ｅｔａｌ．，ＥＭＢＯＪ．，１４：４８９３，１９９５）の使用を含めることができる。機能亢進性Ｔｎ５トランスポザーゼと複合体を形成する例示的なトランスポザーゼ認識部位（例えば、ＥＺ−Ｔｎ５（商標）トランスポザーゼ、ウィスコンシン州マディソン、ＥｐｉｃｅｎｔｒｅＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓ社）は、以下の１９塩基の転移鎖（時に、「Ｍ」又は「ＭＥ」）及び非転移鎖：それぞれ、５′ＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ３′、５′ＣＴＧＴＣＴＣＴＴＡＴＡＣＡＣＡＴＣＴ３′を含む。ＭＥ配列はまた、当業者により最適化されて、使用されてもよい。

本明細書で提供する組成物及び方法の特定の実施形態とともに使用することができる転位システムの更なる例としては、黄色ブドウ球菌（Ｓｔａｐｈｙｌｏｃｏｃｃｕｓａｕｒｅｕｓ）Ｔｎ５５２（Ｃｏｌｅｇｉｏｅｔａｌ．，Ｊ．Ｂａｃｔｅｒｉｏｌ．，１８３：２３８４−８，２００１；ＫｉｒｂｙＣｅｔａｌ．，Ｍｏｌ．Ｍｉｃｒｏｂｉｏｌ．，４３：１７３−８６，２００２）、Ｔｙ１（Ｄｅｖｉｎｅ＆Ｂｏｅｋｅ，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．，２２：３７６５−７２，１９９４、及び国際公開第９５／２３８７５号）、トランスポゾンＴｎ７（Ｃｒａｉｇ，ＮＬ，Ｓｃｉｅｎｃｅ．２７１：１５１２，１９９６；Ｃｒａｉｇ，ＮＬ，Ｒｅｖｉｅｗｉｎ：ＣｕｒｒＴｏｐＭｉｃｒｏｂｉｏｌＩｍｍｕｎｏｌ．，２０４：２７−４８，１９９６）、Ｔｎ／Ｏ及びＩＳ１０（ＫｌｅｃｋｎｅｒＮ，ｅｔａｌ．，ＣｕｒｒＴｏｐＭｉｃｒｏｂｉｏｌＩｍｍｕｎｏｌ．，２０４：４９−８２，１９９６）、マリナートランスポザーゼ（ＬａｍｐｅＤＪ，ｅｔａｌ．，ＥＭＢＯＪ．，１５：５４７０−９，１９９６）、Ｔｃ１（ＰｌａｓｔｅｒｋＲＨ，Ｃｕｒｒ．ＴｏｐｉｃｓＭｉｃｒｏｂｉｏｌ．Ｉｍｍｕｎｏｌ．，２０４：１２５−４３，１９９６）、Ｐエレメント（Ｇｌｏｏｒ，ＧＢ，ＭｅｔｈｏｄｓＭｏｌ．Ｂｉｏｌ．，２６０：９７−１１４，２００４）、Ｔｎ３（Ｉｃｈｉｋａｗａ＆Ｏｈｔｓｕｂｏ，ＪＢｉｏｌ．Ｃｈｅｍ．２６５：１８８２９−３２，１９９０）、細菌挿入配列（Ｏｈｔｓｕｂｏ＆Ｓｅｋｉｎｅ，Ｃｕｒｒ．Ｔｏｐ．Ｍｉｃｒｏｂｉｏｌ．Ｉｍｍｕｎｏｌ．２０４：１−２６，１９９６）、レトロウイルス（Ｂｒｏｗｎ，ｅｔａｌ．，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ，８６：２５２５−９，１９８９）、及び酵母のレトロトランスポゾン（Ｂｏｅｋｅ＆Ｃｏｒｃｅｓ，ＡｎｎｕＲｅｖＭｉｃｒｏｂｉｏｌ．４３：４０３−３４，１９８９）が挙げられる。更なる例としては、ＩＳ５、Ｔｎ１０、Ｔｎ９０３、ＩＳ９１１、カタバミ（ＳｌｅｅｐｉｎｇＢｅａｕｔｙ）、ＳＰＩＮ_、ｈＡＴ、ピギーバック（ＰｉｇｇｙＢａｃ）、ハーミス（Ｈｅｒｍｅｓ）、Ｔｃバスター（ＴｃＢｕｓｔｅｒ）、Ａｅバスター１（ＡｅＢｕｓｔｅｒ１）、Ｔｏｌ２、及び改変型トランスポザーゼファミリー酵素（Ｚｈａｎｇｅｔａｌ．，（２００９）ＰＬｏＳＧｅｎｅｔ．５：ｅ１０００６８９．Ｅｐｕｂ２００９Ｏｃｔ１６；ＷｉｌｓｏｎＣ．ｅｔａｌ（２００７）Ｊ．Ｍｉｃｒｏｂｉｏｌ．Ｍｅｔｈｏｄｓ７１：３３２−５）が挙げられる。

本明細書で提供する方法及び組成物とともに使用することができるインテグラーゼの更なる例としては、レトロウイルスインテグラーゼ、及びレトロウイルスインテグラーゼに対するインテグラーゼ認識配列が挙げられ、例えば、ＨＩＶ−１、ＨＩＶ−２、ＳＩＶ、ＰＦＶ−１、ＲＳＶのインテグラーゼが挙げられる。

バーコード
一般に、バーコードは、１つ又はそれ以上の特定の核酸を同定するために使用することができる１つ又はそれ以上のヌクレオチド配列を含むことができる。バーコードは、人工配列であってもよく、或いは、転位の際に生成する自然発生配列、例えば、以前に並置されたＤＮＡフラグメントの末端にある同一のフランキングゲノムＤＮＡ配列（ｇコード）等であってもよい。いくつかの実施形態において、バーコードは、標的核酸配列にはない人工配列であり、１つ又はそれ以上の標的核酸配列を同定するのに用いることができる。

バーコードは、少なくとも約１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、又はそれ以上の連続したヌクレオチドを含んでいてもよい。いくつかの実施形態において、バーコードは、少なくとも約１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、又はそれ以上の連続したヌクレオチドを含む。いくつかの実施形態において、バーコードを含む核酸群におけるバーコードの少なくとも一部は、異なっている。いくつかの実施形態において、バーコードの少なくとも約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％が、異なっている。更なるそのような実施形態において、バーコードの全てが異なっている。バーコードを含む核酸群において、異なるバーコードの多様性は、ランダムに又は非ランダムに生成することができる。

いくつかの実施形態において、トランスポゾン配列は、少なくとも１つのバーコードを含む。２つの非連続トランスポゾン配列を含むトランスポソーム等、いくつかの実施形態において、第１のトランスポゾン配列は、第１のバーコードを含み、第２のトランスポゾン配列は、第２のバーコードを含む。いくつかの実施形態において、トランスポゾン配列は、第１のバーコード配列及び第２のバーコード配列を含むバーコードを含む。前述の実施形態のいくつかにおいて、第１のバーコード配列は、第２のバーコード配列とペアになるように同定又は設計することができる。例えば、互いにペアとなることが知られている複数の第１及び第２のバーコード配列を含む参照表を用いて、既知の第１のバーコード配列が既知の第２のバーコード配列とペアになることを知ることができる。

別の例において、第１のバーコード配列は、第２のバーコード配列と同じ配列を含んでいてもよい。別の例において、第１のバーコード配列は、第２のバーコード配列の逆相補配列を含んでいてもよい。いくつかの実施形態において、第１のバーコード配列及び第２のバーコード配列は、異なる。第１及び第２のバーコード配列は、バイコード（ｂｉ−ｃｏｄｅ）を含んでいてもよい。

本明細書に記載する組成物及び方法のいくつかの実施形態において、バーコードは、鋳型核酸の調製に用いる。当然のことながら、膨大な数の利用可能なバーコードにより、各鋳型核酸分子は、固有の識別を含むことができる。鋳型核酸の混合物における各分子の固有の識別は、いくつかの用途に用いることができる。例えば、固有に識別された分子は、例えば、ハプロタイプシークエンシング、親対立遺伝子の識別、メタゲノムシークエンシング、及びゲノムのサンプルシークエンシングにおいて、複数の染色体を有するサンプル、ゲノム、細胞、細胞型、細胞の病状、及び種における、個々の核酸分子の同定に応用することができる。

例示的なバーコード配列としては、これに限定されないが、ＴＡＴＡＧＣＣＴ、ＡＴＡＧＡＧＧＣ、ＣＣＴＡＴＣＣＴ、ＧＧＣＴＣＴＧＡ、ＡＧＧＣＧＡＡＧ、ＴＡＡＴＣＴＴＡ、ＣＡＧＧＡＣＧＴ、及びＧＴＡＣＴＧＡＣが挙げられる。

プライマー部位
いくつかの実施形態において、トランスポゾン配列は、「シークエンシングアダプター」又は「シークエンシングアダプター部位」、言い換えれば、プライマーにハイブリダイズすることができる１つ又はそれ以上の部位を含む領域を含むことができる。いくつかの実施形態において、トランスポゾン配列は、増幅及びシークエンシング等に有用な少なくとも第１のプライマー部位を含むことができる。配列結合部位の例示的な配列としては、これに限定されないが、ＡＡＴＧＡＴＡＣＧＧＣＧＡＣＣＡＣＣＧＡＧＡＴＣＴＡＣＡＣ（Ｐ５配列）及びＣＡＡＧＣＡＧＡＡＧＡＣＧＧＣＡＴＡＣＧＡＧＡＴ（Ｐ７配列）が挙げられる。

標的核酸
標的核酸としては、任意の目的の核酸を挙げることができる。標的核酸としては、ＤＮＡ、ＲＮＡ、ペプチド核酸、モルフォリノ核酸、ロックド核酸、グリコール核酸、トレオース核酸、核酸の混合サンプル、倍数性ＤＮＡ（即ち、植物ＤＮＡ）、これらの混合物、及びこれらのハイブリッドを挙げることができる。好ましい実施形態において、ゲノムＤＮＡ又はその増幅コピーを、標的核酸として用いる。別の好ましい実施形態において、ｃＤＮＡ、ミトコンドリアＤＮＡ、又は葉緑体ＤＮＡを用いる。いくつかの実施形態において、標的核酸は、ｍＲＮＡである。

いくつかの実施形態において、標的核酸は、単一の細胞由来、又は単一の細胞の画分由来である。いくつかの実施形態において、標的核酸は、単一の細胞小器官由来である。例示的な単一の細胞小器官としては、これに限定されないが、単一の核、単一のミトコンドリア、及び単一のリボソームが挙げられる。いくつかの実施形態において、標的核酸は、ホルマリン固定パラフィン包埋（ＦＦＰＥ）サンプルに由来する。いくつかの実施形態において、標的核酸は、架橋核酸である。いくつかの実施形態において、標的核酸は、タンパク質と架橋する。いくつかの実施形態において、標的核酸は、架橋ＤＮＡである。いくつかの実施形態において、標的核酸は、ヒストンに保護されたＤＮＡである。いくつかの実施形態において、ヒストンは、標的核酸から除去される。いくつかの実施形態において、標的核酸は、ヌクレオソーム由来である。いくつかの実施形態において、標的核酸は、核タンパク質が除去されたヌクレオソーム由来である。

標的核酸は、任意のヌクレオチド配列を含むことができる。いくつかの実施形態において、標的核酸は、ホモポリマー配列を含む。標的核酸はまた、繰り返し配列を含むことができる。繰り返し配列は、例えば、２ヌクレオチド、５ヌクレオチド、１０ヌクレオチド、２０ヌクレオチド、３０ヌクレオチド、４０ヌクレオチド、５０ヌクレオチド、１００ヌクレオチド、２５０ヌクレオチド、５００ヌクレオチド、１０００ヌクレオチド、又はそれ以上を含めた任意の種々の長さとすることができる。繰り返し配列は、連続又は非連続して、例えば、２回、３回、４回、５回、６回、７回、８回、９回、１０回、１５回、２０回、又はそれ以上を含めた、任意の種々の回数の繰り返しとすることができる。

本明細書に記載するいくつかの実施形態は、単一の標的核酸を使用することができる。他の実施形態は、複数の標的核酸を使用することができる。そのような実施形態において、複数の標的核酸としては、複数の同じ標的核酸、いくつかの標的核酸は同じである複数の異なる標的核酸、又は全ての標的核酸が異なる複数の標的核酸を挙げることができる。複数の標的核酸を使用する実施形態は、例えば、１つ又はそれ以上のチャンバー又はアレイ表面で試薬が標的核酸に同時に送られるように、多重型式で行うことができる。いくつかの実施形態において、複数の標的核酸としては、実質的に全ての特定の生命体のゲノムを挙げることができる。複数の標的核酸としては、例えば、ゲノムの少なくとも約１％、５％、１０％、２５％、５０％、７５％、８０％、８５％、９０％、９５％，又は９９％を含めた、特定の生命体のゲノムの少なくとも一部を挙げることができる。特定の実施形態において、当該一部は、ゲノムの最大で約１％、５％、１０％、２５％、５０％、７５％、８０％、８５％、９０％、９５％，又は９９％である上限を有することができる。

標的核酸は、あらゆる供給源から得ることができる。例えば、標的核酸は、単一の生命体から得られる核酸分子、又は１つ又はそれ以上の生命体を含む自然源から得られる核酸分子群から調製してもよい。核酸分子の供給源としては、これに限定されないが、細胞小器官、細胞、組織、臓器、又は生命体が挙げられる。標的核酸分子の供給源として用いられてもよい細胞は、原核細胞（バクテリア細胞、例えば、大腸菌（Ｅｓｃｈｅｒｉｃｈｉａ）、バチルス（Ｂａｃｉｌｌｕｓ）、セラチア（Ｓｅｒｒａｔｉａ）、サルモネア（Ｓａｌｍｏｎｅｌｌａ）、ブドウ球菌（Ｓｔａｐｈｙｌｏｃｏｃｃｕｓ）、連鎖球菌（Ｓｔｒｅｐｔｏｃｏｃｃｕｓ）、クロストリジウム（Ｃｌｏｓｔｒｉｄｉｕｍ）、クラミジア（Ｃｈｌａｍｙｄｉａ）、ナイセリア（Ｎｅｉｓｓｅｒｉａ）、トレポネーマ（Ｔｒｅｐｏｎｅｍａ）、マイコプラズマ（Ｍｙｃｏｐｌａｓｍａ）、ボレリア（Ｂｏｒｒｅｌｉａ）、レジオネラ（Ｌｅｇｉｏｎｅｌｌａ）、シュードモナス（Ｐｓｅｕｄｏｍｏｎａｓ）、マイコバクテリウム（Ｍｙｃｏｂａｃｔｅｒｉｕｍ）、ヘリコバクター（Ｈｅｌｉｃｏｂａｃｔｅｒ）、エルウィニア（Ｅｒｗｉｎｉａ）、アグロバクテリウム（Ａｇｒｏｂａｃｔｅｒｉｕｍ）、根粒菌（Ｒｈｉｚｏｂｉｕｍ）、及びＳｔｒｅｐｔｏｍｙｃｅｓｇｅｎｅｒａ）；クレン古細菌門（ｃｒｅｎａｒｃｈａｅｏｔａ）、ナノ古細菌門（ｎａｎｏａｒｃｈａｅｏｔａ）、又はユリ古細菌門（ｅｕｒｙａｒｃｈａｅｏｔｉａ）等の古細菌細胞；又は真菌（例えば、酵母）、植物、原生動物や他の寄生生物、及び動物（昆虫（例えば、ショウジョウバエ（Ｄｒｏｓｏｐｈｉｌａｓｐｐ．）、線形動物（例えば、線虫（Ｃａｅｎｏｒｈａｂｄｉｔｉｓｅｌｅｇａｎｓ）、及び哺乳動物（例えば、ラット、マウス、サル、非ヒト霊長類、及びヒト）を含む）等の真核細胞であってもよい。標的核酸及び鋳型核酸は、当該技術分野でよく知られている種々の方法を用いて、目的とする特定の配列を濃縮することができる。そのような方法の例は、その全体が参照により本明細書に組み込まれる国際公開第２０１２／１０８８６４号において提供されている。いくつかの実施形態において、核酸は、鋳型ライブラリーの調製方法の間に、さらに濃縮させてもよい。例えば、核酸は、トランスポソームの挿入前、トランスポソームの挿入後、及び／又は核酸の増幅後に、特定の配列について濃縮させてもよい。

また、いくつかの実施形態において、標的核酸及び／又は鋳型核酸は、高度に精製することができ、例えば、核酸は、本明細書で提供する方法で用いる前に、混入物を少なくとも約７０％、８０％、９０％、９５％、９６％、９７％、９８％、９９％、又は１００％含まないものとすることができる。いくつかの実施形態において、当該技術分野で知られている標的核酸の質及びサイズを維持する方法を用いることは有益であり、例えば、標的ＤＮＡの単離及び／又は直接転位を、アガロースプラグを用いて行ってもよい。転位はまた、細胞群、ライセート、及び未精製ＤＮＡを用いて、細胞で直接行うことができる。

いくつかの実施形態において、標的核酸は、生体サンプル又は患者サンプルから得てもよい。本明細書で用いる場合、用語「生体サンプル」又は「患者サンプル」は、組織及び体液等のサンプルを含む。「体液」としては、これに限定されないが、血液、血清、血漿、唾液、脳脊髄液、胸膜液、涙液、乳管液（ｌａｃｔａｌｄｕｃｔｆｌｕｉｄ）、リンパ液、喀痰、尿、羊水、及び精液が挙げられる。サンプルは、「無細胞」である体液を含んでいてもよい。「無細胞体液」は、約１％（質量／質量）未満の全細胞物質を含む。血漿又は血清は、無細胞体液の例である。サンプルは、天然又は合成由来（即ち、無細胞となるように調製された細胞サンプル）の標本を含んでいてもよい。

上記に開示した方法のいくつかの実施形態において、標的核酸は、標的核酸をトランスポソームに曝す前に、（例えば、超音波処理、制限消化、他の機械的手段により）フラグメント化することができる。

本明細書で用いる場合、用語「血漿」は、血液で見られる無細胞液体を指す。「血漿」は、当技術分野で知られている方法（例えば、遠心分離及びろ過等）により、血液から全細胞物質を除去することにより、血液から得てもよい。

特段の定めがない限り、用語「ａ」又は「ａｎ」は、本明細書全体を通じて、「１つ又はそれ以上」を意味する。

用語「例えば（ｆｏｒｅｘａｍｐｌｅ）」、「例えば（ｅ．ｇ．）」、「等（ｓｕｃｈａｓ）」、「含む（ｉｎｃｌｕｄｅ）」、「含めて（ｉｎｃｌｕｄｉｎｇ）」、又はそれらの変形が本明細書で用いられる場合、これらの用語は、限定の用語であるとは見なされないものであり、「これに限定されるものではないが」又は「限定されずに」を意味すると解釈されるものである。

以下の実施例は、説明のための実施例を提供するものであり、決して本明細書で提供する発明を制限するものではない。

実施例１ビーズベースタグメント化工程からのＤＮＡクラスターの収量
図３のビーズベースタグメント化工程からのＤＮＡクラスターの収量を評価し、図４の表に示した。本実施例において、５０ｎｇ、２５０ｎｇ、１０００ｎｇのヒトＮＡ１２８７８ＤＮＡを、同じバッチのタグメント化ビーズ（２．８μｍビーズ）を用いてタグメント化した。第２の５０ｎｇ分量のＮＡ１２８７８ＤＮＡを、第２のバッチのタグメント化ビーズ（完全リピート：２．８μｍビーズ）を用いてタグメント化した。ビーズ結合タグメント化ＤＮＡサンプルをＰＣＲ増幅し、精製した。一定分量（５．４μＬ）の各精製ＰＣＲ産物（未定量）を２７０倍希釈し、約５０ｐＭのストックサンプル溶液を作製した。各サンプルに対し、５０ｐＭストック溶液を１５ｐＭ、１９ｐＭ、２１ｐＭ、及び２４ｐＭに希釈した。希釈したサンプルを、クラスター生成及びシークエンシングのためにフローセルにロードした。データによれば、同じ希釈液（〜５０ｐＭ）から始めて、クラスター数は、同じセットのビーズを用いた３つの異なるインプットレベル（即ち、５０ｎｇ、２５０ｎｇ、１０００ｎｇ）に対して、１００〜１１４％の間であることが分かる。５０ｎｇ完全リピートでのクラスター数（異なるバッチのビーズを用いた）は、８１％であった。異なる希釈液（１５ｐＭ、１９ｐＭ、２１ｐＭ、及び２４ｐＭ）は、約１０％以内の同数のクラスターを産生する。データによれば、ビーズが収量を大きく制御し、収量は、異なるＤＮＡインプット及び異なるリピートで再現性があることが分かる。

実施例２ビーズベースタグメント化工程の再現性
図３のビーズベースタグメント化工程の再現性を図５に示す。本実施例において、「同じ」トランスポソーム密度で作製した６種類の異なるインデックス付きビーズ（インデックス１〜６；２．８μｍビーズ）調製物を、５０ｎｇ及び５００ｎｇのインプットＮＡ１２８７８ＤＮＡを用いたタグメント化ＤＮＡの調製に用いた。タグメント化ＤＮＡをＰＣＲ増幅し、精製した。２つのＨｉＳｅｑレーン用に、１２種類の精製ＰＣＲ産物をプールして、６種類ずつの２つの混合物（プール１及びプール２）にした。各プールは、１レーン当たり３〜５０ｎｇ及び３〜５００ｎｇのサンプルを含む。データ表５００は、各インデックス付きサンプルの挿入サイズ中央値及び挿入サイズ平均値を示す。

実施例３プール１の挿入サイズ及びプール２の挿入サイズ
図５のインデックス付きサンプルのプール１の挿入サイズ及びプール２の挿入サイズを、それぞれ図６Ａ（プロット６００）及び図６Ｂ（プロット６５０）に示す。データはまた、挿入サイズが、６種類の異なるインデックス付きビーズ調製物の間で均一であることを示す。ビーズベースタグメント化は、挿入サイズ及びＤＮＡ収量を制御するメカニズムをもたらす。

実施例４リードの合計数の再現性
図５に記載の実験に関して、リードの合計数及びアラインされたリードの割合の再現性を図７（棒グラフ７００）に示す。両方のインプット（５０ｎｇ及び５００ｎｇ）で、リードの合計数は、同じインデックス付きビーズ調製物に対して同様である。６種類のインデックス付きビーズ調製物のうちの４種類（インデックス１、２、３、及び６）で、極めて近い収量を示し、インデックス付きビーズ調製物４及び５では、インデックス配列によるものである可能性がある、幾分のばらつきが見られた。

１つの応用において、ビーズベースタグメント化工程は、タグメント化ステップを含むエクソーム濃縮アッセイ、例えば、Ｉｌｌｕｍｉｎａ社のＮｅｘｔｅｒａ（登録商標）急速捕捉濃縮プロトコルに用いてもよい。現在のエクソーム濃縮アッセイ（即ち、Ｉｌｌｕｍｉｎａ社のＮｅｘｔｅｒａ（登録商標）急速捕捉濃縮プロトコル）では、溶液ベースのタグメント化（Ｎｅｘｔｅｒａ）をゲノムＤＮＡのフラグメント化に用いる。その後、遺伝子特異的プライマーを用いて、目的とする特異的遺伝子フラグメントをプルダウンする。２回の濃縮サイクルを行った後、プルダウンしたフラグメントをＰＣＲ及びシークエンシングにより濃縮する。

エクソーム濃縮アッセイにおけるビーズベースタグメント化工程の使用を評価するため、ヒトＮＡ１２８７８ＤＮＡを、２５ｎｇ、５０ｎｇ、１００ｎｇ、１５０ｎｇ、２００ｎｇ、及び５００ｎｇのインプットＤＮＡを用いてタグメント化した。コントロールライブラリー（ＮＡ００５３６）を、標準プロトコルに従って、５０ｎｇのインプットＤＮＡから調製した。各ＤＮＡインプットは、異なるインデックス（固有識別子）を有した。標準方法に合わせるため、且つ、十分な量のフラグメントがプルダウン用に存在することを確実にするために、濃縮ポリメラーゼマスターミックス（ＥＰＭ：ｅｎｈａｎｃｅｄｐｏｌｙｍｅｒａｓｅｍａｓｔｅｒｍｉｘ）を用いた１０サイクルのＰＣＲを行った。増幅プロトコルは、７２℃で３分、９８℃で３０秒、続いて９８℃で１０秒を１０サイクル、６５℃で３０秒、及び７２℃で１分とした。その後、サンプルを１０℃で保持した。次に、サンプルを、エクソーム濃縮プルダウン工程及びシークエンシングを通じて処理した。

実施例５エクソーム濃縮アッセイにおけるコントロールライブラリー及びビーズベースタグメント化ライブラリーの挿入サイズ
図８Ａ、８Ｂ、及び８Ｃは、それぞれ、エクソーム濃縮アッセイにおける、コントロールライブラリーでの挿入サイズのプロット８００、ビーズベースタグメント化ライブラリーでの挿入サイズのプロット８２０、及びサマリーデータ表８４０を示す。データによれば、ビーズベースタグメント化ライブラリーは、コントロールライブラリーに比べて、広い挿入サイズ分布を有するが、挿入サイズは、サンプルのＤＮＡインプットに関係なく極めて近いことが分かる。

実施例６リード配列の質
図９Ａ、９Ｂ、及び９Ｃは、それぞれ、図８Ａ、８Ｂ、及び８Ｃのエクソーム濃縮アッセイにおける、フィルターを通過した複製物（ｄｕｐｓＰＦ：ｄｕｐｌｉｃａｔｅｓｐａｓｓｉｎｇｆｉｌｔｅｒｓ）の割合の棒グラフ９００、ＰＣＴｓｅｌｅｃｔｅｄｂａｓｅｓの棒グラフ９２０、及びＰＣＴｕｓａｂｌｅｂａｓｅｓｏｎｔａｒｇｅｔの棒グラフ９４０を示す。図９Ａを参照すると、ｄｕｐｓＰＦの割合（％）は、いくつのリードがフローセルの他の部分で複製されているかを示す尺度である。この数値は、全てのクラスターが結果に対して有益なデータをもたらすことを確実にするためには、理想的には、（ここで示すように）低くなるものである。

図９Ｂは、ＰＣＴｓｅｌｅｃｔｅｄｂａｓｅｓを示し、濃縮工程の間に濃縮されていたはずの目的の部位に又はその近くに配列するリードの割合の尺度である。理想的には、この数値は、濃縮工程の成功を反映して１に近くなるものである。また、この数値は、濃縮されるべきではないリードが工程を終えていないことを示す。

図９Ｃは、ＰＣＴｕｓａｂｌｅｂａｓｅｓｏｎｔａｒｇｅｔを示し、濃縮された領域内で目的とする特定の塩基上に実際に配列しているリードの割合の尺度である。理想的には、全ての濃縮リードが濃縮されたリード内の目的とする塩基上に配列するものであるが、タグメント化のランダム性及び様々な挿入長さのために、目的とする領域上で配列し終えていないリードが濃縮される可能性がある。

２つの技術を使用して挿入サイズ分布を最適化してもよい。一例を挙げれば、ＳＰＲＩクリーンアップを用いて小さ過ぎる又は大き過ぎるフラグメントを除去してもよい。ＳＰＲＩクリーンアップは、サイズ及び所望の沈澱又は非沈澱ＤＮＡの保持（即ち、第１ステップは、所望のサイズよりも大きいＤＮＡのみを沈澱させ、可溶な小さいフラグメントを保持する）に基づいた選択的ＤＮＡ沈澱により、所望のサイズよりも大きい又は小さいフラグメントを除去する工程である。その後、小さいフラグメントをさらに沈澱させ、この時、望まない極めて小さいフラグメント（まだ溶液中にある）を除去し、沈澱したＤＮＡを保持し、洗浄した後、再可溶化して所望のサイズ範囲のＤＮＡを得る。別の例を挙げれば、ビーズ表面上の活性化トランスポソームのスペーシングを用いて、挿入サイズ分布を制御してもよい。例えば、ビーズ表面上のギャップを不活性トランスポソーム（例えば、不活性トランスポゾンを有するトランスポソーム）で充填してもよい。

ビーズベースのタグメント化工程の連続性を評価した。表３は、インデックスを共有する１０００ｂｐウィンドウ内で０回、１回、２回、又は３回のリードが起きた回数を示す。ビーズを９種類の異なるインデックス付きトランスポソームで生成し、少量のヒトＤＮＡのタグメント化に用いた。リードを生成させ、アラインし、同じインデックスを共有する１０００ｂｐ又は１０Ｋｂウィンドウ内のリードの数について分析した。インデックスを共有する小さいウィンドウ内のリードの中には、偶然生成するものがあってもよく、これが何回起こる可能性があるかという予測を、表３及び表４の「ランダム」列に示す。「ビーズ」列の数は、インデックスを共有する１０００ｂｐ（表３）又は１０Ｋｐ（表４）ウィンドウの実際の数を示す。表３及び表４に示すように、同じインデックスが１０００ｂｐ又は１０Ｋｐウィンドウ内で見つかった実際の回数は、ランダムケースでの予測よりも顕著に多い。「０」枠は、特定の１０００ｂｐウィンドウがそれにマッピングするインデックスリードを有さない全ての回数を示す。数値は、極少量のヒトゲノムのみがシークエンシングされ、大半のウィンドウがそれらにアラインされるリードを有さないため、ここでは最も大きい。「１」は、ただ１つのリードが１０００ｂｐ（又は１０Ｋｐ）ウィンドウにマップする回数であり、「２」は、１０００ｂｐ（又は１０Ｋｐ）ウィンドウ内で２つのリードがインデックスを共有する回数である、等である。このデータは、１４００超のケースにおいて、同じピースのＤＮＡ（１０Ｋｐ超）が、約１５０００回のタグメント化事象の中で、同じビーズにより、少なくとも２回から５回までタグメント化されていることを示唆している。フラグメントは、インデックスを共有しているため、それらが偶然にそこに存在する可能性は低く、同じビーズに由来している。

表４は、インデックスを共有する１０Ｋｐウィンドウ内のリード数（５個まで）を示す。

実施例７ＣＰＴ−ＤＮＡからの遊離トランスポソームの分離
転位の後、ＣＰＴ−ＤＮＡ及び遊離トランスポソームを含む反応混合物を、ＳｅｐｈａｃｒｙｌＳ−４００及びＳｅｐｈａｃｒｙｌＳ−２００サイズ排除クロマトグラフィーを用いたカラムクロマトグラフィーにかけた。図２２に示す。ＣＰＴ−ＤＮＡは、ＮＣＰＤＮＡと表示する。

実施例８ビーズ上の捕捉プローブ密度の最適化
捕捉プローブＡ７及びＢ７の密度を、１μｍビーズ上で最適化し、結果を図２５に示した。レーン１（Ａ７）及びレーン３（Ｂ７）は、高いプローブ密度を有し、レーン２（Ａ７）及びレーン４（Ｂ７）は、１ｕｍビーズ当たり推定１０，０００〜１００，０００のプローブ密度を有した。標的分子に対する捕捉プローブのライゲーション産物を、アガロースゲルで評価した。ビーズ当たり約１０，０００〜１００，０００のプローブ密度は、より高いプローブ密度よりも良好なライゲーション効率を有した。

実施例９分子内ハイブリダイゼーションによるビーズ上でのＣＰＴ−ＤＮＡのインデックス付きシークエンシングライブラリーの調製の実現性試験
トランスポソームを、ビーズ上のＡ７及びＢ７捕捉配列に相補的なＡ７’及びＢ７’捕捉配列を有するトランスポゾンと機能亢進性Ｔｎ５トランスポザーゼとを混合することにより、調製した。高分子量ゲノムＤＮＡをトランスポソームと混合し、ＣＰＴ−ＤＮＡを生成する。それとは別に、ビーズを、固定化オリゴヌクレオチド：Ｐ５−Ａ７、Ｐ７−Ｂ７、又はＰ５−Ａ７＋Ｐ７−Ｂ７で調製する。ここで、Ｐ５及びＰ７は、プライマー結合配列であり、Ａ７及びＢ７は、それぞれＡ７’及びＢ７’配列に相補的な捕捉配列である。Ｐ５−Ａ７単独、Ｐ７−Ｂ７単独、Ｐ５−Ａ７＋Ｐ７−Ｂ７、又はＰ５−Ａ７ビーズ及びＰ７−Ｂ７ビーズの混合物を含むビーズを、ＣＰＴ−ＤＮＡで処理し、反応混合物にリガーゼを添加して、固定化オリゴの転位ＤＮＡに対するハイブリダイゼーションの効率を決定した。結果を図２６に示す。シークエンシングライブラリーは、アガロースゲル上で高分子量バンドにより示されるように、Ｐ５−Ａ７及びＰ７−Ｂ７がともに１つのビーズ上に固定化されている場合（レーン４）のみで作製される。結果は、高効率の分子内ハイブリダイゼーションを示し、また、分子内ハイブリダイゼーションによるビーズ上でのＣＰＴ−ＤＮＡのインデックス付きシークエンシングライブラリーの調製の実現性を証明した。

実施例１０クローンインデックス化の実現性試験
いくつかのトランスポソームセットを調製した。１つのセットにおいて、機能亢進性Ｔｎ５トランスポザーゼを、５’ビオチンを有するトランスポゾン配列Ｔｎｐ１と混合し、トランスポソーム１を調製する。別のセットにおいて、５’ビオチンを有する固有インデックス２を有するＴｎｐ２で、トランスポソーム２を調製する。別のセットにおいて、トランスポソーム３の調製のため、機能亢進性Ｔｎ５トランスポザーゼを、５’ビオチンを有するトランスポゾン配列Ｔｎｐ３と混合する。別のセットにおいて、固有インデックス４及び５’ビオチンを有するＴｎｐ４でトランスポソーム４を調製する。トランスポソーム１及び２、並びにトランスポソーム３及び４を、それぞれ別々にストレプトアビジンビーズと混合し、ビーズセット１及びビーズセット２を生成する。次に、２つのセットのビーズを混合し、ゲノムＤＮＡ及びタグメント化バッファーとともにインキュベートして、ゲノムＤＮＡのタグメント化を促進する。この後、タグメント化配列のＰＣＲ増幅を行う。増幅したＤＮＡをシークエンシングし、インデックス配列の挿入を分析する。タグメント化がビーズに限定される場合、大多数のフラグメントは、Ｔｎｐ１／Ｔｎｐ２及びＴｎｐ３／Ｔｎｐ４インデックスでコードされることになる。分子内ハイブリダイゼーションがある場合には、フラグメントは、Ｔｎｐ１／Ｔｎｐ４、Ｔｎｐ２／Ｔｎｐ３、Ｔｎｐ１／Ｔｎｐ３、及びＴｎｐ２／Ｔｎｐ４インデックスでコードされることになる。５サイクル及び１０サイクルのＰＣＲ後のシークエンシング結果を図２７に示した。コントロールは、混合され、ビーズ上に固定化された、４種類全てのトランスポゾンを有する。結果は、大多数の配列がＴｎｐ１／Ｔｎｐ２又はＴｎｐ３／Ｔｎｐ４インデックスを有することを示し、クローンインデックス化が実現可能であることを示している。コントロールは、インデックスを区別しないことを示す。

実施例１１単一反応におけるインデックス付きクローンビーズ転位
９６種類のインデックス付きトランスポソームビーズを調製する。個々のインデックス付きトランスポソームは、５’末端のＴｎ５モザイク末端配列（ＭＥ）及びインデックス配列を有するオリゴヌクレオチドを含むトランスポゾンを混合して、調製した。個々のインデックス付きトランスポソームを、ストレプトアビジン−ビオチン相互作用によりビーズ上に固定化した。ビーズ上のトランスポソームを洗浄し、ビーズ上の９６種類全ての個々にインデックス化されたトランスポソームをプールした。ＭＥ配列に相補的でインデックス配列を有するオリゴヌクレオチドを、固定化オリゴヌクレオチドにアニールし、固有のインデックスを有するトランスポゾンを作製した。９６種類のクローンインデックス付きトランスポソームビーズセットを混ぜ合わせ、高分子量（ＨＭＷ：ｈｉｇｈｍｏｌｅｃｕｌａｒｗｅｉｇｈｔ）ゲノムＤＮＡとともに、Ｎｅｘｔｅｒａタグメント化バッファーの存在下、単一のチューブでインキュベートした。

ビーズを洗浄し、反応混合物を０．１％ＳＤＳで処理することにより、トランスポザーゼを除去する。タグメント化ＤＮＡをインデックス付きプライマーで増幅し、ＰＥＨｉＳｅｑフローセルｖ２で、ＴｒｕｅＳｅｑｖ３クラスターキットを用いてシークエンシングし、シークエンシングデータを分析する。

リードのクラスター、すなわち島を観察する。各配列に対するリード間の最近隣距離のプロットは、主要なピーク、１つはクラスター内からのもの（近位）ともう１つはクラスター間からのもの（遠位）、を基本的に示す。方法及び結果の模式図を、図３０及び３１に示す。島のサイズは、約３〜１０ｋｂの範囲である。カバーされた塩基の割合は、約５％〜１０％である。ゲノムＤＮＡの挿入サイズは、約２００〜３００塩基である。

実施例１２ビーズ上のトランスポソームに対するライブラリーサイズ
初めに、ＭＥ’配列を有する第１のオリゴヌクレオチド、ＭＥ−バーコード−Ｐ５／Ｐ７配列を有する第２のオリゴヌクレオチド、及びＴｎ５トランスポザーゼを混合することにより、トランスポソームを溶液中にアセンブルした。第１のセットにおいて、ＭＥ’配列を有する第１のオリゴヌクレオチドを、３’末端でビオチン化する。第２のケースにおいて、ＭＥ−バーコード−Ｐ５／Ｐ７配列を有するオリゴヌクレオチドを、５’末端でビオチン化する。種々の濃度（１０ｎＭ、５０ｎＭ、及び２００ＮＭ）の得られた各トランスポソームセットに対し、ストレプトアビジンビーズを添加して、トランスポソームがストレプトアビジンビーズに固定化されるようにする。ビーズを洗浄し、ＨＭＷゲノムＤＮＡを加え、タグメント化を行う。いくつかのケースでは、タグメント化ＤＮＡを０．１％ＳＤＳで処理し、他のケースでは、タグメント化ＤＮＡを処理しない。タグメント化ＤＮＡを５〜８サイクルでＰＣＲ増幅し、シークエンシングする。模式図を図３２に示す。

図３３に示すように、ＳＤＳ処理により増幅効率及びシークエンシングの質が改善される。３’ビオチンを有するオリゴヌクレオチドは、トランスポソームに対してより良いライブラリーサイズを有する。

図３４は、挿入サイズに対するトランスポソーム表面密度の影響を示す。５’ビオチンを有するトランスポソームは、より小さいサイズのライブラリー及びより多くの自己挿入副産物を示す。

実施例１３インプットＤＮＡの滴定
種々の量の標的ＨＭＷＤＮＡを、５０ｍＭのＴｎ５：トランスポゾン密度を有するクローンインデックス付きビーズに加え、３７℃で１５分間若しくは６０分間、又は室温で６０分間インキュベートした。トランスポソームは、３’ビオチンを有するオリゴヌクレオチドを含んだ。タグメント化を行い、反応混合物を０．１％ＳＤＳで処理し、ＰＣＲ増幅させた。増幅したＤＮＡをシークエンシングした。図３５は、サイズ分布に対するインプットＤＮＡの影響を示す。１０ｐｇのインプットＤＮＡによる反応は、最小シグナルを示した。サイズ分布パターンは、２０ｐｇ、４０ｐｇ、及び２００ｐｇのＤＮＡインプットで同様であった。

実施例１４溶液ベース及びビーズベースの方法を用いた島のサイズ及び分布
溶液ベース及びビーズベースの方法を用いて、島のサイズ及び分布を比較した。溶液ベースアプローチにおいて、トランスポゾンにそれぞれ固有のインデックスを有する９６種類のトランスポソームを、９６穴プレートにアセンブルする。ＨＭＷゲノムＤＮＡを添加し、タグメント化反応を行う。反応生成物を０．１％ＳＤＳで処理し、ＰＣＲ増幅させる。増幅したＤＮＡをシークエンシングした。

ビーズベースアプローチにおいて、トランスポゾンにそれぞれ固有インデックスを有する９６種類のトランスポソームを、９６穴プレートにアセンブルした。オリゴヌクレオチドは、３’末端ビオチンを含んだ。ストレプトアビジンビーズを９６穴プレートの各々に添加し、トランスポソームがストレプトアビジンビーズに固定化されるようにインキュベートする。ビーズをそれぞれ洗浄してプールし、ＨＭＷゲノムＤＮＡを添加し、タグメント化反応を単一反応容器（ワンポット）内で行う。反応生成物を０．１％ＳＤＳで処理し、ＰＣＲ増幅させる。増幅産物をシークエンシングした。

ネガティブコントロールでは、最初に、それぞれ固有のインデックスを有する９６種類全てのトランスポゾン配列を混合する。オリゴヌクレオチドは、３’末端ビオチンを含んだ。トランスポソームを個々の混合インデックス付きトランスポゾンから調製する。ストレプトアビジンビーズを混合物に添加する。ＨＭＷゲノムＤＮＡを添加し、タグメント化反応を行う。反応生成物を０．１％ＳＤＳで処理し、ＰＣＲ増幅させる。増幅産物をシークエンシングした。

島内リードの数を島のサイズに対してプロットする。図３６に示す結果は、島（近位リード）が、溶液ベースの方法と同様に、ワンポットクローンインデックス付きビーズで観られることを示している。インデックス付きトランスポゾンをトランスポソーム形成前に混合した場合、島（近位リード）は観られなかった。トランスポソーム形成前にトランスポゾンを混合することにより、ビーズ当たり異なるインデックス／トランスポソームを有する、即ちクローンではないビーズが得られる。

実施例１５ＣＰＴ−ｓｅｑを用いた構造変異の分析
６０ｋｂヘテロ接合欠損の検出
シークエンシングデータをｆａｓｔｑファイルとして抽出し、分離（デマルチプレックス）工程を行って、各バーコードに対する個々のｆａｓｔｑファイルを生成する。ＣＰＴシークエンシングからのｆａｓｔｑファイルを、インデックスに従って分離し、重複を除去した参照ゲノムにアラインする。スキャンウィンドウ内の任意のリードを示すインデックスの数を記録する、５ｋｂ／１ｋｂウィンドウにより、染色体をスキャンする。統計的には、ヘテロ接合欠損領域のため、隣接領域と比較して、半量のＤＮＡしかライブラリー生成に利用できない。従って、インデックスの数も隣接領域の約半分となるべきである。ＮＡ１２８７８ｃｈｒ１の６０ｋｂヘテロ接合欠損を、９２１６個のインデックス付きＣＰＴシークエンシングデータから５ｋｂウィンドウにスキャンすることにより、図４７Ａ及び４７Ｂに示す。

遺伝子融合の検出
ＣＰＴシークエンシングからのｆａｓｔｑファイルを、インデックスに従って分離し、重複を除去した参照ゲノムにアラインする。染色体を２ｋｂウィンドウにスキャンする。各２ｋｂウィンドウは、３６８６４ベクターであり、固有インデックスからのリードがこの２ｋｂウィンドウでいくつ見つかったかを各エレメントが記録する。ゲノムにわたり、２ｋｂウィンドウペア（Ｘ、Ｙ）毎に、重み付けジャッカード（ｗｅｉｇｈｔｅｄ−Ｊａｃｃａｒｄ）インデックスを計算する。このインデックスは、事実上、サンプルの（Ｘ、Ｙ）間の距離を示す。これらのインデックスを、図４８に示すヒートマップとして表示する。各データポイントは、２ｋｂスキャンウィンドウのペアを表わし、左上の四角は、ともに領域１からのＸ、Ｙであり、右下は、ともに領域２からのＸ、Ｙであり、右上は、領域１から領域２にわたる領域からのＸ、Ｙである。遺伝子融合シグナルは、このケースでは中央の横線として示される。

欠損の検出
ＣＰＴシークエンシングからのｆａｓｔｑファイルを、インデックスに従って分離し、重複を除去した参照ゲノムにアラインする。染色体を１ｋｂウィンドウにスキャンする。図４９は、遺伝子欠損の検出結果を示す。

実施例１６フェージング及びメチル化検出
亜硫酸水素塩変換効率の最適化
ビーズ上のインデックス付き結合ＣＰＴ−ｓｅｑライブラリーに対して、ＭＥ（モザイクエレメント領域）及びｇＤＮＡ領域で、変換を評価した。Ｐｒｏｍｅｇａ社のＭｅｔｈｙｌＥｄｇｅ亜硫酸水素塩変換システムを最適化して、効率を改善した。

ＭＥ配列を分析して、亜硫酸水素塩変換処理の効率を決定した。図５０に示す。ビーズに付着したインデックス付き結合ライブラリーのうち、９５％が亜硫酸水素塩変換（ＢＳＣ）した。亜硫酸水素塩条件間で、同様のＰＣＲ収量が観察された。＞より厳しい亜硫酸水素塩処理でも、ライブラリーを分解しないように思われた。図５１に示す。ビーズ上のインデックス付き結合ライブラリーの約９５％でＢＳＣが観察された。ＢＳＣを改良（Ｃ＞Ｕ）するために研究した変数は、温度及びＮａＯＨ濃度（変性）であった。６０℃及び１ＭのＮａＯＨ、又は℃及び０．３ＭのＮａＯＨで良い結果となった。

ビーズライブラリーでのＢＳＣ変換ＣＰＴ−ｓｅｑのシークエンシング後、期待したシークエンシングリード構造が観察された。塩基の割合（％）の計測値を、ＩＶＣプロットとともに図５２に示す。

図５３は、亜硫酸水素塩変換後のＰＣＲの後の、インデックス付き結合ライブラリーのアガロースゲル電気泳動の画像を示す。２００〜５００ｂｐの期待したサイズ範囲のライブラリーが観察された。ＤＮＡ無しでの反応では、インデックス付き結合ライブラリーを産生しない。

実施例１７標的フェージング
全ゲノムインデックス付き結合ＣＰＴ−ｓｅｑライブラリーを濃縮した。図５４は、サイズ選択をしない濃縮前の全ゲノムインデックス付き結合ＣＰＴ−ｓｅｑライブラリーのバイオアナライザートレースを示す。図５５は、濃縮後のライブラリーのアガロースゲル分析を示す。

ＨＬＡ領域に対する濃縮統計を以下に示す。

図５６は、染色体のＨＬＡ領域に対して標的化ハプロタイピングを適用した結果を示す。全ゲノムインデックス付き結合リードライブラリーの濃縮の図解を左に示す。小さいバーは、各々インデックス付き短ライブラリーを示す。インデックス付きライブラリーのクラスターは、単一ビーズ上で同じインデックスでクローンインデックス付けされた領域である「島」であり、従って、ゲノムスケール上でリードの近位性（「島」性）を示す。標的領域におけるライブラリーの濃縮（国際公開第２０１２／１０８８６４号「核酸の選択的濃縮（Ｓｅｌｅｃｔｉｖｅｅｎｒｉｃｈｍｅｎｔｏｆｎｕｃｌｅｉｃａｃｉｄｓ）」を参照）を右に示す。リードは、ＨＬＡ領域で濃縮される。さらに、リードがインデックスで選別され、ゲノムにアラインされる場合、リードは、インデックス付き結合リードから連続性情報が維持されていることを示す「島」構造を再び示す。

実施例１８インデックス交換
トランスポソーム複合体のモザイク末端（ＭＥ）の交換を評価するため、異なるインデックスを有するビーズを調製した。混合後、ライブラリーをシークエンシングし、各ライブラリーのインデックスをレポートすることにより、インデックス交換を決定した。「交換（ｓｗａｐｐｅｄ）」の割合（％）を、（Ｄ４＋Ｄ５＋Ｅ３＋Ｅ５＋ｆ４）／（全９６種の合計）で計算した。図６５に示す。

実施例１９トランスポソーム複合体をストレプトアビジンビーズにより密集させることによるライブラリー挿入サイズの縮小
ストレプトアビジン磁性ビーズを、１倍、６倍、及び１２倍濃度のＴｓＴｎ５トランスポソーム複合体とともにロードした。各ビーズタイプに対して、Ｅｐｉ−ＣＰＴＳｅｑプロトコルを実施した。分析のため、最終ＰＣＲ産物をＡｇｉｌｅｎｔＢｉｏＡｎａｌｙｚｅｒ上にロードした。図に示す。Ｅｐｉ−ＣＰＴＳｅｑライブラリーフラグメントは、比較的小さく、ビーズ上にＴｓＴｎ５を多くロードするほど多く産生した。

実施例２０亜硫酸水素塩変換中のＤＮＡライブラリーのフラグメント化
亜硫酸水素塩変換後、ＤＮＡは損傷を受け、結果としてＰＣＲ増幅に必要な共通配列（ＣＳ２）が減少する。ＤＮＡフラグメントＣＰＴＳｅｑ及びＥｐｉ−ＣＰＴＳｅｑ（Ｍｅ−ＣＰＴＳｅｑ）ライブラリーを、ＢｉｏＡｎａｌｙｚｅｒで分析した。亜硫酸水素塩変換中のＤＮＡ損傷により、Ｅｐｉ−ＣＰＴＳｅｑライブラリーは、図７０に示すように、ＣＰＴＳｅｑライブラリーと比較して、５倍低い収量であり、小さいライブラリーサイズ分布を有する。

実施例２１ＴｄＴ媒介ｓｓＤＮＡライゲーション反応
ターミナルトランスフェラーゼ（ＴｄＴ）媒介ライゲーションによるＤＮＡ末端修復の実現性を試験した。簡単には、５ｐｍｏｌのｓｓＤＮＡ鋳型を，ＴｄＴ（１０／５０Ｕ）、アテニュエーター／アダプター二本鎖（０／１５／２５ｐｍｏｌ）、及びＤＮＡリガーゼ（０／１０Ｕ）とともに、３７℃で１５分間インキュベートした。伸長／ライゲーションのＤＮＡ産物を、ＴＢＥ−Ｕｒｅａゲルで分析し、結果を図７１に示した。全ての反応成分を添加した結果、アダプター分子のほぼ完全なライゲーションが行われた（レーン５〜８）。

ターミナルトランスフェラーゼ（ＴｄＴ）媒介ライゲーションによるＤＮＡ末端修復の実現性を、亜硫酸水素ナトリウム変換ビーズ結合ライブラリーに対して試験した。図７２に示す。簡単には、ＤＮＡをビーズ上でタグメント化し（最初の２レーン）、Ｐｒｏｍｅｇａ社のＭｅｔｈｙｌＥｄｇｅ亜硫酸水素塩変換キットで処理し（レーン３及び４）、ＤＮＡ救出プロトコルを行った（レーン５及び６）。救出反応後のＤＮＡライブラリーの収量及びサイズは、明らかに増加している。また、挿入トランスポゾン（ＳＩ）の存在量も増加しており、アダプター分子の効率的なライゲーションを示している。

メチル−ＣＰＴＳｅｑアッセイの結果を図７３に示す。

Claims

（ａ）標的核酸を複数のトランスポソーム複合体と接触させるステップであって、
各トランスポソーム複合体は、トランスポゾン及びトランスポザーゼを含み、
前記トランスポゾンは、転移鎖及び非転移鎖を含み、前記トランスポソーム複合体の少なくとも１つの前記トランスポゾンは、相補的な捕捉配列にハイブリダイズすることが可能なアダプター配列を含む、ステップと、
（ｂ）前記トランスポソーム複合体により、前記ステップ（ａ）の標的核酸を複数の転位フラグメントにフラグメント化し、各前記転位フラグメントの少なくとも１つの鎖の５’末端に複数の転移鎖を挿入するステップであって、隣接する前記フラグメントは前記トランスポソーム複合体を介して互いに連結しており、前記標的核酸の前記フラグメントの連続性が前記トランスポザーゼにより維持される、ステップと、
（ｃ）前記ステップ（ｂ）の前記複数の連結した転位フラグメントを複数の固体支持体と接触させるステップであって、前記複数の固体支持体の各々は複数の固定化オリゴヌクレオチドを含み、各前記固定化オリゴヌクレオチドは相補的な捕捉配列及び第１のバーコード配列を含み、前記複数の固体支持体中の１つの固体支持体における第１のバーコード配列は、前記複数の固体支持体中の他の固体支持体における第１のバーコード配列とは異なる、ステップと、
（ｄ）前記第１のバーコード配列を前記ステップ（ｃ）の連結した転位フラグメントの１つ又は複数に付加させ、それにより二本鎖バーコード化結合フラグメントのライブラリーを作製するステップであって、各前記二本鎖フラグメントの少なくとも１つの鎖が前記第１のバーコード配列でタグ化され、同じ前記標的核酸の少なくとも２つの二本鎖フラグメントが同一のバーコード配列を受け取る、ステップと
を含む、標的核酸のバーコード化ＤＮＡフラグメントのライブラリーを調製する方法。
（ａ）標的核酸を複数のトランスポソーム複合体と接触させるステップであって、
各トランスポソーム複合体は、トランスポゾン及びトランスポザーゼを含み、
前記トランスポゾンは、転移鎖及び非転移鎖を含み、前記トランスポソーム複合体の少なくとも１つの前記トランスポゾンは、相補的な捕捉配列にハイブリダイズすることが可能なアダプター配列を含む、ステップと、
（ｂ）前記トランスポソーム複合体により、前記ステップ（ａ）の標的核酸を複数の転位フラグメントにフラグメント化し、各前記転位フラグメントの少なくとも１つの鎖に複数の転移鎖を挿入するステップであって、隣接する前記フラグメントは前記トランスポソーム複合体を介して互いに連結しており、前記標的核酸の前記フラグメントの連続性が前記トランスポザーゼにより維持される、ステップと、
（ｃ）前記ステップ（ｂ）の前記複数の連結した転位フラグメントを複数の固体支持体と接触させるステップであって、前記複数の固体支持体の各々は複数の固定化オリゴヌクレオチドを含み、各前記固定化オリゴヌクレオチドは相補的な捕捉配列及び第１のバーコード配列を含み、前記複数の固体支持体中の１つの固体支持体における第１のバーコード配列は、前記複数の固体支持体中の他の固体支持体における第１のバーコード配列とは異なる、ステップと、
（ｄ）前記第１のバーコード配列を前記ステップ（ｃ）の連結した転位フラグメントの１つ又は複数に付加させるステップであって、同じ前記標的核酸の少なくとも２つのフラグメントが同一のバーコード配列を受け取る、ステップと
（ｅ）前記標的核酸のフラグメントの配列及び前記バーコード配列を決定するステップと、
（ｆ）前記バーコード配列を識別することにより、前記標的核酸の連続性情報を決定するステップと
を含む、標的核酸配列の連続性情報を決定する方法。
単一のバーコード配列が、各個々の前記固体支持体上の前記複数の固定化オリゴヌクレオチドに存在する、請求項１又は２に記載の方法。
異なるバーコード配列が、各個々の前記固体支持体上の前記複数の固定化オリゴヌクレオチドに存在する、請求項１又は２に記載の方法。
前記バーコード配列情報の前記標的核酸フラグメントへの転移を、ライゲーションにより行う、請求項１〜４のいずれか一項に記載の方法。
前記バーコード配列情報の前記標的核酸フラグメントへの転移を、ポリメラーゼ伸長により行う、請求項１〜４のいずれか一項に記載の方法。
前記バーコード配列情報の前記標的核酸フラグメントへの転移を、ライゲーション及びポリメラーゼ伸長の両方により行う、請求項１〜４のいずれか一項に記載の方法。
前記ポリメラーゼ伸長を、ライゲートされた前記固定化オリゴヌクレオチドを鋳型として用い、ライゲートされていない前記トランスポゾン鎖の３’末端をＤＮＡポリメラーゼで伸長することにより行う、請求項６又は７に記載の方法。
前記アダプター配列の少なくとも一部が、第２のバーコード配列をさらに含む、請求項１〜８のいずれか一項に記載の方法。
前記トランスポソーム複合体が多量体であり、各単量体単位の前記トランスポゾンの前記アダプター配列が、同じ前記トランスポソーム複合体の他の単量体単位とは異なる、請求項１〜９のいずれか一項に記載の方法。
前記アダプター配列が、第１のプライマー結合配列をさらに含む、請求項１〜１０のいずれか一項に記載の方法。
前記第１のプライマー結合部位が、前記捕捉配列又は前記捕捉配列の相補体に対して配列相同性を持たない、請求項１１に記載の方法。
前記固体支持体上の前記固定化オリゴヌクレオチドが、第２のプライマー結合配列をさらに含む、請求項１〜１２のいずれか一項に記載の方法。
前記トランスポソーム複合体が多量体であり、前記トランスポソームの単量体単位が、同じ前記トランスポソーム複合体内で互いに結合している、請求項１〜１３のいずれか一項に記載の方法。
トランスポソーム単量体単位のトランスポザーゼが、同じトランスポソーム複合体の別のトランスポソーム単量体単位の別のトランスポザーゼに結合している、請求項１４に記載の方法。
トランスポソーム単量体単位のトランスポゾンが、同じ前記トランスポソーム複合体の別のトランスポソーム単量体単位の別のトランスポゾンに結合している、請求項１４に記載の方法。
標的核酸配列の前記連続性情報が、ハプロタイプ情報を示す、請求項１〜１６のいずれか一項に記載の方法。
標的核酸配列の前記連続性情報が、ゲノム変異を示す、請求項１〜１６のいずれか一項に記載の方法。
前記ゲノム変異が、欠損、転位、染色体間遺伝子融合、重複、及びパラログからなる群から選択される、請求項１８に記載の方法。
前記固体支持体上に固定化された前記オリゴヌクレオチドが、部分的二本鎖領域及び部分的一本鎖領域を含む、請求項１〜１９のいずれか一項に記載の方法。
前記オリゴヌクレオチドの前記部分的一本鎖領域が、前記第２のバーコード配列及び前記第２のプライマー結合配列を含む、請求項２０に記載の方法。
前記バーコードを含む標的核酸フラグメントが、前記標的核酸フラグメントの配列を決定する前に増幅される、請求項１〜２１のいずれか一項に記載の方法。
前記ステップ（ａ）〜（ｄ）及びその後の前記増幅が、前記標的核酸フラグメントの配列を決定する前に、単一の反応区画で行われる、請求項２２に記載の方法。
前記増幅の間に、第３のバーコード配列が前記標的核酸フラグメントに挿入される、請求項２２に記載の方法。
前記ステップ（ｄ）の前記バーコードを含む前記標的核酸フラグメントを、複数の第１のセットの反応区画から前記バーコードを含む標的核酸フラグメントのプールにまとめるステップと、
前記バーコードを含む標的核酸フラグメントの前記プールを複数の第２のセットの反応区画に再分配するステップと、
前記標的核酸フラグメントを前記第２のセットの反応区画内でシークエンシング前に増幅することにより、第３のバーコードを前記標的核酸フラグメントに導入するステップと
をさらに含む、請求項１〜２３のいずれか一項に記載の方法。
前記標的核酸をトランスポソーム複合体と接触させる前に、前記標的核酸をプレフラグメント化するステップをさらに含む、請求項１〜２５のいずれか一項に記載の方法。
前記標的核酸をプレフラグメント化するステップが、超音波処理及び制限消化からなる群から選択される方法により行われる、請求項２６に記載の方法。
前記標的核酸が単一の細胞に由来する、請求項１〜２７のいずれか一項に記載の方法。
前記標的核酸が単一の細胞小器官に由来する、請求項１〜２８のいずれか一項に記載の方法。
前記標的核酸がゲノムＤＮＡである、請求項１〜２９のいずれか一項に記載の方法。
前記標的核酸が他の核酸に架橋する、請求項１〜３０のいずれか一項に記載の方法。
前記標的核酸が無細胞腫瘍ＤＮＡである、請求項１〜３１のいずれか一項に記載の方法。
前記無細胞腫瘍ＤＮＡが胎盤液から得られる、請求項３２に記載の方法。
前記無細胞腫瘍ＤＮＡが血漿から得られる、請求項３２に記載の方法。
前記血漿が、前記血漿用の採取ゾーンを含む膜分離装置を用いて全血から採取される、請求項３４に記載の方法。
前記血漿用の前記採取ゾーンが、固体支持体上に固定化されたトランスポソーム複合体を含む、請求項３５に記載の方法。
前記標的核酸がｃＤＮＡである、請求項１〜２９のいずれか一項に記載の方法。
前記標的核酸がホルマリン固定パラフィン包埋サンプルに由来する、請求項１〜２９のいずれか一項に記載の方法。
前記標的核酸がヒストンに保護されたＤＮＡである、請求項１〜２９のいずれか一項に記載の方法。
前記固体支持体がビーズである、請求項１〜３９のいずれか一項に記載の方法。
前記複数の固体支持体が複数のビーズであり、前記複数のビーズが様々なサイズを有する、請求項１〜２７のいずれか一項に記載の方法。