JP2016518123A

JP2016518123A - 癌に関連付けられる遺伝子融合物及び遺伝子変異型

Info

Publication number: JP2016518123A
Application number: JP2016508941A
Authority: JP
Inventors: ダニエルローデス; セスサジス; ピーターワインガード; ニコライカザノヴ; サントシバンドラ; マークトミロ; ショーンエディ; エマボウデン
Original assignee: ライフテクノロジーズコーポレーション
Priority date: 2013-04-17
Filing date: 2014-03-14
Publication date: 2016-06-23
Also published as: CN105378110B; WO2014172046A2; WO2014172046A9; AU2014254394A9; US20140315199A1; EP2986736A2; AU2014254394B2; AU2014254394A1; WO2014172046A3; CN118910253A; EP2986736B1; CN105378110A

Abstract

本開示は、病態に関する遺伝子融合物、遺伝子変異型、及び新規の関連物、並びにキット、プローブ、及びそれらを使用する方法を提供する。

Description

本発明は概して、癌に関連付けられる遺伝子融合物及び遺伝子変異型に関する。

ヒト癌細胞において、例えば染色体転座及び遺伝子変異型等の異常がしばしば見出される。染色体転座は、融合転写産物を発現するキメラ遺伝子を結果としてもたらし得、この融合転写産物は次いで、正常な調節経路に影響を与え、癌細胞の成長を刺激する融合タンパク質に翻訳される。遺伝子変異型もまた、正常な調節経路に影響を与える異常なタンパク質を結果としてもたらし得る。

新しい融合遺伝子、既知の融合遺伝子の新しい変異型、及び遺伝子変異型または対立遺伝子の特定は、追加的な診断法及び癌治療標的のための機会を提供する。

本開示は、新規の遺伝子融合変異型、及び遺伝子融合−病態の関連性を提供する。本明細書に提供される遺伝子融合は、ある特定の癌に関連付けられる。本開示は更に、増幅用プライマーセット及び検出プローブ等のプローブ、ならびに検出、診断、及び治療の方法及びシステムと、本明細書に開示される遺伝子融合物を含むか、または検出するキットとを提供する。

一実施形態において、本開示は、表１〜表３、表１９、及び表２２から選択される遺伝子融合を特異的に認識するプローブまたはプローブのセットを含む、反応混合物を提供する。プローブのセットは、例えば増幅用プライマーのセットであり得る。別の実施形態において、標的核酸中において、表１〜表３、表１９、及び表２２から選択される遺伝子融合に隣接するプライマーのセットを含む反応混合物が、本明細書に提供される。例えば、プライマーのセットはそれぞれ、表４〜６、２０、及び２３において特定される融合区切り点のうちの１つの両側の１０００、７５０、５００、２５０、１００、９０、８０、７５、７０、６５、５０、または２５ヌクレオチド以内のヒトゲノム中の標的配列に結合し得る。この実施形態の反応混合物は更に、表１〜表３、表１９、及び表２２から選択される遺伝子融合中の区切り点の両側に結合するか、または表１〜表３、表１９、及び表２２から選択される遺伝子融合中の区切り点にまたがる結合領域に結合する検出器プローブを含み得、区切り点が表４〜６、２０、及び２３において特定される特定の実施形態を含む。例示的な実施形態において、検出器プローブは、表４〜６、２０、及び２３において特定される融合区切り点のうちの１つの１０００、７５０、５００、２５０、１００、９０、８０、７５、７０、６０、５０、または２５ヌクレオチド以内のヒトゲノム中の標的配列に結合する。検出器プローブを含む、または検出器プローブを含まない反応混合物は更に、ポリメラーゼ、逆転写酵素、ｄＮＴＰ、及び／またはウラシルＤＮＡデグリコシラーゼ（ＵＤＧ）を含み得る。ポリメラーゼ、逆転写酵素、及びＵＤＧは、典型的にはヒト由来ではない。例証的な実施形態におけるポリメラーゼは、Ｔａｑポリメラーゼ等の耐熱性ポリメラーゼである。ある特定の実施形態において、反応混合物中のｄＮＴＰはｄＵＴＰを含み、反応混合物は、ある特定の実施例においてはｄＴＴＰを欠き得る。更に、反応混合物は、例えば１つ以上のデオキシウリジン（「ｄＵ」）残基を含むＤＮＡアンプリコン等のアンプリコンを含み得る。ある特定の実施形態において、反応混合物は、対応するヒトゲノム配列中の各デオキシチミジン残基について１つ以上のｄＵ残基を含むＤＮＡアンプリコンを含む。ある特定の実施形態において、アンプリコンは、対応する配列がヒトゲノム中には見出されない、例えばＤＮＡバーコード配列等の断片を含む。非ヒト断片は、例えば５〜１０，０００、５〜５０００、５〜１０００、５〜５００、５〜１００、５〜５０、５〜２５、５〜１０、１０〜１０，０００、１０〜５０００、１０〜１０００、１０〜５００、１０〜１００、１０〜５０、または１０〜２５ヌクレオチド長であり得る。ある特定の実施形態において、アンプリコンは、イントロンにまたがるヒトゲノムの領域に対応する断片を含むが、アンプリコンはイントロンに対応する断片を含まない。反応混合物は更に、標的核酸、例えばヒト標的核酸を含み得る。ヒト標的核酸は、例えば、ＢＬＣＡ＝膀胱癌、ＢＲＣＡ＝乳癌、ＣＥＳＣ＝子宮頸部細胞癌、ＣＯＡＤ＝結腸腺癌、ＧＢＭ＝多形性膠芽腫、ＨＮＳＣ＝頭頸部扁平上皮癌、ＫＩＲＫ＝腎明細胞癌、ＫＩＲＰ＝腎臓の腎乳頭細胞癌、ＬＡＭＬ＝急性骨髄性白血病、ＬＧＧ＝脳の低悪性度神経膠腫、ＬＩＨＣ＝肝臓の肝細胞癌腫、ＬＵＡＤ＝肺腺癌、ＬＵＳＣ＝扁平上皮細胞肺癌、ＯＶ＝卵巣漿液性腺癌、ＰＲＡＤ＝前立腺腺癌、ＲＥＡＤ＝直腸腺癌、ＳＫＣＭ＝皮膚黒色腫、ＳＴＡＤ＝胃腺癌、ＴＨＣＡ＝甲状腺癌、及びＵＣＥＣ＝子宮体部類内膜癌から選択される癌を有する疑いのある人物からの生体試料から単離され得る。ある特定の実施形態において、標的核酸は、腫瘍、例えば前述の文中に列挙された癌のタイプのうちの１つの腫瘍由来である。

別の実施形態において、配列番号１〜２５７（遺伝子融合物）のうちの少なくとも１つを含む核酸を特異的に認識するプローブのセットが提供される。別の実施形態において、配列番号１〜２５７のうちの少なくとも２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全てを含むか、または最大で配列番号１〜２５７のうちの２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全てを増幅する標的核酸を特異的に増幅する、プライマーのセットが本明細書に提供される。別の実施形態において、配列番号１〜２５７のうちの少なくとも２５、３０、４０、５０、７５、１００、１２５、１５０、２００、または全てを含む標的核酸を特異的に増幅及び検出する、ＴａｑＭａｎ（商標）アッセイまたはＭｏｌｅｃｕｌａｒＢｅａｃｏｎｓ（商標）アッセイ等のｑＰＣＲアッセイが本明細書に提供される。

本開示はまた、配列番号１〜２５７のうちの少なくとも２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全てを含むか、または最大で配列番号１〜２５７のうちの２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全てを含む断片から選択される少なくとも１つの配列を含む単離核酸も提供する。単離核酸は、５'末端上に第１のプライマーを含み得る。更に、核酸は一本鎖または二本鎖であり得る。ある特定の実施形態において、単離核酸は、対応する配列がヒトゲノム中には見出されない、例えばＤＮＡバーコード配列等の断片を含む。断片は、例えば５〜１０，０００、５〜５０００、５〜１０００、５〜５００、５〜１００、５〜５０、５〜２５、５〜１０、１０〜１０，０００、１０〜５０００、１０〜１０００、１０〜５００、１０〜１００、１０〜５０、または１０〜２５ヌクレオチド長であり得る。

他の実施形態において、本開示は、表１〜表３、表１９、及び表２２から選択される遺伝子融合の区切り点を含む核酸を特異的に認識する、例えば増幅用プライマーのセット等の、検出器プローブ及び／またはプローブのセットを含むキットを提供する。例えば、ある特定の実施形態において、検出器プローブまたは増幅用プライマーのセットは、最大で配列番号１〜２９２５７のうちの少なくとも１つの、２５、３０、４０、５０、７５、１００、１２５、１５０、２００、または全てを含む核酸を増幅及び／または検出するように設計される。キットは更に、例えばポリメラーゼ、ｄＮＴＰ、逆転写酵素、及び／またはＵＤＧ等の増幅反応混合物からの少なくとも１つの成分を、１つ以上の容器中に、または同一の容器中に含み得、典型的には逆転写酵素、ポリメラーゼ、及びＵＤＧはヒト由来ではない。ある特定の実施形態において、ｄＮＴＰはｄＵＴＰを含み、例証的な実施例においてはｄＴＴＰを欠く。例証的な実施形態におけるポリメラーゼは、Ｔａｑポリメラーゼ等の耐熱性ポリメラーゼである。更に、キットは制御核酸を含み得る。例えば、制御核酸は、配列番号１〜２５７のうちの少なくとも２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全てを含む核酸、または最大で配列番号１〜２５７のうちの２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全てを含む核酸等の、表１〜表３、表１９、及び表２２から選択される遺伝子融合における区切り点を含む配列を含み得る。

例えば配列番号１〜２５７から選択される配列を含み得る核等の、表１〜表３、表１９、及び表２２から選択される遺伝子融合における区切り点にまたがる核酸を増幅する段階、ならびに核酸の存在を検出する段階を含む、癌を検出する方法が提供され、核酸の存在が試料中に癌が存在することを示す。別の方法においては、膀胱癌、結腸癌、乳癌、子宮内膜癌、黒色腫、卵巣癌、膠芽腫、神経膠腫、白血病、腎細胞癌、甲状腺腺癌、及び前立腺腺癌から選択される癌を検出する方法が本明細書に提供され、この方法は、配列番号１〜２５７から選択される配列を含むアンプリコンを生成する段階と、アンプリコンの存在を検出する段階とを含み、アンプリコンの存在は、膀胱癌、結腸癌、黒色腫、卵巣癌、膠芽腫、肺癌、神経膠腫、白血病、腎細胞癌、甲状腺腺癌、子宮内膜類内膜腺癌、乳腺癌、及び前立腺腺癌が試料中に存在することを示す。アンプリコンは典型的には、アンプリコンを形成するために伸長されたプライマーを含む。癌は、膀胱尿路上皮癌、乳癌、子宮内膜類内膜腺癌、結腸腺癌、多形性膠芽腫、腎明細胞癌、乳頭状腎細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肺腺癌、卵巣漿液性嚢胞腺癌、前立腺腺癌、直腸皮膚黒色腫、及び甲状腺癌から選択される。生成されるアンプリコンは、ある特定の例証的な実施形態においては、ｄＵ残基を含むＤＮＡアンプリコンであり、ある特定の実施形態においては、ｄＴ残基を含まない。この段落において提供される方法において、アンプリコンは、本明細書に提供される反応混合物を用いて生成され得る。ある特定の実施形態において、本方法は、表１〜表３、表１９、及び表２２から選択される遺伝子融合における区切り点にまたがる核酸の発現を検出する段階を含む。発現を検出するための方法は、例証的な実施形態においてはホルマリン固定した試料であり得る腫瘍試料等の試料からＲＮＡを単離するステップを典型的に含む。

一実施形態において、反応混合物は、ＳＹＢＲＧｒｅｅｎ、ＳＢＹＲＧｒｅｅｎｅｒ、Ｆｌｕｏｒｅｓｃｅｉｎ、ＯｒｅｇｏｎＧｒｅｅｎ、ＦＡＭ、ＴＥＴ、ＪＯＥ、ＶＩＣ、ＹａｋｉｍａＹｅｌｌｏｗ、ＨＥＸ、Ｃｙ３、ＢｏｄｉｐｙＴＭＲ、ＮＥＤ、ＴＡＭＲＡ、Ｃｙ３．５、ＲＯＸ、ＴｅｘａｓＲｅｄ、ＬｉｇｈｔＣｙｃｌｅｒＲｅｄ、Ｂｏｄｉｐｙ６３０／６５０、ＡｌｅｘａＦｌｕｏｒ６４７、Ｃｙ５、ＡｌｅｘａＦｌｕｏｒ６６０、またはＣｙ５．５から選択される色素を含む。ある特定の実施形態において、色素は、反応混合物中の検出可能に標識されたプローブに結合する。他の実施形態において、色素はアンプリコンに直接、または検出可能に標識されたプローブを通じて結合する。

例えば表４〜６、２０、及び２３からの区切り点を含む核酸を特異的に認識する、検出可能なプローブまたは増幅用プライマーのセット等の、プローブまたはプローブのセットを含むキットが提供される。キットは更に、典型的にはヒト由来ではないポリメラーゼ、ｄＮＴＰ、及び／またはＵＤＧ等の、増幅反応混合物からの成分を、同一の容器中に、またはある特定の好ましい実施形態においては別個の容器中に含み得る。更に、キットは制御核酸を含み得る。例えば、制御核酸は、表４〜６、２０、及び２３から選択される区切り点を含む配列を含み得る。

別の実施形態において、表１〜３、１９、及び２２において特定される遺伝子融合を含む遺伝子融合が、本明細書に提供される。例証的な実施形態において、遺伝子融合は、表４〜６、２０、及び２３において特定される区切り点のうちの１つを含む。したがって、１００〜１０，０００ヌクレオチド長であり、かつ表４〜６、２０、及び２３の区切り点のうちの１つの両側において少なくとも２５個のヌクレオチドを含む、単離された遺伝子融合核酸が、本明細書に提供される。

関連する実施形態において、表４〜６、２０、及び２３の区切り点のうちの少なくとも１つを含む、単離された遺伝子融合核酸が、本明細書に提供される。ある特定の実施形態において、単離された遺伝子融合核酸は、配列番号１〜２５７のうちの少なくとも２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全て、または最大で配列番号１〜２５７のうちの２５、３０、４０、５０、７５、１００、１２５、１５０、２００、もしくは全てを含む核酸を含む。単離された遺伝子融合核酸は、例えば５０〜１００，０００のヌクレオチド長、１００〜５０，０００のヌクレオチド長、１００〜２５，０００のヌクレオチド長、１００〜１０，０００のヌクレオチド長、１００〜５，０００のヌクレオチド長、１００〜２５００のヌクレオチド長、１００〜１，０００のヌクレオチド長、１００〜５００のヌクレオチド長、１００〜２５０のヌクレオチド長、１００〜２００のヌクレオチド長、２５０〜１０，０００のヌクレオチド長、２５０〜５，０００のヌクレオチド長、２５０〜１，０００のヌクレオチド長、または２５０〜５００のヌクレオチド長を有し得る。ある特定の態様において、単離された遺伝子融合核酸はＤＮＡである。ある特定の例証的な実施形態において、単離された核遺伝子融合物はイントロン配列を欠くが、１つ以上のイントロンをゲノム中に含む領域にまたがる。ある特定の実施形態において、単離された遺伝子融合核酸はｃＤＮＡである。

別の実施形態において、表４〜６、２０、及び２３の区切り点のうちの少なくとも１つを含む、単離された遺伝子融合核酸が提供される。

試料における膀胱尿路上皮癌、乳癌、子宮内膜類内膜腺癌、結腸腺癌、多形性膠芽腫、腎明細胞癌、乳頭状腎細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肺腺癌、卵巣漿液性嚢胞腺癌、前立腺腺癌、直腸皮膚黒色腫、及び甲状腺癌から選択される癌を、表１〜表３、表１９、及び表２２から選択される遺伝子融合の存在を検出することによって検出する方法が、別の実施形態にある。

本開示は、新規の遺伝子変異型、及び遺伝子変異型−病態の関連性を提供する。遺伝子変異型は、結果として変異型タンパク質を生じる１つ以上の変異を有し得る。本明細書に提供される遺伝子変異型は、ある特定の癌に関連付けられる。遺伝子変異型は、結果としてタンパク質変異型をもたらす。本開示は更に、増幅用プライマーセット及び検出プローブ等のプローブ、ならびに検出、診断、及び治療の方法と、本明細書に開示される遺伝子変異型を含むか、または検出するキットとを提供する。

一実施形態において、本開示は、表７及び／または表１１から選択される遺伝子変異型をコードするヌクレオチド配列を特異的に認識するプローブのセットを含む、組成物及びキットを提供する。プローブのセットは、例えば増幅用プライマーのセットであり得る。別の実施形態において、表７及び／または表１１の１つ以上の変異型をコードする遺伝子変異型に隣接するプライマーのセットを含む組成物が、本明細書に提供される。この実施形態の反応混合物は更に、表７及び／または表１１から選択される遺伝子変異型を含むヌクレオチド配列に結合する検出器プローブを含み得る。検出器プローブを含む、または検出器プローブを含まない反応混合物は更に、ポリメラーゼ、ｄＮＴＰ、及び／またはウラシルＤＮＡデグリコシラーゼ（ＵＤＧ）を含み得る。ポリメラーゼ及びＵＤＧは、典型的にはヒト由来ではない。反応混合物は更に、標的核酸、例えばヒト標的核酸を含み得る。ヒト標的核酸は、例えば、癌を有する疑いのある人物からの生体試料から単離され得る。癌は、ＢＬＣＡ＝膀胱癌、ＢＲＣＡ＝乳癌、ＣＥＳＣ＝子宮頸部細胞癌、ＣＯＡＤ＝結腸腺癌、ＧＢＭ＝多形性膠芽腫、ＨＮＳＣ＝頭頸部扁平上皮癌、ＫＩＲＫ＝腎明細胞癌、ＫＩＲＰ＝腎臓の腎乳頭細胞癌、ＬＡＭＬ＝急性骨髄性白血病、ＬＧＧ＝脳の低悪性度神経膠腫、ＬＩＨＣ＝肝臓の肝細胞癌腫、ＬＵＡＤ＝肺腺癌、ＬＵＳＣ＝扁平上皮細胞肺癌、ＯＶ＝卵巣漿液性腺癌、ＰＲＡＤ＝前立腺腺癌、ＲＥＡＤ＝直腸腺癌、ＳＫＣＭ＝皮膚黒色腫、ＳＴＡＤ＝胃腺癌、ＴＨＣＡ＝甲状腺癌、及びＵＣＥＣ＝子宮体部類内膜癌から選択され得る。

表７及び／または表１１の１つ以上の遺伝子変異型をコードするヌクレオチド配列は、変形を包括する任意のサイズであり得る。例えば、ヌクレオチド配列は、プライマーを用いて容易にコピーでき、かつ／またはプローブを用いて容易に検出できる任意のサイズであり得る。

別の実施形態において、表７及び／または表１１（遺伝子変異型）から選択される遺伝子変異型についての核酸コードを特異的に認識するプローブのセットが提供される。別の実施形態において、表７及び／または表１１から選択される遺伝子変異型についてコードする標的核酸を特異的に増幅するプライマーのセットが本明細書に提供される。別の実施形態において、表７及び／または表１１から選択される遺伝子変異型についてコードする標的核酸を特異的に増幅及び検出する、限定されるものではないが例えば、ＴａｑＭａｎ（商標）アッセイ、Ｓｃｏｒｐｉｏｎｓアッセイ、またはＭｏｌｅｃｕｌａｒＢｅａｃｏｎｓ（商標）アッセイ等のｑＰＣＲアッセイが本明細書に提供される。

本開示はまた、表７及び／または表１１から選択される１つ以上の遺伝子変異型についてコードする少なくとも１つの配列を含む単離核酸を提供する。単離核酸は、５'末端上に第１のプライマーを含み得る。更に、核酸は一本鎖または二本鎖であり得る。

他の実施形態において、本開示は、表７及び／または表１１から選択される遺伝子変異型についてコードする核酸を特異的に認識する、例えば増幅用プライマーのセット等の、検出器プローブ及び／またはプローブのセットを含むキットを提供する。例えば、ある特定の実施形態において、検出器プローブまたは増幅用プライマーのセットは、表７及び／または表１１の変異型についてコードする核酸を増幅及び／または検出するように設計される。キットは更に、典型的にはヒト由来ではないポリメラーゼ、ｄＮＴＰ、及び／またはＵＤＧ等の、増幅反応混合物からの成分を、別個または同一の容器中に含み得る。更に、キットは制御核酸を含み得る。例えば、制御核酸は、表７及び／または表１１から選択される遺伝子変異型を含む配列を含み得る。

例えば配列が表７及び／または表１１の遺伝子変異型についてコードする変異型を含有する点を除いて、表７及び／または表１１の受入番号のうちの１つからの配列を含み得る核等の、表７及び／または表１１から選択される遺伝子変異型をコードする核酸を増幅する段階、ならびに核酸の存在を検出する段階を含む、癌を検出する方法が提供され、核酸の存在が試料中に癌が存在することを示す。別の方法においては、表７及び／または表１１から選択される変異型をコードする配列を含むアンプリコンを生成する段階、ならびに核酸の存在を検出する段階を含む、癌を検出する方法が本明細書に提供され、核酸の存在が試料中に癌または癌細胞が存在することを示す。アンプリコンは典型的には、アンプリコンを形成するために伸長されるプライマーを含む。癌は、膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、及び子宮体部類内膜癌から選択される。

例えば表７及び／または表１１からの遺伝子変異型を含む核酸を特異的に認識する、増幅用プライマーのセット等のプローブのセットを含むキットが提供される。キットは更に、典型的にはヒト由来ではないポリメラーゼ、ｄＮＴＰ、及び／またはＵＤＧ等の、増幅反応混合物からの成分を、別個または同一の容器中に含み得る。更に、キットは制御核酸を含み得る。例えば、制御核酸は、表７及び／または表１１からの遺伝子変異型を含む配列を含み得る。

ある特定の実施形態において、表７及び／または表１１からの遺伝子変異型を含む核酸を特異的に認識するプローブのセットが提供される。

別の実施形態において、表７及び／または表１１の変異型のうちの少なくとも１つを含む遺伝子変異型が提供される。

試料における膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、及び子宮体部類内膜癌から選択される癌を、表７及び／または表１１から選択される遺伝子変異型の存在を検出することによって検出する方法が、別の実施形態にある。遺伝子変異型としては、限定されるものではないが、ＺＮＦ４７９変異型Ｒ１１Ｑ、Ｒ２９５Ｋ、Ｒ２９５Ｔ、Ｒ２９５Ｉ、Ｒ３４５Ｉ、Ｒ３４５Ｔ、Ｋ４３８Ｔ、及びＴ４６６Ｋが挙げられ得る。

別の実施形態において、薬物を対象に送達する方法が提供され、この方法は表１５に特定される遺伝的事象の検出と、薬物による対象の治療とを含み、この薬物は遺伝的事象を有する患者の臨床転帰に良い影響を与えると考えられる。例証的な実施形態において、遺伝的事象は表８に見出される遺伝子と関連付けられ、薬物がその遺伝子の対として表８に列挙される。別の実施形態において、対象が薬物を受容したかどうかを決定するための方法が本明細書に提供され、この方法は表１５に特定される遺伝的事象を検出する段階と、次いで検出された遺伝的事象が予後不良に関連付けられて表１５に列挙される場合、対象に薬物を送達する段階とを含み、この薬物は遺伝的事象を有する患者の臨床転帰に良い影響を与えると考えられる。例証的な実施形態において、遺伝的事象は表８に見出される遺伝子と関連付けられ、薬物がその遺伝子の対として表８に列挙される。

一実施形態において、キットが提供され、キットはプローブのセットを含み、各プローブは、表４〜６、２０、及び２３からの区切り点を含む核酸に特異的にハイブリダイズする。

一実施形態において、表１〜３、１９、及び２２からの少なくとも１つの遺伝子融合を含む、試料からの核酸を増幅する段階と、組成物を、各プローブが核酸に特異的にハイブリダイズする、少なくとも１つのプローブと接触させること、または核酸中の非天然もしくは未変性の化学構造の存在を観察することのうちの少なくとも１つによって、少なくとも１つの遺伝子融合の存在を検出する段階とを含み、少なくとも１つの遺伝子融合の存在を検出する段階が、表１〜３、１９、及び２２からの少なくとも１つの癌が試料中に存在することを示す方法が提供される。

一実施形態において、表１〜３、１９、及び２２からの少なくとも１つの遺伝子融合を含む、試料からの核酸を増幅して、増幅された核酸を産生するように構成される核酸増幅器と、（ｉ）組成物を、各プローブが核酸に特異的にハイブリダイズする、少なくとも１つのプローブと接触させること、または（ｉｉ）核酸中の非天然もしくは未変性の化学構造の存在を観察することのうちの少なくとも１つによって、増幅された核酸中の少なくとも１つの遺伝子融合の存在を検出するように構成され、更に検出表示を送信するように構成される検出器と、検出表示を受信し、検出表示に基づき、表１〜３、１９、及び２２からの少なくとも１つの癌が試料中に存在することを決定するように構成されるコンピューターシステムとを備えるシステムが提供される。

一実施形態において、コンピューターによって実行された場合、少なくとも癌のタイプ及び事象のタイプを含む入力を受信する段階であって、癌のタイプが表１５から選択され、事象のタイプが表１５から選択される、受信する段階と、複数のフィールドを含む少なくとも１つのエントリーについてデータベースを照会する段階であって、複数のフィールドが、癌のタイプ及び事象のタイプのうちの少なくとも１つを含む、照会する段階と、少なくとも１つのエントリーからの複数のフィールドのうちの少なくとも１つを含む出力を送信する段階であって、少なくとも１つのフィールドが、少なくとも１つの遺伝子、少なくとも１つのドラッガブル遺伝子、少なくとも１つのドラッガブル遺伝子を標的とする少なくとも１つの薬物、または予後を含む、送信する段階とを含む方法を行う命令で符号化される、非一時的コンピューター可読プログラム記憶装置が提供される。

一実施形態において、表１〜３、１９、及び２２に列挙される遺伝子融合から選択される少なくとも１つの遺伝子融合を有する患者に、表８、１６〜１７、２１、及び２４に列挙される薬物から選択される少なくとも１つの薬物を投与する段階を含む方法が提供される。

一実施形態において、患者からの核酸試料を、第１の遺伝子に対して相補的である第１のプライマー、及び第２の遺伝子に対して相補的である第２のプライマーを含む反応混合物と接触させる段階であって、第１の遺伝子及び第２の遺伝子の融合が、第１のプライマー及び第２のプライマーによって生成されるアンプリコンの存在により検出可能であり、融合物が、表４〜６、２０、及び２３に列挙される区切り点から選択される区切り点を含む、接触させる段階を含む方法が提供される。

一実施形態において、コンピューターによって実行された場合、少なくとも１つの癌細胞株からのＲＮＡ配列データを受信する段階と、処理されたデータ中の融合遺伝子間の潜在的な区切り点を特定するために、配列データ上の少なくとも１つの遺伝子融合のコーラーを起動する段階と、候補区切り点を保持するために、潜在的な区切り点をフィルタリングする段階であって、各候補区切り点が５'非翻訳領域（ＵＴＲ）または機能遺伝子領域のコードＤＮＡ配列（ＣＤＳ）にあり、各候補区切り点がイントロン中では発生しない、フィルタリングする段階と、候補区切り点を、癌診断、癌予後、または癌治療のうちの少なくとも１つについての遺伝子融合との関連性を決定するのに有用である少なくとも１つのアノテーションで、アノテートする段階であって、遺伝子融合物が候補区切り点を含む、アノテートする段階とを含む方法を行う命令で符号化される、非一時的コンピューター可読プログラム記憶装置が提供される。

一実施形態において、コンピューターによって実行された場合、少なくとも１つの癌細胞株からの変異データを受信する段階と、アノテートされた変異データを産生するために、変異データを、変異型分類、変異型位置、または変異型変化のうちの少なくとも１つでアノテートする段階と、遺伝子領域変異データを産生するために、アノテートされた変異データをフィルタリングする段階と、遺伝子領域変異データを、ホットスポット、有害、またはその他として分類する段階と、遺伝子領域変異を含む遺伝子を、遺伝子中の変異の相対頻度、及び遺伝子中の全ての遺伝子領域変異の分類に基づき、機能獲得型、機能喪失型、または反復性のその他の遺伝子として指定する段階とを含む方法を行う命令で符号化される、非一時的コンピューター可読プログラム記憶装置が提供される。

一実施形態において、遺伝子融合検出データを産生するために、対象からの試料中の１つ以上の遺伝子融合を検出する段階であって、遺伝子融合のうちの少なくとも１つは表１〜３、１９、及び２２に列挙される遺伝子融合から選択される、検出する段階と、遺伝子融合検出データをコンピューターシステムで受信する段階と、遺伝子融合検出データに基づき、対象にとって推奨される少なくとも１つの治療的な選択肢をコンピューターシステムで特定する段階とを含む方法が提供される。

一実施形態において、（ｉ）対象からの試料中の１つ以上の遺伝子融合を検出して遺伝子融合検出データを産生し、遺伝子融合のうちの少なくとも１つは表１〜３、１９、及び２２に列挙される遺伝子融合から選択され、かつ（ｉｉ）遺伝子融合検出データを送信するように構成される検出器と、遺伝子融合検出データを受信し、かつ遺伝子融合検出データに基づき、対象にとって推奨される少なくとも１つの治療的な選択肢を特定するように構成されるコンピューターシステムとを含むシステムが提供される。

別の実施形態において、新規ＴＰ５３ＷＴ遺伝子シグネチャー、ならびに表４０のＴＰ５３ＷＴ遺伝子シグネチャー遺伝子のうちの１つ以上の発現レベルを検出する方法が提供される。

遺伝子融合物ＲＮＡＳｅｑデータ処理のワークフローを提供する。機能獲得型及び機能喪失型遺伝子についての遺伝子変異型分類スキームを示す。様々なデータのタイプを遺伝的事象データベース（ＧＥＤＢ）に統合するデータフローを概説する。遺伝的事象のまとめ上げを示すフローチャートである。ＴＰ５３点変異を持つ乳癌の試料と比較して、ＴＰ５３ＷＴ乳癌においてＴＰ５３ＷＴ発現シグネチャーが有意に上昇していることを示すグラフである。ＴＰ５３変異を持つ肺癌の試料と比較して、ＴＰ５３ＷＴ肺癌においてＴＰ５３ＷＴ発現シグネチャーが有意に上昇していることを示すグラフである。ＴＰ５３変異を持つ卵巣癌の試料と比較して、ＨＰ５３ＷＴ卵巣癌においてＴＰ５３ＷＴ発現シグネチャーが有意に上昇していることを示すグラフである。図８Ａ〜Ｄは、卵巣漿液性癌患者におけるＰＬＸＮＢ２１及びＣＯＬ７Ａ１についての、生ＲＰＫＭ発現値（Ａ〜Ｂ）対ｚスコア正規化数（Ｃ〜Ｄ）を表すグラフである。エクソン１２、１７、及び２３でのＰＬＸＮＢ１における母集団全体の下落は正規化データにおいて平滑化される。これらの遺伝子間に融合を持つと予測される試料は、赤い菱形がコーラーにより予測された区切り点のエクソンを示す。アミノ酸位置による高頻度のＴＰ５３変異の表である。汎癌分析において、０．２５％超の患者における全体的な頻度で発生する変異が表示された。反復性のスプライス部位変異が、Ｔ−１２５に影響を与えるイントロン−エクソン接合部で特定された。アミノ酸位置による高頻度のＴＰ５３変異の表である。汎癌分析において、０．２５％超の患者における全体的な頻度で発生する変異が表示された。反復性のスプライス部位変異が、Ｔ−１２５に影響を与えるイントロン−エクソン接合部で特定された。Ｔｐ５３インフレーム挿入及び欠失変異の表である。特定された最大の検出されたインフレーム挿入−欠失は２１ｂｐであった。ゲノムにわたる非トランスポゾン挿入欠失の９９％超が１００ｂｐ未満である。Ｔｐ５３インフレーム挿入及び欠失変異の表である。特定された最大の検出されたインフレーム挿入−欠失は２１ｂｐであった。ゲノムにわたる非トランスポゾン挿入欠失の９９％超が１００ｂｐ未満である。

詳細な説明
本開示は、新規の遺伝子融合物及び変異型、ならびに遺伝子融合物及び／または遺伝子変異型のある特定のタイプの癌との新規の関連性を提供する。本明細書に開示される遺伝子融合物及び／または変異型に関する、プローブ、反応混合物、アッセイ、及びキットが更に提供される。

定義
用語「マーカー」または「バイオマーカー」は、細胞中で発現されるか、癌細胞の表面上で発現されるか、または非癌細胞よりも癌細胞によって分泌される分子（典型的にはタンパク質、核酸、炭水化物、または脂質）を指し、これは癌の診断にとって、予後の提供にとって、及び薬剤の癌細胞に対する優先的な標的化にとって有用である。しばしば、そのようなマーカーは、例えば、正常細胞と比較して１倍過剰発現、２倍過剰発現、３倍過剰発現、またはそれ以上に、非癌細胞と比較して癌細胞中で過剰発現される分子である。更に、マーカーは、癌細胞中で不適切に合成される分子、例えば正常細胞において発現される分子よりも欠失、付加、または変異を含有する分子であり得る。代替的に、そのようなバイオマーカーは、例えば、１倍過小発現、２倍過小発現、３倍過小発現、またはそれ以上に、非癌細胞と比較して癌細胞中で過小発現される分子である。更に、マーカーは、癌において不適切に合成される分子、例えば正常細胞において発現される分子よりも欠失、付加、または変異を含有する分子であり得る。

マーカーは、本明細書に開示される使用、例えば癌の予測、診断、または予後のいずれかのための他のマーカーまたは試験と組み合わせて使用してもよいことが当業者に理解されるであろう。

「生体試料」は、生検試料及び剖検試料等の組織の切片、ならびに組織学的目的のために採取された凍結切片を含む。例えば、生体試料は、生鮮凍結パラフィン包埋（ＦＦＰＥ）試料を含み得る。代替的に、生体試料は、血液、及び血液留分または血液製剤（例えば、血清、血漿、血小板、赤血球等）、痰、肺胞洗浄液、培養細胞、例えば初代培養、外植片、及び形質転換細胞、糞便、尿等を含み得る。生体試料は典型的には、真核生物、最も好ましくは、例えばチンパンジーまたはヒト等の霊長類、ウシ、イヌ、ネコ、例えばモルモット、ラット、マウス等の齧歯類、ウサギ等の哺乳類、または鳥類、爬虫類、もしくは魚類から獲得される。

「生検」は、診断評価または予後評価のために組織試料を除去する工程、または組織標本そのものを指す。当分野において既知の任意の生検技術が、本発明の診断方法及び予後方法に対して適用され得る。適用される生検技術は、他の因子の中でも、評価される組織のタイプ（例えば、肺等）、腫瘍のサイズ、及びタイプに依存することになる。代表的な生検技術としては、限定されるものではないが、摘出生検、切開生検、針生検、外科生検、及び骨髄生検が挙げられる。「摘出生検」は、腫瘍を包囲する正常な組織の周縁部を僅かに伴って全体の腫瘍量を除去することを指す。「切開生検」は、腫瘍内から組織を楔形に除去することを指す。内視鏡検査またはＸ線検査ガイダンスにより為される診断または予後は、一般的に標的組織内から細胞の懸濁液を獲得する「コア針生検」または「微細針吸引生検」を必要とし得る。生検技術は、例えば、Ｈａｒｒｉｓｏｎ'ｓＰｒｉｎｃｉｐｌｅｓｏｆＩｎｔｅｒｎａｌＭｅｄｉｃｉｎｅ，Ｋａｓｐｅｒ，ｅｔａｌ．，ｅｄｓ．，１６ｔｈｅｄ．，２００５，Ｃｈａｐｔｅｒ７０及びＰａｒｔＶを通して考察される。

用語「過剰発現する」、「過剰発現」、または「過剰発現された」は交換可能に、正常細胞と比較して、癌細胞中で通常、検出可能に高いレベルで翻訳または転写されるタンパク質または核酸（ＲＮＡ）を指す。この用語は、正常細胞と比較して、転写、転写後プロセシング、翻訳、翻訳後プロセシング、細胞局在（例えば、細胞小器官、細胞質、核、細胞表面）、ならびにＲＮＡ安定性及びタンパク質安定性による過剰発現を含む。過剰発現は、ｍＲＮＡを検出するための従来の技術（すなわち、ＲＴ−ＰＣＲ、ＰＣＲ、ハイブリダイゼーション）、またはタンパク質を検出するための従来の技術（すなわち、ＥＬＩＳＡ、免疫組織化学的技術）を用いて検出し得る。過剰発現は、正常細胞と比較して、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、またはそれ以上であり得る。ある特定の例において、過剰発現は、正常細胞と比較して、１倍、２倍、３倍、４倍、またはそれ以上の高いレベルの転写または翻訳である。

用語「過小発現する」、「過小発現」、もしくは「過小発現された」、または「下方調節された」は交換可能に、正常細胞と比較して、癌細胞中で検出可能に低いレベルで翻訳または転写されるタンパク質または核酸を指す。この用語は、対照と比較して、転写、転写後プロセシング、翻訳、翻訳後プロセシング、細胞局在（例えば、細胞小器官、細胞質、核、細胞表面）、ならびにＲＮＡ安定性及びタンパク質安定性による過小発現を含む。過小発現は、ｍＲＮＡを検出するための従来の技術（すなわち、ＲＴ−ＰＣＲ、ＰＣＲ、ハイブリダイゼーション）、またはタンパク質を検出するための従来の技術（すなわち、ＥＬＩＳＡ、免疫組織化学的技術）を用いて検出し得る。過小発現は、対照と比較して、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、またはそれ以下であり得る。ある特定の例において、過小発現は、対照と比較して、１倍、２倍、３倍、４倍、またはそれ以下の低いレベルの転写または翻訳である。

用語「差次的に発現された」または「差次的に調節された」は、本発明の構成中における非癌性組織の試料と比較して、概して癌患者において、少なくとも１つの他の試料と比較して１つの試料において過剰発現された（上方調節された）、または過小発現された（下方調節された）タンパク質または核酸を一般的に指す。

用語「システム」は、現実的または抽象的に拘わらない構成要素の集合を示し、これは各構成要素が全体の中の少なくとも１つの他の構成要素と相互作用する、またはそれに関する、全体を含む。

用語「ポリペプチド」、「ペプチド」、及び「タンパク質」は本明細書において交換可能に使用されて、アミノ酸残基のポリマーを指す。これらの用語は、１つ以上のアミノ酸残基が、対応する天然型アミノ酸の人工の化学的模倣物であるアミノ酸ポリマー、ならびに天然型アミノ酸ポリマー及び非天然型アミノ酸ポリマーに適用される。

用語「アミノ酸」は、天然型アミノ酸及び合成アミノ酸、ならびに天然型アミノ酸と類似の様式で機能するアミノ酸類似体及びアミノ酸模倣物を指す。天然型アミノ酸とは、遺伝子コードによってコードされたもの、ならびに例えばヒドロキシプロリン、γ−カルボキシグルタミン酸、及びＯ−ホスホセリン等の後に修飾されるこれらのアミノ酸である。アミノ酸類似体は、天然型アミノ酸と同一の基本的化学構造、すなわち、水素、カルボキシル基、アミノ基、及びＲ基と結合する炭素を有する化合物、例えばホモセリン、ノルロイシン、メチオニンスルホキシド、メチオニンメチルスルホニウムを指す。そのような類似体は、修飾されたＲ基（例えばノルロイシン）を有するか、または修飾されたペプチド骨格を有するが、天然型アミノ酸と同一の基本的化学構造を保持する。アミノ酸模倣物は、アミノ酸の一般的な化学構造とは異なる構造を有するが、天然型アミノ酸と類似の様式で機能する化学物質を指す。

本明細書において、アミノ酸は、それらの公知の３文字記号、またはＩＵＰＡＣ−ＩＵＢＢｉｏｃｈｅｍｉｃａｌＮｏｍｅｎｃｌａｔｕｒｅＣｏｍｍｉｓｓｉｏｎにより推奨される１文字記号のいずれかで言及され得る。同様に、ヌクレオチドは、一般に受け入れられた１文字コードで言及され得る。

アミノ酸配列に関しては、当業者ならば、コードされる配列中の単一のアミノ酸または低いパーセンテージのアミノ酸を改変、付加、または欠失する、核酸、ペプチド、ポリペプチド、またはタンパク質配列に対する、個々の置換、欠失、または付加が、改変があるアミノ酸の化学的に類似するアミノ酸との置換を結果としてもたらす「保存的に修飾された変異型」であることを認識するであろう。機能的に類似するアミノ酸を提供する保存的置換表は、当分野において公知である。そのような保存的に修飾された変異型は、本発明の多形変異型、異種間相同体、及び対立遺伝子に対して追加的であり、これらを除外しない。

以下の８つのグループ、１）アラニン（Ａ）、グリシン（Ｇ）、２）アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、３）アスパラギン（Ｎ）、グルタミン（Ｑ）、４）アルギニン（Ｒ）、リジン（Ｋ）、５）イソロイシン（Ｉ）、ロイシン（Ｌ）、メチオニン（Ｍ）、バリン（Ｖ）、６）フェニルアラニン（Ｆ）、チロシン（Ｙ）、トリプトファン（Ｗ）、７）セリノ（Ｓｅｒｉｎｏ）（Ｓ）、トレオニン（Ｔ）、及び８）システイン（Ｃ）、メチオニン（Ｍ）はそれぞれ、相互に保存的な置換であるアミノ酸を含む。例えば、Ｃｒｅｉｇｈｔｏｎ，Ｐｒｏｔｅｉｎｓ（１９８４）を参照されたい。

タンパク質、核酸、抗体、または低分子化合物について言及する場合、語句「特異的に（または選択的に）結合する」は、タンパク質または核酸、及び他の生物製剤の異種集団においてしばしば、本発明の差次的に発現された遺伝子等のタンパク質または核酸の存在を決定する結合反応を指す。抗体の場合、指定された免疫アッセイ条件下において、特定された抗体は、背景の少なくとも２倍、より典型的には背景の１０〜１００倍超で特定のタンパク質に結合し得る。そのような条件下での抗体との特異的結合には、特定のタンパク質に対するその特異性に関して選択された抗体が必要となる。例えば、ポリクロナール抗体を選択して、選択した抗原には特異的に免疫反応性であるが、他のタンパク質には免疫反応性ではないポリクロナール抗体のみを獲得することができる。この選択は、他の分子と交差反応する抗体を取り去ることにより達成し得る。様々な免疫アッセイフォーマットを使用して、特定のタンパク質と特異的に免疫反応性である抗体を選択し得る。例えば、タンパク質に特異的に免疫反応性である抗体を選択するために、固相ＥＬＩＳＡ免疫アッセイが慣用的に使用される（特異的免疫反応性を判定するために使用可能な免疫アッセイフォーマット及び条件の説明については、例えばＨａｒｌｏｗ＆Ｌａｎｅ，Ａｎｔｉｂｏｄｉｅｓ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（１９８８）を参照）。

マーカータンパク質を調節する化合物を試験するためのアッセイの文脈中における語句「機能効果」は、例えば化学的効果または表現型効果等の、間接的または直接的に本発明のバイオマーカーの影響下にあるパラメーターの判定を含む。故に、機能効果としてはとりわけ、リガンド結合活性、転写活性化または転写抑制、細胞の増殖能力、転移能力が挙げられる。「機能効果」は、インビトロ、インビボ、及びエキソビボ活性を含む。

「機能効果を判定すること」は、間接的または直接的に本発明のバイオマーカーの影響下にあるパラメーターを増加または減少させる化合物についてアッセイすること、例えば物理的、及び化学的、または表現型効果を測定することを意味する。そのような機能効果は、例えばタンパク質に関する分光特性（例えば蛍光光度、吸光度、屈折率）、流体力学的性質（例えば形状）、クロマトグラフ的性質、または溶解性質における変化、例えば抗体への結合等のリガンド結合アッセイ、誘導可能なマーカーまたはマーカーの転写活性化の測定、酵素活性の変化の測定、細胞増殖、アポトーシス、細胞周期停止を増加または減少させる能力、細胞表面マーカーにおける変化の測定等の、当業者に既知の任意の手段によって測定することができる。機能効果は、例えば形態学的特徴における改変の定量的または定性的測定についての顕微鏡検査、胎盤組織において発現された他の遺伝子についてのＲＮＡまたはタンパク質レベルにおける変化の測定、ＲＮＡ安定性の測定、下流遺伝子またはレポーター遺伝子発現の特定（ＣＡＴ、ルシフェラーゼ、β−ｇａｌ、ＧＦＰ等）、例えば化学発光法、蛍光光度、比色反応、抗体結合、誘導可能なマーカー等の、当業者に既知の多くの手段によって評価することができる。

マーカーの「阻害因子」、「活性化因子」、及び「調節因子」は、癌のバイオマーカーのインビトロ及びインビボアッセイを用いて特定された、活性化分子、阻害分子、または調節分子を指すために使用される。阻害因子は、例えば、結合して、癌のバイオマーカーの活性を部分的または完全に遮断するか、その活性化を減少、防止、遅延するか、その活性または発現を不活性化、脱感作、または下方調節する化合物である。「活性化因子」は、癌のバイオマーカーの活性化を増加、開放、活性化、促進、増進するか、その活性を感作、刺激、または上方調節する化合物、例えばアゴニストである。阻害因子、活性化因子、または調節因子はまた、癌のバイオマーカーの遺伝的に修飾された種類、例えば改変された活性を伴う種類、ならびに天然型及び合成リガンド、アンタゴニスト、アゴニスト、抗体、ペプチド、環状ペプチド、核酸、アンチセンス分子、リボザイム、ＲＮＡｉ及びｓｉＲＮＡ分子、低有機分子等を含む。阻害因子及び活性化因子のためのそのようなアッセイは、上に記載されるように、例えば細胞または細胞抽出物中においてインビトロで癌のバイオマーカーを発現させること、仮想の調節因子化合物を適用すること、及び次いで活性における機能効果を決定することを含む。

「プローブ（ｐｒｏｂｅ）」または「プローブ（ｐｒｏｂｅｓ）」は、少なくとも８ヌクレオチド長であり、プローブ中少なくとも１つの配列の、標的領域の配列との相補性により、標的配列とハイブリッド構造を形成するポリヌクレオチドを指す。ポリヌクレオチドは、ＤＮＡ及び／またはＲＮＡから構成され得る。ある特定の実施形態において、本明細書においてより詳細に考察されるように、プローブは検出可能に標識される。プローブは、サイズにおいて有意に異なり得る。概して、プローブは、例えば少なくとも８〜１５ヌクレオチド長であり得る。他のプローブは、例えば少なくとも２０、３０、または４０ヌクレオチド長である。更なる他のプローブは、いくぶんより長く、例えば少なくとも５０、６０、７０、８０、９０ヌクレオチド長である。更なる他のプローブはまだそれらより長く、例えば少なくとも１００、１５０、２００、またはそれ以上のヌクレオチド長である。プローブは、前述の範囲内に包含される任意の特異的な長さでもあり得る。好ましくは、プローブは、ポリメラーゼ連鎖反応中に標的配列についてプライムするために使用される配列（複数可）に対して相補的である配列を含まない。

用語「相補的」または「相補性」は、塩基対合則により関連する、ポリヌクレオチド（すなわち、ヌクレオチドの配列）に関して使用される。例えば、配列「Ａ−Ｇ−Ｔ」は配列「Ｔ−Ｃ−Ａ」に対して相補的である。相補性は「部分的」であり得、このとき核酸の塩基のうちの一部のみが塩基対合則に従って調和する。代替的に、核酸間で「完全な」または「全体の」相補性が存在し得る。核酸鎖間の相補性の程度は、核酸鎖間のハイブリダイゼーションの効率性及び強度に有意な影響を有する。

「オリゴヌクレオチド」または「ポリヌクレオチド」は、デオキシリボヌクレオチドまたはリボヌクレオチドのいずれかである、任意の長さのヌクレオチドの重合形態を指す。これらの用語としては、限定されるものではないが、一本鎖、二本鎖、もしくは三本鎖ＤＮＡ、ゲノムＤＮＡ、ｃＤＮＡ、ＲＮＡ、ＤＮＡ−ＲＮＡハイブリッド、またはプリン及びピリミジン塩基、もしくは他の天然、化学的、生化学的に修飾された非天然もしくは誘導体化されたヌクレオチド塩基を含むポリマーが含まれる。

「増幅検出アッセイ」は、プライマー対及び調和するプローブを指し、このプライマー対はアンプリコンを画定する標的核酸の領域、典型的には標的遺伝子に隣接し、プローブはアンプリコンに結合する。

用語「遺伝的変異型」及び「ヌクレオチド変異型」は本明細書において交換可能に使用されて、限定されるものではないが、コード領域及び非コード領域におけるヌクレオチド塩基欠失、挿入、逆位、及び置換を含む、基準ヒト遺伝子または特定の遺伝子座におけるｃＤＮＡ配列に対する変化または改変を指す。欠失は、遺伝子のヌクレオチド配列の単一のヌクレオチド塩基、部分、もしくは領域、または遺伝子配列全体のものであり得る。挿入は、１つ以上のヌクレオチド塩基のものであり得る。「遺伝的変異型」または「ヌクレオチド変異型」は、転写調節領域、ｍＲＮＡの非翻訳領域、エクソン、イントロン、またはエクソン／イントロン接合部において起こり得る。「遺伝的変異型」または「ヌクレオチド変異型」は、停止コドン、フレームシフト、アミノ酸の欠失、改変された遺伝子転写産物のスプライス形態、または改変されたアミノ酸配列を結果としてもたらしてもよく、またはもたらさなくてもよい。

用語「遺伝子」は、ポリペプチドをコードし、コード領域ならびに個々のコード断片（エクソン）間の介在配列（イントロン）に先行及び追随する領域を含むポリヌクレオチド（例えば、ＤＮＡ断片）を指す。親遺伝子またはタンパク質配列は、ＥｎｔｒｅｚＧｅｎｅＩＤまたは受入番号として提示される。例えば、ＺＮＦ４７９ＥｎｔｒｅｚＧｅｎｅＩＤは９０８２７である。ＥｎｔｒｅｚのＧｅｎｅＩＤ中の配列に任意の変化が為された場合、その変化は小数とその変化の数とによってＧｅｎｅＩＤの後ろで示される（例えば、９０８２７．１）。更に、例えば、ＴＰＭ１は、受入番号ＮＭ＿００４３０４を有する。

用語「対立遺伝子」または「遺伝子対立因子」は、基準配列を有する天然型遺伝子、または特異的なヌクレオチド変異型を含有する遺伝子を概して指すように本明細書において使用される。

本明細書で使用する場合、「ハプロタイプ」は、ｍＲＮＡまたは個体中に見出される染色体上のゲノムＤＮＡの領域中の遺伝的（ヌクレオチド）変異型の組み合わせである。したがって、ハプロタイプは、典型的に単位として共に遺伝される、複数の遺伝的に連結する多形変異型を含む。

本明細書で使用する場合、用語「アミノ酸変異型」は、基準タンパク質をコードする基準ヒト遺伝子に対する「遺伝的変異型」または「ヌクレオチド変異型」から結果として生じる、基準ヒトタンパク質に対するアミノ酸の変化を指すように使用される。用語「アミノ酸変異型」は、単一アミノ酸置換だけでなく、アミノ酸欠失、挿入、及び基準タンパク質におけるアミノ酸配列の他の有意な変化もまた包括することが意図される。本発明の変異型は、以下の用語体系、［元々のアミノ酸残基／位置／置換されたアミノ酸残基］によって記載される。例えば、位置７６におけるアルギニンに対するロイシンの置換はＲ７６Ｌとして表される。

本明細書で使用する場合、用語「遺伝子型」は、遺伝子（または特定の染色体領域）の、１つの対立遺伝子または両方の対立遺伝子のいずれかにおける特定のヌクレオチド変異型マーカー（または座）でのヌクレオチド特性を意味する。目的とする遺伝子の特定のヌクレオチドの位置に関して、１つまたは両方の対立遺伝子中のその座におけるヌクレオチド（複数可）またはその等価物は、その座における遺伝子の遺伝子型を形成する。遺伝子型は同型接合または異型接合であり得る。したがって、「遺伝子型決定」は、遺伝子型、すなわち特定の遺伝子座におけるヌクレオチド（複数可）を決定することを意味する。遺伝子型決定はまた、対応するヌクレオチド変異型（複数可）を推定するために使用することができる、タンパク質の特定の位置におけるアミノ酸変異型を決定することによっても為され得る。

プローブのセットは、プライマーのセット、通常はプライマー対、及び／または標的の遺伝的変形を検出するために使用される、検出可能に標識されたプローブを典型的には指す。プライマー対は、増幅反応において使用されて、前述の遺伝子のそれぞれについての標的の遺伝的変形の領域にまたがるアンプリコンを画定する。アンプリコンのセットは、調和するプローブのセットにより検出される。例示的な実施形態において、本発明は、本発明の方法において使用される標的の遺伝子変形のセットを検出するために使用される、ＴａｑＭａｎ（商標）（ＲｏｃｈｅＭｏｌｅｃｕｌａｒＳｙｓｔｅｍｓ，Ｐｌｅａｓａｎｔｏｎ，ＣＡ）アッセイのセットである。

一実施形態において、プローブのセットは、次世代シーケンシング反応等の核酸シーケンシング反応により検出されるアンプリコンを生成するために使用されるプライマーのセットである。これらの実施形態において、例えば、ＡｍｐｌｉＳＥＱ（商標）（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ／ＩｏｎＴｏｒｒｅｎｔ，Ｃａｒｌｓｂａｄ，ＣＡ）またはＴｒｕＳＥＱ（商標）（Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏ，ＣＡ）技法を採用することができる。他の実施形態において、２つ以上のプローブがプライマー対である。

修飾リボヌクレオチドまたはデオキシリボヌクレオチドは、核酸中の天然型塩基の代わりに使用され得る分子を指し、限定されるものではないが、修飾プリン及びピリミジン、微量塩基、転換可能なヌクレオシド、プリン及びピリミジンの構造類似体、標識化、誘導体化、及び修飾化ヌクレオシド及びヌクレオチド、共役ヌクレオシド及びヌクレオチド、配列修飾因子、末端修飾因子、スペーサー修飾因子、ならびに、限定されるものではないが、リボース修飾ヌクレオチド、ホスホロアミド酸、ホスホロチオエート、ホスホナミダイト（ｐｈｏｓｐｈｏｎａｍｉｄｉｔｅ）、メチルホスホネート、メチルホス７ホラミダイト（ｍｅｔｈｙｌｐｈｏｓｐ７ｈｏｒａｍｉｄｉｔｅ）、メチルホスホナミダイト、５'−β−シアノエチルホスホラミダイト、メチレンホスホネート、ホスホロジチオエート、ペプチド核酸、アキラル性及び中性のヌクレオチド間連結を含む、骨格修飾を伴うヌクレオチドを含む。

「ハイブリダイズ」または「ハイブリダイゼーション」は、核酸間の結合を指す。ハイブリダイゼーションの条件は、結合する核酸の配列相同性に従って異なり得る。したがって、対象の核酸間の配列相同性が高い場合、厳密な条件が使用される。配列相同性が低い場合、緩やかな条件が使用される。ハイブリダイゼーションの条件が厳密である場合、ハイブリダイゼーションの特異性は増加し、このハイブリダイゼーションの特異性の増加は、非特異的なハイブリダイゼーションの生成物の収率の減少につながる。しかしながら、緩やかなハイブリダイゼーションの条件下では、ハイブリダイゼーションの特異性は減少し、このハイブリダイゼーションの特異性の減少は、非特異的なハイブリダイゼーションの生成物の収率の増加につながる。

「厳密な条件」は、プローブが、典型的には核酸の複合体混合物中のその標的サブ配列にハイブリダイズするが、他の配列にはハイブリダイズしない条件を指す。厳密な条件は配列依存性であり、異なる環境では異なることになる。より長い配列は、より高い温度で特異的にハイブリダイズする。核酸のハイブリダイゼーションへの詳細な案内は、Ｔｉｊｓｓｅｎ，ＴｅｃｈｎｉｑｕｅｓｉｎＢｉｏｃｈｅｍｉｓｔｒｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ−−ＨｙｂｒｉｄｉｚａｔｉｏｎｗｉｔｈＮｕｃｌｅｉｃＰｒｏｂｅｓ，"Ｏｖｅｒｖｉｅｗｏｆｐｒｉｎｃｉｐｌｅｓｏｆｈｙｂｒｉｄｉｚａｔｉｏｎａｎｄｔｈｅｓｔｒａｔｅｇｙｏｆｎｕｃｌｅｉｃａｃｉｄａｓｓａｙｓ"（１９９３）において見出される。概して、厳密な条件は、画定されたイオン強度ｐＨでの特異的な配列の熱融点（Ｔ_ｍ）よりも約５〜１０℃低いように選択される。Ｔ_ｍは、（画定されたイオン強度、ｐＨ、及び核濃度の下での）温度であり、この温度において、標的に対して相補的なプローブの５０％が、平衡で標的配列にハイブリダイズする（標的配列は過剰に存在するため、Ｔ_ｍでは、プローブの５０％は平衡で占有される）。厳密な条件はまた、ホルムアミド等の不安定化剤の添加により達成され得る。選択的または特異的ハイブリダイゼーションについて、陽性シグナルは少なくとも背景の２倍、好ましくは背景のハイブリダイゼーションの１０倍である。例示的な厳密なハイブリダイゼーション条件は以下のようなもの、つまり５０％ホルムアミド、５×ＳＳＣ、及び１％ＳＤＳにおける４２℃でのインキュベート、または６５℃での０．２×ＳＳＣ及び０．１％ＳＤＳにおける洗浄を伴う、５×ＳＳＣ、１％ＳＤＳ、６５℃でのインキュベートであり得る。

厳密な条件下で互いにハイブリダイズしない核酸でも、それらがコードするポリペプチドが実質的に同一である場合は、やはり実質的に同一である。これは例えば、核酸のコピーが遺伝子コードにより許容される最大コドン縮重を用いて形成される場合に起こる。このような場合、核酸は典型的には、中程度に厳密なハイブリダイゼーション条件下でハイブリダイズする。例示的な「中程度に厳密なハイブリダイゼーション条件」は、４０％ホルムアミド、１ＭのＮａＣｌ、１％ＳＤＳの緩衝液中における３７℃でのハイブリダイゼーション、及び１×ＳＳＣ中における４５℃での洗浄を含む。陽性ハイブリダイゼーションは、バックグラウンドの少なくとも２倍である。当業者ならば、代替的なハイブリダイゼーション条件及び洗浄条件を活用して類似の厳密性の条件を提供できることを容易に認識するであろう。ハイブリダイゼーションのパラメーターを決定するための追加的なガイドラインが、多数の参考文献、例えばＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ，ｅｄにおいて提供される。

核酸間のハイブリダイゼーションは、ＤＮＡ分子とＤＮＡ分子との間、ＤＮＡ分子とＲＮＡ分子との間のハイブリダイゼーション、ならびにＲＮＡ分子とＲＮＡ分子との間のハイブリダイゼーションにおいて起こり得る。

「ムテイン」または「変異型」は、野生型または個体の集団内の最も一般的な形式に対して、それぞれ、１つ以上のヌクレオチドまたはアミノ酸の交換、欠失、または挿入によって異なるポリヌクレオチドまたはポリペプチドを指す。交換、欠失、または挿入されるヌクレオチドまたはアミノ酸の数は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれ以上、例えば２５、３０、３５、４０、４５、または５０等であり得る。用語ムテインはまた、転座、例えばＡＬＫ及びＴＰＭ１遺伝子によりコードされるポリペプチドの融合（ＴＰＭ１／ＡＬＫ）も包括し得る。

「遺伝子融合物」は、第１の遺伝子の少なくとも一部の、第２の遺伝子の一部への融合から結果として生じるキメラゲノムＤＮＡを指す。融合物中の第１の遺伝子からの配列と、融合物中の第２の遺伝子からの配列との間の移行点が、「区切り点」または「融合点」として言及される。

遺伝子融合物の転写は、結果としてキメラｍＲＮＡを生じる。

「一塩基多型」または「ＳＮＰ」は、ゲノム中の単一のヌクレオチド（Ａ、Ｔ、Ｇ、またはＣ）が、生物学的種のメンバー間で、またはヒトの対染色体間で異なる場合に起こるＤＮＡ配列の変形を指す。

「変異」はゲノムの場所、すなわち染色体、開始、停止、基準塩基、代替塩基、変異型タイプ（ＳＮＰ、ＩＮＳ、ＤＥＬ）等における特異的な変化として本明細書において定義される。

「アノテーション」は、変異の効果、すなわち遺伝子、転写産物、変異型分類、変異型変化、変異型コドン位置等を説明する転写産物特異的な特性の集合として本明細書において定義される。

「プライマー」または「プライマー配列」は、標的核酸配列（例えば、増幅されるＤＮＡ鋳型）にハイブリダイズして核酸合成反応をプライムするオリゴヌクレオチドを指す。プライマーは、ＤＮＡオリゴヌクレオチド、ＲＮＡオリゴヌクレオチド、またはキメラ配列であり得る。プライマーは、天然、合成、または修飾ヌクレオチドを含有し得る。プライマーの長さの上限及び下限の両方は、経験的に決定される。プライマーの長さの下限は、核酸増幅反応条件下で標的核酸とのハイブリダイゼーション時に安定した二重鎖を形成するために必要な最低限の長さである。大変短いプライマー（通常、３〜４ヌクレオチド長）は、そのようなハイブリダイゼーション条件下では標的核酸と共に熱力学的に安定した二重鎖を形成しない。上限は多くの場合、標的核酸中の所定の核酸配列以外の領域における二重鎖形成を有する可能性によって決定される。概して、好適なプライマーの長さは、約１０〜約４０ヌクレオチド長の範囲である。ある特定の実施形態において、例えば、プライマーは１０〜４０、１５〜３０、または１０〜２０ヌクレオチド長であり得る。プライマーは、適切な条件下に配置された場合、ポリヌクレオチド配列上で合成の開始点として作動することが可能である。

プライマーは、コピーされる標的ポリヌクレオチド配列の領域に対して完全にまたは実質的に相補的であることになる。故に、ハイブリダイゼーションを促す条件の下では、プライマーは標的配列の相補的領域に対してアニーリングする。限定されるものではないが、ポリメラーゼ、ヌクレオチド三リン酸等の好適な反応物質の添加時に、プライマーは重合剤によって伸長して標的配列のコピーを形成する。プライマーは一本鎖であってもよく、または代替的に部分的に二本鎖であってもよい。

「検出」、「検出可能」、及びその文法的な等価物は、標的核酸配列の存在、及び／または量、及び／または独自性を判定する方法を指す。一部の実施形態において、検出は標的核酸配列の増幅時に起こる。他の実施形態において、標的核酸のシーケンシングは、標的核酸の「検出」として特徴付けられ得る。プローブに結合する標識は、例えば化学的または物理的手段によって検出することができる、当分野において既知の様々な異なる標識のいずれをも含み得る。プローブに結合し得る標識としては、例えば蛍光物質及び発光物質が挙げられ得る。

「増幅（ａｍｐｌｉｆｙｉｎｇ）」、「増幅（ａｍｐｌｉｆｉｃａｔｉｏｎ）」、及びその文法的な等価物は、限定されるものではないが、直線的または指数関数的のいずれかで核酸配列を増幅するための広範な技術を含む、鋳型依存的な様式で標的核酸配列の少なくとも一部が複製される、任意の様式を指す。増幅ステップを実行するための例示的な手段としては、リガーゼ連鎖反応（ＬＣＲ）、リガーゼ検出反応（ＬＤＲ）、核酸連結に続くＱ−レプリカーゼ増幅、ＰＣＲ、プライマー伸長、鎖置換増幅（ＳＤＡ）、超分岐鎖置換増幅、多置換増幅（ＭＤＡ）、核酸鎖に基づく増幅（ＮＡＳＢＡ）、２ステップ多重増幅、ローリングサークル増幅（ＲＣＡ）、リコンビナーゼ−ポリメラーゼ増幅（ＲＰＡ）（ＴｗｉｓｔＤｘ，Ｃａｍｂｒｉｄｇ，ＵＫ）、及びこれらの複合化形態または組み合わせ、例えば限定されるものではないがＯＬＡ／ＰＣＲ、ＰＣＲ／ＯＬＡ、ＬＤＲ／ＰＣＲ、ＰＣＲ／ＰＣＲ／ＬＤＲ、ＰＣＲ／ＬＤＲ、ＬＣＲ／ＰＣＲ、ＰＣＲ／ＬＣＲ（複合連鎖反応、ＣＣＲとしても知られる）を含む自家持続配列複製法（３ＳＲ）等が挙げられる。そのような技術の記載は、とりわけ、Ｓａｍｂｒｏｏｋｅｔａｌ．ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，３ｒｄＥｄｉｔｉｏｎ、Ａｕｓｂｅｌｅｔａｌ．；ＰＣＲＰｒｉｍｅｒ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，Ｄｉｆｆｅｎｂａｃｈ，Ｅｄ．，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＰｒｅｓｓ（１９９５）；ＴｈｅＥｌｅｃｔｒｏｎｉｃＰｒｏｔｏｃｏｌＢｏｏｋ，ＣｈａｎｇＢｉｏｓｃｉｅｎｃｅ（２００２）、Ｍｓｕｉｈｅｔａｌ．，Ｊ．Ｃｌｉｎ．Ｍｉｃｒｏ．３４：５０１−０７（１９９６）；ＴｈｅＮｕｃｌｅｉｃＡｃｉｄＰｒｏｔｏｃｏｌｓＨａｎｄｂｏｏｋ，Ｒ．Ｒａｐｌｅｙ，ｅｄ．，ＨｕｍａｎａＰｒｅｓｓ，Ｔｏｔｏｗａ，Ｎ．Ｊ．（２００２）において見出し得る。

核酸マーカーの分析は、限定されるものではないが、配列分析及び電気泳動分析を含む当分野で既知の技術を用いて実行することができる。配列分析の非制限的な例としては、Ｍａｘａｍ−Ｇｉｌｂｅｒｔシーケンシング、Ｓａｎｇｅｒシーケンシング、キャピラリーアレイＤＮＡシーケンシング、熱サイクルシーケンシング（Ｓｅａｒｓｅｔａｌ．，Ｂｉｏｔｅｃｈｎｉｑｕｅｓ，１３：６２６−６３３（１９９２））、固相シーケンシング（Ｚｉｍｍｅｒｍａｎｅｔａｌ．，ＭｅｔｈｏｄｓＭｏｌ．ＣｅｌｌＢｉｏｌ．，３：３９−４２（１９９２））、マトリックス支援レーザー脱離／イオン化飛行時間型質量分析等の質量分析を用いたシーケンシング（ＭＡＬＤＩ−ＴＯＦ／ＭＳ；Ｆｕｅｔａｌ．，Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．，１６：３８１−３８４（１９９８））、及びハイブリダイゼーションによるシーケンシングが挙げられる。Ｃｈｅｅｅｔａｌ．，Ｓｃｉｅｎｃｅ，２７４：６１０−６１４（１９９６）、Ｄｒｍａｎａｃｅｔａｌ．，Ｓｃｉｅｎｃｅ，２６０：１６４９−１６５２（１９９３）、Ｄｒｍａｎａｃｅｔａｌ．，Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．，１６：５４−５８（１９９８）。電気泳動分析の非限定的な例としては、アガロースゲル電気泳動法またはポリアクリルアミドゲル電気泳動法等のスラブゲル電気泳動法、キャピラリー電気泳動法、及び変性剤濃度勾配ゲル電気泳動法が挙げられる。加えて、次世代シーケンシング法を、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ／ＩｏｎＴｏｒｒｅｎｔのＰＧＭまたはＰｒｏｔｏｎ、ＩｌｌｕｍｉｎａのＨｉＳＥＱまたはＭｉＳＥＱ、及びＲｏｃｈｅ／４５４の次世代シーケンシングシステム等の、企業から市販されるキット及び計器を用いて実行することができる。

一部の実施形態において、励起光に応答して蛍光信号を生み出すプローブの量は、増幅反応において生成される核酸の量に典型的には関する。したがって、一部の実施形態において、蛍光信号の量は、増幅反応において形成される生成物の量に関する。故にそのような実施形態においては、蛍光指示薬からの蛍光信号の強度を測定することにより、増幅生成物の量を測定することができる。

「検出可能に標識されたプローブ」または「検出器プローブ」は、典型的には定量的またはリアルタイムＰＣＲ分析、ならびに終点分析のために、増幅反応において使用される分子を指す。そのような検出器プローブは、標的核酸配列の増幅を監視するために使用することができる。一部の実施形態においては、増幅反応中に存在する検出器プローブは、時間の関数として生成されるアンプリコン（複数可）の量を監視するために好適である。そのような検出器プローブとしては、限定されるものではないが、５'−エキソヌクレアーゼアッセイ（本明細書に記載のＴＡＱＭＡＮ（登録商標）プローブ（米国特許第５，５３８，８４８号も参照））、様々なステムループ分子ビーコン（例えば米国特許第６，１０３，４７６号及び同第５，９２５，５１７号、ならびにＴｙａｇｉａｎｄＫｒａｍｅｒ，１９９６，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１４：３０３−３０８を参照）、ステムレスビーコンまたはリニアビーコン（例えばＷＯ第９９／２１８８１号を参照）、ＰＮＡＭｏｌｅｃｕｌａｒＢｅａｃｏｎｓ（商標）（例えば米国特許第６，３５５，４２１号及び同第６，５９３，０９１号を参照）、リニアＰＮＡビーコン（例えばＫｕｂｉｓｔａｅｔａｌ．，２００１，ＳＰＩＥ４２６４：５３−５８を参照）、非ＦＲＥＴプローブ（例えば米国特許第６，１５０，０９７号を参照）、Ｓｕｎｒｉｓｅ（登録商標）／Ａｍｐｌｉｆｌｕｏｒ（商標）プローブ（米国特許第６，５４８，２５０号）、ステムループ及び二重鎖Ｓｃｏｒｐｉｏｎプローブ（Ｓｏｌｉｎａｓｅｔａｌ．，２００１，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ２９：Ｅ９６及び米国特許第６，５８９，７４３号）、バルジループプローブ（米国特許第６，５９０，０９１号）、シュードノットプロープ（米国特許第６，５８９，２５０号）、サイクリコン（ｃｙｃｌｉｃｏｎ）（米国特許第６，３８３，７５２号）、ＭＧＢＥｃｌｉｐｓｅ（商標）プローブ（ＥｐｏｃｈＢｉｏｓｃｉｅｎｃｅｓ）、ヘアピンプローブ（米国特許第６，５９６，４９０号）、ペプチド核酸（ＰＮＡ）ライトアッププローブ、自己組織化ナノ粒子プローブ、ならびに例えば、米国特許第６，４８５，９０１号、Ｍｈｌａｎｇａｅｔａｌ．，２００１，Ｍｅｔｈｏｄｓ２５：４６３−４７１、Ｗｈｉｔｃｏｍｂｅｅｔａｌ．，１９９９，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ．１７：８０４−８０７、Ｉｓａｃｓｓｏｎｅｔａｌ．，２０００，ＭｏｌｅｃｕｌａｒＣｅｌｌＰｒｏｂｅｓ．１４：３２１−３２８、Ｓｖａｎｖｉｋｅｔａｌ．，２０００，ＡｎａｌＢｉｏｃｈｅｍ．２８１：２６−３５、Ｗｏｌｆｆｓｅｔａｌ．，２００１，Ｂｉｏｔｅｃｈｎｉｑｕｅｓ７６６：７６９−７７１、Ｔｓｏｕｒｋａｓｅｔａｌ．，２００２，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ．３０：４２０８−４２１５、Ｒｉｃｃｅｌｌｉｅｔａｌ．，２００２，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ３０：４０８８−４０９３、Ｚｈａｎｇｅｔａｌ．，２００２Ｓｈａｎｇｈａｉ．３４：３２９−３３２、Ｍａｘｗｅｌｌｅｔａｌ．，２００２，Ｊ．Ａｍ．Ｃｈｅｍ．Ｓｏｃ．１２４：９６０６−９６１２、Ｂｒｏｕｄｅｅｔａｌ．，２００２，ＴｒｅｎｄｓＢｉｏｔｅｃｈｎｏｌ．２０：２４９−５６、Ｈｕａｎｇｅｔａｌ．，２００２，Ｃｈｅｍ．Ｒｅｓ．Ｔｏｘｉｃｏｌ．１５：１１８−１２６、及びＹｕｅｔａｌ．，２００１，Ｊ．Ａｍ．Ｃｈｅｍ．Ｓｏｃ１４：１１１５５−１１１６１に記載されるフェロセン修飾プローブが挙げられる。

検出器プローブはまた、限定されるものではないが、ブラックホール消光剤（Ｂｉｏｓｅａｒｃｈ）、ＩｏｗａＢｌａｃｋ（ＩＤＴ）、ＱＳＹ消光剤（ＭｏｌｅｃｕｌａｒＰｒｏｂｅｓ）、及びＤａｂｓｙｌａｎｄＤａｂｃｅｌスルホネート／カルボキシレートＱｕｅｎｃｈｅｒｓ（Ｅｐｏｃｈ）を含む消光剤も含み得る。

検出器プローブはまた、２つのプローブを含み得、例えば蛍光体が１つのプローブ上にあり、消光剤がもう一方のプローブ上にあり、標的上での２つのプローブ一緒のハイブリダイゼーションが信号を消光するか、または標的上でのハイブリダイゼーションが蛍光光度の変化を介して信号のシグネチャーを変える。検出器プローブはまた、カルボキシレート基の代わりにＳＯ_３を有するフルオレセニン（ｆｌｕｏｒｅｓｃｅｎｉｎ）色素のスルホネート誘導体、フルオレセインのホスホラミダイト体、ＣＹ５のホスホラミダイト体（例えばＡｍｅｒｓｈａｍから市販される）を含み得る。一部の実施形態において、臭化エチジウム、ＳＹＢＲ（登録商標）ＧｒｅｅｎＩ（ＭｏｌｅｃｕｌａｒＰｒｏｂｅｓ）、及びＰｉｃｏＧｒｅｅｎ（登録商標）（ＭｏｌｅｃｕｌａｒＰｒｏｂｅｓ）等の挿入標識が使用され、それによって検出器プローブの不在下における増幅生成物のリアルタイムでの、または終点での可視化が可能になる。一部の実施形態において、挿入検出器プローブ及び配列に基づいた検出器プローブの両方を含み得る、リアルタイムの可視化が採用され得る。一部の実施形態において、検出器プローブは、増幅反応において相補的配列にハイブリダイズされない場合、少なくとも部分的に消光させられ、増幅反応において相補的配列にハイブリダイズされた場合、少なくとも部分的に消光されない。一部の実施形態において、本教示の検出器プローブは６３〜６９℃のＴ_ｍを有するが、本教示により案内されても慣例実験が他のＴ_ｍを有する検出器プローブを結果として生じ得ることが理解されるであろう。一部の実施形態において、プローブは更に、例えば小溝結合剤（例えば米国特許第６，４８６，３０８号を参照）等の様々な修飾を含んで、所望の熱力学的特性を更に提供し得る。

一部の実施形態において、検出は、異なる分析物種間の移動の差次的な速度に基づく、様々な移動度依存性の分析技術のいずれかを通して起こり得る。例示的な移動度依存性の分析技術としては、電気泳動法、クロマトグラフィー、質量分析法、遠心沈澱法、例えば勾配遠心分離、フィールドフロー分画、多段階抽出法等が挙げられる。一部の実施形態において、移動度プローブは、増幅生成物にハイブリダイズされ得、標的核酸配列の同一性は、例えばＲｏｓｅｎｂｌｕｍらへの公開されたＰ．Ｃ．Ｔ．出願ＷＯ第０４／４６３４４号、及びＷｅｎｚらへのＷＯ第０１／９２５７９号に記載されるように、溶出した移動度プローブの移動度依存性の分析技術を介して決定される。一部の実施形態において、検出は、様々なマイクロアレイ及び関連するソフトウェア、例えばＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ１７００ＣｈｅｍｉｌｕｍｉｎｅｓｃｅｎｔＭｉｃｒｏａｒｒａｙＡｎａｌｙｚｅｒを備えるＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓＡｒｒａｙＳｙｓｔｅｍ、ならびにとりわけ、Ａｆｆｙｍｅｔｒｉｘ、Ａｇｉｌｅｎｔ、Ｉｌｌｕｍｉｎａ、及びＡｍｅｒｓｈａｍＢｉｏｓｃｉｅｎｃｅｓから入手可能な他の市販されるアレイシステムによって達成され得る（Ｇｅｒｒｙｅｔａｌ．，Ｊ．Ｍｏｌ．Ｂｉｏｌ．２９２：２５１−６２，１９９９、ＤｅＢｅｌｌｉｓｅｔａｌ．，ＭｉｎｅｒｖａＢｉｏｔｅｃ１４：２４７−５２，２００２、及びＳｔｅａｒｓｅｔａｌ．，Ｎａｔ．Ｍｅｄ．９：１４０４５（補遺、２００３を含む）も参照）。検出が、標識されたプライマーの一部として、または増幅中の標識されたｄＮＴＰの組み込みに起因して反応生成物中に組み込まれるレポーター基、あるいは例えば、限定されるものではないがレポーター基を含むハイブリダイゼーションタグ相補体を介して、または反応生成物に不可欠であるか、もしくは反応生成物に結合するリンカーアームを介して反応生成物に結合したレポーター基を含み得ることもまた認識されるであろう。例えば、質量分析法を用いた未標識の反応生成物の検出もまた、本教示の範囲内である。

「異常性」は、ＤＮＡのゲノムの構造変形または改変を意味する。例としては、過剰／過小発現、コピー数増幅／欠失、変異、遺伝子融合等が挙げられる。

「ドライバー事象」は、機能獲得型（ＧｏＦ）変異、融合、またはコピー数ピークを表すゲノムの異常性を意味する。

「反復性」は、３つ以上の腫瘍試料における事象の発生を意味する。

「Ｍｉｔｅｌｍａｎ」は、文献から手作業で精選された癌における染色体異常及び遺伝子融合のデータベースを意味する。ｈｔｔｐ：／／ｇｏｏ．ｇｌ／ＰｎＸＭＴ

遺伝子融合

（表１）遺伝子融合

（表２）遺伝子融合

（表３）遺伝子融合

（表４）表１の区切り点配列

（表５）表２の区切り点配列

（表６）表３の区切り点配列

本開示は、例えばＴＰＭ１／ＡＬＫ、ＰＲＫＡＲ１Ａ／ＡＬＫ、ＮＣＯＡ１／ＡＬＫ、ＬＰＰ／ＣＡＳＲ、ＭＤＭ２／ＥＧＦＲ、ＦＧＦＲ３／ＥＬＡＶＬ３、Ｂ２Ｍ／ＧＮＡＳ、ＤＯＣＫ８／ＪＡＫ２、ＨＮＦ１Ｂ／ＮＯＴＣＨ１、ＮＦＡＳＣ／ＮＴＲＫ１、ＳＳＢＰ２／ＮＴＲＫ１、ＳＱＳＴＭ１／ＮＴＲＫ１、ＴＢＬ１ＸＲ１／ＰＩＫ３ＣＡ、ＡＫＡＰ１３／ＲＥＴ、ＦＫＢＰ１５／ＲＥＴ、ＴＢＬ１ＸＲ１／ＲＥＴ、ＣＥＰ８５Ｌ／ＲＯＳ１、ＣＬＣＮ６／ＲＡＦ１、ＴＲＡＫ１／ＲＡＦ１、ＰＲＫＡＣＡ／ＡＫＴ１、ＰＲＫＡＣＡ／ＡＫＴ２、ＭＬＬ／ＦＹＮ、ＥＣＨＤ１／ＦＹＮ、ＴＴＣ１３／ＪＡＫ２、ＳＥＣ１６Ａ／ＮＯＴＣＨ１、ＥＲＣ１／ＲＥＴ、ＧＴＦ２ＩＲＤ１／ＡＬＫ、ＨＴＡＴＳＦ１／ＢＲＳ３、ＣＤＨ１／ＣＣＤＣ１３２、ＣＣＤＣ１３２／ＣＤＨ１、ＥＲＢＢ２／ＳＬＣ２９Ａ３、ＭＥＴ／ＴＦＧ、ＴＦＧ／ＭＥＴ、ＮＯＴＣＨ２／ＭＮＤＡ、ＩＲＦ２ＢＰ２／ＮＴＲＫ１、ＥＩＦ２Ｃ２／ＰＴＫ２、ＲＡＲＡ／ＨＯＸＢ３、ＳＴＡＴ３／ＥＴＶ４、及びＧＦＡＰ／ＶＩＭ、ＶＩＭ／ＧＦＡＰ、ＴＯＰ１／Ｃ１７ｏｒｆ６４、及びＴＰ５３／ＫＩＡＡ０７５３等の遺伝子融合の、表１〜表３、表１９、及び表２２に示されるものから選択される、新規の遺伝子融合及び遺伝子融合変異型（すなわち、パートナー遺伝子の１つまたは両方における異なる区切り点の場所）を提供する。これらの発見の結果として、本開示は、単離遺伝子融合核酸及びそれに対して相補的な配列、アンプリコン、転写産物、反応混合物、ならびに遺伝子融合物の核酸配列、それに対して相補的な配列、アンプリコン、及び転写産物を特異的に認識するプローブを提供する。本開示は更に、関連付けられる疾患の治療における使用のためのアンチセンスヌクレオチドを企図する。

表１〜表３、表１９、及び表２２は、関与する遺伝子（遺伝子Ａ及び遺伝子Ｂ）、染色体の場所、区切り点の場所、融合のタイプ、及び距離を示す、遺伝子融合（遺伝子Ａ／遺伝子Ｂ）のリストを提供する。遺伝子融合は、関連付けられるＴＣＧＡ疾患（ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ）と共に示される。癌は３〜４文字の略語で示され、これは診断セクションにおいてより詳細に説明される。

概して、表１〜３、１９、及び２２は、１つ以上の新規の遺伝子融合、及び／またはＴＣＧＡ疾患との遺伝子融合の関連性を提供する。例えば、表１９は新規の遺伝子融合を提示し、表２２はＴＣＧＡ疾患との遺伝子融合の新規の関連性を提示する。

表４〜６、２０、２３は、表１〜３、１９、及び２２の遺伝子融合物についての区切り点配列を提供する。区切り点配列は、配列番号１〜２５７として特定される。

アッセイ及びキット
ある特定の実施形態において、検出のアッセイ及び方法が提供される。本明細書に提供される遺伝子融合を検出するための方法は、当分野において既知である。非制限的な例として、そのようなアッセイは、５'ヌクレアーゼＰＣＲアッセイ（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，ＦｏｓｔｅｒＣｉｔｙ，ＣＡ）、次世代シーケンシングアッセイ（ＩｏｎＴｏｒｒｅｎｔ，ＣａｒｌｓｂａｄＣＡ、Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏ，ＣＡ）、またはマイクロアレイアッセイ（Ｓｋｏｔｈｅｉｍｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣａｎｃｅｒ２００９，８：５）を含み得る。少なくとも１つの実施形態において、アッセイまたは方法は、表１〜６の遺伝子融合物及び／または区切り点に対して相補的な、またはそれをコードする、少なくとも１つのプライマーまたはプローブを含む。

少なくとも１つの実施形態において、遺伝子融合物の発現の量を定量化するアッセイ及び方法が提供される。方法は、１つ以上のエクソンの発現を定量化することを伴い得る。例えばＴａｑＭａｎ（商標）ＧｅｎｅＥｘｐｒｅｓｓｉｏｎＡｓｓａｙｓは、定量化分析のために、既知の融合転写産物のセットについて設計され得る。そのようなアッセイは、プライマー及びプローブが区切り点領域にまたがるように設計され得るが、ある特定の例証的な実施形態においては、プライマー及びプローブは、区切り点の直上には配置されない。

ある特定の実施形態において、本開示は、本明細書に開示される遺伝子融合物及び／または区切り点のうちの１つ以上を特異的に認識するプライマー、プローブ、またはプローブもしくはプライマーのセットを提供する。

一実施形態において、本開示は、表１〜３、１９、及び２２から選択される遺伝子融合、ならびに／または表４〜６、２０、及び２３の区切り点を特異的に認識するプローブのセットを含む、組成物及びキットを提供する。プローブのセットは、例えば増幅用プライマーのセットであり得る。別の実施形態において、標的核酸中において、表１〜３、１９、及び２２から選択される遺伝子融合に隣接するプライマーのセットを含む組成物が、本明細書に提供される。この実施形態の反応混合物は更に、表１〜３、１９、及び２２から選択される遺伝子融合中の区切り点の両側に結合するか、または表１〜３、１９、及び２２から選択される遺伝子融合中の区切り点にまたがる結合領域に結合する検出器プローブを含み得る。検出器プローブを含む、または検出器プローブを含まない反応混合物は更に、ポリメラーゼ、ｄＮＴＰ、及び／またはウラシルＤＮＡデグリコシラーゼ（ＵＤＧ）を含み得る。ポリメラーゼ及びＵＤＧは、典型的にはヒト由来ではない。反応混合物は更に、標的核酸、例えばヒト標的核酸を含み得る。ヒト標的核酸は、例えば、癌を有する疑いのある人物からの生体試料から単離され得る。

別の実施形態において、配列番号１〜２５７を含む標的核酸を特異的に増幅及び検出する、ＴａｑＭａｎ（商標）アッセイまたはＭｏｌｅｃｕｌａｒＢｅａｃｏｎｓ（商標）アッセイ等のｑＰＣＲアッセイが本明細書に提供される。

本開示はまた、配列番号１〜２５７から選択される少なくとも１つの配列を含む単離核酸を提供する。単離核酸は、５'末端上に第１のプライマーを含み得る。更に、核酸は一本鎖または二本鎖であり得る。

他の実施形態において、本開示は、表１〜３、１９、及び２２から選択される遺伝子融合の区切り点を含む核酸を特異的に認識する、例えば増幅用プライマーのセット等の、検出器プローブ及び／またはプローブのセットを含むキットを提供する。例えば、ある特定の実施形態において、検出器プローブまたは増幅用プライマーのセットは、配列番号１〜２５７のうちの少なくとも１つを含む核酸を増幅及び／または検出するように設計される。キットは更に、典型的にはヒト由来ではないポリメラーゼ、ｄＮＴＰ、及び／またはＵＤＧ等の、増幅反応混合物からの成分を、別個または同一の容器中に含み得る。更に、キットは制御核酸を含み得る。例えば、制御核酸は、表１〜３、１９、及び２２から選択される遺伝子融合中の区切り点を含む配列を含み得る。

一部の実施形態において、少なくとも２つのプライマー対及び２つの検出可能に標識されたプローブを包括するキットが提供される。これらの非制限的実施形態において、２つのプライマー対及び／または２つの検出可能に標識されたプローブは、２つの増幅検出アッセイを形成する。

本発明のキットはまた、本明細書に記載される１つ以上の方法を実行するための説明書、及び／または本明細書に記載される１つ以上の組成物または試薬の解説も含み得る。説明書及び／または解説は、印刷された形式であってもよく、キットの挿入物に含まれてもよい。キットはまた、そのような説明書または解説を提供するインターネットの場所の書面の説明を含んでもよい。

一部の実施形態において、キット及びアッセイは、例えば遺伝子融合核酸配列等の標的を特異的に認識する１つ以上のプローブを含む。少なくとも１つの実施形態において、キット及びアッセイは、診断用キット及びアッセイである。

例えば、表４〜６、２０及び２３からの区切り点を含む核酸を特異的に認識する増幅用プライマーのセット等のプローブのセットを含むキットが提供される。キットは更に、典型的にはヒト由来ではないポリメラーゼ、ｄＮＴＰ、及び／またはＵＤＧ等の、増幅反応混合物からの成分を、別個または同一の容器中に含み得る。更に、キットは制御核酸を含み得る。例えば、制御核酸は、表４〜６、２０、及び２３から選択される区切り点を含む配列を含み得る。

別の実施形態において、表４〜６、２０、及び２３の区切り点のうちの少なくとも１つを含む、遺伝子融合物が提供される。

一部の実施形態において、反応混合物及びキットが提供される。一部の実施形態において、キットは、遺伝子融合物に選択的に結合する検出可能なプローブを包括する。一部の実施形態において、遺伝子融合物は、表４、表５、表６、表２０、または表２３の遺伝子融合物のうちのいずれか１つである。

したがって、一部の実施形態において、反応混合物、及び遺伝子融合物に選択的に結合する検出可能なプローブを包括するキットが提供され、この遺伝子融合物は、表４、表５、表６、表２０、または表２３の遺伝子融合物のうちのいずれか１つである。

診断法
遺伝子融合及び関連付けられる疾患を診断、治療、及び検出する方法が、本明細書において企図される。本方法は対象試料中の遺伝子融合を検出する段階を含み得る。

対象試料は、対象からの核酸を含む、任意の体組織または体液であり得る。ある特定の実施形態においては、試料は、循環性腫瘍細胞または無細胞ＤＮＡを含む血液試料であることになる。他の実施形態においては、試料は癌性組織等の組織であり得る。この癌性組織は、腫瘍細胞からのものであり得、生鮮凍結またはホルマリン固定パラフィン包埋（ＦＦＰＥ）されてもよい。

疾患は癌または腫瘍であり得る。癌としては、限定されるものではないが、黒色腫、子宮頸癌、膵臓癌、頭頸部扁平上皮癌、肺腺癌、結腸腺癌、子宮癌、卵巣癌、膠芽腫、低悪性度神経膠腫、肺腺癌、甲状腺癌、及び胃癌が挙げられ得る。

癌としては、限定されるものではないが、膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、及び子宮体部類内膜癌が挙げられ得る。本明細書で使用する場合、ＢＬＣＡ＝膀胱癌、ＢＲＣＡ＝乳癌、ＣＥＳＣ＝子宮頸部細胞癌、ＣＯＡＤ＝結腸腺癌、ＧＢＭ＝多形性膠芽腫、ＨＮＳＣ＝頭頸部扁平上皮癌、ＫＩＲＫ＝腎明細胞癌、ＫＩＲＰ＝腎臓の腎乳頭細胞癌、ＬＡＭＬ＝急性骨髄性白血病、ＬＧＧ＝脳の低悪性度神経膠腫、ＬＩＨＣ＝肝臓の肝細胞癌腫、ＬＵＡＤ＝肺腺癌、ＬＵＳＣ＝扁平上皮細胞肺癌、ＯＶ＝卵巣漿液性腺癌、ＰＲＡＤ＝前立腺腺癌、ＲＥＡＤ＝直腸腺癌、ＳＫＣＭ＝皮膚黒色腫、ＳＴＡＤ＝胃腺癌、ＴＨＣＡ＝甲状腺癌、及びＵＣＥＣ＝子宮体部類内膜癌である。

一部の実施形態において、新規の遺伝子変異型または遺伝子融合物を検出する方法が提供され、この方法は反応混合物を包括し、新規遺伝子変異型または遺伝子融合物は、伸長生成物の生成によって検出される。

別の実施形態において、本開示は、開示される遺伝子融合物及び遺伝子変異型を活用する診断法及び治療標的を提供する。遺伝子融合物、遺伝子変異型、及び関連付けられる病態が、診断及び治療の両方のための標的を提供する。例えば、遺伝子融合標的または遺伝子変異型の存在、不在、または増加もしくは減少した発現が、病態を診断するために使用することができ、または病態の予後の判断、もしくは病態の検出のために使用し得る。少なくとも１つの実施形態において、遺伝子融合物または遺伝子変異型は、特定の癌において高い有病率（頻度）、中程度の有病率、または低い有病率を有し得る。少なくとも１つの実施形態において、遺伝子融合物または遺伝子変異型は、１つの癌または腫瘍において高い頻度を有し得、別の癌または腫瘍において低いまたは中程度の有病率を有し得る。少なくとも１つの実施形態において、遺伝子融合物または遺伝子変異型は、癌または腫瘍との中または低頻度の関連性を有し得る。少なくとも１つの実施形態において、低または中頻度の遺伝子融合物または遺伝子変異型が、疾患についての素因の、診断、予後の判断、または特定を助けるために、１つ以上の異なる高頻度癌バイオマーカーと組み合わせて使用され得る。本方法は、癌についてスクリーニングするために、または癌の特定の転帰の相対的な見通しを予測するために使用することができる。例えば、ＢＲＣＡ１またはＢＲＣＡ２変異の存在は、遺伝子融合ＪＡＫ２／ＴＴＣ１３と組み合わせて、乳癌について分析され得る。

例えば配列番号１〜２５７から選択される配列を含み得る核酸等の、表１〜３、１９、及び２２から選択される遺伝子融合における区切り点にまたがる核酸を増幅する段階、ならびに核酸の存在を検出する段階を含む、癌を検出する方法が提供され、核酸の存在が試料中に癌が存在することを示す。別の方法においては、配列番号１〜２５７から選択される配列を含むアンプリコンを生成する段階、ならびに核酸の存在を検出する段階を含む、癌を検出する方法が本明細書に提供され、核酸の存在が試料中に癌または癌細胞が存在することを示す。アンプリコンは典型的には、アンプリコンを形成するために伸長されるプライマーを含む。癌は、膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、及び子宮体部類内膜癌から選択される。

試料における膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、及び子宮体部類内膜癌から選択される癌を、表１〜３、１９、及び２２から選択される遺伝子融合の存在を検出することによって検出する方法が、別の実施形態にある。

新しい遺伝子融合
遺伝子融合の一部は過去に報告されているが、区切り点が異なり、かつ／または過去に知られていなかった遺伝子融合の多数の変形が、本明細書に提供される。区切り点が異なり、かつ／または過去に知られていなかった遺伝子融合物の非制限的な例としては、配列番号１〜２５７として表４及び５に提供される区切り点を伴う新規の変異型である、ＴＰＭ１／ＡＬＫ、ＰＲＫＡＲ１Ａ／ＡＬＫ、ＮＣＯＡ１／ＡＬＫ、ＬＰＰ／ＣＡＳＲ、ＭＤＭ２／ＥＧＦＲ、ＦＧＦＲ３／ＥＬＡＶＬ３、Ｂ２Ｍ／ＧＮＡＳ、ＤＯＣＫ８／ＪＡＫ２、ＨＮＦ１Ｂ／ＮＯＴＣＨ１、ＮＦＡＳＣ／ＮＴＲＫ１、ＳＳＢＰ２／ＮＴＲＫ１、ＳＱＳＴＭ１／ＮＴＲＫ１、ＴＢＬ１ＸＲ１／ＰＩＫ３ＣＡ、ＡＫＡＰ１３／ＲＥＴ、ＦＫＢＰ１５／ＲＥＴ、ＴＢＬ１ＸＲ１／ＲＥＴ、ＣＥＰ８５Ｌ／ＲＯＳ１、ＣＬＣＮ６／ＲＡＦ１、ＴＲＡＫ１／ＲＡＦ１、ＰＲＫＡＣＡ／ＡＫＴ１、ＰＲＫＡＣＡ／ＡＫＴ２、ＭＬＬ／ＦＹＮ、ＥＣＨＤ１／ＦＹＮ、及びＴＴＣ１３／ＪＡＫ２が挙げられる。

１つ以上の癌に関連付けられる多数の遺伝子融合変異型もまた、本明細書に提供される。

癌の関連性
癌（複数可）との新しい遺伝子融合の関連性が本明細書に提示される。遺伝子融合の一部は、過去に特定の癌または病態と関連付けられてきたであろう。本明細書の方法は、特定の癌の診断及び／または治療に役立てるために使用することができる、新しい関連性を特定している。表１〜３、１９、及び２２に示される遺伝子融合は、融合に関与する遺伝子、及び１つ以上の特定の癌とのその遺伝子融合の関連性を提供する。例えば、融合ＰＲＫＡＣＡ／ＡＫＴ１は、結腸腺癌及び子宮内膜類内膜腺癌と関連付けられるように示される。

表３に示される遺伝子融合は、新しい癌と関連付けられるように示されている、以前から知られる遺伝子融合である。例えば、ＳＥＣ１６Ａ／ＮＯＴＣＨ１は、乳癌に関連付けられるとして過去に特定された。本方法は、甲状腺癌との遺伝子融合ＳＥＣ１６Ａ／ＮＯＴＣＨ１の関連性を特定した。更に、ＥＲＣ１／ＲＥＴは、甲状腺癌に関連付けられるとして過去に特定された。本方法は、浸潤性乳癌との遺伝子融合ＥＲＣ１／ＲＥＴの関連性を特定した（表３及び６を参照）。

反応混合物及びアンプリコン
別の実施形態において、本開示は、表１〜表３、表１９、及び表２２から選択される遺伝子融合を特異的に認識するプローブまたはプローブのセットを含む、反応混合物を提供する。プローブのセットは、例えば増幅用プライマーのセットまたは標識されたプローブであり得る。別の実施形態において、標的核酸中において、表１〜表３、表１９、及び表２２から選択される遺伝子融合に隣接するプライマーのセットを含む反応混合物が、本明細書に提供される。例えば、プライマーのセットはそれぞれ、表４〜６、２０、及び２３において特定される融合区切り点のうちの１つの両側の１０００、７５０、５００、２５０、１００、９０、８０、７５、７０、６５、５０、または２５ヌクレオチド以内のヒトゲノム中の標的配列に結合し得る。この実施形態の反応混合物は更に、表１〜表３、表１９、及び表２２から選択される遺伝子融合中の区切り点の両側に結合するか、または表１〜表３、表１９、及び表２２から選択される遺伝子融合中の区切り点にまたがる結合領域に結合する検出器プローブを含み得、区切り点が表４〜６、２０、及び２３において特定される特定の実施形態を含む。例示的な実施形態において、検出器プローブは、表４〜６、２０、及び２３において特定される融合区切り点のうちの１つの１０００、７５０、５００、２５０、１００、９０、８０、７５、７０、６０、５０、または２５ヌクレオチド以内のヒトゲノム中の標的配列に結合する。検出器プローブを含む、または検出器プローブを含まない反応混合物は更に、ポリメラーゼ、逆転写酵素、ｄＮＴＰ、及び／またはウラシルＤＮＡデグリコシラーゼ（ＵＤＧ）を含み得る。ポリメラーゼ、逆転写酵素、及びＵＤＧは、典型的にはヒト由来ではない。例証的な実施形態におけるポリメラーゼは、Ｔａｑポリメラーゼ等の耐熱性ポリメラーゼである。ある特定の実施形態において、反応混合物中のｄＮＴＰはｄＵＴＰを含み、反応混合物は、ある特定の実施例においてはｄＴＴＰを欠き得る。

反応混合物は更に、標的核酸、例えばヒト標的核酸を含み得る。ヒト標的核酸は、例えば、ＢＬＣＡ＝膀胱癌、ＢＲＣＡ＝乳癌、ＣＥＳＣ＝子宮頸部細胞癌、ＣＯＡＤ＝結腸腺癌、ＧＢＭ＝多形性膠芽腫、ＨＮＳＣ＝頭頸部扁平上皮癌、ＫＩＲＫ＝腎明細胞癌、ＫＩＲＰ＝腎臓の腎乳頭細胞癌、ＬＡＭＬ＝急性骨髄性白血病、ＬＧＧ＝脳の低悪性度神経膠腫、ＬＩＨＣ＝肝臓の肝細胞癌腫、ＬＵＡＤ＝肺腺癌、ＬＵＳＣ＝扁平上皮細胞肺癌、ＯＶ＝卵巣漿液性腺癌、ＰＲＡＤ＝前立腺腺癌、ＲＥＡＤ＝直腸腺癌、ＳＫＣＭ＝皮膚黒色腫、ＳＴＡＤ＝胃腺癌、ＴＨＣＡ＝甲状腺癌、及びＵＣＥＣ＝子宮体部類内膜癌から選択される癌を有する疑いのある人物からの、腫瘍試料等の生体試料から単離され得る。ある特定の実施形態において、標的核酸は、腫瘍、例えば前述の文中に列挙された癌のタイプのうちの１つの腫瘍由来である。更に、標的核酸は、例えばＦＦＰＥ試料等の、腫瘍由来の生体試料から抽出され得る。

本発明の反応混合物はアンプリコンを含み得る。アンプリコンは、例えば単離核酸であり得る。アンプリコンは、例えば２５〜２５００、２５〜２０００、２５〜１０００、５０〜１０００、５０〜５００、５０〜２５０、５０〜２００、５０〜１５０、５０〜１００、５０〜７５ヌクレオチド長であり得る。

アンプリコンは、表４〜６、２０、及び２３において特定される融合区切り点のうちの１つの両側の１０００、７５０、５００、２５０、１００、９０、８０、７５、７０、６５、５０、または２５ヌクレオチド以内のヒトゲノム中の標的配列に対して同一または相補的なヌクレオチド配列を有し得る。ある特定の実施形態において、アンプリコンは、図４〜６に提供されるヌクレオチド配列の２５〜２５０、２５〜１００、２５〜７５、５０〜２５０、５０〜２００、５０〜１５０、５０〜１００、もしくは５０〜７５、またはその相補体を含む。ある特定の実施形態において、アンプリコンは天然に存在する配列変異型を含む。例えば、アンプリコンは、単一のヌクレオチド変異型または天然型対立遺伝子に対応する、可変性ヌクレオチド配列を含み得る。

本発明のアンプリコンは、ある特定の例証的な実施形態において、天然では見当たらず、かつ／またはヒト等の哺乳動物では見当たらない化学構造を有する。例えば、ある特定の例証的なアンプリコンは、天然では見当たらない、もしくは哺乳動物では見当たらない、またはアンプリコンの糖−リン酸主鎖の種類に結合して見つかることはないであろう塩基を含む。例えば、アンプリコンは、糖リン酸主鎖に結合するウラシル塩基を含み、したがって少なくとも１つの位置で、及び例証的な実施例においては鋳型中にチミジン残基を含有する全ての位置でウリジン残基を有するＤＮＡアンプリコンであり得る。

したがって、例証的な実施形態におけるアンプリコンは、１つ以上のデオキシウリジン（「ｄＵ」）残基を含むＤＮＡアンプリコンである。ｄＵ残基は、アンプリコンを生成するために使用されるプライマー中にそのような残基を含むことによって添加され得る。ある特定の実施形態において、反応混合物は、対応するヒトゲノム配列中の各デオキシチミジン残基について１つ以上のｄＵ残基を含むＤＮＡアンプリコンを含む。これらのアンプリコンは、例えば、ＰＣＲ等の増幅反応を用いてアンプリコンを生成するときに、ｄＴＴＰの代わりにｄＵＴＰを含むｄＮＴＰ混合物を使用することによって生成され得る。

ある特定の実施形態において、アンプリコンは、対応する配列がヒトゲノム中には見出されない、例えばオリゴヌクレオチド配列、例えばＤＮＡバーコード配列等の断片を含む。非ヒト断片は、例えば５〜１０，０００、５〜５０００、５〜１０００、５〜５００、５〜１００、５〜５０、５〜２５、５〜１０、１０〜１０，０００、１０〜５０００、１０〜１０００、１０〜５００、１０〜１００、１０〜５０、または１０〜２５ヌクレオチド長であり得る。

ある特定の実施形態において、アンプリコンは、イントロンにまたがるヒトゲノムの領域に対応する断片を含むが、アンプリコンはイントロンに対応する断片を含まない。

遺伝子変異型（表７および／または表１１）

（表１１）機能獲得型変異

変異型は、表７及び１１において受入番号もしくはＥｎｔｒｅｚヌクレオチド、及び／または提供される親遺伝子もしくは野生型遺伝子のタンパク質配列と共にアミノ酸変異型として示される。様々な癌との関連性が、表７及び１１において示される。表７及び１１は、実施例２において概説される方法を用いて特定された９９超の遺伝子のリストを提供する。変形または変異は、対応する正常な組織において見つからなかった。典型的な患者において、腫瘍試料は数十〜数百の腫瘍特異的変形を有し得るため、これは重要である。しかし、複数の患者において同一の場所に起こる変形（正常な組織においては起こらない）は、より意義深い。（４４４５人の患者からの）４４４５個の試料を分析して、ホットスポットのリストを準備した。複数の反復性の変異が、１５〜２０の異なる癌のタイプにおいて同一の位置で見つかった。

診断法及びキット
遺伝子変異型及び関連付けられる疾患を診断、治療、及び検出する方法が、本明細書において企図される。方法は、対象試料中の遺伝子融合物及び／または遺伝子変異型を検出する段階を含み得る。遺伝子融合物及び／または遺伝子変異型の任意の数及び組み合わせが、本明細書に開示される反応混合物、組成物、及びキットのいずれかにおいて検出され得る。

一部の実施形態において、１つ以上のプローブを包括するキットが提供される。一部の実施形態において、キットは、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、５０、７５、１００、１５０、２００、２５０、５００、またはそれ以上の融合遺伝子に対するプローブを包括する。一部の実施形態において、プローブは検出可能に標識される。一部の実施形態において、プローブは、遺伝子融合物中に存在する区切り点にハイブリダイズする。

一部の実施形態において、表７及び１１に開示される遺伝子変異型のうちのいずれか１つの検出は、それらの表に開示される遺伝子変異型のうちの別のもの、または本明細書に開示される遺伝子融合物のうちのいずれかの検出と組み合わされ得る。すなわち、遺伝子融合物のうちの２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、５０、７５、１００、１５０、２００、２５０、５００、またはそれ以上が、同一の反応において検出され得る。一部の実施形態において、検出される遺伝子変異型は、表４〜６、７及び１１、２０、及び２３に開示されるものであり、それらの表に開示される遺伝子融合物のうちの別のものの検出と組み合わされ得る。すなわち、遺伝子融合物のうちの４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、５０、７５、１００、１５０、２００、２５０、５００、またはそれ以上が、同一の反応において検出され得るように、２、３である。

別の実施形態において、表７及び／または表１１（遺伝子変異型）から選択される遺伝子変異型についての核酸コードを特異的に認識するプローブのセットが提供される。別の実施形態において、表７及び／または表１１から選択される遺伝子変異型についてコードする標的核酸を特異的に増幅するプライマーのセットが本明細書に提供される。別の実施形態において、表７及び／または表１１から選択される遺伝子変異型についてコードする標的核酸を特異的に増幅及び検出する、例えば、ＴａｑＭａｎ（商標）アッセイ、またはＭｏｌｅｃｕｌａｒＢｅａｃｏｎｓ（商標）アッセイ等のｑＰＣＲアッセイが本明細書に提供される。

本開示はまた、表７及び／または表１１から選択される１つ以上の遺伝子変異型において見出される変形を含む少なくとも１つの配列を含む単離核酸を提供する。単離核酸は、５'末端上に第１のプライマーを含み得る。更に、核酸は一本鎖または二本鎖であり得る。

他の実施形態において、本開示は、表７及び／または表１１から選択される遺伝子変異型についてコードする核酸を特異的に認識する、例えば増幅用プライマーのセット等の、検出器プローブ及び／またはプローブのセットを含むキットを提供する。例えば、ある特定の実施形態において、検出器プローブまたは増幅用プライマーのセットは、表７及び／または表１１の変異型についてコードする核酸のうちの少なくとも１つを含む核酸を増幅及び／または検出するように設計される。キットは更に、典型的にはヒト由来ではないポリメラーゼ、ｄＮＴＰ、及び／またはＵＤＧ等の、増幅反応混合物からの成分を、別個または同一の容器中に含み得る。更に、キットは制御核酸を含み得る。例えば、制御核酸は、表７及び／または表１１から選択される遺伝子変異型を含む配列を含み得る。

例えば配列が表７及び／または表１１の遺伝子変異型についてコードする変異型を含有する点を除いて、表７及び／または表１１の受入番号のうちの１つからの配列を含み得る核等の、表７及び／または表１１から選択される遺伝子変異型をコードする核酸を増幅する段階、ならびに核酸の存在を検出する段階を含む、癌を検出する方法が提供され、核酸の存在が試料中に癌が存在することを示す。別の方法においては、表７及び／または表１１の遺伝子変異型についてコードする配列から選択される配列を含むアンプリコンを生成する段階、ならびに核酸の存在を検出する段階を含む、癌を検出する方法が本明細書に提供され、核酸の存在が試料中に膀胱、頭頸部、または肺扁平上皮細胞癌が存在することを示す。アンプリコンは典型的には、アンプリコンを形成するために伸長されるプライマーを含む。癌は、膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、及び子宮体部類内膜癌から選択される。

例えば表７及び／または表１１からの遺伝子変異型を含む核酸を特異的に認識する、増幅用プライマーのセット等のプローブのセットを含むキットが提供される。キットは更に、典型的にはヒト由来ではないポリメラーゼ、ｄＮＴＰ、及び／またはＵＤＧ等の、増幅反応混合物からの成分を、別個または同一の容器中に含み得る。更に、キットは制御核酸を含み得る。例えば、制御核酸は、表７及び／または表１１からの遺伝子変異型を含む配列を含み得る。ある特定の実施形態において、表７及び／または表１１からの遺伝子変異型を含む核酸を特異的に認識するプローブのセットが提供される。

別の実施形態において、表７及び／または表１１の遺伝子変異型のうちの少なくとも１つを含む遺伝子変異型が提供される。

試料における膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、及び子宮体部類内膜癌から選択される癌を、表７及び／または表１１から選択される遺伝子変異型の存在を検出することによって検出する方法が、別の実施形態にある。遺伝子変異型としては、例えば、限定されるものではないが、ＺＮＦ４７９変異型Ｒ１１Ｑ、Ｒ２９５Ｋ、Ｒ２９５Ｔ、Ｒ２９５Ｉ、Ｒ３４５Ｉ、Ｒ３４５Ｔ、Ｋ４３８Ｔ、及びＴ４６６Ｋが挙げられ得る（表８を参照）。

（表１８）

表１８は、表１１からフィルタリングされたドラッガビリティまたは予後の関連性を提供する。表１８は、癌のタイプ、遺伝子記号、ドラッガビリティ（Ｙ＝有る）、及び表１１においてドラッガブルとして特定された遺伝子についてのＫＭエビデンスを提供する。ＫＭエビデンスの列は、カプラン・マイヤーエビデンスを提供する。ＫＭエビデンスは、事象のタイプが特定の癌のタイプにおいて良好な予後または予後不良を支援するかどうかを示す。

標的治療
少なくとも１つの実施形態において、遺伝子融合物及び／または遺伝子変異型は、標的療法を特定するために使用することができる。標的療法は、遺伝子融合物及び／または遺伝子変異型と特異的に相互作用する薬剤の特定を含み得る。標的療法としては、限定されるものではないが、抗体療法、アンチセンス療法、及び小分子療法が挙げられ得る。アンチセンス療法は、見出し「アンチセンス」の下においてより詳細に考察される。

核酸分子を不活性化するための組成物及び方法は、部分的に、所望の不活性化の対象である核酸分子（すなわち、標的核酸分子）に対して相補的な配列を有する核酸領域を有する分子の使用を伴う。本発明の方法は、具体的な癌に関連付けられる遺伝子融合物及び／または遺伝子変異型の不活性化のために使用することができる。したがって、本明細書に特定される遺伝子融合物または遺伝子変異型のいずれに対しても相補的であるアンチセンス分子が特定され得る。

小分子は、生物学的処理の酵素基質または制御因子としての働きをし得る、およそ１０^−９ｍの大きさである、低分子量（８００ダルトン未満）有機化合物である。薬理学において、この用語は、タンパク質または核酸に結合し、エフェクターとして振る舞ってタンパク質または核酸の活性または機能を改変する分子について通常使用される。小分子は、細胞性アッセイにおける遺伝子融合物または変異型の発現、及び遺伝子融合物または変異型の発現または活性を阻害する小分子の特定によって、エフェクター機能について試験することができる。

ドラッガビリティは、創薬において、薬物に対する高い親和性を伴って結合することが知られる、または結合すると予測される、タンパク質等の生物学的標的を説明するために使用される用語である。更に、薬物のドラッガブル標的への結合は、患者に対する治療上の利点を伴って、標的の機能を改変する。本明細書における用語「薬物」は、小分子（低分子量有機物質）を含むがまた、治療用モノクローナル抗体等の生物学的医薬品も含むように拡大解釈されている。少なくとも１つの実施形態において、遺伝子融合物または遺伝子変異型を、ドラッガブル標的を特定するために使用することができる。表８は、表１〜３及び７から特定されたドラッガブル標的のリストを提供する。例えば、表８に示されるようにＡＬＫの関与する疾患はクリゾチニブで治療できるため、ＴＰＭ１／ＡＬＫ遺伝子融合物はドラッガブル標的である。したがって、遺伝子融合物がＡＬＫを含む場合、その癌はクリゾチニブで治療可能であり得る。更に、遺伝子変異型がＡＬＫにおける変異を含む場合、その癌はクリゾチニブで治療可能であり得る。

同様に、表２１は表１９から特定されたドラッガブル標的のリストを提供し、表２４は表２２から特定されたドラッガブル標的のリストを提供する。

（表８）表１からのドラッガブル遺伝子

表８は、表１〜３の遺伝子融合、または表７及び１１の遺伝子変異型において特定された１１個のドラッガブル標的のリストを提供する。表１６及び１７は、表１〜３、または表７及び１１の遺伝子変異型内の他のドラッガブル標的の分析を提供する。表８、１６、１７は、遺伝子名、薬物が米国食品医薬品局（ＦＤＡ）によって承認されたか否か（Ｎ＝未承認）、薬物が未承認の場合、臨床治験はどの段階にあるか（前登録、第ＩＩＩ相、第ＩＩ相、第Ｉ相、及び前臨床）を含む、ドラッガブル標的についての情報を提供する。例えば、ＮＯＴＣＨ１遺伝子に関連付けられる薬物は未承認であるが、この執筆時点では臨床治験の第１相にある（ＯＭＰ−５２Ｍ５１を参照）。

承認済み薬物としては、限定されるものではないが、ＡＬＫ遺伝子融合物を有する疾患に対するクリゾチニブ、及びＣＡＳＲ遺伝子融合物を有する疾患に対する塩酸シンカカルセトが挙げられる。ＥＧＦＲを有する遺伝子融合物に対する複数の承認済み薬物が特定されており、限定されるものではないが、エルロチニブ、パニツムマブ、セツキシマブ、ネピデルミン、ゲフィチニブ、ニモツズマブ、バンデタニブ、ラパチニブジトシラート、及び塩酸イコチニブが挙げられる。承認済み薬物ポナチニブがＦＧＲ３を有する疾患に対して特定されており、ルクソリチニブがＪＡＫ２遺伝子融合物を有する疾患に対して特定されている。ＲＥＴを有する遺伝子融合物に対する複数の承認済み薬物が特定されており、限定されるものではないが、ソラフェニブ、バンデタニブ、リンゴ酸スニチニブ、カボザンチニブ、及びレゴラフェニブが挙げられる。承認済み薬物クリゾチニブがＲＯＳ１を有する疾患に対して特定されている。有用性を証明し得る追加的な薬物としては、限定されるものではないが、ズリゾチニブ（ｚｒｉｚｏｔｉｎｉｂ）、アファチニブ、マシチニブ、ザルツムマブ、ネラチニブ、乳酸ドビチニブ、ＸＬ６４７、リンドペピムト、ネクツムマブ（ｎｅｃｔｕｍｕｍａｂ）、ダコミチニブ、ＳＡＲ−３０２５０３、パクリチニブ、ペリホシン、ブパルリシブ、モテシニブ（ｍｏｔｅｓｉｎｉｂ）二リン酸塩、及びアパチニブが挙げられる。

本明細書に提供される方法は、対象または患者に薬物を送達する段階を含み得る。本薬物は、ＦＤＡ等の政府の薬事規制当局による承認済みの薬物であり得、または本薬物は、承認済み段階の前の段階のいずれかにあり得る。例証的な態様において、本薬物はＦＤＡ承認済みの薬物である。他の態様において、本薬物は、前臨床、第Ｉ相、第ＩＩ相、第ＩＩＩ相、または前承認段階にあり得る。ある特定の態様において、本明細書に提供される方法は、表８、１６、及び１７に列挙される薬物のうちの１つまたは２つ以上を対象に送達する段階を含む。対象において、表８、１６、及び１７に列挙される２つ以上の遺伝子に関与する遺伝的事象が特定される場合、本明細書に提供される方法は、２つ以上の薬物を送達する段階、特に特定された遺伝的事象により影響を受ける異なる遺伝子に関連付けられる薬物を送達する段階を含み得る。

アンチセンス
アンチセンス法は、様々な発癌遺伝子の発現を阻害するために適用されている。例えば、ヒト扁平上皮癌に導入されるアデノウイルス２後期プロモーターの制御下で持ち込まれる、アンチセンス配向のＣｒａｆ−１ｃＤＮＡ断片は、対照センス形質移入体でトランスフェクトされる細胞に対して、大幅に低減された腫瘍形成能を結果としてもたらした。同様に、Ｃｍｙｃアンチセンス構築物は、分化を加速し、Ｆｒｉｅｎｄマウス赤白血病細胞におけるＧ_１進行を阻害した。アンチセンス方法論は、核酸が「相補的な」配列と対になる傾向があるという事実を利用する。相補的配列は、標準的なワトソン・クリック相補性法則に従って塩基対を形成可能であるポリヌクレオチドである。ポリヌクレオチドによる二本鎖（ｄｓ）ＤＮＡの標的化は、三重螺旋形成をもたらし、ＲＮＡの標的化は、二重螺旋形成をもたらす。アンチセンスポリヌクレオチドは、標的細胞へ導入されるとき、それらの標的ポリヌクレオチドに特異的に結合し、転写、ＲＮＡ処理、運搬、翻訳、及び／または安定性に干渉する。アンチセンスＲＮＡ構築物、またはそのようなアンチセンスＲＮＡをコードするＤＮＡは、インビトロまたはインビボのいずれかの、ヒト対象を含む宿主動物内等の宿主細胞内において、遺伝子転写もしくは翻訳、または両方を阻害するために採用され得る。

アンチセンスは、プロモーターの転写制御下にあり得る。「プロモーター」は、細胞の合成機構または導入された合成機構により認識される、遺伝子の特定の転写を開始するために必要とされるＤＮＡ配列を指す。語句「転写制御下」は、プロモーターが、ＲＮＡポリメラーゼの開始及び遺伝子の発現を制御するために、核酸に対して正しい場所及び配向にあることを意味する。

ある特定の例において、アンチセンス発現構築物は、ウイルス、またはウイルスゲノム由来の操作された構築物を含むことになる。ｃＤＮＡ挿入物が採用される場合、遺伝子転写産物の適正なポリアデニル化をもたらすポリアデニル化信号が含まれ得る。ポリアデニル化信号の性質は決定的であるとは考えられておらず、任意のそのような配列が採用され得る。ターミネーターが、メッセージレベルを増進するため、及びカセットから他の配列へのリードスルーを最小限に抑えるために使用され得る。

アンチセンス構築物は、プロモーター及び他の制御領域、エクソン、イントロン、または本明細書に開示される遺伝子融合物もしくは遺伝子変異型のエクソン−イントロン境界にさえ結合するように設計され得る。最も有効なアンチセンス構築物は、イントロン／エクソンスプライス部位に対して相補的な領域を含む。一実施形態は、イントロン／エクソンスプライス部位の５０〜２００塩基内の領域に対する相補性を有するアンチセンス構築物を含む。一部のエクソン配列は、その標的選択性に深刻な影響を及ぼすことなく構築物中に含まれ得ることが観察されている。含まれるエクソン物質の量は、使用される特定のエクソン及びイントロン配列に応じて異なることになる。インビトロで構築体を試験して、正常な細胞機能が影響されるか否か、または相補的配列を有する関連遺伝子の発現が影響されるか否かを判定するだけで、過剰なエクソンＤＮＡが含まれているか否かを容易に試験できる。

アンチセンスに関する、単語「相補的」は、その全長にわたって実質的に相補的であり、かつ塩基の不一致をほぼ有さないポリヌクレオチド配列を意味する。例えば、長さが１５塩基の配列は、それが１３または１４個の位置で相補的ヌクレオチドを有する場合、相補的であると称し得る。当然なことに、完全に相補的な配列は、その全長にわたって全体的に相補的であり、塩基の不一致を全く有さない配列であることになる。より低い程度の相同性を持つ他の配列もまた企図される。例えば、高い相同性の限定された領域を有するが、非相同領域（例えば、リボザイム）も含有するアンチセンス構築物が設計され得る。これらの分子は、５０％未満の相同性を有するものの、適切な条件下では標的配列に結合することになる。

アンチセンスのインビボ、エキソビボ、インビトロ送達は、ベクターの使用を伴い得る。アンチセンス送達にとって有効なベクターの１つは、アデノウイルス発現ベクターである。「アデノウイルス発現ベクター」は、構築物のパッケージングの支援、及びその中で複製されたアンチセンスポリヌクレオチドの発現に十分なアデノウイルス配列を含有する構築物を含むことを意図する。発現ベクターは、アデノウイルスの遺伝的に操作された形態を含み得る。アデノウイルスは、その中規模サイズのゲノム、操作の簡便性、高力価、広い標的細胞の範囲、及び高い感染力により、遺伝子導入ベクターとしての使用にとって特に好適である。ウイルス性ゲノムの両端は、１００〜２００塩基対の逆方向反復（ＩＴＲ）を含有し、これはウイルス性ＤＮＡ複製及びパッケージングにとって必要なシス要素である。

アデノウイルスは育成及び操作が簡単であり、インビトロ及びインビボで広い宿主範囲を提示する。この群のウイルスは高力価、例えばｍｌ当たり１０^９〜１０^１１のプラーク形成単位で獲得することができ、それらは非常に感染性が高い。アデノウイルスの生活環は、宿主細胞ゲノムへの統合を必要としない。アデノウイルスベクターによって送達された外来遺伝子は、エピソームであり、故に宿主細胞に対して有する遺伝毒性は低い。野生型アデノウイルスによるワクチン接種の研究において、報告された副作用は皆無であり、アデノウイルスベクターの安全性、及びインビボ遺伝子導入ベクターとしての治療的可能性を実証している。

レトロウイルスは、一本鎖ＲＮＡのウイルスの群であり、逆転写の工程によって感染細胞中でそれらのＲＮＡを二本鎖ＤＮＡに変換する能力によって特徴付けられる。結果として生じるＤＮＡは次いで、細胞の染色体中にプロウイルスとして統合され、ウイルス性タンパク質の合成を指示する。この統合は、受容細胞及びその子孫におけるウイルス性遺伝子配列の保持を結果としてもたらす。レトロウイルスのゲノムは、それぞれ、キャプシドタンパク質、ポリメラーゼ酵素、及び外被成分をコードする、ｇａｇ、ｐｏｌ、及びｅｎｖという３つの遺伝子を含有する。ｇａｇ遺伝子から上流において見出される配列は、ゲノムのウイルス粒子へのパッケージングのための信号を含有する。２つの長末端反復（ＬＴＲ）配列が、ウイルスゲノムの５'及び３'末端に存在する。これらは強力なプロモーターとエンハンサー配列を含有し、また宿主細胞ゲノムにおける統合のために必要とされる。

レトロウイルスベクターを構築するために、目的の遺伝子をコードする核酸が、ある特定のウイルス配列の場所においてウイルスゲノムに挿入されて、複製欠損であるウイルスを生成する。ウイルス粒子を生成するために、ｇａｇ、ｐｏｌ、及びｅｎｖ遺伝子を含有するものの、ＬＴＲ及びパッケージング成分は持たないパッケージング細胞株を構築する。ヒトｃＤＮＡを、レトロウイルスＬＴＲ及びパッケージング配列と一緒になって含有する組み換えプラスミドを（例えばリン酸カルシウム沈殿によって）細胞株中に導入する場合、パッケージング配列は、組み換えプラスミドのＲＮＡ転写産物がウイルス粒子中にパッケージされるのを可能にし、これは次いで培地中に分泌される。次いで、組み換えレトロウイルスは収集され、任意に濃縮され、遺伝子導入のために使用される。レトロウイルスベクターは、幅広い種類の細胞のタイプに感染することが可能である。しかしながら、統合及び安定発現には、宿主細胞の分裂を必要とする。

レトロウイルスベクターの特異的な標的化を可能にするために設計された新規の手法は、ウイルス外被に対するラクトース残基の化学的添加によるレトロウイルスの化学的修飾に基づき、最近開発された。この修飾により、シアロ糖タンパク質受容体を介した肝細胞の特異的感染が許容され得た。

他のウイルスベクターが、発現ベクターとして採用されてもよい。ワクシニアウイルス、アデノ随伴ウイルス（ＡＡＶ）、及びヘルペスウイルス等のウイルス由来のベクターが採用されてもよい。

センスまたはアンチセンス遺伝子構築物の発現を果たすために、発現ベクターは細胞中に送達され得る。この送達は、細胞株を転換するための実験室法のようにインビトロで、またはある特定の病態の治療のようにインビボもしくはエキソビボで達成され得る。上に記載されるように、送達のための１つの機序はウイルス感染を介するものであり、ここで発現構築物は感染性ウイルス粒子中でキャプシド形成する。

培養される哺乳動物細胞への発現構築物の導入のための、いくつかの非ウイルス性の方法もまた企図される。これらの方法としては、リン酸カルシウム沈殿ＤＥＡＥ−デキストラン、電気穿孔法、直接微量注入法、ＤＮＡ搭載リポソーム、及びリポフェクタミン−ＤＮＡ複合体、細胞超音波処理、高速マイクロ発射体を用いる遺伝子照射、ならびに受容体媒介形質移入が挙げられる。これらの技法の一部が、インビボまたはエキソビボでの使用のために成功裡に適合され得る。

薬学的組成物−臨床的用途が企図される場合、遺伝子送達ベクターまたは遺伝子操作された細胞のいずれかである薬学的組成物を、意図される用途にとって適切な形態で生成することができる。概して、これは、発熱物質、ならびにヒトまたは動物に対して有害であり得る他の不純物を本質的に含まない組成物の調製を必然的に伴う。

適切な塩または緩衝液が、送達ベクターを安定させ、標的細胞による取り込みを可能にするために使用される。緩衝液はまた、組み換え細胞が患者に導入される場合にも採用されることになる。本発明の水性組成物は、薬学的に許容される担体または水性媒体中に溶解または分散された、細胞に対して有効量のベクターを含む。語句「薬学的または薬理学的に許容される」は、動物またはヒトに投与される場合に有害な、アレルギー性の、または他の不都合な反応をもたらさない、分子実体及び組成物を指す。本明細書で使用する場合、「薬学的に許容される担体」には、任意の、及び全ての溶媒、分散媒、コーティング、抗菌剤及び抗真菌剤、等張吸収遅延剤等が含まれる。薬学的に活性な物質に対してそのような媒体や薬剤を使用することは当分野において公知である。任意の従来の媒体や薬剤が本発明のベクターまたは細胞と不適合である場合を除いて、治療用組成物におけるその使用が企図される。

発現ベクター及び送達ビヒクルは、標的組織がその経路を介して利用可能である限り、任意の一般的な経路を介して投与され得る。これは、経口、経鼻、経口腔、経直腸、経膣、または局所投与を含む。代替的に、投与は正所性、皮内、皮下、筋肉内、腹腔内、または静脈内注射によるものであり得る。そのような組成物は通常、薬学的に許容される組成物として投与されることになる。

治療剤の有効量は、意図される目標に基づいて決定される。用語「単位服用量」は、対象における使用にとって好適な、物理的に分離した単位を指し、各単位は、治療用組成物の投与、すなわち適切な経路及び治療計画に伴って所望の応答をもたらすように意図された、所定の量の治療用組成物を含有する。投与される量は、治療薬の数及び単位服用量の両方に従って、治療される対象、対象の状態、及び所望の保護作用に依存する。治療用組成物の正確な量はまた、術者の判断にも依存し、各個体に特有である。

治療用キット−腫瘍細胞増殖を阻害するために必要な、全ての必須の材料及び試薬が、キット中に共に集められ得る。これは概して、選択された発現ベクター、ウイルス、または細胞を含むことになる。発現ベクターの複製のための様々な媒体、及びそのような複製のための宿主細胞もまた含まれ得る。そのようなキットは、それぞれの個々の試薬のための別個の容器を含むことになる。本キットはまた、（ｉ）アンチセンス発現ベクター構築物の投与、（ｉｉ）アンチセンス発現ウイルス、及び（ｉｉｉ）アンチセンス発現細胞を定義する指示書も含み得る。

一部の実施形態において、干渉物質（ｉＲＮＡまたはｓｉＲＮＡ）が提供される。一部の実施形態において、ｉＲＮＡは、融合遺伝子の区切り点に対して相補的である。

臨床転帰の発見に関連付けられる方法
本明細書に提供される表１５及び３９は、高い統計的有意性（ｑ＜０．１）を有する臨床転帰に関連付けられる様々な癌のタイプについての、機能獲得型変異、機能喪失型変異、インピーク遺伝子増幅／欠失、及び融合事象を含む、１００超の遺伝的事象を含む。したがって、対象に治療薬を送達するための方法、対象が治療薬を受容したかどうかを判定するための方法、治療薬を送達するべきかどうかを決定する方法、及びレポートを送達するための方法が本明細書に提供される。ある特定の例証的な実施形態において、治療薬は薬物である。非制限的な例として、この薬物は、特に本方法が表８、１６、及び１７の薬物に関して列挙される遺伝子に影響を及ぼす遺伝的事象に関与する場合、表８、１６、及び１７に列挙される薬物であり得る。他の例において、この薬物は、本明細書に考察されるような、規制当局によって承認された任意の薬物、または承認前の進展段階の任意の薬物であり得る。

したがって、別の実施形態において、治療薬を対象に送達する方法が提供され、この方法は表１５に特定される遺伝的事象の検出と、対象の治療とを含み、この治療薬は遺伝的事象を有する癌患者の臨床転帰に良い影響を与えると考えられ、かつ／または遺伝的事象に関連付けられる生物学的経路に影響を及ぼすと考えられる。この実施形態は、対象が治療薬を受容したかどうかを判定するための方法、または対象に対してもしくは対象に、治療薬を送達もしくは治療を実行するべきかどうかを決定するための方法とみなされ得る。したがって、対象が薬物を受容したかどうかを決定するための方法が本明細書に提供され、この方法は表１５及び／または表３９に特定される遺伝的事象を検出する段階と、次いで検出された遺伝的事象が表１５及び／または３９に列挙される場合、対象に薬物を送達する段階とを含み、この薬物は遺伝的事象を有する患者の臨床転帰に良い影響を与えると考えられる。これらの実施形態の例証的な態様において、遺伝的事象は表８、１６、及び１７に見出される遺伝子と関連付けられ、薬物がその遺伝子の対として表８、１６、及び１７に列挙される。対象は典型的に、表１５及び／または３９に列挙されるタイプの癌を有する対象である。この実施形態の例証的な態様において、遺伝的事象は癌に悩まされる対象についての予後不良と関連付けられ、この癌は典型的には予後不良がその遺伝的事象と関連付けられる表１５及び／または３９に列挙される癌である。

別の実施形態において、レポートを送達する方法が本明細書に提供され、この方法は表１５及び／または３９に特定される遺伝的事象を検出する段階と、対象の癌についてのその遺伝的事象に関連付けられる予測された臨床転帰を提供するレポートを医療専門家に送達する段階とを含む。医療専門家は、非制限的な例として、医師、遺伝カウンセラー、または他の医療専門家であり得る。典型的には、医師、遺伝カウンセラー、または他の医療専門家は、患者／医師の関係等の、対象との専門的な関係を有する。レポートは、紙のレポートであり得、またはコンピューターネットワークを越えて医療専門家に送達される電子的レポートであり得る。本方法及びレポートは、表１５及び／または３９に特定される遺伝的事象及び関連付けられる予後不良のうちの１つ以上を含み得る。

別の実施形態において、どの治療薬を対象に投与するべきかを決定するための方法が本明細書に提供され、この方法は表１５に列挙される遺伝的事象の検出と、検出される遺伝的事象に応じた治療薬の投与とを含む。例証的な実施形態において、治療薬は、検出された遺伝的事象が予後不良に関連付けられる場合に、治療薬の結果として患者のより大きい痛み及び苦痛を伴うことになる治療薬等の、積極的治療薬である。関連する実施形態において、治療薬は、検出された遺伝的事象が予後不良と関連付けられる場合はより積極的な治療薬であり、検出された遺伝的事象が別の遺伝的事象である場合、特に検出された遺伝的事象が良好な予後を示すように表１５及び／または３９において特定される場合、より積極性の低い治療薬である。例えば、ＡＡＤＡＣ遺伝子欠失、ＣＨＤ１Ｌ遺伝子、ＦＭＯ５遺伝子、もしくはＰＲＫＡＢ２遺伝子の増幅、またはそれらの組み合わせが肺癌腺癌患者において検出される場合、その患者は積極的化学療法薬投与計画で治療され得る。これらの遺伝的事象が患者において検出されない場合、患者は監視され得るが、化学療法薬は投与されない場合がある。

別の実施形態において、癌患者を治療するべきかを決定するための方法が本明細書に提供され、この方法は表１５及び／または３９に列挙される遺伝的事象を検出する段階と、表１５において予後不良と関連付けられる遺伝的事象が検出される場合に対象を治療する段階とを含む。別の実施形態において、癌患者を治療するべきかを決定するための方法が本明細書に提供され、この方法は表１５及び／または３９に列挙される遺伝的事象を検出する段階と、表１５及び／または２３において良好な予後と関連付けられる遺伝的事象が検出される場合に対象を治療しない段階とを含む。別の実施形態において、癌患者を治療または監視するべきかを決定するための方法が本明細書に提供され、この方法は表１５及び／または３９に列挙される遺伝的事象を検出する段階と、表１５及び／または３９において良好な予後と関連付けられる遺伝的事象が検出される場合に対象を治療せずに監視する段階とを含む。監視が癌の再発または進行を検出する場合、治療は後に施され得る。

例えば、対象に治療薬を送達するため、または対象に治療薬を送達するべきかどうかを決定するため、またはどの治療薬を投与もしくは送達するべきかを決定するための方法、あるいはレポートを送達するための方法等の、表１５及び／または３９の遺伝的事象と関連付けられる臨床転帰に基づく、本明細書に提供される方法に関する、本発明のこれらの実施形態のある特定の態様において、対象は、遺伝的事象のタイプのうちのいずれか、ならびに表１５及び／または３９に列挙される特定の遺伝的事象のうちのいずれかを有するとして特定され得る。例えば、遺伝的事象は、機能獲得型変異、機能喪失型変異、遺伝子増幅もしくは欠失、典型的にはインピーク遺伝子増幅／欠失、または融合事象であり得る。ある特定の例証的な実施形態において、１×１０^−３以下、１×１０^−４以下、または１×１０^−５以下のｑ値を有する遺伝的事象が、表１５及び／または３９において特定される。ある特定の態様において、遺伝的事象は、ドラッガブル遺伝子に関与するとして表１５及び／または３９において列挙される。例えば、遺伝的事象は、前臨床薬物標的である遺伝子と関連付けられる、表１５及び／または３９において列挙される遺伝的事象であり得る。非制限的な例として、どの治療薬または一連の治療薬を卵巣癌、例えば卵巣漿液性嚢胞腺癌を有する患者に投与するべきかを決定するための方法が本明細書に提供され、この方法はＩＤ１またはＢＣＬ２Ｌ１遺伝子の増幅を検出または別様に判定する段階と、治療薬を投与する段階とを含む。例証的な実施形態における治療薬は、ＢＣＬ２Ｌ１増幅が検出される、ＦＤＡによって最近承認されたＢＣＬ２Ｌ１治療薬等の、ＢＣＬ２Ｌ１についての承認済みの治療薬である。

表１５及び／または３９に列挙される遺伝的事象のタイプを検出するための方法は、当業者に既知である。それらの方法は、ＰＣＲもしくは等温性増幅方法等の核酸シーケンシング方法もしくは増幅方法、またはそれらの組み合わせを含み得る。それらの方法は、表１５及び／もしくは３９において特定される遺伝子に結合するように、または表１５及び／もしくは３９において特定される遺伝子の上流に結合するように設計されるプライマーを提供することを含み得る。したがって、対象についての核酸試料、ならびに表１５及び／または３９において特定される遺伝子に、またはその上流に結合する１つ以上のプライマーを含む、反応混合物及びキットが、本明細書に提供される。典型的には、遺伝子は表１５及び／または３９の遺伝的事象に関連付けられ、対象は、遺伝的事象と関連付けられる予後を有するとして、表１５及び／または３９において特定される癌を有する。キットはまた、本発明の様々な実施形態について本明細書で開示されるように、プライマーによって結合される制御核酸を含み得る。反応混合物はまた、本発明の様々な実施形態について本明細書で開示されるように、ポリメラーゼを含み得る。

例えば、対象に治療薬を送達するため、もしくは対象に治療薬を送達するべきかどうかを決定するための方法、どの治療薬を送達するべきかを決定するための方法、あるいはレポートを医療専門家に送達するための方法等の、表１５及び／または３９の遺伝的事象と関連付けられる臨床転帰に基づく、本明細書に提供される方法に関する、本発明のこれらの実施形態のある特定の態様において、遺伝的事象は、表１５及び／または３９において特定される遺伝的事象のうちの２つ以上を含み得る。ある特定の態様において、この実施形態に従う方法は、表１５において特定される遺伝的事象のうちの２、３、４、５、６、７、８、９、１０、またはそれ以上、特に所与の癌のタイプについて同一の予後を伴って特定されるものを検出する。例えば、本方法は、乳癌患者における遺伝的事象を検出する段階と、患者に治療薬を投与する段階とを含み得、検出された遺伝的事象は、ＢＲＦ２、ＥＲＬＩＮ２、ＧＰＲ１２４、ＰＲＯＳＣ、及びＴＡＢ１１ＦＩ遺伝子のうちの２つ以上の遺伝子増幅を含む。別の例において、本方法は、低悪性度神経膠腫に悩まされる対象における２つ以上の遺伝的事象を検出する段階と、対象に治療薬を投与する段階とを含み、遺伝的事象は、ＥＦＧＲもしくはＳＥＣ６１Ｇ遺伝子の増幅、ＣＤＫ４、ＣＹＰ２７Ｂ１、ＭＡＲＣＨ９、ＴＳＰＡＮ３１、もしくはＡＧＡＰ２遺伝子の増幅、ＥＧＦＲ遺伝子における機能獲得型変異、またはＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、もしくはＭＴＡＰ遺伝子の欠失のうちの少なくとも２つである。別の態様において、本方法は、予後不良と関連付けられる遺伝的事象の検出を含み、前臨床治験中の最新の薬物、またはＦＤＡ承認済み薬物等の承認済み薬物の標的であるこの遺伝的事象は、表８、１６、１７、表１５、及び／または３９において特定される。

例えば、対象に治療薬を送達するため、または対象に治療薬を送達するべきかどうかを決定するため、またはどの治療薬を投与もしくは送達するべきかを決定するための方法、あるいはレポートを送達するための方法等の、表１５及び／または３９の遺伝的事象と関連付けられる臨床転帰に基づく、本明細書に提供される方法に関する、本発明のこれらの実施形態のある特定の態様において、遺伝的事象は、本明細書の他の表のうちの１つに特定される、特定の遺伝的事象であり得る。当業者ならば、他の表のうちの１つにおける特定の遺伝的事象が、表１５及び／または３９の遺伝的事象のどの一般的なタイプの下に包含されることになるか、特定できる。

コンピューター実装システム
コンピューターシステムを本開示のある特定の実施形態において活用することができる。様々な実施形態において、コンピューターシステムは、情報を伝達するためのバスまたは他の通信機構、及びバスと連結された情報を処理するためのプロセッサーを含み得る。様々な実施形態において、コンピューターシステム１００はまた、ベースコール及びプロセッサーによって実行される命令を決定するための、バスに連結されたランダムアクセスメモリー（ＲＡＭ）または他の動的記憶装置であり得るメモリーも含み得る。メモリーはまた、プロセッサーにより実行される命令の実行中に、一時変数または他の中間情報を記憶するために使用することができる。様々な実施形態において、コンピューターシステムは更に、静的情報及びプロセッサーのための命令を記憶するための、バスに連結された読み取り専用メモリー（ＲＯＭ）または他の静的記憶装置を含み得る。磁気ディスクまたは光ディスク等の記憶装置が、情報及び命令を記憶するために提供され、バスに連結され得る。

様々な実施形態において、コンピューターシステムは、コンピューターのユーザーに対して情報を表示するために、ブラウン管（ＣＲＴ）または液晶ディスプレイ（ＬＣＤ）等のディスプレイにバスを介して連結され得る。英数字及び他のキーを含む入力装置が、プロセッサーに情報及びコマンド選択を伝達するためにバスに連結され得る。ユーザー入力装置の別のタイプは、方向情報及びコマンド選択をプロセッサーに伝達するため、ならびにディスプレイ中のカーソルの動きを制御するための、マウス、トラックボール、またはカーソル方向キー等のカーソル制御である。この入力装置は典型的に、２つの軸、つまり第１の軸（すなわち、ｘ）及び第２の軸（すなわち、ｙ）における２自由度を有し、これが装置による平面における位置の特定を可能にする。

コンピューターシステムが、本教示を実行することができる。本教示のある特定の実装例と調和して、メモリー中に含まれる１つ以上の命令のうちの１つ以上のシーケンスを実行するプロセッサーに応答して、コンピューターシステム１００により結果が提供される。そのような命令は、記憶装置等の別のコンピューター可読媒体からメモリー中に読み込まれ得る。メモリー中に含まれる命令のシーケンスの実行は、プロセッサーによる本明細書に記載される処理の実行を引き起こし得る。代替的に、ハードワイヤード回路を、ソフトウェア命令の代わりに、またはそれと組み合わせて、本教示を実装するために使用することができる。したがって、本教示の実装例は、ハードウェア回路及びソフトウェアの任意の特定の組み合わせに限定されない。

様々な実施形態において、用語「コンピューター可読媒体」は、本明細書で使用する場合、実行のための命令のプロセッサーへの提供に関与する、任意の媒体を指す。そのような媒体は多くの形態をとることができ、限定されるものではないが、不揮発性媒体、揮発性媒体、及び伝送媒体が挙げられる。不揮発性媒体の例としては、限定されるものではないが、記憶装置等の光ディスクまたは磁気ディスクが挙げられ得る。揮発性媒体の例としては、限定されるものではないが、メモリー等の動的メモリーが挙げられ得る。伝送媒体の例としては、限定されるものではないが、バスを備えるワイヤーを含む、同軸ケーブル、銅線、及び光ファイバーが挙げられ得る。

非一時的コンピューター可読媒体の一般的な形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープもしくは任意の他の磁気媒体、ＣＤ−ＲＯＭ、任意の他の光媒体、パンチカード、紙テープ、穿孔のパターンを持つ任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、及びＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、任意の他のメモリーチップもしくはカートリッジ、またはコンピューターが読み取ることができる任意の他の有形媒体が挙げられる。

様々な実施形態によると、プロセッサーによって実行されて方法を行うように構成される命令は、コンピューター可読媒体上に記憶される。コンピューター可読媒体は、デジタル情報を記憶する装置であり得る。例えば、コンピューター可読媒体としては、記憶ソフトウェアについて当分野で既知のように、コンパクトディスク読み取り専用メモリー（ＣＤ−ＲＯＭ）が挙げられる。コンピューター可読媒体は、実行されるように構成される命令を実行するために好適なプロセッサーによってアクセスされる。

本出願に具体化される教示及び原理に従って、複数の場所及び／または実体にわたって、ゲノムの情報及び／または患者の情報を含む情報を、効率的に収集、分析、記憶、転送、回収、及び／または分配することができる方法、システム、及びコンピューター可読媒体が提供される。

一実施形態において、試料中に１つ以上の遺伝子融合物及び／または変異型が存在するかどうかを決定するためのシステムが提供される。本システムは更に、１つ以上の遺伝子融合物及び／または遺伝子変異型と関連付けられる癌等の病態、ならびに変異の状況に従った適切な治療薬を決定、特定することができる。ある特定の実施形態において、システムは、シーケンシングデータを受信するシーケンシング計器と連通するプロセッサーを備える。

一部の実施形態において、プロセッサーは１つ以上の変異型コールを実行できる。一部の実施形態において、プロセッサーは予測を提供、フィルタリング、及び／またはアノテートできる。

以下の実施例において、４，２２５名の癌患者試料における１９の癌の調査対象者群と関連付けられる遺伝子融合物及び遺伝子変異型を特定するための方法を使用した。次いで、この遺伝子融合物及び遺伝子変異型を使用して、癌の素因の特定、癌の診断、癌のステージ付け、予後の提供、及びドラッガブルな癌の特定のための診断方法を生み出す。遺伝子融合物の特定に基づいて癌に対する標的療法を提供するための方法を提供する。

実施例１：癌における遺伝子融合の眺望を特徴付けるための対末端次世代シーケンシングデータの高スループット系統的解析
１９の疾患にまたがる４，２２５名の癌患者の試料を、クラウドベース計算基盤を用いて、ｄｅＦｕｓｅ（ＭｃＰｈｅｒｓｏｎｅｔａｌ．"ｄｅＦｕｓｅ：ａｎａｌｇｏｒｉｔｈｍｆｏｒｇｅｎｅｆｕｓｉｏｎｄｉｓｃｏｖｅｒｙｉｎｔｕｍｏｒＲＮＡＳｅｑｄａｔａ"ＰＬｏＳＣｏｍｐ．Ｂｉｏ．２０１１．）、及びＴｏｐＨａｔ（Ｋｉｍｅｔａｌ．"ＴｏｐＨａｔ−Ｆｕｓｉｏｎ：ａｎａｌｇｏｒｉｔｈｍｆｏｒｄｉｓｃｏｖｅｒｙｏｆｎｏｖｅｌｆｕｓｉｏｎｔｒａｎｓｃｒｉｐｔｓ"ＧｅｎｏｍｅＢｉｏｌｏｇｙ２０１１）遺伝子融合コーリングソフトウェアで処理した。フィルタリング要件を、高信頼度の化学的に確認された遺伝子融合事象について富化された、遺伝子融合事象に関して特定した。

遺伝子融合は、血液腫瘍及び固形腫瘍中に発癌性ドライバーをコードし、適切な標的剤による劇的な臨床応答としばしば関連付けられる。大規模並列処理の対末端シーケンシングは、腫瘍ゲノム及びトランスクリプトームにおける構造的再配列を特定することができる。しかしながら、遺伝子融合を特定するための計算法は様々であり、未だ進展中であり、おしなべて細胞株データ上で訓練される。系統的方法を、既知の発癌性遺伝子融合を特徴付けるため、及び癌における新規の遺伝子融合を発見するために開発した。１６の癌のタイプからのおよそ３，４００の臨床症例についてのＲＮＡＳｅｑデータを、ｔｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）のＣａｎｃｅｒＧｅｎｏｍｉｃｓＨｕｂ（ＣＧＨｕｂ）から獲得した。単一末端データ及び対末端データの両方をサポートするという目標を伴う更なる方法開発のために、いくつかの遺伝子融合コーラーの性能を調査し、２つを選択した（ｄｅＦｕｓｅ及びＴｏｐＨａｔ）。分析パイプラインを開発し、高性能コンピューティングクラスター上で同時に実行した。フィルタリング及びアノテーションを、集合データ上で後処理ステップとして実行して、様々なフィルターの探索分析を可能にした。曖昧な区切り点及びスパニングリード、調整誤差、ならびに隣接する遺伝子からのリードスルー転写産物を除外する一方で、フィルタリング手法を、既知の基準（例えば、前立腺腺癌におけるＴＭＰＲＳＳ２．ＥＲＧ、急性骨髄性白血病におけるＰＭＬ．ＲＡＲＡ等）を含むデータベース上で最適化して、正しい５'−３'配向を持つそれら及び他の遺伝子融合について富化した。予測された融合を、複数のパートナーと共に融合に関与する固有の遺伝子の発生、及びそれぞれが特定の疾患内にある固有の遺伝子対の発生に基づいて集約した。予測された融合について陽性の場合、３'遺伝子の予測された区切り点の後で上昇した発現が観察され、重要な確証的根拠が加わった。汎疾患融合及び複パートナー融合事象が、遺伝子融合事象の臨床集団の範囲を広げた。

全ての単一末端データをＴｏｐＨａｔを用いて処理し、全ての対末端データをｄｅＦｕｓｅを用いて処理した。ＴｏｐＨａｔは、より長い７５ｂｐの単一末端データで有効であることが示されている。ｄｅＦｕｓｅアルゴリズムは、単一末端データとは不適合であり、リード対を活用するように設計されている。前処理データ及び融合の検出：ｄｅＦｕｓｅＴｏｐＨａｔステップを、高性能コンピューティングクラスター上で全ての試料について同時に実行した。フィルタリング及びアノテーションを、集合データ上で後処理ステップとして実行して、フィルタリング要件が偽陽性融合を最小化することを可能にした。優先融合のリストを、ＲＮＡＳｅｑエクソン発現データで確認した。

ＴＣＧＡデータソース：遺伝子融合解析のための全てのＲＮＡＳｅｑデータは、ＴＣＧＡゲノムデータのための現在のリポジトリであるＣａｎｃｅｒＧｅｎｏｍｉｃｓＨｕｂ（ＣＧＨｕｂ）、ハイパーテキスト転送プロトコルセキュア：／／ｃｇｈｕｂ．ｕｃｓｃ．ｅｄｕ／から獲得した。表９は、Ｍ２及びＭ３についてダウンロード及び処理されたＴＣＧＡ試料カウントを列挙する。

（表９）処理されたＴＣＧＡ試料

単一末端データ及び対末端データの両方をサポートすることを目標に、４，３７４個の対末端試料をｄｅＦｕｓｅで処理し、５８４個の単一末端試料をＴｏｐＨａｔで処理した。

大まかに、分析パイプラインは５つの主要なステップ、すなわち１．生データを前処理してＦＡＳＴＱファイルを得ること、２．融合コーラーを起動すること、３．目的とする遺伝子領域への区切り点をフィルタリングすること、４．Ｏｎｃｏｍｉｎｅ転写産物セットで区切り点をアノテートすること、ならびに５．潜在的に関心のある新規の融合を集約及び優先順位付けすることから成った。

融合コーラーへの入力は、ＦＡＳＴＱフォーマットのＲＮＡＳｅｑリードから成り、これはＴＣＧＡによって提供されたＢＡＭファイルの、（それぞれ）単一末端データまたは対末端データについての１つまたは２つのＦＡＳＴＱファイルへの変換を必要とした。

特注のＳａｍＴｏＦａｓｔｑ変換器を、ＴＣＧＡＢＡＭファイルからＦＡＳＴＱファイルを生成するために開発した。全ての対末端ＲＮＡＳｅｑＴＣＧＡＢＡＭの系統的な変換を可能にすることに加えて、ＳａｍＴｏＦＡＳＴＱ変換器は、他の変換ツールに対する他の利点を有した。第１に、それはＣで書かれ、より速い動作及び処理時間の低減のためにコンパイルされた。第２に、それは、出力ＦＡＳＴＱファイル中に適正な複製対合及び一貫性のある複製対の順序を保証するためのいくつかの検証ステップを組み込んでおり、これらの両方が融合コーラーにとっての入力要件である。

単一末端ＲＮＡＳｅｑデータとしてのみ利用可能である、３つの癌のタイプ（ＣＯＡＤ、ＲＥＡＤ、ＵＣＥＣ）が存在した。単一末端ＢＡＭファイルの変換のために、プログラム、ＢａｍＴｏｏｌｓ（ハイパーテキスト転送プロトコルセキュア：／／ｇｉｔｈｕｂ．ｃｏｍ／ｐｅｚｍａｓｔｅｒ３１／ｂａｍｔｏｏｌｓ）を使用して、ＦＡＳＴＱファイルを生成した。

統合−図１は、両方のコーラーによって為された結果的なフィルタリングの相対レベルを図示する。分析の一部として、「レベルＩ」データ、ＴｏｐＨａｔ−ＦｕｓｉｏｎＰｏｓｔのｐｏｔｅｎｔｉａｌ＿ｆｕｓｉｏｎ．ｔｘｔファイルからの出力、及びｄｅＦｕｓｅのｒｅｓｕｌｔｓ．ｃｌａｓｓｉｆｙ．ｔｓｖファイルからの出力を統合した。統合ステップは、報告された区切り点をゲノム座標系に基づくものに変換すること、及び共通のファイルフォーマットに整理することを伴った。

区切り点フィルタリング−コーラーの「レベルＩ」出力からの約５５０万件の予測を、各区切り点がＲｅｆＳｅｑ転写産物（ｒｅｆＧｅｎｅ、２０１２年７月１８日頃にＵＣＳＣから獲得した）の５'ＵＴＲまたはＣＤＳ領域のいずれかにあるコールのみを保持するようにフィルタリングした。これは、機能的遺伝子領域を含有するものについて予測される融合を富化するために為された。イントロン中で発生することが予測される区切り点もまた除外され、結果として４２３，５８７個の予測されるキメラのセットをもたらした。

区切り点のアノテーション−区切り点の各対に対して、ＥｎｔｒｅｚＩＤ当たり１つの転写産物のみが保持された。これにより、同一の場所における区切り点をアノテートすることの一貫性が保証された。しかしながら、同一の遺伝子パートナーについての異なる場所における予測される区切り点は、依然として、代替的な転写産物の潜在的な根拠となる、遺伝子の対を表す複数の転写産物を結果としてもたらし得る。

コーラーからのアノテーションは、各コーラーの初期状態のアノテーションソースに基づくため、それを破棄した。しかしながら、ＴｏｐＨａｔ及びｄｅＦｕｓｅ両方からのある特定の出力フィールドが、予測される融合の優先順位付けに役立たせるために保持された。加えて、コーラーによって明確に報告されていないある特定のアノテーション特性が、他のコーラー特性から推測された。

推測される特性−サポーティング及びスパニングリードカウントを各コーラーから獲得し、リードスパン及びリードスパンサポートに集約した。後者は、融合にまたがるリード、及び融合をサポートするリードの総体である。コーラーによって報告された区切り点配列を、融合の両側において５０塩基を含むように調整し、区切り点配列として統合した。融合区切り点を、「｜」によって線引きする。どちらのコーラーも決定的な「５'−プライム」または「３'−プライム」フラグを提供しないため、融合パートナーの相対的な５'−３'配向を、コーラーパラメーターを遺伝子鎖アノテーションと組み合わせることによって推測した。所与の遺伝子融合のコールについて推測される５'及び３'パートナーが存在した場合、有効な配向フィールドを「Ｙ」として標識した。

ＲｅｐｅａｔＭａｓｋｅｒアノテーション−各予測される区切り点位置をまた、区切り点の近隣においてＲｅｐｅａｔＭａｓｋｅｒ特色でアノテートした。これは、調整誤差がキメラ転写産物の予測に影響を及ぼす可能性が高い、高度反復ゲノム領域における区切り点を特定するために為された。各融合予測について、区切り点隣接配列のいずれかがＲｅｐｅａｔＭａｓｋｅｒ要素と１２以上の塩基で重複する場合、ＲｅｐｅａｔＭａｓｋｅｒ重複フィールドを１に設定した。重複融合コールの頻度を、重複が低頻度である遺伝子融合予測がより高い質であるとみなされるように、下に記載されるＯｎｃｏｍｉｎｅ優先順位付けにおいて使用する。

融合エクソン発現不均衡−反復性Ｏｎｃｏｍｉｎｅ優先融合を、ＧＤＡＣＦｉｒｅｈｏｓｅツールを用いてダウンロードしたＲＮＡＳｅｑエクソン発現データを用いて可視化して、区切り点コール前後のエクソン発現不均衡を探すことにより、真陽性融合事象の二次的証拠を提供した。特に、３'パートナーの発現が５'パートナーのプロモーター領域により強く影響される場合、エクソン発現はきっと予測される区切り点を超えて増加するであろう。この効果は、融合した患者試料を非融合の患者試料と比べて見た際に特に明らかである。

ＲＰＫＭＲＮＡＳｅｑ値は、Ｒｅｆｓｅｑを含むいくつかの異なる遺伝子定義からのＵＣＳＣエクソンの複合体に対応する、遺伝子アノテーションフォーマット（ＧＡＦ）の特色として、各患者について列挙される。Ｃｏｍｐｅｎｄｉａ処理融合区切り点を、ＧＡＦ特色にマッピングした。３９６，２９８個のＲｅｆｓｅｑエクソンの８０．８％が、下に示されるプロットにおいてＧＡＦ特色に対して完全にマッピングされる。最大の重複を結果として生じたＲｅｆｓｅｑエクソン及びＧＡＦ特色の対を選択し、それについて報告した。

ｒｇ＿ｐｃｔと呼ばれる値は、以下の式、ｒｇ＿ｐｃｔ＝重複／長さ_{ｒｅｆｓｅｑ}×重複／長さ_{ＧＡＦ特色}に基づいて、所与のＲｅｆｓｅｑエクソンのＧＡＦ特色とのマッピング質のメトリックを提供する。

ｒｇ＿ｐｃｔ値が１であるマッピングは完全に重複するが、１未満の値は、ｒｅｆｓｅｑエクソンまたはＧＡＦ特色が完全に同一のゲノム領域にはマッピングされず、ＲＰＫＭ値が疑わしい場合があることを示す。ＲＮＡＳｅｑＶ２データを、バープロット中に示される疾患範囲によりＯＶ、ＳＴＡＤ、及びＬＡＭＬを除く全ての疾患について選択した。

融合エクソン発現を、以下の判定基準、１．反復性Ｏｎｃｏｍｉｎｅ優先融合、２．Ｍｉｔｅｌｍａｎデータベースに列挙されるＯｎｃｏｍｉｎｅ優先融合、３．１つの融合パートナーはＯｎｃｏｍｉｎｅ機能獲得型発癌遺伝子であり、少なくとも３つのＯｎｃｏｍｉｎｅ優先融合に関与すること、４．１つの融合パートナーがＳａｎｇｅｒ癌遺伝子センサス（ハイパーテキスト転送プロトコル：／／ｗｗｗ．ｓａｎｇｅｒ．ａｃ．ｕｋ／ｇｅｎｅｔｉｃｓ／ＣＧＰ／Ｃｅｎｓｕｓ／）において列挙され、少なくとも３つのＯｎｃｏｍｉｎｅ優先融合に関与すること、を満たすＯｎｃｏｍｉｎｅ優先融合のサブ集合の発現不均衡について手作業で再吟味した。

総計９９４個の遺伝子融合がこれらの判定基準を満たし、これらの遺伝子融合を、遺伝子融合コールに対して「被サポート」、「反駁」、「中性」、または「未試験」の格付けを割り当てることによって、エクソン発現不均衡について手作業で再吟味した。

専門家は以下の判定基準を使用して格付けを割り当てた。被サポート：融合した試料は、融合した試料が患者集団の異常値であるように、区切り点後の高度に発現された３'融合パートナーを有した。区切り点の前では、３'パートナーの発現は、区切り点後と比較して低くなければならない。反駁：５'パートナーの極度に低い平均発現（５ＲＰＫＭ未満）、または１つのパートナーの平均発現が、もう一方よりも遥かに低い（約１／１０）。中性：サポート及び反駁のどちらの判定基準も満たされない。手作業で再吟味されなかった融合が、未試験の格付けを割り当てられた。

融合集約−融合を、固有の遺伝子対の発生に基づき、かつ個々の遺伝子のおそらくは複数のパートナーを伴う発生に基づく疾患内で集約した。

融合レベルの要約−固有の融合対（ＥｎｔｒｅｚＩＤ対により固有）について、いずれかのコーラーによるその融合の少なくとも１つの予測を伴う疾患内の試料の数が、融合試料カウントである。遺伝子の同一の対についての複数の区切り点は、１つの試料において、及び試料にわたって報告され得るため、４２４Ｋ＋融合コールによって表される各疾患内の固有の融合対の数は、４９，５８８であった。表１０は、個々の予測にわたる所与の融合パートナー対について集約された特性を示す。

（表１０）

Ｍｉｔｅｌｍａｎ相互参照−個々の固有の融合対を、ゲノム異常性のＭｉｔｅｌｍａｎデータベース（２０１３年２月２５日にダウンロードした、ハイパーテキスト転送プロトコル：／／ｃｇａｐ．ｎｃｉ．ｎｉｈ．ｇｏｖ／Ｃｈｒｏｍｏｓｏｍｅｓ／Ｍｉｔｅｌｍａｎ）に対して相互参照した。疾患のタイプではなく、遺伝子名に基づき調和を為した。故に、ある特定の疾患においてＭｉｔｅｌｍａｎで報告される遺伝子融合は、ＴＣＧＡデータベースにおいては異なる疾患のタイプで発生した可能性がある。遺伝子レベルで集約された遺伝子融合を、遺伝子名に基づき、Ｍｉｔｅｌｍａｎデータベースに対して相互参照した。したがって、Ｍｉｔｅｌｍａｎにおいて報告されるような遺伝子が異なる組織像のものであるか、または完全に異なる異常性のタイプである（例えば、大染色体レベルの、融合ではなく欠失）可能性が、予測される固有の融合対よりも高く存在する。

正常試料融合ブラックリスト−偽陽性融合の数を低減するため、３４４個の対末端正常試料を、上に記載される同一のｄｅＦｕｓｅパイプラインを用いて、１０個の疾患にわたって処理した。６，０２４個の固有の融合から成る総計５６，５７９個の総融合コールが観察された。４９，５８８個の固有の遺伝子融合事象のうち、これらのコールのうちの１１，８０１個が正常試料において観察された。これらの正常試料融合コールを使用してブラックリストを作成し、それによりそれらの偽陽性のものをＯｎｃｏｍｉｎｅ優先遺伝子融合から取り除いた。

パラロガス融合パートナーブラックリスト−パラロガス遺伝子ファミリーメンバー間の融合のブラックリストを、２つの方策、１）高頻度融合パートナー遺伝子名を手作業で検査すること、及び２）全ての優先融合パートナー遺伝子名の最初の３文字を比較することを用いて集めた。後者の方策において、融合パートナーは、最終的なブラックリストに包含する前に、ＨｏｍｏｌｏＧｅｎｅ、Ｅｎｓｅｍｂｌ、及びＳＩＭＡＰを用いて「パラロガス」であることが実証された。このブラックリストは３７５個の固有のパラロガス遺伝子融合から成り、Ｏｎｃｏｍｉｎｅ優先遺伝子融合から偽陽性のものを取り除くために使用した。

実施例２：癌に関連付けられる遺伝子変異型を特定するためのＮＧＳ変異方法
遺伝子変異型についてのデータ統合の目的は、ＴＣＧＡから現在利用可能である変異データの最も完全なセットを作成することであった。

データソース−この発表のために、以下のもの、ＢｒｏａｄＧＤＡＣＭｕｔａｔｉｏｎ＿Ｐａｃｋａｇｅｒ２０１３＿０２＿２２標準データ構築体からのＴＣＧＡ変異データと、２０１３年３月１日時点のＴＣＧＡＤＣＣから入手したＬｅｖｅｌ２（公共の、実験的に未検証の）データと、前立腺腺癌についての、ＴＣＧＡ一次データからのＣｏｍｐｅｎｄｉａにより生成された変異データとを統合した。

Ｃｏｍｐｅｎｄｉａ（ＣＢＩ）変異コール−ＴＣＧＡから入手可能な前立腺腺癌変異コールが低品質であり、偽陽性「機能獲得型」予測を結果としてもたらす懸念が存在した。故に、この疾患に関する全てのコールは、Ｃｏｍｐｅｎｄｉａの自社の変異コールパイプラインを出所とし、これは一般に入手可能な変異コールを生成するためにＴＣＧＡ癌タイプ作業グループによって使用される方法に極めて類似する。

（表１２）データソース選択

データクリーニング−いくつかの単純な除去作業を実行して、ソースデータ中に存在する重複する変異記録を除去した。同一の患者試料の様々な腫瘍／正常分割量対からの重複する変異を除去した。総計２５個の「超変異誘発物」試料（試料当たり５，０００超の変異カウント）もまた、下流分析パイプラインから除外した。ある特定の疾患、例えば子宮体部類内膜癌等においては、いくつかの高度に変異した試料が全体の変異カウントで優位を占め、Ｃｏｍｐｅｎｄｉａ変異及び遺伝子分類スキームのために必要な変異再発分析の結果を希薄化する場合がある。

変異アノテーション：Ａ．Ｃｏｍｐｅｎｄｉａアノテーション−画定的な変異に対するＣｏｍｐｅｎｄｉａの手法は、正確な変異型アノテーションに依存し、それ故に変異は、疾患のタイプにまたがる変異が一貫して評価され、潜在的な発癌遺伝子または腫瘍抑制遺伝子の指名中に一般的な解釈を受けることを保証する、標準的なアノテーションパイプラインを用いて再アノテートされた。

ＴＣＧＡから得られた変異を、以下の一般的ステップに従って、Ｃｏｍｐｅｎｄｉａによって処理した。１．各変異を、Ｃｏｍｐｅｎｄｉａ転写産物セットを用いてまず再アノテートした。成功裡にアノテートされた変異が、Ｃｏｍｐｅｎｄｉａ由来のアノテーションを受容し、残りはＴＣＧＡから得られたアノテーションを保持する。アノテーションは、変異型分類、変異型位置、変異型変化を含む。２．複数の転写産物における変異の余分なアノテーションを除去した。３．目的とする遺伝子領域の外側に位置する変異を除去した。４．有効な遺伝子ＥｎｔｒｅｚＩＤを持たない変異を除去した。

変異アノテーションステップにおいて、ＴＣＧＡから得た変異を、Ｃｏｍｐｅｎｄｉａによってコンパイルされた標準転写産物セットを用いて再アノテートした。この転写産物セットは、ＵＣＳＣから得た、ｈｇ１８及びｈｇ１９ゲノム構築体からのＲｅｆＧｅｎｅ転写産物を含んだ。

各変異を、特定されたゲノム構築体内のＣＢＩ転写産物セットにおけるコンティグを用いて個別にマッピングした。ＳＮＰ変異はそれらの開始場所に直接マッピングし、一方で小さな挿入（ＩＮＳ）及び欠失（ＤＥＬ）変異については目的とする位置をマッピングのために選択する。

転写産物に成功裡にマッピングされた変異については、ＣＢＩ変異アノテーションを、その転写産物に関して推測した。マッピングできなかった変異については、より制限されたＴＣＧＡアノテーションが保持され、ホットスポット計算についての変異型位置を、ゲノム座標に基づき構築した。

以下が、ＣＢＩ転写産物セットにマッピングされる変異をアノテートする際に使用される判定基準の説明である。

変異型分類：転写産物に成功裡にマッピングされた各変異について、変異型分類を、変異の場所及び配列変異型タイプを用いて推測した。この手法は、以下の主な変異の変異型分類を特定した。

（表１３）主な変異の変異型分類

変異型位置：変異の変異型位置は、ホットスポット変異を伴う遺伝子を特定するために使用される場所であり、これらのホットスポット変異は、複数の腫瘍試料において同一の場所で観察されるある特定の分類の変異である。効果的に再発を特定し、各変異についてのホットスポットを画定するために、変異位置、影響を受けるアミノ酸または塩基の同一性、及び変異型分類を包括する変異点識別子を構築した。それらが生み出した特定の塩基変化に関係なく同一の場所で発生した変異は集計された。故に、基準塩基またはアミノ酸のみを、変異型位置を画定するために使用した。これにより、同一のコドンまたはゲノム位置に影響を及ぼす変異が、それらがもたらした代替対立遺伝子が異なった場合でも、潜在的なホットスポットに向けて数に含められることが保証された。例えば、所与の遺伝子について、ミスセンス変異Ｖ６００Ｅ、Ｖ６００Ｆ、及びＶ６００Ｇは全て、変異型位置Ｖ６００を有し、したがってホットスポット変異を特定するときに一緒に集計されることになる。アミノ酸レベル位置が利用可能でなかった場合、ＲＮＡレベルまたはゲノムレベル位置を活用した。

ＣＢＩ転写産物セットにマッピングされず、それ故に転写産物に基づいた場所を有さない変異については、ゲノムの場所（開始位置）及び基準ヌクレオチド（基準対立遺伝子）を、コード領域またはスプライス部位の近接性に関係なく変異型位置として使用した。次いで、ＴＣＧＡでアノテートされた変異型分類を、接尾語として付加した。これらの変異についての変異型変化（下を参照）は画定しなかった。

変異型変化：変異型変化は、変異（例えばＶ６００Ｅ）の代替対立遺伝子変化についてのＨＧＶＳ様情報を提供する。コード領域におけるＳＮＰ変異については、変異型変化は、代替アミノ酸を示す、完全なＨＧＶＳタンパク質レベル配列変異型の種類であった。コード領域の外側のＳＮＰについては、代替対立遺伝子ヌクレオチド塩基が提供された。ＣＢＩ転写産物セットにマッピングされない変異については、ＴＣＧＡからの変異型分類を保持した。

転写産物フィルタリング：複数の転写産物、それ故に遺伝子内の単一の変異に関する複数のアノテーションを回収することを回避するために、１つの遺伝子につき変異当たり１個の転写産物（固有のＥｎｔｒｅｚＩＤ）を保持した。変異が遺伝子のいくつかの転写産物にマッピングされた場合、１つのみを選択した。しかしながら、変異がいくつかの遺伝子にマッピングされた場合は、遺伝子当たり１つの転写産物を選択した。したがって、変異が２つの異なるアノテーションを受容することは可能であったが、これはアノテーションが異なるＥｎｔｒｅｚＩＤを持つ転写産物に由来した場合のみであった。実際において、同一のゲノムの場所における同一の変異型分類の任意の変異は、同一の転写産物にいつも割り当てられ、それ故にホットスポット特定についての再発を計算するとき、基準の同一のフレーム中にあることになる。

遺伝子領域フィルタリング：全ての変異を、遺伝子機能分析に目的度の低い変異を包含することを回避するために、変異型タイプ及びクラスによって更にフィルタリングした。遺伝子領域に分散しなかった変異を、それらが転写産物の外側で有意に離れて包含されたか、またはＲｅｆＳｅｑ遺伝子と関連付けられない場所にあったかどちらかの理由で、取り除いた。これらの変異は、遺伝子識別子、または以下の変異型クラス、イントロン、５'フランク、ＩＧＲ、及びｍｉＲＮＡにおけるメンバーシップのいずれかのそれらの欠損によって明白であった。また、変異を、ＤＮＰ、ＴＮＰ、ＯＮＰ、Ｃｏｍｐｌｅｘ置換、及び挿入欠失のアノテーションはパイプラインによってサポートされていなかったため、これらの変異型タイプを取り除いた。

変異の、ホットスポット、有害、またはその他としての分類−分析パイプラインにおける次のステップは、複数の試料中の再発変異を、それらの変異型位置に基づき特定し、それらをホットスポット、有害、またはその他の変異型区分に類別した。このステップ、及びこれに続く頻度計算のために、各疾患タイプについての変異を、独立して処理した。同一の変異型分類の変異のみを共に勘定し、したがって、例えば同一位置でのミスセンス変異及びサイレント変異を別個に数えた。

ドライバー事象を特定するために、所与のＥｎｔｒｅｚＧｅｎｅＩｄについての各変異を、「有害」または「ホットスポット」として類別した。変異は、それが３つ以上の腫瘍試料において同一の変異型位置で観察された場合、「反復性」とみなした。変異は、それが反復性であり、以下の変異型分類、インフレーム挿入／欠失、ノンストップ、ミスセンス、非コードエクソンのうちの１つでアノテートされた場合、「ホットスポット」変異型区分に属した。変異は、それが以下の変異型分類、フレームシフト挿入／欠失、ナンセンスのうちの１つでアノテートされた場合、「有害」区分に属した。変異は、それが上の判定基準に適合しなかった場合、「その他」の変異型区分にあるとみなした。

「機能獲得型」及び「機能喪失型」遺伝子の指定−個々の遺伝子を、予測される機能クラス、すなわち「機能獲得型」、「反復性のその他」、及び「機能喪失型」に、潜在的な活性化または有害変異におけるそれらの相対的富化を反映するように分類した。

変異の頻度：各遺伝子についての変異頻度を、疾患のタイプ内の全ての試料にわたって、所与の変異型分類及び変異型区分に関して計算した。疾患内の遺伝子についての全体的な変異頻度を、全ての変異を組み合わせることにより計算した。

変異の有意性：疾患内の各遺伝子についてのホットスポットｐ値を、最も反復性の変異ｍを選択し、サンプリングを用いてその位置でのｒ以上の変異を観察する確率ｐを決定することによって計算した。より具体的には、

あり、ｃ_ｍは、最大重複度ｍを持つ複製物のカウントである。最大重複度１を持つ転写産物についてのｐ値を、１．０として定義する。全く観察されない最大重複度を持つ転写産物についてのｐ値を、１ｅ−５として定義する。

各疾患内のホットスポットＱ値を、少なくとも１度変異した転写産物の数（Ｎ）を数えること、及び各ｐ値の等級を計算することにより計算した。このとき、所与のｐ値についてのｑ値は、Ｑ＝ｐ×Ｎ／等級である。

遺伝子が有害変異について他の遺伝子と比較して有意に富化されたかどうかを評価するために、バックグラウンド変異率を考慮し、フィッシャー直接検定を実行して、問題の遺伝子の有害変異頻度を他の遺伝子のものと比較した。ナンセンス変異、フレームシフト挿入、及びフレームシフト欠失を有害変異として分類し、一方で任意の他のタイプ（ミスセンス等、しかし非遺伝子間ではない）をその他としてカウントした。

各疾患内の有害Ｑ値を、有害変異を伴う遺伝子の数（Ｎ）を数えること、及び各関連性の等級を計算することにより計算した。このとき、所与のｐ値についてのｑ値は、Ｑ＝ｐ×Ｎ／等級であった。

遺伝子分類：いったん変異が分類されたら、個々の遺伝子を３つのクラス、「機能獲得型」、「機能喪失型」、及び「反復性のその他」のうちの１つとして指定した。この分類は、遺伝子中において観察される変異の相対頻度及び有意性の組み合わせに基づく。遺伝子当たりの変異の有意性は、ｐ値により評価される。図２における分類スキームは、機能獲得型及び機能喪失型遺伝子についての判定基準を明示する。

「機能獲得型」遺伝子は、相対的に高頻度のホットスポットミスセンス変異、及び低頻度の有害変異を有することになり、一方で「機能喪失型」遺伝子は、大部分の有害変異を含有する。「反復性のその他」は、反復性挿入／欠失変異を含む傾向があり、これらのうちの一部、例えば１つの塩基の反復性フレームシフト挿入欠失は、局所的な調整誤差から生じ得る、潜在的な偽陽性コールの兆候を提示する。

汎癌分析−疾患にわたる変異を集約するために、疾患内分析のためのものと同一であるが、疾患によって変異記録を階級化しない計算を実行した。汎疾患遺伝子分類のために、遺伝子（ＥｎｔｒｅｚＩＤにより固有）を全ての癌のタイプにわたって集約した。

実施例３：癌における遺伝子融合物及び／または遺伝子変異型の特定のための診断アッセイ
ライブラリーの準備
ＰＣＲ増幅ゲノムＤＮＡ標的
開示される変異型及び融合ポリヌクレオチドは、核酸のシーケンシングにより検出することができる。これは次世代シーケンシングにより達成することができ、この説明は以下に続く。次世代シーケンシングのための核酸のソースは、生鮮凍結パラフィン包埋（ＦＦＰＥ）試料を含み得る。

多重ポリメラーゼ連鎖反応を、ゲノムＤＮＡ試料にわたる３８４個の個々のアンプリコンを増幅するために実行する。１００個超の遺伝子変異型または融合ポリヌクレオチドを網羅する、３２，０００個超のプライマーのプールを開発する。プライマープール中の各プライマーを、各プライマーの末端付近に少なくとも１つのウリジンヌクレオチドを含有するように設計した。各プライマーはまた、核酸試料の特定の遺伝子、遺伝子変異型、または融合ポリペプチドとプライマー対を形成することにより選択的にハイブリダイズし、増幅を促進するように設計する。

９６ウェルＰＣＲプレートの単一のウェルに、ＴＥ中１５μＭの濃度で３８４個のプライマー対を含有する５マイクロリットルのＰｒｉｍｅｒＰｏｏｌ、１０〜５０ｎｇのゲノムＤＮＡ、ならびにグリセロール、ｄＮＴＰ、及びＰｌａｔｉｎｕｍ（登録商標）ＴａｑＨｉｇｈＦｉｄｅｌｉｔｙＤＮＡＰｏｌｙｍｅｒａｓｅ（Ｉｎｖｉｔｒｏｇｅｎ，ＣａｔａｌｏｇＮｏ．１１３０４）を含み得る１０マイクロリットルの増幅反応混合物（２×ＡｍｐｌｉＳｅｑＨｉＦｉＭａｓｔｅｒＭｉｘ）を添加し、Ｄｎａｓｅ／ＲｎａｓｅＦｒｅｅＷａｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．６００００４）で最終容量２０マイクロリットルにする。

ＰＣＲプレートを密閉し、サーマルサイクラー（ＧｅｎｅＡｍｐ（登録商標）ＰＣＲシステム９７００二重９６ウェルサーマルサイクラー（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．Ｎ８０５０２００ａｎｄ４３１４４４５））中に装填し、以下のテンペレートプロファイルを用いて動作させて、事前増幅されたアンプリコンライブラリーを生成する。

最初の保持工程を９８℃で２分間実行し、その後変性工程の１６サイクルを９８℃で１５秒間、ならびにアニーリング及び伸長工程を６０℃で４分間実行する。サイクリング後、事前増幅されたアンプリコンライブラリーを、下に概説される精製ステップに進むまで４℃で保持する。

入力ＤＮＡ及びプライマーからのアンプリコンの精製
０．６×及び１．２×容積比での、２ラウンドのＡｇｅｎｃｏｕｒｔ（登録商標）ＡＭＰｕｒｅ（登録商標）ＸＰＲｅａｇｅｎｔ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ，ＣＡ）結合、洗浄、及び溶出が、ゲノムＤＮＡ、及び非結合のまたは過剰なプライマーを除去することが見出されている。本明細書に概説される増幅及び精製ステップは、長さが約１００ｂｐ〜約６００ｂｐのアンプリコンを精製する。

１．５ｍｌのＬｏＢｉｎｄチューブ（Ｅｐｐｅｎｄｏｒｆ，ＰａｒｔＮｏ．０２２４３１０２１）中において、事前増幅されたアンプリコンライブラリー（２０マイクロリットル）を、１２マイクロリットル（０．６×容積）のＡｇｅｎｃｏｕｒｔ（登録商標）ＡＭＰｕｒｅ（登録商標）ＸＰ試薬（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ，ＣＡ）と組み合わせる。ビーズ懸濁液を、ビーズ懸濁液が事前増幅されたアンプリコンライブラリーと十分に混合するように、上下に分注する。次いで、試料をパルススピンし、室温で５分間インキュベートする。

試料を含有するチューブを、ビーズを捕捉するために、ＤｙｎａＭａｇ（商標）−２回転磁石（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．１２３−２１Ｄ）等の磁気ラック上に２分間置く。いったん溶液が透明になったら、上清を新しいチューブへ移し、ここで２４マイクロリットル（１．２×容積）のＡｇｅｎＣｏｕｒｔ（登録商標）ＡＭＰｕｒｅ（登録商標）ＸＰビーズ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ，ＣＡ）を上清に添加する。混合物を、ビーズ懸濁液が事前増幅されたアンプリコンライブラリーと混合することを確実にするように分注する。次いで、試料をパルススピンし、室温で５分間インキュベートする。試料を含有するチューブを、ビーズを捕捉するために磁気ラック上に２分間置く。いったん溶液が透明になったら、ビーズペレットを掻き乱すことなく、上清を注意深く廃棄する。これで、所望の事前増幅されたアンプリコンライブラリーがビーズに結合する。チューブを磁気ラックから動かさずに、２００マイクロリットルの新たに調製した７０％エタノールを試料中に導入する。チューブを磁気ラック上で穏やかに回転させながら、試料を３０秒間インキュベートする。溶液が透明になった後、ペレットを掻き乱すことなく、上清を廃棄する。２回目のエタノール洗浄を実行し、上清を廃棄する。任意の残留するエタノールを、チューブをパルススピンし、ペレットを掻き乱さずに残留エタノールを注意深く除去することによって除去する。ペレットを室温で約５分間風乾する。

チューブが乾燥したら、チューブを磁気ラックから外し、２０マイクロリットルのＤＮａｓｅ／ＲＮａｓｅＦｒｅｅＷａｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．６００００４）を添加する。チューブをボルテックスし、試料の十分な混合を確実にするために分注する。試料をパルススピンし、磁気ラック上に２分間置く。溶液が透明になった後、溶出したＤＮＡを含有する上清を新しいチューブへ移す。

アンプリコンのリン酸化
溶出したＤＮＡ（約２０マイクロリットル）に、３マイクロリットルのＤＮＡリガーゼ緩衝液（Ｉｎｖｉｔｒｏｇｅｎ，ＣａｔａｌｏｇＮｏ．１５２２４０４１）、２マイクロリットルのｄＮＴＰ混合物、及び２マイクロリットルのＦｕＰ試薬を添加する。反応混合物を確実に均一になるように十分に混合し、３７℃で１０分間インキュベートする。

アンプリコンへのアダプターの結合、及び結合したアンプリコンの精製
インキュベーション後、反応混合物を直接結合ステップに進ませる。ここで、リン酸化アンプリコンライブラリーを現在含有する反応混合物を、１マイクロリットルのＡ／Ｐ１Ａｄａｐｔｅｒ（各２０μｍ）（ｔｈｅＩｏｎＦｒａｇｍｅｎｔＬｉｂｒａｒｙＫｉｔ，ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６６４６４の成分として販売される）及び１マイクロリットルのＤＮＡリガーゼ（ｔｈｅＩｏｎＦｒａｇｍｅｎｔＬｉｂｒａｒｙＫｉｔ，ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６６４６４の成分として販売される）と組み合わせ、室温で３０分間インキュベートする。

インキュベーションステップの後、５２マイクロリットル（１．８×試料容積）のＡｇｅｎＣｏｕｒｔ（登録商標）ＡＭＰｕｒｅ（登録商標）Ｒｅａｇｅｎｔ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ，ＣＡ）を、結合したＤＮＡに添加する。ビーズ懸濁液が結合したＤＮＡと混合するように、混合物を十分に分注する。混合物をパルススピンし、室温で５分間インキュベートする。試料をもう一度パルススピンし、ＤｙｎａＭａｇ（商標）−２回転磁石（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．１２３−２１Ｄ）等の磁気ラック上に２分間置く。溶液が透明になった後、上清を廃棄する。チューブを磁気ラックから動かさずに、２００マイクロリットルの新たに調製した７０％エタノールを試料中に導入する。チューブを磁気ラック上で穏やかに回転させながら、試料を３０秒間インキュベートする。溶液が透明になった後、ペレットを掻き乱すことなく、上清を廃棄する。２回目のエタノール洗浄を実行し、上清を廃棄する。任意の残留するエタノールを、チューブをパルススピンし、ペレットを掻き乱さずに残留エタノールを注意深く除去することによって除去する。ペレットを室温で約５分間風乾する。

ペレットを、２０マイクロリットルのＤＮａｓｅ／ＲＮａｓｅＦｒｅｅＷａｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．６００００４）中に再懸濁し、試料の十分な混合を確実にするためにボルテックスする。試料をパルススピンし、磁気ラック上に２分間置く。溶液が透明になった後、結合したＤＮＡを含有する上清を新しいＬｏｂｉｎｄチューブ（Ｅｐｐｅｎｄｏｒｆ，ＰａｒｔＮｏ．０２２４３１０２１）へ移す。

アンプリコンのニック翻訳及び増幅、ならびにライブラリーの精製
結合したＤＮＡ（約２０マイクロリットル）を、７６マイクロリットルのＰｌａｔｉｎｕｍ（登録商標）ＰＣＲＳｕｐｅｒＭｉｘＨｉｇｈＦｉｄｅｌｉｔｙ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．１２５３２−０１６、ｔｈｅＩｏｎＦｒａｇｍｅｎｔＬｉｂｒａｒｙＫｉｔ，ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６６４６４の成分として販売される）及び４マイクロリットルのＬｉｂｒａｒｙＡｍｐｌｉｆｉｃａｔｉｏｎＰｒｉｍｅｒＭｉｘ（各５μＭ）（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．６０２−１０６８−０１、ｔｈｅＩｏｎＦｒａｇｍｅｎｔＬｉｂｒａｒｙＫｉｔ，ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６６４６４の成分として販売される）と組み合わせ、確実に均一な溶液になるように混合物を十分に分注する。溶液を９６ウェルＰＣＲプレートのうちの単一のウェルに適用し、密閉する。ＰＣＲプレートをサーマルサイクラー（ＧｅｎｅＡｍｐ（登録商標）ＰＣＲシステム９７００二重９６ウェルサーマルサイクラー（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．Ｎ８０５０２００ａｎｄ４３１４４４５））中に装填し、以下のテンペレートプロファイルで動作させて、最終的なアンプリコンライブラリーを生成する。

ニック翻訳を７２℃で１分間実行し、その後酵素活性化工程を９８℃で２分間、その後変性工程の５〜１０サイクルを９８℃で１５秒間、ならびにアニーリング及び伸長工程を６０℃で１分間実行する。サイクリング後、最終的なアンプリコンライブラリーを、下に概説される最終精製ステップに進むまで４℃で保持する。

１．５ｍｌのＬｏＢｉｎｄチューブ（Ｅｐｐｅｎｄｏｒｆ，ＰａｒｔＮｏ．０２２４３１０２１）中において、最終アンプリコンライブラリー（約１００マイクロリットル）を、１８０マイクロリットル（１．８×試料容積）のＡｇｅｎｃｏｕｒｔ（登録商標）ＡＭＰｕｒｅ（登録商標）ＸＰ試薬（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ，ＣＡ）と組み合わせる。ビーズ懸濁液を、ビーズ懸濁液が最終的なアンプリコンライブラリーと十分に混合するように、上下に分注する。次いで、試料をパルススピンし、室温で５分間インキュベートする。

最終的なアンプリコンライブラリーを含有するチューブを、ビーズを捕捉するために、ＤｙｎａＭａｇ（商標）−２回転磁石（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．１２３−２１Ｄ）等の磁気ラック上に２分間置く。いったん溶液が透明になったら、ビーズペレットを掻き乱すことなく、上清を注意深く廃棄する。チューブを磁気ラックから動かさずに、４００マイクロリットルの新たに調製した７０％エタノールを試料中に導入する。チューブを磁気ラック上で穏やかに回転させながら、試料を３０秒間インキュベートする。溶液が透明になった後、ペレットを掻き乱すことなく、上清を廃棄する。２回目のエタノール洗浄を実行し、上清を廃棄する。任意の残留するエタノールを、チューブをパルススピンし、ペレットを掻き乱さずに残留エタノールを注意深く除去することによって除去する。ペレットを室温で約５分間風乾する。

チューブが乾燥したら、チューブを磁気ラックから外し、２０マイクロリットルのＬｏｗＴＥ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＣＡ，ＰａｒｔＮｏ．６０２−１０６６−０１）を添加した。試料の十分な混合を確実にするために、チューブを分注及びボルテックスする。試料をパルススピンし、磁気ラック上に２分間置く。溶液が透明になった後、最終的なアンプリコンライブラリーを含有する上清を新しいＬｏｂｉｎｄチューブ（Ｅｐｐｅｎｄｏｒｆ，ＰａｒｔＮｏ．０２２４３１０２１）へ移す。

ライブラリーのサイズ分布の評価及び鋳型希釈因子の決定
最終的なアンプリコンライブラリーを定量化して、鋳型調製（例えば、ＩｏｎＳｐｈｅｒｅ（商標）粒子上へのライブラリー分子のＰＣＲ媒介添加）のために最適化された標的範囲内の濃度をもたらすライブラリー希釈（鋳型希釈因子）を決定する。最終的なアンプリコンライブラリーは、典型的には、ＩｏｎＬｉｂｒａｒｙＱｕａｎｔｉｔａｔｉｏｎＫｉｔ（ｑＰＣＲ）（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６８８０２）及び／またはＢｉｏａｎａｌｙｚｅｒ（商標）（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ，Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ）を用いて下流鋳型調製手順のために定量化して、アンプリコンライブラリーのモル濃度を決定し、これから鋳型希釈因子を計算する。例えば、定量的リアルタイムＰＣＲ（ｑＰＣＲ）によって鋳型希釈因子を決定するための案内は、その全体が参照により本明細書に組み込まれるＩｏｎＬｉｂｒａｒｙＱｕａｎｔｉｔａｔｉｏｎＫｉｔＵｓｅｒＧｕｉｄｅ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６８９８６）において見出すことができる。

この例においては、１マイクロリットルの最終的なアンプリコンライブラリー調製物を、ｔｈｅ２１００Ｂｉｏａｎａｌｙｚｅｒ（商標）上でＡｇｉｌｅｎｔＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡＫｉｔ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．５０６７−４６２６）によって分析して、１３５〜２０５ｂｐのサイズ範囲において、かつマイクロリットル当たり約５×１０^９コピーの濃度でピークを生成する。

鋳型調製への進行
エマルジョンＰＣＲ（ｅｍＰＣＲ）を用いてＩｏｎＳｐｈｅｒｅ（商標）Ｐａｒｔｉｃｌｅ上でクローン的に増幅されるＤＮＡ鋳型を、最終的なライブラリーの分割量を使用して調製する。この実施例における鋳型の調製は、ＸｐｒｅｓｓＴｅｍｐｌａｔｅＫｉｔ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６６４５７）を用いて、その製造業者の説明書に従って調製され、この説明書はその全体が参照により本明細書に組み込まれる。鋳型陽性ＩｏｎＳｐｈｅｒｅＰａｒｔｉｃｌｅが富化されたら、その全体が本明細書に組み込まれるＩｏｎＳｅｑｕｅｎｃｉｎｇＵｓｅｒＧｕｉｄｅ（ＰａｒｔＮｏ．４４６７３９１）において記載されるように、ＩｏｎＳｐｈｅｒｅの分割量をＩｏｎ３１４（商標）Ｃｈｉｐ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６２９２３）上に装填し、その全体が本明細書に組み込まれるＩｏｎＴｏｒｒｅｎｔＰＧＭＳｅｑｕｅｎｃｅｒＵｓｅｒＧｕｉｄｅ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，ＰａｒｔＮｏ．４４６２９１７）において記載されるように、分析及びシーケンシングに供する。

実施例４：臨床転帰に関連付けられる遺伝的事象を特定するためのＯｎｃｏｍｉｎｅＮＧＳ統合分析方法
ＯｎｃｏｍｉｎｅＮＧＳ統合分析は、コアＮＧＳデータの可及的最大の集合をまとめて、遺伝子及び経路等の抽象作用の複数の生物学的レベルでの分析を集約することでデータのタイプ及び疾患にわたる関係性を調べる科学的ワークフローを可能にするように設計された。

データソース（Ｏｎｃｏｍｉｎｅは、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ／ＣｏｍｐｅｎｄｉａＢｉｏｓｃｉｅｎｃｅｓ−ＡｎｎＡｒｂｏｒ，Ｍｉｃｈｉｇａｎ、及びハイパーテキスト転送プロトコル：／／ｗｗｗ．ｏｎｃｏｍｉｎｅ．ｏｒｇから入手可能）

統合分析のためのデータは以下のソースから採取した：
・融合：Ｏｎｃｏｍｉｎｅドライバー融合
・変異：Ｏｎｃｏｍｉｎｅ汎癌ドライバー変異
・ＣＮＶ：Ｏｎｃｏｍｉｎｅ処理コピー数データ由来のピーク増幅及び欠失データ
・ＤＮＡ：Ｏｎｃｏｍｉｎｅ処理ＤＮＡ−ｓｅｑ連続データ
・ＲＮＡ：正規化遺伝子レベルＲＮＡｓｅｑ連続データ
・臨床：Ｏｎｃｏｍｉｎｅ精選臨床及び転帰メタデータ
・経路：Ｏｎｃｏｍｉｎｅ経路定義。

融合データ及びフィルタリング
統合分析のための融合データを、ＯｎｃｏｍｉｎｅＮＧＳ融合データから獲得した。Ｏｎｃｏｍｉｎｅ優先順位付け融合は、Ｃｏｍｐｅｎｄｉａで開発された、既知の真陽性融合事象の属性を捕捉するため、及び観察された遺伝子融合のサブ集合を高信頼度の優先融合として特徴付けるための優先スキームである。優先融合を定義するために使用される判定基準としては、有効な５'から３'への配向、非隣接融合パートナー、固有にマッピングするスパニングリード、正常組織においては観察されない非パラロガス融合パートナー、及びゲノム中の冗長領域を伴う非重複が挙げられる。

融合は、それらがｄｅＦｕｓｅまたはＴｏｐｈａｔによりコールされた場合、「被サポート」または「中性」であるエクソン発現エビデンスを有した場合、及び以下の４つの判定基準のうちの１つを満たした場合にドライバー融合に含まれ、それとみなされた：
・Ｏｎｃｏｍｉｎｅ優先順位付け融合＋反復性
・Ｏｎｃｏｍｉｎｅ優先順位付け融合＋Ｍｉｔｅｌｍａｎアノテーション
・Ｏｎｃｏｍｉｎｅ優先順位付け融合＋１つのパートナーが、３つ以上の汎疾患優先融合に関与するＯｎｃｏｍｉｎｅ機能獲得型遺伝子である
・Ｏｎｃｏｍｉｎｅ優先順位付け融合＋１つのパートナーが、３つ以上の汎疾患優先融合に関与するＳａｎｇｅｒＯｎｃｏｇｅｎｅ（ｈｔｔｐ：／／ｇｏｏ．ｇｌ／ＪＱＢｗ９）である。

変異データ及びフィルタリング
統合分析のための変異データを、ＯｎｃｏｍｉｎｅＮＧＳ変異データから獲得した。個々の遺伝子を、予測される機能クラス、すなわち「機能獲得型」、及び「機能喪失型」に、潜在的な活性化または有害変異におけるそれらの相対的富化を反映するように分類する。この分類は、ｐ値により評価される遺伝子中において観察される変異の相対頻度及び有意性の組み合わせに基づく。「機能獲得型」遺伝子は、相対的に高頻度のホットスポットミスセンス変異、及び低頻度の有害変異を有することになり、一方で「機能喪失型」遺伝子は、大部分の有害変異を含有する。

コピー数セグメント化及び定量化
各ＴＣＧＡ試料についてのＤＮＡコピー数データを、Ｏｎｃｏｍｉｎｅから獲得した。単一の遺伝子についての複数の報告者からの測定値を平均した。

最小共通領域（ＭＣＲ）ピーク生成
再発的に増幅（４つ以上のコピー）または欠失（１以下のコピー）された遺伝子において、Ｏｎｃｏｍｉｎｅ臨床試料にＭＣＲ分析を適用することによって、２５個の癌のタイプにおけるピークを独立して特定した。ピークを画定するために、有意に異常であった複数の遺伝子を伴う隣接ゲノム領域（共通領域）をまず特定した。それぞれの共通領域において、ピークを、その異常試料カウントがピーク閾値を満たすまたはそれを超える１つ以上の遺伝子として定義する。それぞれの癌において、共通領域を、その異常試料カウントが共通領域閾値を満たすまたはそれを超える領域として定義する。基準線、全ての遺伝子にわたって観察される異常試料の平均数を、各癌における各染色体の各アームについて計算する。

ｍＲＮＡ遺伝子発現
発現データを、ＢｒｏａｄＧＤＡＣのＴＣＧＡ標準データから獲得した。

臨床データ精選
患者の臨床データをＴＣＧＡから獲得し、Ｃｏｍｐｅｎｄｉａによって精選した。精選されたデータのタイプは、人口統計、主な臨床サブタイプ及び組織学的疾患サブタイプ、ならびに臨床転帰データを含んだ。全ての特性を、疾患にわたって一貫するように標準化した。

臨床的に関連するサブ集合の構築
ＴＣＧＡから獲得された精選された臨床データ及びＯｎｃｏｍｉｎｅＮＧＳデータを使用し、表１４の規則を適用して臨床サブ集合を定義した。

（表１４）臨床サブ集合を定義するための規則

経路
手作業で精選されたＣｏｍｐｅｎｄｉａ経路定義を使用して、統合分析において遺伝子レベル異常性を集約した。経路は臨床的に関連する経路モジュールを表し、いくつかのモジュールは主要な生物学的経路を網羅し得、単一の遺伝子が１つ以上の経路モジュール定義に存在し得る。

データ統合
図３の図表は、様々なデータのタイプを遺伝的事象データベース（ＧＥＤＢ）に統合するデータフローを概説する。全ての更なる分析は、ＧＥＤＢを用いて実行される。この方法は４つの主なステップを有する：
・データを内部ＩＡ遺伝子及び患者次元にマッピングする
・各データタイプにおける事象及びドライバー事象を定義する
・個々の事象を遺伝子及び経路レベルにまとめ上げする
・事象を遺伝的事象データベースに組み合わせる。

遺伝子及び患者次元
全ての疾患及びデータタイプにわたって測定された、全ての患者及び遺伝子を包括した単一の遺伝子及び患者次元を構築した。遺伝子及び患者は内部識別子を与えられ、ＩＡにおける全てのデータを、これらの識別子を用いて、遺伝子名及び患者バーコード一貫性について参照した。遺伝子について固有の識別子は、遺伝子ＥｎｔｒｅｚＩＤである。患者についての固有の識別子は、ＴＣＧＡ患者バーコード（ＴＣＧＡバーコードの最初の１２桁）である。

ドライバー事象の定義
変異、融合、及びコピー数事象を、ゲノム事象についての以下の判定基準に基づいて定義する：
・融合：Ｏｎｃｏｍｉｎｅ反復性優先融合
・変異：汎癌ドライバー遺伝子からのＯｎｃｏｍｉｎｅドライバー変異
・ＣＮＶ：ＣＢＩ特定ピーク、及びピーク内の遺伝子増幅／欠失。

遺伝的事象の定義及びまとめ上げ
遺伝的事象はゲノム異常性であり、個々の変異、融合、もしくはコピー数イベント、または遺伝子もしくは経路レベルにおける事象の組み合わせのいずれかを表す。事象は、図４に示されるフローチャートに従って「まとめ上げられ」る。複数の事象が組み合わされてまとめ上げられた事象を構築する場合、まとめ上げられた事象について測定された患者の集合は、全ての３つのデータタイプについて測定された患者の共通部分となる。陽性の患者は、完全に測定された場合のみ含まれる。

分析
全てのドライバー遺伝的事象が構築されたら、１組の分析が各遺伝的事象について実行され、疾患（及び適切な場合、汎癌）内の頻度、関連性、及び関係性を計算する。以下が、各分析の簡単な説明である。

頻度
頻度は、ドライバー事象が測定される患者内におけるドライバー事象の発生である。頻度は、疾患及び汎癌内で計算される。

臨床関連性分析
各ドライバー事象を、利用可能な臨床サブタイプの集合に対する関連性について試験する。各関連性を、１つの臨床サブタイプの患者における遺伝的事象の発生を別のものと比較することにより、フィッシャー直接検定を用いて試験する。例えば、機能喪失型変異を、喫煙者対非喫煙者における、または肺癌のステージＩ対ステージＩＩにおける過剰出現について試験し得る。総計１３６個のサブタイプ対を各事象に対して試験し、サブタイプを定義する特性を以下に列挙する（一部の特性は疾患特異的であり得る）。各クラスに少なくとも１名の患者を有する、少なくとも全部で４名の患者がこの試験の実行に必要である。

臨床転帰分析
各ドライバー事象を、対数順位検定を用いて、臨床転帰との関連性について試験する。利用可能な臨床データを持つ患者の集合のみを計算に使用するため、試験に含まれる患者の数は、ドライバー事象について測定された患者の数よりも少なくあり得る。少なくとも４名の、ドライバー事象について陽性である患者が、この試験の実行に必要である。生存期間は年で提示され、個々の生存／死亡事象は、カプラン・マイヤー曲線上に明確に示される。ｐ値を、多連試験のために修正した（ｑ値）。０．１未満のｑ値を伴う事象を考慮した。

分析の結果を、表１５及び３９に示す。表１５及び３９において、その列は以下の情報を提供する。

「サブ集合」の列は、臨床的に関連する癌のタイプを提供する。

ｐ値の列は、ｐ値である。

ｑ値の列は、修正されたｐ値である。０．１未満のｑを伴う事象が、表中に含まれる。

陽性の数の列は、事象のタイプについて陽性の患者の数である。

患者の総数の列は、評価された患者の総数である。

サイトバンドの列は、遺伝子（複数可）の染色体上の場所である。

遺伝子（ＥｎｔｒｅｚＩＤ）の列は、遺伝子（複数可）及び対応するＥｎｔｒｅｚＩＤのリストである。

ドラッガブル遺伝子の列は、任意の遺伝子（複数可）が活性治験、承認済み、または別様に市販の薬物の標的であるかどうかを示す。

ＫＭエビデンスの列は、カプラン・マイヤーエビデンスを提供する。ＫＭエビデンスは、事象のタイプが特定の癌のタイプにおいて良好な予後または予後不良を支援するかどうかを示す。

表１５及び３９は、１００個超の、０．１未満のｑを有する様々な癌のタイプについての、機能獲得型変異、機能喪失型変異、インピーク遺伝子増幅／欠失、及び融合事象を含む。各事象及び癌のタイプ内の遺伝子（複数可）が、上の列の情報において示されるように、それらの染色体上の場所、ドラッガビリティの情報、及び臨床転帰関連性と共に含まれる。

実施例５−統合データ分析
ＯｎｃｏｍｉｎｅＮＧＳ統合分析．ＯｎｃｏｍｉｎｅＮＧＳ統合分析は、コア統合ゲノム及びフェノームデータの可及的最大の集合をまとめて、遺伝子及び経路等の抽象作用の複数の生物学的レベルでの分析を集約することでデータのタイプ及び癌のタイプにわたる関係性を調べる科学的ワークフローを可能にするように設計された。

用語法
異常性−ＤＮＡのゲノムの構造的変形または改変であり、例としてはｍＲＮＡ過剰／過小発現、コピー数増幅／欠失、変異、及び遺伝子融合が挙げられる。

ドライバー−本文書中に記載されるＯｎｃｏｍｉｎｅ方法論によって潜在的な癌ドライバーとして特定される異常性であり、例としては機能獲得型変異、ピーク増幅領域における遺伝子増幅、または遺伝子融合が挙げられる。

まとめ上げ−遺伝子または経路についての全ての変異、融合、またはコピー数異常性の要約であり、全ての３つの異常性のタイプについて測定された患者のみが、まとめ上げられたものに含まれる。

ホットスポット変異−反復性（ｎ≧３）であり、インフレーム挿入／欠失、ノンストップ、またはミスセンスのいずれかとして分類される変異である。

患者空集合−遺伝的異常性について測定された患者の集合である。

陽性患者集合−遺伝的異常性を持つ患者の集合である。

遺伝子空集合−遺伝的異常性を評価するために使用された実験的プラットフォームによって測定された遺伝子の集合である。

Ｍｉｔｅｌｍａｎ−文献から手作業で精選された癌における染色体異常性及び遺伝子融合のデータベースである（ハイパーテキスト転送プロトコル：／／ｇｏｏ．ｇｌ／ＰｎＸＭＴ）。

ＲＰＫＭ−「ＲｅａｄｓＰｅｒＫｉｌｏｂａｓｅｐｅｒＭｉｌｌｉｏｎ」であり、総リード長及びシーケンシングリードについて正規化する、ＲＮＡＳｅｑデータ定量化のための方法である（Ｍｏｒｔａｚａｖｉｅｔａｌ．２００８）。

ＲＳＥＭ−「ＲＮＡ−ＳｅｑｂｙＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ」であり、予期される転写産物中におけるリードの最も可能性の高い分布を推定するＲＮＡＳｅｑデータ定量化のための方法が、総リードプールの分画として相対的な転写産物量を提供する（ＬｉａｎｄＤｅｗｅｙ２０１１）。

データソース．各試料について利用可能なデータの最大の重複集合を収集するための試みが為された。ＮＧＳ統合分析ブラウザのこの発表におけるデータは、直接的に、またはＯｎｃｏｍｉｎｅ処理及び分析方法に供した後にのいずれかで、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）、ＣａｎｃｅｒＣｅｌｌＬｉｎｅＥｎｃｙｃｌｏｐｅｄｉａ（ＣＣＬＥ）、ＣＯＳＭＩＣＣｅｌｌＬｉｎｅｓＰｒｏｊｅｃｔ、及びいくつかの研究刊行物から獲得した。ソースデータ集合にまたがる全てのデータタイプの不均等な範囲により、一部の癌のタイプは複数のデータタイプにおいて網羅されるより多くの数の患者を有する。

統合分析において使用されるＯｎｃｏｍｉｎｅＮＧＳ変異発表は、査読された刊行物中のＮＧＳ変異研究から獲得された、いくつかの手作業で精選されたデータ集合を含んだ。統合分析に変異データを寄せた刊行物の完全なリストについては、ＯｎｃｏｍｉｎｅＮＧＳ変異方法資料を参照されたい。以下のデータ集合は、変異及びコピー数データの両方を提供する多次元ＮＧＳデータを含んだ。これらのデータ集合のコピー数データ、ＴＣＧＡから獲得したコピー数データと同じ方法で処理した。

細胞株データは、変異、融合、及びコピー数データ集合を含む。細胞株データは、それぞれ、Ｏｎｃｏｍｉｎｅ（商標）ＮＧＳ変異及びＯｎｃｏｍｉｎｅ（商標）ＮＧＳ融合ＰｏｗｅｒＴｏｏｌから獲得した変異及び融合細胞株データと共に、臨床腫瘍データと同じ方法で処理した。細胞株についてのコピー数データは、標準的なＯｎｃｏｍｉｎｅコピー数パイプラインを用いて処理した。ＣＣＬＥ及びＣＯＳＭＩＣという２つの共通点のない細胞株データ集合を使用したが、細胞株疾患タイプ及び名称の我々の標準化により、我々は、２つのデータ集合の相互参照、ならびにＣＣＬＥコピー数データ、ＣＯＳＭＩＣ変異データ、及びＯｎｃｏｍｉｎｅ融合コールを組み合わせることができた。故に、本発表における多数の細胞株は、異常性の全ての３つのタイプについて系統的に特徴付けられたそれらのエクソームを有した。細胞株データは、腫瘍データに対して直接比較可能であるように、Ｏｎｃｏｍｉｎｅ癌タイプ定義を用いて集約されたが、この集約は腫瘍及び細胞株に関して別個に行われた。

フェノームデータ
臨床患者メタデータ精選．患者の臨床データを一次ソースから獲得し、Ｃｏｍｐｅｎｄｉａで精選した。精選されたデータのタイプは、人口統計、主な臨床サブタイプ及び組織学的疾患サブタイプ、ならびに臨床転帰データを含む。全ての癌のタイプからは独立した特性（例えば年齢または生存）を、癌のタイプにまたがって一貫性のために標準化した。ある特定の疾患のステージを、ステージ内でより多くの患者カウントを得るために併合した。例えば、ステージＩａ及びＩｂは、改訂ステージＩとして組み合わされてもよい。

以下は、最も人数の多かった特性及び精選過程で捕捉された対応する値のリストである。全ての特性が全ての患者に対して対応可能であるわけではない。

「ＴＣＧＡ」が前についた特性は、浸潤性乳癌、膠芽腫、扁平上皮細胞肺癌、及び結腸直腸癌についての分子サブタイプを定義するＴＣＧＡ刊行物から獲得及び精選した。

ゲノム事象データ：融合データフィルタリング統合分析ブラウザのための融合データを、２０１３年１１月に発表されたＯｎｃｏｍｉｎｅＮＧＳ融合データから獲得した。Ｏｎｃｏｍｉｎｅ優先融合として特定される融合のみが統合分析ブラウザに含まれた。

Ｏｎｃｏｍｉｎｅ優先順位付け融合は、Ｃｏｍｐｅｎｄｉａで開発された、既知の真陽性融合事象の属性を捕捉するため、及び観察された遺伝子融合のサブ集合を高信頼度の優先融合として特徴付けるための優先スキームである。優先融合を定義するために使用される判定基準としては、有効な５'から３'への配向、非隣接融合パートナー、固有にマッピングするスパニングリード、正常組織においては観察されない非パラロガス融合パートナー、及びゲノム中の冗長領域を伴う非重複が挙げられる。

融合データについての患者空集合は、融合分析において処理された患者腫瘍試料の全集合であり、患者当たり１つの腫瘍試料（好ましくは一次、非再発性腫瘍）のみについてのデータを保持した。遺伝子空集合は、２０１２年５月時点のＲｅｆＧｅｎｅの遺伝子の集合である。融合は、それらがＯｎｃｏｍｉｎｅ優先融合であった場合、「被サポート」または「中性」であるエクソン発現エビデンスを有した場合、及び以下の判定基準のうちの１つを満たした場合に統合分析ブラウザに含まれた：
・反復性（２名以上の患者において発生した）
・既知の構造的変形のＭｉｔｅｌｍａｎデータベース中でアノテートされた
・３つ以上の汎疾患優先融合に関与するＯｎｃｏｍｉｎｅ機能獲得型遺伝子である遺伝子パートナーを含んだ
・３つ以上の汎疾患優先融合に関与するＳａｎｇｅｒＯｎｃｏｇｅｎｅ（ハイパーテキスト転送プロトコル：／／ｇｏｏ．ｇｌ／ＪＱＢｗ９）である遺伝子パートナーを含んだ。

変異データフィルタリング．統合分析のための変異データを、２０１３年１１月に発表されたＯｎｃｏｍｉｎｅＮＧＳ変異データから獲得した。コード遺伝子領域の非サイレント変異のみが統合分析ブラウザに含まれた。

患者空集合は、変異分析において処理された患者の全集合であり、患者当たり１つの腫瘍試料（好ましくは一次、非再発性腫瘍）のみについてのデータを保持した。遺伝子空集合は、２０１２年３月時点のＲｅｆＧｅｎｅの遺伝子の集合である。

以下の変異型分類、サイレント、５'ＵＴＲ、３'ＵＴＲ、ＲＮＡ、非コードエクソンを有する変異は、統合分析ブラウザに含まれなかった。

増幅／欠失のコール．各試料についてのＤＮＡコピー数データを、２０１３年１０月時点のＴＣＧＡ及び手作業で精選された刊行物から入手可能な全てのコピー数データが標準化された、２０１３Ｑ４Ｏｎｃｏｍｉｎｅ標準データ構築体から獲得した。

この分析のための患者空集合は、２０１３年１０月時点のコピー数データについて測定された患者の集合、及び手作業で精選された刊行物中において測定された患者の集合であった。患者当たり１つの腫瘍試料（好ましくは一次、非再発性腫瘍）のみについてのデータを保持した。このデータについての遺伝子空集合は、ＵＣＳＣＲｅｆＧｅｎｅ構築体Ｊｕｌｙ２００９により提供されたＲｅｆＳｅｑ座標（ｈｇ１８）に基づくＯｎｃｏｍｉｎｅＤＮＡコピー数プラットフォームであり、１８，７９６個の遺伝子を測定する。単一の遺伝子についての複数の報告者からの測定値を平均した。

推定されるコピー値のｌｏｇ_２を、それぞれ、１．０超及び−１．０未満を切り放して、増幅／欠失（ａｍｐ／ｄｅｌ）コールを作成するために使用した。−１．０以上または＋１．０以下のいかなるａｍｐ／ｄｅｌコールも、ｌｏｇ_２（推定されるコピー）を作成しなかった。

ゲノム連続データ：コピー数セグメント化及び定量化．各試料についてのＤＮＡコピー数データを、２０１３年９月時点のＴＣＧＡから入手可能な全てのコピー数データ、及び手作業で精選された刊行物からの全てのコピー数データが標準化された、２０１３Ｑ４Ｏｎｃｏｍｉｎｅ標準データ構築体から獲得した。

この分析のための患者空集合は、２０１３年１０月時点のコピー数データについて測定されたＴＣＧＡ患者の集合、及び手作業で精選された刊行物中において測定された患者の集合であった。患者当たり１つの腫瘍試料（好ましくは一次、非再発性腫瘍）のみについてのデータを保持した。このデータについての遺伝子空集合は、ＵＣＳＣＲｅｆＧｅｎｅ構築体Ｊｕｌｙ２００９により提供されたＲｅｆＳｅｑ座標（ｈｇ１８）に基づくＯｎｃｏｍｉｎｅＤＮＡコピー数プラットフォームであり、１８，７９６個の遺伝子を測定する。単一の遺伝子についての複数の報告者からの測定値を平均した。

コピー数データは、標準的なＯｎｃｏｍｉｎｅ処理パイプラインを用いてセグメント化及び定量化した。セグメント化は、増幅または欠失の隣接領域を特定するために使用される方法である。これらの領域または「セグメント」は、複数の遺伝子または単一の遺伝子を含み得る。コピー数の値を、セグメント中に含まれるレポーターについての平均値に基づき、各セグメントについて算定する。遺伝子をセグメントにマッピングし、値を割り当てる。次いで、この遺伝子レベルデータを報告する。更なる情報については、ＯｎｃｏｍｉｎｅＤＮＡ処理パイプライン白書を参照されたい。

ｍＲＮＡ発現データ．発現データを、２０１３年９月の、ＢｒｏａｄＧＤＡＣのＴＣＧＡ標準データ構築体から獲得した。

このデータについての患者空集合は、ＢｒｏａｄＧＤＡＣ２０１３＿０８＿０９標準データ構築体における利用可能なＲＮＡＳｅｑデータを伴う患者の集合であり、患者当たり１つの腫瘍試料（好ましくは一次、非再発性腫瘍）のみについてのデータを保持した。このデータについての遺伝子空集合は、疾患によって異なり、ＲＮＡＳｅｑ定量化のために使用されるＴＣＧＡＧｅｎｅＡｎｎｏｔａｔｉｏｎＦｉｌｅ（ＧＡＦ）に対応した。

ＴＣＧＡは現在、数値的に直接比較可能ではないＲＮＡＳｅｑ定量化の２つの方法、Ｖ１（ＲＰＫＭ）及びＶ２（ＲＳＥＭ）を採用する。潜在的に不正確な数値上の変換を回避するため、我々は疾患当たりに基礎を置く単一の定量化方法からのデータを、最大範囲に基づくフォーマットを選択して使用する。ＴＣＧＡによる全ての利用可能なＲＮＡＳｅｑデータをＲＳＥＭ（Ｖ２）を用いて処理（及び再処理）しようという試みに即して、ＲＳＥＭ（Ｖ２）データは大部分の試料にとって利用可能であった。例外は、ＲＰＫＭ（Ｖ１）データが使用された胃腺癌である。正規化、遺伝子レベル定量化値を、ＲＳＥＭ及びＲＰＫＭの療法について獲得し、ｌｏｇ_２値に変換した（最小非ゼロＲＰＫＭまたはＲＳＥＭ値は−１２に設定された）。遺伝子は、遺伝子が−１２超のｌｏｇ_２を有した場合、発現すると考えられた。

Ｏｎｃｏｍｉｎｅドライバー基準データ：最小共通領域（ＭＣＲ）ピーク生成及び遺伝子選択．増幅及び欠失を受ける癌ドライバー遺伝子を特定するために、ピーククラスタリング法を実行して、複数の癌のタイプにわたってしばしば異常である遺伝子を選択した。まず、コピー数ピークを、多くの癌のタイプ内で、コピー数データの最大の利用可能な集合（すなわち、統合分析に含まれるものを超えるデータ）にわたって画定した。次に、このピークによって定義された遺伝子リストを、複数の試料及び複数の疾患におけるコピー数ピークに表れる遺伝子を特定するためにクラスター化した。この方法の部分は下においてより詳細に説明される。

異常性は、データタイプ特異的Ｏｎｃｏｍｉｎｅ分類方法のうちの１つに従って、「ドライバー」異常性または潜在的に関心のあるものとして分類され得る。ドライバー異常性は、他の異常性（非ドライバー異常性は「任意の」と称される）から独立した事象として捕捉されることになる。例えば、「ドライバー」変異を有する患者は、２つの異常性、つまり「ドライバー」変異及び「任意の」変異について陽性であることになる。測定されたデータタイプのそれぞれは、ドライバー事象を決定するための規則の集合を有する。

増幅または欠失を受ける連続的ゲノム領域の集合を、ＯｎｃｏｍｉｎｅＭＣＲ分析を用いて、２５の癌にグループ分けされたＯｎｃｏｍｉｎｅの１０，２４９個の臨床試料にそれを適用することにより特定した。

ピーク定義についての患者空集合は、Ｏｎｃｏｍｉｎｅからの１０，２４９個の臨床試料であった（下の表を参照）。このデータについての遺伝子空集合は、ＵＣＳＣｒｅｆＧｅｎｅ構築体Ｊｕｌｙ２００９により提供されたＲｅｆＳｅｑ座標（ｈｇ１８）に基づくＯｎｃｏｍｉｎｅＤＮＡＣｏｐｙＮｕｍｂｅｒプラットフォームであり、１８，７９６個の遺伝子を測定する。

最小共通領域（ＭＣＲ）分析のためのデータは、多様な癌のタイプにまたがる、２０，０００超の臨床標本、異種移植片、及び細胞株を含むＯｎｃｏｍｉｎｅＤＮＡコピー数ブラウザを出所とした。ＭＣＲ分析は、３つのレベル、すなわち汎癌（全ての癌のタイプにまたがって）、一般的な癌のタイプ（癌のタイプにまたがって）、及び中間の癌のタイプまたは特定の癌のサブタイプでデータを分析することによって、反復性コピー数増幅または欠失の領域を特定する簡潔に述べれば、この方法はまず、２つ以上の試料において増幅または欠失された隣接ゲノム領域として定義される共通領域（ＣＲ）を算定する。増幅及び欠失についての最小閾値を、それぞれ、ｌｏｇ_２≧０．９（３．７コピー以上）及びｌｏｇ_２≦−０．９（１コピー以下）で設定した。次いで、これらの共通領域内のピーク領域を、（ｉ）最大数（ｎ）の試料において異常である１つ以上の遺伝子、及びまた最大数より１少ない（ｎ−１）試料において異常であるもの、ならびに（ｉｉ）最大の異常試料カウントの９０％において異常である遺伝子として定義する。

共通ピーク領域を特定するためのクラスター分析．ＭＣＲ分析を実行した。ＭＣＲ分析により特定されたピーク領域を、下の表に列挙された判定基準を用いて、３つの分析タイプ（すなわち、汎癌、一般的な癌のタイプ、及び特定の癌のタイプの分析）にわたって更にフィルタリングした。中間または特定の癌のタイプ（これもまた更に下に列挙される）は、選択された数（約４０）のみ含まれることに留意されたい。

ＭＣＲ分析から高度に増幅／欠失された領域を特定するためのフィルタリング判定基準：

上に記載されたフィルタリング判定基準に含まれる選択された中間または特定の癌のタイプ：

次に、複数の癌のタイプにわたって最も反復性のピーク領域及び遺伝子を特定するために、我々は、Ｃｙｔｏｓｃａｐｅ２．８．３［Ｍａｒｋｉｅｌｅｔａｌ．２００３；Ｓｍｏｏｔｅｔａｌ．２００１］を使用してネットワーククラスターを構築した。簡潔に述べれば、この分析は、所与のピーク領域のそれぞれの遺伝子を他のピーク領域の遺伝子と比較し、少なくとも１つの共通の遺伝子を伴うピークをクラスター化する。次いで、各クラスター内の最も反復性である増幅または欠失された遺伝子（複数可）を潜在的な候補ドライバー遺伝子としてみなした。この方法を、下の概略図において概説する。

臨床的に関連する癌のサブタイプの特定及び形成．より集中的な分析のための患者のサブ集合を提供するために、臨床フェノーム及び区分別ゲノムデータの組み合わせを用いて、いくつかの臨床的に関連する癌のサブタイプを特定及び精選した。フェノームデータは、ＴＣＧＡＷｅｂＰｏｒｔａｌ、または手作業で精選された刊行物のＳｕｐｐｌｅｍｅｎｔａｒｙＭｅｔｈｏｄｓを出所とした。

以下の規則を、臨床サブ集合を定義するために適用した。

経路．手作業で精選されたＣｏｍｐｅｎｄｉａ経路定義を使用して、統合分析ブラウザにおいて遺伝子レベル異常性を集約した。経路は臨床的に関連する経路モジュールを表し、いくつかのモジュールは主要な生物学的経路を網羅し得る。単一の遺伝子が１つ以上の経路モジュール定義に存在し得るが、１つのモジュールが別のモジュールの完全なサブ集合である大いに冗長な経路を排除するという注意を払った。４２個の遺伝子（例えば、ＭＡＰＫ経路）から２個の遺伝子（例えばＩＧＦ１／ＩＧＦ１Ｒ及びその他いくつか）の範囲に及ぶ、総計６７個の経路が存在する。

データ統合．このセクションは、一次データを共通の患者及び遺伝子次元上に統合し、統合分析を受けることになる全ての異常性から成る遺伝的事象データベース（ＧＥＤＢ）を構築するデータフローを集約する。この方法は、（１）普遍的な遺伝子及び患者次元を用いて一次データを統合する、（２）各データタイプの異常性事象をコールし、ドライバー異常性を定義する、（３）個々の事象を遺伝子及び経路レベルにまとめ上げし、事象を統合する、ならびに（４）各事象についての患者の状況を定義することによって遺伝的事象データベースを構築する、という４つの主なステップを有する。

遺伝子及び患者次元の構築及びそれへのマッピング．統合分析に含まれる異なるデータタイプは、異なる実験的プラットフォーム、及び完全には重複していない患者の集合において測定された可能性がある。故に、重複または矛盾するエントリーを回避する一方で測定された全ての患者及び遺伝子を含むという注意を払った。

各データタイプについて、データ中で測定された遺伝子及び患者を列挙する、遺伝子及び患者「次元」を構築した。下の患者次元重複図表（例証のための数字のみ）によって示されるように、この場合、浸潤性乳癌について、各データタイプの次元は異なり得る。

遺伝子及び患者次元を各癌及びデータタイプから集め、統合分析における全ての患者及び遺伝子識別子の非冗長上位集合を構築した。下の図のバーは、ある特定の異常性タイプについて測定された患者の患者識別子（該識別子によって区分される場合）のブロックを表す。

患者の冗長性を、現在、ＴＣＧＡ腫瘍試料バーコードの最初の１２文字（例えば、ＴＣＧＡ−ＡＢ−１２３４）である、固有の患者識別子に基づき決定した。

遺伝子の冗長性を、現在、ＥｎｔｒｅｚＧｅｎｅＩＤである、固有の遺伝子識別子に基づき決定した。また、遺伝子をＯｎｃｏｍｉｎｅ遺伝子集合に対しても比較し、遺伝子記号の矛盾が見出された場合、すなわち１つのＥｎｔｒｅｚＩＤが２つ以上の記号を割り当てられる場合、Ｏｎｃｏｍｉｎｅからの遺伝子記号を使用した。測定された遺伝子のうちのいくつか（１２）が、中断されており、したがって最も正確な遺伝子モデルを表し得ないＥｎｔｒｅｚＩＤを含んだ。これらの遺伝子の遺伝子記号を、単語「中断」で示した。

構築したら、非冗長遺伝子及び患者次元を、データ集合中において各遺伝子及び患者について一貫した内部識別子を提供するように指標付けした。次いで、一次データ中の全ての固有の患者及び遺伝子識別子を次元患者及び遺伝子識別子にマッピングした。したがって、遺伝子記号及び患者の臨床データ等の遺伝子及び患者メタデータは常時、それぞれの次元を通じてマッピングされ、命名及びアノテーションにおいて一貫性を提供する。統合分析における固有の遺伝子及び患者の総数は以下の通りである。

患者のデータ集合特異的マッピングを伴う患者次元は、完全な野生型患者、つまり全ての異常性タイプについて測定されるがいかなる異常性も含まないものを正確に特定することに役立つ。

したがって、患者は任意の数の異常性について測定され得、それらの測定された事象についてのみ異常であり得る。患者が測定される異常性は、患者が含まれるであろう分析タイプを決定した。

事象モデル．変異、融合、コピー数データ集合からの各ゲノム異常性を、様々な事前に定義された統合分析を受けることになる目的の事象を定義するために使用される用語である異常性事象として特定した。各異常性は、３つの広範なレベルの事象、つまりデータタイプ特異的事象、遺伝子特異的であるがデータタイプからは独立する事象、及び経路特異的であるがデータタイプからは独立する事象の一部である。後ろ２つのレベルは「まとめ上げられ」た事象とみなされる。

異常性事象の定義に関する具体的な規則、ならびに「レベル」及び「ドライバー」スキームが下に記載される。

変異事象コーラー．Ｏｎｃｏｍｉｎｅ汎癌変異分類：変異は、それが反復性（同一のアミノ酸位置において３つ以上の試料で発生）、かつ以下の変異型分類、インフレーム挿入／欠失、ノンストップ、ミスセンスのうちの１つでアノテートされる場合、「ホットスポット」として分類される。変異は、それが反復性ではなく、以下の変異型分類、フレームシフト挿入／欠失、ナンセンスのうちの１つでアノテートされる場合、「有害」として分類される。反復性は、ＯｎｃｏｍｉｎｅＮＧＳ変異ブラウザの一部として分析される全ての癌のタイプにまたがって測定される。

Ｏｎｃｏｍｉｎｅ汎癌遺伝子分類．ＯｎｃｏｍｉｎｅＮＧＳ変異ブラウザパイプラインの一部として、個々の遺伝子は、予測される機能クラス、すなわち「機能獲得型」、及び「機能喪失型」に、潜在的な活性化または有害変異におけるそれらの相対的富化を反映するように分類される。この分類は、ｐ値により評価される遺伝子中において観察される変異の相対頻度及び有意性の組み合わせに基づく。「機能獲得型」遺伝子は、相対的に高頻度のホットスポット（３つ以上の試料において反復性）ミスセンス変異、及び低頻度の有害変異を有することになり、一方で「機能喪失型」遺伝子は、大部分の有害変異を含有する。汎癌遺伝子分類は、全ての癌のタイプにわたって観察される変異に基づく。

変異異常性事象．各患者の遺伝子変異（変異データフィルタリングセクションにより定義されるような）について、その変異がドライバー異常性として分類されるかどうかに応じて、１つまたは２つのいずれかの変異事象が形成されることになる。ドライバー変異異常性は、「機能獲得型」遺伝子において存在する「ホットスポット」変異として、または「機能喪失型」遺伝子において存在する「ホットスポット」もしくは「有害」変異として定義される。ドライバー変異について、ドライバー事象及び任意の事象の療法が形成される。非ドライバー事象については、任意の事象のみが形成される。汎癌変異及び遺伝子分類を全ての分析サブ集合について使用するため、遺伝子分類は時として統合分析とＯｎｃｏｍｉｎｅＮＧＳ変異ブラウザの間で異なり得る。

下の表は、各遺伝子について形成され得る変異事象の説明及び例を提供する。

融合事象コーラー．Ｏｎｃｏｍｉｎｅ優先融合のみが統合分析ブラウザに含まれる。優先融合のうち、ドライバー融合を、Ｍｉｔｅｌｍａｎデータベースによる標識された既知の発癌遺伝子として、あるいは十分なエクソン発現データを有さず、反復性である融合か、またはエクソン発現データ、及び２つの遺伝子パートナーのエクソン発現不均衡について有意なｐ値を有する融合かのいずれかとして定義した（エクソン不均衡分類の詳細については、ＯｎｃｏｍｉｎｅＮＧＳ融合方法資料を参照）。各遺伝子について、遺伝子パートナーの、それぞれの固有の観察される５'−３'組み合わせに関して事象が形成されることになる。例えば、ＰＭＬ−ＲＡＲＡ均衡転座について、両方のアイソフォームが観察され、それ故にそれぞれ、ＰＭＬ−ＲＡＲＡ及びＲＡＲＡ−ＰＭＬについての２つの融合事象がコールされることになる。

コピー数事象コーラー．コールされた各Ａｍｐ／Ｄｅｌ（増幅／欠失のコールを参照）を、異常遺伝子についての任意の事象として定義した。ａｍｐ／ｄｅｌが、ある特定の癌のタイプにおけるピーク定義（ＭＣＲピーク生成を参照）の一部であった遺伝子において発生した場合、その遺伝子について、ドライバーａｍｐｄｅｌ事象もまた形成した。したがって、コピー数事象についてのドライバー定義は、癌のタイプに特異的である。

以下は、遺伝子増幅または欠失のためにコールされ得るコピー数異常性事象である。

遺伝的事象のまとめ上げ．ドライバー事象及び任意の事象の両方が、データタイプ独立的異常性統計及び関連性を捕捉するために、遺伝子レベル及び経路レベル事象に「まとめ上げられ」る。例えば、有害変異の関連性だけでなく、腫瘍抑制遺伝子における任意の異常性の臨床転帰との関連性を確認することは、興味深くあり得る。

遺伝子レベル異常性事象を、任意のデータタイプの少なくとも１つの異常性を有する各遺伝子について形成する。経路レベル異常性事象を、構成要素遺伝子のうちの少なくとも１つが任意のデータタイプの異常性を有する各経路について形成する。ドライバー及び任意の異常性を、遺伝子レベルまたは経路レベルのドライバー事象または任意の事象へと独立してまとめ上げる。下の図表が、様々な異常性事象のタイプ間における階層的関係性を示す。

患者事象状況．患者は任意の数の異常性について測定され得るが、それらの測定された事象についてのみ異常であり得る。したがって、各事象レベル異常性についての患者状況は、異常、野生型、または未測定として記録される。

遺伝子レベル及び経路レベル事象が定義される場合、全ての３つの遺伝的データタイプ、つまり変異、融合、及びコピー数について測定された患者のみが、その事象に対して「異常」または「野生型」として示される。この前提は、データタイプ特異的事象レベル異常性と比較して、遺伝子または経路レベルの異常性について集約される患者の数を潜在的に低減する効果を有する。患者は、その患者が事象レベル異常性タイプ（融合、変異、増幅、または欠失）のうちの少なくとも１つについて異常である場合、遺伝子レベル事象について異常であるとみなされる。患者は、その患者が経路定義の一部である少なくとも１つの遺伝子において異常性を有する場合、経路レベル事象について異常であるとみなされる。各場合において、患者は全ての事象タイプについて測定されなければならなかった。

機能獲得型及び融合の場合、異常性頻度は約５０％である。ドライバー遺伝子異常性事象についても、異常性頻度は５０％であるが、頻度の分子及び分母に含まれる患者の数は半分だけである。

分析．全てのドライバー遺伝的事象が構築されたら、１組の分析が各遺伝的事象について実行され、癌のタイプ、臨床的に関連するサブタイプ内の、及び癌のタイプ中（汎癌）の、頻度、関連性、及び関係性を計算する。以下は、どのデータが使用されるのか、ならびに存在する場合、どのような制約が報告された結果、頻度、発現頻度、共起及び相互排他性、臨床関連性分析等に課せられるのかを含む、各分析の簡単な説明である。

頻度．頻度は、異常性が測定される患者内における異常性の発生である。頻度は、癌のタイプ、臨床的に関連する癌のサブタイプ、及び汎癌内で計算する。少なくとも１つの異常患者を伴う全ての事象が報告される。

発現頻度．発現頻度は、事象陽性患者中で遺伝子（複数可）が発現される頻度である。各事象について、遺伝子（複数可）の発現レベルが、発現頻度を確認するために使用される。頻度は、癌のタイプ及び臨床的に関連する癌のサブタイプ内では計算するが、汎癌では計算しない。

共起及び相互排他性．共起及び相互排他性は、事象の各対について、フィッシャー直接検定を用いて計算される。この計算のために、各事象について陽性である少なくとも２名の患者、及び事象について測定された総計５名の患者が必要とされる。２つの個々のコピー数欠失または増幅事象の、共起または排他性は計算されない。また、共起及び相互排他性は、「任意」のドライバー状況を伴う事象の対の間では計算されない（すなわち、ドライバー対ドライバー、及びドライバー対任意が比較される）。関連性は、癌のタイプ及び臨床的に関連する癌のサブタイプ内では計算するが、汎癌では計算しない。

臨床関連性分析．各ドライバー事象を、利用可能な臨床サブタイプの集合に対する関連性について試験する。各関連性を、１つの臨床サブタイプの患者における遺伝的事象の発生を別のものと比較することにより、フィッシャー直接検定を用いて試験する。例えば、機能喪失型変異を、喫煙者対非喫煙者における、または肺癌のステージＩ対ステージＩＩにおける過剰出現について試験し得る。総計１３６個のサブタイプ対を各事象に対して試験し、サブタイプを定義する特性を以下に列挙する（一部の特性は疾患特異的であり得る）。各クラスに少なくとも１名の患者を有する、少なくとも全部で４名の患者がこの試験の実行に必要である。関連性は、癌のタイプ、臨床的に関連する癌のサブタイプ、及び汎癌内で計算する。

臨床サブタイプ特性名：

臨床転帰分析．各事象を、対数順位検定を用いて、臨床転帰との関連性について試験する。利用可能な臨床データを持つ患者の集合のみを計算に使用するため、試験に含まれる患者の数は、ドライバー事象について測定された患者の数よりも少なくあり得る。少なくとも４名の、事象について異常である患者が、この試験の実行に必要である。生存期間は年で提示され、個々の生存／死亡事象は、カプラン・マイヤー曲線上に明確に示される。関連性は、癌のタイプ及び臨床的に関連する癌のサブタイプ内では計算するが、汎癌では計算しない。

ＤＮＡ−ＲＮＡ相関分析．各遺伝子について、ＲＮＡ発現及びＤＮＡコピー数値を、ピアソン相関関係を用いてこれらのデータについて測定された、疾患内の全ての患者中の相関関係について試験する。相関関係は、癌のタイプ及び臨床的に関連する癌のサブタイプ内では計算するが、汎癌では計算しない。

差次的発現解析．各事象について、その事象に関連付けられる各遺伝子を、スチューデントｔ検定を用いて、事象陽性患者における差次的発現対事象陰性患者における差次的発現に関して試験した。いくつかの遺伝子に関与する事象、例えば融合等について、各遺伝子を試験した。差次的発現は、癌のタイプ及び臨床的に関連する癌のサブタイプ内では計算するが、汎癌では計算しない。

（表１５）癌の予後に関連する事象

実施例５：追加的な融合方法
臨床データソース．遺伝子融合解析のための全てのＲＮＡＳｅｑデータは、ＴＣＧＡゲノムデータのための現在のリポジトリであるＣａｎｃｅｒＧｅｎｏｍｉｃｓＨｕｂ（ＣＧＨｕｂ）、ｈｔｔｐｓ／／ｃｇｈｕｂ．ｕｃｓｃ．ｅｄｕ／から獲得した。

細胞株データソース．遺伝子融合解析のための全てのＣＣＬＥＲＮＡＳｅｑデータは、ＣＣＬＥＮＧＳデータのための現在のリポジトリであるＣａｎｃｅｒＧｅｎｏｍｉｃｓＨｕｂ（ＣＧＨｕｂ）、ｈｔｔｐｓ／／ｃｇｈｕｂ．ｕｃｓｃ．ｅｄｕ／から獲得した。

ＢＡＭからＦＡＳＴＱへの変換．融合コーラーへの入力は、ＦＡＳＴＱフォーマットのＲＮＡＳｅｑリードから成り、これはＴＣＧＡによって提供されたＢＡＭファイルの、単一末端データまたは対末端データについての、１つまたは２つのＦＡＳＴＱファイルへの変換を必要とした（それぞれ）。

ＢＡＭファイルは起源及び処理において異なり、多くは特別な操作を必要とした。例えば、ＵＮＣにより提供されたより古いＢＡＭファイルは、ＢＷＡ（バロウズ・ホイラーアライナ）を用いて整合されていたが、一方でより新しいＢＡＭはＭａｐＳｐｌｉｃｅによって整合されたリードを含んだ。ＴＣＧＡは最近、代替的な遺伝子発現報告を指示するために、ＲＮＡＳｅｑパイプラインを更新した。（以前のパイプラインは遺伝子発現についてはＲＰＫＭ測定に依存していたが、昨今のものはＲＳＥＭを使用している。）これらの異なるＲＮＡＳｅｑ分析パイプラインは、ＵＮＣによりそれぞれＶ１及びＶ２と呼ばれる（ｈｔｔｐｓ：／／ｗｉｋｉ．ｎｃｉ．ｎｉｈ．ｇｏｖ／ｄｉｓｐｌａｙ／ＴＣＧＡ／ＲＮＡＳｅｑ＋Ｖｅｒｓｉｏｎ＋２）。我々は、以下のＢＡＭ優先順位付けパイプライン、１）Ｖ１ＢＡＭよりもＶ２ＢＡＭを選択し、２）同一の事例について複数のファイルが存在した場合、より最近の更新日を有するＢＡＭを選択する、ということを用いて、同一のＴＣＧＡ試料について両方のフォーマットが利用可能である場合に単一の「一次ＢＡＭ」を選択した。

上に記載される特注のＳａｍＴｏＦａｓｔｑ変換器を、ＴＣＧＡＢＡＭファイルからＦＡＳＴＱファイルを生み出すために使用した。

単一末端ＲＮＡＳｅｑデータとしてのみ利用可能である、２つの癌のタイプ（ＣＯＡＤＲＥＡＤ、ＵＣＥＣ）が存在した。単一末端ＢＡＭファイルの変換のために、プログラム、ＢａｍＴｏｏｌｓ（ハイパーテキスト転送プロトコルセキュア：／／ｇｉｔｈｕｂ．ｃｏｍ／ｐｅｚｍａｓｔｅｒ３１／ｂａｍｔｏｏｌｓ）を使用して、ＦＡＳＴＱファイルを生成した。

単一末端データ及び対末端データの両方をサポートすることを目標に、我々は、ＴｏｐＨａｔを用いて全ての単一末端データを、ならびにｄｅＦｕｓｅを用いて全ての対末端データを処理した。

大まかに、我々の分析パイプラインは５つの主要なステップから成る：
・生データを前処理してＦＡＳＴＱファイルを得る
・融合コーラーを起動する
・目的とする遺伝子領域への区切り点をフィルタリングする
・Ｏｎｃｏｍｉｎｅ転写産物セットで区切り点をアノテートする
・潜在的に関心のある新規の融合を集約及び優先順位付けする。

ステップ１及び２を、高性能クラウドコンピューティングクラスター上で、全ての試料について同時に実行した。フィルタリング及びアノテーションを、集合データ上で後処理ステップとして実行して、様々なフィルター及びアノテーションスキームの効果の探索分析を可能にした。フィルタリング判定基準を終了して偽陽性融合を最小化した後（ステップ５）、Ｏｎｃｏｍｉｎｅ優先順位付け融合のリストを、ＲＮＡＳｅｑエクソン発現データで確認した。

ＴｏｐＨａｔ．ＴｏｐＨａｔ−Ｆｕｓｉｏｎを、ハイパーテキスト転送プロトコル：／／ｔｏｐｈａｔ．ｃｂｃｂ．ｕｍｄ．ｅｄｕの元から獲得した。ソフトウェア及び基準データ依存性は、ＴｏｐＨａｔの資料によって指定されるように構成した。

ソフトウェア：
ＴｏｐＨａｔ：２．０．４，ＴｏｐＨａｔ−ＦｕｓｉｏｎＰｏｓｔを含む（２０１２年４月９日公開）
ｂｏｗｔｉｅ：０．１２．８（２０１２年５月６日公開）
ｓａｍｔｏｏｌｓ：０．１．１８（２０１１年９月２日公開）
ｂｌａｓｔ（２．２．２６）（２０１２年３月３日公開）
ｂｌａｓｔ＋（２．２．２６）（２０１１年１０月２１日公開）

基準及びアノテーション：
基準ゲノム：ＵＣＳＣｈｇ１９（２０１２年５月にダウンロード）
遺伝子モデル：ｒｅｆＧｅｎｅ，ｅｎｓＧｅｎｅ（２０１２年５月にダウンロード）
ＢＬＡＳＴＤＢ：ｎｔ，ヒト，その他（２０１２年５月にダウンロード）

パラメーター：
我々は、ＴｏｐＨａｔ資料において指定されるように、単一及び対末端ＴＣＧＡＩｌｌｕｍｉｎａデータにおいて概ね初期パラメーターを用いてＴｏｐＨａｔを動作させた。以下は、使用されたパラメーターのリストである。

（表２５）

−−ｍａｔｅ−ｉｎｎｅｒ−ｄｉｓｔ及び−−ｍａｔｅ−ｓｔｄ−ｄｅｖパラメーターは初期値を有さない。第１のパラメーターはＲＮＡＳｅｑ対末端リードの予期される挿入サイズを特定し、一方で第２のパラメーターはその値の予期される標準偏差を特定する。ＴｏｐＨａｔの作者は、大部分のデータ集合について値０及び８０を推奨する。

（表２６）

ＴｏｐＨａｔ−Ｆｕｓｉｏｎを１回に１つの試料について実行し、ＴｏｐＨａｔ−ＦｕｓｉｏｎＰｏｓｔを直後に実行した。我々は、より深い分析を可能にするために、未フィルタリングのＴｏｐＨａｔ−Ｆｕｓｉｏｎ出力、及びフィルタリング済みＴｏｐＨａｔ−ＦｕｓｉｏｎＰｏｓｔ出力の両方を保持した。

ｄｅＦｕｓｅ．ｄｅＦｕｓｅを、ハイパーテキスト転送プロトコル：／／ｄｅｆｕｓｅ．ｓｆ．ｎｅｔの元から獲得した。ソフトウェア及び基準データ依存性は、ｄｅＦｕｓｅの資料によって指定されるように構成した。

ソフトウェア：
ｄｅＦｕｓｅ：０．５．０（２０１２年４月７日公開）
ｂｏｗｔｉｅ：０．１２．８（２０１２年５月６日公開）
Ｒ２．１５．０（２０１２年３月３０日公開）
ｂｌａｔ，ｆａＴｏＴｗｏＢｉｔ（２０１２年５月１日に獲得）

基準及びアノテーション：
基準ゲノム：ＥｎｓｅｍｂｌＧＲＣｈ３７．６２ｆａ（２０１２年５月にダウンロード）
遺伝子モデル：Ｅｎｓｅｍｂｌｇｔｆ（２０１２年５月にダウンロード）
ゲノムデータ：
ＵＣＳＣＥＳＴｆａｓｔａ，ＥＳＴａｌｉｇｎｍｅｎｔｓ，ａｎｄｒｅｐｅａｔｓ（２０１２年５月にダウンロード）
ＮＣＢＩＵｎｉＧｅｎｅ（２０１２年５月にダウンロード）

パラメーター：
我々は、ｄｅＦｕｓｅプログラム試料において指定されるように、初期パラメーターを用いてｄｅＦｕｓｅを動作させた。

（表２７）

ｄｅＦｕｓｅを１回に１つの試料について実行した。我々は、より深い分析を可能にするために、ｄｅＦｕｓｅ出力のフィルタリング済み及び未フィルタリングの結果の両方を保持した。

統合．我々は、「レベルＩ」データ、ＴｏｐＨａｔ−ＦｕｓｉｏｎＰｏｓｔのｐｏｔｅｎｔｉａｌ＿ｆｕｓｉｏｎ．ｔｘｔファイルからの出力、及びｄｅＦｕｓｅのｒｅｓｕｌｔｓ．ｃｌａｓｓｉｆｙ．ｔｓｖファイルからの出力を統合した。ｄｅＦｕｓｅは、このレベルにおいて、ＴｏｐＨａｔよりも多くの潜在的なコールを報告し、従ってまた、より多くの偽陽性予測も報告し得る。レベルＩデータを、コーラー内蔵のフィルタリングを活用することと、いくぶん脆弱な証拠を有する潜在的に本物の融合を特定するために十分な結果を許容することとの間のバランスをとるように選択した。

各コーラーは融合コールについて異なるレベルのアノテーション及び補強エビデンスを提供したため、両方のコーラーからの予測される融合の区切り点を抽出し、フィルタリング及びアノテーションのための共通のフォーマットに統合した。統合ステップは、報告された区切り点をゲノム座標系に基づくものに変換すること、及び共通のファイルフォーマットに整理することから成った。

区切り点フィルタリング．コーラーの「レベルＩ」出力からの予測される融合を、各区切り点がＲｅｆＳｅｑ転写産物（ＵＣＳＣから獲得した、ｒｅｆＧｅｎｅｃｉｒｃａＪｕｌｙ１８，２０１２）の５'ＵＴＲまたはＣＤＳ領域のいずれかにあるコールのみを保持するようにフィルタリングした。これは、機能的遺伝子領域を含有するものについて予測される融合を富化し、例えば、１つの遺伝子の３'ＵＴＲが別の遺伝子の３'ＵＴＲに融合することが予測される融合コールを取り除くために為された。ゲノムＤＮＡレベルにおいては、区切り点はイントロンにおいて発生し得るが、ＲＮＡＳｅｑデータにおいては、そのような区切り点は最も近いエクソン−イントロン境界において観察されるであろう。故に、イントロン中で発生することが予測される区切り点もまた除外された。

区切り点アノテーション．ＲｅｆＳｅｑ転写産物の５'ＵＴＲまたはＣＤＳ領域の外側の融合物を除外した後、ＲｅｆＳｅｑ転写産物からのアノテーションを、複数のＥｎｔｒｅｚＩＤに対してアノテートされたいくつかの予測を伴う残りの区切り点に移した。

区切り点の各対に対して、ＥｎｔｒｅｚＩＤ当たり１つの転写産物のみが保持された。複数の転写産物の場合、最も短い転写産物受入番号を有する転写産物を選択し、更に長さが同じである場合、受入番号を英数字順に整列させ、最初の受入番号を保持することで選択する。このスキームにより、同一の場所における区切り点をアノテートすることの一貫性が保証された。しかしながら、同一の遺伝子パートナーについての異なる場所における予測される区切り点は、依然として、代替的な転写産物の潜在的な根拠となる、遺伝子の対を表す複数の転写産物を結果としてもたらし得る。

コーラー自体から来る基本的なアノテーションは、各コーラーの初期状態のアノテーションソースに基づくため、それを破棄した。しかしながら、ＴｏｐＨａｔ及びｄｅＦｕｓｅ両方からのある特定の出力フィールドが、予測される融合の優先順位付けに役立たせるために保持された。加えて、コーラーによって明確に報告されていないある特定のアノテーション特性が、他のコーラー特性から推測された。

推測される特性．サポーティング及びスパニングリードカウントを各コーラーから獲得し、２つの列、リードスパン及びリードスパンサポートに集約した。後者の列は、融合物にまたがるリード、及び融合物をサポートするものの総体である（時々「スパニング及びサポーティングリード」と呼ばれる、ＴｏｐＨａｔの「１つの末端が融合物にまたがるスパニング複製対」のカウントと混同しないように）。

コーラーによって報告された区切り点配列を、融合物の各側において５０塩基を含むように調整し、１つの列、区切り点配列に統合した。融合区切り点を、「｜」によって線引きする。これはコーラーにより推測されたような区切り点配列であり、基準ゲノムから単に獲得されたわけではないことに留意されたい。推測される配列は、スパニングリードにより観察される実際の配列を反映し得るため、この配列は、基準ゲノム配列の相補体を表し得る。

どちらのコーラーも決定的な「５'−プライム」または「３'−プライム」フラグを提供しないため、我々は、融合パートナーの相対的な５'−３'配向を、コーラーパラメーターを遺伝子鎖アノテーションと組み合わせることによって推測する。ｄｅＦｕｓｅについては、遺伝子鎖及びｄｅＦｕｓｅ出力特性「ｇｅｎｏｍｉｃ＿ｓｔｒａｎｄ：」の以下の組み合わせに基づき、各パートナーについて配向を推測した。

（表２８）

ＴｏｐＨａｔは異なるメトリック、遺伝子パートナーにマッピングされるリードの相対的配向を報告するため、遺伝子の対についての５'−３'の順番を推測するための異なる規則集合が必要となる。

（表２９）

所与の遺伝子融合のコールについて推測される５'及び３'パートナーが存在した場合、有効な配向フィールドを「Ｙ」として標識した。

ＲｅｐｅａｔＭａｓｋｅｒアノテーション．各予測される区切り点の場所をまた、区切り点の近隣においてＲｅｐｅａｔＭａｓｋｅｒ特色でアノテートした。これは、調整誤差がキメラ転写産物の予測に影響を及ぼす可能性が高い、高度反復ゲノム領域における区切り点を特定するために為された。

具体的には、それぞれ、５'及び３'パートナー区切り点の２５ｂｐ配列上流または下流を、「区切り点フランク」として選択した。これらのフランクを、２０１２年８月２４日にＵＣＳＣＴａｂｌｅＢｒｏｗｓｅｒからダウンロードしたＲｅｐｅａｔＭａｓｋｅｒ要素集合（ハイパーテキスト転送プロトコル：／／ｗｗｗ．ｒｅｐｅａｔｍａｓｋｅｒ．ｏｒｇ／）に対して交差させた。我々は要素名、要素長、及び各区切り点についての２６塩基の区切り点隣接領域との重複の量を報告した。現在、ＲｅｐｅａｔＭａｓｋｅｒ要素は、特定の要素タイプ（ＬＩＮＥＳ、ＳＩＮＥＳ、単純反復等）についてフィルタリングされていない。

各融合予測について、我々は、ＲｅｐｅａｔＭａｓｋｅｒＯｖｅｒｌａｐフィールドを、区切り点隣接配列がＲｅｐｅａｔＭａｓｋｅｒ要素と重複する塩基の数と等しくなるように設定し、１２以上の塩基の重複を有意であるとみなした。有意に重複する融合コールの頻度を、重複が低頻度である遺伝子融合がより高い質であるとみなされるように、下に記載されるＯｎｃｏｍｉｎｅ優先順位付けにおいて使用する。

融合エクソン発現不均衡．ＲＮＡＳｅｑエクソン発現データを用いて融合を可視化して、区切り点コール前後のエクソン発現不均衡を探すことにより、真陽性融合事象の二次的証拠を提供した。特に、３'パートナーの発現が５'パートナーのプロモーター領域により強く影響される場合、エクソン発現はきっと、予測される区切り点の後に増加するであろう。この効果は、融合した患者試料を非融合の患者試料と比べて見た際に特に明らかである。

ＴＣＧＡエクソン発現データ．ＴＣＧＡエクソン発現データを、ＢｒｏａｄのＧＤＡＣＦｉｒｅｈｏｓｅサイトからダウンロードした。ＲＰＫＭＲＮＡＳｅｑ値は、ＲｅｆＳｅｑを含むいくつかの異なる遺伝子定義からのＵＣＳＣエクソンの複合体に対応する、遺伝子アノテーションフォーマット（ＧＡＦ）の特色として、各患者について列挙される。２１の疾患に関するデータをダウンロードした後、我々は、ＧＡＦ特色の４つの異なる集合が、ＲＰＫＭ発現をアノテートするために使用されていることを発見した。最後に、患者発現データの利用可能性は、上に記載されたＶ１及びＶ２ＲＮＡＳｅｑ分析パイプラインの疾患当たりで異なった。

これらの課題に対処するために、我々はまず、ＵＣＳＣＲｅｆＳｅｑエクソンを利用可能なＧＡＦ特色に対してマッピングし、各ＲｅｆＳｅｑエクソンとＧＡＦ特色との間の重複のパーセンテージを計算した。全てのＣＢＩ処理融合区切り点は、２０１２年７月１８日にダウンロードされたＵＣＳＣＲｅｆｇｅｎｅ定義にマッピングされており、ひいてはこれらの区切り点をＧＡＦ特色にマッピングせねばならないため、このステップは重要である。３９６，２９８個のＲｅｆＳｅｑエクソンの８０．８％が、下に示されるプロットにおいてＧＡＦ特色に対して完全にマッピングされる。我々は、最大の重複を結果として生じたＲｅｆｓｅｑエクソン及びＧＡＦ特色の対を選択し、それについて報告した。

ｒｇ＿ｐｃｔと呼ばれる値は、以下の式に基づいて、所与のＲｅｆＳｅｑエクソンのＧＡＦ特色とのマッピング質のメトリックを提供する。
ｒｇ＿ｐｃｔ＝重複／長さ_{ｒｅｆｓｅｑ}×重複／長さ_{ＧＡＦ特色}

ｒｇ＿ｐｃｔ値が１であるマッピングは完全に重複するが、１未満の値は、ＲｅｆＳｅｑエクソンまたはＧＡＦ特色が完全に同一のゲノム領域にはマッピングされず、ＲＰＫＭ値が疑わしい場合があることを示す。

我々は、Ｖ２データが利用不可能であったＳＴＡＤを除く全ての疾患について、ＲＮＡＳｅｑＶ２データを選択した。

細胞株エクソン発現データ．細胞株試料についてのエクソン発現データを、ＣＧＨｕｂから獲得したＣＣＬＥＢＡＭファイルから生成した。採用された方法は、ハイパーテキスト転送プロトコルセキュア：／／ｗｅｂｓｈａｒｅ．ｂｉｏｉｎｆ．ｕｎｃ．ｅｄｕ／ｐｕｂｌｉｃ／ｍＲＮＡｓｅｑ＿ＴＣＧＡ／ＵＮＣ＿ｍＲＮＡｓｅｑ＿ｓｕｍｍａｒｙ．ｐｄｆにおいて入手可能な「ＴＣＧＡｍＲＮＡ−ｓｅｑＰｉｐｅｌｉｎｅｆｏｒＵＮＣｄａｔａ」方法において説明されるステップ１８に類似した。

ＵＮＣの方法と我々の方法との間の違いは、我々の方法では、ＴＣＧＡが使用した複合体エクソンＢＥＤの代わりに、ＲｅｆＳｅｑエクソンＢＥＤを使用する点である。

エクソン発現不均衡計算．各試料を、３'パートナー発現における潜在的な５'プロモーター誘導不均衡について系統的に分析した。各遺伝子の発現レベルをまず対数尺に変換し、次いで各疾患の試料コホートにわたってｚスコア正規化した。この正規化は、例えば３'バイアスまたは貧弱なＲｅｆＳｅｑエクソン／ＧＡＦ特色の調和等の母集団全体の傾向を説明するために、エクソンレベルで実行した（下を参照）。

卵巣漿液性癌患者におけるＰＬＸＮＢ２１及びＣＯＬ７Ａ１についての生ＲＰＫＭ発現値（上）対ｚスコア正規化数（図８Ａ〜Ｄを参照）。エクソン１２、１７、及び２３でのＰＬＸＮＢ１における母集団全体の下落は正規化データにおいて平滑化される。これらの遺伝子間に融合を持つと予測される試料は赤で強調し、野生型患者は青で示す。赤い菱形がコーラーにより予測された区切り点のエクソンを示す。

正規化の前に、検討中の融合については野生型であるとみなされたが、遺伝子パートナーのうちの１つを伴う他の融合を持つと予測された試料を、ｚスコアの計算を汚染しないように、野生型集団から外した。

正規化後、試料の区切り点後正規化発現値（集団Ａ）が区切り点前値よりも高い平均を有する（Ｈ０：μＡ≦μＢ）という仮説に立つ片側スチューデントｔ検定を介して計算されたｐ値を各試料に割り当てた。コーラー予測した区切り点を使用して、融合コーラーのいずれかにより特定された試料についての発現集団を分離した。

ｐ値もまた、全体的な集団の構成における融合陽性試料についてのｐ値の分析を促進するために、各野生型試料について計算した。これにより、我々は融合により誘発されたわけではない母集団全体のエクソン不均衡傾向を提示する遺伝子を伴う融合を破棄することができる。任意の試料でそのｐ値が野生型試料のｐ値の上位部分に入らなかったものを破棄した。区切り点前及び後の発現レベル間の差異が最大化された区切り点を、野生型試料のｐ値計算のために使用した。

融合集約．融合を、固有の遺伝子対の発生に基づき、かつ個々の遺伝子のおそらくは複数のパートナーを伴う発生に基づく疾患内で集約した。

固有の融合対（ＥｎｔｒｅｚＩＤ対により固有）について、いずれかのコーラーによるその融合の少なくとも１つの予測を伴う疾患内の試料の数が、融合試料カウントである。遺伝子の同一の対についての複数の区切り点は、１つの試料において、及び試料にわたって報告され得るため、各疾患内の固有の融合対の数は、融合コールの総数よりも遥かに少ない。融合コールレベルよりもむしろ遺伝子対レベルにおいて融合をフィルタリング及び優先順位付けするために、融合コーラー特性のうちのいくつかを集約した。次の表は、個々の予測にわたる所与の融合パートナー対について集約された特性を示す。

（表３０）

遺伝子がゲノム上で１Ｍｂ未満離れている場合、融合について隣接フラグが設定され、これらの融合パートナーについて個々の融合予測の７５％以下においてｄｅｆｕｓｅ＿ｅｖｅｒｓｉｏｎフラグが設定される。

遺伝子レベルの要約．融合試料カウントもまた、各疾患タイプ内及び疾患にわたって（汎癌）、遺伝子レベルで（ＥｎｔｒｅｚＩＤにより固有）集約した。この集約手法は、融合内の推測される配向とは関係なかった。加えて、融合試料カウントを、Ｏｎｃｏｍｉｎｅ優先融合についてのみ勘定した（下に記載）。

個々の固有の融合対を、ゲノム異常性のＭｉｔｅｌｍａｎデータベース（ハイパーテキスト転送プロトコル：／／ｃｇａｐ．ｎｃｉ．ｎｉｈ．ｇｏｖ／Ｃｈｒｏｍｏｓｏｍｅｓ／Ｍｉｔｅｌｍａｎ）に対して相互参照した。疾患のタイプではなく、遺伝子名に基づき調和を為した。故に、ある特定の疾患においてＭｉｔｅｌｍａｎで報告される遺伝子融合は、ＴＣＧＡデータベースにおいては異なる疾患のタイプで発生した可能性がある。

遺伝子レベルで集約された遺伝子融合を、遺伝子名に基づき、Ｍｉｔｅｌｍａｎデータベースに対して相互参照した。したがって、Ｍｉｔｅｌｍａｎにおいて報告されるような遺伝子が異なる組織像のものであるか、または完全に異なる異常性のタイプである（例えば、大染色体レベルの、融合ではなく欠失）可能性が、予測される固有の融合対よりも高く存在する。

正常試料融合ブラックリスト．ＴＣＧＡ正常試料においてコールされる全ての融合は偽陽性であるという仮定に基づき、我々は以下の疑問、１）腫瘍試料における融合コールは正常試料において特定されるか、２）腫瘍試料において特定されたＯｎｃｏｍｉｎｅ優先順位付け融合は正常試料においても特定されるか、を質した。第１の質問に回答することは、腫瘍遺伝子融合コールにおける技術的な偽陽性率の基線となる感覚を提供する。第２の質問は、Ｏｎｃｏｍｉｎｅ優先融合フィルターがこの問題をどの程度克服しているかについての、異常が無いかを確かめるチェックである。１０の疾患にわたる３３４個の対末端正常試料をダウンロードし、上に説明された同一のｄｅＦｕｓｅパイプラインを用いて処理した。６，０２４個の固有の融合から成る総計５６，５７９個の総融合コールが観察された。これらの正常試料融合コールを使用してブラックリストを作成し、それらの偽陽性のものをＯｎｃｏｍｉｎｅ優先遺伝子融合から取り除いた。

パラロガス融合パートナーブラックリスト．パラロガス遺伝子ファミリーメンバー間の融合のブラックリストを、２つの方策、１）高頻度融合パートナー遺伝子名を手作業で検査すること、及び２）全ての優先融合パートナー遺伝子名の最初の３文字を比較することを用いて集めた。後者の方策において、融合パートナーは、最終的なブラックリストに包含する前に、ＨｏｍｏｌｏＧｅｎｅ、Ｅｎｓｅｍｂｌ、ＳＩＭＡＰ、及びＧｅｎｅＤｅｃｋｓＶ３を用いて「パラロガス」であることが実証された。下の表は、パラロガス融合パートナー間で最も一般的に観察された上位１０個の遺伝子融合を示す。この表全体は４００個を超える固有のパラロガス遺伝子融合から成り、我々のＯｎｃｏｍｉｎｅ優先遺伝子融合からそれら偽陽性のものを取り除くために使用する。

（表３１）

融合優先順位付け−Ｏｎｃｏｍｉｎｅ優先スキーム．下に概説されるＯｎｃｏｍｉｎｅ優先スキームは、先に発見された「真陽性」（Ｍｉｔｅｌｍａｎ）の融合を保持しながら、レベルＩ融合予測における上位の結果の反復する探索、及び疑わしい偽陽性の融合を系統的に排除することにより設計された。このスキームは、「真陽性」融合の予期されるある特定の特色に一致し、反対に多くの「偽陽性」融合において観察される特色を欠く融合を強調することを意図した。

以下の場合、融合はＯｎｃｏｍｉｎｅ優先融合である。

（表３２）

実施例６：ＯｎｃｏｍｉｎｅＮＧＳ変異方法
変異統合．データ統合の目的は、現在利用可能であるＮＧＳ変異データの最も完全な集合を作成することであった。我々は以下のソースを考慮した。
・ＰｒｉｍａｒｙＤａｔａＳｏｕｒｃｅｓ
・ＣＯＳＭＩＣＣｅｌｌＬｉｎｅｓＰｒｏｊｅｃｔ
・ＢｒｏａｄＧＤＡＣＭｕｔａｔｉｏｎ＿Ｐａｃｋａｇｅｒ（標準データ構築体）からのＴＣＧＡＤａｔａ
・ＤＣＣレベル２からのＴＣＧＡＤａｔａ
・ＴＣＧＡＤａｔａに基づくＣｏｍｐｅｎｄｉａ変異コール
・ＮＧＳ変異データを含む刊行物
・ＣＯＳＭＩＣＣｅｌｌＬｉｎｅｓＰｒｏｊｅｃｔ

ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＰｒｏｊｅｃｔは、変異について１０００を超える癌細胞株のエクソームを特徴付けている。データベースは、質についてフィルタリングされた変異データを、フラットファイル形式で提供する。細胞株データは、臨床変異データのために使用される、同一のＯｎｃｏｍｉｎｅ精選及びアノテーション処理に供された。細胞株名を、Ｏｎｃｏｍｉｎｅオントロジーを用いて精査し、癌タイプを、臨床変異データと比較可能であるように標準化した。

データ集合を、２０１３年１１月に現れたＷｅｌｌｃｏｍｅＴｒｕｓｔＳａｎｇｅｒＩｎｓｔｉｔｕｔｅＣｅｌｌＬｉｎｅｓＰｒｏｊｅｃｔのウェブサイト、ハイパーテキスト転送プロトコル：／／ｃａｎｃｅｒ．ｓａｎｇｅｒ．ａｃ．ｕｋ／ｃａｎｃｅｒｇｅｎｏｍｅ／ｐｒｏｊｅｃｔｓ／ｃｅｌｌ＿ｌｉｎｅｓ／から獲得した。

ＢｒｏａｄＧＤＡＣＭｕｔａｔｉｏｎ＿Ｐａｃｋａｇｅｒ．Ｂｒｏａｄは、２０１３年第３四半期以来、複数のソースからの変異データの収集及び統合に取り組んでいる。

ｈｔｔｐｓ：／／ｄｏｃｓ．ｇｏｏｇｌｅ．ｃｏｍ／ｄｏｃｕｍｅｎｔ／ｄ／１８ＸｌＷｖ−ａ９ｘＬＢＯｆｌＮｉｋＯａ９ｒＣＸＯｙｉｒａｖＭＭ８＿−ＰＶＪｘＡＱＰＰｏ／ｅｄｉｔ

上の文書は、ＢｒｏａｄがＭｕｔａｔｉｏｎ＿Ｐａｃｋａｇｅｒ標準データランに統合するＭＡＦファイルの起源を詳述する。Ｂｒｏａｄは、中心的なＴＣＧＡＤＣＣシステムの外で、多くの場合ＡｎａｌｙｓｉｓＷｏｒｋｉｎｇＧｒｏｕｐのメンバー自体によって維持される多くのＭＡＦファイルを統合してきた。我々は、我々が入手可能な全てのＭＡＦファイル間で大規模な比較を実行した。我々は、Ｂｒｏａｄが利用可能で最も完全な変異データを有すると考える。

この発表のために、我々は２０１３＿０８＿０９標準データ構築体からのデータを統合した。

ＴＣＧＡＤＣＣＬｅｖｅｌ２．これは、ＤＣＣから入手可能な制御アクセス変異データである。ＴＣＧＡは、入手可能なＭＡＦファイルについての追加的な詳細を提供するそのｗｉｋｉ上にページを有する。

ｈｔｔｐｓ：／／ｗｉｋｉ．ｎｃｉ．ｎｉｈ．ｇｏｖ／ｄｉｓｐｌａｙ／ＴＣＧＡ／ＴＣＧＡ＋ＭＡＦ＋Ｆｉｌｅｓ

この発表のために、我々は２０１３年９月１５日時点で入手可能な全てのＭＡＦファイルを考慮した。

ＣｏｍｐｅｎｄｉａＮＧＳＤＮＡＳｅｑ変異コール．我々は、ＴＣＧＡから入手可能なＰＲＡＤ変異コールが低品質であり、偽陽性「機能獲得型」予測を結果としてもたらすと考えた。故に、この疾患に関する全てのコールは、Ｃｏｍｐｅｎｄｉａ自身の変異コールパイプラインを出所とした。Ｃｏｍｐｅｎｄｉａ変異コールを、統合のためにＭＡＦファイルフォーマットに適合するようにした。更なる詳細については、付録書類、ＣｏｍｐｅｎｄｉａＮＧＳＤＮＡＳｅｑＭｕｔａｔｉｏｎＣａｌｌｉｎｇを参照されたい。この発表には、１７０人の前立腺腺癌患者が含まれる。

全てのＮＧＳデータの手作業精選．ＴＣＧＡ及び非ＴＣＧＡＮＧＳデータベースは、Ｏｎｃｏｍｉｎｅ精選チームによってそれらの一次ソース、主に査読された癌の刊行物及び上の一般にアクセス可能なデータベースから直接供給された。通常ＳｕｐｐｌｅｍｅｎｔａｒｙＭａｔｅｒｉａｌにおいて入手可能な変異データを、全体的なＮＧＳ変異処理パイプラインの一部としての変異再アノテーション及び分類にとって必要とされる基準まで導いた。癌のタイプは、Ｏｎｃｏｍｉｎｅ癌タイプオントロジーを用いて、公表において存在する最善の入手可能な臨床メタデータに基づき適切なＯｎｃｏｍｉｎｅ癌タイプを割り当てることで精選した。全ての公開された実験は全ゲノム（「ＮＧＳ」）範囲を主張しているため、各データ集合についての空遺伝子集合は、全てのヒトＲｅｆＳｅｑ遺伝子を含むことが想定された。非ＴＣＧＡデータは、残りの変異分析パイプラインにおいてＴＣＧＡＭＡＦファイルデータと正に同一の方法で処理した。

重複する変異の除去．我々は、いくつかの単純な除去作業を実行して、ソースデータ中に存在する重複する変異記録を除去した。我々はまた、ソースのうちの多くがＭＡＦファイル基準に忠実でないため、いくつかのファイル−列名の再マッピングを実行した。同一の患者試料の様々な腫瘍／正常分割量対からの重複する変異を除去した。

変異アノテーション．ＴＣＧＡ及び非ＴＣＧＡソースから獲得したデータは、数年間にわたって異なるゲノムシーケンシングセンターまたは作者によって処理及びアノテートされたデータ集合からの変異結果を含む。これが、異なる遺伝子モデルを用いて、ならびに変異型分類についての異なる慣習を用いてアノテートされた変異コールにつながる。Ｃｏｍｐｅｎｄｉａの変異の定義に対する手法は正確な変異型アノテーションに依存するため、我々は、転写産物の単一の集合及び一貫した変異型分類の規則を用いて変異を再アノテートした。標準的なアノテーションパイプラインは、疾患のタイプにまたがる変異が一貫して評価され、潜在的な発癌遺伝子または腫瘍抑制遺伝子の指名中に一般的な解釈を受けることを保証した。またそれは、ＨＧＶＳ型変異用語法（例えばＶ６００Ｅ）等の、一次ソースから一貫して入手可能なわけではないアノテーションを提供した。

一次ソースから獲得した変異は、以下の一般的ステップに従って、Ｃｏｍｐｅｎｄｉａによって処理された（詳細は以下に提供される）。

我々はまず、ＣｏｍｐｅｎｄｉａのＯｎｃｏｍｉｎｅ転写産物セットを用いて各変異を再アノテートする。成功裡にアノテートされた変異が、Ｃｏｍｐｅｎｄｉａ由来のアノテーションを受容し、残りは一次ソースから得られたアノテーションを保持する。アノテーションは以下を含む。
・変異型分類
・変異型位置
・変異型変化

いくつかのフィルタリングステップを実施して、複数の転写産物、及び目的の遺伝子領域の外側に位置する変異における冗長アノテーションを取り除く。

「超変異誘発物」試料の除外．子宮内膜癌等のある特定の疾患において、いくつかの高度に変異した試料が全体の変異カウントで優位を占める場合がある。我々はまた、そのような「超変異誘発物」試料を、肺腺癌、胃癌、黒色腫、及び結腸直腸癌において観察した。いくつかの癌のタイプにおける超変異誘発物の異常値を分析することによって決定されたカットオフに基づき、我々は５，０００未満の非サイレントエクソン変異を我々の再発分析における試料の包含のための閾値として決定した。故に、我々は、このデータ集合中のいくつかの「超変異誘発物」試料を下流分析パイプラインから除外した。

変異アノテーションステップにおいて、我々は、一次ソースから獲得した変異を、Ｃｏｍｐｅｎｄｉａによってコンパイルされた標準転写産物セットを用いて再アノテートしようと試みた。この転写産物セットは、２０１２年２月１９日にＵＣＳＣから獲得した、ｈｇ１８及びｈｇ１９ゲノム構築体からのＲｅｆＧｅｎｅ転写産物を含んだ。

各変異を、特定されたゲノム構築体内のＯｎｃｏｍｉｎｅ転写産物セットにおけるコンティグを用いて個別にマッピングする。ＳＮＰ変異はそれらの開始場所に直接マッピングし、一方で小さな挿入（ＩＮＳ）及び欠失（ＤＥＬ）変異については目的とする位置をマッピングのために選択する。挿入については、目的の位置は、挿入が発生した塩基である。転写産物の向きに依存して、遺伝子がプラス鎖またはマイナス鎖上にあるかどうかに応じて、それぞれ、これは変異の開始座標または終了座標のいずれかであり得る。欠失については、目的の位置は、転写産物がプラス鎖上にある場合欠失した塩基であり、転写産物がマイナス鎖上にある場合最後の塩基である。この調整により、変異位置は、転写産物翻訳の向き、すなわち５'→３'に関して挿入／欠失により影響を受けた第１の塩基として定義されることが保証される。

転写産物に成功裡にマッピングされた変異については、Ｃｏｍｐｅｎｄｉａ変異アノテーションを、その転写産物に関して推測した。マッピングできなかった変異については、一次データソースからのアノテーションが保持され、ホットスポット計算のための変異型位置を、ゲノム座標に基づき構築した（更なる詳細は下）。我々の転写産物セットに含まれるのは２３の染色体の標準セットのみであったため、ミトコンドリアまたは他の非標準コンティグ上に位置する変異はマッピングされなかった。

下が、Ｏｎｃｏｍｉｎｅ転写産物セットにマッピングされる変異をアノテートする際に使用される判定基準の説明である。

変異型分類．転写産物に成功裡にマッピングされた各変異について、変異型分類を、変異及びアノテーション特性の組み合わせを用いて推測した。我々の手法は、全て転写産物内に位置する、６つの主な変異の変異型分類を特定した。遺伝子領域の外側（例えば、遺伝子間）の変異についての変異型分類は、今のところ考慮されない（下のフィルタリングセクションを参照）。以下が、変異型分類を推測するために使用された判定基準である。

（表３３）

変異型分類のこのリストは、ＭＡＦファイルフォーマットのための、ＴＣＧＡによって指定された、許容される変異型分類のサブ集合である。

ｈｔｔｐｓ：／／ｗｉｋｉ．ｎｃｉ．ｎｉｈ．ｇｏｖ／ｄｉｓｐｌａｙ／ＴＣＧＡ／Ｍｕｔａｔｉｏｎ＋Ａｎｎｏｔａｔｉｏｎ＋Ｆｏｒｍａｔ＋％２８ＭＡＦ％２９＋Ｓｐｅｃｉｆｉｃａｔｉｏｎ

このサブ集合は、再発分析及び潜在的な機能獲得型または機能損失型遺伝子の特定のための目的の変異クラスを網羅し、したがってＯｎｃｏｍｉｎｅ転写産物セットにマッピングされる変異の大多数にとって十分である。以下の表は、元々の作者の分類に対して割り当てられる適当な変異型分類（変異は分類を定義する際に使用されたものと同一の転写産物にマッピングされると想定する）、及びソースデータ集合におけるそのタイプの変異の相対存在量を説明する。

（表３４）

変異型位置．現在の分析の主要な目的のうちの１つは、ホットスポット変異を伴う遺伝子を特定することであり、これらのホットスポット変異は、複数の腫瘍試料において同一の場所で観察されるある特定の分類の変異である。効果的に再発を特定し、各変異についてのホットスポットを画定するために、我々は、変異位置、影響を受けるアミノ酸または塩基の同一性、及び変異型分類を包括する変異点識別子を構築しなければならない。我々は、それらが生み出す特定の塩基変化に関係なく同一の場所で発生する変異を集計した。故に、我々は基準塩基またはアミノ酸のみを、変異型位置を画定するために使用した。これにより、同一のコドンまたはゲノム位置に影響を及ぼす変異が、それらがもたらす代替対立遺伝子が異なる場合でも、潜在的なホットスポットに向けて数に含められることが保証される。例えば、所与の遺伝子について、ミスセンス変異Ｖ６００Ｅ、Ｖ６００Ｆ、及びＶ６００Ｇは全て、変異型位置Ｖ６００を有し、したがってホットスポット変異を特定するときに一緒に集計されることになる。したがって、我々の変異型位置は以下のように定義される。

変異型位置＝変異点｛塩基｜コドン｝＋基準｛塩基｜ＡＡ｝＋［変異型分類］

変異がコード領域中である場合、コドン数及び目的の塩基におけるそれぞれのアミノ酸を使用して、変異点、例えばｐ．Ｌ１１６＿インフレーム欠失を特定する。変異が例えばＵＴＲ等の非コード領域中である場合、目的の塩基における基準ヌクレオチドの位置及び同一性を使用して、変異点、例えばｃ．＊１１０Ｃを特定する。

コード領域の外側のスプライス部位変異については、変異型位置は、スプライス境界に関して特定される。相対位置は、＋｛１｜２｝または−｛１｜２｝を用いて特定される（スプライス部位変異は、スプライス部位の２塩基以内のものである）。挿入及び欠失と同様に、接尾語「＿スプライス部位」をスプライス部位変異については付加する。挿入及び欠失変異については、インフレームを示す接尾語（「＿インフレーム挿入」または「＿インフレーム欠失」）を変異型位置に付加する。

要約すると、以下が異なる潜在的な変異型位置フォーマットの例である。

（表３５）

Ｏｎｃｏｍｉｎｅ転写産物セットにマッピングされず、それ故に転写産物に基づいた場所を有さない変異については、ゲノムの場所（開始位置）及び基準ヌクレオチド（基準対立遺伝子）を、コード領域またはスプライス部位の近接性に関係なく変異型位置として使用する。次いで、一次データにより供給される変異型分類を接尾語として付加する。例えば、ＳＮＰミスセンス変異は、「ｃｈｒ１９＿ｃ．Ｃ２２９５２７５６＿ミスセンス変異」等の変異型位置を有することになり、スプライス部位ＳＮＰは、変異型位置「ｃｈｒ１＿ｃ．Ａ１５５０２５０９４＿スプライス部位」を有することになる。これらの変異についての変異型変化（下を参照）は画定しない。

変異型位置の接尾語は、多くの場合変異型分類を暗に組み込んだが、ホットスポットを計算する際、変異型位置及び変異型分類の両方が、変異を集計するために明白に使用される。したがって、同一の変異型位置を生成し得るが異なる変異型分類を有する変異（例えばミスセンス及びナンセンスＳＮＰ等）は別個に勘定した。

変異型変化．変異型変化は、変異の代替対立遺伝子変化についてのＨＧＶＳ様情報を提供する。コード領域におけるＳＮＰ変異については、変異型変化は、代替アミノ酸を示す、完全なＨＧＶＳタンパク質レベル配列変異型の種類である。コード領域の外側のＳＮＰについては、代替対立遺伝子ヌクレオチド塩基が提供される。

挿入及び欠失変異型タイプについては、変異型位置（上を参照）を変異型変化として使用した。このような場合、アミノ酸レベルにおける変化の結果は推測しない。したがって、挿入／欠失についての変異型変化は、ＨＧＶＳ仕様書に厳密に従うわけではない。

以下は、Ｃｏｍｐｅｎｄｉａ由来の変異アノテーションについての変異型変化の例証的な例である。

（表３６）

Ｏｎｃｏｍｉｎｅ転写産物セットにマッピングされない変異については、一次データソースからの変異型分類を保持した。

転写産物フィルター．複数の転写産物、それ故に遺伝子内の単一の変異に関する複数のアノテーションを回収することを回避するために、我々は、１つの遺伝子につき変異当たり１個の転写産物（固有のＥｎｔｒｅｚＩＤ）のみを保持した。変異が遺伝子のいくつかの転写産物にマッピングされた場合、１つのみを選択した。しかしながら、変異がいくつかの遺伝子にマッピングされた場合は、遺伝子当たり１つの転写産物を選択した。したがって、変異が２つの異なるアノテーションを受容することは可能であるが、これはアノテーションが異なるＥｎｔｒｅｚＩＤを持つ転写産物に由来した場合のみである。

我々は、以下の優先度スキームに基づき、変異に関する代表的な転写産物を選択した。
最も影響の強い変異型分類を伴う転写産物：
・コードにおける強い影響：ミスセンス、ナンセンス、ノンストップ、フレームシフト
・コードにおける弱い影響：インフレーム、サイレント
・コード領域の外側：スプライス部位、３'または５'ＵＴＲ、非コードエクソン
・エクソンの外側：イントロン。

優先度が同じである場合、最も（長さが）短いＲｅｆＳｅｑ転写産物受入番号を持つ転写産物を選択し、更に長さが同じである場合、英数字で最も小さい転写産物受入番号を持つものを選択する。例えば、ＴＴＮ遺伝子に関する転写産物ＮＭ＿００３３１９、ＮＭ＿１３３３７８、及びＮＭ＿００１２５６８５のうちで、我々は代表的な転写産物としてＮＭ＿００３３１９を選択することになる。

これらのステップにより、我々は、１つの場所での同一のタイプの変異に関する一貫した転写産物を、繰り返し選択することができる。最も影響の強い転写産物を選択することの１つの意義は、複数の転写産物は、単一の遺伝子中の複数の場所での変異に関して活用される場合があることである。しかしながら、このスキームの利点は、同一の場所における同一の変異型分類の任意の変異が、同一の転写産物にいつも割り当てられ、それ故にホットスポット特定についての再発を計算するとき、基準の同一のフレーム中にあることになることである。

変異クラス及びタイプによるフィルター．全ての変異を、変異型タイプ及びクラスによって更にフィルタリングした。遺伝子機能分析に目的度の低い変異を包含することを回避するために、我々は、遺伝子領域に分散しなかった変異を、それらが転写産物の外側で有意に離れて包含されたか、またはＲｅｆＳｅｑ遺伝子と関連付けられない場所にあったかどちらかの理由で、取り除いた。これらの変異は、遺伝子識別子（ＥｎｔｒｅｚＩＤ＝０または空欄）、または以下の変異型クラス、イントロン、５'フランク、ＩＧＲ、及びｍｉＲＮＡにおけるメンバーシップのいずれかのそれらの欠損によって明白であった。

我々はまた、ＤＮＰ、ＴＮＰ、ＯＮＰ、Ｃｏｍｐｌｅｘ置換、及び挿入欠失を伴う変異を、それらのアノテーションは我々のパイプラインによってサポートされていなかったため、取り除いた。

ある特定のデータソースは大規模な量のイントロン及び遺伝子間変異を含むため、このフィルタリングステップは、多くのＮＧＳデータ集合がこれらのフィルターを公開前に適用しないことから、データ集合のサイズを有意に低減する。

変異の、ホットスポット、有害、またはその他としての分類．我々の分析パイプラインにおける次のステップは、複数の試料中の再発変異を、それらの変異型位置に基づき特定し、それらをホットスポット、有害、またはその他の変異型区分に類別した。このステップ、及びこれに続く頻度計算のために、各疾患タイプについての変異を、独立して処理した。同一の変異型分類の変異のみを共に勘定し、したがって、例えば同一位置でのミスセンス変異及びサイレント変異を別個に数える。

ドライバー事象を特定するために、所与のＥｎｔｒｅｚＧｅｎｅＩＤについての各変異を、「有害」または「ホットスポット」として、以下の判定基準に応じて類別した。

変異は、それが３つ以上の腫瘍試料において同一の変異型位置で観察された場合、「反復性」とみなした。

変異は、それが、
・反復性であり、かつ
・以下の変異型分類、
インフレーム挿入／欠失
ノンストップ
ミスセンス
非コードエクソン
のうちの１つでアノテートされる場合、「ホットスポット」変異型区分に属する。

変異は、それが、
・非反復性であり、かつ
・以下の変異型分類、
フレームシフト挿入／欠失
ナンセンス
のうちの１つでアノテートされる場合、「有害」区分に属する。

変異は、それが上の判定基準に適合しなかった場合、「その他」の変異型区分にあるとみなされる。

Ｏｎｃｏｍｉｎｅ変異分類及び変異型分類を、遺伝子レベルでの様々な変異の相対頻度を集約するために使用することができる。

「機能獲得型」及び「機能喪失型」遺伝子の指定．個々の遺伝子を、予測される機能クラス、すなわち「機能獲得型」、「反復性のその他」、及び「機能喪失型」に、潜在的な活性化または有害変異におけるそれらの相対的富化を反映するように分類した。この分類を為すために使用されたスキームの詳細が下に提供される。

変異試料頻度計算．各遺伝子についての変異頻度を、疾患のタイプ内の全ての試料にわたって、所与の変異型分類及び変異型区分に関して計算した。疾患内の遺伝子についての全体的な変異頻度を、全ての変異型分類の変異を組み合わせることにより計算した。

全体的な変異頻度．遺伝子についての全体的な変異頻度を、その遺伝子の任意の変異型分類のうちの少なくとも１つの変異を伴う試料の総数（変異試料カウント）を、所与の癌のタイプにおける試料の総数（試料カウント）で割ることで獲得した。

ホットスポット頻度．遺伝子についてのホットスポット頻度を、「ホットスポット」Ｏｎｃｏｍｉｎｅ変異分類に属する少なくとも１つの変異を伴う試料の総数を、変異試料カウント、つまり所与の遺伝子についての少なくとも１つの変異を伴う試料の総数で割ることで獲得した。試料が例えばホットスポットミスセンス及びホットスポットインフレーム欠失の両方を有した場合、それは１回のみカウントされることになる。

ホットスポットミスセンス頻度．遺伝子についてのホットスポットミスセンス頻度を獲得するために、「ホットスポット」のＯｎｃｏｍｉｎｅ変異分類を伴う少なくとも１つのミスセンス変異を含む試料の数を、変異試料カウント、つまりこの遺伝子における任意のタイプの少なくとも１つの変異を伴う試料の数で割った。そのようなタイプの２つ以上の変異を伴う試料は、１回のみカウントした。

有害頻度．遺伝子についての有害頻度を獲得するために、「有害」のＯｎｃｏｍｉｎｅ変異分類を伴う少なくとも１つの変異を含む試料の数を、変異試料カウント、つまり所与の遺伝子についての少なくとも１つの変異を伴う試料の数で割った。そのタイプの２つ以上の変異を伴う試料は、１回のみカウントした。

その他の頻度．遺伝子についてのその他の頻度を獲得するために、Ｏｎｃｏｍｉｎｅ変異分類「その他」を伴う少なくとも１つの変異を有する試料の総数を、変異試料カウント、つまり所与の遺伝子についての少なくとも１つの変異を伴う試料の総数で割った。試料が例えばスプライス部位及びＵＴＲ変異の両方を含んだ場合、それは１回のみカウントされることになる。

ホットスポット、その他、及び有害頻度の検討．ホットスポット、その他、及び有害頻度は、試料がこれらの区分のうちの２つ以上でカウントされた場合があるため、加算して１００％になると予期されるべきではない。

ホットスポット及び有害変異の有意性の評価．疾患内の各遺伝子についてのホットスポット及び有害ｐ値を、２つの独立する方法で計算する。

有害変異富化の有意性．遺伝子が有害変異について他の遺伝子と比較して有意に富化されたかどうかを評価するために、バックグラウンド変異率を考慮し、我々は、以下の分割表を用いてフィッシャー直接検定を実行した。

（表３７）

ここで、Ａ、Ｂ、Ｃ、及びＤは、疾患にわたる変異のカウントである。ナンセンス変異、フレームシフト挿入、及びフレームシフト欠失を有害変異として分類し、一方で任意の他のタイプ（ＵＴＲ、サイレント、ミスセンス等、しかし非遺伝子間ではない）をその他としてカウントする。

Ｑ値を、有害変異を伴う遺伝子の数（Ｎ）をカウントすること、及び各関連性の等級を計算することにより各疾患内で計算する。このとき、所与のｐ値についてのｑ値は、Ｑ＝ｐ×Ｎ／等級である。

反復性ホットスポット変異の有意性．遺伝子特異的ｐ値を計算するために、その遺伝子上の最も反復性のホットスポットの有意性を評価する。各配列位置は等しく変異する可能性があるという過程を考慮すると、各遺伝子は、最も反復性のものが予期されるものよりも有意に大きいかどうかを多項式試験を用いて試験され得る。これは、以前の版において実施されたサンプリングアルゴリズムの直接検定である。この検定の利点の１つは、ｐ値の正確さが１Ｅ−１６に増加されるため、フロアリングが発生しないことである。ホットスポット変異を獲得するために、我々は、コード配列に影響を及ぼさない任意のものを取り除くために（すなわち、サイレント、ＵＴＲ、停止コドン、及びスプライス部位変異を取り除くことによって）変異をフィルタリングし、次いで我々がＲｅｆＳｅｑ転写産物識別子でアノテートできなかった遺伝子についての変異データを取り除いた。次いで、我々は、各疾患において各転写産物について観察された変異をカウントした。我々は、ＣＤＳ長を３で割り、１引くことで、アミノ酸配列の長さを計算した。

ｐ値の正確な計算は以下のように構成される。アミノ酸配列の長さｘ、ホットスポット変異の観察された数ｎ、各遺伝子について最も反復性である点においてｒ個以上の変異を観察する可能性はどれくらいかを考慮すると、ｐ値は以下の式によって計算される。

ここで、ｙ_(（Ｘ）)は最も反復性のホットスポットにおける変異カウントであり、ｙ_１、...、ｙ_Ｘは各点１、...、ｘにおける変異カウントを意味する。

ｎ及びｘが大きい場合、上の式は大変緩徐になり得、ボンフェローニ・マローズ（ＢＭ）境界による近似値を使用した。

ここでｙ_ｉは平均値ｎ／ｘを伴うポアソン確率変数であり、

であり、ここでＹは切断ポアソンである。Ｐ（Ｗ＝ｎ）は、エッジワース展開により推定される。ｐ値のボンフェローニ・マローズの上限及び下限は、

である。

近似値がＢＭ境界の外側に入る場合、下限または上限のいずれかを使用した。こういったことは我々のデータにおいてほとんど起こらず、小さいｐ値（ｐ＜１ｅ−１６）または大きいｐ値（ｐ≒１）の場合に大体起こった。

Ｑ＝ｐ×Ｎ／等級であるベンジャミン・ホッホバーグ法を用いてＱ値を計算し、ここでＮは転写産物の数であり、等級は各ｐ値の等級である。

サイレントホットスポット変異．反復性サイレント変異、つまりサイレントホットスポットは、低い配列の質の領域において発生し、近隣のヌクレオチドにおける偽陽性ミスセンス変異ピークにとっての「炭鉱のカナリア」として働いて、シーケンシングの誤差の指標のようである。サイレントホットスポットを伴う遺伝子の再吟味、及び近隣のサイレントピークの評価に基づき、我々は、それらの遺伝子は系統的シーケンシング誤差を受け、それらの遺伝子におけるホットスポット変異はきっと遺伝子分類に寄与しないであろうと考える。

Ｏｎｃｏｍｉｎｅ遺伝子分類規則．いったん変異が分類されたら、個々の遺伝子を３つのクラス、「機能獲得型」、「機能喪失型」、及び「反復性のその他」のうちの１つとして指定する。この分類は、遺伝子中において観察される変異の相対頻度及び有意性の組み合わせに基づく。遺伝子当たりの変異の有意性は、ｐ値により評価される。

反復性サイレント変異．「機能獲得型」遺伝子は、相対的に高頻度のホットスポットミスセンス変異、及び低頻度の有害変異を有することになり、一方で「機能喪失型」遺伝子は、大部分の有害変異を含有する。「反復性のその他」の遺伝子は、反復性挿入／欠失変異を含む傾向があり、これらのうちの一部、例えば１つの塩基の反復性フレームシフト挿入欠失は、局所的な調整誤差から生じ得る、潜在的な偽陽性コールの兆候を提示する。概して、我々は、機能獲得型／機能喪失型として分類された遺伝子の機能的重要性についてより確信している。

汎癌分析．疾患にわたる変異を集約するために、我々は、疾患内分析について我々が行ったものと同一であるが、疾患によって変異記録を階級化しない計算を実行した。全ての変異記録を集計し、頻度、変異型区分、及び遺伝子クラスをこの汎癌構成において計算した。汎癌要約のために、遺伝子（ＥｎｔｒｅｚＩＤにより固有）を全ての疾患にわたって、疾患当たり１つの列で要約した。しかしながら、疾患内の遺伝子の要約もまた提供されるが、汎癌の構成では提供されない。これは、例えば、ホットスポット変異を伴う試料は疾患内で総計されるが、汎癌の構成においてホットスポットとみなされる変異についてのみであることを意味する。２０未満の試料を有する癌のタイプは少ない試料カウントによって疾患内分析について適格ではなかったが、それらを汎癌分析に含めた。

細胞株アノテーション．細胞株変異データは、変異及び遺伝子分類を除いて、上に記載される同一のＯｎｃｏｍｉｎｅ精選及びアノテーション処理に供された。代わりに、細胞株中の変異が臨床試料においても観察された場合はいつでも、細胞株からの変異をＯｎｃｏｍｉｎｅ変異分類及び遺伝子分類でアノテートした。このアノテーションは、ホットスポットまたは有害またはその他のＯｎｃｏｍｉｎｅ変異分類を有する変異についてのみ実行した。変異が腫瘍において観察されなかった場合、それは「腫瘍で未観察」の変異分類を受容することになる。

細胞株及び腫瘍試料からの変異は、それらが同一の遺伝子に属し、かつ同一の変異型位置、及び変異型分類を有する場合、等価であるとみなされる。

細胞株名を、内部Ｏｎｃｏｍｉｎｅオントロジーを用いて精査し、細胞株癌タイプを、臨床変異データと比較可能であるように標準化した。それらの独自性または癌のタイプを、データベースまたは刊行物を通じては独立して実証できないいくつかの細胞株を、我々の分析から取り除いた。臨床データからの変異アノテーションを、汎癌及び疾患内構成において実行した。

ＣｏｍｐｅｎｄｉａＮＧＳＤＮＡＳｅｑＭｕｔａｔｉｏｎＣａｌｌｉｎｇ
ＢＡＭファイル選択．我々は、単一の腫瘍−正常ＢＡＭ対を有する患者を特定するために、ＴＣＧＡのＣＧＨｕｂを照会した。我々は、異なる腫瘍−正常対による変異コールの差異の可能性を取り除くためにそのようにした。

基準ゲノム構築体．我々は、ＢＡＭファイル中のリードをＳＡＭヘッダーを構文解析することによって整合するために使用される基準ゲノム構築体を特定した。我々は、変異コーラーパッケージへの入力として必要である全ての基準ゲノム構築体を、その場所を突き止め、ダウンロードし、指標付けした。

変異コール．我々は、この分析のために以下の体細胞変異コールパッケージを採用した。

ＭｕＴｅｃｔ（１．０．２７７８３），ＢｒｏａｄＩｎｓｔｉｔｕｔｅ，ＣａｎｃｅｒＧｅｎｏｍｅＡｎａｌｙｓｉｓＧｒｏｕｐ（ＣＧＡ）（Ｃｉｂｕｌｓｋｉｓ，２０１３）

ＳｏｍａｔｉｃＩｎｄｅｌＤｅｔｅｃｔｏｒ（１．６−１３−ｇ９１ｆ０２ｄｆ），ＢｒｏａｄＩｎｓｔｉｔｕｔｅ，ＧｅｎｏｍｅＡｎａｌｙｓｉｓＴｏｏｌｋｉｔ（ＧＡＴＫ）

ＭｕＴｅｃｔ．ＭｕＴｅｃｔは、最初の前処理を実行して、「多過ぎる不一致、または大変低い質のスコアを有するリード」を除去する（ＭｕＴｅｃｔ資料）。次に、候補変異について、腫瘍試料中に変異が存在する可能性を説明するもの（ＬＯＤ_Ｔ）及び正常試料において変異しない変異の可能性を説明するもの（ＬＯＤ_Ｎ）という、２つの対数オッズ（ＬＯＤ）スコアを計算する。

ＭｕＴｅｃｔは、体細胞変異がＭｂ中約１回の割合で発生すると予期し、ＬＯＤ_Ｔ≧６．３を必要とする。ＭｕＴｅｃｔは、非ｄｂＳＮＰはＭｂ当たり１００の割合で発生すると予期されるため、変異がｄｂＳＮＰにはなく、ＬＯＤ_Ｎ≧２．３を有することを必要とする。両方のカットオフが、予期される体細胞変異率の半分未満の偽陽性率を保証するために選択される。最後に、代替対立遺伝子が両方のリード方向において観察されるかを試験することを含む、追加的な後処理ステップを実行する。ＭｕＴｅｃｔは、変異とみなすために、少なくとも１４個の腫瘍リード及び８個の正常リードを必要とする。

ＳｏｍａｔｉｃＩｎｄｅｌＤｅｔｅｃｔｏｒ（ＳＩＤ）．所与の変異部位について、ＳＩＤは、カウントに基づく閾値化、及び挿入欠失コンセンサス投票スキームを用いて候補挿入欠失を考慮する。最大の数のサポーティングリードまたはボートを伴う挿入欠失を、仮想の挿入欠失コールとして選択する。このコールは、以下の場合に報告される。
・十分な範囲がある場合（初期：正常≧４リード、腫瘍≧６リード）
・その部位における大部分のリードが仮想のコールをサポートする場合（初期：３０％以上）
・この部分が、挿入欠失の任意の部分をサポートするものと比較して十分に大きい場合（初期：７０％以上）

腫瘍試料における挿入欠失コールは、正常試料において同一の挿入欠失について脆弱な証拠が存在する場合、「生殖細胞系」としてアノテートされ、さもなければそれらは「体細胞系」と標識される。正常試料においてのみ観察されるコールは無視する。ＳＩＤは入力としてＢＡＭファイルを受け取り、ＶＣＦ及びＢＥＤフォーマット化仮想コールを出力する。

変異フィルタリング．コーラーは、生殖細胞変異、及び低い統計的確実性を有する他のコールを含む、全ての候補変異コールを出力する。我々は、変異コーラー出力を、体細胞変異、ＭｕＴｅｃｔにより「ＫＥＥＰ」と指定された変異、及びＲｅｆＳｅｑ遺伝子のＣＤＳ内で発生する変異のみにフィルタリングした。下の表は、ＭｕＴｅｃｔ及びＳｏｍａｔｉｃＩｎｄｅｌＤｅｔｅｃｔｏｒ出力に適用される具体的なフィルターを詳述する。

（表３８）

参照
Ｃｉｂｕｌｓｋｉｓ，Ｋ．ｅｔａｌ．Ｓｅｎｓｉｔｉｖｅｄｅｔｅｃｔｉｏｎｏｆｓｏｍａｔｉｃｐｏｉｎｔｍｕｔａｔｉｏｎｓｉｎｉｍｐｕｒｅａｎｄｈｅｔｅｒｏｇｅｎｅｏｕｓｃａｎｃｅｒｓａｍｐｌｅｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌｏｇｙ（２０１３）．ｄｏｉ：１０．１０３８／ｎｂｔ．２５１４
ＭｕＴｅｃｔ：ハイパーテキスト転送プロトコル：／／ｗｗｗ．ｂｒｏａｄｉｎｓｔｉｔｕｔｅ．ｏｒｇ／ｃａｎｃｅｒ／ｃｇａ／ｍｕｔｅｃｔ
ＳＩＤ：ハイパーテキスト転送プロトコル：／／ｇａｔｋｆｏｒｕｍｓ．ｂｒｏａｄｉｎｓｔｉｔｕｔｅ．ｏｒｇ／ｄｉｓｃｕｓｓｉｏｎ／３５／ｓｏｍａｔｉｃ−ｉｎｄｅｌ−ｄｅｔｅｃｔｉｏｎ

（表１６）表２の遺伝子／融合についてのドラッガビリティ状況

（表１７）表３の遺伝子／融合についてのドラッガビリティ状況

（表１９）遺伝子融合

（表２０）表１９からの遺伝子融合の区切り点

（表２１）表１９の遺伝子／融合についてのドラッガビリティ状況

（表２２）遺伝子融合と新たに関連づけられた癌のタイプ

（表２３）表２２からの遺伝子融合の区切り点

（表２４）表２２の遺伝子／融合についてのドラッガビリティ状況

（表３９）

実施例７ＴＰ５３の状況の特定
分子診断学及び癌生物学の理解の両方における進歩は、より有効な患者の階級化が転帰を改善し、有効な制癌剤の承認を進捗させることになるという期待で、臨床治験パラダイムに関して高い基準を設定している。

ＴＰ５３の変異の状況は、治療応答及び予後の予測的なバイオマーカーとして特定されている。例えば、ＴＰ５３野生型（ＷＴ）患者は、ＴＰ５３変異を持つ患者と比較して、補助剤５−フルオロウラシル及びセツキシマブの併用治療を含む療法の後に、有意に増加した進行を伴わない生存を提示することが示されている。

ＴＰ５３変異アノテーションは、ＯＮＣＯＭＩＮＥ（商標）ＮＧＳ変異ブラウザ（ＣｏｍｐｅｎｄｉａＢｉｏｓｃｉｅｎｃｅｓ，ＭＩ）から獲得した。総計で７７６名の患者をＴＰ５３変異状況について評価し、２５９名の患者がＴＰ５３に少なくとも１つの変異を含み、ＴＰ５３変異体としてアノテートされ、一方で５１９名の患者は検出されるＴＰ５３変異を欠き、ＴＰ５３野生型としてアノテートされた。次いで、ＴＰ５３野生型及びＴＰ５３変異体アノテーションを、患者レベルで、ＴＣＧＡ乳房データ集合からの対応するマイクロアレイ試料にマッピングした。変異アノテーションを対応するマイクロアレイデータを有する患者にマッピングしたとき、３２７名の患者がＴＰ５３野生型としてアノテートされ、１８８名がＴＰ５３変異体としてアノテートされた。ＴＰ５３野生型及びＴＰ５３変異シグネチャーを、ＴＣＧＡ乳房データ集合の差次的発現分析から生成した。遺伝子リストを、スチューデントの２組ｔ検定に従ってｐ値により順位付けした。ＴＰ５３野生型患者において差次的に発現上昇された遺伝子は、ＴＰ５３野生型シグネチャーに対して寄与し、一方でＴＰ５３変異体患者において発現上昇された遺伝子は、ＴＰ５３変異体シグネチャーに対して寄与した。各シグネチャーは、順位付けされた遺伝子（ｎ＝２０４）の上位１％を含んだ。ＴＰ５３野生型及びＴＰ５３変異シグネチャー中の全ての遺伝子は、偽発見について修正した後に非常に有意であった（Ｑ＜０．０００１）。Ｑ値を、（ｐ値／ｐ値の順位）×測定された遺伝子の数として計算した。

５つのＯＮＣＯＭＩＮＥ（商標）癌タイプが、分析を完了するために十分なＴＰ５３変異状況データを含んだ。これらのうちで、乳癌患者（ｐ＜０．００１；ｎ＝１８９ＷＴ，３７変異体）、肺癌患者（ｐ＝０．０００３；ｎ＝２３ＷＴ，１８変異化）、肝臓癌患者（ｐ＝０．００６９；ｎ＝７４ＷＴ，１１変異化）、及び卵巣癌患者（ｐ＝０．０５；ｎ＝２２ＷＴ，１５変異化）と比較して、ＴＰ５３ＷＴにおいて有意に増加したシグネチャー発現が見出され、リンパ腫患者（ｐ＝０．０６８；ｎ＝６５ＷＴ，１６変異化）内で傾向が見出された（図５〜７及び９〜１０を参照）。表４０は、ＴＰ５３ＷＴＴＣＧＡ乳癌シグネチャーを含む。

臨床的に誘導された発現シグネチャーが、変異体腫瘍試料からＴＰ５３ＷＴを有効に識別する。

（表４０）

特に指示の無い限り、本明細書及び特許請求の範囲において使用される、成分の量、例えば分子量等の特性、反応条件等を表す全ての数は、用語「約」によって全ての例において修正されるものとして理解されるべきである。したがって、特に反対の指示の無い限り、本明細書及び添付される特許請求の範囲において示される数値的なパラメーターは、本発明により獲得されるように希求される所望の特性に応じて変化し得る近似値である。何はともあれ、特許請求の範囲への均等論の適用を制限する企図としてではなく、各数値的なパラメーターは、少なくとも、報告される有意の桁数の観点から、かつ通常の四捨五入法を適用することによって解釈されるべきである。本発明の幅広い範囲を示す数値的な範囲及びパラメーターは近似値であるものの、特定の実施例において示される数値的な値は、可能な限り正確に報告される。しかしながら、任意の数値的な値は、それらそれぞれの試験測定値において見出される標準偏差から結果として必然的に生じるある特定の誤差を生得的に含む。

本発明を説明する文脈中（特に、以下の特許請求の範囲の文脈中）において使用される、用語「１つの（ａ）」、「１つの（ａｎ）」、「その（ｔｈｅ）」、及び類似の指示対象は、本明細書において特に指示の無い限り、または文脈によって明確に否定されない限り、単数形及び複数形の両方を網羅するように解釈されるべきである。本明細書における値の範囲の列挙は、範囲内に包含されるそれぞれの別個の値を個別に指す省略表現方法として働くことを単に意図する。本明細書において特に指示の無い限り、各個別の値は、それが本明細書に個別に列挙されるかのように、本明細書に組み込まれる。本明細書に記載される全ての方法は、本明細書において特に指示の無い限り、または別様に文脈によって明確に否定されない限り、任意の好適な順番で実行することができる。本明細書に提供される、任意の及び全ての例または例示的な言語（例えば、「等」）の使用は、より良好に本発明を解明することのみを意図するものであり、別段に請求される本発明の範囲への制限を提起するものではない。本明細書中のいかなる言語も、本発明の実践に対して必須である任意の請求されない要素を示すとして解釈されるべきではない。

本明細書に開示される本発明の代替的要素または実施形態の分類は、制限として解釈されるべきではない。各群の構成員は、個別に、または本明細書において見出される群の他の構成員もしくは他の要素と組み合わされて言及及び請求され得る。群の１つ以上の構成員が、便宜性及び／または特許要件の理由のために、群に含まれ、または群から削除され得ることが予期される。任意のそのような包含または削除が発生する場合、本明細書は、修正されたような群を含み、したがって添付の特許請求の範囲において使用される全てのマーカッシュ群の書面の説明を満たすものであるとみなされる。

本発明者が知る本発明を実行するために最適な形態を含む、本発明のある特定の実施形態が本明細書に記載される。当然ながら、これらの記載される実施形態への変形は、前述の説明を読んだ際、当業者にとって明らかになるであろう。本発明者は当業者がそのような変形を適切であるように採用することを期待し、本発明者は本発明が本明細書において具体的に記載されたものとは別様に実践されることを意図する。したがって、本発明は、適用可能な法によって許容されるように、本明細書に添付される特許請求の範囲において詳述される主題の全ての修正及び等価物を含む。また、その全ての可能な変形における上述の要素の任意の組み合わせが、本明細書において特に指示の無い限り、または別様に文脈によって明確に否定されない限り、本発明により包括される。

更に、本明細書を通して、多数の参照が特許及び刊行物に対して為されてきた。上に引用された参考文献及び刊行物のそれぞれについて、それらの全体が参照により本明細書に個別に組み込まれる。

本明細書に開示される本発明の実施形態は、本発明の原理の例証であることが理解されるべきである。採用され得る他の修正は、本発明の範囲内である。したがって、例として、しかし制限としてではなく、本発明の代替的な構成が本明細書の教示に従って活用され得る。したがって、本発明は、示され、記載された正にその通りのものに制限されない。

本明細書に開示された具体的な実施形態は、特許請求の範囲において、言語から成る、または言語から本質的に成るものを用いて更に制限され得る。特許請求の範囲で使用する場合、補正によって申請または付加されるかに拘わらず、移行用語「から成る（ｃｏｎｓｉｓｔｉｎｇｏｆ）」は、特許請求の範囲において明示されない任意の要素、ステップ、または成分を除外する。移行用語「から本質的になる」は、明示された物質またはステップ、ならびに基本的及び新規の特性（複数可）に実質的に影響を及ぼさないものに請求項の範囲を制限する。そのように請求される本発明の実施形態は、本明細書において生得的または明示的に記載され、可能にされる。

ＮＭ＿で始まるもの等の配列識別子への言及は、２０１３年４月１８日において見出されるようなデータベース受入番号及び根底にある配列を指す。

（表７）

Claims

プローブのセットを含むキットであって、前記プローブのセットが、ＴＰＭ１及びＡＬＫ、ＰＲＫＡＲ１Ａ及びＡＬＫ、ＮＣＯＡ１及びＡＬＫ、ＬＰＰ及びＣＡＳＲ、ＭＤＭ２及びＥＧＦＲ、ＦＧＦＲ３及びＥＬＡＶＬ３、Ｂ２Ｍ及びＧＮＡＳ、ＤＯＣＫ８及びＪＡＫ２、ＨＮＦ１Ｂ及びＮＯＴＣＨ１、ＮＦＡＳＣ及びＮＴＲＫ１、ＳＳＢＰ２及びＮＴＲＫ１、ＳＱＳＴＭ１及びＮＴＲＫ１、ＴＢＬ１ＸＲ１及びＰＩＫ３ＣＡ、ＡＫＡＰ１３及びＲＥＴ、ＦＫＢＰ１５及びＲＥＴ、ＴＢＬ１ＸＲ１及びＲＥＴ、ＣＥＰ８５Ｌ及びＲＯＳ１、ＣＬＣＮ６及びＲＡＦ１、ＴＲＡＫ１及びＲＡＦ１、ＰＲＫＡＣＡ及びＡＫＴ１、ＰＲＫＡＣＡ及びＡＫＴ２、ＭＬＬ及びＦＹＮ、ＴＴＣ１３及びＪＡＫ２、ＳＥＣ１６Ａ及びＮＯＴＣＨ１、ＥＲＣ１及びＲＥＴ、ＧＴＦ２ＩＲＤ１及びＡＬＫ、ＨＴＡＴＳＦ１及びＢＲＳ３、ＣＤＨ１及びＣＣＤＣ１３２、ＣＣＤＣ１３２及びＣＤＨ１、ＥＲＢＢ２及びＳＬＣ２９Ａ３、ＭＥＴ及びＴＦＧ、ＴＦＧ及びＭＥＴ、ＮＯＴＣＨ２及びＭＮＤＡ、ＩＲＦ２ＢＰ２及びＮＴＲＫ１、ＥＩＦ２Ｃ２及びＰＴＫ２、ＲＡＲＡ及びＨＯＸＢ３、ＳＴＡＴ３及びＥＴＶ４、ならびにＧＦＡＰ及びＶＩＭ、ＶＩＭ及びＧＦＡＰ、ＴＯＰ１及びＣ１７ｏｒｆ６４、ならびにＴＰ５３及びＫＩＡＡ０７５３から選択される２つの遺伝子の融合を特異的に認識する、前記キット。
ＴＰＭ１及びＡＬＫ、ＰＲＫＡＲ１Ａ及びＡＬＫ、ＮＣＯＡ１及びＡＬＫ、ＬＰＰ及びＣＡＳＲ、ＭＤＭ２及びＥＧＦＲ、ＦＧＦＲ３及びＥＬＡＶＬ３、Ｂ２Ｍ及びＧＮＡＳ、ＤＯＣＫ８及びＪＡＫ２、ＨＮＦ１Ｂ及びＮＯＴＣＨ１、ＮＦＡＳＣ及びＮＴＲＫ１、ＳＳＢＰ２及びＮＴＲＫ１、ＳＱＳＴＭ１及びＮＴＲＫ１、ＴＢＬ１ＸＲ１及びＰＩＫ３ＣＡ、ＡＫＡＰ１３及びＲＥＴ、ＦＫＢＰ１５及びＲＥＴ、ＴＢＬ１ＸＲ１及びＲＥＴ、ＣＥＰ８５Ｌ及びＲＯＳ１、ＣＬＣＮ６及びＲＡＦ１、ＴＲＡＫ１及びＲＡＦ１、ＰＲＫＡＣＡ及びＡＫＴ１、ＰＲＫＡＣＡ及びＡＫＴ２、ＭＬＬ及びＦＹＮ、ＴＴＣ１３及びＪＡＫ２、ＳＥＣ１６Ａ及びＮＯＴＣＨ１、ＥＲＣ１及びＲＥＴ、ＧＴＦ２ＩＲＤ１及びＡＬＫ、ＨＴＡＴＳＦ１及びＢＲＳ３、ＣＤＨ１及びＣＣＤＣ１３２、ＣＣＤＣ１３２及びＣＤＨ１、ＥＲＢＢ２及びＳＬＣ２９Ａ３、ＭＥＴ及びＴＦＧ、ＴＦＧ及びＭＥＴ、ＮＯＴＣＨ２及びＭＮＤＡ、ＩＲＦ２ＢＰ２及びＮＴＲＫ１、ＥＩＦ２Ｃ２及びＰＴＫ２、ＲＡＲＡ及びＨＯＸＢ３、ＳＴＡＴ３及びＥＴＶ４、ならびにＧＦＡＰ及びＶＩＭ、ＶＩＭ及びＧＦＡＰ、ＴＯＰ１及びＣ１７ｏｒｆ６４、ならびにＴＰ５３及びＫＩＡＡ０７５３から選択される２つの遺伝子の遺伝子融合を特異的に認識するプローブのセットを含む、組成物。
配列番号１〜２５７のうちの少なくとも１つを含む核酸を特異的に認識する、プローブのセット。
配列番号１〜２５７から選択される配列を含む、単離核酸。
試料における膀胱尿路上皮癌、乳癌、子宮内膜類内膜腺癌、結腸腺癌、多形性膠芽腫、腎明細胞癌、乳頭状腎細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肺腺癌、卵巣漿液性嚢胞腺癌、前立腺腺癌、直腸皮膚黒色腫、及び甲状腺癌を検出する方法であって、前記方法が、
配列番号１〜２５７から選択される配列を含む核酸を増幅する段階と、
配列番号１〜２５７から選択される配列を含む核酸の存在を検出する段階と
を含み、
配列番号１〜２５７から選択される配列を含む前記核酸を検出する段階が、膀胱尿路上皮癌、乳癌、子宮内膜類内膜腺癌、結腸腺癌、多形性膠芽腫、腎明細胞癌、乳頭状腎細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肺腺癌、卵巣漿液性嚢胞腺癌、前立腺腺癌、直腸皮膚黒色腫、及び甲状腺癌が前記試料中に存在することを示す、前記方法。
表４〜６、２０、及び２３からの区切り点を含む核酸に特異的にハイブリダイズするプローブのセットを含む、キット。
表４〜６、２０、及び２３からの区切り点を含む核酸に特異的にハイブリダイズする、プローブのセット。
前記核酸が、ＴＰＭ１／ＡＬＫ、ＰＲＫＡＲ１Ａ／ＡＬＫ、ＮＣＯＡ１／ＡＬＫ、ＬＰＰ／ＣＡＳＲ、ＭＤＭ２／ＥＧＦＲ、ＦＧＦＲ３／ＥＬＡＶＬ３、Ｂ２Ｍ／ＧＮＡＳ、ＤＯＣＫ８／ＪＡＫ２、ＨＮＦ１Ｂ／ＮＯＴＣＨ１、ＮＦＡＳＣ／ＮＴＲＫ１、ＳＳＢＰ２／ＮＴＲＫ１、ＳＱＳＴＭ１／ＮＴＲＫ１、ＴＢＬ１ＸＲ１／ＰＩＫ３ＣＡ、ＡＫＡＰ１３／ＲＥＴ、ＦＫＢＰ１５／ＲＥＴ、ＴＢＬ１ＸＲ１／ＲＥＴ、ＣＥＰ８５Ｌ／ＲＯＳ１、ＣＬＣＮ６／ＲＡＦ１、ＴＲＡＫ１／ＲＡＦ１、ＰＲＫＡＣＡ／ＡＫＴ１、ＰＲＫＡＣＡ／ＡＫＴ２、ＭＬＬ／ＦＹＮ、ＥＣＨＤ１／ＦＹＮ、ＴＴＣ１３／ＪＡＫ２、ＳＥＣ１６Ａ／ＮＯＴＣＨ１、ＥＲＣ１／ＲＥＴ、ＧＴＦ２ＩＲＤ１／ＡＬＫ、ＨＴＡＴＳＦ１／ＢＲＳ３、ＣＤＨ１／ＣＣＤＣ１３２、ＣＣＤＣ１３２／ＣＤＨ１、ＥＲＢＢ２／ＳＬＣ２９Ａ３、ＭＥＴ／ＴＦＧ、ＴＦＧ／ＭＥＴ、ＮＯＴＣＨ２／ＭＮＤＡ、ＩＲＦ２ＢＰ２／ＮＴＲＫ１、ＥＩＦ２Ｃ２／ＰＴＫ２、ＲＡＲＡ／ＨＯＸＢ３、ＳＴＡＴ３／ＥＴＶ４、及びＧＦＡＰ／ＶＩＭ、ＶＩＭ／ＧＦＡＰ、ＴＯＰ１／Ｃ１７ｏｒｆ６４、及びＴＰ５３／ＫＩＡＡ０７５３から選択される遺伝子融合物である、請求項６または７に記載のキット。
試料における膀胱尿路上皮癌、乳癌、子宮内膜類内膜腺癌、結腸腺癌、多形性膠芽腫、腎明細胞癌、乳頭状腎細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肺腺癌、卵巣漿液性嚢胞腺癌、前立腺腺癌、直腸皮膚黒色腫、及び甲状腺癌を検出する方法であって、前記方法が、
ＴＰＭ１／ＡＬＫ、ＰＲＫＡＲ１Ａ／ＡＬＫ、ＮＣＯＡ１／ＡＬＫ、ＬＰＰ／ＣＡＳＲ、ＭＤＭ２／ＥＧＦＲ、ＦＧＦＲ３／ＥＬＡＶＬ３、Ｂ２Ｍ／ＧＮＡＳ、ＤＯＣＫ８／ＪＡＫ２、ＨＮＦ１Ｂ／ＮＯＴＣＨ１、ＮＦＡＳＣ／ＮＴＲＫ１、ＳＳＢＰ２／ＮＴＲＫ１、ＳＱＳＴＭ１／ＮＴＲＫ１、ＴＢＬ１ＸＲ１／ＰＩＫ３ＣＡ、ＡＫＡＰ１３／ＲＥＴ、ＦＫＢＰ１５／ＲＥＴ、ＴＢＬ１ＸＲ１／ＲＥＴ、ＣＥＰ８５Ｌ／ＲＯＳ１、ＣＬＣＮ６／ＲＡＦ１、ＴＲＡＫ１／ＲＡＦ１、ＰＲＫＡＣＡ／ＡＫＴ１、ＰＲＫＡＣＡ／ＡＫＴ２、ＭＬＬ／ＦＹＮ、ＥＣＨＤ１／ＦＹＮ、ＴＴＣ１３／ＪＡＫ２、ＳＥＣ１６Ａ／ＮＯＴＣＨ１、ＥＲＣ１／ＲＥＴ、ＧＴＦ２ＩＲＤ１／ＡＬＫ、ＨＴＡＴＳＦ１／ＢＲＳ３、ＣＤＨ１／ＣＣＤＣ１３２、ＣＣＤＣ１３２／ＣＤＨ１、ＥＲＢＢ２／ＳＬＣ２９Ａ３、ＭＥＴ／ＴＦＧ、ＴＦＧ／ＭＥＴ、ＮＯＴＣＨ２／ＭＮＤＡ、ＩＲＦ２ＢＰ２／ＮＴＲＫ１、ＥＩＦ２Ｃ２／ＰＴＫ２、ＲＡＲＡ／ＨＯＸＢ３、ＳＴＡＴ３／ＥＴＶ４、及びＧＦＡＰ／ＶＩＭ、ＶＩＭ／ＧＦＡＰ、ＴＯＰ１／Ｃ１７ｏｒｆ６４、及びＴＰ５３／ＫＩＡＡ０７５３、または融合遺伝子生成物から選択される遺伝子融合物を、ＴＰＭ１／ＡＬＫ、ＰＲＫＡＲ１Ａ／ＡＬＫ、ＮＣＯＡ１／ＡＬＫ、ＬＰＰ／ＣＡＳＲ、ＭＤＭ２／ＥＧＦＲ、ＦＧＦＲ３／ＥＬＡＶＬ３、Ｂ２Ｍ／ＧＮＡＳ、ＤＯＣＫ８／ＪＡＫ２、ＨＮＦ１Ｂ／ＮＯＴＣＨ１、ＮＦＡＳＣ／ＮＴＲＫ１、ＳＳＢＰ２／ＮＴＲＫ１、ＳＱＳＴＭ１／ＮＴＲＫ１、ＴＢＬ１ＸＲ１／ＰＩＫ３ＣＡ、ＡＫＡＰ１３／ＲＥＴ、ＦＫＢＰ１５／ＲＥＴ、ＴＢＬ１ＸＲ１／ＲＥＴ、ＣＥＰ８５Ｌ／ＲＯＳ１、ＣＬＣＮ６／ＲＡＦ１、ＴＲＡＫ１／ＲＡＦ１、ＰＲＫＡＣＡ／ＡＫＴ１、ＰＲＫＡＣＡ／ＡＫＴ２、ＭＬＬ／ＦＹＮ、ＥＣＨＤ１／ＦＹＮ、ＴＴＣ１３／ＪＡＫ２、ＳＥＣ１６Ａ／ＮＯＴＣＨ１、ＥＲＣ１／ＲＥＴ、ＧＴＦ２ＩＲＤ１／ＡＬＫ、ＨＴＡＴＳＦ１／ＢＲＳ３、ＣＤＨ１／ＣＣＤＣ１３２、ＣＣＤＣ１３２／ＣＤＨ１、ＥＲＢＢ２／ＳＬＣ２９Ａ３、ＭＥＴ／ＴＦＧ、ＴＦＧ／ＭＥＴ、ＮＯＴＣＨ２／ＭＮＤＡ、ＩＲＦ２ＢＰ２／ＮＴＲＫ１、ＥＩＦ２Ｃ２／ＰＴＫ２、ＲＡＲＡ／ＨＯＸＢ３、ＳＴＡＴ３／ＥＴＶ４、及びＧＦＡＰ／ＶＩＭ、ＶＩＭ／ＧＦＡＰ、ＴＯＰ１／Ｃ１７ｏｒｆ６４、及びＴＰ５３／ＫＩＡＡ０７５３、または融合遺伝子生成物から選択される前記遺伝子融合物中の少なくとも１つの核酸を特異的に認識するプローブのセットを用いて増幅する段階と、
前記試料におけるＴＰＭ１／ＡＬＫ、ＰＲＫＡＲ１Ａ／ＡＬＫ、ＮＣＯＡ１／ＡＬＫ、ＬＰＰ／ＣＡＳＲ、ＭＤＭ２／ＥＧＦＲ、ＦＧＦＲ３／ＥＬＡＶＬ３、Ｂ２Ｍ／ＧＮＡＳ、ＤＯＣＫ８／ＪＡＫ２、ＨＮＦ１Ｂ／ＮＯＴＣＨ１、ＮＦＡＳＣ／ＮＴＲＫ１、ＳＳＢＰ２／ＮＴＲＫ１、ＳＱＳＴＭ１／ＮＴＲＫ１、ＴＢＬ１ＸＲ１／ＰＩＫ３ＣＡ、ＡＫＡＰ１３／ＲＥＴ、ＦＫＢＰ１５／ＲＥＴ、ＴＢＬ１ＸＲ１／ＲＥＴ、ＣＥＰ８５Ｌ／ＲＯＳ１、ＣＬＣＮ６／ＲＡＦ１、ＴＲＡＫ１／ＲＡＦ１、ＰＲＫＡＣＡ／ＡＫＴ１、ＰＲＫＡＣＡ／ＡＫＴ２、ＭＬＬ／ＦＹＮ、ＥＣＨＤ１／ＦＹＮ、ＴＴＣ１３／ＪＡＫ２、ＳＥＣ１６Ａ／ＮＯＴＣＨ１、ＥＲＣ１／ＲＥＴ、ＧＴＦ２ＩＲＤ１／ＡＬＫ、ＨＴＡＴＳＦ１／ＢＲＳ３、ＣＤＨ１／ＣＣＤＣ１３２、ＣＣＤＣ１３２／ＣＤＨ１、ＥＲＢＢ２／ＳＬＣ２９Ａ３、ＭＥＴ／ＴＦＧ、ＴＦＧ／ＭＥＴ、ＮＯＴＣＨ２／ＭＮＤＡ、ＩＲＦ２ＢＰ２／ＮＴＲＫ１、ＥＩＦ２Ｃ２／ＰＴＫ２、ＲＡＲＡ／ＨＯＸＢ３、ＳＴＡＴ３／ＥＴＶ４、及びＧＦＡＰ／ＶＩＭ、ＶＩＭ／ＧＦＡＰ、ＴＯＰ１／Ｃ１７ｏｒｆ６４、及びＴＰ５３／ＫＩＡＡ０７５３、または融合遺伝子生成物から選択される前記遺伝子融合物の存在を検出する段階と
を含み、
ＴＰＭ１／ＡＬＫ、ＰＲＫＡＲ１Ａ／ＡＬＫ、ＮＣＯＡ１／ＡＬＫ、ＬＰＰ／ＣＡＳＲ、ＭＤＭ２／ＥＧＦＲ、ＦＧＦＲ３／ＥＬＡＶＬ３、Ｂ２Ｍ／ＧＮＡＳ、ＤＯＣＫ８／ＪＡＫ２、ＨＮＦ１Ｂ／ＮＯＴＣＨ１、ＮＦＡＳＣ／ＮＴＲＫ１、ＳＳＢＰ２／ＮＴＲＫ１、ＳＱＳＴＭ１／ＮＴＲＫ１、ＴＢＬ１ＸＲ１／ＰＩＫ３ＣＡ、ＡＫＡＰ１３／ＲＥＴ、ＦＫＢＰ１５／ＲＥＴ、ＴＢＬ１ＸＲ１／ＲＥＴ、ＣＥＰ８５Ｌ／ＲＯＳ１、ＣＬＣＮ６／ＲＡＦ１、ＴＲＡＫ１／ＲＡＦ１、ＰＲＫＡＣＡ／ＡＫＴ１、ＰＲＫＡＣＡ／ＡＫＴ２、ＭＬＬ／ＦＹＮ、ＥＣＨＤ１／ＦＹＮ、ＴＴＣ１３／ＪＡＫ２、ＳＥＣ１６Ａ／ＮＯＴＣＨ１、ＥＲＣ１／ＲＥＴ、ＧＴＦ２ＩＲＤ１／ＡＬＫ、ＨＴＡＴＳＦ１／ＢＲＳ３、ＣＤＨ１／ＣＣＤＣ１３２、ＣＣＤＣ１３２／ＣＤＨ１、ＥＲＢＢ２／ＳＬＣ２９Ａ３、ＭＥＴ／ＴＦＧ、ＴＦＧ／ＭＥＴ、ＮＯＴＣＨ２／ＭＮＤＡ、ＩＲＦ２ＢＰ２／ＮＴＲＫ１、ＥＩＦ２Ｃ２／ＰＴＫ２、ＲＡＲＡ／ＨＯＸＢ３、ＳＴＡＴ３／ＥＴＶ４、及びＧＦＡＰ／ＶＩＭ、ＶＩＭ／ＧＦＡＰ、ＴＯＰ１／Ｃ１７ｏｒｆ６４、及びＴＰ５３／ＫＩＡＡ０７５３から選択される前記遺伝子融合物の存在を検出する段階が、膀胱尿路上皮癌、乳癌、子宮内膜類内膜腺癌、結腸腺癌、多形性膠芽腫、腎明細胞癌、乳頭状腎細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肺腺癌、卵巣漿液性嚢胞腺癌、前立腺腺癌、直腸皮膚黒色腫、及び甲状腺癌から選択される癌が前記試料中に存在することを示す、前記方法。
１００〜１０，０００ヌクレオチド長であり、かつ表４〜６、２０、及び２３の区切り点のうちの１つの両側において少なくとも２５個のヌクレオチドを含む、単離された遺伝子融合核酸。
遺伝子融合パートナーが、ＴＰＭ１及びＡＬＫ、ＰＲＫＡＲ１Ａ及びＡＬＫ、ＮＣＯＡ１及びＡＬＫ、ＬＰＰ及びＣＡＳＲ、ＭＤＭ２及びＥＧＦＲ、ＦＧＦＲ３及びＥＬＡＶＬ３、Ｂ２Ｍ及びＧＮＡＳ、ＤＯＣＫ８及びＪＡＫ２、ＨＮＦ１Ｂ及びＮＯＴＣＨ１、ＮＦＡＳＣ及びＮＴＲＫ１、ＳＳＢＰ２及びＮＴＲＫ１、ＳＱＳＴＭ１及びＮＴＲＫ１、ＴＢＬ１ＸＲ１及びＰＩＫ３ＣＡ、ＡＫＡＰ１３及びＲＥＴ、ＦＫＢＰ１５及びＲＥＴ、ＴＢＬ１ＸＲ１及びＲＥＴ、ＣＥＰ８５Ｌ及びＲＯＳ１、ＣＬＣＮ６及びＲＡＦ１、ＴＲＡＫ１及びＲＡＦ１、ＰＲＫＡＣＡ及びＡＫＴ１、ＰＲＫＡＣＡ及びＡＫＴ２、ＭＬＬ及びＦＹＮ、ＴＴＣ１３及びＪＡＫ２、ＳＥＣ１６Ａ及びＮＯＴＣＨ１、ＥＲＣ１及びＲＥＴ、ＧＴＦ２ＩＲＤ１及びＡＬＫ、ＨＴＡＴＳＦ１及びＢＲＳ３、ＣＤＨ１及びＣＣＤＣ１３２、ＣＣＤＣ１３２及びＣＤＨ１、ＥＲＢＢ２及びＳＬＣ２９Ａ３、ＭＥＴ及びＴＦＧ、ＴＦＧ及びＭＥＴ、ＮＯＴＣＨ２及びＭＮＤＡ、ＩＲＦ２ＢＰ２及びＮＴＲＫ１、ＥＩＦ２Ｃ２及びＰＴＫ２、ＲＡＲＡ及びＨＯＸＢ３、ＳＴＡＴ３及びＥＴＶ４、ならびにＧＦＡＰ及びＶＩＭ、ＶＩＭ及びＧＦＡＰ、ＴＯＰ１及びＣ１７ｏｒｆ６４、ならびにＴＰ５３及びＫＩＡＡ０７５３から選択される２つの遺伝子である、請求項１０に記載の遺伝子融合物。
前記試料が患者試料である、請求項５または９に記載の方法。
配列番号１〜２５７から選択される配列を含む核酸が前記患者試料中に存在する場合、前記患者を膀胱尿路上皮癌、乳癌、子宮内膜類内膜腺癌、結腸腺癌、多形性膠芽腫、腎明細胞癌、乳頭状腎細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肺腺癌、卵巣漿液性嚢胞腺癌、前立腺腺癌、直腸皮膚黒色腫、または甲状腺癌を有すると診断する段階を更に含む、請求項１２に記載の方法。
プローブのセットを含むキットであって、前記プローブのセットが、表７及び／または表１１から選択される遺伝子変異型を特異的に認識する、前記キット。
表７及び／または表１１からの遺伝子変異型を特異的に認識するプローブのセットを含む、組成物。
表７及び／または表１１からの遺伝子変異型を特異的に認識するプローブのセット。
膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、または子宮体部類内膜癌を検出する方法であって、前記方法が、
表７及び／または表１１から選択される変異型を含む核酸を増幅する段階と、
表７及び／または表１１から選択される前記変異型の存在を検出する段階と
を含み、
表７及び／または表１１から選択される前記変異型を検出する段階が、膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、または子宮体部類内膜癌が前記試料中に存在することを示す、前記方法。
表７及び／または表１１から選択される変異型に特異的にハイブリダイズするプローブのセットを含む、キット。
表７及び／または表１１から選択される遺伝子変異型に特異的にハイブリダイズする、プローブのセット。
前記試料が患者試料である、請求項１７に記載の方法。
表７及び／または表１１から選択される変異型が前記患者試料中に存在する場合、前記患者を膀胱癌、乳癌、子宮頸部細胞癌、結腸腺癌、多形性膠芽腫、頭頸部扁平上皮癌、腎明細胞癌、腎臓の腎乳頭細胞癌、急性骨髄性白血病、脳の低悪性度神経膠腫、肝臓の肝細胞癌腫、肺腺癌、扁平上皮細胞肺癌、卵巣漿液性腺癌、前立腺腺癌、直腸腺癌、皮膚黒色腫、胃腺癌、甲状腺癌、または子宮体部類内膜癌を有すると診断する段階を更に含む、請求項２０に記載の方法。
配列番号１〜２５７から選択される配列のアンチセンスポリヌクレオチド配列を含む、単離された遺伝子構築物。
前記アンチセンスポリヌクレオチドに機能的に連結されるプロモーターを更に含む、請求項２２に記載の単離された遺伝子構築物。
ベクターである、請求項２３に記載の単離された遺伝子構築物。
前記ベクターがウイルスベクターである、請求項２４に記載の単離された遺伝子構築物。
遺伝子融合物を含む細胞を薬物と接触させる段階を含む方法であって、前記遺伝子融合物が表４及び／または表５において開示され、前記薬物が表８の薬物のうちの１つ以上である、前記方法。
遺伝子融合物を有する患者に薬物を投与する段階を含む方法であって、前記遺伝子融合物が表４、表５、表６、表２０、及び／または表２３において開示され、前記薬物が表８、表１６、表１７、表２１、及び／または表２４の薬物のうちの１つ以上である、前記方法。
前記患者が癌と診断される、請求項２７に記載の方法。
前記癌が、表１、２、３、１９、及び／または２２のうちのいずれか１つに開示される癌のタイプである、請求項２８に記載の方法。
患者からの核酸試料を２つのプライマーを含む反応混合物と接触させる段階を含む方法であって、第１のプライマーは１つの遺伝子に対して相補的であり、第２のプライマーは第２の遺伝子に対して相補的であり、前記第１の遺伝子及び前記第２の遺伝子の融合が、前記第１のプライマー及び前記第２のプライマーによって生成されるアンプリコンの存在により検出可能であり、前記融合区切り点が表４、表５、表６、表２０、または表２３の区切り点のうちの１つであり、アンプリコンを有する患者が、表８、表１６、表１７、表２１、または表２４の薬物のうちの１つ以上を投与される、前記方法。
対象からの試料中の１つ以上の遺伝子融合を検出するために生物アッセイを行う段階であって、前記遺伝子融合のうちの少なくとも１つは表１、表２、表３、表１９、及び表２２のものから選択される、生物アッセイを行う段階と、
前記生物アッセイの結果をコンピューターシステムに受信する段階と、
出力を決定するために、前記結果を処理する段階と、
可読媒体上に前記出力を提示する段階と
を含む方法であって、前記出力が前記遺伝子融合の存在または不在に基づき前記対象にとって推奨される治療的な選択肢を特定する、前記方法。
前記生物アッセイが、表４、表５、表６、表２０、及び表２３の区切り点のうちの１つ以上について特異的であるプローブを含む、請求項３１に記載の方法。
プローブのセットを含むキットであって、
各プローブが、表４〜６、２０、及び２３からの区切り点を含む核酸に特異的にハイブリダイズする、前記キット。
各非天然型プローブが、
表４〜６、２０、及び２３からの前記区切り点を含む前記核酸に特異的にハイブリダイズするように構成される核酸配列と、
前記核酸配列に共有結合する検出可能部分と
を含む、請求項３３に記載のキット。
各非天然型プローブが、
デオキシチミジン残基の代わりに少なくとも１つのデオキシウリジン（ｄＵ）残基を含むデオキシリボ核酸配列を含む、請求項３３に記載のキット。
表１〜３、１９、及び２２からの少なくとも１つの遺伝子融合を含む、試料からの核酸を増幅する段階と、
前記組成物を、各プローブが前記核酸に特異的にハイブリダイズする、少なくとも１つのプローブと接触させること、または前記核酸中の非天然もしくは未変性の化学構造の存在を観察することのうちの少なくとも１つによって、前記少なくとも１つの遺伝子融合の存在を検出する段階と
を含み、
前記少なくとも１つの遺伝子融合の存在を検出する段階が、表１〜３、１９、及び２２からの少なくとも１つの癌が前記試料中に存在することを示す、方法。
表１〜３、１９、及び２２からの少なくとも１つの遺伝子融合を含む試料からの核酸を増幅して、増幅された核酸を産生するように構成される核酸増幅器と、
（ｉ）前記組成物を、各プローブが前記核酸に特異的にハイブリダイズする、少なくとも１つのプローブと接触させること、または（ｉｉ）前記核酸中の非天然もしくは未変性の化学構造の存在を観察することのうちの少なくとも１つによって、前記増幅された核酸中の前記少なくとも１つの遺伝子融合の存在を検出するように構成され、検出表示を送信するように更に構成される検出器と、
前記検出表示を受信し、前記検出表示に基づき、表１〜３、１９、及び２２からの少なくとも１つの癌が前記試料中に存在することを決定するように構成されるコンピューターシステムと
を備えるシステム。
非一時的コンピューター可読プログラム記憶装置であって、コンピューターによって実行された場合、
少なくとも癌のタイプ及び事象のタイプを含む入力を受信する段階であって、前記癌のタイプが表１５または表３９から選択され、前記事象のタイプが表１５から選択される、受信する段階と、
複数のフィールドを含む少なくとも１つのエントリーについてデータベースを照会する段階であって、前記複数のフィールドが、前記癌のタイプ及び前記事象のタイプのうちの少なくとも１つを含む、照会する段階と、
前記少なくとも１つのエントリーからの前記複数のフィールドのうちの少なくとも１つを含む出力を送信する段階であって、前記少なくとも１つのフィールドが、少なくとも１つの遺伝子、少なくとも１つのドラッガブル遺伝子、前記少なくとも１つのドラッガブル遺伝子を標的とする少なくとも１つの薬物、または予後を含む、送信する段階と
を含む方法を行う命令で符号化される、前記非一時的コンピューター可読プログラム記憶装置。
表１〜３、１９、及び２２に列挙される遺伝子融合から選択される少なくとも１つの遺伝子融合を有する患者に、表８、１６〜１７、２１、及び２４に列挙される薬物から選択される少なくとも１つの薬物を投与する段階
を含む、方法。
患者からの核酸試料を、第１の遺伝子に対して相補的である第１のプライマー、及び第２の遺伝子に対して相補的である第２のプライマーを含む反応混合物と接触させる段階であって、前記第１の遺伝子及び前記第２の遺伝子の融合が、前記第１のプライマー及び前記第２のプライマーによって生成されるアンプリコンの存在により検出可能であり、前記融合が、表４〜６、２０、及び２３に列挙される区切り点から選択される区切り点を含む、接触させる段階
を含む、方法。
前記融合の検出に応答して、表８、１６〜１７、２１、及び２４に列挙される薬物から選択される少なくとも１つの薬物が前記患者に投与される、請求項４０に記載の方法。
非一時的コンピューター可読プログラム記憶装置であって、コンピューターによって実行された場合、
少なくとも１つの癌細胞株からのＲＮＡ配列データを受信する段階と、
前記処理されたデータ中の融合遺伝子間の潜在的な区切り点を特定するために、前記配列データ上の少なくとも１つの遺伝子融合のコーラーを起動する段階と、
候補区切り点を保持するために前記潜在的な区切り点をフィルタリングする段階であって、各候補区切り点が５'非翻訳領域（ＵＴＲ）または機能遺伝子領域のコードＤＮＡ配列（ＣＤＳ）にあり、各候補区切り点がイントロン中では発生しない、フィルタリングする段階と、
前記候補区切り点を、癌診断、癌予後、または癌治療のうちの少なくとも１つについての遺伝子融合の関連性を決定するのに有用である少なくとも１つのアノテーションで、アノテートする段階であって、前記遺伝子融合が前記候補区切り点を含む、アノテートする段階と
を含む方法を行う命令で符号化される、前記非一時的コンピューター可読プログラム記憶装置。
前記少なくとも１つの遺伝子融合のコーラーが、ＴｏｐＨａｔ及びｄｅＦｕｓｅから選択される、請求項４２に記載の非一時的コンピューター可読プログラム記憶装置。
非一時的コンピューター可読プログラム記憶装置であって、コンピューターによって実行された場合、
少なくとも１つの癌細胞株からの変異データを受信する段階と、
アノテートされた変異データを産生するために、前記変異データを、変異型分類、変異型位置、または変異型変化のうちの少なくとも１つでアノテートする段階と、
遺伝子領域変異データを産生するために、前記アノテートされた変異データをフィルタリングする段階と、
前記遺伝子領域変異データを、ホットスポット、有害、またはその他として分類する段階と、
前記遺伝子領域変異を含む遺伝子を、前記遺伝子中の変異の相対頻度、及び前記遺伝子中の全ての遺伝子領域変異の前記分類に基づき、機能獲得型、機能喪失型、または反復性のその他の遺伝子として指定する段階と
を含む方法を行う命令で符号化される、前記非一時的コンピューター可読プログラム記憶装置。
前記変異型分類が、スプライス部位、３'非翻訳領域（ＵＴＲ）、５'ＵＴＲ、イントロン、ミスセンス、ナンセンス、ノンストップ、サイレント、フレームシフト挿入、フレームシフト欠失、インフレーム挿入、インフレーム欠失、または非コードエクソンから選択される、請求項４４に記載の非一時的コンピューター可読プログラム記憶装置。
前記アノテートされた変異データをフィルタリングする段階が、既知の遺伝子には関連付けられない既知の転写産物及び変異以外の変異を除外することを含む、請求項４４に記載の非一時的コンピューター可読プログラム記憶装置。
前記変異をホットスポットとして分類する段階が、少なくとも３つの癌細胞株において同一の変異型位置でその存在を決定することを含み、前記変異型分類がミスセンス、ノンストップ、インフレーム挿入、インフレーム欠失、または非コードエクソンである、請求項４４に記載の非一時的コンピューター可読プログラム記憶装置。
前記変異を有害として分類する段階が、前記変異型分類がナンセンス、フレームシフト挿入、またはフレームシフト欠失であることを観察することを含む、請求項４４に記載の非一時的コンピューター可読プログラム記憶装置。
遺伝子融合検出データを産生するために、対象からの試料中の１つ以上の遺伝子融合を検出する段階であって、前記遺伝子融合のうちの少なくとも１つは表１〜３、１９、及び２２に列挙される遺伝子融合から選択される、検出する段階と、
前記遺伝子融合検出データをコンピューターシステムで受信する段階と、
前記遺伝子融合検出データに基づき、前記対象にとって推奨される少なくとも１つの治療的な選択肢を前記コンピューターシステムで特定する段階と
を含む方法。
（ｉ）対象からの試料中の１つ以上の遺伝子融合を検出して遺伝子融合検出データを産生し、前記遺伝子融合のうちの少なくとも１つは表１〜３、１９、及び２２に列挙される遺伝子融合から選択され、かつ（ｉｉ）前記遺伝子融合検出データを送信するように構成される検出器と、
前記遺伝子融合検出データを受信し、かつ前記遺伝子融合検出データに基づき、前記対象にとって推奨される少なくとも１つの治療的な選択肢を特定するように構成されるコンピューターシステムと
を含むシステム。
前記遺伝子融合物が、
前記遺伝子融合物を含むＲＮＡ分子を単離する段階と、
前記単離されたＲＮＡ分子に対して相補的な相補的ＤＮＡ（ｃＤＮＡ）分子を合成する段階と
を含む工程によって調製される、請求項１０に記載の遺伝子融合物。
対象からの試料中の１つ以上の遺伝子の発現を検出するために、生物アッセイを行う段階であって、前記遺伝子のうちの少なくとも１つは表４０のものから選択される、生物アッセイを行う段階と、
前記生物アッセイの結果をコンピューターシステムに受信する段階と、
出力を決定するために、前記結果を処理する段階と、
可読媒体上に前記出力を提示する段階と
を含む方法。
前記出力が、前記遺伝子の発現レベルに基づき、前記対象にとって推奨される治療的な選択肢を特定する、請求項５２に記載の方法。
前記生物アッセイが、ＴＰ５３ＷＴシグネチャーを検出する、請求項５２に記載の方法。
前記試料が、肺癌、乳癌、卵巣癌、またはそれらの組み合わせからのものである、請求項５３に記載の方法。