I.大要
I.A.メチル化の大要
本明細書に従って、個体からのcfDNAフラグメントを、例えば非メチル化シトシンをウラシルに変換することにより処理し、シークエンシングし、かつシークエンスリードを参照ゲノムと比較して、DNAフラグメント内の特定のCpG部位におけるメチル化状態を同定する。各CpG部位は、メチル化されている場合、又はメチル化されていない場合がある。健康な個体と比較して、異常なメチル化フラグメントを同定することは、対象のがんの状態に対する識見を提供し得る。当技術分野でよく知られているように、DNAメチル化異常は(健康な対照と比較して)異なる影響を引き起こし、それががんの一因となる場合がある。様々な課題が、異常にメチル化されたcfDNAフラグメントの同定に生じる。まず、DNAフラグメントが異常にメチル化されていると判定することは、対照生体個体のグループとの比較において重みを持つことができるが、対照グループの数が少ない場合などでは、対照グループ生体サンプルの小さいサイズ内での統計的変動により、判定が信頼性を失う。そのうえ、対照個体の中でもメチル化の状態は様々であり、対象のDNAフラグメントが異常にメチル化されていると判定するときに、それを考慮することは困難である場合がある。もう一つ、あるCpG部位のシトシンのメチル化は、その後に続くCpG部位のメチル化に因果関係を持つ場合がある。この依存関係を封じ込めることは、それ自体、別の課題になり得る。
メチル化は、デオキシリボ核酸(DNA)において、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成するときに典型的に起こり得る。とりわけ、メチル化は、本明細書で「CpG部位」と呼ばれるシトシン及びグアニンのジヌクレオチドにおいて起こり得る。他の事例では、メチル化は、CpG部位の一部ではないシトシン、又はシトシンではない別のヌクレオチドで起こり得るが、しかしながら、これらは稀にしか発生しない。本開示では、メチル化は、明確化のために、CpG部位に関連して論じららる。異常なDNAメチル化は、ハイパーメチル化又はハイポメチル化として同定することができ、その両方が、がんの状態を示すことがある。本開示を通じて、DNAフラグメントが、閾値より多くの数のCpG部位を備え、それらのCpG部位の閾値より多くの割合がメチル化又は非メチル化である場合、ハイパーメチル化及びハイポメチル化は、DNAフラグメントに対して特徴付けられることができる。
本明細書に説明される原理は、非シトシンメチル化を含む非CpGコンテキストにおけるメチル化の検出にも同様に適用可能である。そのような実施態様では、メチル化を検出するために使用される湿式実験室アッセイは、本明細書に説明されるものと異なる場合がある。さらに、本明細書で論じられるメチル化状態ベクトルは、一般にメチル化が起こった部位又は起こっていない部位である要素(それらの部位が特にCpG部位でないとしても)を包含することができる。その置換を用いて、本明細書に説明されるプロセスの残りは同じであり得、かつその結果、本明細書に説明される発明概念は、それらの他の形態のメチル化にも適用可能にすることができる。
I.B.定義
「無細胞核酸」又は「cfNA」という用語は、個体の体内(例えば、血液)を循環し、かつ1つ以上の健康な細胞及び/又は1つ以上の不健康な細胞(例えば、がん細胞)から由来する核酸フラグメントを指す。「無細胞DNA」又は「cfDNA」という用語は、個体の体内(例えば、血液)を循環するデオキシリボ核酸フラグメントを指す。そのうえ、個体の体内のcfNA又はcfDNAは、他の非ヒトの供給源からくる場合もある。
「ゲノム核酸」、「ゲノムDNA」、又は「gDNA」という用語は、1つ以上の細胞から得られた核酸分子又はデオキシリボ核酸分子を指す。様々な実施態様において、gDNAは、健康な細胞(例えば、非腫瘍細胞)又は腫瘍細胞(例えば、生検サンプル)から抽出することができる。いくつかの実施態様において、gDNAは、白血球などのような血球系に由来する細胞から抽出することができる。
「循環腫瘍DNA」又は「ctDNA」という用語は、腫瘍細胞又は他の種類のがん細胞に由来する核酸フラグメントであって、かつ瀕死細胞のアポトーシス又は壊死などのような生物学的プロセスの結果として、若しくは生存腫瘍細胞によって活発に放出される個体の体液(例えば、血液、汗、尿又は唾液)中に放出される核酸フラグメントを指す。
「DNAフラグメント」、「フラグメント」、又は「DNA分子」という用語は、一般に、任意のデオキシリボ核酸フラグメント、すなわち、cfDNA、gDNA、ctDNAなどを指す場合がある。
「異常なフラグメント」、「異常なメチル化フラグメント」、又は「異常なメチル化パターンを有するフラグメント」という用語は、CpG部位の異常なメチル化を有するフラグメントを指す。フラグメントの異常なメチル化は、対照グループ中のフラグメントのメチル化パターンを観察することの意外性を同定するために、確率モデルを使用して判定する場合がある。
「極端にメチル化された普通ではないフラグメント」又は「UFXM」という用語は、ハイポメチル化フラグメント又はハイパーメチル化フラグメントを意味する。ハイポメチル化フラグメント及びハイパーメチル化フラグメントは、それぞれ、メチル化又は非メチル化のある閾値割合(例えば、90%)を超えた少なくともある数のCpG部位(例えば、5)を有するフラグメントを意味する。
「異常スコア」という用語は、そのCpG部位に重なるサンプルからの異常なフラグメント(又は、いくつかの実施態様では、UFXM)の数に基づく、そのCpG部位のスコアを指す。異常スコアは、分類のためのサンプルの特徴付けの文脈で使用される。
本明細書で使用される場合、「約」又は「ほぼ」という用語は、当業者によって決定されるような特定の値に対する許容誤差範囲内を意味し得、これは、値が測定又は決定される方法、例えば、測定システムの限界に部分的に依存し得る。例えば、「約」は、当業者の慣例により、1標準偏差以上を意味し得る。「約」は、所与の値の±20%、±10%、±5%、又は±1%の範囲を意味し得る。「約」又は「ほぼ」という用語は、ある値の1桁以内、5倍以内、又は2倍以内を意味し得る。特定の値が本願及び特許請求の範囲に記載されているところは、特に断りのない限り、特定の値の許容誤差範囲内を意味する「約」という用語が想定されるべきである。「約」という用語は、当業者によって一般的に理解されるような意味を有し得る。「約」という用語は、±10%を指し得る。「約」という用語は、±5%を指し得る。
本明細書で使用される場合、用語「生体サンプル」、「患者サンプル」、又は「サンプル」は、対象から採取された任意のサンプルを指し、対象に紐づく生体状態を反映し得、かつ無細胞DNAを含むものを指す。生体サンプルの例としては、対象の血液、全血液、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液を含むが、これらに限定されるものではない。生体サンプルは、生きている又は死んだ対象から抽出した任意の組織又は材料を含み得る。生体サンプルは、無細胞サンプルであり得る。生体サンプルは、核酸(例えば、DNA又はRNA)若しくはそのフラグメントを備え得る。「核酸」という用語は、デオキシリボ核酸(DNA)、リボ核酸(RNA)、又はそれらのハイブリッド若しくはフラグメントを指し得る。サンプル中の核酸は、無細胞核酸であり得る。サンプルは、液体サンプル又は固体サンプル(例えば、細胞又は組織サンプル)であり得る。生体サンプルは、血液、血漿、血清、尿、膣液、(例えば、精巣の)水腫からの液体、膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の異なる部分(例えば、甲状腺、乳房)からの吸引液などのような体液であり得る。生体サンプルは、便サンプルであり得る。様々な実施態様では、無細胞DNAについて濃縮された生体サンプル(例えば、遠心分離プロトコルを介して得られた血漿サンプル)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%、60%、70%、80%、90%、95%、又は99%より大きいものは、細胞を含まないものであり得る)。生体サンプルは、組織又は細胞構造を物理的に破壊するように処理することができ(例えば、遠心分離及び/又は細胞溶解)、このようにして、細胞内成分を、分析用のサンプルを調製するために使用できる酵素、緩衝液、塩、界面活性剤などを更に含むことができる溶液中に放出する。
本明細書で使用される場合、用語「対照」、「対照サンプル」、「参照」、「参照サンプル」、「正常」、及び「正常サンプル」は、特定の状態を有しない、又はその他の健康である対象からのサンプルを説明する。一例では、本明細書に開示されるような方法は、腫瘍を有する対象に対して行なわれ得、参照サンプルは、対象の健康な組織から採取されたサンプルである。参照サンプルは、対象、又はデータベースから得ることができる。参照は、例えば、対象からのサンプルのシークエンシングから得られた核酸フラグメントシークエンスをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生体サンプル及び構造サンプルからの核酸フラグメントシークエンスがアラインメントされ比較することができる、ハプロイド又はディプロイドゲノムを指し得る。構造サンプルの例としては、対象から得られた白血球のDNAであり得る。ハプロイドゲノムについては、各遺伝子座において1つだけヌクレオチドが存在することができる。ディプロイドゲノムについては、ヘテロ接合性遺伝子座を同定することができ、各ヘテロ接合性遺伝子座は2つの対立遺伝子を有することができ、ここで、いずれかの対立遺伝子が遺伝子座へのアライメントのためのマッチングを可能にし得る。
本明細書で使用する場合、「がん」又は「腫瘍」という用語は、組織の異常な塊で、その塊の成長が正常な組織の成長を上回り、かつ調和できないものを指す。
本明細書で使用される場合、「健康な」という語句は、良好な健康状態を有している対象を指す。健康な対象は、いかなる悪性疾患又は非悪性疾患もないことを示し得る。「健康な個体」は、アッセイされている状況とは無関係な他の疾患又は状況を有し得、通常、「健康」とは見なされない。
本明細書で使用する場合、「メチル化」という用語は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成するデオキシリボ核酸(DNA)の変更を指す。とりわけ、メチル化は、本明細書では「CpG部位」と呼ぶシトシン及びグアニンのジヌクレオチドで起こる傾向がある。他の実例では、メチル化はCpG部位以外のシトシン又はシトシンではない他のヌクレオチドで起こることがあるが、しかしながら、これはまれな現象である。異常なcfDNAのメチル化は、ハイパーメチル化又はハイポメチル化として同定することができ、いずれもがんの状態を示す場合がある。DNAメチル化異常は(健康な対照と比較して)異なる作用を引き起こし、がんに寄与する場合がある。本明細書に説明される原理は、非シトシンメチル化を含むCpGコンテキスト及び非CpGコンテキストでのメチル化の検出にも同様に適用可能である。さらに、メチル化状態ベクトルは、一般にメチル化が起こった部位又は起こらなかった部位のベクトルである要素を包含する場合がある(それらの部位が特にCpG部位でないとしても)。
本明細書で互換的に使用されるように、「メチル化フラグメント」又は「核酸メチル化フラグメント」という用語は、核酸(例えば、核酸分子及び/又は核酸フラグメント)のメチル化シークエンシングによって決定される複数のCpG部位中の各CpG部位に対sjrjメチル化状態のシークエンスを指す。メチル化フラグメントでは、核酸フラグメント中の各CpG部位についての位置及びメチル化状態が、参照ゲノムに対するシークエンスリード(例えば、核酸のシークエンシングから得られたもの)のアラインメントに基づいて決定される。核酸メチル化フラグメントは、複数のCpG部位中の各CpG部位のメチル化状態(例えば、メチル化状態ベクトル)を備え、参照ゲノム中の核酸フラグメントの位置(例えば、CpGインデックス、又は他の同様のメトリックを使用して核酸フラグメント中の最初のCpG部位の場所によって特定される)及び核酸フラグメント中のCpG部位数を特定する。シークエンスリードの参照ゲノムへのアライメントは、核酸分子のメチル化シークエンシングに基づいて、CpGインデックスを使用して行われ得る。本明細書で使用する場合、「CpGインデックス」という用語は、ヒト参照ゲノムなどのような参照ゲノム中の複数のCpG部位(例えば、CpG1、CpG2、CpG3など)の各CpG部位のリストを指し、電子フォームであることができる。CpGインデックスは、CpGインデックス中の各それぞれのCpG部位について、対応する参照ゲノム中の対応するゲノム位置を更に備える。このようにして、各それぞれの核酸メチル化フラグメント中の各CpG部位は、それぞれの参照ゲノム中の特定の位置にインデックスされ、これは、CpGインデックスを使用して決定することができる。
本明細書で使用される場合、「真陽性」(TP)という用語は、状況を有する対象を指す。「真陽性」は、腫瘍、がん、前がん状況(例えば、前がん病変)、限局性又は転移性がん、若しくは非悪性疾患を有する対象を指し得る。「真陽性」は、状況を有する対象を指し得、かつ本開示のアッセイ又は方法によって状況を有するとして同定される。本明細書で使用される場合、「真性陰性」(TN)という用語は、状況を有さない、又は検出可能な状況を有さない対象を指す。真陰性は、腫瘍、がん、前がん状況(例えば、前がん病変)、限局性又は転移性がん、非悪性疾患、若しくはその他の健康である対象などのような疾患若しくは検出可能な疾患を有していない対象を指し得る。真陰性は、状況を有さない、検出可能な状況を有さない、若しくは本開示のアッセイ又は方法によって状況を有さないことが同定される対象を指し得る。
本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるか完全であるかにかかわらず、対象からの同定されたシークエンスを参照するために使用される場合がある、任意の生物又はウイルスの任意の特定の既知のシークエンシング若しくは特徴付けられたゲノムを指す。ヒトの対象と同様に他の多くの生物にも使用される例示的な参照ゲノムは、国立生物工学情報センター(NCBI)又はカリフォルニア大学サンタクルーズ校(UCSC)がホストするオンラインゲノムブラウザで提供される。「ゲノム」は、核酸シークエンスで表現される、生物又はウイルスの完全な遺伝情報を指す。本明細書で使用される場合、参照シークエンス又は参照ゲノムは、多くの場合、個体又は多数の個体から組み立てられた若しくは部分的に組み立てられたゲノムシークエンスである。いくつかの実施態様において、参照ゲノムは、1つ以上のヒト個体からの組み立てられた又は部分的に組み立てられたゲノムシークエンスである。参照ゲノムは、種の遺伝子のセットの代表例として見ることができる。いくつかの実施態様において、参照ゲノムは、染色体に割り当てられたシークエンスを備える。例示的なヒト参照ゲノムには、NCBIビルド34(UCSC相当:hg16)、NCBIビルド35(UCSC相当:hg17)、NCBIビルド36.1(UCSC相当:hg18)、GRCh37(UCSC相当:hg19)、及びGRCh38(UCSC相当:hg38)を含むがこれらに限られるわけではない。
本明細書で使用される場合、用語「シークエンスリード」又は「リード」は、本明細書で説明する、又は当該技術分野で既知の任意のシークエンシングプロセスによって生成されるヌクレオチドシークエンスを指す。リードは、核酸フラグメントの一端から作り出すことができ(「シングルエンドリード」)、そして時には核酸の両端から生成される(例えば、ペアエンドリード、ダブルエンドリード)。いくつかの実施態様において、シークエンスリード(例えば、シングルエンドリード又はペアエンドリード)は、標的核酸フラグメントの片方の鎖又は両方の鎖から生成することができる。シークエンスリードの長さは、しばしば、特定のシークエンシング技術に紐づけられる。例えば、ハイスループット法は、数十から数百の塩基対(bp)の大きさで変化することができるシークエンスリードを提供する。いくつかの実施態様では、シークエンスリードは、約15bp~約900bpの長さの平均、中央値又は平均長(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bpである。いくつかの実施態様では、シークエンスリードは、約1000bp、2000bp、5000bp、10,000bp、又は50,000bp以上の平均、中央値、又は平均長である。ナノポアシークエンシングは、例えば、数十から数百、数千の塩基対の大きさで変化することができるシークエンスリードを提供することができる。イルミナパラレルシークエンスは、それほど変化しないシークエンスリードを提供することができ、例えば、シークエンスリードの大部分は200bpより小さくなり得る。シークエンスリード(又はシークエンシングリード)は、核酸分子(例えば、ヌクレオチドの列)に対応するシークエンス情報を指すことができる。例えば、シークエンスリードは、核酸フラグメントの一部からのヌクレオチドの列(例えば、約20~約150)に対応することができ、核酸フラグメントの一端又は両端のヌクレオチドの列に対応することができ、若しくは核酸フラグメント全体のヌクレオチドに対応することができる。シークエンスリードは、例えば、シークエンシング技術を使用する、又は、例えば、ハイブリダイゼーションアレイ又はキャプチャプローブにおいて、若しくはポリメラーゼ連鎖反応(PCR)若しくは単一のプライマー又は等温増幅を使用する線形増幅などのような増幅技術といったプローブを使用する様々な方法で、得ることができる。
本明細書で使用される「シークエンシング」等の用語は、核酸又はタンパク質などのような生体高分子の順序を決定するために使用される場合がある任意の及び全ての生化学的プロセスを一般に指す。例えば、シークエンシングデータは、DNAフラグメントなどのような核酸分子中のヌクレオチド塩基の全て又は一部を含むことができる。
本明細書で使用される場合、用語「シークエンス深度」は、用語「カバレッジ」と交換可能に使用され、かつ遺伝子座にアライメントされる固有の核酸標的分子に対応するコンセンサスシークエンスリードによって遺伝子座が覆われる回数を指し、例えば、シークエンス深度は、遺伝子座を覆う固有の核酸標的分子の数と同じである。遺伝子座は、ヌクレオチドと同じくらい小さくてもよく、染色体アームと同じくらい大きくてもよく、又はゲノム全体と同じくらい大きくてもよい。シークエンス深度は、「Y倍」、例えば、50倍、100倍等として表すことができ、ここで、「Y」は、核酸標的に対応するシークエンスで遺伝子座を覆う回数、例えば、特定の遺伝子座を覆う独立シークエンス情報が得られる回数を指す。いくつかの実施態様において、シークエンス深度は、シークエンシングされたゲノムの数に対応する。シークエンス深度は、多数の遺伝子座、又は全ゲノムに適用することもでき、その場合、Yは、遺伝子座又はハプロイドゲノム、若しくは全ゲノムがそれぞれシークエンシングされた回数の平均又は平均回数を指し得る。平均深度が引用されているとき、データセットに含まれる異なる遺伝子座の実際の深度は、値の範囲にまたがる可能性がある。超深度シークエンシングは、遺伝子座におけるシークエンス深度が少なくとも100倍であることを指し得る。
本明細書で使用する場合、「感度」又は「真陽性率」(TPR)という用語は、真陽性の数を真陽性及び偽陰性の数の合計によって除したものを指す。感度は、状況を真に有する集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例えば、感度は、がんを有する集団内の対象の数を正しく同定する方法の能力を特徴付けることができる。別の例では、感度は、がんを示す1つ以上のマーカーを正しく同定する方法の能力を特徴付けることができる。
本明細書で使用される場合、「特異度」又は「真陰性率」(TNR)という用語は、真陰性の数を真陽性及び偽陽性の数の合計によって除したものを指す。特異性は、ある状態を本当に有していない集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例えば、特異性は、がんを持たない集団内の対象の数を正しく同定する方法の能力を特徴付けることができる。別の例では、特異性は、がんを示す1つ以上のマーカーを正しく同定する方法の能力を特徴付ける。
本明細書で使用する場合、用語「対象」は、ヒト(例えば、男性の人、女性の人、胎児、妊娠中の女性、又は子供など)、非ヒト動物、植物、細菌、真菌、又は原生生物を含むがこれらに限定されない、任意の生物若しくは非生物のことを指す。任意のヒト又は非ヒト動物は対象として扱うことができ、これには、哺乳類、爬虫類、鳥類、両生類、魚類、無蹄類、反芻動物、ウシ属(例えば、牛)、ウマ属(例えば、馬)、ヤギ亜科及びオビーン(例えば、羊、山羊)、ブタ亜種(例えば、豚)、ラクダ科(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、熊)、鶏、犬、猫、マウス、ラット、魚、イルカ、クジラ、及びサメを含むがこれらに限定されない。いくつかの実施態様において、対象は、任意のステージの男性又は女性(例えば、大人の男性、大人の女性、又は子供)である。サンプルが採取される、若しくは本明細書に記載の方法又は構成のいずれかによって取り扱われる対象は、任意の年齢であることができ、成人、乳児、又は子供とすることができる。
本明細書で使用される場合、用語「組織」は、機能単位として一緒にグループ化される細胞のグループに対応し得る。1つ以上のタイプの細胞が、単一の組織に見出され得る。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞又は血球細胞)から構成される場合があるが、異なる生物(母親対胎児)からの組織又は健康な細胞対腫瘍細胞に対応することも可能である。「組織」という用語は、一般的に、人体に見られる任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、咽頭組織)を指すことができる。いくつかの態様において、用語「組織」又は「組織タイプ」は、無細胞核酸から発生する組織を指すために使用される場合がある。一例では、ウイルス核酸フラグメントは血液組織に由来する可能性がある。別の例では、ウイルス核酸フラグメントは、腫瘍組織に由来する可能性がある。
本明細書で使用する場合、「ゲノム」という用語は、生物のゲノムの特性を指す。ゲノム特性の例には、ゲノムの全部又は一部の一次核酸シークエンス(例えば、ヌクレオチド多型、インデル、シークエンス転位、変異頻度などの有無)に関するもの、ゲノム内の1つ以上の特定のヌクレオチドシークエンスのコピー数(例えば、コピー数、対立遺伝子頻度分率、単一染色体又はゲノム全体の倍率など)、ゲノムの全部又は一部のエピジェネティック状態(例えば、メチル化などのような共有結合核酸修飾、ヒストン修飾、ヌクレオソーム位置関係など)、生物のゲノムの発現プロファイル(例えば、遺伝子発現レベル、アイソタイプ発現レベル、遺伝子発現比率など)を含むが、これに限定されない。
本明細書で使用される用語は、特定の場合を説明する目的のみのものであり、限定することを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。さらに、「含んでいる」、「含む」、「有している」、「有する」、「有して」、又はその変形が詳細な説明及び/又は特許請求の範囲のいずれかで使用される限り、そのような用語は、用語「備える」と同様の方法で包含することを意図している。
II.サンプル処理
II.A.DNAフラグメントのメチル化状態ベクトルの作製
図1Aは、1つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞(cf)DNAのフラグメントをシークエンシングするプロセス100を説明する例示的なフローチャートである。DNAメチル化を分析するために、分析システムは、まず、複数のcfDNA分子を含む個体からサンプルを得る(110)。一般に、サンプルは、健康な個体、がんを有することが知られている又はがんを有することが疑われる対象、若しくは事前に情報が知られていない対象からのものであってよい。テストサンプルは、血液、血漿、血清、尿、糞便、及び唾液サンプルからなる群から選択されるサンプルであってよい。代替的に、テストサンプルは、全血、血液画分(例えば、白血球(WBC))、組織生検、胸水、心嚢液、脳脊髄液、及び腹膜液からなる群から選択されるサンプルを含んでいてもよい。追加の実施態様では、プロセス100は、他のタイプのDNA分子のシークエンスが適用されてもよい。
サンプルから、分析システムは、各cfDNA分子を単離することができる。cfDNA分子は、非メチル化シトシンをウラシルに変換するように処理することができる。一実施態様では、本方法は、メチル化シトシンを変換することなく非メチル化シトシンをウラシルに変換するDNAの重亜硫酸塩処理を使用する。例えば、EZ DNA MethylationTM-Gold、EZ DNA MethylationTM-Direct又はEZ DNA MethylationTM-Lightningキット(Zymo Research Corp (Irvine, CA)から入手可能)などのような市販キットが、重亜硫酸塩変換のために使用される。別の実施態様では、非メチル化シトシンのウラシルへの変換は、酵素反応を使用して達成される。例えば、変換は、APOBEC-Seq(NEBiolabs, Ipswich, MA)などのような非メチル化シトシンのウラシルへの変換のための市販で利用可能なキットを使用することができる。
変換されたcfDNA分子から、シークエンシングライブラリーを調製することができる(130)。ライブラリー調製中、アダプターライゲーションを通じて、核酸分子(例えば、DNA分子)に固有の分子識別子(UMI)を付加することができる。UMIは、アダプターライゲーション中にDNAフラグメントの末端(例えば、物理的剪断、酵素消化、及び/又は化学的フラグメント化によってフラグメント化されたDNA分子)に付加される短い核酸シークエンス(例えば、4~10塩基対)とすることができる。UMIは、特定のDNAフラグメントから発生するシークエンスリードを同定するために使用できる固有のタグとして役に立つ縮退塩基対とすることができる。アダプターライゲーションに続くPCR増幅中に、UMIは、付着したDNAフラグメントとともに複製することが可能である。これは、下流の分析において、同じ元のフラグメントからくるシークエンスリードを同定する方法を提供し得る。
オプションで、シークエンシングライブラリーは、複数のハイブリダイゼーションプローブを使用するがんの状態に対する有益なcfDNA分子、又はゲノム領域について濃縮してもよい(135)。ハイブリダイゼーションプローブは、特に指定されたcfDNA分子、又は標的領域にハイブリダイズし、かつその後のシークエンシング及び分析のためにそれらのフラグメント又は領域を濃縮することができる短いオリゴヌクレオチドとすることができる。ハイブリダイゼーションプローブは、研究者が関心を持つ特定のCpG部位のセットを標的とした高深度分析を行うために使用することができる。ハイブリダイゼーションプローブは、1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、又は10倍以上のカバレッジで1つ以上の標的シークエンスにわたって並べることができる。例えば、2倍のカバレッジで並べたハイブリダイゼーションプローブは、標的シークエンスの各部分が2つの独立したプローブとハイブリダイズするように、重なり合うプローブを備える。ハイブリダイゼーションプローブは、1倍未満のカバレッジで1つ以上の標的シークエンスにわたって並べることができる。
一実施態様において、ハイブリダイゼーションプローブは、非メチル化シトシンをウラシルに変換するために処理(例えば、重亜硫酸塩を使用)されたDNA分子を濃縮するように設計される。濃縮の間、ハイブリダイゼーションプローブ(本明細書では「プローブ」とも呼ばれる)は、がん(又は疾患)の有無、がんの状態、若しくはがんの分類について有益な(例えば、がんクラス又は発生組織)核酸フラグメントを標的にし、かつ引き落とすために使用することができる。プローブは、DNAの標的(相補的)鎖にアニーリング(又はハイブリダイズ)するように設計されてもよい。標的鎖は、「陽性」鎖(例えば、mRNAに転写され、その後タンパク質に翻訳される鎖)、又は相補的な「陰性」鎖であってもよい。プローブの長さは、10、100、又は1000塩基対の範囲としてもよい。プローブは、メチル化部位パネルに基づいて設計することができる。特定のがん又は他の種類の疾患に対応すると疑われる(例えば、ヒト又は他の生物の)特定の変異又はゲノムの標的領域を分析するために、標的遺伝子のパネルに基づいてプローブを設計することができる。くわえて、プローブは、標的領域の重なり合う部分をカバーしてもよい。
一旦調製されると、シークエンシングライブラリー又はその一部を、複数のシークエンスリードを得るためにシークエンシングすることができる。シークエンスリードは、コンピュータソフトウェアによる処理及び解釈のために、コンピュータ読み取り可能なデジタルフォーマットであってもよい。シークエンスリードは、アライメント位置情報を決定するために参照ゲノムにアライメントされてもよい。アラインメント位置情報は、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム内の領域の開始位置及び終了位置を示してもよい。アラインメント位置情報はまた、開始位置及び終了位置から決定することができるシークエンスリードの長さを含んでもよい。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよい。シークエンスリードは、R1及びR2と表記されるリードペアで構成することができる。例えば、第1のリードR1は核酸フラグメントの第1の末端からシークエンスされてもよく、一方で第2のリードR2は核酸フラグメントの第2末端からシークエンスされてもよい。それゆえに、第1のリードR1及び第2のリードR2のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して(例えば、反対の向きで)アライメントされる場合がある。リードペアR1及びR2に由来するアラインメント位置情報は、第1のリード(例えば、R1)の末端に対応する参照ゲノム中の開始位置、及び第2のリード(例えば、R2)の末端に対応する参照ゲノム中の終了位置を含んでもよい。言い換えれば、参照ゲノム中の開始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性の高い位置を表すことができる。SAM(シークエンスアライメントマップ)形式又はBAM(バイナリ)形式を有する出力ファイルを生成し、メチル化状態決定などのようなさらなる分析のために出力してもよい。
分析システムは、シークエンスリードから、参照ゲノムとのアライメントに基づいて、各CpG部位の位置及びメチル化状態を判定する(150)。分析システムは、各フラグメントに対して、参照ゲノム中のフラグメントの位置(各フラグメント中の第1のCpG部位の位置、又は別の同様の指標によって特定される)、フラグメント中のCpG部位の数、及びフラグメント中の各CpG部位のメチル化(例えば、Mとして表記)、非メチル化(例えば、Uとして表記)又は不定(例えば、Iとして表記)を特定する各フラグメントのメチル化状態ベクトルを生成する(160)。観察された状態は、メチル化及び非メチル化の状態であり、一方、観察されない状態は、不確定である。不確定なメチル化状態は、シークエンシングエラー及び/又はDNAフラグメントの相補鎖のメチル化状態間の不一致が元である場合がある。メチル化状態ベクトルは、後の使用及び処理のために、一時的又は持続的なコンピュータメモリに格納されてもよい。さらに、分析システムは、単一のサンプルから重複するリード又は重複するメチル化状態ベクトルを除去してもよい。分析システムは、1つ以上のCpG部位を有するあるフラグメントが、閾値の数又はパーセンテージを超える不確定なメチル化状態を有すると判定してもよく、かつそのようなフラグメントを除外、又はそのようなフラグメントを選択的に含むが、そのような不確定メチル化状態を考慮するモデルを構築してもよい。そのようなモデルの1つが図4と併せて以下に説明されることになる。
図1Bは、1つ以上の実施態様による、メチル化状態ベクトルを得るためにcfDNA分子をシークエンシングする図1Aのプロセス100の例示的な図である。一例として、分析システムは、この例では、3つのCpG部位を包含するcfDNA分子112を受信する。示すように、cfDNA分子112の第1及び第3のCpG部位は、メチル化されている(114)。処理ステップ120の間、cfDNA分子112は、変換されたcfDNA分子122を生成するために変換される。処理120の間、メチル化されていない第2のCpG部位は、そのシトシンがウラシルに変換される。しかしながら、第1及び第3のCpG部位は変換されなくてもよい。
変換後、シークエンスリード142を生成するために、シークエンシングライブラリー130を調製、及びシークエンシングを行なう(140)。分析システムは、シークエンスリード142を参照ゲノム144にアライメントする(150)。参照ゲノム144は、フラグメントcfDNAがヒトゲノム中のどの場所を元としているかについての文脈を提供する。この単純化された例では、分析システムは、3つのCpG部位がCpG部位23、24、及び25(説明の便宜のために使用される任意の参照識別子)に相関するようにシークエンスリード142をアライメントする。このようにして、分析システムは、cfDNA分子112上の全てのCpG部位のメチル化状態、及びCpG部位がマッピングされるヒトゲノム中の位置の両方に関する情報を生成することができる。示すように、メチル化されたシークエンスリード142上のCpG部位は、シトシンとして読み取られる。この例では、シトシンはシークエンスリード142中の第1及び第3のCpG部位のみに現れており、これは、元のcfDNA分子中の第1及び第3のCpG部位がメチル化されると推測させられる。一方、第2のCpG部位はチミンとして読み取ることができ(Uはシークエンシングプロセス中にTに変換される)、かつこのように、第2のCpG部位は元のcfDNA分子で非メチル化されると推論することができる。これら2つの情報、メチル化状態及び位置を用いて、分析システムは、フラグメントcfDNA112のメチル化状態ベクトル152を160生成する。この例では、結果として生じるメチル化状態ベクトル152は<M23、U24、M25>であり、ここで、Mはメチル化されたCpG部位に対応し、Uは非メチル化されたCpG部位に対応し、かつ下付き数字は参照ゲノム中の各CpG部位の場所に対応する。
生体サンプル中の核酸からシークエンスリードを得るために、1つ以上の代替的なシークエンシング方法を使用することができる。1つ以上のシークエンシング方法は、核酸(例えば、無細胞核酸)から測定されたシークエンスリードの数を得るために使用できる任意の形式のシークエンシングを備えることができ、これには、Roche454プラットフォーム、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNAシークエンシング技術、Affymetrix Incのシークエンシング-ハイブリッド化プラットフォーム、一分子、リアルタイム(SMRT)技術、454Life Sciencesのシーケンシングバイシンセシス(合成)プラットフォーム、イルミナ/Solexa及びHelicos Biosciences、並びにApplied Biosystemsのシーケンシングバイライゲーションプラットフォームなどのような高処理シークエンシングシステムを含むが、これに限定はされない。Life technologiesのION TORRENTテクノロジー、及びNanoporeシークエンシングもまた、生体サンプル中の核酸(例えば無細胞核酸)からシークエンスリードを得るために使用することができる。シーケンシングバイシンセシス及び可逆的ターミネーターベースのシーケンシング(例えば、イルミナのゲノムアナライザー、ゲノムアナライザーII、HISEQ2000、HISEQ2500(イルミナ、サンディエゴカリフォルニア))は、遺伝子型データセットを形成するために、訓練対象の生体サンプルから得られた無細胞核酸からシークエンスリードを得るために使用することができる。数百万の無細胞核酸(例えば、DNA)フラグメントを並行してシークエンシングすることができる。このタイプのシークエンシング技術の一例として、表面上にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合された8つの個別レーンを有する光学的に透明なスライドを包含するフローセルが使用される。無細胞核酸サンプルは、検出を容易にする信号又はタグを含むことができる。生体サンプルから得られた無細胞核酸からのシークエンスリードの取得は、例えば、フローサイトメトリー、定量ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、遺伝子チップ分析、マイクロアレイ、質量分析、サイトフルオロメトリック分析、蛍光顕微鏡、共焦点レーザー走査顕微鏡、レーザー走査サイトメトリ、アフィニティークロマトグラフィー、手動バッチモード分離、電界懸濁、シークエンシング、及びこれらの組み合わせなどのような様々な技法を介して信号又はタグの定量情報を得ることを含むことができる。
1つ以上のシークエンシング方法は、全ゲノムシークエンシングアッセイを備えることができる。全ゲノムシークエンスアッセイは、コピー数変動又はコピー数異常などのような大きな変動を決定するために使用することができる全ゲノム又は全ゲノムのかなりの部分についてシークエンスリードを生成する物理的アッセイを備えることができる。このような物理的アッセイは、全ゲノムシークエンス技術又は全エクソームシークエンス技術を採用してもよい。全ゲノムシークエンスアッセイは、テスト対象のゲノムに渡って少なくとも1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、少なくとも20倍、少なくとも30倍、又は少なくとも40倍の平均シークエンス深度を有することができる。いくつかの実施態様では、シークエンス深度が、約30,000倍である。1つ以上のシークエンシング方法は、標的化パネルシークエンシングアッセイを備えることができる。標的化パネルシークエンスアッセイは、遺伝子の標的化パネルに対して、少なくとも50,000倍、少なくとも55,000倍、少なくとも60,000倍、又は少なくとも70,000倍の平均シークエンス深度を有することができる。遺伝子の標的化パネルは、450~500個の間の遺伝子を含むことができる。遺伝子の標的化パネルは、500±5遺伝子の範囲、500±10遺伝子の範囲、又は500±25遺伝子の範囲を含むことができる。
1つ以上のシークエンシング方法は、ペアエンドシークエンシングを備えることができる。1つ以上のシークエンシング方法は、複数のシークエンスリードを生成することができる。複数のシークエンスリードは、10~600の間、50~400の間、又は100~300の間の範囲の平均長さを有することができる。1つ以上のシークエンシング方法は、メチル化シークエンシングアッセイを備えることができる。メチル化シークエンシングは、i)全ゲノムメチル化シークエンシング、又はii)複数の核酸プローブを使用した標的DNAメチル化シークエンシングとすることができる。例えば、メチル化シークエンシングは、全ゲノムビスルファイトシークエンシング(例えば、WGBS)である。メチル化シークエンシングは、メチロームの最も情報を与える領域、固有のメチル化データベース、並びに先行するプロトタイプの全ゲノム及び標的シークエンシングアッセイを標的とする複数の核酸プローブを使用した標的DNAメチル化シークエンシングとすることができる。
メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)を検出し得る。メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の1つ以上の非メチル化されたシトシン又は1つ以上のメチル化されたシトシンを、対応する1つ以上のウラシルに変換することを備えることができる。1つ以上のウラシルは、1つ以上の対応するチミンとして、メチル化シークエンシング中に検出することができる。1つ以上の非メチル化されたシトシン又は1つ以上のメチル化されたシトシンの変換は、化学的変換、酵素的変換、又はそれらの組み合わせを備えることができる。
例えば、重亜硫酸塩変換は、メチル化されたシトシン(例えば、5-メチルシトシン又は5-mC)をそのままにする一方で、シトシンをウラシルに変換することを伴う。いくつかのDNAでは、約95%のシトシンがDNA中でメチル化されていない場合があり、かつ結果として生じるDNAフラグメントは、チミンによって表される多くのウラシルを含む場合がある。シークエンシング前の核酸の処理には、酵素変換プロセスを使用してもよく、これは様々な方法で行うことができる。ビスサルファイトフリー変換の一例は、非修飾シトシンに影響を与えずに5-メチルシトシン及び5-ヒドロキシメチルシトシンを破壊せずかつ直接検出するためのビスサルファイトフリー及び塩基分解能シークエンシング法、TET-アシストピリジンボランシークエンシング(TAPS)を備える。それぞれの核酸メチル化フラグメント中の対応する複数のCpG部位のメチル化状態を、メチル化シークエンスによってCpG部位がメチル化されていると判定されたときにメチル化とすることができ、メチル化シークエンスによってCpG部位がメチル化されていないと判定された場合には非メチル化とすることができる。
メチル化シークエンシングアッセイ(例えば、WGBS及び/又は標的メチル化シークエンシング)は、約1,000倍、2,000倍、3,000倍、5,000倍、10,000倍、15,000倍、20,000倍、又は30,000倍までを含むがこれに限定されない平均シークエンス深度を有することができる。メチル化シークエンシングは、30,000倍より大きい、例えば、少なくとも40,000倍又は50,000倍であるシークエンス深度を有することができる。全ゲノムバイサルファイトシークエンス法は、20倍~50倍の間の平均シークエンス深度を有することができ、かつ標的メチル化シークエンス法は、100倍~1000倍の間の平均有効深度を有し、有効深度は、標的メチル化シークエンスによって得られた同じ数のシークエンスリードを得るための等価全ゲノムバイサルファイトシークエンスカバレッジとすることができる。
メチル化シークエンシング(例えば、WGBS及び/又は標的メチル化シークエンシング)に関する更なる詳細については、例えば、2018年3月13日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許出願第62/642,480号、及び2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許出願第16/719,902号を参照してよく、その各々が参照によって本明細書に組み込まれる。本明細書に開示されたもの及び/又はその任意の改変、置換、若しくは組み合わせを含むメチル化シークエンシングのための他の方法は、フラグメントメチル化パターンを得るために使用することができる。メチル化シークエンシングは、例えば、2019年3月13日に出願された「Anomalous Fragment Detection and Classification」と題する米国特許出願第16/352,602号にされているように、又は2020年5月13日に出願された「Model-Based Featureization and Classification」と題する米国特許出願第15/931,022号に記載されているような技術のいずれかに従って1つ以上のメチル化状態ベクトルを特定するために使用することができ、これらの各々は参照によって本明細書に組み込まれる。
核酸のメチル化シークエンシング及び結果として生じる1つ以上のメチル化状態ベクトルは、複数の核酸メチル化フラグメントを得るために使用することができる。各対応する複数の核酸メチル化フラグメント(例えば、各それぞれの遺伝子型データセットについて)は、100以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、1000以上の核酸メチル化フラグメント、5000以上の核酸メチル化フラグメント、10,000以上の核酸メチル化フラグメント、20,000以上の核酸メチル化フラグメント、又は30,000以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、10,000個の核酸メチル化フラグメントと50,000個の核酸メチル化フラグメントの間とすることができる。対応する複数の核酸メチル化フラグメントは、千以上、1万以上、10万以上、100万以上、1000万以上、1億以上、5億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、又は100億以上の核酸メチル化フラグメントを含むことができる。対応する複数の核酸メチル化フラグメントの平均長さは、140~280ヌクレオチドであり得る。
核酸のシークエンシング方法及びメチル化シークエンシングデータに関する更なる詳細は、2020年3月4日に出願された「Systems and Methods for Cancer Condition Determination Using Autoencoders」と題する米国仮特許出願第62/985,258号に開示されており、その全体が参照により本書に組み込まれる。
II.B.異常なフラグメントを同定すること
分析システムは、サンプルのメチル化状態ベクトルを使用するサンプルについて異常なフラグメントを判定することができる。サンプル中の各フラグメントについて、分析システムは、フラグメントがフラグメントに対応するメチル化状態ベクトルを使用する異常なフラグメントであるかを判定することができる。いくつかの実施態様において、分析システムは、各メチル化状態ベクトルについて、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化状態ベクトルが観察される確率を記述するp値スコアを計算する。p値スコアを計算するプロセスは、後ほどセクションII.B.i.P値フィルタリングで更に説明する。分析システムは、閾値p値スコアを下回るp値を有するメチル化状態ベクトルを有しているフラグメントを異常なフラグメントとして判定してもよい。いくつかの実施態様では、分析システムは、ある閾値を超えるメチル化又は非メチル化のパーセンテージを有する少なくともある数のCpG部位を有するフラグメントを、それぞれハイパーメチル化フラグメント及びハイポメチル化フラグメントとして更にラベルする。ハイパーメチル化フラグメント又はハイポメチル化フラグメントは、極端なメチル化を有する異常なフラグメント(UFXM)とも呼ばれ得る。いくつかの実施態様において、分析システムは、異常なフラグメントを判定するための様々な他の確率的モデルを実装してもよい。他の確率モデルの例には、混合モデル、深層確率モデル等を含む。いくつかの実施態様では、分析システムは、異常なフラグメントを同定するために、以下に説明するプロセスの任意の組合せを使用してもよい。同定された異常なフラグメントを用いて、分析システムは、他のプロセス、例えば、がん分類器の訓練及び展開に使用するために、サンプルに対するメチル化状態ベクトルのセットをフィルタリングしてもよい。
II.B.i.P値フィルタリング
いくつかの実施態様では、分析システムは、健康な対照群中のフラグメントからのメチル化状態ベクトルと比較した各メチル化状態ベクトルに対するp値スコアを計算する。p値スコアは、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化状態ベクトルにマッチするメチル化状態を観察する確率を記述することができる。DNAフラグメントが異常にメチル化されていると判定するために、分析システムは、正常にメチル化されたフラグメントの大部分を有する健康な対照群を使用することができる。異常なフラグメントを判定するためにこの確率的分析を実施するとき、判定は、健康な対照群を構成する対照の対象群と比較して、重みを持つことができる。健常対照群中の頑健性を確保するために、分析システムは、DNAフラグメントを含むサンプルを提供するために、いくつかの閾値数の健康な個体を選択してもよい。図2Aは、分析システムがp値スコアを計算し得る、健康な対照群のデータ構造を生成する方法を説明する。図2Bは、生成されたデータ構造を用いてp値スコアを計算する方法を説明する。
図2Aは、一実施態様による、健康な対照群のデータ構造を生成するプロセス200を説明するフローチャートである。健常対照群データ構造を生成するために、分析システムは、複数の健康な個体から複数のDNAフラグメント(例えば、cfDNA)を受信することができる。メチル化状態ベクトルは、例えばプロセス100を介して、各フラグメントについて同定することができる。
各フラグメントのメチル化状態ベクトルを用いて、分析システムは、メチル化状態ベクトルをCpG部位の文字列に細分化することができる(205)。いくつかの実施態様では、分析システムは、結果として生じる文字列が全て所与の長さ未満であるように、メチル化状態ベクトルを細分化する(205)。例えば、長さ11のメチル化状態ベクトルを長さ3以下の文字列に細分化してもよく、長さ3の文字列9個、長さ2の文字列10個、及び長さ1の文字列11個が結果として生じる。別の例では、長さ7のメチル化状態ベクトルを長さ4以下の文字列に細分化すると、長さ4の文字列4個、長さ3の文字列5個、長さ2の文字列6個、及び長さ1の文字列7個が結果として生じる。メチル化状態ベクトルが指定された文字列長より短い、又は同じ長さである場合、メチル化状態ベクトルは、ベクトルのすべてのCpG部位を包含する単一の文字列に変換してもよい。
分析システムは、ベクトル中の可能性のあるCpG部位及びメチル化状態の可能性各々について、指定されたCpG部位を文字列中の第1のCpG部位として有し、かつメチル化状態の可能性を有する対照群に存在する文字列の数を数えることによって文字列を集計する(210)。例えば、所与のCpG部位において、文字列の長さが3であると考えると、2^3すなわち8通りの文字列構成の可能性がある。与えられたCpG部位において、8つの可能な文字列構成の各々について、分析システムは、各メチル化状態ベクトルの可能性が対照群で何回発生したかを集計する(210)。この例を続けると、これは、以下の数量< Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 >, . . ., < Ux, Ux+1, Ux+2 >を、参照ゲノム中の各開始CpG部位xについて集計することを伴い得る。分析システムは、各開始CpG部位と文字列の可能性について集計されたカウントを格納するデータ構造を作成する(215)。
文字列の長さに上限を設定することには、いくつかの利点がある。第1に、文字列の最大長に依存して、分析システムによって作成されるデータ構造のサイズが劇的に大きくなる可能性がある。例えば、最大長文字列が4ということは、すべてのCpG部位が、長さ4の文字列に対して、最低でも2^4の数を集計することになる。最大文字列長が5に増加すると、すべてのCpG部位は、追加で2^4又は16の数を集計することになり、集計する数(及び必要なコンピュータメモリ)が、以前の文字列長と比較して2倍に増加することになる。文字列サイズを小さくすることは、データ構造の作成及び性能(例えば、後述のような後ほどアクセスするための使用)を、計算的及び格納の観点から、合理的に保つことができる。第2に、最大文字列長を制限するための統計的な配慮は、文字列カウントを使用する下流モデルのオーバーフィッティングを回避することを可能にする。CpG部位の長い文字列が、生物学的に、成果に強い影響を与えない場合(例えば、がんの存在の予測である異常性の予測)、CpG部位の大きな文字列に基づいて確率を計算することは、利用できない場合があるかなりの量のデータを使用する問題があり得、かつこのようにモデルを適切に行うには非常にまばらになり得る。例えば、重要な100個のCpG部位を条件とする異常/がんの確率を計算すると、長さ100のデータ構造中の文字列のカウントを使用することができ、理想的には重要な100個のメチル化状態に正確にマッチするものがある。長さ100の文字列のまばらなカウントが利用可能である場合、テストサンプル中の長さ100の与えられた文字列が異常であるかを判定するためのデータが不十分であり得る。
図2Bは、一実施態様による、個体から異常なメチル化されたフラグメントを同定するためのプロセス220を説明するフローチャートである。プロセス220において、分析システムは、対象のcfDNAフラグメントから100個のメチル化状態ベクトルを生成する。分析システムは、各メチル化状態ベクトルを以下のように扱うことができる。
所与のメチル化状態ベクトルについて、分析システムは、メチル化状態ベクトル中の同じ開始CpG部位及び同じ長さ(すなわち、CpG部位のセット)を有するメチル化状態ベクトルの全ての可能性を列挙する(230)。各メチル化状態は一般にメチル化又は非メチル化のいずれかであるので、各CpG部位において事実上2つの可能な状態があり得、かつこのように、メチル化状態ベクトルの異なる可能性のカウントは、長さnのメチル化状態ベクトルがメチル化状態ベクトルの2nの可能性に紐づけられるように、2のべき乗に依存し得る。メチル化状態ベクトルが1つ以上のCpG部位についての不確定な状態を含む場合には、分析システムは、観察された状態を有するCpG部位のみを考慮してメチル化状態ベクトルの可能性を列挙することができる(230)。
分析システムは、健康な対照群データ構造体にアクセスすることによって、同定された開始CpG部位及びメチル化状態ベクトル長に対するメチル化状態ベクトルの各可能性を観察する確率を計算する(240)。いくつかの実施態様において、所与の可能性を観察する確率を計算することは、共同確率計算をモデル化するためにマルコフ連鎖確率を使用する。マルコフモデルは、少なくとも部分的に、対応する複数のCpG部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントにわたる、それぞれのフラグメント(例えば、核酸メチル化フラグメント)の対応する複数のCpG部位中の各CpG部位のメチル化状態の評価に基づいて訓練することができる。例えば、マルコフモデル(例えば、隠れマルコフモデル又はHMM)は、シークエンス中の各状態について、シークエンス中の次の状態を観察する可能性を判定する確率のセットを与えられた複数の核酸メチル化フラグメント中の核酸メチル化フラグメントに対してメチル化状態のシークエンス(例えば、「M」又は「U」を含む)を観察できる確率を決定するために使用される。確率のセットは、HMMを訓練することによって得ることができる。そのような訓練は、観察されたメチル化状態シークエンス(例えば、メチル化パターン)の初期トレーニングデータセットを与えられた統計的パラメータ(例えば、第1の状態が第2の状態に移行する確率(移行確率)及び/又は所与のメチル化状態がそれぞれのCpG部位について観察可能な確率(放出確率))の計算を伴うことができる。HMMは、教師付き訓練(例えば、観察された状態と同様に基礎となるシークエンスが既知であるサンプルを使用して)並びに/若しくは教師なし訓練(例えば、ビタビ学習、最尤推定、期待値最大化訓練、及び/又はバウム-ウェルチ訓練)を使用して訓練することができる。他の実施態様では、メチル化状態ベクトルの各可能性を観察する確率を決定するために、マルコフ連鎖確率以外の計算方法が使用される。例えば、そのような計算方法は、学習された表現を含むことができる。p値閾値は、0.01~0.10の間、又は0.03~0.06の間とすることができる。p値閾値は、0.05とすることができる。p値閾値は、0.01未満、0.001未満、又は0.0001未満とすることができる。
分析システムは、各可能性について計算された確率を使用して、メチル化状態ベクトルのp値スコアを計算する(250)。いくつかの実施態様において、これは、問題のメチル化状態ベクトルにマッチする可能性に対応する計算された確率を特定することを含む。具体的には、これは、メチル化状態ベクトルと同じCpG部位のセット、又は同様に同じ開始CpG部位及び長さを有する可能性であり得る。分析システムは、特定された確率以下の確率を有する任意の可能性の計算された確率を合計して、p値スコアを生成することができる。
このp値は、健康な対照群中で、更に低い確率でフラグメントのメチル化状態ベクトル又は他のメチル化状態ベクトルが観察される確率を表すことができる。低いp値スコアは、それによって、一般に、健康な個体において稀なメチル化状態ベクトルに対応し、かつ健康な対照群と比較して、フラグメントが異常にメチル化されているとラベルすることができる。高いp値スコアは、一般に、健康な個体において相対的な意味で存在すると予想されるメチル化状態ベクトルに関連付けることができる。健康対照群が非がん群である場合、例えば、低いp値は、そのフラグメントが非がん群と比較して異常にメチル化されており、かつそれゆえに、テスト対象中にがんの存在を示唆する可能性があることを示し得る。
上記のように、分析システムは、各々がテストサンプル中のcfDNAフラグメントを表す複数のメチル化状態ベクトルの各々について、p値スコアを計算することができる。どのフラグメントが異常にメチル化されているかを同定するために、分析システムは、それらのp値スコアに基づいてメチル化状態ベクトルのセットをフィルタリングしてもよい(260)。いくつかの実施態様では、フィルタリングは、p値スコアを閾値と比較し、かつ閾値を下回るフラグメントのみを残すことによって行う。この閾値p値スコアは、0.1、0.01、0.001、0.0001、又は同様のオーダーにすることができる。
プロセス220からの例示的な結果に従って、分析システムは、トレーニングにおいてがんを有さない参加者について異常なメチル化パターンを有する2,800(1,500~12,000)の中央値(範囲)のフラグメント、及びトレーニングにおいてがんを有する参加者について異常なメチル化パターンを有する3,000(1,200~220,000)の中央値(範囲)のフラグメントを得ることができる。異常なメチル化パターンを有するフラグメントのこれらのフィルタリングされたセットは、セクションIIIで後述するように下流分析に使用されてもよい。
いくつかの実施態様において、分析システムは、メチル化状態ベクトルの可能性を決定し、かつp値を計算するために、スライディングウィンドウを使用する(255)。可能性を列挙し、メチル化状態ベクトル全体に対してp値を計算するのではなく、分析システムは、可能性を列挙し、かつ連続するCpG部位のウィンドウのみについてp値を計算することができ、ここでウィンドウは、少なくともいくつかのフラグメントより(CpG部位の)長さが短い(さもなければ、ウィンドウは目的を果たさないだろう)。ウィンドウの長さは、静的、ユーザーが決定したもの、動的、又はその他の方法で選択されてもよい。
ウィンドウより大きいメチル化状態ベクトルに対するp値を計算する際に、ウィンドウは、ベクトル中の最初のCpG部位から始まるウィンドウ内のベクトルからのCpG部位の連続したセットを同定し得る。分析システムは、第1のCpG部位を含むウィンドウに対してp値スコアを計算することができる。その後、分析システムは、ウィンドウをベクトル中の第2のCpG部位に「スライド」させ、かつ第2のウィンドウについて別のp値スコアを計算することができる。このように、ウィンドウサイズl及びメチル化ベクトル長mについて、各メチル化状態ベクトルは、m-l+1個のp値スコアを生成することができる。ベクトルの各部分についてのp値計算を完了した後、全てのスライディングウィンドウからの最低p値スコアを、メチル化状態ベクトルに対する全体的なp値スコアとして採用することができる。いくつかの実施態様において、分析システムは、メチル化状態ベクトルに対するp値スコアを集約して、全体的なp値スコアを生成する。
スライディングウィンドウを使用することは、メチル化状態ベクトルの列挙された可能性の数、及びそうでなければ行われる必要があるだろうそれらの対応する確率計算を減少させるのに役立てることができる。現実的な例を挙げると、フラグメントが54個を超えるCpG部位を持つことがあり得る。単一のpスコアを生成するために2^54(~1.8×10^16)個の可能性について確率を計算する代わりに、分析システムは、そのフラグメントのメチル化状態ベクトルの50個もウィンドウの各々について50個のp値計算を生じるサイズ5のウィンドウ(例えば)を代わりに使用することができる。50個の計算の各々は、メチル化状態ベクトルの2^5(32)の可能性を列挙することができ、合計で50×2^5(1.6×10^3)の確率計算を生じさせる。これは、異常なフラグメントの正確な同定に意味のないヒットで、行われる計算の膨大な減少を生じさせることができる。
不確定状態を有する実施態様において、分析システムは、フラグメントのメチル化状態ベクトル中の不確定状態を有するCpG部位を合計したp値スコアを計算してもよい。分析システムは、不確定状態を除くメチル化状態ベクトルの全てのメチル化状態と一致を有する全ての可能性を特定することができる。分析システムは、特定された可能性の確率の合計として、メチル化状態ベクトルに確率を割り当ててもよい。一例として、分析システムは、CpG部位1及び3に対するメチル化状態が観測され、かつCpG部位1及び3におけるフラグメントのメチル化状態と一致することから、< M1, M2, U3 >及び< M1, U2, U3 >のメチル化状態ベクトルの可能性についての確率の合計のように< M1, I2, U3 >のメチル化状態ベクトルの可能性を算出することができる。不確定状態を有するCpG部位を合計するこの方法は、2^iまでの可能性の確率の計算を使用することができ、ここでiは、メチル化状態ベクトル中の不確定状態の数を意味する。追加の実施態様では、動的プログラミングアルゴリズムが、1つ以上の不確定状態を有するメチル化状態ベクトルの確率を計算するために実装されてもよい。有利には、動的プログラミングアルゴリズムは、線形計算時間で動作することができる。
いくつかの実施態様において、確率及び/又はp値スコアを計算する計算負担は、少なくともいくつかの計算をキャッシュすることによって更に低減される場合がある。例えば、分析システムは、メチル化状態ベクトル(又はそのウィンドウ)の可能性についての確率の計算を一時的又は持続的なメモリにキャッシュしてもよい。他のフラグメントが同じCpG部位を有する場合、可能性確率をキャッシュすることは、基礎となる可能性確率を再計算する必要なく、p-スコア値を効率的に計算させることができる。同等に、分析システムは、ベクトル(又はそのウィンドウ)からのCpG部位のセットに紐づくメチル化状態ベクトルの可能性の各々についてp値スコアを計算してもよい。分析システムは、同じCpG部位を含む他のフラグメントのp値スコアを決定する際に使用するために、p値スコアをキャッシュしてもよい。一般に、同じCpG部位を有するメチル化状態ベクトルの可能性のp値スコアは、CpG部位の同じセットからの可能性の異なる1つのp値スコアを決定するために使用されてもよい。
領域モデル又はがん分類器を訓練する前に、1つ以上の核酸メチル化フラグメントをフィルタリングすることができる。核酸メチル化フラグメントをフィルタリングすることは、対応する複数の核酸メチル化フラグメントから、1つ以上の選択基準(例えば、1つの選択基準を下回る又は上回る)を満たすことができない各それぞれの核酸メチル化フラグメントを取り除くことを備えることができる。1つ以上の選択基準は、p値閾値を含むことができる。それぞれの核酸メチル化フラグメントの出力p値は、それぞれの核酸メチル化フラグメントの対応するメチル化パターンを、それぞれの核酸メチル化フラグメントの対応する複数のCpG部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントのメチル化パターンの対応分布との比較に基づいて、少なくとも部分的に決定することができる。
複数の核酸メチル化フラグメントをフィルタリングすることは、p値閾値を満たすことができない各それぞれの核酸メチル化フラグメントを除去することを備えることができる。フィルタは、第1の複数の核酸メチル化フラグメントにわたって観察されたメチル化パターンを使用する各それぞれの核酸メチル化フラグメントのメチル化パターンに適用することができる。各それぞれの核酸メチル化フラグメント(例えば、フラグメント1、...、フラグメントN)の各それぞれのメチル化パターンは、1及び0のシークエンスとして表されるメチル化部位識別子と対応するメチル化パターンとで同定される対応する1つ以上のメチル化部位(例えば、CpG部位)を備えることができる。ここで、各「1」は、1つ以上のCpG部位中のメチル化されたCpG部位を表し、かつ各「0」は、1つ以上のCpG部位中の非メチル化されたCpG部位を表す。第1の複数の核酸メチル化フラグメントにわたって観察されたメチル化パターンは、第1の複数の核酸メチル化フラグメントによって集合的に表されるCpG部位状態(例えば、CpG部位A、CpG部位B、・・・、CpG部位ZZZ)に対するメチル化状態分布を構築するために使用することができる。核酸メチル化フラグメントの処理に関する更なる詳細は、2020年3月4日に出願された「Systems and Methods for Cancer Condition Determination Using Autoencoders」と題する米国仮特許出願第62/985,258号に開示されており、その全体が参照により本明細書に組み込まれる。
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが異常メチル化スコア閾値未満である異常メチル化スコアを有するとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。この状況では、異常メチル化スコアを、混合モデルによって決定することができる。例えば、混合モデルは、同じ長さのかつ同じ対応するゲノム位置における可能なメチル化状態ベクトルの数に基づいて、それぞれの核酸メチル化フラグメントに対するメチル化状態ベクトル(例えば、メチル化パターン)の尤度を決定することによって、核酸メチル化フラグメント中の異常なメチル化パターンを検出することができる。これは、参照ゲノム中の各ゲノム位置において、指定された長さのベクトルについて複数の可能なメチル化状態を生成することによって実行することができる。複数の可能なメチル化状態を使用して、可能なメチル化状態の総数、及びそれに続いて、ゲノム位置における各予測されたメチル化状態の確率を決定することができる。その後、サンプル核酸メチル化フラグメントを予測された(例えば、可能性のある)メチル化状態にマッチさせ、かつ予測されたメチル化状態の計算された確率を取り出すことによって、参照ゲノム内のゲノム位置に対応するサンプル核酸の尤度を決定することができる。その後、異常なメチル化スコアを、サンプル核酸メチル化フラグメントの確率に基づいて計算することができる。
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数の残基を有するとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。残基の閾値の数は、10~50の間、50~100の間、100~150の間、又は150以上であり得る。閾値の残基数は、20~90の間の固定値であり得る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数のCpG部位を有するとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。CpG部位の閾値の数は、4、5、6、7、8、9、又は10であり得る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントのゲノム開始位置及びゲノム終了位置が、それぞれの核酸メチル化フラグメントがヒトゲノム参照シークエンス中の閾値数未満のヌクレオチドを表すことを示すとき、1つ以上の選択基準中の選択基準を満たすことができない場合がある。
フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するメチル化パターン並びに同じ対応するゲノム開始位置及びゲノム終了位置を有する核酸メチル化フラグメントを除去することができる。このフィルタリングステップは、いくつかの例において、PCR重複を含む、完全な重複である冗長なフラグメントを除去することができる。フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するゲノム開始位置及びゲノム終了位置を有し、かつ異なるメチル化状態の閾値数未満である核酸メチル化フラグメントを除去することができる。核酸メチル化フラグメントの保持に使用される異なるメチル化状態の閾値の数は、1、2、3、4、5、又は5以上とすることができる。例えば、第2の核酸メチル化フラグメントと同じ対応するゲノム開始位置及び終了位置を有するが、それぞれのCpG部位(例えば、参照ゲノムにアライメントしたもの)において少なくとも1、少なくとも2、少なくとも3、少なくとも4、又は少なくとも5の異なるメチル化状態を有する第1の核酸メチル化フラグメントは、保持される。別の例として、同じメチル化状態ベクトル(例えば、メチル化パターン)を有するが、第2の核酸メチル化フラグメントとして異なる対応するゲノム開始位置及び終了位置を有する第1の核酸メチル化フラグメントもまた保持される。
フィルタリングは、複数の核酸メチル化フラグメント中のアッセイアーチファクトを除去することができる。アッセイアーチファクトの除去は、シークエンシングされたハイブリダイゼーションプローブから得られたシークエンスリード及び/又はバイサルファイト変換中に変換を受けることができなかったシークエンスから得られたシークエンスリードを除去することを備えることができる。フィルタリングは、汚染物質(例えば、シークエンシング、核酸単離、及び/又はサンプル調製に起因する)を除去することができる。
フィルタリングは、複数の訓練対象にわたるがん状態に対するそれぞれのメチル化フラグメントの相互情報フィルタリングに基づいて、複数のメチル化フラグメントからメチル化フラグメントのサブセットを除去することができる。例えば、相互情報は、同時にサンプリングされた2つの関心のある条件の間の相互依存性の尺度を提供することができる。相互情報は、1つ以上のデータセットからCpG部位の独立したセット(例えば、核酸メチル化フラグメントの全部内又は一部内)を選択し、かつ2つのサンプル群(例えば、遺伝子型データセット、生体サンプル及び/又は対象のサブセット並びに/若しくは群)間のCpG部位セットに対するメチル化状態の確率を比較することによって決定することができる。相互情報スコアは、スライディングウィンドウのそれぞれのフレーム中のそれぞれの領域において第1の条件対第2の条件のメチル化パターンの確率を表示することができ、このように、それぞれの領域の識別力を示すことができる。相互情報スコアは、選択されたCpG部位のセット及び/又は選択されたゲノム領域にわたって進行するようなスライディングウィンドウの各フレーム中の各領域について同様に計算することができる。相互情報フィルタリングに関する更なる詳細は、2020年12月11日に出願された「Cancer Classification using Patch Convolutional Neural Networks」と題する米国特許出願17/119,606号に開示されており、その全体が参照により本明細書に組み込まれる。
II.B.ii.ハイパーメチル化フラグメント及びハイポメチル化フラグメント
いくつかの実施態様において、分析システムは、閾値を超える数のCpG部位を有し、かつ閾値パーセンテージを超えるCpG部位がメチル化されている、又は閾値パーセンテージを超えるCpG部位が非メチル化されているかのいずれかを有するフラグメントとして異常なフラグメントを判定し、分析システムは、そのようなフラグメントを、ハイパーメチル化フラグメント又はハイポメチル化フラグメントとして同定する。フラグメント(又はCpG部位)の長さの閾値の例は、3より上、4より上、5より上、6より上、7より上、8より上、9より上、10より上、等を含む。メチル化又は非メチル化のパーセンテージの閾値の例は、80%より上、85%より上、90%より上、又は95%より上、若しくは50%~100%の範囲内の他のパーセンテージを含む。
II.C.分析システムの例
図7Aは、1つ以上の実施態様による核酸サンプルをシークエンシングするためのデバイスの例示的なフローチャートである。この例示的なフローチャートは、シークエンサ720及び分析システム700などのようなデバイスを含む。シークエンサ720及び分析システム700は、図1Aのプロセス100、図2Aのプロセス200、図2Bのプロセス220、及び本明細書に記載の他のプロセスにおける1つ以上のステップを行うために連動して動いてもよい。
様々な実施態様において、シークエンサ720は、濃縮された核酸サンプル710を受け取る。図7Aに示すように、シークエンサ720は、特定のタスク(例えば、シークエンシングの開始又はシークエンシングの終了)とのユーザー対話を可能にするグラフィカルユーザーインターフェース725と、また同様に濃縮フラグメントサンプルを含むシークエンシングカートリッジをロードするため、及び/又はシークエンシングアッセイを行うために必要なバッファーをロードするための1つ以上のロードステーション730と、を含むことができる。それゆえに、シークエンサ720のユーザーが必要な試薬及びシークエンシングカートリッジをシークエンサ720のロードステーション730に提供すると、ユーザーは、シークエンサ720のグラフィカルユーザーインターフェース725と対話することによってシークエンシングを開始することができる。一度開始されると、シークエンサ720は、シークエンシングを行い、核酸サンプル710からの濃縮フラグメントのシークエンスリードを出力する。
いくつかの実施態様では、シークエンサ720は、分析システム700と通信可能に結合される。分析システム700は、1つ以上のCpG部位におけるメチル化状態の評価、バリアントコール又は品質管理などのような様々な用途のためにシークエンスリードを処理するために使用されるいくつかの数のコンピューティングデバイスを含む。シークエンサ720は、BAMファイルフィーマットでシークエンスリードを分析システム700に提供してもよい。分析システム700は、無線、有線、又は無線及び有線の組み合わせの通信技術を通じてシークエンサ720に通信可能に結合することができる。一般に、分析システム700は、プロセッサ、及びプロセッサによって実行されると、プロセッサにシークエンスリードを処理させる、若しくは本明細書に開示される方法又はプロセスのいずれかの1つ以上のステップを行うコンピュータ命令を格納する非一時的コンピュータ可読記憶媒体、を備えるように構成される。
いくつかの実施態様では、シークエンスリードを、例えば、図1Aのプロセス100のステップ140を介して、アライメント位置情報を決定するために、当該技術分野において既知の方法を使用する参照ゲノムにアライメントしてもよい。アラインメント位置は、一般に、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム中の領域の開始位置及び終了位置を記載してもよい。メチル化シークエンシングに対応して、アライメント位置情報は、参照ゲノムへのアライメントに従ってシークエンスリード中に含まれる最初のCpG部位及び最後のCpG部位を示すように一般化されてもよい。アライメント位置情報は、所与のシークエンスリード中の全てのCpG部位のメチル化状態及び位置を更に示してもよい。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよく、そのようなものとして、分析システム700は、シークエンスリードを、そのシークエンスリードにアライメントする1つ以上の遺伝子でラベルしてもよい。一実施態様において、フラグメントの長さ(又はサイズ)は、開始位置及び終了位置から決定される。
様々な実施態様において、例えばペアエンドシークエンスプロセスが使用されるとき、シークエンスリードは、R_1及びR_2として示されるリードペアで構成される。例えば、第1のリードR_1は、二本鎖DNA(dsDNA)分子の第1の端からシークエンシングされてもよく、一方、第2のリードR_2は、二本鎖DNA(dsDNA)の第2の端からシークエンシングされてもよい。それゆえに、第1のリードR_1及び第2のリードR_2のヌクレオチド塩基対を、参照ゲノムのヌクレオチド塩基と一貫して(例えば、反対の向きで)アライメントする場合がある。リードペアR_1及びR_2から得られるアラインメント位置情報は、第1のリード(例えば、R_1)の末端に対応する参照ゲノム内の開始位置、及び第2のリード(例えば、R_2)の末端に対応する参照ゲノム内の終了位置を含んでもよい。言い換えれば、参照ゲノム内の開始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内部の可能性の高い位置を表すことができる。SAM(シークエンスアライメントマップ)形式又はBAM(バイナリ)形式を有する出力ファイルが生成され、かつさらなる解析のために出力されてもよい。
ここで図7Bを参照すると、図7Bは、一実施態様によるDNAサンプルを処理するための分析システム700のブロック図である。分析システムは、DNAサンプルの分析に使用するための1つ以上のコンピューティングデバイスを実装する。分析システム900は、シークエンスプロセッサ740、シークエンスデータベース745、モデルデータベース755、モデル750、パラメータデータベース765、及びスコアエンジン760を含む。いくつかの実施態様において、分析システム700は、図1Aのプロセス100及び図2のプロセス200の一部又は全部を行う。
シークエンスプロセッサ740は、サンプルからのフラグメントに対するメチル化状態ベクトルを生成する。フラグメント上の各CpG部位において、シークエンスプロセッサ740は、図1Aのプロセス100を介して、各フラグメントについて、参照ゲノム中のフラグメントの位置、フラグメント中のCpG部位の数、及びメチル化、非メチル化、又は不確定のいずれかであるフラグメント中の各CpG部位のメチル化状態を特定するメチル化状態ベクトルを生成する。シークエンスプロセッサ740は、シークエンスデータベース745内のフラグメントに対するメチル化状態ベクトルを格納してもよい。シークエンスデータベース745内のデータは、サンプルからのメチル化状態ベクトルが互いに紐づくように編成されてもよい。
さらに、多数の異なるモデル750が、モデルデータベース755に格納されてもよく、又はテストサンプルと共に使用するために検索されてもよい。一例では、モデルは、異常なフラグメントに由来する特徴ベクトルを使用してテストサンプルに対するがん予測を同定するための訓練されたがん分類器である。がん分類器の訓練及び使用は、セクションIII.がんを同定するためのがん分類器と併せて更に論じられるだろう。分析システム700は、1つ以上のモデル750を訓練し、かつ様々な訓練されたパラメータをパラメータデータベース765に格納してもよい。分析システム700は、モデル750をモデルデータベース755に関数とともに格納する。
推論中、スコアエンジン760は、1つ以上のモデル750を使用して、出力を返す。スコアエンジン760は、モデルデータベース755内のモデル750を、パラメータデータベース765からの訓練されたパラメータと共にアクセスする。各モデルに従って、スコアエンジンは、モデルのための適切な入力を受け取り、かつ受け取った入力、パラメータ、及び入力と出力とを関連付ける各モデルの関数に基づいて、出力を計算する。いくつかの使用例では、スコアエンジン760は、モデルからの計算された出力の信頼度に相関するメトリクスを更に計算する。他の使用例では、スコアエンジン760は、モデルで使用するための他の中間的な値を計算する。
III.がんを同定するためのがん分類器
III.A.概要
がん分類器は、テストサンプルに対する特徴ベクトルを受け取り、かつテストサンプルが、がん、より具体的には、特定のがんタイプを有するテスト対象からのものであるかを判定するように訓練することができる。がん分類器は、複数の分類パラメータと、入力としての特徴ベクトルと、分類パラメータを有する入力特徴ベクトル上で動作する関数によって決定される出力としてのがん予測との間の関係を表す関数と、を備えることができる。いくつかの実施態様において、がん分類器に入力される特徴ベクトルは、テストサンプルから判定された異常なフラグメントのセットに基づく。異常なフラグメントは、図2Bのプロセス220を介して、又はより具体的には、プロセス220のステップ270を介して判定されるようなハイパーメチル化フラグメント及びハイポメチル化フラグメント、若しくはいくつかの他のプロセスに従って判定される異常なフラグメントであると判定されてもよい。がん分類器の展開の前に、分析システムは、がん分類器を訓練することができる。
III.B.合成トレーニングサンプルの生成
図3は、1つ以上の実施態様による、合成トレーニングサンプルを生成する例示的なプロセスを図示する。分析システムは、既知のがん状態を有する個体から得られたトレーニングサンプルを使用して、1つ以上の合成トレーニングサンプルを生成することができる。分析システムは、合成トレーニングサンプルを含むトレーニングサンプルを使用して、がん分類器を訓練することができる。
分析システムは、合成トレーニングサンプル330を生成するために、がんトレーニングサンプル310及び非がんトレーニングサンプル320を取得する。がんトレーニングサンプル310は、がんを有しているという既知の状態を有する個体から得られる。非がんトレーニングサンプル320は、がんを有していない(「非がん」)という既知のステータスを有する個体から得られる。各トレーニングサンプルは、ヒトゲノム中の複数のゲノム領域のうちの少なくとも1つのゲノム領域と重なるcfDNAフラグメントを含む。ゲノム領域がN個与えられると、非がんトレーニングサンプル310は、ゲノム領域1中のフラグメント312、ゲノム領域2中のフラグメント314、及びゲノム領域N中のフラグメント316までの各ゲノム領域のフラグメントを有する。ゲノム領域Nのフラグメント326までの各ゲノム領域のフラグメントを有する。同様に、非がんトレーニングサンプル320は、ゲノム領域1中のフラグメント322、ゲノム領域2中のフラグメント324、及びゲノム領域N中のフラグメント326までの各ゲノム領域のフラグメントを有する。
分析システムは、がんトレーニングサンプル310からフラグメントと、非がんトレーニングサンプル320からフラグメントとをサンプリングすることによって、合成トレーニングサンプル330を生成する。分析システムは、各ゲノム領域において、第1のサンプリング確率でがんトレーニングサンプル310からフラグメントのサブセットをサンプリングし、かつ第1のサンプリング確率に対して相補的な第2のサンプリング確率で非がんトレーニングサンプル320からフラグメントのサブセットをサンプリングする。図に示すように、第1のサンプリング確率はA%であり、かつ第2のサンプリング確率はB%である。このようにサンプリングすることによって、ゲノム領域1について、がんトレーニングサンプル310からのフラグメント312のA%、及び非がんトレーニングサンプル320からのフラグメント322のB%を含むように、合成トレーニングサンプル330が生成される。同様に、合成サンプル330は、ゲノム領域2について、がんトレーニングサンプル310からのフラグメント314のA%、及び非がんトレーニングサンプル320からのフラグメント324のB%を含むように生成される。これは、ゲノム領域Nまでゲノム領域を通じて継続し、合成サンプル330は、ゲノム領域Nにおいて、がんトレーニングサンプル310のフラグメント316のA%、及び非がんトレーニングサンプル320のフラグメント326のB%を含むように生成される。分析システムは、合成トレーニングサンプル330にがんのラベルをラベルする。ラベルは、がんトレーニングサンプル310内に存在する特定のがんタイプを更に含んでもよい。
サンプリング確率は、訓練されたがん分類器の性能に従って決定することができる。分析システムは、がん分類器を訓練し、かつその性能を評価してもよい。分類器の性能は、最小腫瘍分画、すなわち、がん信号を検出するために必要な腫瘍組織から排出されるcfDNAフラグメントの最小パーセンテージでサンプル中のがんの存在を予測する検出限界値を含んでもよい。例えば、分類器は、サンプル中の1000個のフラグメントあたりの腫瘍組織から流出した1個のフラグメントの検出限界を有してもよい。がんトレーニングサンプル310からサンプリングされたフラグメントのパーセンテージに対応する第1のサンプリング確率は、0.001%(又はそのようなパーセンテージの周辺)に設定されてもよい。分析システムは、第2のサンプリング確率を第1のサンプリング確率の補数として決定してもよい。相補的なサンプリング確率は、100%まで加算されるパーセンテージを有する。例えば、0.001%の相補的なパーセンテージは0.999%であり、非がんトレーニングサンプル320からサンプリングされたフラグメントのパーセンテージに対応する第2のサンプリング確率として設定される。分析システムは、がんトレーニングサンプル310及び非がんトレーニングサンプル320のシークエンス深度に従って、サンプリング確率を更に調整してもよい。例えば、がんトレーニングサンプル310が非がんトレーニングサンプル320よりも小さいシークエンス深度を有する場合、第1のサンプリング確率を増加してもよい。分析システムは、がん分類器が合成トレーニングサンプルで漸進的に訓練されるにつれて、サンプリング確率を漸進的に調整してもよい。
図4は、1つ以上の実施態様による、がん分類器のトレーニングのための合成トレーニングサンプルを生成するプロセス400を説明する例示的なフローチャートである。以下の説明は分析システムの考え方であるが、以下のプロセスは、図7Bに示される分析システム700の構成要素のいずれかによって行われてもよい。
分析システムは、複数のトレーニングサンプルについてのシークエンシングデータを受信する(410)。分析システムは、がん又は非がんのラベルを有するトレーニングサンプルを各々受信することができる。がんのラベルを有するトレーニングサンプルは、特定のがんタイプのラベルを更に有してもよい。各トレーニングサンプルは、図2Bのプロセス220に従って異常にメチル化されていると判定される場合がある複数のcfDNAフラグメントを含むことができる。
分析システムは、がんとしてラベルされた第1のトレーニングサンプル、及び非がんとしてラベルされた第2のトレーニングサンプルをサンプリングする(420)。第1のトレーニングサンプルは、複数のがんタイプのうちの特定のがんタイプのラベルを追加で有していてもよい。
分析システムは、第1のトレーニングサンプルから異常なcfDNAフラグメントの第1のサブセット、及び第2のトレーニングサンプルから異常なcfDNAフラグメントの第2のサブセットをサンプリングすることによって、がんとしてラベルされた第1の合成トレーニングサンプルを生成する(430)。図3に記載されるように、分析システムは、サンプリング確率によって、ゲノム領域に従って各トレーニングサンプルからフラグメントをサンプリングしてもよい。分析システムは、各ゲノム領域において、第1のサンプリング確率に従って第1のトレーニングサンプルに対するゲノム領域中のフラグメント、及び第2のサンプリング確率に従って第2のトレーニングサンプルに対するゲノム領域中のフラグメントをサンプリングすることができ、ここで、第2のサンプリング確率は、第1のサンプリング確率に対して相補的である。
分析システムは、ステップ420及び430を繰り返して、追加の合成トレーニングサンプルを生成してもよい。単一のがんトレーニングサンプルをがんとしてラベルされた複数の合成トレーニングサンプルを生成するために使用してもよい。
分析システムは、各トレーニングサンプルに対する特徴ベクトルを生成する(440)。トレーニングサンプルは、少なくとも第1の合成トレーニングサンプルと、生成された全ての合成トレーニングサンプルまでと、を含む。特徴ベクトルは、トレーニングサンプル中の異常なcfDNAフラグメントに基づいて生成することができる。特徴づけの1つのアプローチは、セクションIII.C.がん分類器の訓練で後述する。
分析システムは、特徴ベクトルとトレーニングサンプルのラベルとを用いて、がん分類器を訓練する(450)。分析システムは、トレーニングサンプルの特徴ベクトルを入力することによってがん分類器を訓練し、かつトレーニングサンプルのラベルのがん分類器の予測精度の最適化において、がん分類器のパラメータを調整する。がん分類器の訓練に関する更なる詳細は、セクションIII.C.がん分類器の訓練で後述する。
生成された1つ以上の合成トレーニングサンプルを用いてがん分類器を訓練することにより、改善されたがん分類器の特異度及び感度を容易にする。この改善は、いくつかの要因に起因する。例えば、拡張されたトレーニングセットを使用することによって、分類器はデータのトレンドをより良く一般化できるため、データのオーバーフィッティングが減少する。追加で、サンプリング確率を決定することにより、生成された合成トレーニングサンプルは、分類器の検出限界に近いがん信号を有することができる。これは、ひいては、がん信号が少ない特徴空間においてがん分類器をより堅牢に訓練することをさせることができる。
図5Aは、本開示の様々な実施態様に従って、増強データを生成し、オプションで疾患状態を互いに判別する分類器を訓練するための一例のワークフロー500を示す。
いくつかの実施態様において、ワークフロー500の第1のステップは、例えば、各トレーニングコホート中の対象が異なる疾患状態を有する1つ以上のトレーニングコホートからの基礎となる生物学的データの収集である(502)。生体サンプル(例えば、核酸を包含する)は、第1のコホート中の対象から収集され(504)、その各々は、第1の疾患状態、例えば、無細胞核酸が疾患状態の情報を与える特定のがんの状態又は心血管疾患を有する。図2に図示するように、生体サンプルは、1つ以上の追加のコホート中の対象から収集され(505)、その各々は、第1の疾患状況とは異なる第2の疾患状況を有する。例として、第1のコホート中の対象はがんを有しているが、第2のコホート中の対象はがんを有していない。本明細書に記載の方法で使用される各生物サンプルは、無細胞核酸、例えば、cfDNAを含むことができる。有利には、無細胞核酸は、対象からの最小侵襲性の少量採血によって、若しくは場合によっては唾液又は尿などのような他の体液の非侵襲性サンプリングから得ることができる。本明細書に記載されるシステム及び方法は、対象における疾患状況を検出するために使用することができる任意のタイプの生物学的データ、例えば、無細胞又は細胞ゲノムデータ、トランスクリプトームデータ、エピジェネティックデータ、プロテオームデータ、メタボロームデータ等を評価するために適し得る。生体サンプルは、対象についての生物学的情報を得るために処理することができる(506)。サンプル中の無細胞核酸(例えば、cfDNA)は、cfDNAシークエンスリードを生成するためにシークエンシングすることができる。
ワークフロー500は、生体サンプルを収集する(例えば、コホート1からcfDNAサンプルを取得するステップ(504)及び他の任意のコホートからcfDNAサンプルを取得するステップ(505))並びに生体特徴抽出(例えば、cfDNAのシークエンスリードを生成するステップ(506))の任意のステップを図示しているが、本明細書に記載の方法は、以前に抽出した生体特徴(例えば、シークエンスリード値、かつオプションでシークエンスリード値の特徴)を電子フォームで得ることによって開始することができる。
ワークフロー500は、第1のコホート中の対象からの核酸サンプル、及びオプションで追加のコホート中の対象からの核酸サンプルに対して、核酸フラグメントシークエンスを取得するステップ(508)を含む。ワークフロー500は、ステップ506において収集された生物学的情報に基づいて、コホート1中の対象の各々に対してデータ構成体を取得するステップ(510)を更に含む。データ構成体は、対象のゲノム特徴(又はゲノム特性)、疾患状況、及びオプションで個人的特徴を含むことができる。本明細書に記載の方法に有用なゲノム特徴の例には、生体サンプル中の特定のシークエンス(例えば、ゲノム又はエキソミック遺伝子座)の相対的存在量についての有益なリードカウント(例えば、ゲノムコピー数特性)、対象の種に対しての参照ゲノム(複数可)に関する対象のゲノム(例えば、生殖細胞系又は疾患組織のいずれか若しくは両方)中の差異に関する有益なバリアント対立遺伝子の存在(例えば、バリアント対立遺伝子特性)、テスト生物サンプル中の非バリアント対立遺伝子に対するバリアント対立遺伝子の相対的存在量についての有益なバリアント遺伝子頻度(例えば、対立遺伝子比特性)、及びテスト生物サンプル中の異なるゲノム領域のメチル化状態についての有益なメチル化状態(例えば、ゲノムメチル化特性)を含む。データ構成体に含まれる特定の特徴及びそのフォーマットは、ワークフロー500のステップ516においてオプションで訓練された分類器によって規定することができる。ワークフロー502において、核酸フラグメントシークエンスデータは、一緒にマージされない場合がある。この状況では、cfDNAの供給源の同一性を維持することができ、かつ各補完的データ構成体は、コホートのうちの1つからの単一の対応するサンプルのcfDNAから構築することができる。いくつかの代替実施態様において、コホートの2つ以上のサンプルからのcfDNAは、単一の補完的データ構成体にマージされる。
ワークフロー500は、ステップ506において収集された生物学的情報に基づいて、任意の追加のコホート中の対象の各々に対してデータ構成体を取得するステップ(512)オプションで含む。データ構成体は、上述のように、対象の遺伝子型特徴、疾患状況、及びオプションで個人的特徴を含むことができる。データ構成体が、追加のコホート中の対象の疾患状態を判別するために分類器を訓練するために使用されるとき、ステップ512において得られたデータ構成体中のゲノム特徴は、ステップ510において第1のコホートに対して得られたデータ構成体中の同じゲノム特徴であり得る。
ワークフロー500はまた、第1のコホート中の少なくとも1つの対象について得られた核酸フラグメントシークエンスの確率的サンプリングに基づいて、ゲノム特徴について増強値を包含する補完的データ構成体を生成するステップ(514)を含む。補完的データ構成体の1つ以上は、訓練されている分類器の検出限界付近の疾患シグネチャを有するために模擬サンプルの状態を表すことができる。この状況では、所与の疾患状態を表す弱いデータ信号の例をより多く提示することによって、分類器の訓練を改善することができる。
図5Bは、ステップ514において補完的データ構成体を生成するための例示的なワークフローを図示する。図5Bに図示するように、第1のコホート中の1つ以上の対象(例えば、がんを有する)からの核酸フラグメントシークエンスデータ520は、確率的にサンプリングされ(530)、その後、より弱い疾患信号を有するデータを模擬できる全ての核酸フラグメントシークエンスのサブセットが選択される。例えば、0.2の腫瘍分画を有する液体生体サンプルから生成された核酸フラグメントシークエンスの正規化セットから開始するとき(すなわち、サンプル中の無細胞核酸の20%ががん細胞からである)、核酸フラグメントシークエンスの各々に50%の選択確率を適用すると、約半量のがん信号を有する対応する補完的データ構成体に対する核酸フラグメントシークエンスの選択セットが生じ、これは、0.1の腫瘍分画を有するサンプルに期待されるがん信号とおおよそ同等である。実際には、がんのない対象のコホート及びがん対象のコホートを用いて分類器を訓練することができ、コホート中のがんの対象は、腫瘍率に関して異なる。訓練された分類器の性能は、分類器の検出限界を決定するために評価することができる。訓練された分類器は、分類器の性能が実質的に低下し始めるか又は完全に失敗する腫瘍分画を決定するために評価することができる。
その後、この腫瘍分画を中心とする補完的データ構成体を生成するために方法502(図2)を使用することができる。例えば、がんコホート中の平均的ながん対象が0.4の腫瘍分画を有し、訓練された分類器が腫瘍分画0.2で失敗する場合を考える。この状況では、分類器は、十分な性能でがんを有するとして腫瘍率0.2以下を有する対象を同定できない場合がある。このような事例では、がんコホートから、コホート対象ごとに補完的データ構成体を生成することができる。各対象に対して、そのフラグメントシークエンスの各々を、対応する補完的データ構成体に含めるために、確率論的基準で選択することができる。分類器は0.2で失敗するので、分類器をよりよく訓練するために、腫瘍分画を有する補完的データ構成体は、0.2の近傍であることができる。そこで、がんコホート中の各それぞれの対象について、対応する補完的データ構成体に含めるために各核酸フラグメントを確率的にサンプリング(受け入れる)することによって、それぞれの対象に対してコホート中の核酸フラグメントデータを使用して構築された対応する補完的データ構成体に対して核酸フラグメントシークエンスのそれぞれを選択することが可能である。この例では、がんコホート中のそれぞれの対象に対して各核酸フラグメントに、0.50の確率的サンプリングが適用される。このように、がんコホート中のそれぞれの対象に対して1000個の核酸フラグメントがある場合、各核酸フラグメントは、50%の確率で対応する補完的データ構成体に受け入れられることができる。有利なことに、参照対立遺伝子及び代替対立遺伝子を考慮することなく、又はどの対立遺伝子ががん信号を決定するのかを知ることさえなく、0.2の腫瘍分画を有する実際のコホートサンプルを模擬する対応する補完的データ構成体を生成するために、この確率的サンプリングの適用によって判別する代替的な対立遺伝子の生のカウントをおそらく半分にすることができる。このようにして生成された補完的データ構成体は、元のコホートデータと組み合わせて、今度はより多くのデータを用いて分類器をもう一度訓練することができ、かつ元のデータに対する分類器の性能をもう一度評価することができる。有利なことに、以下の例に示すように、このアプローチは、特に、元のコホートデータが少数の対象の数しか有しなかった低腫分画において、分類器の性能を向上させることができる。
オプションで、代替の実施態様では、図5Bにもまた図示するように、第2のコホート中の1人以上の対象(例えば、がんを有さない人)からの核酸フラグメントシークエンスデータ522は、全ての核酸フラグメントシークエンスのサブセットのみを選択するためにランダムにサンプリングすることができる(532)。このサンプリングされた核酸フラグメントシークエンスのサブセットは、例えば、第1のコホート中の対象からの核酸フラグメントシークエンスの元のセットよりも弱い疾患シグネチャ(例えば、疾患ががんであるとき、より低い腫瘍分画)を有する核酸フラグメントシークエンスの増強セットを生成するために、第1のコホート中の1人以上の対象からランダムにサンプリングした核酸フラグメントシークエンスと混合することができる(540)。サンプリングされた核酸フラグメントシークエンスの混合は、分類器を訓練するために使用されるゲノム特性の1つが、健康な核酸フラグメントシークエンスに対する疾患由来の核酸フラグメントシークエンスの比率に基づくときに使用することができる。例示すると、第1のコホート中の対象(例えば、がんを有する人)からの核酸フラグメントシークエンスデータ520は、対象からの全ての核酸フラグメントシークエンスのサブセットのみを選択するために、第1の確率(例えば、0.6)を使用して確率的にサンプリングすることができる(530)。また、第2のコホート中の対になる対象(例えば、がんを有さない人)からの核酸フラグメントシークエンスデータ522は、第2の確率(例えば、0.4)を使用して確率的にサンプリングし(530)、対になる対象からの全ての核酸フラグメントシークエンスのサブセットのみを選択することができる。コホート1からの1つとコホート2からの1つという、対になる対象からの核酸フラグメントシークエンスを組み合わせて、補完的データ構成体を形成することができる。コホート1中の2つ以上の対象及びコホート2中の単一の対象は、この方法で単一の補完的データ構成体に寄与し得る。コホート2中の2つ以上の対象及びコホート1中の単一の対象は、この方法で単一の補完的データ構成体に寄与し得る。コホート2中の2つ以上の対象及びコホート1中の2つ以上の対象は、この方法で単一の補完的データ構成体に寄与し得る。いくつかの実施態様において、第1のコホートからの対象内の核酸フラグメントシークエンスは、第1の確率でサンプリングされ、かつ第2のコホート中の対象内の核酸フラグメントシークエンスは、第1の確率及び第2の確率が同じ又は異なり、並びに第1の確率及び第2の確率の和が「1」にならない又はなる補完的データ構成体を形成するために第2の確率でサンプリングされる。
代替の実施態様では、疾患コホートからの核酸フラグメントシークエンスを非疾患コホートからの核酸フラグメントシークエンスで希釈するのとは対照的に、「欠損」核酸フラグメントシークエンスを非疾患状態として割り当てることによって、補完的データ構成体が構築される。例えば、第1のコホート(例えば、疾患コホート)中の対象からの核酸フラグメントシークエンスのセットが、所与のゲノム遺伝子座に対して100個の核酸フラグメントシークエンスを含み、そのうち20個が疾患細胞由来であると仮定する。核酸フラグメントシークエンスの50%をランダムにサンプリングして、10個の疾患細胞に由来する核酸フラグメントシークエンスと40個の健康な細胞に由来する核酸フラグメントシークエンスとを選択した場合、増強セットの対立遺伝子比率は、開始サンプルと同じ20%となり得る。しかしながら、核酸フラグメントシークエンスの増強セットは、依然として遺伝子座からの100個の核酸フラグメントシークエンスを含み得、この場合、増強セットの対立遺伝子比は、核酸フラグメントシークエンスの元のセットの10%又はその半分であると決定することができる。
図5Bに図示するように、いくつかの実施態様において、ランダムにサンプリングされた核酸フラグメントシークエンス(例えば、ステップ530において生成され、オプションで、ステップ532及び/又は540において生成される)は、その後、ステップ514の補完的データ構成体を形成する(550)ために使用される。
いくつかの実施態様では、図5Aに示すように、ワークフロー500は、対象の第1のコホートに紐づく第1の疾患状況と、対象の追加のコホートのうちの1つ以上に紐づく少なくとも1つの第2の疾患状況とを区別するために分類器を訓練するステップを含む。図5Aに示すように、訓練は、第1のコホート中の対象、少なくとも1つの第2のコホート中の対象、並びに第1のコホート中の対象の少なくとも1つからランダムにサンプリングされた核酸フラグメントシークエンスから生成された増強されたデータ構成体に対して得られたデータ構成体(例えば、各対象又は増強された構成体についての疾患状態情報、例えば、各対象又は増強された構成体に対して得られた又は生成された生体データのゲノム特性を含む)を使用する。
確率サンプリングを使用してデータセットを人為的に拡張する方法は、異なる疾患状態をより良く判別するための分類器を訓練することに有用な複数の補完的データ構成体(例えば、増強された単一時点トレーニング構成体及び/又は増強された時系列トレーニング構成体)を生成することができる。異なる疾患状態をより良く判別するための例は、対象ががん又は心血管疾患などのような疾患を有するかを判定するため、疾患のタイプ(例えば、がんの種類、がんの発生元)を判定するため、疾患のステージ(例えば、がんのステージ)を判定するため、疾患の予後(例えば、治療を伴う及び/又は治療を伴わないがんの予後)を判定するため、などである。
本方法は、疾患状況の第1の状態を有する訓練対象の第1のコホート(例えば、訓練対象)に対する第1の複数のゲノムデータ構成体を含むトレーニングデータセット(例えば、単一時点トレーニングデータ)を、電子フォームで取得することを含むことができる。訓練対象の第1のコホートは、少なくとも5、10、100、10~25000の間、又は100未満の訓練対象を含むことができる。
第1の複数のゲノムデータ構成体は、訓練対象の第1のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値(例えば、核酸フラグメントシークエンスデータに対応する)を含むそれぞれのゲノムデータ構成体を含むことができる。その後、本方法は、複数の補完的データ構成体(例えば、増強された単一時点トレーニングデータ)を生成するためにトレーニングデータセットを使用することを含むことができ、複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、第1の複数のゲノムデータ構成体(例えば、単一時点トレーニングデータ)から少なくともそれぞれのゲノムデータ構成体に対応する(そこからサンプリングされる)。
複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、複数のゲノム特性中の各それぞれの遺伝子型特性に対して、第1の複数のゲノムデータ構成体から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値(例えば。増強されたゲノムコピー数特性、増強されたバリアントアレル特性、増強されたアレル比特性、及び増強されたゲノムメチル化特性などのうちの1つ以上)を含むことができる。一例では、補完的遺伝子型データ構成体は、第1のコホート中の訓練対象のゲノムデータ構成体から、訓練対象中の各核酸フラグメントシークエンスのランダムサンプリングによって形成される。すなわち、第1のコホート中の訓練対象中の各核酸フラグメントシークエンスは、確率論的ベースで対応する補完的ゲノムデータ構成体に受け入れることができる。このようにして、補完的ゲノムデータ構成体は、第1のコホート中の訓練対象から確率論的ベースで対応する補完的ゲノムデータ構成体に受け入れられた核酸フラグメントシークエンスの同一性及び特性(例えば、ゲノムコピー数特性、変異アレル特性、対立遺伝子比特性、及びゲノムメチル化特性などの1以上)に基づいて、複数のゲノム特性中の各それぞれのゲノム特性についての増強値を獲得することができる。
複数のゲノム特性は、少なくとも100、500、1000、5000、10,000、50,000、100,000、又はそれ以上の遺伝子型特性を含むことができる。複数のゲノム特性は、単一のタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、対立遺伝子比特性、及びゲノムメチル化特性のうちの1つを含むことができる。いくつかの実施態様において、複数の遺伝子型特性は、少なくとも2つのタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリル比特性、及びゲノムメチル化特性のうちの2つ以上を含む。複数の遺伝子型特性は、少なくとも3つのタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリル比特性、及びゲノムメチル化特性のうちの3種類以上を含むことができる。対応する複数の核酸フラグメントの複数のゲノム特性の値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用した全ゲノムシークエンシング、全ゲノムメチル化シークエンシング、標的シークエンシング(例えば、標的DNAメチル化シークエンシング)によって得ることができる。
1つ以上の単一時間点トレーニングデータセットをサンプリングして、対応する補完的データ構成体を形成することができる。この状況では、2つ以上の単一時点トレーニングデータセットからの核酸フラグメントシークエンスをランダムにサンプリングして、単一時点トレーニングデータセットで表される核酸フラグメントシークエンスと同量、又はそれより少ない核酸フラグメントシークエンスの代表的な補完的データ構成体を生成することができる。いくつかの実施態様では、少なくとも2つの単一時点トレーニングデータセットが一緒にサンプリングされる。他の実施態様では、少なくとも3、4、5、6、7、8、9、10、25、50、100、500、1000、又はそれ以上の単一時点トレーニングデータセットが一緒にサンプリングされて、単一の補完的データ構成体を形成する。
いくつかの実施態様において、第1の複数のゲノムデータ構成体は、第2の時間において訓練対象から得られた第2の生体サンプルに基づく、訓練対象の第1のコホート中の1つ以上の訓練対象についての少なくとも1つの第2のゲノムデータ構成体を含む。すなわち、この訓練対象に対して、第1の時間において訓練対象から得られた第1の生体サンプルを使用して得られた第1のゲノムデータ構成体と、第2の時間において訓練対象から得られた第2の生体サンプルを使用して得られた第2のゲノムデータ構成体とが存在し得る。例えば、第2のサンプルは、第1のサンプルの数日後、数週間後、数ヶ月後、又は数年後に取得される場合がある。このような状況では、経時的に対象から取得された生体サンプルを使用して訓練対象から得られる1つより多い遺伝子型データ構成体が存在し得、対象が経時的に所与のがんの後期ステージに進行している場合、データを増強する独自の機会が提供される。そのような実施態様では、増強された遺伝子型データ構成体を構築するために、対象から第1の時間において取得された第1のゲノムデータ構成体中の各核酸フラグメントを第1の確率を使用してランダムにサンプリングし、対象から第2の時間において取得された第2の遺伝子型データ構成体中の各核酸フラグメントを第2の確率を使用してランダムにサンプリングすることによって、増強された遺伝子型データ構成体を構築することができる。さらに、増強されたゲノムデータ構成体と第1のゲノム構成物との間の距離、及び増強されたゲノムデータ構成体と第2のゲノム構成体との間の距離を制御するように、第1の確率及び第2の確率を選択することができる。例えば、第2のゲノム構成体よりも第1のゲノム構成体に近い(遺伝子型特性の点で)増強されたゲノム型データ構成体を得るために、第1のゲノム構成体の核酸フラグメントシークエンスの各々は、第2のゲノム構成体の核酸フラグメントシークエンスの各々が増強されたゲノムデータ構成体に含めるためにサンプルされる確率よりも高い確率を使用してサンプルすることができる。
本方法は、1つ以上のトレーニングデータ構成体と対になったとき、疾患状態(例えば、がん)の進行又は退行のための生物学的シグネチャの代表的な時系列データを形成する複数の補完的データ構成体(例えば、増強された時系列訓練構成物)を生成することができる。時系列データは、異なる疾患状態をより良く判別するための分類器を訓練するために、例えば、対象ががん又は心血管疾患などのような疾患を有するかを判定するために、疾患のタイプ(例えば、がんタイプ、がんの発生元)を判定するために、疾患のステージ(例えば、がんのステージ)を判定するために、疾患の予後((例えば、治療を伴う及び/又は治療を伴わないがんの予後)を判定するためになどで、有用となりうる。
時系列データを生成するために、本方法は、訓練対象の第1のコホートに対する第1の複数のゲノムデータ構成体を含む第1のトレーニングデータセット(例えば、時系列トレーニングデータ)を、電子フォーマットで取得することを含むことができる。第1の複数のゲノムデータ構成体は、訓練対象の第1のコホート中の各それぞれの訓練対象について、(i)それぞれの第1の時点においてそれぞれの訓練対象から得られた対応する第1の生体サンプル(例えば、核酸フラグメントシークエンスデータに対応する)中の対応する第1の複数の核酸フラグメントの複数のゲノム特性についての値を備えるそれぞれの第1のゲノムデータ構成体を含むことができる。それぞれの訓練対象は、それぞれの第1の時点における疾患状況の第1の状態(例えば、がん又は心血管疾患などのような疾患が存在しない)を有することができ、(ii)1つ以上のスパイクイン対象のコホートに対する1つ以上のスパイクインゲノムデータ構成体のセットである。1つ以上のスパイクインゲノムデータ構成体のセットは、それぞれのスパイクイン対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのスパイクイン遺伝子型データ構成体を含むことができ、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに、それぞれのスパイクイン対象が疾患状況の第2の状態を有する(例えば、疾患状態を有する、例えば、がんを有する)。疾患状況の第1の状態及び疾患状況の第2の状態は、疾患状況の進行によって関連付けることができる。例えば、訓練対象が疾患(例えば、がん又は心血管疾患)を有していない、又は疾患の初期ステージ(例えば、ステージ0又はステージ1のがん)を有し、かつスパイクイン対象から得られたサンプルが、それらが疾患状態の進行を受けた後、後の時点で訓練対象からのサンプルとして扱うことができるように、スパイクイン対象は疾患を有する、及び/又は疾患の進行ステージを有する。
その後、本方法は、第1のトレーニングデータセットを使用して、それぞれの第2の時点におけるそれぞれの訓練対象の代表となる複数のゲノム特性についての値を含むそれぞれの第1の増強されたゲノムデータ構成体(例えば、増強された時系列データ)を生成することを含むことができる。それぞれの第1の増強されたゲノムデータ構成体は、対応するゲノムデータ構成体の第1の対に対応することができる。ゲノムデータ構成体の第1の対は、(i)それぞれの訓練対象に対するそれぞれの第2のゲノムデータ構成体と、(ii)1つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクインゲノムデータ構成体と、を含むことができる。それぞれの第1の増強されたゲノムデータ構成体は、対応する遺伝子型データ構成体の第1の対の各ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの第1の確率サンプリングに由来する増強値を含むことができる。本方法は、それによって、訓練対象の第1のコホート中のそれぞれの訓練対象に対して、それぞれの第1のゲノムデータ構成体及びそれぞれの第1の増強されたゲノムデータ構成体を含むそれぞれの時系列データセットを生成することができる。ゲノム特性及び疾患状況の詳細は、本明細書の他の箇所に記載されている。
訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第1の時点においてがんに罹患していない場合がある。遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたとき、少なくともステージ2のがんに罹患している対応するスパイクイン対象から得られてもよい。
それぞれの第1の遺伝子型データ構成体及びそれぞれの第1の増強された遺伝子型データ構成体を含むそれぞれの時系列データセットは、訓練対象の第1のコホート中の各それぞれの訓練対象に対して生成することができる。したがって、それぞれの第1の増強されたゲノムデータ構成体は、ゲノムデータ構成体の対応する第1の対に対応することができる。ゲノムデータ構成体の第1の対は、(i)それぞれの訓練対象についてのそれぞれの第2のゲノムデータ構成体、及び(ii)1つ以上のスパイクインゲノムデータ構成体のセットからのそれぞれのスパイクインゲノムデータ構成体を備えることができる。
スパイクイン対象は、例えば、訓練対象及びスパイクイン対象からのサンプルが同時に収集される場合、又は訓練対象が疾患状態を絶対に発症しない場合など、訓練対象とは異なる対象であり得る。このような場合、スパイクインサンプルからの疾患信号を、訓練対象から得られた第1のサンプルと直接混合して、訓練対象の第2の時点に対応するデータ構成体を形成することができる。したがって、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2のゲノムデータ構成体は、それぞれの第1のゲノムデータ構成体とすることができる。しかしながら、第2のサンプルもまた訓練対象から得ることができ、かつ例えば、訓練対象がその後疾患を発症しない、又は疾患の実質的な進行を体験しない場合、第2の時点に対応するデータ構成体のバックグラウンドとして使用することができる。スパイクインサンプルからの疾患信号は、訓練対象からの第2のサンプルからのバックグラウンドと混合して、訓練対象についての第2の時点に対応するデータ構成体を形成することができる。したがって、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2のゲノムデータ構成体は、第2の時点においてそれぞれの訓練対象から得られた対応する第2の生体サンプル中の対応する第2の複数の核酸フラグメント中の複数のゲノム特性についての値を含むことができる。遺伝子型データ構成体の対応する対中のそれぞれのスパイクイン遺伝子型データ構成体に対応するスパイクイン対象は、例えば、疾患の進行以外の要因に紐づく変動を説明するために、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチさせることができる。
一例では、デバイス100は、1つ以上の訓練構成体(例えば、520)から核酸フラグメントシークエンスデータをランダムにサンプリングし(530)、かつ1つ以上のスパイクインサンプル(例えば、522)は、核酸フラグメントシークエンスのサブセット(例えば、増強核酸フラグメントシークエンスデータ152-n)を選択して、補完的データ構成体(550)を構築するために使用される。混合は、スパイクインサンプルからの生体疾患信号をトレーニングデータ構成体からのバックグラウンドで希釈し、訓練対象が疾患状態の進行を経験した後の第2の時間における訓練対象の代表となるデータ構成体を生成することと考えることができる。1つ以上の訓練構成体からの核酸フラグメントシークエンスデータは、第1の確率で単純ランダムサンプリングを使用してサンプリングすることができ、1つ以上のスパイクインサンプルからの核酸フラグメントシークエンスデータは、第2の確率で単純ランダムサンプリングを使用してサンプリングすることができ、ここで第1の確率は同じ又は異なっている。いくつかの実施態様では、第1の確率及び第2の確率は同じである。第1の確率は、最低で5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、及びそれ以上とすることができる。第1の確率は、最大で90%、80%、70%、60%、50%、40%、30%、20%、10%、又はそれ以下とすることができる。第2の確率は、最低で5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%及びそれ以上とすることができる。第2の確率は、最大で90%、80%、70%、60%、50%、40%、30%、20%、10%又はそれ以下とすることができる。第1の確率は、第2の確率と同じである、又は異なることができる。
追加の増強された時点はまた、例えば、スパイクインサンプルからの生体信号の異なる量をトレーニングサンプルからの生体信号と混合することによって、若しくは疾患の進行又は退行の時間経過を表す一連のスパイクインサンプルからの生体信号を混合することによって生成することができる。いくつかの実施態様において、時系列データは、少なくとも3つの時点、又は少なくとも4、5、6、7、8、9、10、若しくはそれ以上の時点を含む。
トレーニングサンプルとスパイクインサンプルとの間の生体信号の混合は、疾患進行のモデルによって通知することができる。例えば、がんの進行モデルは、がんの所与の進行を再現するために、各時点においてどの程度の追加のがん信号(例えば、スパイクインサンプルによって提供される)をトレーニングサンプルに加えることができるかを決定するために使用される。したがって、確率サンプリングは、第1のそれぞれのゲノム構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの第1の部分と、それぞれのスパイクインゲノムデータ構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの第2の部分と、を選択することができる。核酸フラグメントのそれぞれの第1の部分及び核酸フラグメントのそれぞれの第2の部分の大きさは、少なくとも(i)第1の時点と第2の時点との間の時間の長さと、(ii)疾患状況の第1の状態からの疾患状況の第2の状態の進展に関する時間的モデルと、に基づいて決定することができる。
疾患の進行又は退行のモデリングは、対象の1つ以上の個人的特性を考慮することができる。例えば、肺がんは、喫煙する対象は、喫煙しない対象よりも速く進行し得る。したがって、疾患状況の第1の状態からの疾患状況の第2の状態の進展に対する時間的モデルは、それぞれの対象の個人的特徴、例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの1つ以上に少なくとも基づいている。疾患の進行又は退行のモデリングは、疾患の特定の形態、例えば、がんに特有であることができる。例えば、疾患状況はがんであり、かつ、がんの第1の状態からのがんの第2の状態の進展に対する時間的モデルは、少なくともがんのタイプに基づく。別の例では、疾患状況はがんとすることができ、がんの第1の状態からのがんの第2の状態の進展に対する時間的モデルは、がんが転移性であるか非転移性であるかに少なくとも基づくことができる。また別の例では、疾患状況はがんであり、がんの第1の状態からがんの第2の状態の進展に対する時間的モデルは、ステージに分けられる。
いくつかの実施態様において、各核酸フラグメントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングすることができる。各核酸フラグメントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングすることができ、ここで、含められる確率は、各核酸フラグメントシークエンスに対して同じ(例えば、5%~95%の間、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%)である。ランダムサンプリングのいくつかの実施態様において、各核酸フラグメントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングすることができ、ここで、含まれる確率は、核酸フラグメントシークエンスに対応する複数のビン中のどのビンかに依存し、複数のビンの各ビンは、参照ゲノムの異なる部分を表わす。実際に使用される確率値は、アプリケーションに依存し得る(例えば、訓練された分類器の検出限界に基づく)。一例では、分類器の検出限界は、腫瘍分画のメトリックによって測定することができ、開示されたシステム及び方法を使用して、分類器の検出限界における腫瘍分画を表す増強されたデータセットを生成することができる。
疾患状況は、がんとすることができる。例えば、がんの第1の状態は、がんの存在であり、がんの第2の状態は、がんの非存在である。この状況では、分類器を、がんを有する患者の第1のコホートからの特徴、がんを有しない患者の第2のコホートからの特徴、及び、例えば、第1のコホートのものよりも一般的に弱いがん信号を有する、増強されたデータ構成体のセットからの模擬の特徴に対して訓練することができる。がんの第1の状態は、第1のタイプのがんとすることができ、がんの第2の状態は、がんの第2のタイプとすることができる。この状況では、分類器を、第1のタイプのがんを有する患者の第1のコホートからの特徴、第2のタイプのがんを有する患者の第2のコホートからの特徴、及び、例えば、第1のコホート及び/又は第2のコホートのものよりも一般的に弱い第1のタイプ及び/又はがんの第2のタイプのがん信号を有する増強されたデータ構成体のセットからの模擬の特徴に対して訓練することができる。がんの第1の状態は、指定されたがんの第1のステージとすることができ、がんの第2の状態は、指定されたがんの第2のステージとすることができる。この状況では、分類器を、同じ又は異なるタイプのがんの異なるステージ間、例えば、ステージ0、ステージ1、ステージ2、ステージ3、及びステージ4のがんの2つ以上の間を区別するように訓練することができる。がんの第1の状態は、がんの第1の予後とすることができ、がんの第2の状態は、がんの第2の予後とすることができる。この状況では、分類器を、治療なしの異なる生命予後、治療を伴う異なる生命予後、異なる予想寛解率、及び/又は特定の治療に対する異なる予想応答を区別するように訓練することができる。
いくつかの実施態様において、疾患状況は、心血管疾患である。心血管疾患の第1の状態は、心血管疾患の存在であることができ、心血管疾患の第2の状態は、心血管疾患の非存在であることができる。この状況では、分類器を、心血管疾患を有する患者の第1のコホートからの特徴、心血管疾患を有しない患者の第2のコホートからの特徴、及び、例えば、第1のコホートのものよりも一般的に弱い心血管疾患信号を有する増強されたデータ構成体のセットからの模擬の特徴に対して訓練することができる。心血管疾患の第1の状態は、心血管疾患に対する第1の予後とすることができ、心血管疾患の第2の状態は、心血管疾患に対する第2の予後とすることができる。この状況では、分類器を、治療なしの異なる生命予後、治療を伴う異なる生命予後、異なる予想寛解率、及び/又は特定の治療に対する異なる予想応答を区別するように訓練することができる。
いくつかの実施態様において、第2のコホート522中の1つ以上のデータ構成体からの生物学的データは、ランダムにサンプリングし、かつ第1のデータ構成体からのランダムにサンプリングしたデータと混合して、第1のコホート中の1人以上の対象から確率的にサンプリングした核酸フラグメントと第2のコホート中の1人以上の対象から確率的にサンプリングした核酸フラグメントの組み合わせから補完的データ構成体を形成することもできる。第2のコホート522中の単一のデータ構成体からの生物学的データをランダムにサンプリングし、かつ第1のデータ構成体からのランダムにサンプリングしたデータと混合して、第1のコホート中の単一の対象から確率的にサンプリングした核酸フラグメントと第2のコホートにおける単一の対象から確率的にサンプリングした核酸フラグメントとの組み合わせから補完的データ構成体を形成することもできる。第1のデータ構成体が特定の疾患状態を有する(例えば、がんを有する又は心血管疾患を有する)対象に対応し、第2のデータ構成体が特定の疾患状態を有しない(例えば、がんを有しない又は心血管疾患を有しない)対象に対応するとき、混合は、第1のデータ構成体からの生体疾患信号を第2のデータ構成体からのバックグラウンドで希釈すると考えることができる。したがって、トレーニングデータセットは、疾患状況の第1の状態とは異なる疾患状況の第2の状態を有する訓練対象の第2のコホートに対する第2の複数のゲノムデータ構成体を更に含むことができる。第2の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれの遺伝子型データ構成体を含むことができる。サンプリングされたデータは、第1のデータ構成体から希釈されなくてもよい。サンプリングされたデータがバックグラウンド信号と混合されていない増強されたデータ構成体を用いて分類器を訓練すると、モデルがバックグラウンド信号と混合された同じサンプリングされた信号を使用して訓練されるときよりも優れた分類器を生成することができる。
データをランダムにサンプリングする方法は、単純ランダムサンプリング、層別ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、及び多段ランダムサンプリングを含むことができる。単純ランダムサンプリングは、グループ内の各項目(ここでは、1つ以上のトレーニングコホート中の対象、又は複数の対象中の各核酸フラグメントシークエンス)が同じ確率で選択されることを含んでもよい。例えば、核酸フラグメントシークエンスのセットの単純ランダムサンプリングは、セット中の各核酸フラグメントシークエンスが、増強された核酸フラグメントシークエンスのセットに選択される機会を有することを規定する。層別サンプリング又はクラスターサンプリングと、単純なランダムサンプリングとの組み合わせを採用することができる。様々な考慮事項が、任意の特定のサンプリングイベントに使用される選択確率を規定してもよい。これらの考慮事項は、開始データ構成体中の疾患信号の量(例えば、がん患者に対応するデータ構成体の腫瘍分画及び/又は変異負担)、補完的データ構成体中の望まれる疾患信号の量、及び他の訓練データ構成体中の疾患信号の量を含むことができるが、これらに限定されない。
確率サンプリングは、複数のゲノム特性の値に寄与する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを含むことができ、ここで、対応ゲノム特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に対する対応ゲノム特性に寄与する核酸フラグメントの存在量に比例している。確率サンプリングは、第1の複数のゲノムデータ構成体から、それぞれのデータ構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの部分を選択することができる。核酸フラグメントのそれぞれの部分の大きさは、他の補完的データ構成体に対して選択された核酸フラグメントのそれぞれの部分の大きさとは独立して決定することができる。異なるトレーニングデータセットをサンプリングするために使用される方法論は、例えば、各データ構成体中の疾患信号の量などのような要因を考慮するために、独立して選択することができる。核酸フラグメントのそれぞれの部分の大きさは、それぞれの補完的データ構成体が、探索的分類器が遺伝子型データ構成体によって表される有益な核酸フラグメント分率の変化に対する閾値感度を満たす有益な核酸フラグメント分率の範囲内に入るように模擬核酸フラグメント割合を表すように選択でき、探索的分類器は、複数の遺伝子型特徴に基づいた疾患状況の状態を判別するために訓練される。補完的データ構成体は、その疾患信号(例えば、がん患者の場合の腫瘍分画)が、分類器に対して予測された検出レベル(LOD)周辺の範囲内に入るように形成することができる。
有益な核酸フラグメント分率(例えば、腫瘍分画)の範囲は、複数の増強された探索ゲノムデータ構成体を生成するためにトレーニングデータセットを使用することによって決定することができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第1の複数のゲノムデータ構成体からの少なくともそれぞれのゲノムデータ構成体に対応することができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第1の複数のゲノムデータ構成体からの少なくともそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含むことができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第1の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体によって表される有益な核酸フラグメント分率に基づく、模擬の有益な核酸フラグメント分率を表すことができる。複数の増強された探索ゲノムデータ構成体によって表される模擬の有益な核酸フラグメントの分布は、探索分類器に対する検出レベルを下回る第1の有益な核酸フラグメントから探索分類器に対する検出レベルを上回る第2の有益な核酸フラグメントにまたがることができる。模擬の有益な核酸フラグメント画分の分布は、検出レベルの約1%上から約1%下、検出レベルの約2%上から約2%下、検出レベルの約5%上から約5%下、検出レベルの約10%上から約10%下、検出レベルの約15%上から約15%下、又は検出レベルの約20%上から約20%下にまたがることができる。
有益な核酸フラグメント分率の範囲は、単一時点の訓練データの全て又はサブセットを使用して、例えば究極の分類器と同じタイプの予備的分類器を訓練することによって決定することができる。その後、複数の増強された探索的遺伝子型データ構成体を探索分類器に適用して、複数の模擬疾患状況確率を生成することができる。探索分類器は、少なくとも(1)それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含む、第1の複数の探索ゲノムデータ構成体、(2)それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性に対する値を含むそれぞれのゲノムデータ構成体を含む、第2の複数の探索データ構成体、及び(3)第1及び第2の複数の探索ゲノムデータ構成体中のそれぞれのゲノムデータ構成体に対する、疾患状況の状態の指標、を使用して、疾患状況の状態を判別するように訓練することができる。有益な核酸フラグメント分率の範囲は、模擬疾患状況確率が、それぞれの増強された探索ゲノムデータ構成体によって表される有益な核酸フラグメント分率の変化に対して最も敏感である範囲を同定することができる。
複数の電子シークエンスからゲノム特徴/特性を抽出する方法は、例えば、米国特許出願広報第2019/0287652号にて見つけられ得、その内容は、あらゆる目的のために参照により本明細書に組み込まれ、複数のゲノム位置のメチル化状態を決定する方法が記載されている。同様に、米国特許出願第2019/0287649号は、その内容が、あらゆる目的のために参照により本明細書に組み込まれ、複数のゲノム位置の相対コピー数を決定するための方法が記載されている。
ゲノム特性は、複数の相対的なコピー数(例えば、ビンリードカウント)を含むことができ、複数の相対コピー数中のそれぞれの相対コピー数は、複数の遺伝子位置中の異なる遺伝子位置に対応する。相対コピー数は、複数のゲノム領域からのシークエンスリードの相対的な存在量を表すことができる。ゲノム領域は、同じサイズ又は異なるサイズを有することができる。ゲノム領域は、領域内部の核酸残基の数、又はその位置と領域内の核酸残基の数によって定義することができる。例えば、ゲノム領域は、10kb以下、20kb以下、30kb以下、40kb以下、50kb以下、60kb以下、70kb以下、80kb以下、90kb以下、100kb以下、110kb以下、120kb以下、130kb以下、140kb以下、150kb以下、160kb以下、170kb以下、180kb以下、190kb以下、x200kb以下、又は250kb以下を含むことができる。ゲノム領域は、対象の種の参照ゲノムを複数のセグメント(すなわち、ゲノム領域)に分割することによって定義することができる。例えば、参照ゲノムは、1,000個の領域、2,000個の領域、4,000個の領域、6,000個の領域、8,000個の領域、10,000個の領域、12,000個の領域、14,000個の領域、16,000個の領域、18,000個の領域、20,000個の領域、22,000個の領域、24,000個の領域、26,000個の領域、28,000個の領域、30,000個の領域、32,000個の領域、34,000個の領域、36,000個の領域、38,000個の領域、40,000個の領域、42,000個の領域、44,000個の領域、46,000個の領域、48,000個の領域、50,000個の領域、55,000個の領域、60,000個の領域、65,000個の領域、70,000個の領域、80,000個の領域、90,000個の領域、又は最大100,000個の領域まで分割される。対象のシークエンスリードは、例えば、その内容が参照により本明細書に組み込まれる米国特許出願第2019/0287649号に記載されているように、対象の全ての染色体領域にわたる平均読み取りカウントに対して正規化することができる。コピー数データは、例えば、潜在的な交絡因子によって引き起こされるシークエンシングデータの分散を低減又は排除するために、更に正規化することができる。正規化は、サンプル内の中心傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心とすること、GC含量についての正規化、及び主成分分析(PCA)補正のうちの1つ以上を伴うことができる。追加的又は代替的に、正規化は、米国特許出願第2019/0287649号に記載されているように、Bスコア処理を含んでもよい。
複数のゲノム特性は、複数のメチル化状態(例えば、領域メチル化状態)を含むことができ、複数のメチル化状態中の各メチル化状態は、複数の遺伝子位置のうちの異なる遺伝子位置に対応する。いくつかの実施態様において、各メチル化状態は、例えば、参照によりその全体が本明細書に組み込まれる米国特許出願第2019/0287652号に記載されるようなメチル化状態ベクトルによって表される。複数のメチル化状態は、複数のプローブを使用する標的DNAメチル化シークエンシングによって得ることができる。複数のプローブは、ヒトゲノム内の少なくとも100の遺伝子座にハイブリダイズすることができる。他の実施態様では、複数のプローブは、ヒトゲノム内の少なくとも250、500、750、1000、2500、5000、10,000、25,000、50,000、100,000、又はそれ以上の遺伝子座にハイブリダイズする。疾患状況(例えば、がん)を分類するための有益なメチル化遺伝子座を同定する方法は、例えば、米国特許出願公開番号2019/0287649に記載されている。メチル化データは、例えば、潜在的な交絡因子によって引き起こされるシークエンシングデータの分散を低減又は排除するために、正規化することができる。いくつかの実施態様において、正規化は、サンプル内の中心傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心とすること、GC含量についての正規化、及び主成分分析(PCA)補正のうちの1つ以上を伴うことができる。メチル化データの正規化に関するさらなる説明は、例えば、米国特許出願第2019/0287652号及び米国特許出願第2019/0287649号に含まれており、これら両出願の開示は、参照により本明細書に組み込まれる。
ゲノムデータ構成体(例えば、訓練、増強、及び/又はテスト遺伝子型データ構成体)中の複数のゲノム特性は、第1の複数のビン値(例えば、領域メチル化状態)を含むことができる。第1の複数のビン値中の各それぞれのビン値は、複数のビン中の対応するビンを表すことができる。第1の複数のビン値中の各それぞれのビン値は、複数のビン中の対応するビンにマッピングされる核酸フラグメントシークエンスの対応するセット(例えば、トレーニングセット、増強セット、又はテストセット)から特定される所定のメチル化パターンを有する固有の核酸フラグメントの数の代表とすることができる。複数のビン中の各ビンは、対象の種の参照ゲノムの非重複領域を表すことができる。
III.C. がん分類器の訓練
図6Aは、一実施態様による、がん分類器を訓練するプロセス600を説明するフローチャートである。分析システムは、異常なフラグメントのセット及びがんタイプのラベルを各々有する複数のトレーニングサンプルを取得する(510)。複数のトレーニングサンプルは、「非がん」の一般的なラベルを有する健康な個人からのサンプル、「がん」の一般的なラベル又は特定のラベル(例えば、「乳がん」、「肺がん」等)を有する対象からのサンプルの任意の組合せを含むことができる。あるがんタイプの対象からのトレーニングサンプルは、そのがんタイプに対するコホート又はがんタイプコホートと称されてもよい。
分析システムは、各トレーニングサンプルに対して、トレーニングサンプルの異常なフラグメントのセットに基づく特徴ベクトルを決定する(520)。分析システムは、CpG部位の初期セット中の各CpG部位について異常スコアを計算することができる。CpG部位の初期セットは、ヒトゲノム内の全てのCpG部位又はその一部であってよく、104、105、106、107、108等のオーダーであってよい。一実施態様において、分析システムは、CpG部位をくみこむ異常なフラグメントのセット中の異常なフラグメントが存在するかに基づいて、バイナリスコアで特徴ベクトルに対する異常スコアを定義する。別の実施態様では、分析システムは、CpG部位に重なる異常なフラグメントのカウントに基づいて異常スコアを定義する。一例では、分析システムは、異常なフラグメントの存在の欠如に対して第1のスコア、少数の異常なフラグメントの存在に対して第2のスコア、及び少数より多い異常なフラグメントの存在に対して第3のスコアを割り当てる三元スコアリングを使用してもよい。例えば、分析システムは、CpG部位と重なるサンプル中の異常なフラグメントを5つカウントし、5つのカウントに基づいて異常スコアを計算する。
トレーニングサンプルについて全ての異常スコアが決定されると、分析システムは、各要素に対して、初期セット中のCpG部位の1つに紐づく異常スコアの1つを含む要素のベクトルとして、特徴ベクトルを決定することができる。分析システムは、サンプルのカバレッジに基づいて、特徴ベクトルの異常スコアを正規化することができる。ここで、カバレッジは、分類器で使用されるCpG部位の初期セットによってカバーされる、又は所与のトレーニングサンプルに対する異常なフラグメントのセットに基づく全てのCpG部位にわたる中央値又は平均シークエンス深度を指すことができる。
一例として、ここで、訓練特徴ベクトルのマトリクス622を示す図6Bを参照する。この例では、分析システムは、がん分類器のための特徴ベクトルを生成する際に考慮すべきCpG部位[K]626を特定している。分析システムは、トレーニングサンプル[N]624を選択する。分析システムは、トレーニングサンプル[n1]に対する特徴ベクトルで使用される第1の任意のCpG部位[k1]に対して、第1の異常スコア628を決定する。分析システムは、異常なフラグメントのセット中の各異常なフラグメントをチェックする。分析システムが、第1のCpG部位を含む少なくとも1つの異常なフラグメントを同定する場合、分析システムは、図6Bに図示されるように、第1のCpG部位に対する第1の異常スコア628を1として決定する。第2の任意のCpG部位[k2]を考慮すると、分析システムは、第2のCpG部位[k2]を含む少なくとも1つに対して異常なフラグメントのセットを同様にチェックする。分析システムが、第2のCpG部位を含むそのような異常なフラグメントを発見しない場合、分析システムは、図6Bに図示されるように、第2のCpG部位[k2]に対する第2の異常スコア629を0に決定する。分析システムがCpG部位の初期セットに対する全ての異常スコアを決定すると、分析システムは、第1のCpG部位[k1]に対する1の第1の異常スコア628及び第2のCpG部位[k2]に対する0の第2の異常スコア629とそれに続く異常スコアとを含む特徴ベクトルを有する異常スコアを含む第1のトレーニングサンプル[n1]に対する特徴ベクトルを決定し、このように特徴ベクトル[1,0,...]を形成する。
サンプルの特徴付けに対する追加のアプローチは、「Model-Based Featurization and Classification」と題する米国出願第15/931,022号、「Mixture Model for Targeted Sequencing」と題する米国出願第16/579,805号、「Anomalous Fragment Detection and Classification」と題する米国出願第16/352,602号、及び「Source of Origin Deconvolution Based on Methylation Fragments in Cell-Free DNA Samples」と題する米国出願第16/723,716号に見つけられ得、これらは全て、参照によりその全体が組み込まれるものとする。
分析システムは、がん分類器の使用のために考慮されるCpG部位を更に制限してもよい。分析システムは、CpG部位の初期セット中の各CpG部位について、トレーニングサンプルの特徴ベクトルに基づく情報利得を計算する(530)。ステップ520から、各トレーニングサンプルは、ヒトゲノム内の全てのCpG部位まで含み得るCpG部位の初期セット中の全てのCpG部位の異常スコアを包含する場合のある特徴ベクトルを有する。しかしながら、CpG部位の初期セット中のいくつかのCpG部位は、がんタイプを区別する上で他のCpG部位ほど有益でない場合があり、又は他のCpG部位と重複している場合がある。
一実施態様において、分析システムは、各がんタイプについて、情報利得を計算し(530)、かつ初期セット中の各CpG部位について、そのCpG部位を分類器に含めるかを決定する。情報利得は、他の全てのサンプルと比較して、所与のがんタイプを有するトレーニングサンプルについて計算される。例えば、2つのランダム変数「異常なフラグメント」(「AF」)及び「がんタイプ」(「CT」)が使用される。一実施態様において、AFは、上記の異常スコア/特徴ベクトル対して決定されたように、所与のサンプル中の所与のCpG部位に重なる異常なフラグメントが存在するか否かを示すバイナリ変数である。CTは、がんが特定のタイプであるかを示すランダム変数である。分析システムは、AFが与えられたCTに関する相互情報を計算する。すなわち、特定のCpG部位に重なる異常なフラグメントがあるかわかる場合、がんタイプについての情報が何ビット得られるかを計算する。実際には、第1のがんタイプについて、分析システムは、他の各がんにタイプに対するペアワイズ相互情報利得を計算し、他のすべてのがんにタイプにわたる相互情報利得の合計を計算する。
所与のがんタイプについて、分析システムは、CpG部位がどの程度がんに特異的であるかに基づいてCpG部位をランク付けするために、この情報を使用することができる。この手順は、検討中であるすべてのがんタイプに対して繰り返すことができる。特定の領域が、所与のがんのトレーニングサンプルでは一般的に異常にメチル化されているが、他のがん型のトレーニングサンプル又は健康なトレーニングサンプルではそうでない場合、それらの異常なフラグメントによって重なるCpG部位は、所与のがんタイプに対して高い情報利得を有することができる。各がんタイプに対するランク付けされたCpG部位は、がん分類器において使用するために、そのランクに基づいて選択されたCpG部位のセットに積極的に追加(選択)することができる(540)。
追加の実施態様において、分析システムは、がん分類器で使用するための有益なpG部位を選択するための他の選択基準を考慮してもよい。1つの選択基準は、選択されたCpG部位が他の選択されたCpG部位から閾値分離を超えるものであってもよい。例えば、選択されたCpG部位は、閾値分離内にあるCpG部位は、がん分類器において考慮するために両方選択されないように、任意の他の選択されたCpG部位から閾値の塩基対の数を超えて離れていること(例えば、100塩基対)である。
一実施態様において、初期セットからの選択されたCpG部位のセットに従って、分析システムは、必要に応じて、トレーニングサンプルの特徴ベクトルを修正してもよい(550)。例えば、分析システムは、選択されたCpG部位のセット中にないCpG部位に対応する異常スコアを除去するために、特徴ベクトルを切り捨ててもよい。
トレーニングサンプルの特徴ベクトルを用いて、分析システムは、多数の方法のいずれかでがん分類器を訓練してもよい。特徴ベクトルは、ステップ520からのCpG部位の初期セット又はステップ550からの選択されたCpG部位のセットに対応してもよい。一実施態様において、分析システムは、トレーニングサンプルの特徴ベクトルに基づいて、がんと非がんとを区別するために、バイナリがん分類器を訓練する(560)。この態様では、分析システムは、健康な個体からの非がんサンプルと対象からのがんサンプルの両方を含むトレーニングサンプルを使用する。各トレーニングサンプルは、「がん」又は「非がん」の2つのラベルのうちの1つを有することができる。この実施態様では、分類器は、がんの存在又は非存在の可能性を示すがん予測を出力する。
別の実施態様において、分析システムは、多くのがんタイプ(発生組織(TOO)ラベルとも呼ばれる)を区別するために、マルチクラスがん分類器を訓練する(450)。がんタイプは、1つ以上のがんを含むことができ、かつ非がんタイプを含んでもよい(さらに、任意の追加の他の疾患又は遺伝性疾患などもまた含んでもよい)。そのために、分析システムは、がんタイプのコホートを使用することができ、かつ非がんタイプのコホートを含んでもよく、又は含まなくてもよい。このマルチがんの実施態様では、がん分類器は、分類されているがんタイプの各々に対する予測値を備えるがん予測(または、より具体的には、TOO予測)を決定するように訓練される。予測値は、所与のトレーニングサンプル(及び推論中、テストサンプル)ががんタイプの各々を有する尤度に対応してもよい。一実施態様において、予測値は0~100の間でスコア化され、予測値の累積は100に等しい。例えば、がん分類器は、乳がん、肺がん、及び非がんに対する予測値を含むがん予測を返す。例えば、分類器は、テストサンプルが乳がんの可能性65%、肺がんの可能性25%、及びがんでない可能性10%であるというがん予測を返すことができる。分析システムは、更に予測値を評価して、サンプルにおける1つ以上のがんの存在の予測を生成してもよく、また、1つ以上のTOOラベル、例えば、最も高い予測値を有する第1のTOOラベル、2番目に高い予測値を有する第2のTOOラベルなどを示すTOO予測として参照してもよい。上記の例を続け、パーセンテージが与えられると、この例では、システムは、乳がんが最も高い尤度を有することを考慮して、サンプルが乳がんを有すると決定してもよい。
両方の実施態様において、分析システムは、トレーニングサンプルのセットとともにその特徴ベクトルをがん分類器に入力し、かつ分類器の関数が訓練特徴ベクトルを対応するラベルに正確に関連付けるように分類パラメータを調整することによって、がん分類器を訓練する。分析システムは、がん分類器の反復バッチ訓練のために、トレーニングサンプルを1つ以上のトレーニングサンプルのセットにグループ化してもよい。それらの訓練特徴ベクトルを含むトレーニングサンプルのすべてのセットを入力し、かつ分類パラメータを調整した後、がん分類器を、いくつかの誤差の余地内でそれらの特徴ベクトルに従ってテストサンプルをラベル付けするように十分に訓練してもよい。分析システムは、多数の方法のうちのいずれか1つに従って、がん分類器を訓練することができる。一例として、バイナリがん分類器は、対数損失関数を用いて訓練されるL2正則化ロジスティック回帰分類器であってよい。別の例として、マルチがん分類器は、多項ロジスティック回帰であってもよい。実際には、いずれのタイプのがん分類器も、他の技法を使用して訓練してもよい。これらの技法は、カーネル法、ランダムフォレスト分類器、混合モデル、オートエンコーダモデル、多層ニューラルネットワークなどのような機械学習アルゴリズムの潜在的な使用を含む多数なものである。
いくつかの実施態様において、補完的データ構成体は、(例えば、ランダムサンプリングによって補完的データ構成体要素が導出された元のコホートデータと併せて)2つ以上の疾患状態を区別する分類器を訓練するために使用することができる。トレーニングデータセットは、疾患状況の第1の状態とは異なる疾患状況の第2の状態を有する訓練対象の第2のコホートに対する第2の複数のゲノムデータ構成体を更に含むことができる。第2の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含むことができる。本方法は、少なくとも(i)第1の複数のゲノムデータ構成体、(ii)第2の複数のゲノムデータ構成体、(iii)複数の補完的ゲノムデータ構成体、並びに(iv)第1の複数の遺伝子型データ構成体、第2の複数のゲノムデータ構成体、及び複数の補完的ゲノムデータ構成体中の各それぞれのゲノムデータ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別する分類器を訓練するステップを含むことができる。
訓練は、訓練対象の第3のコホートに対する第3の複数の遺伝子型データ構成体を追加で使用することができる。第3の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含む、それぞれのゲノムデータ構成体を含むことができる。第3のコホート中の各訓練対象は、疾患状況の第3の状態を有することができる。このような中で、分類器は、疾患状況の第1、第2、及び第3の状態を区別するように訓練することができる。訓練は、それぞれの訓練対象の1つ以上の個人的特徴を追加で使用することができる。例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、擬人データ等のうちの1つ以上が使用される。
補完的ゲノムデータ構成体の1つ以上は、異なるコホート、例えば、疾患コホート及び健康コホートからのデータ構成体からランダムにサンプリングされた生物学的特性(例えば、核酸フラグメントシークエンス)の混合物から形成することができる。複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、対応するゲノムデータ構成体の対に対応することができる。ゲノムデータ構成体の対は、(i)第1の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体(例えば、疾患対象に対応する)、及び(ii)第2の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体(例えば、健康な対象に対応する)を備えることができる。複数の補完的ゲノムデータ構成体中のそれぞれの補完的ゲノムデータ構成体は、対応するゲノムデータ構成体の対の各ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を含むことができる。
複数の補完的ゲノムデータ構成体中の少なくとも1つのそれぞれの補完的ゲノムデータ構成体に対して、第2の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体は、それぞれの補完的ゲノムデータ構成体の複数の遺伝子型特性に対する増強値を導出する前に増強することができる。複数のゲノム特性中の各それぞれのゲノム特性に対する増強値は、(i)第1の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の第1の重み寄与、及び(ii)第2の複数の遺伝子型データ構成体からのそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の第2の重み寄与から形成することができる。このような中で、各元データセットから寄与される疾患信号の割合を制御することにより、補完的データ構成体において有益な核酸画分(例えば、がんを考慮するときの腫瘍分画)を得ることができる。
同じコホート又は異なるコホート中の対象に由来する生物学的情報を混合するとき、データ構成体は、データ構成体に対応する対象の1つ以上の個人的特徴を、例えば、そのような個人的特徴によってもたらされる生物学的分散を説明するために、マッチさせることによって選択することができる。複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体に対して、(i)第1の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体に対応するそれぞれの訓練対象、及び(ii)ゲノムデータ構成体の対に対応する、第2の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせることができる。
人工的に生成された時系列データセットは、2つ以上の疾患状態を区別するための分類器を訓練するために使用することができる。したがって、疾患状況の状態を判別するための時間的分類器を訓練することは、少なくとも(i)訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット、(ii)訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中の各それぞれのゲノムデータ構成体についてのそれぞれの時点、又はその派生物を含むそれぞれの複数の時点、及び(iii)訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの複数の時点における少なくとも最も早いそれぞれの時点及び最も遅いそれぞれの時点に対する疾患状況の表示、を使用することができる。訓練は、それぞれの訓練対象の1つ以上の個人的特徴を使用することができる。例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの1つ以上が挙げられる。分類器の詳細については、本明細書の他の箇所で記載されている。
がんの進行を模擬する時系列を表す人工的に作成されたデータを使用して時間的分類器を訓練する方法は、電子フォームで、トレーニングデータセットを得ることを含むことができ(例えば、時系列トレーニングデータ)、複数の訓練対象中のそれぞれの訓練対象に対して、(1)それぞれの訓練対象に対するそれぞれの第1のゲノムデータ構成体であって、それぞれの第1のゲノムデータ構成体は、それぞれの第1の時点(例えば、時系列トレーニングデータ点)におけるそれぞれの訓練対象から得られた第1の生体サンプル中の第1のそれぞれの複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれの第1のゲノムデータ構成体、(2)それぞれの訓練対象に対するそれぞれの第2のゲノムデータ構成体であって、それぞれの第2のゲノムデータ構成体は、それぞれの第1の時点の後に起こるそれぞれの第2の時点(例えば、増強された時系列データ点)におけるそれぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第2のゲノムデータ構成体、(3)それぞれの第1の時点及びそれぞれの第2の時点、又はその派生物(例えば、第1及び第2のデータ点が対応する時間又は2つの時点間の時間量)、並びに(4)それぞれの訓練対象の、それぞれの第1の時点及びそれぞれの第2の時点における、疾患状況のセット中の疾患状況の表示、を含む。
本方法は、その後、各それぞれの訓練対象について、少なくとも(a)それぞれの第1のゲノムデータ構成体、(b)それぞれの第2のゲノムデータ構成体、(c)それぞれの第1の時点及びそれぞれの第2の時点、又はその派生物、並びに(d)それぞれの第1の時点及びそれぞれの第2の時点における疾患状況の表示に対して、時間的分類アルゴリズムを訓練することを含むことができる。複数の訓練対象中の少なくとも1つのそれぞれの訓練対象について、それぞれの第2のゲノムデータ構成体は、それぞれの訓練対象から得られた第2の生体サンプルからのそれぞれの第2の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第3の複数の核酸フラグメントからの複数のゲノム特性についての値を含むことができる。
それぞれの第2のゲノムデータ構成体は、複数のゲノム特性中の各それぞれのゲノム特性に対して、(i)第2の複数の核酸フラグメント中のそれぞれのゲノム特性の値に寄与する核酸フラグメント、及び(ii)第3の複数の核酸フラグメント中のそれぞれのゲノム特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を含むことができる。サンプリングは、スパイクインサンプルからの生体疾患信号をトレーニングデータ構成体からのバックグラウンドで希釈し、訓練対象が疾患状態の進行を経験した後の第2の時間における訓練対象の代表的なデータ構成体を生成することとして考えることができる。
それぞれの第3のゲノムデータ構成体は、それぞれの第2の時点、それぞれの第3の時点、又はそれぞれの第2の時点及びそれぞれの第3の時点の派生物(例えば、時点間の期間)の後に起こるそれぞれの第3の時点における、それぞれの訓練対象の代表的な複数のゲノム特性についての値、並びにそれぞれの訓練対象の、それぞれの第3の時点における、疾患状況の状態のセット中の疾患状況の状態の指標を含むことができる。複数の訓練対象中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第3のゲノムデータ構成体は、それぞれの訓練対象から得られた第3の生体サンプルからのそれぞれの第4の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態を有するスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第5の複数の核酸フラグメントからの複数のゲノム特性に対する値を含むことができる。
それぞれの第2の複数の核酸フラグメント及びそれぞれの第4の複数の核酸フラグメントは、それぞれの訓練対象から得られた同一の生体サンプルからの同一の無細胞核酸であり得る。この状況では、第2のゲノムデータ構成体を形成するために使用される訓練対象からの同じバックグラウンドサンプルは、例えば、異なるスパイクインサンプルからの生体信号又は同じスパイクインサンプルからの異なる量の生体信号と混合することによって、第3の遺伝子型データ構成体を形成するために使用することができる。
それぞれの第3の複数の核酸フラグメント及びそれぞれの第5の複数の核酸フラグメントは、スパイクイン対象から得られた同一のスパイクイン生体サンプルからの同一の無細胞核酸であり得る。この状況では、第2の遺伝子型データ構成体を形成するために使用されるスパイクイン対象からの同じスパイクインサンプルは、例えば、第2の遺伝子型データ構成体を構築するために使用されるのと同じ又は異なるバックグラウンドサンプルである場合があるバックグラウンドサンプルからの生体信号と異なる割合で混合することによって、第3の遺伝子型データ構成体を形成するために使用することができる。それぞれの第2の遺伝子型データ構成体中の複数のゲノム特性についての値は、(i)それぞれの第2の複数の核酸フラグメントの複数のゲノム特性についての値と、(ii)それぞれの第3の複数の核酸フラグメントの複数のゲノム特性についての値とのそれぞれの第1の重み混合物を含むことができる。それぞれの第3のゲノムデータ構成体中の複数のゲノム特性についての値は、(i)それぞれの第2の複数の核酸フラグメントの複数のゲノム特性についての値と、(ii)それぞれの第3の複数の核酸フラグメントの複数のゲノム特性についての値とのそれぞれの第2の重み混合物を含むことができる。それぞれの第2の重み混合物は、それぞれの第1の重み混合物よりも、それぞれの第3の複数の核酸フラグメントの複数のゲノム特性についての値に対してより重く重み付けすることができる。
確率サンプリングは、複数の遺伝子型特性についての値に寄与するそれぞれの第2の複数の核酸フラグメントのそれぞれの第1の部分と、複数の遺伝子型特性についての値に寄与するそれぞれの第3の複数の核酸フラグメントのそれぞれの第2の部分とを選択することができ、かつ核酸フラグメントのそれぞれの第1の部分及び核酸フラグメントのそれぞれの第2の部分の大きさは、少なくとも(i)第1の時点と第2の時点との間の時間の長さ、及び(ii)疾患状況の状態のセット中の、スパイクイン対象が罹患している疾患状況のそれぞれの状態の発展に対する時間モデルに基づいて、決定される。
それぞれの第2のゲノムデータ構成体は、第2の生体サンプルからの第2の複数の核酸フラグメントの第1の量とスパイクイン生体サンプルからの無細胞核酸の第2の量とを一緒に混合し、それによって無細胞核酸の混合物を形成し、無細胞核酸の混合物からの核酸フラグメントをシークエンシングし、かつシークエンシングに基づいて複数のゲノム特性についての値を決定することによって形成することができる。したがって、本方法は、それぞれの訓練対象について、少なくともそれぞれの第1のゲノムデータ構成体、それぞれの第2のゲノムデータ構成体、それぞれの第1の時点及びそれぞれの第2の時点又はその派生物、並びにそれぞれの第1の時点及びそれぞれの第2の時点における疾患状況の表示に対して時間的分類アルゴリズムを訓練することを含むことができる。いくつかの実施態様では、時間的分類アルゴリズムは、それぞれの第3のゲノムデータ構成体、それぞれの第3の時点、又はそれぞれの第2の時点及びそれぞれの第2の時点の導出物、並びにそれぞれの第3の時点におけるそれぞれの訓練対象の疾患状況の状態のセット中の疾患状況の状態の表示に対して更に訓練される。いくつかの実施態様では、訓練データ構成体は、少なくとも3、4、5、6、7、8、9、10、又はそれ以上の時点を含む。
本方法は、例えば、上述のサンプリング方法に従って生成された滴定増強データセットを使用する訓練されたモデルを評価することを更に含むことができる。本方法は、テストゲノムデータ構成体(例えば、疾患分類器)を評価することによって、疾患状況を判別するように訓練された第1の分類器を得ることを含むことができ、ここで、テストゲノムデータ構成体は、テスト対象から得られた第1の対応する生体サンプル中の対応する第1の複数の核酸フラグメントの複数のゲノム特性についての値を含む。本方法は、その後、複数の増強されたゲノムデータ構成体(例えば、増強された単一時点データ又は増強された時系列データ)を含む増強された評価データセットを取得することを含むことができる。複数の増強されたゲノムデータ構成体中の各それぞれの増強されたゲノムデータ構成体は、疾患状況の複数の状態中の疾患状況のそれぞれの状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むことができる。増強された評価データセットは、複数の増強された遺伝子型データ構成体中の、疾患状況の複数の状態中の疾患状況の各それぞれの状態の代表的な、例えば、疾患なしから進行性疾患までまたがる範囲にわたる、それぞれの増強された遺伝子型データ構成体を含むことができる。本方法は、その後、拡張された評価データセット中の各それぞれの拡張ゲノムデータ構成体を分類器に独立して適用して、各それぞれの拡張ゲノムデータ構成体について疾患状態分類を生成し、それによって、複数の疾患状態分類を生成することを含むことができる。本方法は、その後、複数の疾患状態分類中の各それぞれの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状況のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを含むことができる。
一般に、開示された方法は、集団内で表される場合がある疾患状態の範囲にわたって分類器を評価し、分類器がトレーニングデータにオーバーフィットしたか否かを判定するようにしてもよい。例えば、図13は、患者サンプル中の無細胞DNAのゲノム特性に基づいてがんを検出するために訓練された2つの分類器の評価を図示する。増強された時系列データ構成体は、本明細書に記載された方法に従って、12人のがん患者のサンプルからの生物学的がん信号を希釈し、腫瘍分画の希釈系列を0%まで形成し、例えば、がん細胞からの信号を完全に欠くように、調製されている。次に、希釈系列データを、2つの分類器に適用し、各データ構成体ががん患者のサンプルから生成された確率(曲線802及び804)を作り出している。図13に見られるように、第1の分類器が使用されたとき(曲線802に対応する)、希釈系列のいくつかは、増強されたデータ構成体ががん信号を全く包含しないときでさえ(例えば、滴定=0において)、がん患者に由来する非常に高い確率を有するものとして分類されている(個体1、2、9、及び10を参照のこと)。これは、モデルがトレーニングデータにオーバーフィットしており、かつ許容できない数の偽陽性を作り出している可能性が高いことを示す。対照的に、第2の分類器を使用したとき(曲線804に対応)、モデルによって出力されたがん確率は、各増強された時系列に対してより緩やかに、かつより一貫して低下し、全ての個体について50%に低下するか又はそれを下回り、モデルが第1の分類器よりもオーバーフィットでなかったことを示している。
いくつかの実施態様において、がんの複数の状態中の(例えば、複数の増強された遺伝子型データ構成体中の)各状態は、分類器に対する検出レベルより少なくとも25%低い無細胞DNA腫瘍分画のベースラインパーセンテージから分類器の検出レベルより少なくとも25%高い無細胞DNA腫瘍分画の上限パーセンテージに少なくともまたがる無細胞DNA腫瘍分画の範囲中(624)の無細胞DNA腫瘍分画のサブ範囲を含む。他の実施態様では、無細胞DNA腫瘍分画のサブ範囲は、分類器に対する検出レベルの5%以内、若しくは分類器に対する検出レベルの10%、15%、20%、25%、30%、40%、又は50%以内に収まる。
いくつかの実施態様において、複数の心血管疾患の状態中の(例えば、複数の増強された遺伝子型データ構成体中の)各状態は、分類器に対する検出レベルより少なくとも25%低い無細胞DNA心血管組織分率のベースラインパーセンテージから分類器に対する検出レベルより少なくとも25%高い無細胞DNA心血管組織分率の上限パーセンテージに少なくともまたがる無細胞DNA腫瘍分画の範囲中(628)の、無細胞DNA腫瘍分画のサブ範囲を含む。他の実施態様では、無細胞DNA腫瘍分画のサブ範囲は、分類器に対する検出レベルの5%以内、若しくは分類器に対する検出レベルの10%、15%、20%、25%、30%、40%、又は50%以内に収まる。
分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムを含むことができる。
いくつかの実施態様では、ハードネガティブマイニングの一形態が、分類器の性能を向上させるために使用される。例えば、本方法は、性能閾値に不足する性能を有する分類器の前駆体によって判別される第2の複数のゲノムデータ構成体からゲノムデータ構成体のサブセットを同定することによって複数の増強された偽陽性ゲノムデータ構成体を得ることと、ゲノムデータ構成体のサブセットを使用して複数の増強された偽陽性遺伝子型データ構成体を生成することと、を含む。各それぞれの増強された偽陽性ゲノムデータ構成体は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ構成体に対応し得、かつ複数の増強された偽陽性ゲノムデータ構成体中の各それぞれのゲノムデータ構成体は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含むことができる。これらの実施態様では、分類器を、複数の増強された偽陽性ゲノムデータ構成体及び疾患状況の状態の表示に対して更に訓練することができる。
多くの異なるモデルが、対象の1つ以上の疾患状況(例えば、がん状態、冠動脈疾患状況など)を分類するために、生物学的特徴を評価することができる。例えば、米国特許出願第2019/0287652号は、対象のがん状態を分類するために、例えばcfDNAサンプルを使用して、複数のゲノム遺伝子座にわたるメチル化状態を評価するモデルについて記載している。同様に、米国特許出願第2019/0287649号は、対象のがん状態を分類するために、例えばcfDNAサンプルを使用して、複数のゲノム遺伝子座にわたる相対コピー数を評価するモデルについて記載している。そのうえ、対象のがんの状態を分類するために、バリアント対立遺伝子(例えば、一塩基変異、インデル、欠失、転座など)の存在を評価する様々なモデルが開発されてきた。他の好適なモデルは、2019年5月31日に出願された「Convolutional Neural Network Systems and Methods for Data Classification」と題する米国特許出願第16/428,575号に開示されている。一般に、対象の疾患状態の分類のために開発された任意のモデルは、本明細書に記載の増強データセットを使用して訓練され、かつ例えば、テスト対象の疾患状態を判定するために、本明細書に記載のシステム及び方法と組み合わせて使用されてもよい。
分類器は、対象中の疾患状態の存在を検出するため、例えば、対象中のがん又は冠状動脈疾患を検出するためにあることができる。本明細書で提供されるシステム及び方法は、患者データで訓練したモデルの検出限界に近い弱い疾患信号の多くの例を提供する追加の増強データを使用して訓練することができるので、既存の疾患モデルの感度及び特異性を改善するのに適し得る。トレーニングデータの収集に紐づく費用、及び患者データは疾患の初期ステージで収集されないことがよくあるため、トレーニングデータセットには、モデルの検出限界付近の疾患信号を有するデータ構成体があまり含まれない場合がある。むしろ、トレーニングセットは、進行した疾患状態を有する訓練対象からの強い疾患信号の多くの例と、疾患を持たない訓練対象からの疾患信号のない多くの例と、を有する場合がある。しかしながら、疾患の初期ステージを積極的に診断することは困難であるため、トレーニングデータセットには、分類器の感度及び特異性を向上させるために重要な中程度から弱い疾患信号はほとんど含まれない場合がある。
一般に、本明細書に記載されるシステム及び方法では、多くの異なる分類アルゴリズムが使用することができる。例えば、モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、回帰アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムを含むことができる。増強されたデータ構成体の使用は、より深い学習ベースのモデル、例えば、ニューラルネットワークに対してより、分類器の性能を向上させるよりも、回帰ベースのモデルの性能を向上させることができる。回帰アルゴリズムは、ラッソ、L2、又はエラスティックネット正則化を有するロジスティック回帰とすることができる。いくつかの実施態様では、ロジスティック回帰は、個人特性、例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの1つ以上を更に含む。
疾患状態モデルは、訓練中に調整される特徴に対する学習された重みを含むことができる。「重み」という用語は、ここでは、どの特定の機械学習技術が使用されるかにかかわらず、モデルの任意の所与の特徴に紐づく学習された量を表すために一般的に使用することができる。いくつかの実施態様において、がん指標スコアは、1つ以上のDNAシークエンス(又はそのDNAシークエンスリード値)に由来する特徴についての値を機械学習又は深層学習モデルに入力することによって決定される。いくつかの実施態様では、例えば、疾患クラス評価モデルがニューラルネットワーク(例えば、従来のニューラルネットワーク又は畳み込みニューラルネットワーク)であるとき、疾患分類器の出力は、分類、例えば、がん陽性又はがん陰性のいずれかである。しかしながら、分類ではなく、モデルの出力について連続的又は半連続的な値を提供するために、ニューラルネットワークの隠れ層、例えば、出力層の直前の隠れ層を分類モデルの出力として使用することができる。
したがって、モデルは、(i)複数のゲノム特性が第1の次元数を含む複数のゲノム特性に対する値を受信するための入力層と、(ii)重みのセットを含む埋め込み層であって、埋め込み層が入力層の出力を直接的又は間接的に受信し、かつ埋め込み層の出力が第1の次元数よりも小さい第2の次元数を有するモデルスコアセットである、埋め込み層と、(iii)埋め込み層からモデルスコアセットを直接的又は間接的に受信する出力層と、を含むことができる。そのような実施態様において、第1のモデルスコアセットは、第1のゲノムデータ構成体を入力層に入力する際の埋め込み層のモデルスコアセットであり、第2のモデルスコアセットは、第2のゲノムデータ構成体を入力層に入力する際の埋め込み層のモデルスコアセットである。言い換えれば、モデルスコアセットは、埋め込み層と名付けられたニューラルネットワーク中の隠れ層に紐づくニューロンのセットの出力とすることができる。埋め込み層中のそのような各ニューロンは、重みと活性化関数とに紐づけることができ、かつモデルスコアセットは、そのような各活性化関数の出力から成る。埋め込み層中のニューロンの活性化関数は、整流線形ユニット(ReLU)、tanh関数、又はシグモイド活性化関数とすることができる。いくつかのそのような実施態様では、埋め込み層のニューロンは、入力層の入力の各々に完全に接続することができる。出力層の各ニューロンは、埋め込み層の各ニューロンに完全に接続することができる。出力層の各ニューロンは、ソフトマックス活性化関数と紐づけることができる。いくつかの実施態様では、埋め込み層及び出力層のうちの1つ以上は、完全に接続されていない。
III.D. がん分類器の展開
がん分類器の使用中、分析システムは、不明ながんタイプの対象からテストサンプルを得ることができる。分析システムは、異常なフラグメントのセットに達するために、プロセス100、200、及び220の任意の組み合わせを用いてDNA分子からなるテストサンプルを処理してもよい。分析システムは、プロセス500で論じられた同様の原理に従って、がん分類器によって使用するためのテスト特徴ベクトルを決定することができる。分析システムは、がん分類器によって使用される複数のCpG部位中の各CpG部位に対して異常スコアを計算することができる。例えば、がん分類器は、1,000個の選択されたCpG部位に対する異常スコアを含めて特徴ベクトルを入力として受信する。分析システムは、このように、異常なフラグメントのセットに基づいて、1,000個の選択されたCpG部位に対する異常スコアを含めてテスト特徴ベクトルを決定することができる。分析システムは、トレーニングサンプルと同じやり方で異常スコアを計算することができる。いくつかの実施態様において、分析システムは、異常スコアを、CpG部位をくみこむ異常なフラグメントのセット中のハイパーメチル化フラグメント又はハイポメチル化フラグメントが存在するかに基づく二値スコアとして定義する。
分析システムは、その後、テスト特徴ベクトルをがん分類器に入力することができる。がん分類器の機能は、次に、プロセス600において訓練された分類パラメータ及びテスト特徴ベクトルに基づいて、がん予測を生成することができる。第1の態様では、がん予測は二値であり、かつ「がん」又は「非がん」からなるグループから選択することができる。第2の態様では、がん予測は多くのがんタイプ及び「非がん」からなるグループから選択される。追加の実施態様では、がん予測は、多くのがんタイプの各々について予測値を有する。さらに、分析システムは、テストサンプルががんタイプの1つである可能性が最も高いと判定してもよい。テストサンプルに対するがん予測が乳がんの可能性65%、肺がんの可能性25%、及び非がんの可能性10%を有する上記の例に従うと、分析システムは、テストサンプルが乳がんを有する可能性が最も高いと判定してもよい。別の例では、がん予測が、がんでない可能性が60%、がんの可能性が40%という二値であるとき、分析システムは、テストサンプルががんでない可能性が最も高いと判定する。追加の実施態様において、最も高い尤度を有するがん予測は、テスト対象がそのがんタイプを有すると呼ぶために、やはり閾値(例えば、40%、50%、60%、70%)と比較されてもよい。最も高い尤度を有するがん予測がその閾値を超えない場合、分析システムは、決定的でない結果を返してもよい。
追加の実施態様において、分析システムは、プロセス600のステップ560で訓練されたがん分類器を、ステップ570又はプロセス500で訓練された別のがん分類器とつなげる。分析システムは、テスト特徴ベクトルを、プロセス600のステップ560でバイナリ分類器として訓練されたがん分類器に入力することができる。分析システムは、がん予測の出力を受信することができる。がん予測は、テスト対象ががんを有する可能性が高いか、またはがんを有しない可能性が高いかについての二値であってもよい。他の実施態様において、がん予測は、がんの可能性及び非がんの可能性を記述する予測値を含む。例えば、がん予測は、85%のがん予測値及び15%の非がん予測値を有する。分析システムは、テスト対象ががんである可能性が高いと判定してもよい。分析システムは、テスト対象ががんを有する可能性が高いと判定すると、分析システムは、異なるがんタイプ間を区別するようにテスト特徴ベクトルを訓練されたマルチクラスがん分類器に入力してもよい。マルチクラスがん分類器は、テスト特徴ベクトルを受信し、かつ複数のがんタイプのがんタイプのがん予測を返すことができる。例えば、マルチクラスがん分類器は、テスト対象が卵巣がんである可能性が最も高いことを指定するがん予測を提供する。別の実施態様では、マルチクラスがん分類器は、複数のがんタイプの各がんタイプについて予測値を提供する。例えば、がん予測は、40%の乳がんタイプ予測値、15%の大腸がんタイプ予測値、及び45%の肝臓がん予測値を含んでもよい。
二値がん分類の一般化された実施態様によれば、分析システムは、テストサンプルのシークエンシングデータ(例えば、メチル化シークエンシングデータ、SNPシークエンシングデータ、他のDNAシークエンシングデータ、RNAシークエンシングデータなど)に基づいて、テストサンプルのがんスコアを決定することができる。分析システムは、テストサンプルががんを有する可能性が高いか否かを予測するための二値閾値カットオフに対して、テストサンプルのがんスコアを比較することができる。二値閾値カットオフは、1つ以上のTOOサブタイプクラスに基づくTOO閾値を使用して調節することができる。分析システムは、1つ以上の可能性の高いがんタイプを示すがん予測を決定するために、マルチクラスがん分類器で使用するためのテストサンプルの特徴ベクトルを更に生成してもよい。
分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判定するために使用されてもよい。本方法は、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性中の各ゲノム特性に対する値を含む、電子フォームのテストゲノムデータ構成体(例えば、単一時点テストデータ)を得ることを含むことができる。本方法は、その後、テストゲノムデータ構成体をテスト分類器に適用して、それによってテスト対象における疾患状況の状態を決定することを含むことができる。テスト対象は、以前に疾患状況を有すると診断されていない場合がある。
分類器は、少なくとも(i)第1の時点においてテスト対象から取得した第1の生体サンプルから生成された第1のテストゲノムデータ構成体、及び(ii)第2の時点においてテスト対象から取得した第2の生体サンプルから生成された第2のテストゲノムデータ構成体を使用する時間的分類器とすることができる。
訓練された分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判定するために使用することができる。この場合、本方法は、テスト対象について、電子フォームで、テスト時系列データセットを取得することを含むことができ、テスト時系列データセットは、複数の時点におけるそれぞれの時点に対して、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含む対応するテスト遺伝子型データ構成体と、複数の時点における連続する時点のそれぞれの対に対して、連続する時点の各それぞれの対間の時間の長さを示す表示と、を含む。本方法は、その後、テスト遺伝子型データ構成体をテスト分類器に適用して、それによってテスト対象における疾患状況の状態を決定することを含むことができる。テスト対象は、以前に疾患状況を有すると診断されたことがない場合がある。
IV.応用
いくつかの実施態様において、本発明の方法、分析システム、及び/又は分類器は、がんの存在を検出するため、がんの進行又は再発を監視するため、具体的な治療反応又は効果を監視するため、最小残存病変(MRD)の存在を判定又は監視するため、若しくはそれらの任意の組合せに使用することができる。例えば、本明細書に記載されるように、分類器は、テスト特徴ベクトルががんを有する対象からのものである可能性を記述する確率スコア(例えば、0から100まで)を生成するために使用することができる。いくつかの実施態様において、確率スコアは、対象ががんを有するか又は有さないかを判定するために閾値確率と比較される。他の実施態様では、尤度又は確率スコアを、疾患の進行を監視し、又は治療の有効性(例えば、具体的な治療効果)を監視するために、多数の異なる時点(例えば、治療の前又は後)で査定することができる。さらにまだ他の実施態様では、臨床的決定(例えば、がんの診断、治療選択、治療の有効性の評価など)をする、又は、臨床的決定に影響を与えるために、尤度スコア又は確率スコアを使用するができる。例えば、一実施態様では、確率スコアが閾値を超える場合、医師は適切な治療を処方することができる。
IV.A.がんの早期検出
いくつかの実施態様において、本発明の方法及び/又は分類器は、がんを有することが疑われる対象におけるがんの存在又は不在を検出するために使用される。例えば、分類器(例えば、セクションIIIで上述され、かつセクションVで検討される)は、テスト特徴ベクトルががんを有する対象からのものである尤度を記述するがん予測を決定するために使用することができる。
一実施態様において、がん予測は、テストサンプルががんを有するかについての尤度(例えば、0~100との間のスコア)である(すなわち、二値分類である)。このように、分析システムは、テスト対象ががんを有するか否かを判定するための閾値を決定してもよい。例えば、60以上のがん予測は、テスト対象ががんを有することを示し得る。さらにまだ他の実施態様では、65以上、70以上、75以上、80以上、85以上、90以上、または95以上のがん予測は、テスト対象ががんを有していることを示す。他の実施態様では、がん予測は、疾患の重篤度を示すことができる。例えば、80のがん予測は、80を下回るがん予測(例えば、70の確率スコア)と比較して、より重篤の形態、又はより後のステージのがんを示すことができる。同様に、時間の経過に伴う癌の予測値の増加(例えば、2つ以上の時点において採取された同じ対象からの多数のサンプルからのテスト特徴ベクトルの分類によって決定される)は、疾患の進行を示すことができ、又は時間の経過に伴う癌の予測値の減少は、治療の成功を示すことができる。
別の実施態様において、がん予測は、多くの予測値を備え、分類されるための複数のがんタイプの各々(すなわち、マルチクラス分類)は、予測値(例えば、0~100の間でスコア化される)を有する。予測値は、所与のトレーニングサンプル(及び推論中、トレーニングサンプル)ががんタイプの各々を有する尤度に対応してもよい。分析システムは、最も高い予測値を有するがんタイプを同定し、かつテスト対象がそのがんタイプを有する可能性が高いことを示してもよい。他の実施態様において、分析システムは、最高予測値を閾値(例えば、50、55、60、65、70、75、80、85など)と更に比較し、テスト対象がそのがんタイプを有する可能性が高いと判定する。他の実施態様では、予測値は、また疾患の重篤度を示すこともできる。例えば、80より大きい予測値は、60の予測値と比較して、より重篤ながんの形態、又はより後のステージを示してもよい。同様に、時間の経過に伴う予測値の増加(例えば、2つ以上の時点において採取された同じ対象からの多数のサンプルからのテスト特徴ベクトルを分類することによって決定される)は、疾患の進行を示すことができ、又は時間の経過に伴う予測値の減少は、治療の成功を示すことができる。
本発明の態様によれば、本発明の方法及びシステムは、多数のがんの適応症を検出又は分類するように訓練することができる。例えば、本発明の方法、システム及び分類器は、1つ以上、2つ以上、3つ以上、5つ以上、10つ以上、15つ以上、又は20つ以上の異なるタイプのがんの存在を検出するために使用することができる。
本発明の方法、システム、及び分類器を使用して検出することができるがんの例は、がん腫、リンパ腫、芽腫、肉腫、及び白血病又はリンパ性悪性腫瘍を含む。そのようながんのより具体的な例としては、扁平上皮がん(例えば、上皮性扁平上皮がん)、皮膚がん、メラノーマ、小細胞肺がん、非小細胞肺がん(「NSCLC」)、肺腺癌及び肺扁平上皮癌、腹膜のがん、胃腸がんを含む胃又は腹部がん、すい臓がん(例えば、。膵管腺がん)、子宮頸がん、卵巣がん(例えば、高悪性度漿液性卵巣がん)、肝がん(例えば、肝細胞がん(HCC))、肝細胞がん、肝がん、膀胱がん(例えば。尿路上皮膀胱がん)、精巣(胚細胞腫瘍)がん、乳がん(例えば、HER2陽性、HER2陰性、及びトリプルネガティブ乳がん)、脳腫瘍(例えば、星細胞腫、グリオーマ(例えば、膠芽腫))、結腸がん、直腸がん、大腸がん、内膜又は子宮がん、唾液腺がん、腎臓がん(例えば、腎細胞がん、腎芽細胞腫又はウィルムス腫瘍)、前立腺がん、外陰がん、甲状腺がん、肛門がん、陰茎がん、頭頸部がん、食道がん、並びに鼻咽頭がん(NPC)を含む。がんの追加の例としては、限定なしで、非ホジキンリンパ腫(NHL)、多発性骨髄腫及び急性血液悪性腫瘍、子宮内膜症、線維肉腫、絨毛がん、喉頭がん、カポジ肉腫、シュワンノーマ、乏突起膠腫、神経芽腫、横紋筋肉腫、骨原性肉腫、平滑筋肉腫、及び尿路がんを含むが、これに限定されない網膜芽細胞腫、テコマ、アレノブラストーマ、血液悪性腫瘍を含む。
いくつかの実施態様において、がんは、肛門がん、膀胱がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、白血病、肺がん、リンパ腫、メラノーマ、多発性骨髄腫、卵巣がん、すい臓がん、前立腺がん、腎臓がん、甲状腺がん、子宮がん又はこれらの任意の組み合わせの1つ以上である。
いくつかの実施態様において、1つ以上のがんは、肛門直腸がん、大腸がん、食道がん、頭頸部がん、肝胆膵がん、肺がん、卵巣がん、膵臓がん、並びにリンパ腫及び多発性骨髄腫などのような「高信号」がん(5年がん特異的死亡率が50%を超えるがんとして定義)とすることができる。高信号のがんはより侵攻性の傾向があり、かつ通常、患者から得たテストサンプル中の無細胞核酸濃度は平均を超える。
IV.B.がん及び治療モニタリング
いくつかの実施態様において、がん予測は、疾患の進行を監視するため、又は治療の有効性(例えば、具体的な治療効果)を監視するために、多数の異なる時点(例えば、または治療の前または後)で評価することができる。例えば、本発明は、第1の時点でがん患者から第1のサンプル(例えば、第1の血漿cfDNAサンプル)を取得し、そこから第1のがん予測を決定し(本明細書に記載)、第2の時点でがん患者から第2のテストサンプル(例えば、第2の血漿cfDNAサンプル)を取得し、そこから第2のがん予測を決定すること(本明細書に記載)を伴う方法を含む。
特定の実施態様では、第1の時点は、がん治療の前(例えば、切除手術又は具体的な治療的介入の前)であり、第2の時点は、がん治療の後(例えば、切除手術又は具体的な治療的介入の後)であり、かつ分類器は、治療の有効性を監視するために利用される。例えば、第2のがん予測値が第1のがん予測値と比較して減少した場合、そのとき、治療は成功したとみなされる。しかしながら、第2のがん予測値が第1のがん予測値に比べて増加した場合、そのとき、治療は成功しなかったとみなされる。他の実施態様では、第1及び第2の時点の両方が、がん治療の前(例えば、切除手術又は具体的な治療的介入の前)である。さらにまだ他の実施態様では、第1の時点及び第2の時点の両方が、がん治療の後(例えば、切除手術又は具体的な治療的介入の後)である。さらにまだ他の実施態様では、cfDNAサンプルは、第1及び第2の時点においてがん患者から得られ、分析されてもよく、例えば、がんの進行を監視するため、がんが寛解しているか(例えば、治療後)を判断するため、残存疾患又は疾患の再発を監視若しくは検出するため、若しくは治療(例えば、具体的な治療)効果を監視するためである。
当業者であれば、患者におけるがんの状態を監視するために、任意の所望の時点のセットにわたってがん患者からテストサンプルを得て、本発明の方法に従って分析し得ることを容易に理解するであろう。いくつかの実施態様において、第1及び第2の時点は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、又は約24時間など、若しくは例えば約1、2、3、4、5、10、15、20、25又は約30日など、若しくは約1、2、3、4、5、6、7、8、9、10、11又は12ヶ月など、若しくは約1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5又は約30年などのような約15分から約30年までの範囲の時間の量によって分離される。他の実施態様では、テストサンプルは、少なくとも3ヶ月に1回、少なくとも6ヶ月に1回、少なくとも1年に1回、少なくとも2年に1回、少なくとも3年に1回、少なくとも4年に1回、又は少なくとも5年に1回、患者から取得することができる。
IV.C.治療
さらにまだ別の実施態様では、がん予測は、臨床的決定(例えば、がんの診断、治療選択、治療効果の評価など)をするため、又は、臨床的決定に影響を与えるために使用することができる。例えば、一実施態様において、がん予測(例えば、がんに対して、又は特定のがんタイプに対して)が閾値を超える場合、医師は適切な治療(例えば、切除手術、放射線療法、化学療法、及び/又は免疫療法)を処方することができる。
分類器(本明細書に記載)は、サンプル特徴ベクトルががんを有する対象からのものであるというがん予測を決定するために使用することができる。一実施態様では、がん予測が閾値を超えると、適切な治療(例えば、切除手術又は具体的な治療)が処方される。例えば、一実施態様では、がん予測値が60以上である場合、1つ以上の適切な治療が処方される。別の実施態様では、がん予測値が65以上、70以上、75以上、80以上、85以上、90以上、又は95以上である場合、1つ以上の適切な治療が処方される。他の実施態様では、がん予測は、疾患の重篤度を示すことができる。次いで、疾患の重篤度にマッチする適切な治療が処方されてもよい。
いくつかの実施態様において、治療は、化学療法剤、標的がん治療剤、分化誘導療法剤、ホルモン療法剤、及び免疫療法剤からなるグループから選択される1つ以上のがん治療剤である。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍抗生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、核酸アナログ、プラチナ系薬剤及びそれらの任意の組み合わせからなるグループから選択される1つ以上の化学療法剤とすることができる。いくつかの実施態様において、治療は、信号伝達阻害剤(例えば、チロシンキナーゼ及び成長因子受容体阻害剤)、ヒストン脱アセチル化酵素(HDAC)阻害剤、レチノイン受容体作動薬、プロテオソーム阻害剤、血管新生阻害剤、及びモノクローナル抗体コンジュゲートからなるグループから選択される1以上の標的がん治療薬である。いくつかの実施態様において、治療は、トレチノイン、アリトレチノイン及びベキサロテンなどのようなレチノイドを含む1つ以上の分化療法剤である。いくつかの実施態様において、治療は、抗エストロゲン、アロマターゼ阻害剤、黄体ホルモン、エストロゲン、抗アンドロゲン、及びGnRHアゴニスト又はアナログからなるグループから選択される1つ以上のホルモン治療薬である。一実施態様において、治療は、リツキシマブ(RITUXAN)及びアレムツズマブ(CAMPATH)などのようなモノクローナル抗体療法、BCG、インターロイキン2(IL-2)、及びインターフェロン-アルファなどのような非特異的免疫療法並びにアジュバンド、免疫調節薬、例えばサリドマイド及びレナリドミド(REVLIMID)を含むグループから選ばれた一つ以上の免疫療法薬である。腫瘍のタイプ、がんのステージ、がん治療又は具体的な治療剤への以前の発覚、及びがんの他の特性などの特徴に基づいて、適切ながん治療剤を選択することは、熟練の医師又は腫瘍学者の能力の範囲内である。
V.がん分類器の結果例
V.A. サンプル収集と処理
研究デザインとサンプル:CCGA(NCT02889978)は、前向き、多施設、症例対照、観察研究であり、縦断的な追跡調査が行われている。本テストでは、142施設からの約15,000人の参加者から非識別化生物サンプルが収集された。サンプルはトレーニングセット(1,785人)とテストセット(1,015人)に分けられ、各コホートの部位間でがんタイプと非がんとが事前に指定した分布を確保するようにサンプルを選択し、がん及び非がんサンプルは性別によって頻度年齢をマッチさせた。
全ゲノムバイサルファイトシークエンス:cfDNAを血漿から分離し、cfDNAの解析には全ゲノムバイサルファイトシークエンス(WGBS、深度30倍)を採用した。cfDNAは、改良型QIAamp循環核酸キット(Qiagen、Germantown、MD)を使用して、患者ごとに2本の血漿チューブ(最大合計量10ml)から抽出した。最大75ngの血漿cfDNAを、EZ-96 DNA メチル化キット(Zymo Research、D5003)を使用して重亜硫酸塩変換に供した。変換されたcfDNAは、Accel-NGS Methyl-Seq DNAライブラリー調製キット(Swift BioSciences;Ann Arbor,MI)を使用してデュアルインデックスシークエンシングライブラリを調製するために使用され、構築したライブラリーは、KAPA Library Quantification Kit for Illumina Platforms (Kapa Biosystems; Wilmington, MA)を使用して定量化した。4つのライブラリーと10%のPhiX v3ライブラリー(Illumina、FC-110-3001)をプールし、Illumina NovaSeq 6000 S2フローセル上でクラスタリングした後、150bpペアエンドシークエンス(30倍)を実施した。
各サンプルについて、WGBSフラグメントセットを、異常なメチル化パターンを有するフラグメントの小さなサブセットに縮小した。追加で、ハイパー又はハイポメチル化cfDNAフラグメントを選択した。異常なメチル化パターンを有し、ハイパー又はハイポメチル化、すなわち、UFXMであるcfDNAフラグメントを選択した。がんでない個体で高頻度に起こるフラグメント、又は不安定なメチル化を有するフラグメントは、がんの状態を分類するための識別性の高い特徴を作り出しにくいと考えられる。それゆえに、CCGA研究からがんでない非喫煙者108人(年齢:58±14歳、女性79人[73%])の独立した参照セット(すなわち参照ゲノム)を使用して、統計モデル及び典型的なフラグメントのデータ構造体を作り出した。これらのサンプルは、セクションII.Bで上述したように、フラグメント内のCpGメチル化状態の所与のシークエンスの尤度を見積もるマルコフチェーンモデル(次数3)を訓練するために使用した。このモデルは、正常なフラグメントの範囲(p値>0.001)で較正されることが実証され、マルコフモデルからのp値が>0.001を有するフラグメントは、十分に異常でないとして拒否するために使用した。
上述のように、さらなるデータ削減ステップでは、少なくとも5つのCpGがカバーされ、かつ平均メチル化が>0.9(高メチル化)又は<0.1(低メチル化)のいずれかのフラグメントのみを選択した。この手順により、訓練でがんでない参加者の2,800(1,500-12,000)のUFXMフラグメントの中央値(範囲)、及び訓練でがんを有する参加者の3,000(1,200-220,000)のUFXMフラグメントの中央値(範囲)が結果として生じた。このデータ削減手順は、参照セットデータのみを使用したため、このステージは各サンプルに一度だけ適用する必要があった。
V.B. がんの分類
図8-11は、例示的な実施態様による、訓練されたがん分類器のがん予測精度を示すグラフである。図8-11に示される結果を作り出すために使用するがん分類器は、セクションIIIに記載されたプロセスの例示的な実装、又はそれらのいくつかの組み合わせの例示的な実施態様に従って訓練される。
分析システムは、がん分類器において考慮されるべきCpG部位を選択する。情報利得は、他の全てのサンプルと比較して、所与のがんタイプを有するトレーニングサンプルに対して計算される。例えば、2つのランダム変数「異常なフラグメント」(「AF」)及び「がんタイプ」(「CT」)が使用される。CTは、がんが特定のタイプであるかを示すランダム変数である。分析システムは、AFが与えられたときのCTに関する相互情報量を計算する。つまり、特定のCpG部位に異常なフラグメントが重なっているか否かが分かる場合、がんタイプについて何ビットの情報が得られるかである。所与のがんタイプについて、分析システムは、この情報を使用して、CpG部位をがん特異性がどれくらいかに基づいてランク付けする。この手順は、検討中のすべてのがんタイプについて繰り返される。各がんタイプのランク付けされたCpG部位は、がん分類器で使用するために積極的に追加される(例えば、約3000のCpG部位に達するために)。
サンプルの特徴付けのために、分析システムは、異常なメチル化パターンを有する各サンプル中のフラグメント、かつ加えてさらにUFXMフラグメントを同定する。1つのサンプルについて、分析システムは、検討のために選択された各CpG部位に対する異常スコアを計算する(~3,000)。分析システムは、サンプルがCpG部位にくみこむUFXMフラグメントを有するか否かに基づいて、二値スコアリングで異常スコアを定義する。
図8は、例示的な実施態様による、様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示すグラフを示す。この例示的な実施例では、マルチクラスがん分類器は、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部がんタイプ、肝胆膵がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、非がんタイプ、及び他のがんタイプという11種類のがんタイプに従って特徴ベクトルを区別するように訓練されている。本実施例で使用したサンプルは、がんタイプの各々を有することが知られている対象からのものである。例えば、乳がんタイプのサンプルのコホートは、乳がんタイプを呼び出す際のがん分類器の精度を検証するために使用した。さらに、使用されたサンプルは、様々ながんのステージにある対象からのものである。
乳がんコホート、大腸がんコホート、及び肺がんコホートに対して、がん分類器は、その後に続くがんのステージにおいて、がんタイプを正確に予測する精度を徐々に高めている。頭頸コホート、卵巣コホート、及び膵臓コホートに対して、がん分類器は、後期ステージ、例えば、ステージIII及び/又はステージIVになるにつれて、がん分類の精度が向上している。食道コホート及び肝胆膵のコホートに対して、がん分類器は、後期ステージ、例えば、ステージIII及び/又はステージIVでの正確性もまた有している。非がんコホートでは、がん分類器は、非がんサンプルががんでない可能性の予測は完全な制度だった。最後に、リンパ腫コホートは、がんのステージIIのサンプルを正確に予測することに成功のピークがある様々なステージを通して成功した。
図9は、例示的な実施態様による、最初にバイナリがん分類器を使用した後の、様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示すグラフである。この例では、分析システムは、最初に、多くのがんタイプのコホートからサンプルをバイナリがん分類器に入力し、サンプルががんを有する可能性が高いか、又はがんを有しない可能性が高いかを判定する。その後、分析システムは、がんを有する可能性が高いと判定されたサンプルをマルチクラスがん分類器に入力し、それらのサンプルのがんタイプを予測する。考慮されるがんタイプは、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部がんタイプ、肝胆膵がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、及びその他のがんタイプを含む。
図8の例と比較して、分析システムは、最初にバイナリがん分類器を使用し、その後マルチクラスがん分類器を使用したときに、精度の向上を示した。乳がんコホート、大腸がんコホート、肺がんコホート、及びリンパ腫がんコホートの中で、分析システムは、全体的に精度の向上を有した。とりわけ、分析システムは、がんの初期ステージ、すなわち、ステージI、ステージII、そしてステージIIIでさえ、それらのがんタイプの各々について予測精度の顕著な向上を有していた。
図10は、例示的な実施態様による、訓練されたがん分類器の性能を論証する混同行列を図示する。プロセス500による訓練の一例では、リッジ回帰ペナルティを有するマルチクラスカーネルロジスティック回帰(KLR)分類器が、重みに対するペナルティ、及び各がんタイプに対する二値項に対する固定ペナルティを有する導出された特徴ベクトル上で訓練されている。リッジ回帰ペナルティは、高関連部位の選択に使用されていないトレーニングデータの一部で最適化され(ログ損失を使用)、かつ最適なパラメータが見つかった時点で、ロジスティック分類器をローカルトレーニングフォールドの全セットで再訓練した。選択された高関連部位及び分類器の重みは、その後、新しいデータに適用した。CCGAトレーニングセット内で、1つのフォールドを繰り返し保留し、9つのフォールドのうち8つのフォールドの関連部位を選択し、KLR分類器のハイパーパラメータを9番目のセットで最適化し、KLRを10フォールドのうち9フォールドで再トレーニングして、かつ保留したフォールドに適応させた。これをCCGAトレーニングセット内のTOOを推定するために10回繰り返した。CCGAテストセットでは、関連部位をCCGAトレーニングの9/10フォールドで選択し、ハイパーパラメータを10フォールド目で最適化し、かつ全CCGAトレーニングデータでKLR分類器を再トレーニングし、選択した部位及びKLR分類器をテストセットへ適用した。考慮したがんタイプは、多発性骨髄腫がんタイプ、大腸がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、肺頭頸部がんタイプ、膵臓がんタイプ、乳がんタイプ、肝胆膵がんタイプ、食道がんタイプ、その他がんタイプを含む。その他のがんタイプには、肛門がん、膀胱がん、原発不明がんTOO、子宮頸がん、胃がん、白血病、メラノーマ、前立腺がん、甲状腺腎がん、子宮がん、及びその他の追加がんなどのようなCCGA内で収集したサンプルが5件未満のがんを含む。
混同行列は、既知のがんTOO(x軸に沿って)と予測されたがんTOO(y軸に沿って)を有するサンプルのがんタイプ間の一致を示す。訓練されたKLR分類器の性能を検証するために、各がんタイプのサンプルのコホート(各がんタイプのy軸に沿った括弧で示す)をKLR分類器で分類した。x軸は、各コホートから何個のサンプルが各がんタイプの下に分類されたかを示す。例えば、既知の肺がんを有する25のサンプルを有している肺がんのコホートでは、KLR分類器は、1つのサンプルが卵巣がんを有する、19のサンプルが肺がんを有する、2つのサンプルが頭頸部がんを有する、1つのサンプルが膵臓がんを有する、1つのサンプルが乳がんを有する、及び1つのサンプルが他のがんタイプとしてラベルするよう、予測した。特に、他のがんタイプを除くすべてのがんタイプに対して、KLR分類器は、多発性骨髄腫(2/2、100%)、大腸がん(18/20、90%)、リンパ腫(8/9、88.8%)、卵巣がん(4/5、80%)、肺がん(19/25、76%)、及び頭頸部がん(3/4、75%)のがんタイプに対してとりわけ高い性格性を有する各コホートの半分より上となる正確な予測をした。これらの結果は、KLR分類器の予測精度を論証する。
図11は、いくつかの例示的な実施態様による、合成トレーニングサンプルで訓練されたがん分類器の性能を比較する表を図示する。分類器Aは、図6Bに従って生成された特徴ベクトルを用いて訓練される。分類器Bは、「Mixture Model for Targeted Sequencing.」と題する米国出願第16/579,805号に記載された方法論に従って生成された特徴ベクトルを用いて訓練される。分類器B+は、追加された合成トレーニングサンプルを有する分類器Bと同様の特徴づけの実施を指す。様々に訓練された分類器は、98%の特異度閾値でホールドアウトセットを用いて評価した。分類器B+は,感度0.48で、全体として最も良好な性能だった。がんの様々なステージにおいて、分類器B+は、またステージIのサンプルで0.15の感度、ステージIIのサンプルで0.38の感度、ステージIIIのサンプルで0.75の感度、及びステージIVのサンプルで0.91の感度と,他の分類器よりも良好な性能だった。
以下の例で提示する解析に使用したデータは、CCGA臨床研究の一部として収集されたものである。CCGA[NCT02889978]は、前向き、多施設、観察的なcfDNAベースの早期がん検出研究であり、140を超える施設において人口統計学的にバランスのとれた15000人を超える参加者が登録された。血液サンプルは、登録時に定義された、新規に診断された治療歴のないがん(C、ケース)及びがんと診断されていない参加者(非がん[NC]、コントロール)から収集された。
各参加者から採取された血液について、以下の3つのシークエンスアッセイが行われた。1)一塩基変異/インデルに対するcfDNA及び標的とされた白血球(WBC)を対にしたシークエンス(60,000倍、507遺伝子パネル)(ARTシークエンスアッセイ);ジョイントコーラーがWBC由来の体細胞変異と残存する技術ノイズを除去した。2)コピー数変化に対するcfDNA及びWBCを対にしたホールゲノムシーケンス(WGS、35倍);新規の機械学習アルゴリズムが、がん関連信号スコアの生成し、共同解析が共有イベントを同定した。3)メチル化に対するcfDNA全ゲノムバイサルファイトシーケンス(WGBS、34倍);異常メチル化フラグメントを使用して正規化スコアを生成した。追加で、4)比較のための腫瘍バリアントの同定のため、全ゲノムシークエンス決定(WGS、30倍)が、対になった腫瘍とWBCgDNAに対して行われるように、組織サンプルは、がんを有する参加者のみから得た。
例1-非がん患者のデータへのがん信号のインシリコスパイキング
「インシリコ」データスパイキング実験は、異なる生物学的バックグラウンドに同量の様々ながん信号をスパイクする効果をテストするために設計された。この実験では、様々な種類のがんのタイプを有することが知られている対象からの複数のゲノム領域中のそれぞれのゲノム領域にマッピングされた核酸フラグメントシークエンスについてのビンカウントの増加パーセンテージを、非常に低い腫瘍分画を有する対象のサンプルの複数のゲノム領域にマッピングされた核酸フラグメントシークエンスに対して決定した対応するビンカウントに連続的にスパイクさせた。好都合にも、がん信号を隠す遺伝子座、又はこれらの遺伝子座の対立遺伝子が既知であるという要件はない。
このようにして、がんの時系列的な進展が、「インシリコ」で作成された。相対ビン値(図12A~12C中の各プロットにおけるY軸)に対して訓練したがん分類器から得られるがんの確率によって報告されるようながん信号の発達を、各スパイクデータサンプルについて評価した。この実験で使用された分類器は、米国特許出願公開第2019/0287649号に記載されており、これは参照により本明細書に組み込まれる。
無細胞腫瘍分画の検出不可能なレベルを有する22人のCCGA低腫瘍分画対象を、異なる種類のがんを有することが知られており、各々が少なくとも10%の無細胞DNA腫瘍分画を有し、かつがん分類器ががんを有することの少なくとも90%の確率を提供する22人の高腫瘍分画対象とマッチさせ、CCGA研究データから選択した。高腫瘍分画対象の各々からのビンカウントの増加量を、低腫瘍分画対象の対応するビンカウントに加え、図12A~12Cに示す各グラフのX軸にプロットしたように、ビンカウントの増加を伴う480セットのがんシリーズデータを形成した。このようなビンカウントは、特定のビンにマッピングされるサンプルで観察されるシークエンスの数を表し、各ビンは参照ヒトゲノムの一意の部分を表す。そのため、このようなビンカウントは、コピー数変動133の一形態と考えられる(図1B)。図示すると、図12A~12CCにおいて、個体2813は、22人のCCGA低腫瘍分画対象のうちの1人である。この個体について、図示されたグラフ中に22本の線がある。グラフ中の各それぞれの線は、22人の高腫瘍分画対象のセット中のそれぞれの高腫瘍分画対象の対応する対立遺伝子カウントのプログレッシブスパイク(X軸)を表す。例えば、線702は、第1の高腫瘍分画対象のビンカウントを有する低腫瘍分画対象2813のプログレッシブスパイクを表し、線704は、第2の高腫瘍分画対象のがんのビンカウントを有する低腫瘍分画対象2813のプログレッシブスパイクを表し、線706は、第3の高腫瘍分画対象とビンカウントを有する低腫瘍分画対象2813のプログレッシブスパイクを表す、などである。がん系列データの484セットの各々は、複数の2次元点(x、y)を含み、x=target_TFであり、yは、それぞれの点に対するビンカウントデータを訓練された分類器に入力した際に訓練された分類器によって返されるがんを有する確率であり、ビンカウントデータは、次のように計算された複数のビン中の各ビンiのそれぞれのビンカウント(counts_newi)を含む。
counts_newi
= (target_TF / actual_TF) * counts_highTFi + (1 - target_TF / actual TF) * counts_low TFi
ここで、counts_newiは、低腫瘍分画対象(例えば、個体16)のビンiについて、マッチした高腫瘍分画対象からのビンカウントでスパイクした際の調整されたカウントである。
target_TFは、マッチした高腫瘍分画対象からのビンカウントでスパイクした際の、低腫瘍分画対象(例えば、個体2813)についての標的腫瘍分画(グラフのx軸)である。
actual_TFは、マッチした高腫瘍分画対象からのビンカウントでスパイクする前の低腫瘍分画対象(例えば、個体2813)についての実際の腫瘍分画である。
counts_highTFiは、マッチした高腫瘍分画対象中のビンiのビンカウントである。
counts_lowTFiは、低腫瘍分画対象(例えば、個体2813)中のビンiのビンカウントである。
このように、この方法で、図7Cのグラフの各線は、個体2813の核酸フラグメントシークエンスカウントへの異なる高腫瘍分画対象のプログレッシブスパイクを表し、かつこのように、腫瘍分画の進行性を表す。上で論じたように、サンプリングされた各腫瘍画分に対して、各がんについて、複合対立遺伝子カウント(例えば、マッチしたスパイク対立遺伝子カウントを有する個体2813の)を分類器にかけ、がん状態を有する確率を決定した(Y軸)。言い換えれば、スパイクされたビンカウントの各インスタンス(図12A~12CCの各グラフの各ラインに対して)を、スパイクされたデータががんを有する対象から取得されたという確率(y軸)を生成するために、がん分類器によって評価した。これらの確率は、図12A~12Cに示されるグラフにおいて、腫瘍分画の関数としてプロットした。
図12A~12Cのグラフで示されるように、所与の模擬サンプルに対して計算されたがんの確率は、(i)模擬腫瘍分画、(ii)がんタイプ、及び(iii)参照対象(データががん信号でスパイクされた対象)によって提供されたバックグラウンド信号に依存している。例えば、図12A~12Cに拡張されたプロットについて、参照個体2813を参照すると、22人の高腫瘍分画対象によって表される異なるタイプのがんにわたって、同定されたがん確率のスパイクを生成するために必要な腫瘍分画に、ほぼ10フォールドの差があることが分かる。例えば、最初のがんからの信号が参照個体の2813バックグラウンド(系列702で表される)にスパイクされたとき、0.001(0.1%)をちょうど上回る模擬腫瘍分画において、同定されたがん確率の著しい増加が見られる。しかしながら、他の2つのがんからの信号がそれぞれ同じバックグラウンドに混入されたとき(それぞれ系列704及び706によって表される)、模擬腫瘍分画が0.01(1%)を超えるまで、同定されたがん確率の増加は見られない。これは、計算されたがん確率のがんのタイプへの依存性を論証している。同様に、図12A~12Cは、計算されたがん確率の個人のバックグラウンド信号への依存性がむしろ顕著であることを示す。例えば、ほとんどの参照バックグラウンドでは、ある特定のがんタイプについて、模擬サンプルの腫瘍分画が0.01(1%)を超えるのに到達するまで、がん確率が計算されたスパイクインは観察されなかった。しかしながら、そのがんに対するがん信号を個体510のデータにスパイクすると、0.01を大幅に下回る腫瘍分画においてがん確率のスパイクが観測された。実際、参照個体510の計算されたがん確率の検出可能なスパイクは、ほとんどすべての異なるがんタイプで、かなり早い時期に見られた。対照的に、そのがんタイプのがん信号が個体1314のデータにスパイクすると、腫瘍分画が0.01(1%)より著しく高くなるまで、がん確率の増加は観察されなかった。実際、参照個体1314の計算されたがん確率の検出可能なスパイクは、ほとんどのがんタイプにおいて著しく遅れるようで見えた。
例2-ロジスティック回帰モデルのオーバーフィット
分類アルゴリズムがより複雑になり、より大きな特徴セットを使用するようになると、訓練に必要なトレーニング構成体の数も拡大する。とりわけ、疾患分類器に使用される特徴の数が増えると、異常値、例えば分類器の特徴空間を定義する超立方体の表面上に存在する少なくとも1つの特徴値を有しているトレーニング構成体の数もまた増える。これは、今度は、分類器のオーバーフィッティング及び感度の損失、特に分類器における所与の疾患信号に対する検出レベル(LOD)付近の、をもたらす。例えば、図15は、モデルを2000(1002)、5000(1004)、10,000(1006)、20,000(1008)、50,000(1010)、及び100,000(1012)のトレーニング構成体に対して訓練したとき、分類器で使用される特徴の数が拡大するにつれて、ある次元に沿って最大化又は最小化する特徴空間のパーセントを表す曲線を示す。点1014で示すように、2500個の特徴を有する分類器を2000個のサンプルのトレーニングセットで訓練すると、ハイパーキューブの体積のほぼ全てが特徴空間のかどで横になる結果を生じる。
上述のCCGAの研究から、数千の特徴で訓練した機械学習分類器はオーバーフィットしていることが観察された。ロジスティック回帰はより厳密なモデルであるため、より単純なロジスティック回帰モデルに切り替えることで問題を解決できると仮定された。しかしながら、同じ大きな特徴セットを使用し、ロジスティック回帰モデルを訓練したとき、同じようにオーバーフィットの問題が観察された。図14に示すのは、ロジスティック回帰モデルの省略するクロスバリデーションの9フォールドの結果である。図14に見られるように、モデルは、テストフォールド(0.6~0.7)よりもトレーニング部分(0.9~1.0)に対して著しく高い感度によって証明されるように、クロスバリデーションの1つのフォールド以外の全てに対して、オーバーフィットした。
VI.特許を請求可能な主題
一態様において、がんを検出するためのモデルを訓練する方法は、複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの1つとしてラベルされ、かつ各トレーニングサンプルが複数の異常なcfDNAフラグメントを備える、ステップと、がんとしてラベルされた第1のトレーニングサンプル及び非がんとしてラベルされた第2のトレーニングサンプルをサンプリングするステップと、第1のトレーニングサンプルから異常なcfDNAフラグメントの第1のサブセット、及び第2のトレーニングサンプルから異常なcfDNAフラグメントの第2のサブセットをサンプリングすることによって、第1の合成トレーニングサンプルを生成するステップであって、第1の合成トレーニングサンプルはがんとしてラベルされる、ステップと、各トレーニングサンプルの複数の異常なcfDNAフラグメントに基づいて、第1の合成トレーニングサンプルを含むトレーニングサンプルの各々について特徴ベクトルを生成するステップと、特徴ベクトル及び第1の合成トレーニングサンプルを含むトレーニングサンプルのラベルを用いてモデルを訓練し、モデルは、テストサンプルのシークエンシングデータに基づいてテストサンプルについてがん予測を生成するように構成されている、ステップと、を備える。
別の態様では、がんを検出する方法は、複数の異常なcfDNAフラグメントを含むテストサンプルのシークエンシングデータを受信するステップと、テストサンプルの異常なcfDNAフラグメントに基づいて、テスト特徴ベクトルを生成するステップと、テスト特徴ベクトルを分類モデルに入力し、テストサンプルについてのがん予測を生成するステップであって、分類モデルは、複数のトレーニングサンプルのシークエンスデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの一つとしてラベルされ、各トレーニングサンプルは複数の異常なcfDNAフラグメントを含むステップ、がんとしてラベルされた第1のトレーニングサンプルと非がんとしてラベルされた第2のトレーニングサンプルとをサンプリングするステップ、第1のトレーニングサンプルから異常なcfDNAフラグメントの第1のサブセットを、第2のトレーニングサンプルから異常なcfDNAフラグメントの第2のサブセットを、サンプリングすることによって、第1の合成トレーニングサンプルを生成するステップであって、第1の合成トレーニングサンプルはがんとしてラベルされるステップ、各トレーニングサンプルの複数の異常なcfDNAフラグメントに基づいて、第1の合成トレーニングサンプルを含むトレーニングサンプルの各々に対して特徴ベクトルを生成するステップ、並びに特徴ベクトル及び第1の合成トレーニングサンプルを含むトレーニングサンプルのラベルを用いてモデルを訓練するステップ、によって訓練するステップと、を備えることができる。
別の態様において、本開示は、疾患状況の判定を容易にする複数の補完的データ構成体を生成する方法を提供する。本方法は、疾患状況の第1の状態を有する訓練対象の第1のコホートについての第1の複数のゲノムデータ構成体を含むトレーニングデータセットを、電子フォームで取得することを含むことができ、第1の複数のゲノムデータ構成体は、訓練対象の第1のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含む。本方法は、その後、トレーニングデータセットを使用して、複数の補完的データ構成体を生成することを含むことができ、ここで、複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、第1の複数のゲノムデータ構成体からの少なくとも1つのそれぞれのゲノムデータ構成体に対応し、かつ複数の補完的ゲノムデータ構成体中のそれぞれの補完的ゲノムデータ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、第1の複数の遺伝子型データ構成体から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含む。
いくつかの実施態様において、トレーニングデータセットは、疾患状況の第1の状態とは異なる疾患状況の第2の状態を有する訓練対象の第2のコホートに対する第2の複数のゲノムデータ構成体を含む。第2の複数のゲノムデータ構成体は、訓練対象の第2のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含むそれぞれのゲノムデータ構成体を含むことができる。いくつかの実施態様では、本方法は、少なくとも(i)第1の複数のゲノムデータ構成体、(ii)第2の複数のゲノムデータ構成体、(iii)複数の補完的ゲノムデータ構成体、及び(iv)第1の複数のゲノムデータ構成体、第2の複数のゲノムデータ構成体、及び複数の補完的ゲノムデータ構成体中の各それぞれのゲノムデータ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別するためにテスト分類器を訓練することを含む。
別の態様において、本開示は、テスト対象における疾患状況を判別するための方法を提供する。本方法は、電子フォームで、テストゲノムデータ構成体を取得することを含むことができる。テストゲノムデータ構成体は、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメントの複数のテストゲノム特性中の各ゲノム特性に対する値を含むことができる。本方法は、その後、テストゲノムデータ構成体を、上述のように訓練されたテスト分類器に適用し、それによって、テスト対象における疾患状況の状態を判定することを含むことができる。この方法において、複数のテストゲノム特性は、テスト分類器に対して訓練される複数の遺伝子型特性を含むことができる。
別の態様において、本開示は、疾患状況の判別を容易にする時系列データを生成する方法を提供する。本方法は、訓練対象の第1のコホートについての第1の複数のゲノムデータ構成体を含む第1のトレーニングデータセットを、電子フォームで取得することを含むことができる。本方法は、その後、第1のトレーニングデータセットを使用して、訓練対象の第1のコホート中の各それぞれの訓練対象について、それぞれの第2の時点におけるそれぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第1の増強されたゲノムデータ構成体を生成することを含むことができる。それぞれの第1の増強されたゲノムデータ構成体は、ゲノムデータ構成体の対応する第1の対に対応し、ゲノムデータ構成体の第1の対は、(i)それぞれの訓練対象についてのそれぞれの第1のゲノムデータ構成体、及び(ii)1つ以上のスパイクインゲノムデータ構成体のセットからのそれぞれのスパイクインゲノトタイプデータ構成体、を備える。それぞれの第1の増強されたゲノムデータ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、対応する第1のゲノムデータ構成体の対の各ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの第1の確率サンプリングに由来する増強値を含むことができる。本方法は、それにより、訓練対象の第1のコホート中の各それぞれの訓練対象について、それぞれの第1のゲノムデータ構成体及びそれぞれの第1の増強されたゲノムデータ構成体を含むそれぞれの時系列データセットを生成する。
いくつかの実施態様において、本方法は、少なくとも(i)訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット、(ii)訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中の各それぞれのゲノムデータ構成体についてのそれぞれの時点を含むそれぞれの複数の時点、又はその派生物、並びに(iii)訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅いそれぞれの時点における疾患状況の表示、を使用して疾患状況の状態を判定するために時間的分類器を訓練することもまた含む。
一態様では、本開示は、テスト対象の疾患状況の状態を、疾患状況の状態のセットの中から判別するための時間的分類アルゴリズムを訓練する方法を提供する。本方法は、複数の訓練対象中の各それぞれの訓練対象に対して、以下を含むトレーニングデータセットを、電子フォームで取得することを含む。(1)それぞれの訓練対象についてのそれぞれの第1のゲノムデータ構成体であって、それぞれの第1のゲノムデータ構成体は、それぞれの第1の時点においてそれぞれの訓練対象から得られた第1の生体サンプル中の第1のそれぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を含む、第1のゲノムデータ構成体、(2)それぞれの訓練対象についてのそれぞれの第2のゲノムデータ構成体であって、それぞれの第2のゲノムデータ構成体は、それぞれの第1の時点後に起こるそれぞれの第2の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を含む、それぞれの第2のゲノムデータ構成体、(3)それぞれの第1の時点及びそれぞれの第2の時点、又はその派生物、並びに(4)それぞれの第1の時点及びそれぞれの第2の時点における、それぞれの訓練対象の疾患状況のセット中の疾患状況の表示。本方法は、その後、それぞれの訓練対象に対して、少なくとも(a)それぞれの第1のゲノムデータ構成体、(b)それぞれの第2のゲノムデータ構成体、(c)それぞれの第1の時点及びそれぞれの第2の時点、又はその派生物、並びに(d)それぞれの第1の時点及びそれぞれの第2の時点における疾患状況の表示、に対する時間的分類アルゴリズムを訓練することを含むことができる。複数の訓練対象中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2のゲノムデータ構成体は、それぞれの訓練対象から得られた第2の生体サンプルからのそれぞれの第2の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第3の複数の核酸フラグメント、からの複数のゲノム特性についての値を含むことができる。
別の態様において、本開示は、対象中の疾患状況を判別するための方法を提供する。本方法は、テスト対象に対して、電子フォームで、テスト時系列データセットを取得することを含むことができる。テスト時系列データセットは、(i)複数の時点における各それぞれの時点について、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のテストゲノム特性についての値を含むそれぞれのテストゲノムデータ構成体、及び(ii)複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する時点の対間の時間の長さの指標、を含むことができる。本方法は、その後、テスト時系列データセットを、上記のように訓練された分類器に適用し、それによって、テスト対象における疾患状況の状態を判定することを含むことができる。この方法において、複数のテストゲノム特性は、分類器がそれに対して訓練された複数のゲノム特性を含む。
一態様において、本開示は、テスト対象における疾患状況を判別するために訓練された分類器の性能を査定する方法を提供する。本方法は、テストゲノムデータ構成体を評価することによって、疾患状況を判別するように訓練された第1の分類器を得ることを含むことができ、テストゲノムデータ構成体は、テスト対象から得られた第1の対応する生体サンプル中の対応する第1の複数の核酸フラグメントの複数のゲノム特性についての値を含む。本方法は、その後、複数の増強されたゲノムデータ構成体を含む増強された査定データセットを得るすることを含むことができる。複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺伝子型データ構成体は、疾患状況の複数の状態中の疾患状況のそれぞれの状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むことができる。増強された査定データセットは、複数の増強された遺伝子型データ構成体中で、複数の疾患状況の状態中の各それぞれの疾患状況の状態の代表的なそれぞれの増強された遺伝子型データ構成体を含むことができる。本方法は、増強された査定データセット中の各それぞれの増強されたゲノムデータ構成体を分類器に独立して適用して、各それぞれの増強された遺伝子型データ構成体に対して疾患状態分類を生成し、それによって複数の疾患状態分類を生成することを更に含むことができる。本方法は、その後、複数の疾患状態分類中の、各それぞれの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状況のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを含むことができる。
本開示の別の態様は、疾患状況の判別を容易にする複数の補完的データ構成体を生成する方法を提供し、この方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)電子フォームで、疾患状況の第1の状態を有する訓練対象の第1のコホートに対する第1の複数の遺伝子型データ構成体を備えるトレーニングデータセットを取得するステップであって、第1の複数の遺伝子型データ構成体は、訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む、ステップ;B)トレーニングデータセットを使用して、複数の補完的データ構成体を生成するステップであって、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、第1の複数の遺伝子型データ構成体からの少なくとも1つのそれぞれの遺伝子型データ構成体に対応し、かつ複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、第1の複数の遺伝子型データ構成体からの少なくとも1つのそれぞれの遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を備える、ステップ。
いくつかの実施態様では、トレーニングデータセットは、疾患状況の第1の状態とは異なる疾患状況の第2の状態を有する訓練対象の第2のコホートに対する第2の複数の遺伝子型データ構成体を更に備え、第2の複数の遺伝子型データ構成体は、訓練対象の第2のコホート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含み、本方法は、C)少なくとも(i)第1の複数の遺伝子型データ構成体、(ii)第2の複数の遺伝子型データ構成体、(iii)複数の補完的遺伝子型データ構成体、並びに(iv)第1の複数の遺伝子型データ構成体、第2の複数の遺伝子型データ構成体、及び複数の補完的遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別するためにテスト分類器を訓練するステップ、を更に備える。
いくつかの実施態様では、訓練するステップC)は、訓練対象の第3のコホートに対して第3の複数の遺伝子型データ構成体を使用し、第3の複数の遺伝子型データ構成体は、訓練対象の第3のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する複数の生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含み、第3のコホート中の各訓練対象は、疾患状況の第3の状態を有する。
いくつかの実施態様では、訓練するステップC)は、それぞれの訓練対象の1つ以上の個人的特徴を使用する。
いくつかの実施態様において、疾患状況は、がんである。
いくつかの実施態様において、がんの第1の状態は、がんの存在であり、かつ、がんの第2の状態は、がんの非存在である。
いくつかの実施態様において、がんの第1の状態は、第1のタイプのがんであり、かつ、がんの第2の状態は、第2のタイプのがんである。
いくつかの実施態様において、がんの第1の状態は、特定のがんの第1のステージであり、かつ、がんの第2の状態は、特定のがんの第2のステージである。
いくつかの実施態様において、がんの第1の状態は、がんの第1の予後であり、かつ、がんの第2の状態は、がんの第2の予後である。
いくつかの実施態様において、疾患状況は、心血管疾患である。
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の存在であり、かつ心血管疾患の第2の状態は、心血管疾患の非存在である。
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の第1の予後であり、かつ心血管疾患の第2の状態は、心血管疾患の第2の予後である。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、それぞれのゲノム位置のメチル化状態を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、バリアント対立遺伝子に対する支持を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、相対コピー数を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子型特性を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺伝子型特性を備える。
いくつかの実施態様において、トレーニングデータセットは、20,000個未満の遺伝子型データ構成体を備える。
いくつかの実施態様において、トレーニングデータセットは、2000個未満の遺伝子型データ構成体を備える。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンシング又は(ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的DNAメチル化シークエンシングによって得られる。
いくつかの実施態様において、各対応する生体サンプルは、液体生体サンプルである。
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、無細胞DNAである。
いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、又はマルチステージランダムサンプリングである。
いくつかの実施態様において、確率サンプリングは、複数の遺伝子型特性の値に寄与する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。
いくつかの実施態様では、複数の補完的データ構成体中の各それぞれの補完的データ構成体に対して、確率サンプリングは、第1の複数の遺伝子型データ構成体から、それぞれのデータ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの部分を選択し、かつ核酸フラグメントのそれぞれの部分の大きさは、他の補完的データ構成体に対して選択した核酸フラグメントのそれぞれの部分の大きさと独立して決定される。
いくつかの実施態様では、複数の補完的データ構成体中の各それぞれの補完的データ構成体に対して、確率サンプリングは、第1の複数の遺伝子型データ構成体から、それぞれのデータ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの部分を選択し、かつ核酸フラグメントのそれぞれの部分の大きさは、それぞれの補完的データ構成体が、探索的分類器が遺伝子型データ構成体によって表される有益な核酸フラグメント分画の変化に対する閾値感度を満たす有益な核酸フラグメント分画の範囲内に入る模擬の有益な核酸フラグメント分画を表すように選択され、探索的分類器は、複数の遺伝子型特性に基づいて疾患状況の状態の判別するように訓練される。
いくつかの実施態様において、有益な核酸フラグメント分画の範囲は、a)トレーニングデータセットを使用して、複数の増強された探索的遺伝子型データ構成体を生成するステップであって、複数の増強された探索的遺伝子型データ構成体中の各それぞれの増強された探索的遺伝子型データ構成体は、第1の複数の遺伝子型データ構成体からの少なくともそれぞれの遺伝子型データ構成体に対応し、複数の増強された探索的遺伝子型データ構成体中の各それぞれの増強された探索的遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、第1の複数の遺伝子型データ構成体からの少なくともそれぞれの遺伝子型データ構成体からのそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を備え、複数の増強された探索的遺伝子型データ構成体中のそれぞれの増強された探索的遺伝子型データ構成体は、第1の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体によって表される有益な核酸フラグメント分画に基づく模擬の有益な核酸フラグメント割合を表すものであり、かつ複数の増強された探索的遺伝子型データ構成体によって表される模擬の有益な核酸フラグメント分画の分布は、探索的分類器の検出レベルを下回る第1の有益な核酸フラグメント分画から探索的分類器の検出レベルを上回る第2の情有益な核酸フラグメント分画にまたがる、ステップと、b)複数の増強された探索的遺伝子型データ構成体を探索的分類器に適用して、複数の模擬疾患状況確率を生成するステップであって、探索的分類器は、少なくとも(1)疾患状況の第1の状態を有する探索対象の第1のコホート中の各それぞれの探索対象に対して、それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む第1の複数の探索的遺伝子型データ構成体、(2)第2の疾患状況の状態を有する探索対象のコホート中の各それぞれの探索対象に対して、それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む第2の複数の探索的データ構成体、並びに(3)第1及び第2の複数の探索的遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体に対して、疾患状況の状態の表示、を使用して疾患状況の状態を判別するために訓練される、ステップと、c)模擬疾患状況確率が、それぞれの増強された探索的遺伝子型データ構成体によって表される情報提供核酸フラグメント分画における変化に対して最も敏感である有益な核酸フラグメント分画の範囲を特定するステップと、によって決定される。
いくつかの実施態様では、探索対象の第1のコホート中の探索対象から得られた各それぞれの生体サンプルは、対象の疾患組織の固体のサンプルである。
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、対応する遺伝子型構成体の対に対応し、遺伝子型構成体の対は、(i)第1の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体及び(ii)第2の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体から構成され、かつ補完的複数の遺伝子型データ構成体中のそれぞれの補完的遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対応する遺伝子型データ構成体の対の各遺伝子型構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を備える。
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の少なくとも1つのそれぞれの補完的遺伝子型データ構成体に対して、第2の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体は、それぞれの補完的遺伝子型データ構成体の複数の遺伝子型特性に対する増強値を導出する前に増強される。
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体に対して、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対する増強値は、(i)第1の複数の遺伝子型データ構成体からのそれぞれの遺伝子型特性の第1の重み寄与、及び(ii)第2の複数の遺伝子型データ構成体からのそれぞれの遺伝子型特性の第2の重み寄与、から形成される。
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体に対して、遺伝子型データ構成体の対に対応する(i)第1の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体に対応するそれぞれの訓練対象、及び(ii)第2の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせる。
いくつかの実施態様において、本方法は、以下の方法によって、複数の増強された偽陽性遺伝子型データ構成体を得るステップを更に備える:性能閾値を満たすことができない性能を有するテスト分類器に対する前駆体によって判別される第2の複数の遺伝子型データ構成体から遺伝子型データ構成体のサブセットを同定するステップ;遺伝子型データ構成体のサブセットを使用して、複数の増強された偽陽性遺伝子型データ構成体を生成するステップであって、複数の増強された偽陽性遺伝子型データ構成体中のそれぞれの増強された偽陽性遺伝子型データ構成体は、遺伝子型データ構成体のサブセットからの少なくともそれぞれの遺伝子型データ構成体に対応し、かつ複数の増強された偽陽性遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、遺伝子型データ構成体のサブセットからの少なくともそれぞれの遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率サンプリングから得られる増強値を備える、ステップ。ここでテスト分類器を訓練するステップ(C)は、(v)複数の増強された偽陽性遺伝子型データ構成体、及び(vi)複数の増強された偽陽性遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体に対して、疾患状況の表示を使用する。
いくつかの実施態様において、テスト分類器は、ロジスティック回帰アルゴリズムである。
いくつかの実施態様において、テスト分類器は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。
いくつかの実施態様において、テスト分類器は、少なくとも(i)第1の時点においてテスト対象から取得した第1の生体サンプルから生成された第1のテスト遺伝子型データ構成体と、(ii)第2の時点においてテスト対象から取得した第2の生体サンプルから生成された第2のテスト遺伝子型データ構成体とを必要とする時間的分類器である。
いくつかの実施態様において、本方法は、D)電子フォームで、テスト対象から得られる生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性中の各遺伝子型特性についての値を含むテスト遺伝子型データ構成体を得るステップと、E)テスト遺伝子型データ構成体をテスト分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップと、を更に備える。
いくつかの実施態様では、テスト対象は、適用するステップE)の前に、以前に疾患状況と診断されていない。
本開示の別の態様は、テスト対象における疾患状況を判別するための方法を提供し、この方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)電子フォームで、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメントの複数のテスト遺伝子型特性中の各遺伝子型特性についての値を含むテスト遺伝子型データ構成体を、取得するステップ;B)テスト遺伝子型データ構成体を請求項2~39のいずれか1項に記載の方法に従って訓練したテスト分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性はテスト分類器がこれに対して訓練された複数の遺伝子型特性を備える、ステップ。
いくつかの実施態様において、テスト対象から得られた生体サンプルは、液体生体サンプルである。
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
いくつかの実施態様において、テスト対象から得られた生体サンプル中の複数の核酸フラグメントは、無細胞DNAである。
本開示の別の態様は、疾患状況の判別を容易にする時系列データを生成する方法を提供し、この方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)電子フォームで、第1のトレーニングデータセットを取得するステップであって、第1のトレーニングデータセットが、訓練対象の第1のコホートに対する第1の複数の遺伝子型データ構成体であって、第1のトレーニングデータセットは、訓練対象の第1のコホート中の各それぞれの訓練対象について、それぞれの第1の遺伝子型データ構成体がそれぞれの第1の時点においてそれぞれの訓練対象から得られた対応する第1の生体サンプル中の対応する第1の複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、それぞれの訓練対象は、それぞれの第1の時点において疾患状況の第1の状態を有する、第1の複数の遺伝子型データ構成体と、1つ以上のスパイクイン対象のコホートに対する1つ以上のスパイクイン遺伝子型データ構成体のセットであって、1つ以上のスパイクイン遺伝子型データ構成体のセットが、そのセット又は1つ以上のスパイクイン対象中の各それぞれのスパイクイン対象について、それぞれのスパイクイン対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、それぞれのスパイクイン対象は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに第2の疾患状況の状態を有したものであり、かつ第1の疾患状況の状態及び第2の疾患状況の状態が、疾患状況の進行によって関連付けられる、1つ以上のスパイクイン遺伝子型データ構成体のセットと、を備えるステップ;B)第1のトレーニングデータセットを使用して、訓練対象の第1のコホート中の各それぞれの訓練対象について、それぞれの第2の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を備えるそれぞれの第1の増強された遺伝子型データ構成体を生成するステップであって、それぞれの第1の増強された遺伝子型データ構成体は、対応する第1の遺伝子型データ構成体の対に対応し、第1の遺伝子型データ構成体の対は、(i)それぞれの訓練対象に対するそれぞれの第2の遺伝子型データ構成体と、(ii)1つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型データ構成体とから構成され、かつそれぞれの第1の増強された遺伝子型データ構成体は、複数の遺伝子型特性中のそれぞれの遺伝子型特性に対して、対応する第1の遺伝子型データ構成体の対の各遺伝子データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの第1の確率サンプリングに由来する増強値を備え、それによって、訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの第1の遺伝子型データ構成体及びそれぞれの第1の増強された遺伝子型データ構成体を備えるそれぞれの時系列データセットを生成する、ステップ。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2の遺伝子型データ構成体は、それぞれの第1の遺伝子型データ構成体である。
いくつかの実施態様では、訓練対象の第1のコホートに中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2の遺伝子型データ構成体は、第2の時点においてそれぞれの訓練対象から得られた対応する第2の生体サンプル中の対応する第2の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える。
いくつかの実施態様において、本方法は、第1のトレーニングデータセットを使用して、訓練対象中の第1のコホートにおけるそれぞれの訓練対象に対して、それぞれの第3の時点におけるそれぞれの訓練対象を代表的な複数の遺伝子型特性についての値を備えるそれぞれの第2の増強された遺伝子型データ構成体を生成するステップをさらに備え、ここで、それぞれの第2の増強された遺伝子型データ構成体は、(i)それぞれの訓練対象についてのそれぞれの第3の遺伝子型データ構成体と、(ii)1つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型データ構成体とから構成される対応する第2の遺伝子型構成体の対に対応し、それぞれの第2の増強された遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対応する第2の遺伝子型データ構成体の対の各遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの第2の確率サンプリングに由来する増強値を備え、それによって、訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それぞれの第2の増強された遺伝子型データ構成体の包含によるそれぞれの時系列データセットを拡張する。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第3の遺伝子型データ構成体は、それぞれの第1の遺伝子型データ構成体である。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2の遺伝子型データ構成体は、第2の時点においてそれぞれの訓練対象から得られた対応する第2の生体サンプル中の対応する第2の複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、かつそれぞれの第3の遺伝子型データ構成体は、それぞれの第2の遺伝子型データ構成体である。
いいくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第3の遺伝子型データ構成体は、第3の時点においてそれぞれの訓練対象から得られた対応する第3の生体サンプル中の対応する第3の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える。
いくつかの実施態様では、訓練対象の第1のコホート中のそれぞれの訓練対象に対して、それぞれの第1の時系列データセットは、第1の疾患状態から第2の疾患状態の発展をモデル化するためのものであり、第2の時点は、第1の時点の後の時点に対応し、第3の時点は、第2の時点の後の時点に対応し、核酸フラグメントの第2の確率サンプリングは、第1の確率サンプリングよりもそれぞれのスパイクイン遺伝子型データ構成体中の遺伝子型特性の値に寄与する核酸フラグメントの選択に向けてより大きく重み付けされる。
いくつかの実施態様において、本方法は、C)少なくとも(i)訓練対象の第1のコホート中のそれぞれの訓練対象についてのそれぞれの時系列データセット、(ii)訓練対象の第1のコホート中のそれぞれの訓練対象に対して、それぞれの時系列データセット中の各それぞれの遺伝子型データ構成体についてのそれぞれの時点を備えるそれぞれの複数の時点、又はその派生物、及び(iii)訓練対象の第1のコホート中のそれぞれの訓練対象についてのそれぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅いそれぞれの時点についての疾患状況の表示、を使用して疾患状況の状態を判別するためにテスト分類器を訓練するステップ、を更に備える。
いくつかの実施態様では、訓練するステップC)は、それぞれの訓練対象の1つ以上の個人的特徴を使用する。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象について、それぞれの遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、第1の対応する時点の後である第4の対応する時点におけるそれぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、かつ第2の対応する時点は第1の対応する時点と第4の対応する時点との間である。
いくつかの実施態様では、訓練対象の第1のコホート中の各それぞれの訓練対象について、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体に対応するスパイクイン対象は、それぞれの訓練対象と異なる対象である。
いくつかの実施態様では、訓練対象の第1のコホート中の各それぞれの訓練対象について、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体に対応するスパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチされる。
いくつかの実施態様において、疾患状況は、がんである。
いくつかの実施態様において、がんの第1の状態は、がんの存在であり、かつ、がんの第2の状態は、がんの非存在である。
いくつかの実施態様において、がんの第1の状態は、第1のがんのタイプであり、かつ、がんの第2の状態は、第2のがんのタイプである。
いくつかの実施態様において、がんの第1の状態は、特定のがんの第1のステージであり、かつ、がんの第2の状態は、特定のがんの第2のステージである。
いくつかの実施態様において、がんの第1の状態は、がんの第1の予後であり、かつ、がんの第2の状態は、がんの第2の予後である。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第1の時点においてがんに罹患しておらず、かつ遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに少なくとも第2のステージのがんに罹患した対応するスパイクイン対象から得られたものである。
いくつかの実施態様において、疾患状況は、心血管疾患である。
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の存在であり、かつ心血管疾患の第2の状態は、心血管疾患の非存在である。
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の第1の予後であり、かつ心血管疾患の第2の状態は、心血管疾患の第2の予後である。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第1の時点において心血管疾患に罹患しておらず、かつ遺伝型データ構成体の対中のそれぞれのスパイクイン遺伝型データ構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに心血管疾患に罹患していた対応するスパイクイン対象から得られたものである。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、それぞれのゲノム位置のメチル化状態を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、バリアント対立遺伝子に対する支持を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、相対コピー数を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子型特性を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺伝子型特性を備える。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンシング又は(ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的DNAメチル化シークエンシングによって得られる。
いくつかの実施態様では、複数の訓練対象中の各それぞれの訓練対象について、第1の対応する生体サンプルは、液体生体サンプルである。
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、無細胞DNAである。
いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、又はマルチステージランダムサンプリングである。
いくつかの実施態様では、確率サンプリングは、各それぞれの遺伝子型データ構成体の対中の各遺伝子型データ構成体に対して、複数の遺伝子型特性の対応する値に寄与する対応する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、ここで、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。
いくつかの実施態様では、訓練対象の第1のコホート中の各それぞれの訓練対象に対応する第2のそれぞれの遺伝子型データ構成体に対して、確率サンプリングは、第1のそれぞれの遺伝子型構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの第1の部分と、それぞれのスパイクイン遺伝子型データ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの第2の部分とを選択し、かつ核酸フラグメントのそれぞれの第1の部分及び核酸フラグメントのそれぞれの第2の部分の大きさは、少なくとも(i)第1の時点と第2の時点との間の時間の長さ、及び(ii)疾患状況の第1の状態から疾患状況の第2の状態の発展に対する時間的モデルに基づいて決定される。
いくつかの実施態様において、疾患状況の第1の状態から疾患状況の第2の状態の発展に対する時間的モデルは、それぞれの対象の個人的特徴に少なくとも基づく。
いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第1の状態からのがんの第2の状態の発展に対する時間的モデルは、少なくともがんのタイプに基づく。
いくつかの実施態様において、疾患状況はがんであり、がんの第1の状態からのがんの第2の状態の発展に対する時間的モデルは、がんが転移性であるか又は非転移性であるかに少なくとも基づく。
いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第1の状態からがんの第2の状態の発展に対する時間的モデルは、ステージに分離される。
いくつかの実施態様において、時間的分類器は、ロジスティック回帰アルゴリズムである。
いくつかの実施態様において、時間的分類器は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。
いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークである。
いくつかの実施態様において、本方法は、D)電子フォームで、テスト対象に対して、テスト時系列データセットを取得するステップであって、テスト時系列データセットが、複数の時点中の各それぞれの時点に対して、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する時点の対の間の時間の長さの表示とを備える、ステップ、及びE)テスト時系列データセットを時間的分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップ、を更に備える。
いくつかの実施態様では、テスト対象は、適用するステップE)の前に、以前に疾患状況と診断されていない。
本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)電子フォームで、テスト対象に対するテスト時系列データセットを取得するステップであって、テスト時系列データセットが、複数の時点中の各それぞれの時点に対して、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のテスト遺伝子型特性についての値を備えるそれぞれのテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する時点の対の間の時間の長さの指標と、を備えるステップ、及びB)テスト時系列データセットを、訓練方法の1つに従って訓練された分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性は、分類器がそれに対して訓練された複数の遺伝子型特性を備えるステップ。
いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプルは、液体生体サンプルである。
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプル中の核酸フラグメントは、無細胞DNAである。
本開示の別の態様は、疾患状況の状態のセットの中から、テスト対象の疾患状況の状態を判別するための時間的分類アルゴリズムを訓練する方法を提供し、方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)電子フォームで、複数の訓練対象中の各それぞれの訓練対象に対して、(1)それぞれの訓練対象に対するそれぞれの第1の遺伝子型データ構成体であって、それぞれの第1の遺伝子型データ構成体は、それぞれの第1の時点においてそれぞれの訓練対象から得られた第1の生体サンプル中の第1のそれぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、第1の遺伝子型データ構成体、(2)それぞれの訓練対象に対するそれぞれの第2の遺伝子型データ構成体であって、それぞれの第2の遺伝子型データ構成体は、それぞれの第1の時点の後に起こるそれぞれの第2の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を備える、第2の遺伝子型データ構成体、(3)それぞれの第1の時点及びそれぞれの第2の時点、又はその派生物、並びに(4)それぞれの訓練対象のそれぞれの第1の時点及びそれぞれの第2の時点における疾患状況のセット中の疾患状況の表示、を備えるトレーニングデータセットを取得するステップ;B)それぞれの訓練対象に対して、少なくとも(a)それぞれの第1の遺伝子型データ構成体、(b)それぞれの第2の遺伝子型データ構成体、(c)それぞれの第1の時点及びそれぞれの第2の時点、又はその派生物、並びに(d)それぞれの第1の時点及びそれぞれの第2の時点における、疾患状況の表示であって、複数の訓練対象中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2の遺伝子型データ構成体が、それぞれの訓練対象から得られた第2の生体サンプルからのそれぞれの第2の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第3の複数の核酸フラグメント、からの複数の遺伝子型特性についての値を備える、疾患状況の表示、に対して、時間的分類アルゴリズムを訓練するステップ。
いくつかの実施態様では、訓練するステップB)は、それぞれの訓練対象の1つ以上の個人的特徴を使用する。
いくつかの実施態様では、トレーニングデータセットは、複数の訓練対象中の各それぞれの訓練対象に対して、以下を更に含む:(5)それぞれの第2の時点の後に起こるそれぞれの第3の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を備える、それぞれの訓練対象についてのそれぞれの第3の遺伝子型データ構成体、(6)それぞれの第3の時点、又はそれぞれの第2の時点とそれぞれの第3の時点との導出、並びに(7)それぞれの訓練対象の、それぞれの第3の時点における、疾患状況の状態のセット中の疾患状況の状態の表示;時間的分類アルゴリズムは、(b1)それぞれの第3の遺伝子型データ構成体、(c1)それぞれの第3の時点、又はそれぞれの第2の時点及びそれぞれの第2の時点の派生物、並びに(d1)それぞれの第3の時点におけるそれぞれの訓練対象の疾患状況の状態のセット中の疾患状況の状態の表示に対して更に訓練され、かつ複数の訓練対象中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第3の遺伝子型データ構成体は、それぞれの訓練対象から得られた第3の生体サンプルからのそれぞれの第4の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態を有するスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第5の複数の核酸フラグメント、からの複数の遺伝子型特性についての値を備える。
いくつかの実施態様において、それぞれの第2の複数の核酸フラグメント及びそれぞれの第4の複数の核酸フラグメントは、それぞれの訓練対象から得られた同じ生体サンプルからの同じ無細胞核酸である。
いくつかの実施態様において、それぞれの第3の複数の核酸フラグメント及びそれぞれの第5の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生体サンプルからの同じ無細胞核酸である。
いくつかの実施態様において、それぞれの第3の複数の核酸フラグメント及びそれぞれの第5の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生体サンプルからの同じ無細胞核酸であり、それぞれの第2の遺伝子型データ構成体中の複数の遺伝子型特性についての値は、(i)それぞれの第2の複数の核酸フラグメントの複数の遺伝子型特性についての値と(ii)それぞれの第3の複数の核酸フラグメントの複数の遺伝子型特性についての値とのそれぞれの第1の重み混合物を備え、それぞれの第3の遺伝子型データ構成体中の複数の遺伝子型特性についての値は、(i)それぞれの第2の複数の核酸フラグメントの複数の遺伝子型特性についての値と(ii)それぞれの第3の複数の核酸フラグメントの複数の遺伝子型特性についての値とのそれぞれの第2の重み混合物を備え、かつそれぞれの第2の重み混合物は、それぞれの第1の重み混合物よりもそれぞれの第3の複数の核酸フラグメントの複数の遺伝子型特性についての値に向けてより大きく重み付けされる。
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象のそれぞれの訓練対象に対して、それぞれの第3の複数の核酸フラグメントは、それぞれの第2の時点の後に起こるそれぞれの第3の時点においてそれぞれの訓練対象から得られた生体サンプル中の無細胞核酸である。
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象のそれぞれの訓練対象に対して、スパイクイン対象は、それぞれの訓練対象とは異なる対象である。
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象のそれぞれの訓練対象に対して、スパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチングされる。
いくつかの実施態様において、疾患状況は、がんである。
いくつかの実施態様において、がんの状態のセット中の第1の状態は、がんの存在であり、がんの状態のセット中の第2の状態は、がんの非存在である。
いくつかの実施態様において、がんの状態のセット中の第1の状態は、第1のがんのタイプであり、がんの状態の集セット中の第2の状態は、第2のがんのタイプである。
いくつかの実施態様において、がんの状態のセット中の第1の状態は、特定のがんの第1のステージであり、がんの状態のセット中の第2の状態は、特定のがんの第2のステージである。
いくつかの実施態様において、がんの状態のセット中の第1の状態は、がんの第1の予後であり、がんの状態のセット中の第2の状態は、がんの第2の予後である。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第1の時点においてがんに罹患しておらず、それぞれの訓練対象についてのそれぞれの第2の遺伝子型データ構成体は、それぞれの第2の時点においてがんを有するそれぞれの訓練対象の代表であり、かつスパイクイン対象は、スパイクイン生体サンプルが得られたときに少なくとも第2のステージのがんに罹患している。
いくつかの実施態様において、疾患状況は、心血管疾患である。
いくつかの実施態様において、心血管疾患の状態のセット中の第1の状態は、心血管疾患の存在であり、かつ心血管疾患のセット中の第2の状態は、心血管疾患の非存在である。
いくつかの実施態様において、心血管疾患の状態のセット中の第1の状態は、心血管疾患に対する第1の予後であり、かつ心血管疾患の状態のセット中の第2の状態は、心血管疾患に対する第2の予後である。
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第1の時点において心血管疾患に罹患しておらず、それぞれの訓練対象についてのそれぞれの第2の遺伝子型データ構成体は、それぞれの第2の時点における心血管疾患を有するそれぞれの訓練対象の代表であり、かつスパイクイン対象は、スパイクイン生体サンプルが得られたときに心血管疾患に罹患している。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、それぞれのゲノム位置のメチル化状態を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、バリアント対立遺伝子に対する支持を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、相対コピー数を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子型特性を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺伝子型特性を備える。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンシング又は(ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的DNAメチル化シークエンシングによって得られる。
いくつかの実施態様において、各生体サンプルは、液体生体サンプルである。
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
いくつかの実施態様では、対応する生体サンプル中の複数の核酸フラグメントは、無細胞DNAである。
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象について、それぞれの第2の遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対する、(i)第2の複数の核酸フラグメント中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメント、及び(ii)第3の複数の核酸フラグメント中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を備える。
いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、又はマルチステージランダムサンプリングである。
いくつかの実施態様において、確率サンプリングは、それぞれの第2の複数の核酸フラグメント及びそれぞれの第3の複数の核酸フラグメントの各々に対して、複数の遺伝子型特性の対応する値に寄与する対応する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象中の各それぞれの訓練対象に対応するそれぞれの第2の遺伝子型データ構成体について、確率サンプリングが、複数の遺伝子型特性についての値に寄与するそれぞれの第2の複数の核酸フラグメントのそれぞれの第1の部分と、複数の遺伝子型特性についての値に寄与するそれぞれの第3の複数の核酸フラグメントのそれぞれの第2の部分とを選択し、かつ核酸フラグメントのそれぞれの第1の部分及び核酸フラグメントのそれぞれの第2の部分の大きさは、少なくとも(i)第1の時点と第2の時点との間の時間の長さ、及び(ii)疾患状況の状態のセット中の、スパイクイン対象が罹患している疾患状況のそれぞれの状態の発展に対する時間モデルに基づいて、決定される。
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象中の各それぞれの訓練対象に対して、それぞれの第2の遺伝子型データ構成体は、i)第2の生体サンプルからの第2の複数の核酸フラグメントの第1の量と、スパイクイン生体サンプルからの無細胞核酸の第2の量とを一緒に混合し、それによって無細胞核酸の混合物を形成するステップ、ii)無細胞核酸の混合物からの核酸フラグメントをシークエンシングするステップ、及びiii)シークエンシングするステップii)に基づいて複数のゲノム特性についての値を決定するステップ、によって形成される。
いくつかの実施態様において、第1の量及び第2の量は、少なくとも(i)第1の時点と第2の時点との間の時間の長さ、及び(ii)疾患状況の状態のセット中の、スパイク対象が罹患している疾患状況のそれぞれの状態の発展に対する時間的モデル、に基づいて、決定される。
いくつかの実施態様において、疾患状況のそれぞれの第2の状態の発展に対する時間的モデルは、それぞれの訓練対象の個人的特徴に少なくとも基づく。
いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発展に対する時間的モデルは、少なくともがんのタイプに基づく。
いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発展に対する時間的モデルは、がんが転移性であるか又は非転移性であるかに少なくとも基づく。
いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発展に対する時間的モデルは、ステージに分離される。
いくつかの実施態様において、時間的分類器は、ロジスティック回帰アルゴリズムである。
いくつかの実施態様において、時間的分類器は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。
いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークである。
いくつかの実施態様において、本方法は更に以下を備える:C)電子フォームで、テスト対象について、テスト時系列データセットを取得するステップであって、テスト時系列データセットが、複数の時点中の各それぞれの時点に対する、それぞれの時点におけるテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の対の間の時間の長さの表示と、を備えるステップ;D)テスト時系列データセットを時間的分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップ。
いくつかの実施態様では、適用するステップD)の前に、テスト対象は、以前に疾患状況と診断されていない。
本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える:A)電子フォームで、テスト対象についてのテスト時系列データセットを取得するステップであって、テスト時系列データセットは、複数の時点中の各それぞれの時点に対する、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の対の間の時間の長さを示す表示と、を備えるステップ;B)テスト時系列データセットを、請求項96~138のいずれか1項に記載の方法に従って訓練された分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性は、分類器がそれに対して訓練された複数の遺伝子型特性を備える、ステップ。
いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプルは、液体生体サンプルである。
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
いくつかの実施態様において、テスト対象から得られた各生体サンプル中の核酸フラグメントは、無細胞DNAである。
本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器の性能を査定する方法を提供し、本方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える:A)テスト遺伝子型データ構成体を評価することによって、疾患状況を判別するように訓練された第1の分類器を得るステップであって、テスト遺伝子型データ構成体は、テスト対象から得られた第1の対応する生体サンプル中の対応する第1の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ;B)複数の増強された遺伝子型データ構成体を備える増強された評価データセットを取得するステップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺伝子型データ構成体は、疾患状況の複数の状態中のそれぞれの疾患状況の状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、増強された評価データセットは、複数の増強された遺伝子型データ構成体中の複数の疾患状況の状態中の各それぞれの疾患状況の状態の代表的なそれぞれの増強された遺伝子型データ構成体を含む、ステップ;C)各それぞれの増強された遺伝子型データ構成体に対して疾患状態分類を生成するために、増強された評価データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して適用し、それによって複数の疾患状態分類を生成するステップ;D)複数の疾患状態分類中のそれぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表されるそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定する、ステップ。
本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器の性能を査定する方法を提供し、本方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える:A)テスト遺伝子型データ構成体を評価することによって、疾患状況を判別するように訓練された第1の分類器を得るステップであって、テスト遺伝子型データ構成体は、テスト対象から得られた第1の対応する生体サンプル中の対応する第1の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ;B)複数の増強された遺伝子型データ構成体を備える増強された査定データセットを得るステップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺伝子型データ構成体は、複数の疾患状況の状態中のそれぞれの疾患状況の状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、増強された査定データセットは、複数の増強された遺伝子型データ構成体中の、複数の疾患状況の状態中の各それぞれの疾患状況の状態の代表であるそれぞれの増強された遺伝子型データ構成体を含み、増強された査定データセットは、先の方法のいずれかによる方法によって取得される、ステップ;C)それぞれの増強された遺伝子型データ構成体について疾患状態分類を生成するために、増強された評価データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して適用し、それによって複数の疾患状態分類を生成するステップ;D)複数の疾患状態分類中の各それぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表されるそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定する、ステップ。
いくつかの実施態様において、分類器は、ロジスティック回帰アルゴリズムである。
いくつかの実施態様において、分類器は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。
いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークである。
いくつかの実施態様において、疾患状況は、がんである。
いくつかの実施態様において、がんの複数の状態中の各状態は、少なくとも、分類器の検出レベルより少なくとも25%下回る無細胞DNA腫瘍分画のベースラインパーセンテージから分類器の検出レベルより少なくとも25%上回る無細胞DNA腫瘍分画の上限パーセンテージにまたがる無細胞DNA腫瘍分画の範囲内の、無細胞DNA腫瘍分画のサブ範囲を備える。
いくつかの実施態様において、疾患状況は、心血管疾患である。
いくつかの実施態様において、心血管疾患の複数の状態中の各状態は、少なくとも、分類器の検出レベルを少なくとも25%下回る無細胞DNA心血管組織画分のベースラインパーセンテージから分類器の検出レベルを少なくとも25%上回る無細胞DNA心血管組織分画の上限パーセンテージにまたがる無細胞DNA心血管組織分画の範囲内の、無細胞DNA心血管組織分画のサブ範囲を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、それぞれのゲノム位置のメチル化状態を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、バリアント対立遺伝子に対する支持を備える。
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、相対コピー数を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子型特性を備える。
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺伝子型特性を備える。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって、得られる。
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンスシング又は(ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するために複数の核酸プローブを使用する標的DNAメチル化シークエンシングによって、得られる。
いくつかの実施態様において、各生体サンプルは、液体生体サンプルである。
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、無細胞DNAである。
VII.追加の考慮事項
前述の実施態様の詳細な説明は、本開示の特定の実施態様を示す添付の図面を参照したものである。異なる構造及び動作を有する他の実施態様は、本開示の範囲から逸脱しない。「本発明」等の用語は、本明細書で明らかにされた出願人の発明の多くの代替的な側面又は実施態様の特定の具体例を参照して使用され、その使用又はその欠落は、出願人の発明の範囲又は請求項の範囲を制限することを意図していない。
本発明の実施態様は、本明細書における操作を行うための装置に関するものであってもよい。この装置は、必要な目的のために特別に構成されてもよく、及び/又は、コンピュータに格納されたコンピュータプログラムによって選択的にアクティブ化又は在再構成される汎用のコンピューティングデバイスを備えてもよい。このようなコンピュータプログラムは、非一過性の有形のコンピュータ可読記憶媒体、又は電子命令を格納するのに適した任意のタイプの媒体に格納してもよく、この媒体はコンピュータシステムバスに結合されてもよい。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含んでもよく、又はコンピューティング能力を高めるためにマルチプルプロセッサ設計を採用したアーキテクチャであってもよい。
分析システムによって行われるものとして本明細書に記載されたステップ、操作、又はプロセスのいずれかが、単独で、若しくは他のコンピューティングデバイスと組み合わせて、装置の1つ以上のハードウェア又はソフトウェアモジュールで実施若しくは実装されてもよい。一実施態様において、ソフトウェアモジュールは、説明されたステップ、操作、又はプロセスのいずれか若しくはすべてを行うためにコンピュータプロセッサによって実行することができるコンピュータプログラムコードを包含するコンピュータ可読媒体を備えるコンピュータプログラム製品で実装される。