[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5465793B2 - 帰納的アルゴリズムを使用することによる、dna配列決定データにおける位相不一致エラーを補正するためのシステムおよび方法 - Google Patents

帰納的アルゴリズムを使用することによる、dna配列決定データにおける位相不一致エラーを補正するためのシステムおよび方法 Download PDF

Info

Publication number
JP5465793B2
JP5465793B2 JP2012557570A JP2012557570A JP5465793B2 JP 5465793 B2 JP5465793 B2 JP 5465793B2 JP 2012557570 A JP2012557570 A JP 2012557570A JP 2012557570 A JP2012557570 A JP 2012557570A JP 5465793 B2 JP5465793 B2 JP 5465793B2
Authority
JP
Japan
Prior art keywords
value
values
uptake
nucleotide species
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012557570A
Other languages
English (en)
Other versions
JP2013522743A (ja
Inventor
チェン,イ−ジュ
ウォン,チウ・タイ・アンドリュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of JP2013522743A publication Critical patent/JP2013522743A/ja
Application granted granted Critical
Publication of JP5465793B2 publication Critical patent/JP5465793B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、分子生物学の分野に関する。より具体的には、本発明は、「合成時解読」(SBS)技法と一般に呼ばれるものによって生成される核酸配列データにおける位相同期性エラーを補正するための帰納的方法に関する。
合成時解読(SBS)は一般に、核酸試料中の1つまたは複数のヌクレオチドの同一性または配列組成を決定するための方法を指し、この方法は、ヌクレオチド配列組成が決定される鋳型核酸分子と相補的な一本鎖のポリヌクレオチド分子の段階的合成を含む。例えば、SBS技法は、典型的には、対応する配列位置で鋳型分子の核酸種と相補的な新生ポリヌクレオチド分子に、単一の核酸(ヌクレオチドとも呼ばれる)種を付加することによって作用する。核酸種の新生分子への付加は一般に、それだけに限らないが、酵素的または電子的(すなわち、ISFETを用いたpH検出もしくは他の関連技術)検出ストラテジーを含む場合があるピロシーケンスと呼ばれるもの、あるいはいくつかの実施形態において可逆性ターミネーターを使用することができる蛍光検出法を含む、様々な当技術分野で公知の方法を使用して検出される。典型的には、このプロセスは、鋳型と相補的な完全な(すなわち、すべての配列位置が表される)、または所望の配列長が合成されるまで反復性である。SBS技法のいくつかの例は、そのそれぞれが、すべての目的に関してその全体が参照により本明細書に組み込まれている、米国特許第6,274,320号、同第7,211,390号、同第7,244,559号、同第7,264,929号、および同第7,335,762号に記載されている。
SBSのいくつかの実施形態では、オリゴヌクレオチドプライマーは、試料鋳型分子の所定の相補的な位置にアニールするように設計される。プライマー/鋳型複合体は、核酸ポリメラーゼ酵素の存在下でヌクレオチド種を与えられる。このヌクレオチド種が、オリゴヌクレオチドプライマーの3’末端に直接隣接する、試料鋳型分子上の配列位置に対応する核酸種に相補的である場合、ポリメラーゼは、プライマーにこのヌクレオチド種を伸長する。あるいは、いくつかの実施形態では、プライマー/鋳型複合体は、複数の対象とするヌクレオチド種(典型的にはA、G、C、およびT)を一度に与えられ、オリゴヌクレオチドプライマーの3’末端に直接隣接する、試料鋳型分子上の対応する配列位置で相補的なヌクレオチド種(specie)が取り込まれる。記載された実施形態のいずれにおいても、ヌクレオチド種は、さらなる伸長を防止するために化学的にブロックすることができ(3’−Oの位置などで)、合成の次ラウンドの前にブロック解除される必要がある。上述したように、ヌクレオチド種の取り込みは、例えば、酵素的に、もしくは電子的にピロホスフェート(PPi)の放出を検出することによって(そのそれぞれが、すべての目的に関してその全体が参照により本明細書に組み込まれている、米国特許第6,210,891号、同第6,258,568号、および同第6,828,100号に記載された例)、またはヌクレオチドに結合した検出可能標識を介して、様々な当技術分野で公知の方法によって検出することができる。検出可能標識のいくつかの例には、それだけに限らないが、質量タグ、および蛍光または化学発光標識が含まれる。典型的な実施形態では、取り込まれていないヌクレオチドは、例えば、洗浄によって除去される。検出可能標識が使用される実施形態では、これらは、典型的には、合成のその後のサイクルの前に、不活化されなければならない(例えば、化学的切断または光退色による)。次いで、鋳型/ポリメラーゼ複合体中の次の配列位置に、上述したように、別のヌクレオチド種、または複数の対象とするヌクレオチド種をクエリーすることができる。ヌクレオチド付加、プライマー伸長、シグナル取得、および洗浄のサイクルの繰り返しにより、鋳型ストランドのヌクレオチド配列が決定される。
SBSの典型的な実施形態では、信頼できる検出のために十分強いシグナルを実現するために、多数または集団の実質的に同一の鋳型分子(例えば、10、10、10、10、または10分子)が、任意の1つの配列決定反応で同時に分析される。所与の反応の集団中の実質的にすべての鋳型分子に関連する新生分子の「均質な伸長」と呼ばれるものが、低い信号対ノイズ比のために必要とされる。本明細書において用語「均質な伸長」は一般に、上述した実質的に同一の鋳型分子の集団の各メンバーが、反応において同じ工程を均一的に実施している伸長反応の関係または位相を指す。例えば、鋳型分子の集団に関連した各伸長反応は、これらが、関連した鋳型分子のそれぞれについて、同じ配列位置で同じ反応工程を実施しているとき、互いに同相である(場合により、位相同期性または位相同調性とも呼ばれる)と記述することができる。
しかし、当業者は、各集団中のごく少量の鋳型分子は、集団中の鋳型分子の残りと位相同調性を失うか、または位相同調性から外れる(すなわち、少量の鋳型分子に関連する反応は、より進み、または遅れ、配列決定反応中の他の鋳型分子は、集団で進行することを理解するであろう(いくつかの例は、すべての目的に関してその全体が参照により本明細書に組み込まれているRonaghi,M.Pyrosequencing sheds light on DNA sequencing.Genome Res.11、3〜11(2001)に記載されている))。例えば、1つの位置による配列の伸長のために、1つまたは複数のヌクレオチド種を1つまたは複数の新生分子中に適切に取り込む反応の失敗は、集団の残りの配列位置と遅れ、位相が外れた配列位置での各後続の反応をもたらす。この作用は、「不完全伸長(incomplete extension)」(IE)と本明細書で呼ばれる。あるいは、集団の残りの配列位置より進み、位相が外れた配列位置での1つまたは複数のヌクレオチド種の取り込みによる新生分子の不適切な伸長は、「繰越(carry forward)」(CF)と本明細書で呼ばれる。CFとIEの合わせた作用は、CAFIEと本明細書で呼ばれる。
不完全伸長の問題に関して、単独で、またはいくつかの組合せで起こり得る、IEの一因となる可能性のあるいくつかの機構が存在する場合がある。IEの一因となる可能性のある機構の一例として、鋳型/ポリメラーゼ複合体のサブセットに与えられるヌクレオチド種の欠如を挙げることができる。IEの一因となる可能性のある機構の別の例として、ポリメラーゼ分子のサブセットの、新生分子中への取り込みのために適切に与えられるヌクレオチド種を取り込むことの失敗を挙げることができる。IEの一因となる可能性のある機構のさらなる例として、鋳型/ポリメラーゼ複合体におけるポリメラーゼ活性の非存在を挙げることができる。
SBS法におけるIEエラーを少なくともある程度説明し得るさらに別の機構の例として、Metzger(すべての目的に関して、その全体が参照により本明細書に組み込まれている、Genome Res.2005年12月;15(12):1767〜76)によって概説されているような循環可逆的停止(cyclic reversible termination)(CRT)と呼ばれるものを挙げることができる。CRTでは、ヌクレオチド種は、修飾された3’−O基(通常、キャップ、保護基、またはターミネーターと呼ばれる)を有し、これは、1つのヌクレオチド種を取り込んだ後の新生分子のさらなる伸長を防止する。これらの保護基は、化学的処理または光処理を含めた様々な方法の1つによって脱着可能であるように設計される。3’−O位置の脱保護(および3’−OH基の生成)の後、新生分子を別のヌクレオチド種によって伸長することができる。しかし、少量の新生分子が、不完全な脱保護効率(不完全な脱保護)のために保護されたままであるとき、位相の非同調性が起こる。後続のサイクルにおいて、保護されたままであるこの少量の新生分子は伸長されず、したがって集団の残りの配列位置と後れを取り、位相から外れることになる。しかし、後続の脱保護工程により、以前に不適切に残っていた保護基の少なくともいくつかを順調に除去することができ、伸長を再開させ、新生分子からのシグナルを生成し、集団の残りとの位相同期性から外れ続ける。当業者は、IEの一因となる他の要因が存在する場合があり、したがって、上記に示した例に限定されないことを理解するであろう。
本発明の現在記載されている実施形態のシステムおよび方法は、任意のそのような単一の、または合わさった原因もしくは機構から生じ得るIEエラーの補正を対象とする。例えば、不完全な脱保護と後続の順調な脱保護のカップリングによって引き起こされるIEエラーの補正は、本発明の一目的である。
CFの問題に関して、単独で、またはいくつかの組合せで起こり得る、CFの一因となる可能性のあるいくつかの機構が存在する場合がある。例えば、1つの可能性のある機構として、以前のサイクルから残っている過剰のヌクレオチド種を挙げることができる。これは、サイクルの最後で実施される洗浄プロトコールにより、そのサイクルからのヌクレオチド種が大部分除去されるが、必ずしもすべてが除去されないために起こり得る。本例では、結果は、「G」ヌクレオチド種サイクル中に存在するごく少量の「A」ヌクレオチド種を含む場合があり、相補的な「T」ヌクレオチド種が鋳型分子中の対応する配列位置に存在する場合、ごく少量の新生分子の伸長に至る。繰越作用を引き起こす可能性のある機構の別の例として、鋳型分子上のヌクレオチド種に相補的でないヌクレオチド種の新生分子中への不適切な取り込みなどのポリメラーゼエラーを挙げることができる。
SBS法におけるCFを少なくともある程度説明し得るさらに別の機構の例として、Metzger(上記に参照により組み込まれている、Genome Res.2005年12月;15(12):1767〜76)によって概説されているような循環可逆的停止を挙げることができる。本例では、IEに関して上述したように、一部の少量のヌクレオチド分子が保護基を欠くことになる、または保護基を失った、3’−O保護されたヌクレオチド種の配合物が使用される場合がある。保護基の喪失は、意図された脱保護工程の前に、配列決定プロセスの間にも起こり得る。脱保護基のいずれのそのような欠如も、いくつかの新生分子が同時に1つを超えるヌクレオチド種によって伸長される原因になる。少量の新生分子のそのような不適切な複数の伸長は、これらの新生分子に配列位置を前進させ、集団の残りの配列位置と位相を外れさせる。したがって、保護されていないヌクレオチドおよび/または尚早に脱保護されたヌクレオチドは、CRTを伴うSBS法におけるCFの少なくともある程度一因となり得る。
本発明の現在記載されている実施形態のシステムおよび方法は、任意のそのような単一の、または合わさった原因もしくは機構から生じ得るCFエラーの補正を対象とする。例えば、保護基の欠如のために生じるCFエラーの補正は、本発明の一目的である。
さらに、本発明の現在記載されている実施形態のシステムおよび方法は、IEエラーおよびCFエラーの両方の補正を対象とし、両タイプのエラーは、同じ配列決定反応において1つの集団についていくつかの組合せで起こり得る。例えば、IEおよびCFはそれぞれ、上述したように、単一の、または合わさった原因または機構から生じ得る。
当業者は、IEエラーおよびCFエラーの両方の可能性は、伸長反応の間に各配列位置で発生する場合があり、したがって、得られる配列データ中で明白な累積的作用を有する場合があることを理解するであろう。例えば、この作用は、「配列読み取り」の最後に向けて特に顕著になり得る。本明細書において用語「読み取り」または「配列読み取り」は一般に、単一の核酸鋳型分子、または鋳型核酸分子の複数の実質的に同一のコピーの集団から得られる配列データ全体を指す。
さらに、配列データの品質は、読み取り長さが長くなるにつれて低下するので、IE作用およびCF作用は、SBS手法を使用して確実に配列決定することができる鋳型分子の長さの上限(場合により「読み取り長さ」とも呼ばれる)を課す場合がある。
例えば、SBSの一方法は、20またはそれより良好な「Phred」品質スコアと呼ばれるものを伴って、典型的なランで2500万を超える配列位置を含む配列データを生成することができる(20のPhred品質スコアは、配列データが99%以上の精度を有すると予測されることを意味する)。SBS法についてのPhred20の品質を伴う全体的な配列決定処理量は、キャピラリー電気泳動技法を使用するSanger配列決定方法として当業者に公知であるものによって生成される配列データの全体的な配列決定処理量より著しく高いが、これは現在、SBS法では実質的により短い読み取り長さという代償を負っている(すべての目的に関してその全体が参照により本明細書に組み込まれている、Marguliesら、2005、Nature 437:376〜80)。したがって、IEエラーおよびCFエラーにより生じる配列データの劣化を回避または補正することによって読み取り長さの上限を増大させると、SBS法についての全体的な配列決定処理量が増加するはずである。
したがって、核酸配列決定の合成時解読法によって生じる配列データ中のIEエラーおよび/またはCFエラーを補正することを対象とするシステムおよび方法を提供することが望ましい。
いくつかの参考文献が本明細書に引用されており、その開示全体は、すべての目的に関して参照により、その全体が本明細書に組み込まれている。さらに、これらの参考文献のいずれも、上記でどのように特徴づけられているかにかかわらず、本明細書に特許請求される主題の本発明に対する先行技術として認めるものではない。
本発明の実施形態は、核酸配列の決定に関する。より具体的には、本発明の実施形態は、SBSによる核酸の配列決定の間に得られるデータ中の位相同期性エラーを補正するための帰納的方法およびシステムに関する。
配列決定反応の間に導入されるヌクレオチド種に応答して生成されるシグナルを検出する工程と;ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と;繰越値および不完全伸長値を使用して、観測値から正の取り込み値および負の取り込み値を定義する工程と;負の取り込み値に関連する観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と;修正された繰越値および修正された不完全伸長値を使用して、正の取り込み値および負の取り込み値を再定義するする工程と;正の取り込み値および負の取り込み値が収束するまで、修正および再定義の工程を繰り返す工程とを含む、鋳型分子の集団から生成される配列データの位相同期性に関連するエラーを補正するための方法の実施形態が記載されている。
いくつかの実施では、繰越値および不完全伸長値が収束するまでこの方法を繰り返す。
配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する配列決定機器;ならびにヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と;繰越値および不完全伸長値を使用して、観測値から正の取り込み値および負の取り込み値を定義する工程と;負の取り込み値に関連する観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と;修正された繰越値および修正された不完全伸長値を使用して、正の取り込み値および負の取り込み値を再定義する工程と;繰越値および不完全伸長値が収束するまで、修正および再定義の工程を繰り返す工程とを含む方法を実施する記憶された実行可能なコードを備えるコンピュータを備える、鋳型分子の集団から生成される配列データの位相同期性に関連するエラーを補正するためのシステムまたは機器も記載されている。
より正確には、本発明は、鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
(a)配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と;
(b)ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と;
(c)繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と;
(d)負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と;
(e)修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義するする工程と;
(f)複数の正の取り込み値および複数の負の取り込み値が収束するまで工程(d)〜(e)を繰り返す工程と
を含む方法を提供する。
本発明の範囲内で、複数の配列決定反応が並行して実行され、工程(a)〜(f)が配列決定反応のそれぞれについて実行される。
好ましくは、正の取り込み値および負の取り込み値は整数であり、最も好ましくは、正の取り込み値は1であり、負の取り込み値は0である。
工程(c)において使用される繰越値および不完全伸長値は、パラメータ推定モデルを使用して求めることができる。
工程(c)の前に、正の取り込み値および負の取り込み値は、閾値を使用して割り当てることができ、正の取り込み値は、観測値が閾値より上であるときに割り当てられ、負の取り込み値は、観測値が閾値未満であるときに割り当てられる。前記閾値は、好ましくは0〜1の間の範囲の値を含み、最も好ましくは約0.2である。閾値はまた、ヌクレオチド種がまったく存在しない複数の位置を予測するために、参照配列を使用することによって定義することができる。
ノイズ値は、導入されるヌクレオチド種の数からの負の取り込み値に関連する観測値の平均とすることができる。導入されるヌクレオチド種の数は、導入される最初の48ヌクレオチド種を含むことが好ましい。
一実施形態では、本発明はまた、鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
(a)配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と;
(b)ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と;
(c)繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と;
(d)負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と;
(e)修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義するする工程と;
(f)繰越値および不完全伸長値が収束するまで工程(d)〜(e)を繰り返す工程と
を含む方法を提供する。
本発明はまた、鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するためのシステムまたは機器であって、
(a)配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する配列決定機器コンポーネントと;
(b)
i.ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と;
ii.繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と;
iii.負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と;
iv.修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義する工程と;
v.繰越値および不完全伸長値が収束するまで工程iii〜ivを繰り返す工程と
を含む方法を実施する記憶された実行可能なコードを備えるコンピュータと
を備えるシステムまたは機器を提供する。
本発明の範囲内で、システムまたは機器は複数の配列決定反応を並行して実行し、工程(i)〜(v)が配列決定反応のそれぞれについて実行される。
好ましくは、正の取り込み値および負の取り込み値は整数であり、最も好ましくは、正の取り込み値は1であり、負の取り込み値は0である。
工程(c)において使用される繰越値および不完全伸長値は、パラメータ推定モデルを使用して求めることができる。
工程(c)の前に、正の取り込み値および負の取り込み値は、閾値を使用して割り当てることができ、正の取り込み値は、観測値が閾値より上であるとき割り当てられ、負の取り込み値は、観測値が閾値未満であるとき割り当てられる。前記閾値は、好ましくは0〜1の間の範囲の値を含み、最も好ましくは約0.2である。閾値はまた、ヌクレオチド種がまったく存在しない複数の位置を予測するために、参照配列を使用することによって定義することができる。
ノイズ値は、導入されるヌクレオチド種の数からの負の取り込み値に関連する観測値の平均とすることができる。導入されるヌクレオチド種の数は、導入される最初の48ヌクレオチド種を含むことが好ましい。
上記実施形態および実施は、これらが同じ、または異なる実施形態または実施とともに与えられていてもいなくても、必ずしも互いに包括的または排他的である必要はなく、対立せず、別の方法で可能である任意の様式で組み合わせることができる。1つの実施形態または実施の説明は、他の実施形態および/または実施に関して限定的であることが意図されていない。また、本明細書の他で記載される任意の1つまたは複数の機能、工程、操作、または技法は、代替の実施において、概要において記載される任意の1つまたは複数の機能、工程、操作、または技法と組み合わせることができる。したがって、上記実施形態および実施は、限定的ではなく例示的である。
上記特徴およびさらなる特徴は、添付の図面とともに考慮される場合、以下の詳細な説明からより明らかに理解されるであろう。図面において、同じ参照数字は、同じ構造、要素、または方法工程を示し、参照数字の最も左の桁は、参照要素が最初に現れる図面の番号を示す(例えば、要素160が図1中で最初に現れる)。しかし、これらの取り決めのすべては、限定的ではなく、典型的または例示的であることが意図されている。
理論フローグラム(flowgram)を観察フローグラムに変換するための数学的モデルの一実施形態の簡略化されたグラフ表示である。 図1のマッピングモデルの反転の一実施形態の簡略化されたグラフ表示である。 図1および2のマッピングモデルを含む順行列(forward matrix)計算および逆行列計算についてのモデルの一実施形態の簡略化されたグラフ表示である。 図3aの順モデルを使用する順行列計算の一実施形態の簡略化されたグラフ表示である。 図3aの反転モデルを使用する逆行列計算の一実施形態の簡略化されたグラフ表示である。 図3aおよび4aの反転モデルを使用して、様々なレベルの反復性補正を使用して得られる結果の一実施形態の簡略化されたグラフ表示である。 現在記載されている発明のCAFIEエラー補正法の結果の一実施形態の簡略化されたグラフ表示である。 実質的に同一の鋳型分子の集団の試料にわたるパラメータ値の分布の一実施形態の簡略化されたグラフ表示である。 IE補正のみの効果、およびCAFIE補正の効果の一実施形態の簡略化されたグラフ表示である。 n反復についての配列データ中の位相同期性エラーを帰納的に補正するための方法の一実施形態の簡略化されたグラフ表示である。 配列データ中の位相同期性エラーを補正するための帰納的なアルゴリズムを利用する、読み取り長さおよび塩基位置でのエラーについての以前に記載された実施形態に勝る利点を示す、配列決定結果の一実施形態の簡略化されたグラフ表示である。
本明細書において用語「フローグラム」は一般に、SBS法、特に、ピロリン酸に基づく配列決定法(「ピロシーケンス」とも呼ばれる)によって生成される配列データのグラフ表示を指し、より具体的には「ピログラム」と呼ばれる場合がある。
フローグラムに図化される場合、各フローについての検出される光または他のシグナル(例えば、pH変化)の値は、約0(フロー中のヌクレオチド種が次の配列位置において鋳型中のヌクレオチド種と相補的でなく、したがって取り込まれなかったことを示す)、または約1(鋳型中のヌクレオチドと相補的な正確に1個のヌクレオチド種の取り込みが検出されたことを示す)、または1を超えるおよその整数(鋳型中の連続した2個のヌクレオチド種と相補的な、フロー中に与えられたヌクレオチド種の2個以上のコピーの取り込みが検出されたことを示す)である場合がある。
本明細書において用語「ラン」または「配列決定ラン」は一般に、1つまたは複数の鋳型核酸分子の配列決定操作において実施される一連の配列決定反応を指す。
本明細書において用語「フロー」は一般に、鋳型核酸分子を含む環境への溶液の添加の連続サイクルまたは反復性サイクルを指し、この場合溶液は、新生分子に付加するためのヌクレオチド種、あるいは配列決定反応において、またはヌクレオチド種の以前のフローサイクルからのキャリーオーバーもしくはノイズ作用を低減するために使用することができる緩衝液または酵素などの他の試薬を含むことができる。
本明細書において用語「フローサイクル」は一般に、1つのヌクレオチド種がサイクルの間に1回流される連続した一連のフローを指す(すなわち、フローサイクルは、T、A、C、Gヌクレオチド種の順序での連続した付加を含むことができるが、他の配列組合せもこの定義の一部とみなされる)。典型的には、フローサイクルは、サイクル間で同じ順序のフローを有する繰り返しのサイクルである。
本明細書において用語「読み取り長さ」は一般に、確実に配列決定することができる鋳型分子の長さの上限を指す。それだけに限らないが、鋳型核酸分子中のGC含量の程度を含めて、システムおよび/またはプロセスの読み取り長さに寄与する多数の要因が存在する。
本明細書において用語「バイナリエンコーディングリスト(binary encoding list)」(以下に説明するように、場合によりp’またはq’と表される)は一般に、完了した配列決定ランに関連する、各ヌクレオチド種についての正または負の取り込みイベント(すなわち、負の取り込みイベントは、ヌクレオチド種が順調に取り込まれなかったことを示す)の状態を示すバイナリ値を含むヌクレオチド種フローのリストを指す。各ヌクレオチド取り込みイベントは、ヌクレオチドフローの間に観察されたシグナル値の強度から計算された値が閾値シグナル値より大きいとき、正の取り込みイベントとして定義され、観察されたシグナル値の強度から計算された値が閾値シグナル値未満であるとき、負の取り込みイベントとして定義される。次いで、各定義されたヌクレオチド取り込みイベントに、負の取り込みが「0」で表され、正の取り込みが「1」で表されるようにバイナリ等価値が割り当てられる。例えば、配列決定フロー順序がTCAGである場合、最初の4フロー内での「A」および「G」の正の取り込みイベントは、0,0,1,1の「バイナリエンコーディングリスト」をもたらす。用語「バイナリエンコーディングリスト」および「バイナリリスト」は、本明細書で互換的に使用される。
本明細書において用語「閾値」は一般に、所与の配列決定ランについて観察フローグラムから計算される値を指し、ヌクレオチド種取り込みイベントと関連しない源から検出されるシグナル(場合により「バックグラウンドシグナル」とも呼ばれる)のレベルに関連する数値を指す。
本明細書において用語「新生分子」は一般に、鋳型分子中の対応するヌクレオチド種に相補的なヌクレオチド種の取り込みにより、鋳型依存性DNAポリメラーゼによって伸長されているDNAストランドを指す。
本明細書において用語「ヌクレオチド種」は一般に、新生核酸分子中に典型的に取り込まれるプリン(アデニン、グアニン)およびピリミジン(シトシン、ウラシル、チミン)を含めた核酸モノマータイプの素性を指す。
本明細書において用語「完了効率」は一般に、所与のフローの間に適切に伸長される新生分子の百分率を指す。本明細書において用語「不完全伸長率」は一般に、すべての新生分子数に対する、適切に伸長されることに失敗する新生分子数の比を指す。本明細書に記載されている発明のいくつかの実施形態では、上述したCF機構およびIE機構を説明するために、各フローの検出されたシグナルを補正する。例えば、本発明の一態様は、所与のレベルCFおよびIEを仮定して、任意の既知の配列について位相同調性喪失の程度を計算する工程を含む。
配列決定プロセスの実施形態は、ハイブリダイゼーションによる配列決定(SBH)技法、ライゲーションによる配列決定(SBL)技法、または取り込みによる配列決定(SBI)技法と一般に呼ばれる技法であるSangerタイプ技法を含むことができる。さらに、配列決定技法として、ポロニー配列決定技法と呼ばれるもの;ナノ孔、導波路、および他の単一分子検出技法;または可逆性ターミネーター技法を挙げることができる。上述したように、好適な技法として、合成時解読法を挙げることができる。例えば、いくつかのSBS実施形態では、核酸鋳型の実質的に同一のコピーの集団を配列決定し、典型的には、試料鋳型分子の所定の相補的な位置にアニールするように設計された1つもしくは複数のオリゴヌクレオチドプライマー、または鋳型分子に結合した1つもしくは複数のアダプターを使用する。プライマー/鋳型複合体は、核酸ポリメラーゼ酵素の存在下でヌクレオチド種を与えられる。このヌクレオチド種が、オリゴヌクレオチドプライマーの3’末端に直接隣接する、試料鋳型分子上の配列位置に対応する核酸種に相補的である場合、ポリメラーゼは、プライマーにこのヌクレオチド種を伸長する。あるいは、いくつかの実施形態では、プライマー/鋳型複合体は、複数の対象とするヌクレオチド種(典型的にはA、G、C、およびT)を一度に与えられ、オリゴヌクレオチドプライマーの3’末端に直接隣接する、試料鋳型分子上の対応する配列位置で相補的なヌクレオチド種が取り込まれる。記載された実施形態のいずれにおいても、ヌクレオチド種は、さらなる伸長を防止するために化学的にブロックすることができ(3’−Oの位置などで)、合成の次ラウンドの前にブロック解除される必要がある。新生分子の末端にヌクレオチド種を付加するプロセスは、プライマーの末端への付加について上述したプロセスと実質的に同じであることも理解されるであろう。
上述したように、ヌクレオチド種の取り込みは、例えば、光を生成するために酵素反応プロセスを使用してピロホスフェート(PPi)の放出を検出することによって、もしくはpH変化の検出を介して(そのそれぞれが、すべての目的に関してその全体が参照により本明細書に組み込まれている、米国特許第6,210,891号、同第6,258,568号、および同第6,828,100号に記載された例)、またはヌクレオチドに結合した検出可能標識を介して、様々な当技術分野で公知の方法によって検出することができる。検出可能標識のいくつかの例には、それだけに限らないが、質量タグ、および蛍光標識または化学発光標識が含まれる。典型的な実施形態では、取り込まれていないヌクレオチドは、例えば、洗浄によって除去される。さらに、いくつかの実施形態では、取り込まれていないヌクレオチドは、酵素分解、例えば、2008年6月27日に出願された、「System and Method for Adaptive Reagent Control in Nucleic Acid Sequencing」という表題の米国特許出願第12/215,455号、および2009年1月29日に出願された、「System and Method for Improved Signal Detection in Nucleic Acid Sequencing」という表題の同第12/322,284号に記載されたように、アピラーゼまたはピロホスファターゼ酵素を使用する分解などにかけることができる。これらの特許出願のそれぞれは、すべての目的に関してその全体が参照により本明細書に組み込まれている。
検出可能標識が使用される実施形態では、これらは、典型的には、合成のその後のサイクルの前に不活化されなければならない(例えば、化学的切断または光退色)。次いで、鋳型/ポリメラーゼ複合体中の次の配列位置に、上述したように、別のヌクレオチド種、または複数の対象とするヌクレオチド種をクエリーすることができる。ヌクレオチド付加、伸長、シグナル取得、および洗浄のサイクルの繰り返しは、鋳型ストランドのヌクレオチド配列の決定をもたらす。本例を用いて継続して、信頼できる検出のために十分強いシグナルを実現するために、多数または集団の実質的に同一の鋳型分子(例えば、10、10、10、10、または10分子)が、典型的には任意の1つの配列決定反応で同時に分析される。
また、本発明の現在記載されている実施形態のシステムおよび方法は、コンピュータシステムで実行するために記憶されたコンピュータ判読可能な媒体を使用して、いくつかの設計、分析、または他の操作の実施を含むことができる。例えば、検出されたシグナルを処理し、かつ/または処理および分析の実施形態がコンピュータシステムで実施可能であるSBSシステムおよびSBS法を使用して生成されたデータを分析するためのいくつかの実施形態が以下に詳細に記載されている。
現在記載されている発明で使用するためのコンピュータシステムの例示的な実施形態は、任意のタイプのコンピュータプラットフォーム、例えば、ワークステーション、パーソナルコンピュータ、サーバー、または任意の他の現在もしくは将来のコンピュータなどを含むことができる。しかし、本明細書に記載されるような上述のコンピュータプラットフォームは、記載された発明の特殊化された操作を実施するように特に構成され、汎用コンピュータとみなされないことが当業者によって理解されるであろう。コンピュータは、典型的には、公知のコンポーネント、例えば、プロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶デバイス、入出力コントローラ、入出力デバイス、および表示デバイスなどを含む。コンピュータの多くの可能な構成およびコンポーネントが存在し、キャッシュメモリ、データバックアップユニット、および多くの他のデバイスも含むことができることも当業者によって理解されるであろう。
表示デバイスとして、視覚的な情報を提供する表示デバイスを挙げることができ、この情報は、典型的には、ピクセルのアレイのように論理的かつ/または物理的に系統立てることができる。入出力インターフェースを提供するための任意の様々な公知または将来のソフトウェアプログラムを含むことができるインターフェースコントローラも含めることができる。例えば、インターフェースとして、ユーザーに1つまたは複数のグラフ表示を提供する「グラフィカルユーザーインターフェース」と一般に呼ばれるもの(GUIと呼ばれることが多い)を挙げることができる。インターフェースは、典型的には、当業者に公知の選択または入力の手段を使用してユーザー入力を受け入れることが可能になっている。
同じまたは代替の実施形態では、コンピュータ上のアプリケーションは、「コマンドラインインターフェース」と呼ばれるもの(CLIと呼ばれることが多い)を含むインターフェースを使用することができる。CLIは、典型的には、アプリケーションとユーザーの間にテキストベースの相互作用をもたらす。典型的には、コマンドラインインターフェースは、表示デバイスを通じてテキストのラインとして、出力を与え、入力を受け取る。例えば、いくつかの実施では、「シェル」と呼ばれるもの、例えば、当業者に公知のUnix Shell、またはMicrosoft.NETフレームワークなどのオブジェクト指向型プログラミングアーキテクチャを使用するMicrosoft Windows Powershellなどを含むことができる。
インターフェースは、1つまたは複数のGUI、CLI、またはこれらの組合せを含むことができることを当業者は理解するであろう。
プロセッサとして、市販のプロセッサ、例えば、Intel Corporation製のCeleron(登録商標)、Core(商標)、Pentium(登録商標)プロセッサ、Sun Microsystems製のSPARC(登録商標)プロセッサ、AMD corporation製のAthlon(商標)、Sempron(商標)、Phenom(商標)、もしくはOpteron(商標)プロセッサなどを挙げることができ、またはこれは、入手可能であるか、もしくは入手可能になる他のプロセッサの1つであってもよい。プロセッサのいくつかの実施形態では、マルチコアプロセッサと呼ばれるものを含み、かつ/またはシングルコアもしくはマルチコア配置で並列処理技術を使用することを可能にすることができる。例えば、マルチコアアーキテクチャは、典型的には、2個以上のプロセッサ「エグゼキューションコア」を含む。本例では、各エグゼキューションコアは、複数のスレッドのパラレルエグゼキューションを可能にする独立したプロセッサとして機能することができる。さらに、プロセッサは、32ビットもしくは64ビットアーキテクチャと一般に呼ばれるもの、または現在公知であり、もしくは将来開発される場合のある他のアーキテクチャ構成で構成することができることを当業者は理解するであろう。
プロセッサは、典型的にはオペレーティングシステムを実行し、これは、例えば、Microsoft CorporationからのWindows(登録商標)型オペレーティングシステム(Windows(登録商標)XP、Windows Vista(登録商標)、もしくはWindows(登録商標)_7など);Apple Computer Corp.からのMac OS Xオペレーティングシステム(Mac OS X v10.6「Snow Leopard」オペレーティングシステムなど);Unix(登録商標)、もしくは多くの供給業者から入手可能なLinux型オペレーティングシステム、もしくはオープンソースと呼ばれるもの;別の、もしくは将来のオペレーティングシステム;またはこれらのいくつかの組合せとすることができる。オペレーティングシステムは、ファームウェアおよびハードウェアと周知の様式でインターフェースを取り、様々なプログラミング言語で書くことができる様々なコンピュータプログラムの機能をコーディネートして実行することにおいてプロセッサを支援する。オペレーティングシステムは、典型的にはプロセッサと協調して、コンピュータの他のコンポーネントの機能をコーディネートして実行する。オペレーティングシステムはまた、すべて公知の技法に従って、スケジューリング、入出力制御、ファイルおよびデータ管理、メモリ管理、ならびにコミュニケーション制御、ならびに関係したサービスをもたらす。
システムメモリは、任意の様々な公知または将来のメモリ記憶デバイスを含むことができる。例として、任意の一般に入手可能なランダムアクセスメモリ(RAM)、固定(resident)ハードディスクもしくはテープなどの磁気媒体、リードライトコンパクトディスクなどの光媒体、または他のメモリ記憶デバイスが挙げられる。メモリ記憶デバイスとして、コンパクトディスクドライブ、テープドライブ、リムーバブルハードディスクドライブ、USBもしくはフラッシュドライブ、またはディスケットドライブを含めた任意の様々な公知または将来のデバイスを挙げることができる。そのようなタイプのメモリ記憶デバイスは、典型的には、プログラム記憶媒体(示していない)、例えば、それぞれ、コンパクトディスク、磁気テープ、リムーバブルハードディスク、USBもしくはフラッシュドライブ、またはフロッピーディスケットなどから読み取り、かつ/またはこれらに書き込む。これらのプログラム記憶媒体、または現在使用されており、もしくは後に開発され得る他の媒体のいずれも、コンピュータプログラム製品とみなすことができる。理解されるように、これらのプログラム記憶媒体は、典型的には、コンピュータソフトウェアプログラムおよび/またはデータを記憶する。コンピュータソフトウェアプログラムは、コンピュータ制御ロジックとも呼ばれ、典型的には、システムメモリおよび/またはメモリ記憶デバイスとともに使用されるプログラム記憶デバイス中に記憶される。
いくつかの実施形態では、中に記憶された制御ロジック(プログラムコードを含めたコンピュータソフトウェアプログラム)を有するコンピュータで使用可能な媒体を含むコンピュータプログラム製品が記載されている。制御ロジックは、プロセッサによって実行される場合、プロセッサに本明細書に記載される機能を実施させる。他の実施形態では、いくつかの機能は、例えば、ハードウェアステートマシンを使用して、主にハードウェア内で実施される。本明細書に記載される機能を実施するようにハードウェアステートマシンを実装することは、当業者に明らかとなるであろう。
入出力コントローラは、ヒトであってもマシンであっても、ローカルであってもリモートであっても、ユーザーから情報を受け入れ、処理するための任意の様々な公知のデバイスを含むことができる。そのようなデバイスとして、例えば、モデムカード、ワイヤレスカード、ネットワークインターフェースカード、サウンドカード、または任意の様々な公知の入力デバイス用の他のタイプのコントローラが挙げられる。出力コントローラは、ヒトであってもマシンであっても、ローカルであってもリモートであっても、ユーザーに情報を与えるための任意の様々な公知の表示デバイス用のコントローラを含むことができる。現在記載されている実施形態では、コンピュータの機能的エレメントは、システムバスを介して互いに通信する。コンピュータのいくつかの実施形態では、ネットワーク、または他のタイプのリモート通信を使用していくつかの機能的エレメントと通信することができる。
当業者に明白となるように、機器制御および/またはデータ処理アプリケーションは、ソフトウェアで実施される場合、システムメモリおよび/またはメモリ記憶デバイスにロードし、これらから実行することができる。機器制御および/またはデータ処理アプリケーションのすべて、または一部は、リードオンリーメモリまたはメモリ記憶デバイスの同様のデバイスに備わっている場合もあり、そのようなデバイスは、機器制御および/またはデータ処理アプリケーションが、入出力コントローラを通じて最初にロードされる必要はない。当業者によって理解されるように、機器制御および/もしくはデータ処理アプリケーション、またはその一部は、実行に有利な場合、システムメモリもしくはキャッシュメモリ、または両方に、公知の様式でプロセッサによってロードすることができる。
また、コンピュータは、1つまたは複数のライブラリーファイル、実験データファイル、およびシステムメモリに記憶されたインターネットクライアントを含むことができる。例えば、実験データは、1つまたは複数の実験またはアッセイに関係するデータ、例えば、検出されたシグナル値、または1つもしくは複数のSBS実験もしくはSBSプロセスに関連する他の値などを含むことができる。さらに、インターネットクライアントは、ネットワークを使用して別のコンピュータ上のリモートサービスにアクセスすることが可能になったアプリケーションを含むことができ、例えば、「ウェブブラウザ」と一般に呼ばれるものを備えることができる。本例において、いくつかの一般に使用されるウェブブラウザとして、Microsoft Corporationから入手可能なMicrosoft(登録商標)Internet Explorer 8、Mozilla CorporationからのMozilla Firefox(登録商標)3.6、Apple Computer Corp.からのSafari 4、Google(商標)CorporationからのGoogle Chrome、または現在当技術分野で公知であり、もしくは将来開発される他のタイプのウェブブラウザが挙げられる。また、同じ、または他の実施形態では、インターネットクライアントは、生物学的用途用のデータ処理アプリケーションなどの、ネットワークを介して遠隔情報にアクセスすることが可能になった特殊化されたソフトウェアアプリケーションを含むことができ、またはこのアプリケーションのエレメントである場合がある。
ネットワークは、当業者に周知の多くの様々なタイプのネットワークの1つまたは複数を含むことができる。例えば、ネットワークとして、通信するのに適したTCP/IPプロトコールと一般に呼ばれるものを使用するローカルエリアネットワークまたはワイドエリアネットワークを挙げることができる。ネットワークは、インターネットと一般に呼ばれる相互接続したコンピュータネットワークの世界的システムを備えるネットワークを含むことができ、または様々なイントラネットアーキテクチャを含むこともできる。ネットワークされた環境中の一部のユーザーは、ハードウェアおよび/またはソフトウェアシステムを往来する情報トラフィックを管理するために、「ファイアウォール」と一般に呼ばれるもの(場合により、パケットフィルター、またはボーダープロテクションデバイス(Border Protection Device)とも呼ばれる)を使用することを好む場合があることを、当業者は理解するであろう。例えば、ファイアウォールは、ハードウェアもしくはソフトウェアエレメント、またはこれらのいくつかの組合せを備えることができ、典型的には、例えば、ネットワーク管理者などのユーザーによってセキュリティーポリシーを整備させるように設計される。
先に記載した実施形態の例は、上記に参照により組み込まれている、2007年2月15日に出願された、「System and Method for Correcting Primer Extension Errors in Nucleic Acid Sequence Data」という表題のPCT特許出願第US2007/004187号に提供されており、IEおよびCFの数学的モデルによって理論フローグラムを現実の観察フローグラムに変換することができるという発見に少なくともある程度基づく。例えば、理論フローグラムは、上述したCAFIE機構、または他のタイプのバックグラウンドエラーからのエラーをまったく有さない配列読み取りから生成されたデータを表す。同じように、観察フローグラムは、ある程度の記載したCAFIE要因および他のバックグラウンドエラー要因を含む配列読み取りから生成されるデータを表す。本例では、エラー要因のいくつか、またはすべてを理論フローグラムモデルに正確に近似し、適用することによって、実際の配列決定ランから得られる現実のデータの表示をもたらすことができる。さらに、本明細書に記載した先に記載した実施形態はまた、数学的モデルの反転を使用して観察フローグラムから理論フローグラムを近似することができるという概念に少なくともある程度基づく。したがって、上記からの例を継続して、エラーの近似を、観察フローグラムにおいて表される実際の配列決定データに適用することによって、エラー要因のすべて、または実質的にすべてが除去された標的核酸の配列組成を表す理論フローグラムを生成することができる。
いくつかの先に記載した実施形態では、上述したCF機構およびIE機構を説明するために、各フローの検出されたシグナルを補正する。例えば、一態様は、CFおよびIEの所与のレベルを仮定して、任意の既知の配列についての位相同調性喪失の程度を計算する工程を含む。
以下に例示した表1は、様々な読み取り長さについて、99%またはそれより良好な精度をもたらす(例えば、読み取りが鋳型分子の実際の配列の少なくとも99%を表す)、IEおよびCFについての数学的にモデル化された閾値の例を提供する。表1に与えられた予測値は、様々な読み取り長さについての配列決定精度に対するCF作用およびIE作用のインパクト、ならびに約99%の読み取り精度を実現するのに許容され得るIEエラーおよびCFエラーの程度を例示する。表1は、補正されていない読み取りについて、約100配列位置の読み取り長さが99%正確である(すなわち、99%以上の完了効率)であるために、1%以下のCF率が許容できる(その集団についてのIEが0に等しいと仮定して)ことを示す。さらに、約100配列位置の読み取り長さが99%正確であるために、0.25%以下のIE率が許容できる(CR率が0に等しいと仮定して)。
表1に与えられた値は、例示の目的のみのためであり、限定的であるとみなされるべきでないことが理解されるであろう。ゲノム配列または参照配列、および予測を立てるのに使用される他のパラメータなどのいくつかの要因が、値のばらつきの一因となり得ることを、当業者は理解するであろう。例えば、SBS法の典型的な実施形態では、一般に、1〜2%の範囲であるCF率を実現する一方で、IE率は、0.1〜0.4%の範囲である(すなわち、完了効率は99.6〜99.9%の範囲である)。上述したように、位相同調性の喪失は、読み取り長さに対して累積的作用を有し、読み取り長さが長くなるにつれて読み取りの品質を劣化させるので、CFおよびIEの補正は望ましい。
いくつかの先に記載した実施形態では、CFおよびIEの両方を表す値は、例えば、PicoTiterPlateアレイまたはISFET型デバイスなどの他のタイプのウェルのアレイの1つのウェル内に存在する鋳型分子の集団などの実質的に同一の鋳型分子集団の読み取り全体にわたって実質的に一定であると仮定される。これは、鋳型分子の実際の配列のいずれの推測的な知見も伴うことなく、2つの単純なパラメータである「完了効率」および「繰越」を使用して、読み取り全体にわたる各配列位置の数値的補正を可能にする。先に記載した実施形態のシステムおよび方法は、鋳型分子の集団中に発生するCFおよびIEの量を求め、これらを補正するのに非常に効果的であることが見出された。例えば、CFおよびIEを説明するために、各ウェル中に存在する実質的に同一の鋳型分子の各集団について、各フローから検出されるシグナル値の補正を適用する、補正の先の実施形態が実施された。
先に記載した実施形態では、非線形マッピングとして位相同調性の欠如をモデル化する:
式(1):
M(p,ε,λ)=q
式中:
− MはCAFIEマッピングであり、
− pは理論フローグラム[アレイとして]であり、
− λは完了効率パラメータであり、
− εは繰越パラメータであり、
− qは観察フローグラム[アレイとして]である。
理論フローグラムを、式(1)に与えたマッピングモデル式を使用して現実の観察フローグラムに変換することによって、IEおよびCFを推定することができる。そのようなマッピング式のモデルは、例えば、既知の配列を有するポリヌクレオチド鋳型分子を配列決定することにより観察フローグラム(q)に導入されるエラーを分析することによって生成することができる。式(1)によって与えられる数学的モデルの例は、図1に例示されている。
例えば、図1の左側で、理論フローグラム101は、理論フローグラム(p)の例示的な表示であり、これは、その関連するヌクレオチド種の隣の括弧内に表された理想化されたシグナル強度値を示す。理論フローグラム101のそれぞれの理想化された値は、整数または0である。本例では、「1」の値は、1個のヌクレオチド取り込みによって誘発された100%検出されたシグナル強度を表し、「0」は、0%のシグナルを表す(例えば、100万の実質的に同一の鋳型分子および100万の新生分子の集団を含むウェル中で、「1」は、どの新生分子も1個のヌクレオチドによって伸長される場合に誘発されるシグナルを表し、「2」は、どの新生分子も2個のヌクレオチドによって伸長される場合に誘発されるシグナルを表す、など)。
図1の右側で、観察フローグラム103は、観察された(または模擬の)フローグラム(q)からの検出されたシグナル強度値の例示的な表示である。同様に、フローグラム103中の各シグナル強度値は、その関連するヌクレオチド種の隣の括弧内に表されている。また、図1の右側は、ヌクレオチドおよびシグナル値と関連した反復性フロー配列を表す代表的な数をもたらすフロー105である(例えば、フロー105の各反復は、1個のヌクレオチド種の付加、その後の洗浄プロセスを表す)。例えば、図1中に例示されたフロー1は、フロー105の前記反復において導入された「C」ヌクレオチド種と関連し、理論フローグラム101および観察フローグラム103の両方についてのシグナル値に対応する。
図1の例において、各フロー105の反復の理論的なフローグラム101と観察フローグラム103との間のシグナル強度値の差異は、少なくともある程度、位相同期性の喪失を示す。例えば、観察フローグラム103で表されたシグナル値は整数でなく、むしろそれぞれは、フロー105の同じ反復について、理論的なフローグラム101で表された理想的な値より、典型的にはわずかに高いか、わずかに低い。
「M」として表されるマッピングモデル110は、パラメータ113の既知の値を使用して推定することができる。例えば、パラメータ113は、ε(繰越)パラメータおよびλ(完了効率)パラメータを含む。パラメータ113は、マッピングモデル110を推定し、理論フローグラム(p)101のシグナル値を観測値(q)103に変換するのに使用することができる。本例では、マッピングモデル110によって表されるエラー値は、フロー105の各反復とともに蓄積し、指数関数的に増える。
上記からの例を継続して、エラー値によって表されるエラーは、理論では、各フローとともに指数関数的に増える。例えば、実質的に同一の鋳型分子の各集団に関連した位相的に同調した配列決定反応は、フローの反復の後、3つの異なる位相的に同調した亜集団になる。亜集団には、フロー中のヌクレオチド種が鋳型分子と比べて適切な配列位置で適切に取り込まれた位相的に同調した反応(例えば、CAFIE作用なし)の第1の亜集団、CF機構からの不適切な取り込みが起こり、反応が第1の集団の配列位置より進んでいる位相的に同調した反応の第2の亜集団、IE機構からの不適切な取り込みが起こり、反応が第1の集団の配列位置より遅れた位相的に同調した反応の第3の亜集団が含まれる。本例では、次のフローの反復において、3つのサブ亜集団が上述した3つの亜集団のそれぞれから形成するなどである。n番目のフローの反復で、フローnでシグナルに寄与する、位相的に同調した反応の3の集団が存在することになることを当業者は理解するであろう。
上記からの例をさらに継続して、図2は、反転マッピングモデル210として図2中に表されているマッピングモデル110の反転の例示的な表示を提供する。例えば、パラメータ113(例えば、ε(繰越)およびλ(完了効率)パラメータの両方についての値)の補正値を推定することにより、観察フローグラム(q)103のシグナル値を反転して戻すことによって、理論フローグラム(p)101のシグナル値を得る。
図1および図2中に表されたシグナル値は、実例の目的のみで提供されており、広い範囲の値が可能であることを、当業者は理解するであろう。したがって、これらは限定的であるとしてみなされるべきでない。
いくつかの実施形態では、以下に概略した2つの連続した段階、(i)および(ii)でマッピングの反転を実行する:
各ヌクレオチド種のフローiについて:
(i) − ヌクレオチド種の付加を通じた新生分子の伸長:
=Nおよびp>0であるようなすべてのjについて、
(ii) − 先の付加からのヌクレオチド種の残りを通じた新生分子の伸長:
=Ni−1およびp>0であるようなすべてのjについて、
式中:
− pは、i番目のヌクレオチド種のフローにおける理論的な(クリーンな)フローグラムのシグナル値であり、
− qは、i番目のヌクレオチド種のフローにおける観察フローグラムのシグナル値であり、
− mは、i番目のヌクレオチド種のフローについてのフローグラムの配列位置における取り込みに利用可能なヌクレオチド種分子の画分であり、
− Nは、i番目のヌクレオチド種の付加(A、C、G、またはT)であり、
− (j,j’)は、pj’がフローグラム上のpの次の正の値であるような対の指数である。
いくつかの実施形態では、マッピングモデルを使用する計算は、フローごとに(例えば、フロー105の反復)実行され、段階(i)および(ii)を通じて帰納的に、観察フローグラム(q)、および鋳型分子の画分mをアップデートする。
図3Aは、行列計算に使用されるモデルの例示的な例を提供する。例えば、以下でより詳細に記載されるように、順行列モデル310を、逆行列モデル320を導出するのに使用することができる。本例では、逆行列モデル320を使用する行列計算の実施は、パラメータ113の見積もり値を導出するために使用される場合がある。例えば、パラメータ113の様々な値を、行列計算中に適用し、観察フローグラム103へのフィッティングの程度について評価することができる。典型的には、観察フローグラム(q)103に対して最良のフィットをもたらすパラメータ113は、パラメータ113の実際の値についての良好な推定値であると判断される。
さらに、図3Bは、順行列モデル310を使用する順行列計算の例示的な例を提供する。本例では、観察フローグラム(q)103は、完了効率値λ=0.95および繰越値ε=0.05を含むパラメータ113を使用して、行列計算によって生成される。行列のフロー105の反復に関連する各行は、各ヌクレオチド種のフローについての操作および帰納的段階(i、ii)の結果を記録する。
式(1)および帰納的段階(i、ii)は、行列−アレイ操作として書き換えることができる:
式(2):
[Μ(p’,ε,λ)]p=q
式中:
− [Μ(p’,ε,λ)]は行列であり、
は行列−アレイ乗算であり、
− p’は、理論フローグラムのバイナリエンコーディングリストである
(例えば、図1中のフローグラムp、p=[010200103012]は、p’=[010100101011]としてエンコードされる)。
式(2)の逆形態は、逆マッピングを与え、観察フローグラム(q)103を理論フローグラム(p)101に戻して変換する:
式(3):
p= [Μ−1(p’,ε,λ)]
式中:
− [Μ−1(p’,ε,λ)]は逆行列である。
図3A中の逆行列モデル320として例示された反転の式(3)を解くのに反復法が使用されて、各読み取りについての理論フローグラム(p)101が得られる。この反復は、CAFIE反転についての所与の対のパラメータ113(ε、λ)を用いて実施される:
式(4):
(n+1)=[M−1(p’(n),ε,λ)]
ここでp’(1)=q’が計算の種として使用される。
図3Bと同様に、図4Aは、逆行列モデル320を使用する逆行列計算の例示的な例を提供する。本例では、理論フローグラム(p)101は、完了効率値λ=0.95および繰越値ε=0.05を含むパラメータ113を使用して、観察フローグラム(q)103から生成される。
閾値の値は、システムの信号対ノイズ比の見積もり値を表すために使用される。例えば、一実施では、固定値である閾値≡0.2を使用することができる。そのような実施では、フローグラムqに関連するバイナリエンコーディングリストq’は、フローグラム値qが0.2より大きいとき、値「1」をエンコードし、フローグラム値qが0.2以下であるとき、値「0」をエンコードする。本例では、閾値0.2は、上述したように信号対ノイズ比の見積もり値である。
あるいは、いくつかの実施では、0〜1の間の範囲、例えば、0.05、0.1、または0.3の閾値を使用することができる。したがって、観察フローグラム(q)103は、所与の対のパラメータ113(ε、λ)について、式(4)を通じてクリーンな理論フローグラム(p)に反転することができる。多くの実施では、フローグラム反転の1回の反復で一般に十分となり得る。いくつかの実施では、フローグラム表示の精度が各反復とともに改善され得る場合、特により長い読み取り長さについて、所望の品質を伴った解に対して計算が収束するまで、フローグラム反転の2回、3回、またはそれ以上の反復を実施することが望ましい場合がある。好適な実施形態では、フローグラム反転の1回または2回の反復を、計算効率の利益のために実施することができる。また、コンピュータコードによって実施される本発明のいくつかの実施形態は、ユーザー選択に応えて各反復を実施し、かつ/または連続的に実施するためのいくつかの反復の選択をユーザーに可能にすることができる。例えば、ユーザーは、1つまたは複数のフィールドにおける値の入力、またはGUIで提示されたボタンの選択など、当技術分野で公知の方法を使用して選択を実施することができる。本例では、ユーザーは、実施するための反復の数を示す値を入力することができ、かつ/またはユーザーは、本発明の反復を実行するためボタンを選択することができる。さらに、データ品質のレベルが達成されるまで本発明を反復する場合、ユーザーは、データ品質の目安を選択することができる。
図4Bは、式(4)の方法を使用して、連続した数の反復においてどのように結果が改善され得るかの例示的な例を提供する。未処理のフローグラム410は、各反復がフローバー(flow bar)409によって表された、ヌクレオチド種付加の336回のフロー反復から、完了効率値λ=0.997および繰越値ε=0.03を含むパラメータ値113を有する観察フローグラム(q)103の実施形態を例示する。例えば、各フローバー409は、ヌクレオチド種のフローを代表し、各種は、バー409の色またはパターンによって具体的に表すことができる。さらに、各フローに関連する検出された、または補正されたシグナル値は、シグナル強度405によって与えられるスケールと比べたバー409の高さによって表される。
読み取り長さ407によって与えられるスケールと比べて、特に50配列位置を超える読み取り長さについてのフローバー409のシグナル強度405の値に関して、未処理のフローグラム410において高い程度のばらつきが存在することを、当業者は理解するであろう。言い換えれば、フローバー409の大部分のシグナル値は、整数であるシグナル値を含まない。2反復のフローグラム420は、本発明の実施形態を使用して補正を2反復した後の、観察フローグラム(q)103の同じ実施形態を例示する。フローバー409のシグナル強度405の一貫性は、特に、読み取り長さ407の位置150以下におけるフローバー409について改善されている。同様に、データ品質の改善は、それぞれ4反復のフローグラム430および8反復のフローグラム440においても実証され、ここでフローグラム440は、実質的にすべてのフローバー409が一貫性および整数値を示すことを例示する。
いくつかの実施形態では、パラメータ113の値の見積もりは、式(4)を使用して求めることができる。例えば、完了効率パラメータ(λ)の最良フィッティング値は、CFパラメータについて固定値を使用しながら、完了効率パラメータについて異なる値を入力して、式(4)を使用して試験計算を実施することによって求めることができる。本例では、λ=1、0.999、0.998、...、0.990の値を、固定されたCF値ε=0とともに引き続いて使用することができ、それぞれについての結果を得ることができる。異なる実施形態では、λ値の間の0.001の間隔を、他の間隔、例えば、0.05、0.01、0.005、0.001、0.0005、0.0001などの間隔値によって置き換えることができる。
本例を継続して、計算された理論フローグラム(p)におけるフローバー409についての任意のシグナル値405が、λについての入力値を使用して式(4)を解いた後に0未満に下がる場合、そのλ値は、最良フィッティングの完了効率パラメータとして宣言される。λの最良フィッティング値が求められた後、引き続いてより小さいλ値を使用すると、「オーバーフィッティング」と呼ばれるものをもたらし、人工的に負のフローシグナルを生成する。また、本例では、ホモポリマーを表す長い一連のフローバー409(例えば、同じヌクレオチド種を含む一連の配列位置)の後の配列位置におけるいくつかのフローバー409について補正されたシグナル値405は、0未満に下がる場合がある。このゼロ交差点は、図5中の楕円503に例示されており、最良フィットの完了効率は、以下でλとして表される。
同様に、いくつかの実施形態では、CFの作用も同様の手法によって対処することができる。例えば、先に見出された値λで固定された完了効率パラメータλとともに、ε=0、0.0025、0.005、0.0075、0.01、...、0.04の値を含むことができるCFパラメータの値を試験することができる。これは、ステップ2→3として図5に例示されており、ここで楕円503は、開始位置2(ε,λ)=(0,λ)を示す。本例では、εについての入力値同士間の0.0025の間隔は例示の目的で提示されており、他の小さい間隔値、例えば、0.05、0.01、0.005、0.001、0.0005、0.0001、0.00001などの間隔値と置き換えることができる。計算された理論フローグラム(p)におけるフローバー409についての任意のシグナル値405が、εについての入力値を使用して、式(4)を解いた後に0未満に下がる場合(例えば、λ経路に沿って探索していた間に0未満に下がったフローバー409についてのシグナル値405以外のフローバー409についての任意のシグナル値405)、そのε値は、最良フィッティングのCFパラメータの値として宣言される。εの最良フィッティング値が求められた後、引き続いてより大きい値を使用すると、「オーバーフィッティング」をもたらし、人工的に負のフローシグナルを生成する。また、本例では、ホモポリマーを表す長い一連のフローバー409の前の配列位置におけるいくつかのフローバー409について補正されたシグナル値405は、0未満に下がる場合がある。このゼロ交差点は、図5中の楕円505に例示されており、最良フィットCFは、以下でεとして表される。
図5は、例えば、横軸が完了効率軸520を表し、縦軸がCF軸510を表す例示的な例を提供する。楕円501、503、および505内のグラフはそれぞれ、上述したようなステップを表し、3つのシグナルを示すフローグラムの例示的な部分を含む。例えば、中心のバーは、メインシグナルバー537を表し、左のマイナーシグナル(CFバー535)、および右のマイナーシグナル(IEバー533)が隣接している。楕円501は、当初の観察フローグラム(q)103のステップを例示し、この場合、メインシグナルバー537は位相非同調性によって小さくなっており、CFバー535およびIEバー533のマイナーシグナルは、位相非同調性が原因となったノイズを表す。楕円503は、IEが補正されたステップを表し、この場合、IEバー533aに関連するシグナルが排除され、したがって中心のメインシグナルバー537が増大している。上述したように、IEが補正された点は、例えば、最良フィットの完了効率パラメータについてのゼロ交差点を含む場合があり、λと表される。楕円505は、CFバー535aに関連したシグナルの排除によって例示された、CFが補正されたさらなるステップを表し、したがって中心のメインシグナルバー537が増大している。上述したように、CFが補正された点は、例えば、最良フィットの完了効率パラメータについてのゼロ交差点を含む場合があり、εと表される。楕円505は補正の結果を例示し、これは、位相非同調性エラーに起因するノイズが実質的に除去された、理論的な予期されるフローグラムの近似である。
したがって、CFおよびIEの量、ならびに基となる鋳型分子配列pは未知の推測的なものであるので、本発明の方法は、完全な新規の分析モードにおいて使用することができる。ポリメラーゼ取り込み効率(すなわち、λ)またはヌクレオチドウォッシュアウトの有効性(すなわち、ε)を事前に知っている必要はまったくなく、反転を実施するのにいずれの参照ヌクレオチド配列も必要としない。
いくつかの実施形態では、上述したパラメータ見積もりのための探索プロセスは、εおよびλの入力探索間隔ごとに、段階(i、ii)を通じて行列[M]を構築し、これは、計算効率の展望から限界がある。そのような限界は、行列構築操作に対して近似を使用することによって、少なくともある程度克服することができる。例えば、探索間隔ごとに行列を再構築することを回避し、したがって計算速度を大いに改善することができる。2つのそのような方法を以下に説明する。
方法1:
εおよび(1−λ)の小さい値で(例えば、(1−λ)≦0.001およびε≦.0025)、行列[M]が分解され、近似されて以下の形態になる:
式(5):
式中:
− Δε=0.0025およびΔλ=0.001は、それぞれε軸およびλ軸における間隔である。
− φおよび
は、
およびφ〜(1−λ)/Δλの特性を有する行列の累乗である。
− [L(p’,Δλ)]は、下対角行列(lower diagonal matrix)であり、これは、小さい欠損ΔλでのIEの作用をモデル化する。
− [U(p’,Δλ)]は、上対角行列(upper diagonal matrix)であり、これは、小さい欠損ΔεでのCFの作用をモデル化する。
この分解を通じて、式(5)は、下対角行列Lおよび上対角行列Uを探索経路に沿って一度だけ構築し、探索グリッド、(ε,λ)での不完全および繰越の程度が行列の累乗
によってモデル化される。探索間隔の小さい値、すなわち、Δε=0.0025およびΔλ=0.001は、他の小さい値、例えば、0.05、0.01、0.005、0.001、0.0005、0.0001などによって置き換えることができる。
以前に示された(ε,λ)グリッドに対する探索の代わりに、ここでの方法は、
グリッドのセットを通じて実施し、これらのグリッドは、行列の累乗の計算を容易にするために正の整数であることが好ましい。最良フィットの
は、ゼロ交差条件で定義され、対応する完了効率およびCFパラメータは、λ=(1−φΔλ)および
である。
方法2:
小さいεおよび(1−λ)の場合における式(5)の後に、下対角累乗行列および上対角累乗行列、[L]φおよび
は、(式6):
[L]φ≡([Ι]+[l])φ〜[I]+φ[l]
式(7):
によってさらに近似され、式中:
− [I]は恒等行列であり、
− [l]および[u]はそれぞれ、[L]および[U]の非対角行列である。
これは、行列の累乗の計算段階のバイパスを公式化し、したがって計算時間のスピードアップ(例えば、減少)をもたらす。
における探索空間は、今やすべて正の実数を含有する。最良フィットの
は、ゼロ交差条件で定義され、対応する完了効率およびCFパラメータは:
式(8):
である。
上記に提示した実施形態は、行列を構築し、反転させるステップ、およびCAFIEパラメータの最適な対をプローブするための(ε,λ)面内の二次元探索に基づく。これらの計算は、典型的には、実質的に同一の鋳型分子の各集団に対して実施され、例えば、反応部位に基づくシステムのアレイ(例えば、ウェルのPicoTiterPlateアレイまたはウェルのISFETアレイ)中での部位ごとの分析を含むことができる。いくつかの実施形態では、行列は、最適なCAFIE値(ε、λ)を生成するために各集団/部位について構築される。図6は、上述した反転/探索方法1を使用することによって計算した場合の、数十万の集団/ウェル603の試料中の完了効率パラメータ605の値λおよびCFパラメータ607の値εの分布の例示的な例を提供する。上述した方法2を使用することによる計算は、方法1より短い計算時間で済み、同様の結果をもたらす。
上述した実施形態はまた、一定の完了効率λおよびCF εパラメータに関連する率は、配列決定ラン全体にわたって一定のままであることを仮定する。この仮定は、いくつかのフローサイクル(「いくつかの」は、1とサイクルの総数の間の任意の整数を意味する)を含むフローグラム中の「フローウィンドウ」と呼ばれる場合のあるものにCAFIE探索および反転手順を適用することによって軽減され得る。例えば、各フローウィンドウは、1対のCAFIEパラメータおよび対応するクリーンな理論フローグラム101が見つけられる必要がある、フローグラム中に表されるフルセットのフローサイクルのサブセットである。本例では、各フローウィンドウは、これが配列決定ランに関連するフローグラム中の第1のフローから始まり、フローグラム中のフローサイクルの全長以下のある特定のフローで終わるようにアレンジされ、この場合それぞれのより小さいフローウィンドウは、より大きいものの中にネストされる。各フローウィンドウkについて、探索および反転プロセスは、一連のCAFIEパラメータ113を生成するのに独立して行われ、これらのパラメータはこの時、ウィンドウ指標kの関数、すなわち、ε=ε(k)およびλ=λ(k)である。計算された理論フローグラム101、p(k)もネストされ、指標kに応じたCAFIEパラメータのこれらの変数値の結果である。「スティッチング」プロセス:ウィンドウ(k−1)とkの間のフローについてのp=p(k)は、フローウィンドウ配列p(k)を最終的なフローグラム(p)101に再構築する。
同じまたは代替の実施形態では、λおよびεについて一定の値を仮定することは、別の方法によって排除することができる。例えば、完了効率λ、およびCF εパラメータは、各ヌクレオチド種の付加「N」(「A」、「G」、「C」、または「T」)について、かつフロー位置「i」(1、2、3、...)の関数として、指数関数などのパラメトリック形態を仮定することができる:
式(9〜10):
λ(i)=λ Ν exp(−δ i)、
ε(i)=ε Ν exp(−β i)
式中:
− λ(i)は、「i」番目のフローにおけるヌクレオチド種「N」の完了効率であり、
− ε(i)は、「i」番目のフローにおけるヌクレオチド種「N」のCFであり、
− λ およびε は、初期値であり、
− δおよびβは、減衰率である。
探索法は、最適な値を求めるために4つのパラメータ空間、λ 、ε 、δ、およびβにおいて適用される。
さらに、当業者は、記載したCAFIE機構に関係しない他のノイズ源が存在し得ることも理解するであろう。そのようなノイズ源として、それだけに限らないが、「暗電流」と呼ばれる場合のあるものなどの電子源、光源、生物源、化学源、または当技術分野で公知の、もしくは将来発見され得る他の源を挙げることができる。現在記載されている発明のいくつかの実施形態では、多くのアプリケーションにおいて、実質的に一貫した、かつ/または予測可能なレベルである場合のある他のノイズ源に対して様々なレベルの感度を示すことができる。例えば、既知または未知の源に起因する、予測可能なレベルおよび一貫したレベルのノイズは、一般に補正することが容易である。補正の一方法は、フローに関連するすべてのシグナル値から、ノイズに関連する値を数学的に加減することである(ノイズが過剰のシグナルを加えるか、検出されるシグナルを低下させるかに応じて)。
ノイズのレベルが予測可能でないいくつかの実施形態では、少なくともある程度、ノイズのレベルの見積もりをシグナルデータに埋もれている情報から引き出すことができる。例えば、配列位置で存在しないことが分かっているか、予測されるヌクレオチド種については、実際のシグナル値は0に等しい(すなわち、「0−mer」位置)はずであることが予期される。したがって、任意の検出されるシグナルは、システム内のすべてのノイズ源に起因し得る。本例において、現在記載されている実施形態では、CAFIE機構からのノイズを推定するので、そのようなノイズをデータから除去し、その下にあるノイズを明らかにすることができる。本例では、推定は、配列ランにおいてすべての「0−mer」配列位置を調べることによって改善することができる。この場合、バイナリエンコードするp’(n)の式(4)における「閾値」の値は、上記の先の実施形態で記載したような固定値の代わりに、各ランについてダイナミックに求めることによって、そのノイズレベルを表すことができる。
なおさらに、いくつかの先に記載された実施形態は、観察フローグラム中に表された配列データの過剰補正を防止するために、「安全基準」と呼ばれる場合のあるものを含んでいた。上述したように、過剰補正は、記載されたアルゴリズムが反復するにつれて導入されるエラーの指数関数的蓄積を引き起こす場合がある。例えば、上述した他のノイズ源は、シグナルデータに適用される補正量を含む安全基準を決定する場合がある。例えば、いくつかの実施では、他の非CAFIE源からの所与のレベルのノイズを仮定し、データに対して60%補正(例えば、100%は、完全な補正を意味する)と呼ばれる場合のあるものの安全基準を適用することができる。この推定は、計算されたクリーンなフローグラムpの60%、および観察フローグラムqの40%を含む「ハイブリッド」フローグラム、「0.6p+0.4q」を使用する。あるいは、非CAFIEノイズが「低い」レベルにある場合、例えば、80%などのより高い百分率の補正を適用することができる。
黄色ブドウ球菌(Staphylococcus aureus)COLおよびマイコプラズマ・ジェニタリウム(Mycoplasma genitalium)のゲノムを、454 Life Sciences Corporation Genome Sequencer(上記で参照により組み込まれている、Marguliesら、2005)上でショットガン配列決定した。図7は、ゲノムのカバー率、共通配列の正確さ、中程度の読み取り長さ、および125配列位置にわたる読み取り長さの100%の精度を実現したウェルの百分率に対するIE補正のみ、およびCAFIE補正の効果の例示的な例を提供する。これらの測定のそれぞれで、CAFIE補正は、IE補正単独より優れていた。IE補正単独は、補正なして実現した結果に対して優れていた。制御配列を有するビーズを別個に調製し、実験試料と混合した後、アレイを調製した。
図7が実証するように、CAFIE補正手順を使用すると、63フローサイクルまたは252フロー反復(例えば、各フローサイクルは、4ヌクレオチド種フロー反復を含む)の理論的な最大値付近である112配列位置から147配列位置までの63フローサイクルのランについての平均読み取り長さが長くなる。理論的な最大値は、フローサイクルの数、この場合では63に、4ヌクレオチド付加の各サイクルにおいて平均で伸長される配列位置の数(2.5)を乗じることによって計算される:63×2.5=157.5(理論的な最大値)。147配列位置の平均読み取り長さは、フローサイクルにわたって95%の精度で、既知のゲノム配列にフローグラムをマッピングすることによって求めた。
当業者は、データからのエラーの正確な除去は、前記データのより効率的で正確な解釈をもたらすことを理解するであろう。したがって、例えば、配列決定ランにおいて生成されるデータからエラーを除去する工程は、配列ランから生成される配列中の各核酸種を同定するコールのより正確な生成、およびより高い品質の配列情報をもたらす。先に記載された発明のいくつかの実施形態は、配列決定装置でのSBS配列決定ランから生成されるデータを分析するためのシステムおよび方法を含む。SBS装置および方法のいくつかの例では、ピロリン酸に基づく配列決定手法と呼ばれるものを使用することができ、これは、例えば、電荷結合素子(CCD)カメラなどの検出デバイス、マイクロフルイディクスチャンバー、試料カートリッジホルダー、またはポンプおよびフローバルブのうちの1つまたは複数を備えることができる。
現在記載されている発明の実施形態は、上述したCAFIE補正の実施形態(以下、「標準的CAFIE」と呼ぶ)に対して実質的な性能改善をもたらし、ユーザーにかなりの利点をもたらす。以下により詳細に説明するように、CAFIE補正方法の改善は、標準的CAFIEからの理論フローグラム(p)出力を採用し、正の取り込みリストが最適化された結果に収束するまでフローグラムシグナルを帰納的に再推定することによって(以下、「帰納的CAFIE」と呼ぶ)、上述した標準的CAFIE補正法に及ぶ。帰納的に補正されたフローグラムおよび正の取り込みリストが収束すると、帰納的CAFIE法は、以下でさらに詳細に説明するように、上述した標準的CAFIE補正法に対してより良好な補正を生じる。この改善は、位相同期性CAFIEパラメータを見出すためのアルゴリズムの改善、および位相同期性エラーを補正するための帰納的手順を含む。同じ、または代替の実施形態は、コンセンサスフローリスト(consensus flow list)を生物の既知の参照配列から採用し、上述したような閾値を推定するのに使用することができる参照CAFIE補正を含む場合があり、この場合、バイナリエンコーディングリスト中の位置は、参照配列中の対応する配列位置に基づくシグナルをまったく有さないことを予測することができ、したがって観察されたシグナルは、ノイズおよび/または参照配列に由来する配列変異体に特徴づけることができる。観察されたシグナルの規模は一般に、特に、シグナルをまったく有さないと予測されるバイナリエンコーディングリスト中の他の位置でのシグナルの規模と比較される場合、これが配列変異体に特徴づけることができるのか、またはノイズに特徴づけることができるのかを示すことが理解されるであろう。
図8は、CAFIEパラメータをさらに最適化し、さらに最適化されたパラメータを再適用することによってより正確なフローリストを繰り返して発展させ、中間のCAFIE補正されたフローグラムを生成し、最終的に帰納的に補正されたフローグラムに収束させる帰納的CAFIE実施形態の簡略化されたグラフの例を提供する。
帰納的CAFIE補正ストラテジーの典型的実施形態では、標準的CAFIE補正法を使用して、かつCAFIE補正されたフローグラムを生成する帰納的CAFIEアルゴリズムを使用する反復を通じて、配列読み取りから観察フローグラムに位相同期性補正を最初に実施し、これは、観察フローグラムから得られたものより真の配列をより正確に反映する新しいバイナリエンコーディングリスト(p’)を推定する。次いでこの新しいバイナリエンコーディングリストを使用して、配列読み取りについての完了効率λおよび繰越εのパラメータを再び推定する(したがってより正確に)。(λ、ε)の新しい見積もりは、バイナリエンコーディングリストの負の取り込みイベントにおいて補正されたシグナルが、可能な限り実際のバックグラウンドノイズレベルに近くなることを要求することによって実現される。具体的には、本発明者らは、アルゴリズムにおいてCAFIE行列にパラメータλおよびεの摂動を実施する:
式(11〜12):
Δqλ=[Μ−1(p’,1−Δλ,0)]q−q,
Δqε=[M−1(p’,1,Δε)]q−q、
式中、Μ(p’,λ,ε)は、上述したCAFIE行列であり、ΔqλおよびΔqεは、バイナリエンコーディングリストp’を用いた摂動ΔλおよびΔεに応答したフローグラムの変化であり、pは、標準的CAFIE補正によって計算された理論フローグラムである。
帰納的CAFIE法では、新しいλおよびεは、以下の手順によって得られる。摂動増分(tλ,tε)を以下の数式を最小化することによって計算する:
式(13):
ここでノイズは、最初の48フローの負の取り込みイベント(p’(i)=0)に関連するフローシグナルの平均である。tλおよびtεの値を求めた後、CAFIE補正パラメータ(λ,ε)を以下のように計算する:
式(14〜15):
λ=1−tλΔλ、
ε=tεΔε。
このようにして、λおよびεは、位相から外れたCAFIEエラーを最小限にする最適な対として確実になる。最後に、CAFIE補正
式(16):
(1)=[Μ−1(p’,ε,λ)]q、
を実施して新しいCAFIE補正された理論フローグラムp(1)を得る。
上記に述べた手順を反復して繰り返す:反復n+1で、フローグラムp(n)を使用することによってバイナリエンコーディングリストp’(n)を推定し、最小化手順(13)によってCAFIE探索を再び実施し、摂動式(14〜16)を通じて、新しいCAFIE補正したフローグラムp(n+1)およびCAFIEパラメータ(ε(n+1),λ(n+1))を得る。
式(17):
(n+1)=[Μ−1(p’(n),ε(n+1),λ(n+1))]q。
いくつかの実施形態では、バイナリエンコーディングリストが収束する、p’(n+1)=p’(n)まで帰納的手順を継続する。正のフローリストiは、p’(n)(i)=1である場合、正のヌクレオチド取り込みを示すフロー位置を近似する。より正確には、アルゴリズムによって推定される正のフローリストは、位相非同期性のより正確な補正をもたらす。したがって、帰納的アルゴリズムでは、反復してCAFIE補正されたフローグラムを使用し、収束時に帰納的に補正されたフローグラムをもたらす。各反復において、アルゴリズムにより、CAFIEパラメータ(ε(n),λ(n))のより良好な見積もり値、および次の反復において位相エラーのより正確なCAFIE補正を与えるバイナリエンコーディングp’(n)が得られる。
いくつかの実施形態では、CAFIEパラメータが収束する、(ε(n+1),λ(n+1))=(ε(n),λ(n))まで帰納的手順を継続し、この収束は、バイナリエンコーディングリストがCAFIEパラメータを使用して計算される方法の性質によって、バイナリコーディングリストの収束も意味する。収束を判定するのにCAFIEパラメータを使用することの1つの利点は、バイナリエンコーディングリストp’の収束を推定するより計算的に効率的であることである。
表1〜6は、配列読み取りについての標準的CAFIE補正法と帰納的CAFIE補正法の結果の比較を提示する。これらのすべてにおいて、帰納的CAFIE補正法を試験することにより、50〜90bpのより長い読み取り長さ、より多数の高品質な読み取り(品質トリミングプロセスに合格する読み取りとして定義される)、および標準的CAFIE補正ストラテジーと比較した場合に匹敵する読み取り精度をもたらすことができた。図9も、2つのCAFIE補正法についての読み取り長さの分布および読み取りエラー分布の例示的なプロットを提供し、標準的CAFIE法のライン910に勝る帰納的CAFIE補正法のライン905からの好都合な結果を示す。表5は、帰納的補正法で処理した8回の配列決定ランの結果を要約する。平均のマッピングされた長さは600〜700bpであり、Q20読み取り長さは430〜565bpであり、最長の完全な読み取り長さは870〜930bpであり、最長のマッピングされた読み取りは901〜997bpである。
このように、核酸の配列決定の間に得られた配列データ中のエラーを補正するための方法およびシステムが提供されていることが分かる。特定の実施形態を詳細に本明細書で開示してきたが、それは、例示の目的のみのために例として開示されており、以下に続く添付の特許請求の範囲に関して限定的であることは意図されていない。特に、様々な置換、変更、および改変を、特許請求の範囲によって定義される本発明の精神および範囲から逸脱することなく行うことができることが企図されている。他の態様、利点、および改変も以下の特許請求の範囲内であるとみなされる。提示された特許請求の範囲は、本明細書に開示された本発明を代表する。他の請求されていない発明も企図されている。後の請求項におけるそのような発明を実行する権利は、本明細書によって確保されている。

Claims (17)

  1. 鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
    (a)配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と、
    (b)ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と、
    (c)繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と、
    (d)負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と、
    (e)修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義する工程と、
    (f)複数の正の取り込み値および複数の負の取り込み値が収束するまで工程(d)〜(e)を繰り返す工程と
    を含む方法。
  2. 正の取り込み値および負の取り込み値が整数であり、好ましくは、正の取り込み値が1であり、負の取り込み値が0である、請求項1に記載の方法。
  3. 工程(c)において使用される繰越値および不完全伸長値が、パラメータ推定モデルを使用して求められる、請求項1に記載の方法。
  4. 工程(c)の前に、正の取り込み値および負の取り込み値が閾値を使用して割り当てられ、正の取り込み値は、観測値が閾値より上であるとき割り当てられ、負の取り込み値は、観測値が閾値未満であるとき割り当てられる、請求項1に記載の方法。
  5. 閾値が0〜1の間の範囲の値を含み、好ましくは、閾値は約0.2である、請求項4に記載の方法。
  6. ヌクレオチド種がまったく存在しない複数の位置を予測するために、閾値が参照配列を使用して定義される、請求項4に記載の方法。
  7. ノイズ値が、導入されるヌクレオチド種の数からの負の取り込み値に関連する観測値の平均であり、好ましくは、導入されるヌクレオチド種の数は、導入される最初の48ヌクレオチド種を含む、請求項1に記載の方法。
  8. 複数の配列決定反応が並行して実行され、工程(a)〜(f)が配列決定反応のそれぞれについて実行される、請求項1に記載の方法。
  9. 鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
    (a)配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と、
    (b)ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と、
    (c)繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と、
    (d)負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と、
    (e)修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義するする工程と、
    (f)繰越値および不完全伸長値が収束するまで工程(d)〜(e)を繰り返す工程と
    を含む方法。
  10. 鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための機器であって、
    (a)配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する配列決定機器コンポーネントと、
    (b)
    i.ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と;
    ii.繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と;
    iii.負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と;
    iv.修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義する工程と;
    v.繰越値および不完全伸長値が収束するまで工程iii〜ivを繰り返す工程と
    を含む方法を実施する、記憶された実行可能なコードを備えるコンピュータと
    を備える機器。
  11. 正の取り込み値および負の取り込み値が整数であり、好ましくは、正の取り込み値が1であり、負の取り込み値が0である、請求項10に記載の機器。
  12. 工程(ii)において使用される繰越値および不完全伸長値が、パラメータ推定モデルを使用して求められる、請求項10に記載の機器。
  13. 工程(ii)の前に、コンピュータが正の取り込み値および負の取り込み値を、閾値を使用して割り当て、正の取り込み値は、観測値が閾値より上であるときに割り当てられ、負の取り込み値は、観測値が閾値未満であるときに割り当てられる、請求項10に記載の機器。
  14. 閾値が0〜1の間の範囲の値を含み、好ましくは、閾値は約0.2である、請求項13に記載の機器。
  15. ヌクレオチド種がまったく存在しない複数の位置を予測するために、コンピュータが、参照配列を使用して閾値を定義する、請求項13に記載のシステム。
  16. ノイズ値が、導入されるヌクレオチド種の数からの負の取り込み値に関連する観測値の平均であり、好ましくは、導入されるヌクレオチド種の数は、導入される最初の48ヌクレオチド種を含む、請求項10に記載のシステム。
  17. 配列決定システムが、複数の配列決定反応を並行して実行し、コンピュータが、配列決定反応のそれぞれについて工程(i)〜(v)を実行する、請求項10に記載の機器。
JP2012557570A 2010-03-31 2011-03-29 帰納的アルゴリズムを使用することによる、dna配列決定データにおける位相不一致エラーを補正するためのシステムおよび方法 Expired - Fee Related JP5465793B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US31947610P 2010-03-31 2010-03-31
US61/319,476 2010-03-31
PCT/EP2011/054817 WO2011120964A1 (en) 2010-03-31 2011-03-29 System and method to correct out of phase errors in dna sequencing data by use of a recursive algorithm

Publications (2)

Publication Number Publication Date
JP2013522743A JP2013522743A (ja) 2013-06-13
JP5465793B2 true JP5465793B2 (ja) 2014-04-09

Family

ID=43983333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012557570A Expired - Fee Related JP5465793B2 (ja) 2010-03-31 2011-03-29 帰納的アルゴリズムを使用することによる、dna配列決定データにおける位相不一致エラーを補正するためのシステムおよび方法

Country Status (6)

Country Link
US (2) US8364417B2 (ja)
EP (1) EP2553619B1 (ja)
JP (1) JP5465793B2 (ja)
CN (1) CN102834828B (ja)
CA (1) CA2789566A1 (ja)
WO (1) WO2011120964A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2727850C (en) 2003-01-29 2013-04-30 454 Corporation Methods of amplifying and sequencing nucleic acids
EP3290529B1 (en) 2010-06-11 2019-05-22 Life Technologies Corporation Alternative nucleotide flows in sequencing-by-synthesis methods
WO2012058459A2 (en) * 2010-10-27 2012-05-03 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
US10273540B2 (en) 2010-10-27 2019-04-30 Life Technologies Corporation Methods and apparatuses for estimating parameters in a predictive model for use in sequencing-by-synthesis
EP2659408B1 (en) 2010-12-29 2019-03-27 Life Technologies Corporation Time-warped background signal for sequencing-by-synthesis operations
US20130060482A1 (en) 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
EP3582224A1 (en) 2010-12-30 2019-12-18 Life Technologies Corporation Models for analyzing data from sequencing-by-synthesis operations
US10241075B2 (en) 2010-12-30 2019-03-26 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
EP3366782B1 (en) 2011-04-08 2021-03-10 Life Technologies Corporation Phase-protecting reagent flow orderings for use in sequencing-by-synthesis
US10704164B2 (en) 2011-08-31 2020-07-07 Life Technologies Corporation Methods, systems, computer readable media, and kits for sample identification
EP2602734A1 (en) * 2011-12-08 2013-06-12 Koninklijke Philips Electronics N.V. Robust variant identification and validation
US9646132B2 (en) 2012-05-11 2017-05-09 Life Technologies Corporation Models for analyzing data from sequencing-by-synthesis operations
US10192024B2 (en) 2012-05-18 2019-01-29 454 Life Sciences Corporation System and method for generation and use of optimal nucleotide flow orders
US10329608B2 (en) 2012-10-10 2019-06-25 Life Technologies Corporation Methods, systems, and computer readable media for repeat sequencing
US20140296080A1 (en) 2013-03-14 2014-10-02 Life Technologies Corporation Methods, Systems, and Computer Readable Media for Evaluating Variant Likelihood
US9926597B2 (en) 2013-07-26 2018-03-27 Life Technologies Corporation Control nucleic acid sequences for use in sequencing-by-synthesis and methods for designing the same
EP2840148B1 (en) 2013-08-23 2019-04-03 F. Hoffmann-La Roche AG Methods for nucleic acid amplification
US10410739B2 (en) 2013-10-04 2019-09-10 Life Technologies Corporation Methods and systems for modeling phasing effects in sequencing using termination chemistry
US10676787B2 (en) 2014-10-13 2020-06-09 Life Technologies Corporation Methods, systems, and computer-readable media for accelerated base calling
CN107969138B (zh) 2015-05-14 2022-04-12 生命科技公司 条形码序列和有关系统与方法
CN108699599A (zh) 2015-11-19 2018-10-23 北京大学 获得和校正生物序列信息的方法
CN107958138B (zh) * 2016-10-14 2019-06-18 赛纳生物科技(北京)有限公司 一种从高通量dna测序的原始信号中读取序列信息的方法
US10619205B2 (en) 2016-05-06 2020-04-14 Life Technologies Corporation Combinatorial barcode sequences, and related systems and methods
EP3963104A4 (en) 2019-05-03 2023-11-08 Ultima Genomics, Inc. FAST-FORWARDING SEQUENCING THROUGH SYNTHESIS METHODS
JP7556886B2 (ja) * 2019-05-03 2024-09-26 ウルティマ・ゲノミクス・インコーポレーテッド 核酸分子の配列決定方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9620209D0 (en) * 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) * 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
GB9901475D0 (en) * 1999-01-22 1999-03-17 Pyrosequencing Ab A method of DNA sequencing
US6274320B1 (en) * 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7244559B2 (en) * 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7211390B2 (en) * 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US6783934B1 (en) * 2000-05-01 2004-08-31 Cepheid, Inc. Methods for quantitative analysis of nucleic acid amplification reaction
GB0016472D0 (en) * 2000-07-05 2000-08-23 Amersham Pharm Biotech Uk Ltd Sequencing method and apparatus
CA2421221A1 (en) * 2000-09-01 2002-03-07 Fred Hutchinson Cancer Research Center Statistical modeling to analyze large data arrays
US20040197845A1 (en) * 2002-08-30 2004-10-07 Arjang Hassibi Methods and apparatus for pathogen detection, identification and/or quantification
CA2727850C (en) * 2003-01-29 2013-04-30 454 Corporation Methods of amplifying and sequencing nucleic acids
US7575865B2 (en) * 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
GB0324456D0 (en) 2003-10-20 2003-11-19 Isis Innovation Parallel DNA sequencing methods
WO2005085273A1 (en) * 2004-03-04 2005-09-15 The University Of British Columbia Thrombomodulin (thbd) haplotypes predict outcome of patients
PL1801209T3 (pl) * 2004-08-24 2011-07-29 Toray Industries Zmodyfikowany genomowy RNA ludzkiego wirusa zapalenia wątroby typu C posiadający zdolność replikacji autonomicznej
US7575990B2 (en) 2005-07-01 2009-08-18 Macronix International Co., Ltd. Method of forming self-aligned contacts and local interconnects
ES2626620T3 (es) * 2006-02-16 2017-07-25 454 Life Sciences Corporation Sistema y método para corregir errores de extensión de cebadores en datos de secuencias de ácidos nucleicos
CN101802218A (zh) 2007-06-28 2010-08-11 454生命科学公司 在核酸测序中用于自适应试剂控制的系统和方法
US20090203086A1 (en) 2008-02-06 2009-08-13 454 Life Sciences Corporation System and method for improved signal detection in nucleic acid sequencing
CN101560564A (zh) * 2009-04-08 2009-10-21 北京华生恒业科技有限公司 一种检测装置及系统

Also Published As

Publication number Publication date
WO2011120964A8 (en) 2012-07-05
US8364417B2 (en) 2013-01-29
EP2553619A1 (en) 2013-02-06
EP2553619B1 (en) 2017-11-01
WO2011120964A1 (en) 2011-10-06
JP2013522743A (ja) 2013-06-13
CN102834828B (zh) 2016-04-20
US20110213563A1 (en) 2011-09-01
CA2789566A1 (en) 2011-10-06
CN102834828A (zh) 2012-12-19
US20130131995A1 (en) 2013-05-23
US9317654B2 (en) 2016-04-19

Similar Documents

Publication Publication Date Title
JP5465793B2 (ja) 帰納的アルゴリズムを使用することによる、dna配列決定データにおける位相不一致エラーを補正するためのシステムおよび方法
US8301394B2 (en) System and method for correcting primer extension errors in nucleic acid sequence data
JP6373827B2 (ja) 最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法
Vaser et al. Yet another de novo genome assembler
US20230307095A1 (en) Methods and systems for modeling phasing effects in sequencing using termination chemistry
Wang et al. Categorical edge-based analyses of phylogenomic data reveal conflicting signals for difficult relationships in the avian tree
US7840358B2 (en) Hierarchical statistical framework for separating mixed data
JP7272431B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Das et al. Base-calling for Illumina's next-generation DNA sequencing systems via Viterbi algorithm
Wang High-Throughput Sequencing And Natural Selection: Studies Of Recent Sweep Inferences And A New Computational Approach For Transcription Identification

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140122

R150 Certificate of patent or registration of utility model

Ref document number: 5465793

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees