[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7510913B2 - Highly multiplexed PCR methods and compositions - Google Patents

Highly multiplexed PCR methods and compositions Download PDF

Info

Publication number
JP7510913B2
JP7510913B2 JP2021204979A JP2021204979A JP7510913B2 JP 7510913 B2 JP7510913 B2 JP 7510913B2 JP 2021204979 A JP2021204979 A JP 2021204979A JP 2021204979 A JP2021204979 A JP 2021204979A JP 7510913 B2 JP7510913 B2 JP 7510913B2
Authority
JP
Japan
Prior art keywords
dna
target
loci
primer
primers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021204979A
Other languages
Japanese (ja)
Other versions
JP2022037145A (en
Inventor
ベルンハルト ツィマーマン,
マシュー エム. ヒル,
フィリップ ギルバート ラクルート,
マイケル ドッド,
Original Assignee
ナテラ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/683,604 external-priority patent/US20130123120A1/en
Application filed by ナテラ, インコーポレイテッド filed Critical ナテラ, インコーポレイテッド
Publication of JP2022037145A publication Critical patent/JP2022037145A/en
Priority to JP2024101181A priority Critical patent/JP2024111282A/en
Application granted granted Critical
Publication of JP7510913B2 publication Critical patent/JP7510913B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

関連出願の相互参照
本出願は、2012年11月21日出願の米国実用新案出願第13/683,604号、および2012年7月24日出願の米国特許仮出願第61/675,020号の利益と優先権を主張する。米国実用新案出願第13/683,604号は、2011年5月18日出願の米国実用新案出願第13/110,685号の一部継続である2011年11月18日出願の米国実用新案出願第13/300,235号の一部継続であり、2012年7月24日出願の米国特許仮出願第61/675,020号の利益を主張する。米国実用新案出願第13/110,685号は、2010年5月18日出願の米国特許仮出願第61/395,850号;2010年6月21日出願の米国特許仮出願第61/398,159号;2011年2月9日出願の米国特許仮出願第61/462,972号;2011年3月2日出願の米国特許仮出願第61/448,547号;および2011年4月12日出願の米国特許仮出願第61/516,996号の利益を主張する。米国実用新案出願第13/300,235号は、2011年6月23日出願の米国特許仮出願第61/571,248号の利益を主張する。これら全ての特許出願の全体は、それらのすべての教示のために参照により本明細書中に組み込まれる。
CROSS-REFERENCE TO RELATED APPLICATIONS This application claims the benefit of and priority to U.S. Utility Application No. 13/683,604, filed November 21, 2012, and U.S. Provisional Application No. 61/675,020, filed July 24, 2012. U.S. Utility Application No. 13/683,604 is a continuation-in-part of U.S. Utility Application No. 13/300,235, filed November 18, 2011, which is a continuation-in-part of U.S. Utility Application No. 13/110,685, filed May 18, 2011, and claims the benefit of U.S. Provisional Application No. 61/675,020, filed July 24, 2012. U.S. Utility Application No. 13/110,685 claims the benefit of U.S. Provisional Application No. 61/395,850, filed May 18, 2010; U.S. Provisional Application No. 61/398,159, filed June 21, 2010; U.S. Provisional Application No. 61/462,972, filed February 9, 2011; U.S. Provisional Application No. 61/448,547, filed March 2, 2011; and U.S. Provisional Application No. 61/516,996, filed April 12, 2011. U.S. Utility Application No. 13/300,235 claims the benefit of U.S. Provisional Application No. 61/571,248, filed June 23, 2011. All of these patent applications are incorporated herein by reference in their entirety for all their teachings.

連邦政府による資金提供を受けた研究開発の記載
本発明は、認可番号第5R44HD60423-3号による米国国立衛生研究所の支援によって行われた。米国政府は本出願に由来する全ての特許に対し権利を保有できる。
STATEMENT REGARDING FEDERALLY SPONSORED RESEARCH OR DEVELOPMENT This invention was made with support from the National Institutes of Health under Grant No. 5R44HD60423-3. The United States Government may reserve rights to any patents originating from this application.

発明の分野
本発明は、一般に、複数の目的の核酸領域を1反応体積で同時に増幅する方法と組成物に関する。
FIELD OF THEINVENTION The present invention relates generally to methods and compositions for simultaneously amplifying multiple nucleic acid regions of interest in one reaction volume.

アッセイスループットを高め、核酸試料のより効率的な使用を可能とするために、多くのオリゴヌクレオチドプライマーを試料と混合した後、当技術分野で多重PCRとして知られるプロセスでポリメラーゼ連鎖反応(PCR)条件に試料を供することにより、目的の試料中の多くの標的核酸の同時増幅を実行できる。多重PCRの使用は、非常に単純な実験手順であり、核酸分析および検出に要する時間を短縮できる。しかし、複数の対が同じPCR反応に加えられる場合、増幅されたプライマー二量体などの非標的増幅産物が生成されることがある。プライマーの数が増えるに伴いこのような産物生成の可能性が増加する。これらの非標的増幅産物は、その後の分析、および/またはアッセイでの増幅産物の使用を大きく制限する。従って、多重PCRの間の非標的増幅産物の形成を減らすように改善された方法が必要である。 To increase assay throughput and allow for more efficient use of nucleic acid samples, simultaneous amplification of many target nucleic acids in a sample of interest can be performed by mixing many oligonucleotide primers with the sample and then subjecting the sample to polymerase chain reaction (PCR) conditions in a process known in the art as multiplex PCR. The use of multiplex PCR is a very simple experimental procedure and can reduce the time required for nucleic acid analysis and detection. However, when multiple pairs are added to the same PCR reaction, non-target amplification products such as amplified primer dimers may be generated. The likelihood of such product generation increases with increasing number of primers. These non-target amplification products greatly limit the use of the amplification products in subsequent analyses and/or assays. Therefore, improved methods are needed to reduce the formation of non-target amplification products during multiplex PCR.

改善された多重PCR法は、非侵襲的出生前遺伝子診断(NPD)などの様々な用途に有用となるであろう。具体的には、出生前診断の現行の方法により、医師および親に、成長している胎児の異常を警告することができる。出生前診断をしないと、50人に1人の乳児が重大な身体的または精神的ハンディキャップを持って生まれ、30人に1人もが先天性奇形のいくつかの形態を有する。残念ながら、標準の方法は、正確度が乏しいか、または流産のリスクを有する侵襲的な手順を伴う。母系の血中ホルモンレベルまたは超音波測定に基づく方法は非侵襲的であるが、同様に正確度が低い。羊水穿刺、絨毛膜絨毛生検および胎児の血液試料採取などの方法は正確度が高いが、侵襲的であり、著しいリスクを有する。米国では全妊娠のおよそ3%に対して羊水穿刺が実施されたが、その使用頻度は過去15年にわたって減少している。 Improved multiplex PCR methods will be useful for a variety of applications, such as non-invasive prenatal genetic diagnosis (NPD). Specifically, current methods of prenatal diagnosis can alert physicians and parents to abnormalities in the developing fetus. Without prenatal diagnosis, one in 50 infants is born with significant physical or mental handicaps, and as many as one in 30 have some form of congenital malformation. Unfortunately, standard methods involve invasive procedures that are either poorly accurate or carry the risk of miscarriage. Methods based on maternal blood hormone levels or ultrasound measurements are non-invasive but similarly inaccurate. Methods such as amniocentesis, chorionic villus biopsy, and fetal blood sampling are highly accurate but invasive and carry significant risks. Amniocentesis was performed for approximately 3% of all pregnancies in the United States, but its frequency of use has declined over the past 15 years.

正常なヒトは、健康な二倍体細胞の全てに23種の染色体を2組有し、1つのコピーが各親に由来する。多すぎる染色体および/または少なすぎる染色体を有する核細胞における状態である異数性が、着床の失敗、流産、および遺伝病の大部分に関与すると考えられる。染色体異常を検出することにより、とりわけ、妊娠成功の機会が増すことに加えて、ダウン症候群、クラインフェルター症候群、およびターナー症候群などの状態を有する個体または胚を同定することができる。染色体異常を検査することは、母親の年齢が35歳から40歳の間では胚の少なくとも40%が異常であり、40歳を超えると、胚の半分超が異常であるということが推定されるので、特に重要である。 Normal humans have two sets of the 23 chromosomes in every healthy diploid cell, one copy from each parent. Aneuploidy, a condition in which a nuclear cell has too many and/or too few chromosomes, is thought to be responsible for the majority of implantation failures, miscarriages, and genetic diseases. Detecting chromosomal abnormalities can identify individuals or embryos with conditions such as Down's syndrome, Klinefelter's syndrome, and Turner's syndrome, among others, in addition to increasing the chances of a successful pregnancy. Testing for chromosomal abnormalities is particularly important since it is estimated that at least 40% of embryos are abnormal between the ages of 35 and 40, and more than half of embryos are abnormal above the age of 40.

最近、無細胞胎児DNAおよびインタクトな胎児細胞が母系の血液循環系に進入し得ることが発見された。したがって、この遺伝材料を分析することにより、早期のNPDが可能になると思われる。改善された方法では、感度および特異性が高められ、NPDに要する時間とコストが減らされるのが望ましい。 It has recently been discovered that cell-free fetal DNA and intact fetal cells can enter the maternal blood circulation. Thus, analysis of this genetic material may enable early NPD. Improved methods would be desirable to increase sensitivity and specificity and reduce the time and cost required for NPD.

一態様では、本発明は、核酸試料中の標的遺伝子座を増幅する方法を特徴とする。いくつかの実施形態では、前記方法は、(i)核酸試料を、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズする試験プライマーライブラリーと接触させて反応混合物を生成するステップと、(ii)反応混合物をプライマー伸長反応条件に供し、標的増幅産物を含む増幅産物を生成するステップとを含む。いくつかの実施形態では、前記方法は、少なくとも1個の標的増幅産物(例えば、少なくとも、50、60、70、80、90、95、96、97、98、99、または99.5%の標的増幅産物)の存在の有無を判定するステップも含む。いくつかの実施形態では、前記方法は、少なくとも1種の標的増幅産物(例えば、少なくとも、50、60、70、80、90、95、96、97、98、99、または99.5%の標的増幅産物)の配列を決定するステップも含む。 In one aspect, the invention features a method of amplifying target loci in a nucleic acid sample. In some embodiments, the method includes (i) contacting the nucleic acid sample with a library of test primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci to generate a reaction mixture, and (ii) subjecting the reaction mixture to primer extension reaction conditions to generate an amplification product that includes a target amplification product. In some embodiments, the method also includes determining the presence or absence of at least one target amplification product (e.g., at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplification products). In some embodiments, the method also includes determining the sequence of at least one target amplicon (e.g., at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicon).

本発明のいずれかの態様の種々の実施形態では、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座が増幅される。いくつかの実施形態では、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の増幅産物が標的増幅産物である。いくつかの実施形態では、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の標的遺伝子座が増幅される。種々の実施形態では、増幅産物の内の60、50、40、30、20、10、5、4、3、2、1、0.5、0.25、0.1、または0.05%未満がプライマー二量体である。いくつかの実施形態では、試験プライマーのライブラリーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の試験プライマー対を含み、各プライマー対は、同じ標的遺伝子座にハイブリダイズするフォワード試験プライマーおよびリバース試験プライマーを含む。いくつかの実施形態では、試験プライマーのライブラリーは、異なる標的遺伝子座にハイブリダイズする少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の個別試験プライマーを含み、個別プライマーは、プライマー対の一部ではない。 In various embodiments of any aspect of the invention, at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the amplification products are target amplification products. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified. In various embodiments, less than 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.05% of the amplification products are primer dimers. In some embodiments, the library of test primers includes at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 test primer pairs, each primer pair including a forward test primer and a reverse test primer that hybridize to the same target locus. In some embodiments, the library of test primers includes at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 individual test primers that hybridize to different target loci, and the individual primers are not part of a primer pair.

本発明のいずれかの態様の種々の実施形態では、各試験プライマーの濃度は、100、75、50、25、10、5、2、または1nM未満である。種々の実施形態では、試験プライマーのGC含量は、30~80%で、例えば、40~70%または50~60%である。いくつかの実施形態では、試験プライマーのGC含量の範囲(例えば、最大GC含量-最小GC含量、例えば、80%-60%=20%の範囲)は、30、20、10、または5%未満である。いくつかの実施形態では、試験プライマーの融解温度(T)は、40~80℃、例えば、50~70℃、55~65℃、または57~60.5℃である。いくつかの実施形態では、試験プライマーの融解温度の範囲は、20、15、10、5、3、または1℃未満の範囲である。いくつかの実施形態では、試験プライマーの長さは、15~100ヌクレオチド、例えば、15~75ヌクレオチド、15~40ヌクレオチド、17~35ヌクレオチド、18~30ヌクレオチド、20~65ヌクレオチドである。いくつかの実施形態では、試験プライマーは、標的特異的ではないタグ、例えば、内部ループ構造を形成するタグを含む。いくつかの実施形態では、タグは、2つのDNA結合領域の間に存在する。種々の実施形態では、試験プライマーは、標的遺伝子座に特異的な5’領域、標的遺伝子座に特異的でないループ構造を形成する内部領域、および標的遺伝子座に特異的な3’領域を含む。種々の実施形態では、3’領域の長さは、少なくとも7ヌクレオチドである。いくつかの実施形態では、3’領域の長さは、7~20ヌクレオチド、例えば、7~15ヌクレオチド、または7~10ヌクレオチドである。種々の実施形態では、試験プライマーは、標的遺伝子座に特異的ではない5’領域(例えば、タグまたはユニバーサルプライマー結合部位)、それに続けて、標的遺伝子座に特異的な領域、標的遺伝子座に特異的でないループ構造を形成する内部領域、および標的遺伝子座に特異的な3’領域を含む。いくつかの実施形態では、試験プライマーの長さの範囲は、50、40、30、20、10、または5ヌクレオチド未満である。いくつかの実施形態では、標的増幅産物の長さは、50~100ヌクレオチド、例えば、60~80ヌクレオチド、または60~75ヌクレオチドである。いくつかの実施形態では、標的増幅産物の長さの範囲は、50、25、15、10、または5ヌクレオチド未満である。 In various embodiments of any of the aspects of the invention, the concentration of each test primer is less than 100, 75, 50, 25, 10, 5, 2, or 1 nM. In various embodiments, the GC content of the test primers is 30-80%, e.g., 40-70% or 50-60%. In some embodiments, the range of GC content of the test primers (e.g., maximum GC content - minimum GC content, e.g., 80%-60% = 20% range) is less than 30, 20, 10, or 5%. In some embodiments, the melting temperature (T m ) of the test primers is 40-80°C, e.g., 50-70°C, 55-65°C, or 57-60.5°C. In some embodiments, the range of melting temperatures of the test primers is less than 20, 15, 10, 5, 3, or 1°C. In some embodiments, the length of the test primer is 15-100 nucleotides, e.g., 15-75 nucleotides, 15-40 nucleotides, 17-35 nucleotides, 18-30 nucleotides, 20-65 nucleotides. In some embodiments, the test primer includes a tag that is not target specific, e.g., a tag that forms an internal loop structure. In some embodiments, the tag is between two DNA binding regions. In various embodiments, the test primer includes a 5' region that is specific for the target locus, an internal region that forms a loop structure that is not specific for the target locus, and a 3' region that is specific for the target locus. In various embodiments, the length of the 3' region is at least 7 nucleotides. In some embodiments, the length of the 3' region is 7-20 nucleotides, e.g., 7-15 nucleotides, or 7-10 nucleotides. In various embodiments, the test primer includes a 5' region that is not specific for the target locus (e.g., a tag or universal primer binding site), followed by a region that is specific for the target locus, an internal region that forms a loop structure that is not specific for the target locus, and a 3' region that is specific for the target locus. In some embodiments, the range of lengths of the test primers is less than 50, 40, 30, 20, 10, or 5 nucleotides. In some embodiments, the length of the target amplicons is 50-100 nucleotides, e.g., 60-80 nucleotides, or 60-75 nucleotides. In some embodiments, the range of lengths of the target amplicons is less than 50, 25, 15, 10, or 5 nucleotides.

本発明のいずれかの態様の種々の実施形態では、プライマー伸長反応条件は、ポリメラーゼ連鎖反応条件(PCR)である。種々の実施形態では、アニーリングステップの長さは、3、5、8、10、または15分超である。種々の実施形態では、伸長ステップの長さは、3、5、8、10、または15分超である。 In various embodiments of any aspect of the invention, the primer extension reaction conditions are polymerase chain reaction conditions (PCR). In various embodiments, the length of the annealing step is greater than 3, 5, 8, 10, or 15 minutes. In various embodiments, the length of the extension step is greater than 3, 5, 8, 10, or 15 minutes.

本発明のいずれかの態様の種々の実施形態では、胎児染色体異常の存在の有無を判定するための胎児の妊娠中の母親由来の母系DNAおよび胎児DNAを含む試料中の少なくとも1,000個の異なる標的遺伝子座を同時に増幅するために試験プライマーが使用される。種々の実施形態では、前記方法は、ユニバーサルプライマー結合部位を試料中のDNA分子にライゲーションするステップと、少なくとも1,000個の特異的プライマーおよびユニバーサルプライマーを使ってライゲーションしたDNA分子を増幅し、第1の増幅産物の集合を生成するステップと少なくとも1,000対の特異的プライマーを使って第1の増幅産物の集合を増幅して第2の増幅産物の集合を生成するステップとを含む。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なるプライマー対が使われる。 In various embodiments of any aspect of the invention, test primers are used to simultaneously amplify at least 1,000 different target loci in a sample that includes maternal DNA from the pregnant mother of a fetus and fetal DNA to determine the presence or absence of a fetal chromosomal abnormality. In various embodiments, the method includes ligating a universal primer binding site to DNA molecules in the sample, amplifying the ligated DNA molecules with at least 1,000 specific primers and a universal primer to generate a first set of amplification products, and amplifying the first set of amplification products with at least 1,000 pairs of specific primers to generate a second set of amplification products. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different primer pairs are used.

本発明のいずれかの態様の種々の実施形態では、試験プライマーを使って、胎児の父親とされる人由来のDNAを含む試料中の少なくとも1,000個の異なる標的遺伝子座を同時に増幅し、さらに胎児の妊娠中の母親由来の母系DNAおよび胎児DNAを含む試料中の標的遺伝子座を同時に増幅して、父親とされる人が胎児の生物学上の父親であるかどうかが確定される。 In various embodiments of any aspect of the invention, the test primers are used to simultaneously amplify at least 1,000 different target loci in a sample containing DNA from the alleged father of the fetus, and also to simultaneously amplify target loci in samples containing maternal DNA from the pregnant mother of the fetus and fetal DNA to determine whether the alleged father is the biological father of the fetus.

本発明のいずれかの態様の種々の実施形態では、試験プライマーを使用して、胚由来の1個の細胞または複数の細胞中の少なくとも1,000個の異なる標的遺伝子座を同時に増幅して染色体異常の存在の有無が判定される。種々の実施形態では、2個以上の胚の集合由来の細胞が分析され、インビトロ受精用に一個の胚が選択される。 In various embodiments of any aspect of the invention, the test primers are used to simultaneously amplify at least 1,000 different target loci in a cell or cells from an embryo to determine the presence or absence of chromosomal abnormalities. In various embodiments, cells from a set of two or more embryos are analyzed and one embryo is selected for in vitro fertilization.

本発明のいずれかの態様の種々の実施形態では、試験プライマーを使って、法医学核酸試料中の少なくとも1,000個の異なる標的遺伝子座が同時に増幅される。種々の実施形態では、アニーリングステップの長さは、3、5、8、10、または15分超である。 In various embodiments of any aspect of the invention, the test primers are used to simultaneously amplify at least 1,000 different target loci in a forensic nucleic acid sample. In various embodiments, the length of the annealing step is greater than 3, 5, 8, 10, or 15 minutes.

本発明のいずれかの態様の種々の実施形態では、前記方法は、試験プライマーを使って、対照核酸試料中の少なくとも1,000個の異なる標的遺伝子座を同時に増幅して第1の標的増幅産物の集合を生成し、さらに試験核酸試料中の標的遺伝子座を同時に増幅して第2の標的増幅産物の集合を生成するステップと第1と第2の標的増幅産物の集合を比較して、標的遺伝子座が1個の試料中に存在するがその他の試料中には存在しないかどうか、または標的遺伝子座が対照試料中と試験試料中で異なるレベルで存在するかどうかを判定するステップとを含む。種々の実施形態では、試験試料は、対象疾患もしくは表現型(例えば、癌)であるか、または対象疾患もしくは表現型である危険性の増加が疑われる個体由来であり、さらに1個または複数個の標的遺伝子座が、対象疾患もしくは表現型の危険性の増加に関連する、または対象疾患もしくは表現型に関連する配列(例えば、多型または他の変異)を含む。種々の実施形態では、前記方法は、試験プライマーを使って、RNAを含む対照試料中の1,000個の異なる標的遺伝子座を同時に増幅して第1の標的増幅産物の集合を生成し、さらにRNAを含む試験試料中の標的遺伝子座を同時に増幅して第2の標的増幅産物の集合を生成するステップと第1と第2の標的増幅産物の集合を比較し、対照試料と試験試料との間のRNA発現レベルの差異の有無を判定するステップとを含む。種々の実施形態では、RNAは、mRNAである。種々の実施形態では、試験試料は、対象疾患もしくは表現型(例えば、癌)であることが疑われるか、または対象疾患もしくは表現型(例えば、癌)の危険性の増加が疑われる個体由来であり、1個または複数個の標的遺伝子座は、対象疾患もしくは表現型の危険性の増加に関連するか、または対象疾患もしくは表現型に関連する配列(例えば、多型または他の変異)を含む。いくつかの実施形態では、試験試料は、対象疾患もしくは表現型(例えば、癌)と診断された個体由来であり、この場合、対照試料と試験試料との間のRNA発現レベルの差異は、標的遺伝子座が対象疾患もしくは表現型の危険性の増加または減少に関連する配列(例えば、多型または他の変異)を含むことを示す。 In various embodiments of any aspect of the invention, the method includes simultaneously amplifying at least 1,000 different target loci in a control nucleic acid sample with test primers to generate a first set of target amplicons and simultaneously amplifying the target loci in a test nucleic acid sample to generate a second set of target amplicons, and comparing the first and second sets of target amplicons to determine whether a target locus is present in one sample but not in the other sample, or whether a target locus is present at different levels in the control sample and the test sample. In various embodiments, the test sample is from an individual suspected of having or at increased risk for a disease or phenotype of interest (e.g., cancer), and one or more target loci include a sequence (e.g., a polymorphism or other mutation) associated with an increased risk of or associated with the disease or phenotype of interest. In various embodiments, the method includes simultaneously amplifying 1,000 different target loci with test primers in a control sample comprising RNA to generate a first set of target amplicons and simultaneously amplifying the target loci in a test sample comprising RNA to generate a second set of target amplicons, and comparing the first and second sets of target amplicons to determine the presence or absence of differences in RNA expression levels between the control sample and the test sample. In various embodiments, the RNA is mRNA. In various embodiments, the test sample is from an individual suspected of having or at increased risk for a disease or phenotype of interest (e.g., cancer), and one or more target loci include a sequence (e.g., a polymorphism or other mutation) associated with an increased risk of or associated with the disease or phenotype of interest. In some embodiments, the test sample is from an individual diagnosed with a disease or phenotype of interest (e.g., cancer), where a difference in RNA expression levels between the control sample and the test sample indicates that the target locus contains a sequence (e.g., a polymorphism or other mutation) associated with an increased or decreased risk of the disease or phenotype of interest.

本発明のいずれかの態様のいくつかの実施形態では、試験プライマーは、本発明のいずれかの方法を使ったプライマーの選択などの1個または複数個のパラメータに基づく候補プライマーのライブラリーから選択される。いくつかの実施形態では、試験プライマーは、候補プライマーのプライマー二量体形成能力に少なくとも一部基づいて候補プライマーライブラリーから選択される。 In some embodiments of any of the aspects of the invention, the test primers are selected from a library of candidate primers based on one or more parameters, such as the selection of primers using any of the methods of the invention. In some embodiments, the test primers are selected from the library of candidate primers based at least in part on the ability of the candidate primers to form primer dimers.

一態様では、本発明は、候補プライマーライブラリーから試験プライマーを選択する方法を特徴とする。種々の実施形態では、選択は、(i)コンピュータを使ってライブラリー由来の2個の候補プライマーの大部分または全ての可能な組み合わせに対するアンデザイアラビリティスコア(undesirability score)を計算するステップであって、それぞれのアンデザイアラビリティスコアが、2個の候補プライマー間の二量体形成の尤度に少なくとも一部基づくステップと、(ii)最高のアンデザイアラビリティスコアを有する候補プライマーライブラリー由来の候補プライマーを除去するステップと、(iii)ステップ(ii)で除去された候補プライマーがプライマー対のメンバーである場合、候補プライマーライブラリー由来のプライマー対のもう一方のメンバーを除去するステップと、(iv)任意選択で、ステップ(ii)と(iii)を反復して試験プライマーライブラリーを選択するステップとを含む。いくつかの実施形態では、選択法は、ライブラリー中に残っている候補プライマーの組み合わせに対するアンデザイアラビリティスコアが全て最小閾値以下になるまで行われる。いくつかの実施形態では、選択法は、ライブラリー中に残っている候補プライマーの数が所望の数まで減らされるまで行われる。種々の実施形態では、アンデザイアラビリティスコアは、ライブラリー中の候補プライマーの可能な組み合わせの少なくとも80、90、95、98、99、または99.5%に対し計算される。種々の実施形態では、ライブラリー中に残っている候補プライマーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座を同時に増幅できる。種々の実施形態では、前記方法は、(v)標的遺伝子座を含む核酸試料をライブラリー中に残っている候補プライマーと接触させて反応混合物を生成するステップ;および(vi)反応混合物をプライマー伸長反応条件に供し、標的増幅産物を含む増幅産物を生成するステップも含む。 In one aspect, the invention features a method for selecting test primers from a library of candidate primers. In various embodiments, the selection includes (i) calculating an undesirability score for most or all possible combinations of two candidate primers from the library using a computer, where each undesirability score is based at least in part on the likelihood of dimer formation between the two candidate primers; (ii) removing the candidate primer from the library of candidate primers that has the highest undesirability score; (iii) if the candidate primer removed in step (ii) is a member of a primer pair, removing the other member of the primer pair from the library of candidate primers; and (iv) optionally repeating steps (ii) and (iii) to select a library of test primers. In some embodiments, the selection method is performed until all undesirability scores for the combinations of candidate primers remaining in the library are below a minimum threshold. In some embodiments, the selection method is performed until the number of candidate primers remaining in the library is reduced to a desired number. In various embodiments, the undesirability score is calculated for at least 80, 90, 95, 98, 99, or 99.5% of the possible combinations of candidate primers in the library. In various embodiments, the candidate primers remaining in the library are capable of simultaneously amplifying at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci. In various embodiments, the method also includes (v) contacting a nucleic acid sample comprising the target loci with the candidate primers remaining in the library to produce a reaction mixture; and (vi) subjecting the reaction mixture to primer extension reaction conditions to produce an amplification product comprising a target amplification product.

一態様では、本発明は、候補プライマーライブラリーから試験プライマーを選択する方法を特徴とする。種々の実施形態では、候補プライマーライブラリーからの試験プライマーの選択方法は、(i)コンピュータを使ってライブラリー由来の2個の候補プライマーの大部分または全ての可能な組み合わせに対するアンデザイアラビリティスコアを計算するステップであって、各アンデザイアラビリティスコアが、2個の候補プライマー間の二量体形成の尤度に少なくとも一部基づくステップと、(ii)候補プライマーライブラリーから第1の最小閾値を超えるアンデザイアラビリティスコアを有する2個の候補プライマーの組み合わせのうち最多数のもののの一部である候補プライマーを除去するステップと、(iii)ステップ(ii)で除去された候補プライマーがプライマー対のメンバーである場合、候補プライマーライブラリー由来のプライマー対の残りのメンバーを除去するステップと、(iv)任意選択で、ステップ(ii)と(iii)を反復し、試験プライマーライブラリーを選択するステップとを含む。いくつかの実施形態では、選択法は、ライブラリー中に残っている候補プライマーの組み合わせに対するアンデザイアラビリティスコアが、全て第1の最小閾値以下となるまで行われる。いくつかの実施形態では、選択法は、ライブラリー中に残っている候補プライマーの数が所望の数に減らされるまで行われる。種々の実施形態では、アンデザイアラビリティスコアは、ライブラリー中の可能な候補プライマー組み合わせの少なくとも80、90、95、98、99、または99.5%に対して計算される。種々の実施形態では、ライブラリー中に残っている候補プライマーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座を同時に増幅できる。種々の実施形態では、前記方法は、(v)標的遺伝子座を含む核酸試料をライブラリー中に残っている候補プライマーと接触させて反応混合物を生成するステップ;および(vi)反応混合物をプライマー伸長反応条件に供して標的増幅産物を含む増幅産物を生成するステップも含む。 In one aspect, the invention features a method for selecting test primers from a library of candidate primers. In various embodiments, the method for selecting test primers from a library of candidate primers includes (i) calculating, using a computer, an undesirability score for most or all possible combinations of two candidate primers from the library, where each undesirability score is based at least in part on the likelihood of dimer formation between the two candidate primers; (ii) removing from the library of candidate primers a candidate primer that is part of the greatest number of combinations of two candidate primers that have an undesirability score that exceeds a first minimum threshold; (iii) if the candidate primer removed in step (ii) is a member of a primer pair, removing the remaining members of the primer pair from the library of candidate primers; and (iv) optionally repeating steps (ii) and (iii) to select a library of test primers. In some embodiments, the selection method is performed until the undesirability scores for the combinations of candidate primers remaining in the library are all equal to or less than the first minimum threshold. In some embodiments, the selection method is performed until the number of candidate primers remaining in the library is reduced to a desired number. In various embodiments, the undesirability score is calculated for at least 80, 90, 95, 98, 99, or 99.5% of the possible candidate primer combinations in the library. In various embodiments, the candidate primers remaining in the library are capable of simultaneously amplifying at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci. In various embodiments, the method also includes (v) contacting a nucleic acid sample comprising the target loci with the candidate primers remaining in the library to produce a reaction mixture; and (vi) subjecting the reaction mixture to primer extension reaction conditions to produce an amplification product comprising the target amplification product.

本発明のいずれかの態様の種々の実施形態では、選択法は、ステップ(ii)で使われる第1の最小閾値をより小さい第2の最小閾値に下げることによりライブラリー中に残っている候補プライマーの数をさらに減らすステップ、および任意選択で(ii)と(iii)を反復するステップ含む。いくつかの実施形態では、選択法は、ステップ(ii)で使われる第1の最小閾値をより大きい第2の最小閾値に高めるステップ、および任意選択で(ii)と(iii)を反復するステップを含む。いくつかの実施形態では、選択法は、ライブラリー中に残っている候補プライマーの組み合わせに対するアンデザイアラビリティスコアが全て第2の最小閾値以下になるまで、またはライブラリー中に残っている候補プライマーの数が所望の数に減らされるまで、実行される。 In various embodiments of any aspect of the invention, the selection method includes further reducing the number of candidate primers remaining in the library by lowering the first minimum threshold used in step (ii) to a lower second minimum threshold, and optionally repeating (ii) and (iii). In some embodiments, the selection method includes increasing the first minimum threshold used in step (ii) to a higher second minimum threshold, and optionally repeating (ii) and (iii). In some embodiments, the selection method is performed until all undesirability scores for the candidate primer combinations remaining in the library are equal to or less than the second minimum threshold, or until the number of candidate primers remaining in the library is reduced to a desired number.

本発明のいずれかの態様の種々の実施形態では、前記方法は、ステップ(i)の前に、標的遺伝子座にハイブリダイズするプライマーを特定するか、または選択するステップを含む。いくつかの実施形態では、複数プライマー(またはプライマー対)が、同じ標的遺伝子座にハイブリダイズするが、1個または複数個のパラメータに基づく選択法を使って、この標的遺伝子座に対し1個のプライマー(または1個のプライマー対)が選択される。種々の実施形態では、前記方法は、ステップ(ii)の前に、別のプライマー対により生成される標的増幅産物と重複する標的増幅産物を生成するプライマー対をライブラリーから除去するステップを含む。種々の実施形態では、候補プライマーライブラリーから除去することを目的として、1個または複数個の他のパラメータに基づいて、同等のアンデザイアラビリティスコアを有する2個以上の候補プライマーの群から候補プライマーが選択される。いくつかの実施形態では、ライブラリー中に残っている候補プライマーは、本発明のいずれかの方法で試験プライマーライブラリーとして使用される。いくつかの実施形態では、得られた試験プライマーライブラリーは、本発明のプライマーライブラリーのいずれかを含む。 In various embodiments of any aspect of the invention, the method includes, prior to step (i), identifying or selecting a primer that hybridizes to a target locus. In some embodiments, multiple primers (or primer pairs) hybridize to the same target locus, but one primer (or primer pair) is selected for the target locus using a selection method based on one or more parameters. In various embodiments, the method includes, prior to step (ii), removing from the library primer pairs that generate target amplicons that overlap with target amplicons generated by another primer pair. In various embodiments, candidate primers are selected from a group of two or more candidate primers with comparable undesirability scores based on one or more other parameters for removal from the candidate primer library. In some embodiments, the candidate primers remaining in the library are used as a test primer library in any method of the invention. In some embodiments, the resulting test primer library comprises any of the primer libraries of the invention.

本発明のいずれかの態様の種々の実施形態では、アンデザイアラビリティスコアは、標的遺伝子座のヘテロ接合率、標的遺伝子座の配列(例えば、多型)に関連する有病率、標的遺伝子座の配列(例えば、多型)に関連する疾患浸透度、候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群より選択される1個または複数個のパラメータに少なくとも一部基づく。 In various embodiments of any aspect of the invention, the undesirability score is based at least in part on one or more parameters selected from the group consisting of the heterozygosity rate of the target locus, the prevalence associated with the sequence (e.g., polymorphism) of the target locus, the disease penetrance associated with the sequence (e.g., polymorphism) of the target locus, the specificity of the candidate primer for the target locus, the size of the candidate primer, the melting temperature of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon.

本発明のいずれかの態様の種々の実施形態では、アンデザイアラビリティスコアは、標的遺伝子座のヘテロ接合率、候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群より選択される1個または複数個のパラメータに少なくとも一部基づき、また、試験プライマーを使って、胎児染色体異常の有無を判定するための胎児の妊娠中の母親由来の母系DNAおよび胎児DNAを含む試料中の少なくとも1,000個の異なる標的遺伝子座が同時に増幅される。種々の実施形態では、前記方法は、ユニバーサルプライマー結合部位を試料中のDNA分子にライゲーションするステップと、少なくとも1,000特異的プライマーおよびユニバーサルプライマーを使ってライゲーションしたDNA分子を増幅し第1の増幅産物の集合を生成するステップと、少なくとも1,000対の特異的プライマーを使って第1の増幅産物の集合を増幅して第2の増幅産物の集合を生成するステップとを含む。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なるプライマー対が使用される。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座が増幅される。 In various embodiments of any of the aspects of the invention, the undesirability score is based at least in part on one or more parameters selected from the group consisting of the heterozygosity rate of the target locus, the specificity of the candidate primer for the target locus, the size of the candidate primer, the melting temperature of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon, and the test primers are used to simultaneously amplify at least 1,000 different target loci in a sample that includes maternal DNA from the pregnant mother of the fetus and fetal DNA to determine the presence or absence of a fetal chromosomal abnormality. In various embodiments, the method includes ligating a universal primer binding site to DNA molecules in the sample, amplifying the ligated DNA molecules with at least 1,000 specific primers and a universal primer to generate a first set of amplification products, and amplifying the first set of amplification products with at least 1,000 pairs of specific primers to generate a second set of amplification products. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different primer pairs are used. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified.

本発明のいずれかの態様の種々の実施形態では、アンデザイアラビリティスコアは、標的遺伝子座のヘテロ接合率、候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群から選択される1個または複数個のパラメータに少なくとも一部基づいており、また、試験プライマーを使って、胎児の父親とされる人由来のDNAを含む試料中の少なくとも1,000個の異なる標的遺伝子座が増幅され、また、胎児の妊娠中の母親由来の母系DNAおよび胎児DNAを含む試料中の標的遺伝子座が同時に増幅されて、父親とされる人が生物学上の胎児の父親であるかどうかが確定される。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座が増幅される。 In various embodiments of any aspect of the invention, the undesirability score is based at least in part on one or more parameters selected from the group consisting of the heterozygosity rate of the target locus, the specificity of the candidate primer for the target locus, the size of the candidate primer, the melting temperature of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon, and the test primers are used to amplify at least 1,000 different target loci in a sample containing DNA from the alleged father of the fetus, and simultaneously amplify target loci in a sample containing maternal DNA from the pregnant mother of the fetus and fetal DNA to determine whether the alleged father is the biological father of the fetus. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified.

本発明のいずれかの態様の種々の実施形態では、アンデザイアラビリティスコアは、標的遺伝子座のヘテロ接合率,候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群より選択される1個または複数個のパラメータに少なくとも一部基づいており、また、試験プライマーを使って、胚由来の1個の細胞または複数個の細胞中の少なくとも1,000個の異なる標的遺伝子座が同時に増幅されて染色体異常の有無が判定される。種々の実施形態では、2個以上の胚の集合由来の細胞が分析され、1個の胚がインビトロ受精用に選択される。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座が増幅される。 In various embodiments of any aspect of the invention, the undesirability score is based at least in part on one or more parameters selected from the group consisting of heterozygosity rate of the target locus, specificity of the candidate primer for the target locus, size of the candidate primer, melting temperature of the target amplicon, GC content of the target amplicon, amplification efficiency of the target amplicon, and size of the target amplicon, and the test primers are used to simultaneously amplify at least 1,000 different target loci in a cell or cells from an embryo to determine the presence or absence of a chromosomal abnormality. In various embodiments, cells from a set of two or more embryos are analyzed and one embryo is selected for in vitro fertilization. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified.

本発明のいずれかの態様の種々の実施形態では、アンデザイアラビリティスコアは、標的遺伝子座のヘテロ接合率,候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群より選択される1個または複数個のパラメータに少なくとも一部基づいており、また、試験プライマーを使って、法医学核酸試料中の少なくとも1,000個の異なる標的遺伝子座が同時に増幅される。種々の実施形態では、アニーリングステップの長さは、3、5、8、10、または15分超である。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座が増幅される。 In various embodiments of any aspect of the invention, the undesirability score is based at least in part on one or more parameters selected from the group consisting of the heterozygosity rate of the target locus, the specificity of the candidate primer for the target locus, the size of the candidate primer, the melting temperature of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon, and at least 1,000 different target loci in the forensic nucleic acid sample are simultaneously amplified using the test primers. In various embodiments, the length of the annealing step is greater than 3, 5, 8, 10, or 15 minutes. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified.

本発明のいずれかの態様の種々の実施形態では、アンデザイアラビリティスコアは、標的遺伝子座のヘテロ接合率,標的遺伝子座の配列(例えば、多型)に関連する有病率、標的遺伝子座の配列(例えば、多型)に関連する疾患浸透度、候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群より選択される1個または複数個のパラメータに少なくとも一部基づいており、また、前記方法は、試験プライマーを使って対照核酸試料中の少なくとも1,000個の異なる標的遺伝子座を同時に増幅し、第1の標的増幅産物の集合を生成し、試験核酸試料中の標的遺伝子座を同時に増幅して第2の標的増幅産物の集合を生成するステップと、第1と第2の標的増幅産物集合を比較して、標的遺伝子座が1つの試料中に存在し、他のものには存在しないかどうか、または、標的遺伝子座が対照試料と試験試料中で異なるレベルで存在するかどうかを判定するステップとを含む。種々の実施形態では、試験試料は、対象疾患もしくは表現型、または対象疾患もしくは表現型の危険性の増加が疑われる個人由来であり、この場合、1個または複数個の標的遺伝子座が、標的遺伝子座に対象疾患もしくは表現型の危険性の増加に関連するかまたは対象疾患もしくは表現型に関連する配列(例えば、多型)を含む。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座が増幅される。 In various embodiments of any of the aspects of the invention, the undesirability score is based at least in part on one or more parameters selected from the group consisting of heterozygosity rate of the target locus, prevalence associated with the sequence (e.g., polymorphism) of the target locus, disease penetrance associated with the sequence (e.g., polymorphism) of the target locus, specificity of the candidate primer for the target locus, size of the candidate primer, melting temperature of the target amplicon, GC content of the target amplicon, amplification efficiency of the target amplicon, and size of the target amplicon, and the method includes simultaneously amplifying at least 1,000 different target loci in a control nucleic acid sample using the test primers to generate a first set of target amplicons and simultaneously amplifying the target loci in a test nucleic acid sample to generate a second set of target amplicons; and comparing the first and second sets of target amplicons to determine whether the target loci are present in one sample and absent in the other, or whether the target loci are present at different levels in the control sample and the test sample. In various embodiments, the test sample is from an individual suspected of having a disease or phenotype of interest, or an increased risk of a disease or phenotype of interest, where one or more target loci contain sequences (e.g., polymorphisms) associated with an increased risk of the disease or phenotype of interest at the target locus or associated with the disease or phenotype of interest. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified.

本発明のいずれかの態様の種々の実施形態では、アンデザイアラビリティスコアは、標的遺伝子座のヘテロ接合率,標的遺伝子座の配列(例えば、多型)に関連する有病率、標的遺伝子座の配列(例えば、多型)に関連する疾患浸透度、候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群より選択される1個または複数個のパラメータに少なくとも一部基づいており、また、前記方法は、試験プライマーを使ってRNAを含む対照核酸試料中の1,000個の異なる標的遺伝子座を同時に増幅し、第1の標的増幅産物の集合を生成し、RNAを含む試験試料中の標的遺伝子座を同時に増幅して第2の標的増幅産物の集合を生成するステップと、第1と第2の標的増幅産物の集合を比較して対照試料と試験試料との間のRNA発現レベルの差異の有無を判定するステップとを含む。種々の実施形態では、RNAは、mRNAである。種々の実施形態では、試験試料は、対象疾患もしくは表現型(例えば、癌)または対象疾患もしくは表現型(例えば、癌)の危険性の増加が疑われる個体由来であり、この場合、1個または複数個の標的遺伝子座は、対象疾患もしくは表現型の危険性の増加に関連するかまたは対象疾患もしくは表現型に関連する配列(例えば、多型または他の変異)を含む。いくつかの実施形態では、試験試料は、対象疾患もしくは表現型(例えば、癌)であると診断された個体由来であり、この場合、対照試料と試験試料との間のRNA発現レベルの差異は、標的遺伝子座が対象疾患もしくは表現型の増加または減少に関連する配列(例えば、多型または他の変異)を含むことを示す。種々の実施形態では、少なくとも2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座が増幅される。 In various embodiments of any aspect of the invention, the undesirability score is based at least in part on one or more parameters selected from the group consisting of heterozygosity rate of the target locus, prevalence associated with the sequence (e.g., polymorphism) of the target locus, disease penetrance associated with the sequence (e.g., polymorphism) of the target locus, specificity of the candidate primer for the target locus, size of the candidate primer, melting temperature of the target amplicon, GC content of the target amplicon, amplification efficiency of the target amplicon, and size of the target amplicon, and the method includes simultaneously amplifying 1,000 different target loci in a control nucleic acid sample comprising RNA with the test primers to generate a first set of target amplicons, simultaneously amplifying the target loci in a test sample comprising RNA to generate a second set of target amplicons, and comparing the first and second sets of target amplicons to determine the presence or absence of differences in RNA expression levels between the control sample and the test sample. In various embodiments, the RNA is mRNA. In various embodiments, the test sample is from an individual suspected of having a disease or phenotype of interest (e.g., cancer) or an increased risk of a disease or phenotype of interest (e.g., cancer), where one or more target loci contain a sequence (e.g., a polymorphism or other mutation) associated with an increased risk of the disease or phenotype of interest or associated with the disease or phenotype of interest. In some embodiments, the test sample is from an individual diagnosed with a disease or phenotype of interest (e.g., cancer), where a difference in RNA expression levels between the control sample and the test sample indicates that the target locus contains a sequence (e.g., a polymorphism or other mutation) associated with an increase or decrease in the disease or phenotype of interest. In various embodiments, at least 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified.

一態様では、本発明は、プライマーライブラリーを特徴とする。いくつかの実施形態では、プライマーは、本発明のいずれかの方法を使って候補プライマーライブラリーから選択される。いくつかの実施形態では、ライブラリーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズするプライマーを含む。いくつかの実施形態では、ライブラリーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座を同時に増幅するプライマーを含む。いくつかの実施形態では、ライブラリーは、60、40、30、20、10、5、4、3、2、1、0.5、0.25、0.1、または0.05%未満の増幅産物がプライマー二量体となるように、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座を同時に増幅するプライマーを含む。いくつかの実施形態では、ライブラリーは、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の増幅産物が標的増幅産物であるように、1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座を同時に増幅するプライマーを含む。いくつかの実施形態では、ライブラリーは、1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座からの少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の標的遺伝子座が増幅されるように、標的遺伝子座を同時に増幅するプライマーを含む。いくつかの実施形態では、プライマーライブラリーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000プライマー対を含み、各プライマー対は、フォワード試験プライマーおよびリバース試験プライマーを含み、各試験プライマー対は、標的遺伝子座にハイブリダイズする。いくつかの実施形態では、プライマーライブラリーは、それぞれ、異なる標的遺伝子座にハイブリダイズする少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の個別プライマーを含み、個別プライマーは、プライマー対の一部ではない。 In one aspect, the invention features a primer library. In some embodiments, primers are selected from a library of candidate primers using any of the methods of the invention. In some embodiments, the library includes primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci. In some embodiments, the library includes primers that simultaneously amplify at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci. In some embodiments, the library contains primers that simultaneously amplify at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci, such that less than 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.05% of the amplification products are primer dimers. In some embodiments, the library comprises primers that simultaneously amplify 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci, such that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the amplified products are target amplified products. In some embodiments, the library comprises primers that simultaneously amplify target loci such that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci from 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci are amplified. In some embodiments, the primer library includes at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 primer pairs, each primer pair including a forward test primer and a reverse test primer, each test primer pair hybridizing to a target locus. In some embodiments, the primer library includes at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 individual primers, each hybridizing to a different target locus, where the individual primers are not part of a primer pair.

本発明のいずれかの態様の種々の実施形態では、各プライマーの濃度は、100、75、50、25、10、5、2、または1nM未満である。種々の実施形態では、プライマーのGC含量は、30~80%で、例えば、40~70%または50~60%である。いくつかの実施形態では、プライマーのGC含量範囲は、30、20、10、または5%未満である。いくつかの実施形態では、プライマーの融解温度は、40~80℃で、例えば、50~70℃,55~65℃,または57~60.5℃である。いくつかの実施形態では、プライマーの融解温度の範囲は、15、10、5、3、または1℃未満である。いくつかの実施形態では、プライマーの長さは、15~100ヌクレオチドで、例えば、15~75ヌクレオチド、15~40ヌクレオチド、17~35ヌクレオチド、18~30ヌクレオチド、または20~65ヌクレオチドの長さである。いくつかの実施形態では、プライマーは、標的特異的ではないタグ、例えば、内部ループ構造を形成するタグを含む。いくつかの実施形態では、タグは、2個のDNA結合領域の間に存在する。種々の実施形態では、プライマーは、標的遺伝子座に対し特異的な5’領域、標的遺伝子座に特異的でなく、ループ構造を形成する内部領域、および標的遺伝子座に特異的な3’領域を含む。種々の実施形態では、3’領域の長さは、少なくとも7ヌクレオチドである。いくつかの実施形態では、3’領域の長さは、7~20ヌクレオチドであり、例えば、7~15ヌクレオチド、または7~10ヌクレオチドである。種々の実施形態では、プライマーは、標的遺伝子座に対し特異的ではない5’領域(例えば、別のタグまたはユニバーサルプライマー結合部位)、続けて、標的遺伝子座に特異的な領域、標的遺伝子座に特異的でなく、ループ構造を形成する内部領域、および標的遺伝子座に特異的な3’領域を含む。いくつかの実施形態では、プライマーの長さの範囲は、50、40、30、20、10、または5ヌクレオチド未満である。いくつかの実施形態では、標的増幅産物の長さは、50~100ヌクレオチドであり、例えば、60~80ヌクレオチド、または60~75ヌクレオチドである。いくつかの実施形態では、標的増幅産物の長さの範囲は、50、25、15、10、または5ヌクレオチド未満である。 In various embodiments of any aspect of the invention, the concentration of each primer is less than 100, 75, 50, 25, 10, 5, 2, or 1 nM. In various embodiments, the GC content of the primer is 30-80%, e.g., 40-70% or 50-60%. In some embodiments, the GC content range of the primer is less than 30, 20, 10, or 5%. In some embodiments, the melting temperature of the primer is 40-80° C., e.g., 50-70° C., 55-65° C., or 57-60.5° C. In some embodiments, the melting temperature range of the primer is less than 15, 10, 5, 3, or 1° C. In some embodiments, the length of the primer is 15-100 nucleotides, e.g., 15-75 nucleotides, 15-40 nucleotides, 17-35 nucleotides, 18-30 nucleotides, or 20-65 nucleotides in length. In some embodiments, the primer comprises a tag that is not target specific, e.g., a tag that forms an internal loop structure. In some embodiments, the tag is between two DNA binding regions. In various embodiments, the primer comprises a 5' region that is specific for the target locus, an internal region that is not specific for the target locus and forms a loop structure, and a 3' region that is specific for the target locus. In various embodiments, the length of the 3' region is at least 7 nucleotides. In some embodiments, the length of the 3' region is 7-20 nucleotides, e.g., 7-15 nucleotides, or 7-10 nucleotides. In various embodiments, the primer comprises a 5' region that is not specific for the target locus (e.g., another tag or a universal primer binding site), followed by a region that is specific for the target locus, an internal region that is not specific for the target locus and forms a loop structure, and a 3' region that is specific for the target locus. In some embodiments, the length of the primer ranges from less than 50, 40, 30, 20, 10, or 5 nucleotides. In some embodiments, the length of the target amplicon is 50-100 nucleotides, e.g., 60-80 nucleotides, or 60-75 nucleotides. In some embodiments, the length range of the target amplicon is less than 50, 25, 15, 10, or 5 nucleotides.

一態様では、本発明は、核酸試料中の標的遺伝子座を増幅するための本発明のプライマーライブラリーのいずれかを含むキットを提供する。いくつかの実施形態では、キットは、ライブラリーを使用して標的遺伝子座を増幅するための説明書を含む。 In one aspect, the invention provides a kit comprising any of the primer libraries of the invention for amplifying a target locus in a nucleic acid sample. In some embodiments, the kit includes instructions for using the library to amplify the target locus.

一態様では、本発明は、妊娠中の胎児の染色体の倍数性状態を決定する方法を特徴とする。いくつかの実施形態では、前記方法は、核酸試料を少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座に同時にハイブリダイズするプライマーライブラリーに接触させて反応混合物を生成するステップを含み、核酸試料は、胎児の母親由来の母系DNAおよび胎児由来の胎児DNAを含む。いくつかの実施形態では、反応混合物が、プライマー伸長反応条件に供されて増幅産物が生成され、増幅産物から、ハイスループットシーケンサーを使って配列決定データが生成され、配列決定データに基づきコンピュータで多形遺伝子座の対立遺伝子数が計算され、それぞれ異なる染色体の可能な倍数性状態に関連する複数の倍数性仮説がコンピュータにより作成され、それぞれの倍数性仮説に対し染色体の多形遺伝子座で予測される対立遺伝子数に対する同時分布モデルがコンピュータで構築され、それぞれの倍数性仮説の相対的確率が同時分布モデルおよび対立遺伝子数を使ってコンピュータで算出され、さらに、最大の確率を有する仮説に対応する倍数性状態を選択することにより胎児の倍数性状態がコールされる。 In one aspect, the invention features a method for determining the ploidy state of chromosomes of a gestating fetus. In some embodiments, the method includes contacting a nucleic acid sample with a primer library that simultaneously hybridizes to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 distinct polymorphic loci to generate a reaction mixture, wherein the nucleic acid sample includes maternal DNA from the mother of the fetus and fetal DNA from the fetus. In some embodiments, the reaction mixture is subjected to primer extension reaction conditions to generate amplification products, sequencing data is generated from the amplification products using a high-throughput sequencer, the number of alleles at the polymorphic locus is calculated by a computer based on the sequencing data, a plurality of ploidy hypotheses, each associated with a different possible ploidy state of the chromosome, a joint distribution model is constructed by a computer for the number of alleles predicted at the polymorphic locus of the chromosome for each ploidy hypothesis, the relative probability of each ploidy hypothesis is calculated by a computer using the joint distribution model and the number of alleles, and the ploidy state of the fetus is called by selecting the ploidy state corresponding to the hypothesis with the greatest probability.

一態様では、本発明は、妊娠中の胎児の染色体の倍数性状態を決定する方法を特徴とする。ある実施形態では、妊娠中の胎児における染色体の倍数性状態を決定するための方法は、胎児の母親由来の母系DNAおよび胎児由来の胎児DNAを含む第1のDNAの試料を得るステップと、調製された試料が得られるようにDNAを単離することによって第1の試料を調製するステップと、染色体上の複数の多型遺伝子座における、調製された試料中のDNAを測定するステップと、調製された試料に対して行ったDNA測定から、複数の多型遺伝子座における対立遺伝子数をコンピュータで算出するステップと、それぞれが、染色体における可能性のある異なる倍数性状態に関する、複数の倍数性仮説をコンピュータで作製するステップと、各倍数性仮説について、染色体上の複数の多型遺伝子座における予測される対立遺伝子数についての同時分布モデルをコンピュータで構築するステップと、同時分布モデルおよび調製された試料において測定された対立遺伝子数を用いて、倍数性仮説のそれぞれの相対的確率をコンピュータで決定するステップと、最大の確率を有する仮説に対応する倍数性状態を選択することによって胎児の倍数性状態をコールするステップとを含む。 In one aspect, the invention features a method for determining the ploidy state of a chromosome in a gestating fetus. In one embodiment, a method for determining the ploidy state of a chromosome in a gestating fetus includes obtaining a first sample of DNA including maternal DNA from the mother of the fetus and fetal DNA from the fetus, preparing the first sample by isolating the DNA to obtain a prepared sample, measuring the DNA in the prepared sample at a plurality of polymorphic loci on the chromosome, calculating by a computer the number of alleles at the plurality of polymorphic loci from the DNA measurements made on the prepared sample, generating by a computer a plurality of ploidy hypotheses, each of which relates to a different possible ploidy state of the chromosome, constructing by a computer a joint distribution model for the expected number of alleles at the plurality of polymorphic loci on the chromosome for each ploidy hypothesis, determining by a computer the relative probability of each of the ploidy hypotheses using the joint distribution model and the number of alleles measured in the prepared sample, and calling the ploidy state of the fetus by selecting the ploidy state corresponding to the hypothesis with the greatest probability.

一態様では、本発明は、母系および胎児DNAの混合物を含む試料中の染色体の異常分布を検査する方法を特徴とする。いくつかの実施形態では、前記方法は、(i)少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズするプライマーライブラリーと試料を接触させて反応混合物を生成するステップであって、標的遺伝子座が複数個の異なる染色体由来であり、複数個の異なる染色体が試料中で異常分布を有すると疑われる少なくとも1個の第1の染色体、および試料中で正常に分布していると推定される少なくとも1個の第2の染色体を含むステップと、(ii)反応混合物をプライマー伸長反応条件に供して増幅産物を生成するステップと、(iii)増幅産物を配列決定して標的遺伝子座に整列した複数の配列タグを得るステップであって、配列タグが特定の標的遺伝子座に割り付けるのに十分な長さであるステップと、(iv)コンピュータで複数の配列タグをそれらの対応する標的遺伝子座に割り付けるステップと、(v)コンピュータで第1の染色体の標的遺伝子座に割り付ける配列タグの数および第2の染色体の標的遺伝子座に割り付ける配列タグの数を決定するステップと、(vi)コンピュータでステップ(v)からの数を比較して、第1の染色体の異常分布の有無を判定するステップとを含む。 In one aspect, the invention features a method for testing for abnormal chromosomal distribution in a sample that includes a mixture of maternal and fetal DNA. In some embodiments, the method includes the steps of (i) contacting the sample with a primer library that simultaneously hybridizes to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci to generate a reaction mixture, the target loci being from a plurality of different chromosomes, the plurality of different chromosomes including at least one first chromosome suspected of having an abnormal distribution in the sample and at least one second chromosome presumed to be normally distributed in the sample; and (ii) contacting the sample with a primer library that simultaneously hybridizes to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci to generate a reaction mixture, the target loci being from a plurality of different chromosomes, the plurality of different chromosomes including at least one first chromosome suspected of having an abnormal distribution in the sample and at least one second chromosome presumed to be normally distributed in the sample. (iii) subjecting the mixture to primer extension reaction conditions to produce an amplification product; (iii) sequencing the amplification product to obtain a plurality of sequence tags aligned to the target loci, the sequence tags being of sufficient length to be assigned to specific target loci; (iv) assigning, by a computer, the plurality of sequence tags to their corresponding target loci; (v) determining, by a computer, a number of sequence tags to be assigned to the target loci of the first chromosome and a number of sequence tags to be assigned to the target loci of the second chromosome; and (vi) comparing, by a computer, the numbers from step (v) to determine the presence or absence of an abnormal distribution of the first chromosome.

一態様では、本発明は、胎児の異数性の存在の有無を検出する方法を提供する。いくつかの実施形態では、前記方法は、(i)母系と胎児DNAの混合物を含む試料を、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる、複数の異なる染色体由来である非多形標的遺伝子座に同時にハイブリダイズするプライマーライブラリーと接触させて反応混合物を生成するステップと、(ii)反応混合物をプライマー伸長反応条件に供して標的増幅産物を含む増幅産物を生成するステップと、(iii)コンピュータで対象の第1と第2の染色体由来の標的増幅産物の相対度数を定量化するステップと、(iv)コンピュータで対象の第1と第2の染色体由来の標的増幅産物の相対度数を比較するステップと、(v)対象の第1と第2の染色体の比較した相対的度数に基づいて異数性の存在の有無を特定するステップとを含む。いくつかの実施形態では、第1の染色体は、正倍数体であると疑われる染色体である。いくつかの実施形態では、第2の染色体は、異数性であると疑われる染色体である。 In one aspect, the present invention provides a method for detecting the presence or absence of fetal aneuploidy. In some embodiments, the method includes: (i) contacting a sample comprising a mixture of maternal and fetal DNA with a library of primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different non-polymorphic target loci from a plurality of different chromosomes to generate a reaction mixture; (ii) subjecting the reaction mixture to primer extension reaction conditions to generate an amplification product comprising a target amplicon; (iii) quantifying on a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; (iv) comparing on a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; and (v) identifying the presence or absence of an aneuploidy based on the compared relative frequency of the first and second chromosomes of interest. In some embodiments, the first chromosome is a chromosome suspected to be euploid. In some embodiments, the second chromosome is a chromosome suspected to be aneuploid.

一態様では、胎児のゲノムDNAおよび母系のゲノムDNAを含む母系の組織試料において胎児の異数性の存在または不在を決定するための方法であって、(a)前記母系の組織試料から、胎児のゲノムDNAと母系のゲノムDNAの混合物を得るステップと、(b)ステップ(a)の胎児のゲノムDNAと母系のゲノムDNAの混合物から無作為に選択されたDNA断片の大規模並行DNA配列決定を行って、前記DNA断片の配列を決定するステップと、(c)ステップ(b)で得られた配列が属する染色体を同定するステップと、(d)ステップ(c)のデータを用いて、前記母系のゲノムDNAと胎児のゲノムDNAの混合物中の少なくとも1つの第1の染色体の量を決定するステップであって、前記少なくとも1つの第1の染色体が、胎児において正倍数性であると推定されるステップと、(e)ステップ(c)のデータを用いて、前記母系のゲノムDNAと胎児のゲノムDNAの混合物中の第2の染色体の量を決定するステップであって、前記第2の染色体が、胎児において異数体であることが疑われるステップと、(f)胎児DNAと母系DNAの混合物中の胎児DNAの割合を算出するステップと、(g)第2の標的染色体が正倍数性である場合、ステップ(d)の数を用いて第2の標的染色体の量の予測される分布を算出するステップと、(h)第2の標的染色体が異数性である場合、ステップ(d)の第1の数およびステップ(f)で算出された、胎児DNAと母系DNAの混合物中の胎児DNAの割合を用いて第2の標的染色体の量の予測される分布を算出するステップと、(i)最尤法または最大事後法を用いて、ステップ(e)で決定された第2の染色体の量がステップ(g)で算出された分布またはステップ(h)で算出された分布の一部である可能性がより高いかを決定し、それにより、胎児の異数性の存在または不在を示すステップとを含む方法が開示されている。 In one aspect, a method for determining the presence or absence of fetal aneuploidy in a maternal tissue sample comprising fetal genomic DNA and maternal genomic DNA, comprising the steps of: (a) obtaining a mixture of fetal genomic DNA and maternal genomic DNA from the maternal tissue sample; (b) performing massively parallel DNA sequencing of DNA fragments randomly selected from the mixture of fetal genomic DNA and maternal genomic DNA of step (a) to determine sequences of the DNA fragments; (c) identifying the chromosome to which the sequence obtained in step (b) belongs; (d) using the data of step (c) to determine the amount of at least one first chromosome in the mixture of maternal genomic DNA and fetal genomic DNA, the at least one first chromosome being presumed to be euploid in the fetus; and (e) using the data of step (c) to determine the amount of at least one first chromosome in the mixture of maternal genomic DNA and fetal genomic DNA. The method includes the steps of: (f) determining the amount of a second chromosome, the second chromosome being suspected to be aneuploid in the fetus; (g) calculating the percentage of fetal DNA in the mixture of fetal DNA and maternal DNA; (h) calculating the predicted distribution of the amount of the second target chromosome using the number of step (d) if the second target chromosome is euploid; and (i) determining whether the amount of the second chromosome determined in step (e) is more likely to be part of the distribution calculated in step (g) or the distribution calculated in step (h), using a maximum likelihood or maximum a posteriori method, thereby indicating the presence or absence of fetal aneuploidy.

本発明のいずれかの態様の種々の実施形態では、前記方法は、胎児の一方の親または両親から遺伝子型データを得るステップも包含する。いくつかの実施形態では、胎児の一方の親または両親から遺伝子型データを得るステップは、親由来のDNAを調製するステップであって、複数の多型遺伝子座におけるDNAを優先的に富化し、調製された親のDNAを得ることを含むステップと、必要に応じて、調製された親のDNAを増幅するステップと、複数の多型遺伝子座における、調製された試料中の親のDNAを測定するステップとを含む。 In various embodiments of any of the aspects of the invention, the method also includes obtaining genotype data from one or both parents of the fetus. In some embodiments, obtaining genotype data from one or both parents of the fetus includes preparing DNA from the parents, the DNA preferentially enriching for DNA at a plurality of polymorphic loci to obtain prepared parental DNA, optionally amplifying the prepared parental DNA, and measuring the parental DNA in the prepared sample at the plurality of polymorphic loci.

本発明のいずれかの態様の種々の実施形態では、染色体上の複数の多型遺伝子座における予測される対立遺伝子数の確率についての同時分布モデルを構築するステップを、一方の親または両親から得られた遺伝子データを用いて行う。いくつかの実施形態では、試料(例えば、第1の試料)を母系の血漿から単離し、母親から遺伝子型データを得るステップを、調製された試料に対して行ったDNA測定から母系の遺伝子型データを推定することによって行う。 In various embodiments of any of the aspects of the invention, constructing a joint distribution model for the expected allele count probabilities at multiple polymorphic loci on a chromosome is performed using genetic data obtained from one or both parents. In some embodiments, a sample (e.g., a first sample) is isolated from maternal plasma, and obtaining genotype data from the mother is performed by estimating the maternal genotype data from DNA measurements made on the prepared sample.

一態様では、妊娠中の胎児における染色体の倍数性状態の決定に役立つ診断ボックス(diagnostic box)であって、本発明の方法のいずれかの調製および測定ステップを実行することができる診断ボックスが開示されている。 In one aspect, a diagnostic box is disclosed that is useful for determining the ploidy status of chromosomes in a gestational fetus, the diagnostic box being capable of carrying out any of the preparation and measurement steps of the methods of the present invention.

本発明のいずれかの態様の種々の実施形態では、対立遺伝子数は、バイナリーではなく確率的なものである。いくつかの実施形態では、複数の多型遺伝子座における、調製された試料中のDNAの測定値を、胎児が1つまたは複数の疾患連鎖ハプロタイプを有するか否かを決定するためにも用いる。 In various embodiments of any of the aspects of the invention, the allele counts are probabilistic rather than binary. In some embodiments, measurements of DNA in the prepared sample at multiple polymorphic loci are also used to determine whether the fetus has one or more disease-linked haplotypes.

本発明のいずれかの態様の種々の実施形態では、対立遺伝子数の確率についての同時分布モデルを構築するステップを、染色体内の異なる場所における染色体乗換えの確率に関するデータを使用して、染色体上の多型対立遺伝子間の依存性をモデリングすることによって行う。いくつかの実施形態では、対立遺伝子数についての同時分布モデルを構築するステップおよび各仮説の相対的確率を決定するステップを、参照染色体を使用することを必要としない方法を用いて行う。 In various embodiments of any of the aspects of the invention, the step of constructing a joint distribution model for allele count probabilities is performed by modeling the dependency between polymorphic alleles on a chromosome using data on the probability of chromosomal crossover at different locations within the chromosome. In some embodiments, the steps of constructing a joint distribution model for allele counts and determining the relative probability of each hypothesis are performed using a method that does not require the use of a reference chromosome.

本発明のいずれかの態様の種々の実施形態では、各仮説の相対的確率を決定するステップに、調製された試料中の胎児DNAの推定される割合(estimated fraction)を使用する。いくつかの実施形態では、対立遺伝子数の確率を算出するステップおよび各仮説の相対的確率を決定するステップにおいて使用する、調製された試料からのDNA測定値は、一次遺伝子データを含む。いくつかの実施形態では、最大の確率を有する仮説に対応する倍数性状態を選択するステップを、最尤推定または最大事後推定を用いて行う。 In various embodiments of any aspect of the invention, the step of determining the relative probability of each hypothesis uses an estimated fraction of fetal DNA in the prepared sample. In some embodiments, the DNA measurements from the prepared sample used in the steps of calculating the allele count probabilities and determining the relative probability of each hypothesis comprise primary genetic data. In some embodiments, the step of selecting the ploidy state corresponding to the hypothesis with the greatest probability is performed using maximum likelihood estimation or maximum a posteriori estimation.

本発明のいずれかの態様の種々の実施形態では、胎児の倍数性状態をコールするステップは、同時分布モデルおよび対立遺伝子数の確率を用いて決定される倍数性仮説のそれぞれの相対的確率と、リード数解析(read count analysis)、ヘテロ接合率の比較、親の遺伝子情報を使用する場合にのみ利用可能な統計量、特定の親の状況に対して正規化された遺伝子型シグナルの確率、試料(例えば、第1の試料)または調製された試料の推定される胎児画分を用いて算出される統計量、およびそれらの組み合わせからなる群から選択される統計学的技法を用いて算出される倍数性仮説のそれぞれの相対的確率とを組み合わせるステップも包含する。 In various embodiments of any of the aspects of the invention, calling the ploidy state of the fetus also includes combining the relative probabilities of each of the ploidy hypotheses determined using a joint distribution model and allele count probabilities with the relative probabilities of each of the ploidy hypotheses calculated using a statistical technique selected from the group consisting of read count analysis, comparison of heterozygosity rates, statistics available only using parental genetic information, genotype signal probabilities normalized to a particular parental status, statistics calculated using an estimated fetal fraction of a sample (e.g., a first sample) or prepared sample, and combinations thereof.

本発明のいずれかの態様の種々の実施形態では、信頼度推定値は、コールされた倍数性状態に対し計算される。いくつかの実施形態では、前記方法は、コールされた胎児の倍数性状態に基づいて、妊娠中絶すること、または妊娠を維持することの一方から選択される臨床的措置をとるステップも包含する。 In various embodiments of any of the aspects of the invention, a confidence estimate is calculated for the called ploidy state. In some embodiments, the method also includes taking a clinical action selected from one of terminating the pregnancy or maintaining the pregnancy based on the called fetal ploidy state.

本発明のいずれかの態様の種々の実施形態では、前記方法は、妊娠4週から5週の間;妊娠5週から6週の間;妊娠6週から7週の間;妊娠7週から8週の間;妊娠8週から9週の間;妊娠9週から10週の間;妊娠10週から12週の間;妊娠12週から14週の間;妊娠14週から20週の間;妊娠20週から40週の間;妊娠初期;妊娠中期;妊娠後期;またはそれらの組み合わせにおいて、胎児に対して実施することができる。 In various embodiments of any aspect of the invention, the method may be performed on a fetus between 4 and 5 weeks of gestation; between 5 and 6 weeks of gestation; between 6 and 7 weeks of gestation; between 7 and 8 weeks of gestation; between 8 and 9 weeks of gestation; between 9 and 10 weeks of gestation; between 10 and 12 weeks of gestation; between 12 and 14 weeks of gestation; between 14 and 20 weeks of gestation; between 20 and 40 weeks of gestation; early pregnancy; mid pregnancy; late pregnancy; or combinations thereof.

本発明のいずれかの態様の種々の実施形態では、前記方法を用いて、妊娠中の胎児における決定された染色体の倍数性状態を示す報告を作製する。いくつかの実施形態では、本発明のいずれかの方法で使用するために設計された、妊娠中の胎児における標的染色体の倍数性状態を決定するためのキットであって、複数の内側のフォワードプライマーおよび、必要に応じて複数の内側のリバースプライマーであって、該プライマーのそれぞれが標的染色体上の多型部位のうちの1つのすぐ上流および/または下流のDNAの領域とハイブリダイズするように設計されているプライマーと、必要に応じてさらに別の染色体であって、ハイブリダイズする領域が、少数の塩基によって該多型部位から隔てられており、前記少数が、1、2、3、4、5、6~10、11~15、16~20、21~25、26~30、31~60、およびそれらの組み合わせからなる群から選択される染色体とを含むキットが開示されている。 In various embodiments of any of the aspects of the invention, the method is used to generate a report showing the ploidy state of the determined chromosome in a gestating fetus. In some embodiments, a kit for determining the ploidy state of a target chromosome in a gestating fetus designed for use with any of the methods of the invention is disclosed, the kit including a plurality of inner forward primers and, optionally, a plurality of inner reverse primers, each of which is designed to hybridize to a region of DNA immediately upstream and/or downstream of one of the polymorphic sites on the target chromosome, and, optionally, an additional chromosome, the hybridizing region of which is separated from the polymorphic site by a small number of bases, the small number being selected from the group consisting of 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30, 31-60, and combinations thereof.

一態様では、本発明は、父親とされる人が妊娠中の母親が懐胎している胎児の生物学上の父親であるか否かを確定する方法を特徴とする。いくつかの実施形態では、前記方法は、(i)父親とされる人由来の少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる遺伝物質上の多形遺伝子座を含む複数の多形遺伝子座を同時に増幅して第1の増幅産物の集合を生成するステップと、(ii)妊娠中の母親の血液試料由来の胎児DNAと母系DNAを含むDNAの混合試料の対応する複数の多形遺伝子座を同時に増幅して第2の増幅産物の集合を生成するステップと、(iii)コンピュータで、第1と第2の増幅産物の集合に基づく遺伝子型測定値を使って父親とされる人が生物学上の胎児の父親である確率を決定するステップと、(iv)父親とされる人が生物学上の胎児の父親であることの決定された確率を使って、生物学上の胎児の父親であるか否かを確定するステップとを含む。種々の実施形態では、前記方法は、母親由来の対応する複数の遺伝物質上の多形遺伝子座を同時に増幅して第3の増幅産物の集合を生成するステップをさらに含み、この場合、父親とされる人が生物学上の胎児の父親である確率が第1、第2、および第3の増幅産物の集合に基づいた遺伝子型測定値を使って決定される。 In one aspect, the invention features a method for determining whether an alleged father is the biological father of a fetus carried by a pregnant mother. In some embodiments, the method includes the steps of: (i) simultaneously amplifying a plurality of polymorphic loci, including polymorphic loci on at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different genetic material from the alleged father to generate a first set of amplified products; (ii) simultaneously amplifying a corresponding plurality of polymorphic loci in a mixed sample of DNA, including fetal DNA and maternal DNA, from a blood sample of the pregnant mother to generate a second set of amplified products; (iii) determining, on a computer, a probability that the alleged father is the biological father of the fetus using genotypic measurements based on the first and second sets of amplified products; and (iv) establishing whether the alleged father is the biological father of the fetus using the determined probability that the alleged father is the biological father of the fetus. In various embodiments, the method further includes simultaneously amplifying polymorphic loci on corresponding genetic material from the mother to generate a third set of amplification products, where the probability that the alleged father is the biological father of the fetus is determined using genotype measurements based on the first, second, and third sets of amplification products.

一態様では、本発明は、胚の集合由来のそれぞれの胚を所望の通り発生させる相対尤度を推定する方法が提供される。いくつかの実施形態では、前記方法は、それぞれの胚由来の試料を少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズするプライマーライブラリーと接触させてそれぞれの胚の反応混合物を生成するステップを含み、試料は1個または複数個の胚由来の細胞からそれぞれ得られる。いくつかの実施形態では、それぞれの反応混合物は、プライマー伸長反応条件に供され、増幅産物を生成する。いくつかの実施形態では、前記方法は、コンピュータで、それぞれの胚由来の少なくとも1個の細胞の1つまたは複数の特性を増幅産物に基づいて決定するステップと、コンピュータで、それぞれの胚の少なくとも1個の細胞の1つまたは複数の特性に基づいて、それぞれの胚を所望の通り発生させる相対尤度を推定するステップとを含む。 In one aspect, the invention provides a method for estimating the relative likelihood of each embryo from a set of embryos to develop as desired. In some embodiments, the method includes contacting a sample from each embryo with a library of primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci to generate a reaction mixture for each embryo, the sample being each obtained from a cell from one or more embryos. In some embodiments, each reaction mixture is subjected to primer extension reaction conditions to generate an amplification product. In some embodiments, the method includes determining, in a computer, one or more characteristics of at least one cell from each embryo based on the amplification product, and estimating, in a computer, the relative likelihood of each embryo to develop as desired based on the one or more characteristics of the at least one cell of each embryo.

一態様では、本発明は、核酸試料中の2個以上の標的遺伝子座の量を測定する方法を特徴とする。いくつかの実施形態では、前記方法は、(i)PCRを使って、第1の基準遺伝子座、第2の基準遺伝子座、第1の標的遺伝子座、および第2の標的遺伝子座を含む核酸試料を増幅して増幅産物を形成するステップであって、第1の基準遺伝子座および第1の標的遺伝子座が同じ数のヌクレオチドであるが、1個または複数個のヌクレオチドの位置で異なる配列を有し、第2の基準遺伝子座および第2の標的遺伝子座が同じ数のヌクレオチドであるが、1個または複数個のヌクレオチドの位置で異なる配列を有するステップと、(ii)増幅産物を配列決定して増幅された第2の基準遺伝子座に比べて増幅された第1の基準遺伝子座の相対的量を比較する基準比率を決定するステップであって、基準比率が第1の基準遺伝子座および第2の基準遺伝子座の増幅に対するPCR効率の差異を示すステップと、(iii)増幅された第2の標的遺伝子座に比べて増幅された第1の標的遺伝子座の相対量を比較する標的比率を決定するステップと、(iv)ステップ(ii)からの基準比率に基づいてステップ(iii)からの標的比率を調節して試料中の第1の標的遺伝子座および第2の標的遺伝子座の相対量を決定するステップとを含む。種々の実施形態では、前記方法は、試料中の第1の標的遺伝子座および第2の標的遺伝子座の絶対量を決定するステップを含む。種々の実施形態では、前記方法は、試料中の標的遺伝子座(例えば、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座)の存在の有無を判定するステップをさらに含む。種々の実施形態では、前記方法は、本発明のプライマーライブラリーのいずれかを使用するステップを含む。種々の実施形態では、前記方法は、1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座を同時に増幅するステップを含む。 In one aspect, the invention features a method for measuring the amount of two or more target loci in a nucleic acid sample. In some embodiments, the method includes (i) using PCR to amplify a nucleic acid sample that includes a first reference locus, a second reference locus, a first target locus, and a second target locus to form an amplification product, where the first reference locus and the first target locus have the same number of nucleotides but have a different sequence at one or more nucleotide positions, and the second reference locus and the second target locus have the same number of nucleotides but have a different sequence at one or more nucleotide positions; and (ii) sequencing the amplification product to determine the amount of the amplified product. (i) determining a reference ratio comparing the relative amount of the amplified first target locus compared to the amplified second target locus, where the reference ratio indicates a difference in PCR efficiency for amplification of the first reference locus and the second reference locus, (iii) determining a target ratio comparing the relative amount of the amplified first target locus compared to the amplified second target locus, and (iv) adjusting the target ratio from step (iii) based on the reference ratio from step (ii) to determine the relative amounts of the first target locus and the second target locus in the sample. In various embodiments, the method includes determining the absolute amounts of the first target locus and the second target locus in the sample. In various embodiments, the method further comprises determining the presence or absence of target loci (e.g., at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci) in the sample. In various embodiments, the method comprises using any of the primer libraries of the invention. In various embodiments, the method comprises simultaneously amplifying 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci.

一態様では、本発明は、分析用試料の複数の遺伝的標的を定量的に測定する方法を特徴とする。いくつかの実施形態では、前記方法は、(i)分析用試料由来の遺伝物質を、複数の標的特異的増幅試薬および標的特異的増幅試薬の標的に対応する複数の基準配列と混合するステップと、(ii)遺伝物質の標的領域および基準配列を増幅して標的増幅産物および基準配列増幅産物を生成するステップと、(iii)生成した標的増幅産物および基準配列増幅産物の量を測定するステップとを含む。いくつかの実施形態では、遺伝物質は、遺伝子ライブラリー中に存在する。いくつかの実施形態では、遺伝的標的は、多形遺伝子座(SNPなど)である。いくつかの実施形態では、量を測定するステップは、配列を計数することにより実現される。いくつかの実施形態では、前記方法は、遺伝子ライブラリーが由来する試料中の少なくとも1個の染色体の推定コピー数を測定するステップをさらに含み、測定は、標的増幅産物のシーケンスリード数を基準増幅産物のシーケンスリード数と比較するステップを含む。いくつかの実施形態では、基準配列および遺伝子ライブラリーは、同じプライマーによりプライミングできるユニバーサルプライミング部位を含む。いくつかの実施形態では、混合ステップは、少なくとも10;100;500;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的特異的増幅試薬および少なくとも10;100;500;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の基準配列を含む。種々の実施形態では、前記方法は、本発明のプライマーライブラリーのいずれかを使用するステップを含む。種々の実施形態では、前記方法は、1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的領域を同時に増幅するステップを含む。いくつかの実施形態では、基準配列のそれぞれの相対量は既知である。いくつかの実施形態では、配列のそれぞれの相対量は、参照ゲノムに対し較正されている。いくつかの実施形態では、分析用試料は、胎児と母系ゲノムの混合物を含む。いくつかの実施形態では、分析用試料は、妊婦の血液由来であるか、または血漿由来である。いくつかの実施形態では、参照ゲノムは、染色体13、18、21、X、またはYの異数性などの少なくとも1つの異数性を有する。いくつかの実施形態では、参照ゲノムは、二倍体である。 In one aspect, the invention features a method for quantitatively measuring multiple genetic targets in an analytical sample. In some embodiments, the method includes (i) mixing genetic material from the analytical sample with multiple target-specific amplification reagents and multiple reference sequences corresponding to the targets of the target-specific amplification reagents, (ii) amplifying target regions of the genetic material and the reference sequences to generate target amplicons and reference sequence amplicons, and (iii) measuring the amount of the generated target amplicons and reference sequence amplicons. In some embodiments, the genetic material is present in a genetic library. In some embodiments, the genetic targets are polymorphic loci (such as SNPs). In some embodiments, measuring the amount is achieved by counting sequences. In some embodiments, the method further includes measuring an estimated copy number of at least one chromosome in the sample from which the genetic library is derived, the measuring comprising comparing the number of sequence reads of the target amplicons to the number of sequence reads of the reference amplicons. In some embodiments, the reference sequences and the genetic library include universal priming sites that can be primed by the same primer. In some embodiments, the mixing step comprises at least 10; 100; 500; 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target-specific amplification reagents and at least 10; 100; 500; 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 standard sequences. In various embodiments, the method comprises using any of the primer libraries of the invention. In various embodiments, the method includes simultaneously amplifying 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target regions. In some embodiments, the relative amount of each of the standard sequences is known. In some embodiments, the relative amount of each of the sequences is calibrated to a reference genome. In some embodiments, the analytical sample includes a mixture of fetal and maternal genomes. In some embodiments, the analytical sample is derived from the blood or plasma of a pregnant woman. In some embodiments, the reference genome has at least one aneuploidy, such as an aneuploidy at chromosome 13, 18, 21, X, or Y. In some embodiments, the reference genome is diploid.

一態様では、本発明は、複数の遺伝子基準配列を含む混合物を特徴とし、混合物中のそれぞれの遺伝子基準配列の相対量は、参照ゲノムに対する較正により決定されている。種々の実施形態では、混合物は、少なくとも10;100;500;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の遺伝子基準配列を含む。種々の実施形態では、遺伝子基準配列は、第1のユニバーサルプライミング部位、第2のユニバーサルプライミング部位、第1の標的特異的プライミング部位、第2の標的特異的プライミング部位、および第1と第2の標的特異的プライミング部位の間に位置するマーカー配列を含み、第1の標的特異的部位および第2の標的特異的プライミング部位は、第1と第2のユニバーサルプライミング部位の間に位置する。種々の実施形態では、較正は、本発明のプライマーライブラリーのいずれかを使用するステップを含む。種々の実施形態では、較正は、1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的領域を同時に増幅するステップを含む。いくつかの実施形態では、参照ゲノムは、染色体13、18、21、X、またはYの異数性などの少なくとも1個の異数性を有する。いくつかの実施形態では、参照ゲノムは二倍体である。 In one aspect, the invention features a mixture comprising a plurality of gene standard sequences, the relative amount of each gene standard sequence in the mixture being determined by calibration to a reference genome. In various embodiments, the mixture comprises at least 10; 100; 500; 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 gene standard sequences. In various embodiments, the gene standard sequence comprises a first universal priming site, a second universal priming site, a first target specific priming site, a second target specific priming site, and a marker sequence located between the first and second target specific priming sites, the first target specific site and the second target specific priming site being located between the first and second universal priming sites. In various embodiments, the calibration comprises using any of the primer libraries of the present invention. In various embodiments, the calibration comprises simultaneously amplifying 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target regions. In some embodiments, the reference genome has at least one aneuploidy, such as an aneuploidy at chromosome 13, 18, 21, X, or Y. In some embodiments, the reference genome is diploid.

一態様では、本発明は、較正された遺伝子基準配列の集合を生成する方法を特徴とする。いくつかの実施形態では、前記方法は、(i)参照ゲノムから調製された遺伝子ライブラリー、複数の標的特異的増幅プライマー試薬の集合、および標的特異的増幅試薬の集合に対応する複数の遺伝子基準配列を含む増幅反応混合物を形成するステップと、(ii)遺伝子ライブラリーおよび遺伝子基準配列を増幅して標的配列由来の増幅産物および遺伝子基準配列由来の増幅産物を生成するステップと、(iii)標的配列由来の増幅産物および遺伝子基準配列由来の増幅産物の量を測定するステップと、(iv)それぞれの遺伝子基準配列相互の相対量を決定し、それにより、複数の遺伝子基準配列が較正されるステップとを含む。種々の実施形態では、少なくとも10;100;500;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の遺伝子基準配列が使用される。種々の実施形態では、前記方法は、本発明のプライマーライブラリーのいずれかを使用するステップを含む。種々の実施形態では、本発明は、1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる配列を同時に増幅するステップを含む。いくつかの実施形態では、参照ゲノムは、染色体13、18、21、X、またはYの異数性などの少なくとも1個の異数性を有する。いくつかの実施形態では、参照ゲノムは二倍体である。 In one aspect, the invention features a method for generating a set of calibrated genetic standard sequences. In some embodiments, the method includes (i) forming an amplification reaction mixture including a genetic library prepared from a reference genome, a set of target-specific amplification primer reagents, and a set of genetic standard sequences corresponding to the set of target-specific amplification reagents; (ii) amplifying the genetic library and the genetic standard sequences to generate target sequence-derived amplification products and genetic standard sequence-derived amplification products; (iii) measuring the amount of the target sequence-derived amplification products and the genetic standard sequence-derived amplification products; and (iv) determining the relative amounts of each of the genetic standard sequences to each other, thereby calibrating the multiple genetic standard sequences. In various embodiments, at least 10; 100; 500; 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 genetic reference sequences are used. In various embodiments, the method includes using any of the primer libraries of the invention. In various embodiments, the invention includes simultaneously amplifying 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different sequences. In some embodiments, the reference genome has at least one aneuploidy, such as an aneuploidy at chromosome 13, 18, 21, X, or Y. In some embodiments, the reference genome is diploid.

一態様では、本発明は、本発明のいずれかの方法により較正されている遺伝子基準配列の集合を提供する。一態様では、本発明は、前記方法が実行される前、その間、その後に較正できる遺伝子基準配列の集合を提供する。 In one aspect, the invention provides a set of genetic reference sequences that have been calibrated by any of the methods of the invention. In one aspect, the invention provides a set of genetic reference sequences that can be calibrated before, during, or after the method is performed.

一態様では、本発明は、欠失を有する少なくとも1個の対立遺伝子を含む対象遺伝子のコピー数を測定する方法を特徴とする。いくつかの実施形態では、前記方法は、(i)分析用試料由来の遺伝物質を、対象の遺伝子に特異的で、対象の遺伝子の対立遺伝子を含む欠失を大きくは増幅できない増幅試薬、対象の遺伝子に対応する基準配列、参照配列に特定的な増幅試薬、および参照配列に対応する基準配列と混合するステップと、(ii)対象の遺伝子配列、対象の遺伝子に対応する基準配列、参照配列、および参照配列に対応する基準配列を増幅し、対象の遺伝子増幅産物、参照配列増幅産物、および基準配列増幅産物を生成するステップと、(iii)生成標的増幅産物および基準配列増幅産物の量を測定するステップとを含む。いくつかの実施形態では、量の測定は、シーケンスリードを計数することにより実現される。いくつかの実施形態では、前記方法は、少なくとも1個の遺伝子ライブラリーが由来する試料中の染色体の推定コピー数を算出するステップをさらに含み、算出ステップは、標的増幅産物の配列の数を、基準増幅産物の配列の数と比較するステップを含む。いくつかの実施形態では、基準配列および遺伝子ライブラリーは、同じプライマーによりプライミングできるユニバーサルプライミング部位を含む。いくつかの実施形態では、それぞれの配列の相対的量は、参照ゲノムに対して較正されている。種々の実施形態では、少なくとも10;100;500;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の遺伝子基準配列が使われる。種々の実施形態では、前記方法は、本発明のプライマーライブラリーのいずれかを使用するステップを含む。種々の実施形態では、前記方法は、1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的領域を同時に増幅するステップを含む。いくつかの実施形態では、参照ゲノムは二倍体である。いくつかの実施形態では、分析用試料は、血液由来である。 In one aspect, the invention features a method for determining the copy number of a gene of interest that includes at least one allele having a deletion. In some embodiments, the method includes (i) mixing genetic material from a sample for analysis with an amplification reagent specific for the gene of interest and unable to significantly amplify the deletion including the allele of the gene of interest, a standard sequence corresponding to the gene of interest, an amplification reagent specific for the reference sequence, and a standard sequence corresponding to the reference sequence; (ii) amplifying the gene sequence of interest, the standard sequence corresponding to the gene of interest, the reference sequence, and the standard sequence corresponding to the reference sequence to generate a gene of interest amplicon, a reference sequence amplicon, and a standard sequence amplicon; and (iii) measuring the amount of the generated target amplicon and standard sequence amplicon. In some embodiments, the measuring of the amount is achieved by counting sequence reads. In some embodiments, the method further includes calculating an estimated copy number of a chromosome in a sample from which at least one genetic library is derived, the calculating step including a step of comparing the number of sequences of the target amplicon to the number of sequences of the standard amplicon. In some embodiments, the standard sequence and the genetic library include universal priming sites that can be primed by the same primer. In some embodiments, the relative amount of each sequence is calibrated against a reference genome. In various embodiments, at least 10; 100; 500; 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 gene reference sequences are used. In various embodiments, the method includes using any of the primer libraries of the present invention. In various embodiments, the method includes simultaneously amplifying 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target regions. In some embodiments, the reference genome is diploid. In some embodiments, the analytical sample is derived from blood.

本発明のいずれかの態様の種々の実施形態では、標的遺伝子座(例えば、複数の多型遺伝子座)における試料(例えば、第1の試料)中のDNAを優先的に富化するステップは、複数の環状化前プローブであって、それぞれのプローブが遺伝子座(例えば、多型遺伝子座)のうちの1つを標的とし、好ましくは、該プローブの3’末端および5’末端が遺伝子座の多型部位から少数の塩基で隔てられているDNAの領域とハイブリダイズするように設計されており、前記少数が、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21~25、26~30、31~60、またはそれらの組み合わせであるプローブを得るステップと、環状化前プローブと試料(例えば、第1の試料)由来のDNAをハイブリダイズさせるステップと、ハイブリダイズしたプローブ末端間のギャップを、DNAポリメラーゼを用いて埋めるステップと、環状化前プローブを環状化するステップと、環状化されたプローブを増幅するステップとを含む。 In various embodiments of any of the aspects of the invention, the step of preferentially enriching DNA in a sample (e.g., a first sample) at target loci (e.g., a plurality of polymorphic loci) includes using a plurality of pre-circularization probes, each of which targets one of the loci (e.g., polymorphic loci), and preferably designed such that the 3' and 5' ends of the probe hybridize to a region of DNA separated from the polymorphic site of the locus by a small number of bases, the small number being 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 9 The method includes the steps of obtaining a probe having a length of 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21-25, 26-30, 31-60, or a combination thereof, hybridizing the pre-circularized probe with DNA from a sample (e.g., a first sample), filling the gap between the hybridized probe ends with a DNA polymerase, circularizing the pre-circularized probe, and amplifying the circularized probe.

本発明のいずれかの態様の種々の実施形態では、標的遺伝子座(例えば、複数の多型遺伝子座)におけるDNAを優先的に富化するステップは、複数のライゲーション媒介性PCRプローブであって、それぞれのPCRプローブが標的遺伝子座(例えば、多型遺伝子座)のうちの1つを標的とし、その上流および下流PCRプローブが、好ましくは、遺伝子座の多型部位から少数の塩基で隔てられているDNAの一方の鎖上のDNAの領域とハイブリダイズするように設計されており、前記少数が、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21~25、26~30、31~60、またはそれらの組み合わせであるPCRプローブを得るステップと、ライゲーション媒介性PCRプローブと試料(例えば、第1の試料)由来のDNAをハイブリダイズさせるステップと、ライゲーション媒介性PCRプローブ末端間のギャップを、DNAポリメラーゼを用いて埋めるステップと、ライゲーション媒介性PCRプローブをライゲーションするステップと、ライゲーションされたライゲーション媒介性PCRプローブを増幅するステップとを含む。 In various embodiments of any of the aspects of the invention, the step of preferentially enriching DNA at a target locus (e.g., a plurality of polymorphic loci) includes using a plurality of ligation-mediated PCR probes, each PCR probe targeting one of the target loci (e.g., polymorphic loci), with upstream and downstream PCR probes designed to hybridize to a region of DNA on one strand of the DNA that is separated from the polymorphic site of the locus by a small number of bases, preferably, the small number being 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, The method includes obtaining a PCR probe that is 13, 14, 15, 16, 17, 18, 19, 20, 21-25, 26-30, 31-60, or a combination thereof, hybridizing the ligation-mediated PCR probe with DNA from a sample (e.g., a first sample), filling the gap between the ends of the ligation-mediated PCR probe with a DNA polymerase, ligating the ligation-mediated PCR probe, and amplifying the ligated ligation-mediated PCR probe.

本発明の種々の態様のいくつかの実施形態では、標的遺伝子座(例えば、複数の多型遺伝子座)におけるDNAを優先的に富化するステップは、遺伝子座(例えば、多型遺伝子座)を標的とする複数のハイブリッド捕捉プローブを得るステップと、ハイブリッド捕捉プローブを、試料(例えば、第1の試料)中のDNAとハイブリダイズさせるステップと、DNAに関する試料(例えば、第1の試料)からハイブリダイズしていないDNAの一部または全部を物理的に除去するステップとを含む。 In some embodiments of various aspects of the invention, preferentially enriching DNA at target loci (e.g., multiple polymorphic loci) includes obtaining multiple hybrid capture probes that target the loci (e.g., multiple polymorphic loci), hybridizing the hybrid capture probes to DNA in a sample (e.g., a first sample), and physically removing some or all of the unhybridized DNA from the DNA-related sample (e.g., the first sample).

本発明のいずれかの態様のいくつかの実施形態では、ハイブリッド捕捉プローブは、多型部位と隣接しているがオーバーラップはしていない領域とハイブリダイズするように設計されている。いくつかの実施形態では、ハイブリッド捕捉プローブは、多型部位と隣接しているがオーバーラップはしていない領域とハイブリダイズするように設計されており、隣接捕捉プローブの長さは、約120塩基未満、約110塩基未満、約100塩基未満、約90塩基未満、約80塩基未満、約70塩基未満、約60塩基未満、約50塩基未満、約40塩基未満、約30塩基未満、および約25塩基未満からなる群から選択することができる。いくつかの実施形態では、ハイブリッド捕捉プローブは、多型部位とオーバーラップする領域とハイブリダイズするように設計されており、複数のハイブリッド捕捉プローブは、各多型遺伝子座に対する少なくとも2つのハイブリッド捕捉プローブを含み、各ハイブリッド捕捉プローブが、一方の多型遺伝子座において別の対立遺伝子と相補的であるように設計されている。 In some embodiments of any aspect of the invention, the hybrid capture probe is designed to hybridize to a region adjacent to but not overlapping with the polymorphic site. In some embodiments, the hybrid capture probe is designed to hybridize to a region adjacent to but not overlapping with the polymorphic site, and the length of the adjacent capture probe can be selected from the group consisting of less than about 120 bases, less than about 110 bases, less than about 100 bases, less than about 90 bases, less than about 80 bases, less than about 70 bases, less than about 60 bases, less than about 50 bases, less than about 40 bases, less than about 30 bases, and less than about 25 bases. In some embodiments, the hybrid capture probe is designed to hybridize to a region overlapping with the polymorphic site, and the plurality of hybrid capture probes includes at least two hybrid capture probes for each polymorphic locus, each hybrid capture probe designed to be complementary to another allele at one polymorphic locus.

本発明のいずれかの態様のいくつかの実施形態では、複数の多型遺伝子座のDNAを優先的に富化するステップは、複数の内側のフォワードプライマーであって、それぞれのプライマーが多型遺伝子座のうちの1つを標的とし、該内側のフォワードプライマーの3’末端が、多型部位の上流にあり、少数の塩基で多型部位から隔てられているDNAの領域とハイブリダイズするように設計されており、少数が、1塩基対、2塩基対、3塩基対、4塩基対、5塩基対、6~10塩基対、11~15塩基対、16~20塩基対、21~25塩基対、26~30塩基対または31~60塩基対からなる群から選択されるプライマーを得るステップと、必要に応じて、複数の内側のリバースプライマーであって、それぞれのプライマーが多型遺伝子座のうちの1つを標的とし、内側のリバースプライマーの3’末端が、多型部位の上流にあり、少数の塩基で多型部位から隔てられているDNAの領域とハイブリダイズするように設計されており、少数が、1塩基対、2塩基対、3塩基対、4塩基対、5塩基対、6~10塩基対、11~15塩基対、16~20塩基対、21~25塩基対、26~30塩基対または31~60塩基対からなる群から選択されるプライマーを得るステップと、内側のプライマーをDNAとハイブリダイズさせるステップと、ポリメラーゼ連鎖反応を用いてDNAを増幅して増幅産物を形成するステップとを含む。 In some embodiments of any of the aspects of the invention, the step of preferentially enriching DNA at a plurality of polymorphic loci includes the steps of obtaining a plurality of inner forward primers, each of which targets one of the polymorphic loci and the 3' end of the inner forward primer is designed to hybridize to a region of DNA upstream of the polymorphic site and separated from the polymorphic site by a small number of bases, the small number being selected from the group consisting of 1 base pair, 2 base pairs, 3 base pairs, 4 base pairs, 5 base pairs, 6-10 base pairs, 11-15 base pairs, 16-20 base pairs, 21-25 base pairs, 26-30 base pairs, or 31-60 base pairs; and, optionally, obtaining a plurality of inner forward primers, each of which targets one of the polymorphic loci and the 3' end of the inner forward primer is designed to hybridize to a region of DNA upstream of the polymorphic site and separated from the polymorphic site by a small number of bases, the small number being selected from the group consisting of 1 base pair, 2 base pairs, 3 base pairs, 4 base pairs, 5 base pairs, 6-10 base pairs, 11-15 base pairs, 16-20 base pairs, 21-25 base pairs, 26-30 base pairs, or 31-60 base pairs. The method includes obtaining a primer having a 3' end and a reverse primer on each side, each of which targets one of the polymorphic loci, the 3' end of the inner reverse primer being designed to hybridize to a region of DNA that is upstream of the polymorphic site and separated from the polymorphic site by a small number of bases, the small number being selected from the group consisting of 1 base pair, 2 base pairs, 3 base pairs, 4 base pairs, 5 base pairs, 6-10 base pairs, 11-15 base pairs, 16-20 base pairs, 21-25 base pairs, 26-30 base pairs, or 31-60 base pairs, hybridizing the inner primer to the DNA, and amplifying the DNA using the polymerase chain reaction to form an amplification product.

本発明のいずれかの態様のいくつかの実施形態では、前記方法は、複数の外側のフォワードプライマーであって、それぞれのプライマーが標的遺伝子座(例えば、多型遺伝子座)のうちの1つを標的とし、内側のフォワードプライマーの上流のDNAの領域とハイブリダイズするように設計されているプライマーを得るステップと、必要に応じて、複数の外側のリバースプライマーであって、それぞれのプライマーが標的遺伝子座(例えば、多型遺伝子座)のうちの1つを標的とし、内側のリバースプライマーのすぐ下流のDNAの領域とハイブリダイズするように設計されているプライマーを得るステップと、第1のプライマーをDNAとハイブリダイズさせるステップと、ポリメラーゼ連鎖反応を用いてDNAを増幅するステップとをさらに含む。 In some embodiments of any of the aspects of the invention, the method further includes obtaining a plurality of outer forward primers, each of which targets one of the target loci (e.g., polymorphic loci) and is designed to hybridize with a region of DNA upstream of the inner forward primer, and optionally obtaining a plurality of outer reverse primers, each of which targets one of the target loci (e.g., polymorphic loci) and is designed to hybridize with a region of DNA immediately downstream of the inner reverse primer, hybridizing the first primer to the DNA, and amplifying the DNA using polymerase chain reaction.

本発明のいずれかの態様のいくつかの実施形態では、前記方法は、複数の外側のリバースプライマーであって、それぞれのプライマーが標的遺伝子座(例えば、多型遺伝子座)のうちの1つを標的とし、内側のリバースプライマーのすぐ下流のDNAの領域とハイブリダイズするように設計されているプライマーを得るステップと、必要に応じて、複数の外側のフォワードプライマーであって、それぞれのプライマーが多型遺伝子座のうちの1つを標的とし、内側のフォワードプライマーの上流のDNAの領域とハイブリダイズするように設計されているプライマーを得るステップと、第1のプライマーをDNAとハイブリダイズさせるステップと、ポリメラーゼ連鎖反応を用いてDNAを増幅するステップとをさらに含む。 In some embodiments of any of the aspects of the invention, the method further includes obtaining a plurality of outer reverse primers, each of which targets one of the target loci (e.g., polymorphic loci) and is designed to hybridize with a region of DNA immediately downstream of the inner reverse primer, and optionally obtaining a plurality of outer forward primers, each of which targets one of the polymorphic loci and is designed to hybridize with a region of DNA upstream of the inner forward primer, hybridizing the first primer to the DNA, and amplifying the DNA using polymerase chain reaction.

本発明のいずれかの態様のいくつかの実施形態では、試料(例えば、第1の試料)調整ステップは、ユニバーサルアダプタを試料(例えば、第1の試料)中のDNAに付加するステップおよびポリメラーゼ連鎖反応を使って試料(例えば、第1の試料)中のDNAを増幅するステップをさらに含む。いくつかの実施形態では、増幅された増幅産物の少なくとも一部分が100bp未満、90bp未満、80bp未満、70bp未満、65bp未満、60bp未満、55bp未満、50bp未満、または45bp未満であり、一部分とは10%、20%、30%、40%、50%、60%、70%、80%、90%または99%である。 In some embodiments of any aspect of the invention, the sample (e.g., the first sample) preparation step further includes adding universal adaptors to DNA in the sample (e.g., the first sample) and amplifying the DNA in the sample (e.g., the first sample) using polymerase chain reaction. In some embodiments, at least a portion of the amplified amplicons is less than 100 bp, less than 90 bp, less than 80 bp, less than 70 bp, less than 65 bp, less than 60 bp, less than 55 bp, less than 50 bp, or less than 45 bp, where the portion is 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, or 99%.

本発明のいずれかの態様のいくつかの実施形態では、DNAを増幅するステップは、1つまたは複数の個々の反応容積で行われ、個々の反応容積のそれぞれは、100超の異なるフォワードプライマーとリバースプライマーの対、200超の異なるフォワードプライマーとリバースプライマーの対、500超の異なるフォワードプライマーとリバースプライマーの対、1,000超の異なるフォワードプライマーとリバースプライマーの対、2,000超の異なるフォワードプライマーとリバースプライマーの対、5,000超の異なるフォワードプライマーとリバースプライマーの対、10,000超の異なるフォワードプライマーとリバースプライマーの対、20,000超の異なるフォワードプライマーとリバースプライマーの対、50,000超の異なるフォワードプライマーとリバースプライマーの対、または、100,000超の異なるフォワードプライマーとリバースプライマーの対を含有する。 In some embodiments of any aspect of the invention, the step of amplifying the DNA is performed in one or more individual reaction volumes, each of which contains more than 100 different forward and reverse primer pairs, more than 200 different forward and reverse primer pairs, more than 500 different forward and reverse primer pairs, more than 1,000 different forward and reverse primer pairs, more than 2,000 different forward and reverse primer pairs, more than 5,000 different forward and reverse primer pairs, more than 10,000 different forward and reverse primer pairs, more than 20,000 different forward and reverse primer pairs, more than 50,000 different forward and reverse primer pairs, or more than 100,000 different forward and reverse primer pairs.

本発明のいずれかの態様のいくつかの実施形態では、試料(例えば、第1の試料)を調製するステップは、試料(例えば、第1の試料)を複数の部分に分割するステップであって、標的遺伝子座(例えば、複数の多型遺伝子座)のサブセットにおいて各部分内のDNAが優先的に富化されるステップをさらに含む。いくつかの実施形態では、望ましくないプライマー2重鎖を形成する可能性があるプライマー対を同定するステップ、および望ましくないプライマー2重鎖を形成する可能性があると同定されたプライマーの対の少なくとも1つを複数のプライマーから除去するステップによって内側のプライマーを選択する。いくつかの実施形態では、内側のプライマーは、標的の遺伝子座(例えば、多型遺伝子座)の上流または下流のいずれかとハイブリダイズするように設計された領域を含有し、必要に応じて、PCR増幅が可能になるように設計されたユニバーサルプライミング配列(priming sequence)を含有する。いくつかの実施形態では、プライマーの少なくとも一部は、個々のプライマー分子各々について異なるランダムな領域をさらに含有する。いくつかの実施形態では、プライマーの少なくとも一部は分子バーコードをさらに含有する。 In some embodiments of any aspect of the invention, preparing the sample (e.g., the first sample) further comprises dividing the sample (e.g., the first sample) into a plurality of portions, with DNA in each portion preferentially enriched at a subset of the target loci (e.g., a plurality of polymorphic loci). In some embodiments, the inner primers are selected by identifying primer pairs that may form undesired primer duplexes and removing at least one of the pairs of primers identified as likely to form undesired primer duplexes from the plurality of primers. In some embodiments, the inner primers contain a region designed to hybridize either upstream or downstream of the target locus (e.g., the polymorphic locus) and, optionally, a universal priming sequence designed to enable PCR amplification. In some embodiments, at least some of the primers further contain a random region that is different for each individual primer molecule. In some embodiments, at least some of the primers further contain a molecular barcode.

本発明のいずれかの態様のいくつかの実施形態では、優先的な富化により、調製された試料と試料(例えば、第1の試料)との間に、2倍以下、1.5倍以下、1.2倍以下、1.1倍以下、1.05倍以下、1.02倍以下、1.01倍以下、1.005倍以下、1.002倍以下、1.001倍以下および1.0001倍以下からなる群から選択される係数の程度の、平均の対立遺伝子の偏りがもたらされる。いくつかの実施形態では、複数の多型遺伝子座はSNPである。いくつかの実施形態では、調製された試料中のDNAを測定するステップを配列決定によって行う。 In some embodiments of any aspect of the invention, the preferential enrichment results in an average allelic bias between the prepared sample and the sample (e.g., the first sample) of a magnitude selected from the group consisting of 2-fold or less, 1.5-fold or less, 1.2-fold or less, 1.1-fold or less, 1.05-fold or less, 1.02-fold or less, 1.01-fold or less, 1.005-fold or less, 1.002-fold or less, 1.001-fold or less, and 1.0001-fold or less. In some embodiments, the plurality of polymorphic loci are SNPs. In some embodiments, the step of measuring DNA in the prepared sample is performed by sequencing.

本発明のいずれかの態様のいくつかの実施形態では、標的遺伝子座は、対照の同じ核酸(例えば、同じ染色体または染色体の同じ領域)上に存在する。いくつかの実施形態では、少なくともいくつかの標的遺伝子座は、対象の異なる核酸(例えば、異なる染色体)上に存在する。いくつかの実施形態では、核酸試料は、フラグメント化または消化核酸を含む。いくつかの実施形態では、核酸試料は、ゲノムDNA、cDNA、またはmRNAを含む。いくつかの実施形態では、核酸試料は、単一細胞由来のDNAを含む。いくつかの実施形態では、核酸試料は、実質的に細胞不含の血液または血漿試料である。いくつかの実施形態では、核酸試料は、血液、血漿、唾液、精液、精子、細胞培養上清、粘液分泌、歯垢、消化管組織、便、尿、毛、骨、体液、涙、組織、皮膚、爪、卵割球、胚、羊水、絨毛膜絨毛試料、胆汁、リンパ液、子宮頸管粘液、または法医学試料を含むか、またはそれら由来である。いくつかの実施形態では、標的遺伝子座は、ヒト核酸のセグメントである。いくつかの実施形態では、標的遺伝子座は、単一ヌクレオチド多型(SNP)を含むか、またはそれから構成される。いくつかの実施形態では、プライマーは、DNA分子である。 In some embodiments of any of the aspects of the invention, the target loci are present on the same nucleic acid (e.g., the same chromosome or the same region of a chromosome) of the control. In some embodiments, at least some of the target loci are present on different nucleic acids (e.g., different chromosomes) of the subject. In some embodiments, the nucleic acid sample comprises fragmented or digested nucleic acid. In some embodiments, the nucleic acid sample comprises genomic DNA, cDNA, or mRNA. In some embodiments, the nucleic acid sample comprises DNA from a single cell. In some embodiments, the nucleic acid sample is a substantially cell-free blood or plasma sample. In some embodiments, the nucleic acid sample comprises or is derived from blood, plasma, saliva, semen, sperm, cell culture supernatant, mucus secretion, dental plaque, gastrointestinal tissue, stool, urine, hair, bone, bodily fluids, tears, tissue, skin, nail, blastomere, embryo, amniotic fluid, chorionic villus sample, bile, lymph, cervical mucus, or a forensic sample. In some embodiments, the target loci are segments of human nucleic acid. In some embodiments, the target locus comprises or consists of a single nucleotide polymorphism (SNP). In some embodiments, the primer is a DNA molecule.

本発明のいずれかの態様のいくつかの実施形態では、試料(例えば、第1の試料)中のDNAは、母系血漿由来である。いくつかの実施形態では、試料(例えば、第1の試料)を調製するステップは、DNAを増幅するステップをさらに含む。いくつかの実施形態では、試料(例えば、第1の試料)を調製するステップは、標的遺伝子座(例えば、複数の多型遺伝子座)における試料(例えば、第1の試料)中のDNAを優先的に富化するステップをさらに含む。 In some embodiments of any of the aspects of the invention, the DNA in the sample (e.g., the first sample) is derived from maternal plasma. In some embodiments, preparing the sample (e.g., the first sample) further comprises amplifying the DNA. In some embodiments, preparing the sample (e.g., the first sample) further comprises preferentially enriching the DNA in the sample (e.g., the first sample) at target loci (e.g., multiple polymorphic loci).

種々の実施形態では、プライマー伸長反応またはポリメラーゼ連鎖反応は、ポリメラーゼによる1個または複数個のヌクレオチドの付加を含む。種々の実施形態では、プライマー伸長反応またはポリメラーゼ連鎖反応は、ライゲーション媒介性PCRを含まない。種々の実施形態では、プライマー伸長反応またはポリメラーゼ連鎖反応は、リガーゼによる2個のプライマーの連結を含まない。種々の実施形態では、プライマーは、連結逆方向プローブ(LIP)を含まない。このプローブは、環状化前プローブ(pre-circularized probe)、環状化前プローブ(pre-circularizing probe)または環状化プローブ、環状化プローブ、Padlockプローブ、または分子反転プローブ(MIP)とも呼ばれる。 In various embodiments, the primer extension reaction or polymerase chain reaction includes the addition of one or more nucleotides by a polymerase. In various embodiments, the primer extension reaction or polymerase chain reaction does not include ligation-mediated PCR. In various embodiments, the primer extension reaction or polymerase chain reaction does not include ligation of two primers by a ligase. In various embodiments, the primer does not include a ligated inverse probe (LIP), which is also referred to as a pre-circularized probe, pre-circularizing probe or circularizing probe, circularizing probe, Padlock probe, or molecular inversion probe (MIP).

本明細書に記載される本発明のすべての態様および実施形態は、態様および実施形態「を含む(comprising)」、態様およ及び実施形態「からなる(consisting)」、および態様及び実施形態「から実質的になる(consisting essentially of)」を含むことが理解されよう。 All aspects and embodiments of the invention described herein will be understood to include "comprising," "consisting," and "consisting essentially of" aspects and embodiments.

定義
一塩基多型(SNP)とは、同じ種の2つのメンバーのゲノム間で異なる可能性がある一塩基を指す。この用語の使用は、各変異体が発生する頻度に対するいかなる限定も意味するべきではない。
Definition Single nucleotide polymorphism (SNP) refers to a single base that may differ between the genomes of two members of the same species. The use of this term should not imply any limitation on the frequency with which each variant occurs.

配列とは、DNA配列または遺伝子配列を指す。配列とは、個体のDNA分子または鎖の一次の物理的構造を指し得る。配列とは、DNA分子またはDNA分子の相補鎖に見いだされるヌクレオチドの配列を指し得る。配列とは、インシリコで表示される、DNA分子に含有される情報を指し得る。 Sequence refers to a DNA sequence or a gene sequence. Sequence may refer to the primary physical structure of an individual's DNA molecule or strand. Sequence may refer to the sequence of nucleotides found in a DNA molecule or a complementary strand of a DNA molecule. Sequence may refer to the information contained in a DNA molecule, represented in silico.

遺伝子座とは、個体のDNA上の対象の特定の領域を指し、可能性のある挿入もしくは欠失の部位またはいくつかの他の関連性のある遺伝的変異の部位である、SNPを指し得る。疾患連鎖SNPとは、疾患連鎖遺伝子座を指す場合もある。 A locus refers to a specific region of interest on an individual's DNA and may refer to a SNP, which is a site of possible insertion or deletion or some other relevant genetic variation. A disease-linked SNP may also refer to a disease-linked locus.

多型対立遺伝子、同様に「多型遺伝子座」とは、所与の種内の個体間で遺伝子型が変動する対立遺伝子または遺伝子座を指す。多型対立遺伝子のいくつかの例としては、一塩基多型、短いタンデム反復、欠失、重複、および逆位が挙げられる。 Polymorphic allele, also "polymorphic locus", refers to an allele or locus whose genotype varies among individuals within a given species. Some examples of polymorphic alleles include single nucleotide polymorphisms, short tandem repeats, deletions, duplications, and inversions.

多型部位とは、個体間で変動する多型領域に見いだされる特異的なヌクレオチドを指す。 A polymorphic site refers to a specific nucleotide found in a polymorphic region that varies between individuals.

対立遺伝子とは、特定の遺伝子座を占有する遺伝子を指す。 An allele refers to a gene that occupies a particular locus.

遺伝子データ、同様に「遺伝子型データ」とは、1個または複数個の個体のゲノムの態様を記載するデータを指す。これは、1つの遺伝子座または遺伝子座の集合、部分配列または全配列、染色体の部分もしくは染色体の全体、またはゲノム全体を指し得る。これは、1個または複数個のヌクレオチドの同一性を指してもよく、これは、逐次的なヌクレオチドの集合またはゲノム内の異なる場所由来のヌクレオチド、またはそれらの組み合わせを指してもよい。遺伝子型データは、一般にはインシリコであるが、化学的にコードされる遺伝子データとして配列内に物理的なヌクレオチドを考えることも可能である。遺伝子型データは、個体(複数可)「on(に関する)」、「of(の)」、「at(における)」、「from(からの)」または「on(に関する)」と言うことができる。遺伝子型データとは、これらの測定を遺伝物質に対して行う場合、遺伝子型決定プラットフォームからの出力測定値を指し得る。 Genetic data, also "genotypic data", refers to data describing aspects of the genome of one or more individuals. It may refer to a locus or set of loci, a partial or full sequence, a portion or entire chromosome, or the entire genome. It may refer to the identity of one or more nucleotides, it may refer to a set of sequential nucleotides or nucleotides from different locations in the genome, or a combination thereof. Genotypic data is generally in silico, but it is also possible to think of the physical nucleotides in a sequence as chemically encoded genetic data. Genotypic data can be said to be "on", "of", "at", "from" or "on" an individual(s). Genotypic data may refer to output measurements from a genotyping platform when these measurements are made on genetic material.

遺伝物質、同様に「遺伝子試料」とは、DNAまたはRNAを含む1つまたは複数の個体由来の組織または血液などの物理的物質を指す。 Genetic material, also "genetic sample", refers to physical material, such as tissue or blood, from one or more individuals that contains DNA or RNA.

ノイズを伴う遺伝子データとは、以下のいずれかを伴う遺伝子データを指す:対立遺伝子ドロップアウト、不確実な塩基対測定値、不正確な塩基対測定値、塩基対測定値の欠落、挿入または欠失の不確実な測定値、染色体セグメントコピー数の不確実な測定値、偽のシグナル、測定値の欠落、他のエラー、またはそれらの組み合わせ。 Noisy genetic data refers to genetic data that has any of the following: allele dropouts, uncertain base pair measurements, inaccurate base pair measurements, missing base pair measurements, uncertain measurements of insertions or deletions, uncertain measurements of chromosomal segment copy numbers, false signals, missing measurements, other errors, or combinations thereof.

信頼度とは、コールされたSNP、対立遺伝子、対立遺伝子の集合、倍数性コールまたは決定された染色体セグメントコピーの数が個体の実際の遺伝子の状態を正確に示す統計学的尤度を指す。 Confidence refers to the statistical likelihood that a called SNP, allele, set of alleles, ploidy call, or determined number of chromosome segment copies accurately represents an individual's true genetic status.

倍数性コール、同様に「染色体コピー数コール」または「コピー数コール」(CNC)、とは、細胞内に存在する1個または複数個の染色体の量および/または染色体の同一性を決定する行為を指し得る。 Ploidy calling, also "chromosome copy number calling" or "copy number calling" (CNC), can refer to the act of determining the amount and/or identity of one or more chromosomes present in a cell.

異数性とは、細胞中の誤った数の染色体(例えば、誤った数の完全染色体または誤った数の染色体セグメント、例えば、染色体セグメントの欠失または複製の存在)が存在する状態を意味する。ヒト体細胞の場合には、異数性とは、細胞が、22対の常染色体および1対の性染色体を含有しない場合を指し得る。ヒト配偶子の場合には、異数性とは、細胞が、23種の染色体のそれぞれのうちの1つを含有しない場合を指し得る。単一染色体型の場合には、異数性とは、大体2つの相同であるが同一ではない染色体コピーが存在する場合、または同じ親を起源とする2つの染色体コピーが存在する場合を指し得る。いくつかの実施形態では、染色体セグメントの欠失は微小欠失である。 Aneuploidy refers to the condition in which there is an incorrect number of chromosomes in a cell (e.g., the presence of an incorrect number of complete chromosomes or an incorrect number of chromosome segments, e.g., a deletion or duplication of a chromosome segment). In the case of human somatic cells, aneuploidy can refer to when a cell does not contain the 22 pairs of autosomes and one pair of sex chromosomes. In the case of human gametes, aneuploidy can refer to when a cell does not contain one of each of the 23 chromosomes. In the case of monochromosomal types, aneuploidy can refer to when there are roughly two homologous but not identical copies of a chromosome, or when there are two copies of a chromosome that originate from the same parent. In some embodiments, the deletion of a chromosome segment is a microdeletion.

倍数性状態とは、細胞における1つまたは複数の染色体型の量および/または染色体の同一性を指す。 Ploidy state refers to the amount and/or chromosomal identity of one or more chromosome types in a cell.

染色体とは、単一染色体コピーを指してもよく、これは正常な体細胞に46個存在するDNAの単一分子を意味し、その例は「母体由来の第18染色体」である。染色体とは、正常なヒト体細胞に23個存在する染色体型を指す場合もあり、例は「第18染色体」である。 Chromosome may refer to a single chromosome copy, meaning a single molecule of DNA present in normal somatic cells in 46 copies, an example of which is "maternally derived chromosome 18". Chromosome may also refer to a chromosome type present in normal human somatic cells in 23 copies, an example of which is "chromosome 18".

染色体の同一性とは、指示対象の染色体数、すなわち染色体型を指し得る。正常なヒトは、22種類の番号が付された常染色体型、および2種類の性染色体を有する。染色体の同一性とは、親起源の染色体を指す場合もある。染色体の同一性とは、親から遺伝によって受け継がれる特定の染色体を指す場合もある。染色体の同一性とは、染色体の他の同定される形体(feature)を指す場合もある。 Chromosomal identity can refer to the number of chromosomes referred to, i.e., chromosome type. A normal human has 22 numbered autosomal types and two sex chromosomes. Chromosomal identity can also refer to the parental origin of the chromosome. Chromosomal identity can also refer to the specific chromosome inherited from a parent. Chromosomal identity can also refer to other identifying features of a chromosome.

遺伝物質の状態または単に「遺伝子の状態」とは、DNA上のSNPの集合の同一性、相が特定された(phased)遺伝物質のハプロタイプ、および挿入、欠失、反復および変異を含めたDNAの配列を指し得る。これは、1個または複数個の染色体の倍数性状態、染色体セグメントまたは染色体セグメントの集合を指す場合もある。 The state of genetic material or simply "genetic state" can refer to the identity of a set of SNPs on DNA, the haplotype of phased genetic material, and the sequence of DNA, including insertions, deletions, repeats, and mutations. It can also refer to the ploidy state of one or more chromosomes, a chromosome segment, or a set of chromosome segments.

対立遺伝子データとは、1個または複数個の対立遺伝子の集合に関する遺伝子型データの集合を指す。対立遺伝子データとは、相が特定されたハプロタイプデータを指し得る。対立遺伝子データとは、SNPの同一性を指してもよく、対立遺伝子データとは、挿入、欠失、反復および変異を含めたDNAの配列データを指してもよい。対立遺伝子データとは、親起源の各対立遺伝子を包含してもよい。 Allele data refers to a collection of genotype data for a set of one or more alleles. Allele data may refer to phased haplotype data. Allele data may refer to SNP identities, and allele data may refer to DNA sequence data including insertions, deletions, repeats, and mutations. Allele data may encompass each allele of parental origin.

対立遺伝子の状態とは、1個または複数個の対立遺伝子の集合内の遺伝子の実際の状態を指す。対立遺伝子の状態とは、対立遺伝子データに記載されている遺伝子の実際の状態を指し得る。 An allele state refers to the actual state of a gene within a set of one or more alleles. An allele state may refer to the actual state of a gene as described in the allele data.

対立遺伝子の比(allelic ratio)または対立遺伝子の比(allele ratio)とは、試料または個体に存在する遺伝子座における各対立遺伝子の量の間の比を指す。試料を配列決定によって測定した場合、対立遺伝子の比とは、遺伝子座における各対立遺伝子にマッピングされるシーケンスリードの比を指し得る。試料を強度に基づく測定方法によって測定した場合、対立遺伝子の比とは、測定方法によって推定される遺伝子座に存在する各対立遺伝子の量の比を指し得る。 Allelic ratio or allele ratio refers to the ratio between the amount of each allele at a locus present in a sample or individual. If the sample is measured by sequencing, the allelic ratio may refer to the ratio of sequence reads that map to each allele at a locus. If the sample is measured by an intensity-based measurement method, the allelic ratio may refer to the ratio of the amount of each allele present at the locus as estimated by the measurement method.

対立遺伝子数とは、特定の遺伝子座にマッピングされる配列の数を指し、その遺伝子座が多型である場合、対立遺伝子数とは、対立遺伝子のそれぞれにマッピングされる配列の数を指す。各対立遺伝子がバイナリー様式でカウントされる場合は、対立遺伝子数は整数になる。対立遺伝子が確率的にカウントされる場合は、対立遺伝子数は分数であり得る。 Allele count refers to the number of sequences that map to a particular locus; if the locus is polymorphic, the allele count refers to the number of sequences that map to each of the alleles. If each allele is counted in a binary fashion, the allele count will be an integer. If alleles are counted probabilistically, the allele count can be a fraction.

対立遺伝子数確率とは、マッピングの確率と組み合わせた、特定の遺伝子座または多型遺伝子座における対立遺伝子の集合にマッピングされる可能性がある配列の数を指す。カウントされた配列のそれぞれについてのマッピングの確率がバイナリーである(0または1)対立遺伝子数は、対立遺伝子数の確率と等しいことに留意されたい。いくつかの実施形態では、対立遺伝子数の確率はバイナリーであってよい。いくつかの実施形態では、対立遺伝子数の確率は、DNA測定値と等しくなるように設定することができる。 Allele count probability refers to the number of sequences that may map to a set of alleles at a particular locus or polymorphic locus combined with the probability of mapping. Note that the allele count, where the probability of mapping for each of the counted sequences is binary (0 or 1), is equal to the allele count probability. In some embodiments, the allele count probability may be binary. In some embodiments, the allele count probability may be set equal to the DNA measurement.

対立遺伝子分布または「対立遺伝子数分布」とは、遺伝子座の集合内の各遺伝子座に存在する各対立遺伝子の相対量を指す。対立遺伝子分布は、個体、試料または試料に対して得た測定値の集合を指す場合がある。配列決定との関連において、対立遺伝子分布とは、多型遺伝子座の集合内の各対立遺伝子についての、特定の対立遺伝子にマッピングされるリード数または見込み数を指す。対立遺伝子測定値は、確率的に処理することができる、すなわち所与の対立遺伝子が所与のシーケンスリードを示す尤度は、0から1の間の分数である、または対立遺伝子測定値は、バイナリー様式で処理することができる、すなわち任意の所与のリードは、特定の対立遺伝子のちょうど0コピーまたは1コピーであると考えられる。 Allele distribution or "allele count distribution" refers to the relative amount of each allele present at each locus in a set of loci. Allele distribution may refer to an individual, a sample, or a set of measurements taken on a sample. In the context of sequencing, allele distribution refers to the number of reads or likelihoods that map to a particular allele for each allele in a set of polymorphic loci. Allele measurements can be treated probabilistically, i.e., the likelihood that a given allele will represent a given sequence read is a fraction between 0 and 1, or allele measurements can be treated in a binary manner, i.e., any given read is considered to be exactly 0 or 1 copies of a particular allele.

対立遺伝子分布パターンとは、異なる親の状況についての異なる対立遺伝子分布の集合を指す。特定の対立遺伝子分布パターンにより、特定の倍数性状態が示され得る。 An allele distribution pattern refers to a set of different allele distributions for different parental situations. A particular allele distribution pattern may indicate a particular ploidy state.

対立遺伝子の偏りとは、ヘテロ接合性遺伝子座における測定された対立遺伝子の比が、元のDNAの試料に存在していた比と異なる程度を指す。特定の遺伝子座における対立遺伝子の偏りの程度は、その遺伝子座において観察された対立遺伝子比を測定し、その遺伝子座における元のDNA試料中の対立遺伝子の比で割ったものと等しい。対立遺伝子の偏りは1より大きいと定義することができ、したがって、対立遺伝子の偏りの程度の算出によって1未満の値xが生じる場合、対立遺伝子の偏りの程度は1/xと言い換えることができる。対立遺伝子の偏りは、増幅の偏り、精製の偏りまたは異なる対立遺伝子に違うように影響を及ぼすいくつかの他の現象に起因し得る。 Allelic bias refers to the degree to which the measured ratio of alleles at a heterozygous locus differs from the ratio present in the original DNA sample. The degree of allelic bias at a particular locus is equal to the measured allele ratio at that locus divided by the ratio of alleles in the original DNA sample at that locus. Allelic bias can be defined as greater than 1, so if a calculation of the degree of allelic bias results in a value x less than 1, the degree of allelic bias can be rephrased as 1/x. Allelic bias can be due to amplification bias, purification bias, or some other phenomenon that affects different alleles differently.

プライマー、同様に「PCRプローブ」とは、単一のDNA分子(DNAオリゴマー)またはDNA分子(DNAオリゴマー)の集団を指し、DNA分子は同一またはほぼ同一であり、プライマーは、標的遺伝子座(例えば、標的多型遺伝子座または非多型遺伝子座)とハイブリダイズするように設計された領域を含有しており、PCR増幅が可能になるように設計されたプライミング配列を含有してよい。プライマーは、分子バーコードも含有してよい。プライマーは、個々の分子それぞれについて異なるランダムな領域を含有してよい。用語の「試験プライマー」および「候補プライマー」は、限定を意味するものではなく、本明細書開示のいずれかのプライマーを意味してもよい。 A primer, also a "PCR probe," refers to a single DNA molecule (DNA oligomer) or a population of DNA molecules (DNA oligomers), where the DNA molecules are identical or nearly identical, and the primer contains a region designed to hybridize with a target locus (e.g., a target polymorphic or non-polymorphic locus) and may contain a priming sequence designed to enable PCR amplification. The primer may also contain a molecular barcode. The primer may contain a random region that is different for each individual molecule. The terms "test primer" and "candidate primer" are not meant to be limiting and may refer to any of the primers disclosed herein.

プライマーライブラリーは、2個以上のプライマーの集団を意味する。種々の実施形態では、ライブラリーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なるプライマーを含む。種々の実施形態では、ライブラリーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なるプライマー対を含み、それぞれのプライマー対は、フォワード試験プライマーおよびリバース試験プライマーを含み、それぞれの試験プライマー対は、標的遺伝子座にハイブリダイズする。いくつかの実施形態では、プライマーライブラリーは、それぞれ異なる標的遺伝子座にハイブリダイズする少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる個別プライマーを含み、個別プライマーは、プライマー対の一部ではない。いくつかの実施形態では、ライブラリーは、(i)プライマー対、および(ii)プライマー対の一部ではない個別プライマー(例えば、ユニバーサルプライマー)の両方を含む。 A primer library refers to a population of two or more primers. In various embodiments, the library comprises at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different primers. In various embodiments, the library comprises at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different primer pairs, each primer pair comprising a forward test primer and a reverse test primer, each test primer pair hybridizing to a target locus. In some embodiments, the primer library includes at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different individual primers that each hybridize to a different target locus, and the individual primers are not part of a primer pair. In some embodiments, the library includes both (i) primer pairs and (ii) individual primers that are not part of a primer pair (e.g., universal primers).

ハイブリッド捕捉プローブとは、PCRまたは直接的な合成などの種々の方法によって生成され、試料中の特異的な標的DNA配列の一方の鎖と相補的であることが意図された、場合によっては改変された任意の核酸配列を指す。外因性のハイブリッド捕捉プローブを調製された試料に加え、変性-再アニーリングプロセスを通じてハイブリダイズさせて、外因性断片-内因性断片の2重鎖を形成することができる。次いで、これらの2重鎖を、種々の手段によって試料から物理的に分離することができる。 Hybrid capture probe refers to any nucleic acid sequence, optionally modified, generated by various methods such as PCR or direct synthesis, that is intended to be complementary to one strand of a specific target DNA sequence in a sample. Exogenous hybrid capture probes can be added to a prepared sample and hybridized through a denaturation-reannealing process to form exogenous fragment-endogenous fragment duplexes. These duplexes can then be physically separated from the sample by various means.

シーケンスリードとは、クローン配列決定法を用いて測定したヌクレオチド塩基の配列を示すデータを指す。クローン配列決定により、単一の1つの元のDNA分子または1つの元のDNA分子のクローンまたは1つの元のDNA分子のクラスターを示す配列データを生じることができる。シーケンスリードは、配列の各塩基の位置において、ヌクレオチドが正確にコールされている確率を示す関連する品質スコアも有し得る。 A sequence read refers to data that represents a sequence of nucleotide bases measured using clonal sequencing. Clonal sequencing can produce sequence data that represents a single original DNA molecule or a clone of an original DNA molecule or a cluster of original DNA molecules. A sequence read may also have an associated quality score at each base position of the sequence that indicates the probability that the nucleotide was called correctly.

シーケンスリードのマッピングとは、特定の生物体のゲノム内配列におけるシーケンスリードの開始場所を決定するプロセスである。シーケンスリードの開始場所は、リードとゲノム配列のヌクレオチド配列の類似性に基づく。 Mapping a sequence read is the process of determining the starting location of a sequence read in the genome sequence of a particular organism. The starting location of a sequence read is based on the nucleotide sequence similarity between the read and the genome sequence.

一致コピーエラー、同様に「一致染色体異数性」(MCA)とは、1つの細胞が、2つの同一またはほぼ同一の染色体を含有する異数性の状態を指す。この種類の異数性は、減数分裂における配偶子形成の間に生じる可能性があり、減数分裂不分離エラーと称することができる。この種類のエラーは、有糸分裂において生じる可能性がある。一致トリソミーとは、所与の染色体の3つのコピーが個体に存在し、コピーのうちの2つが同一である場合を指し得る。 Matching copy errors, also known as "matching chromosome aneuploidy" (MCA), refer to a state of aneuploidy in which one cell contains two identical or nearly identical chromosomes. This type of aneuploidy can occur during gamete formation in meiosis and can be referred to as a meiotic nondisjunction error. This type of error can occur in mitosis. Matching trisomy can refer to when three copies of a given chromosome are present in an individual and two of the copies are identical.

不一致コピーエラー、同様に「独自の染色体異数性(unique chromosome aneuploidy)」(UCA)とは、1つの細胞が同じ親由来であり、かつ相同であるが同一ではない可能性がある2つの染色体を含有する異数性の状態を指す。この種類の異数性は、減数分裂の間に生じる可能性があり、減数分裂エラーと称することができる。不一致トリソミーとは、所与の染色体の3つのコピーが個体に存在し、コピーのうちの2つが同じ親由来であり、かつ相同であるが同一ではない場合を指し得る。不一致トリソミーとは、一方の親由来の2つの相同染色体が存在し、染色体の一部のセグメントは同一であるが他のセグメントはただ単に相同なだけである場合を指し得ることに留意されたい。 Mismatched copy errors, also known as "unique chromosome aneuploidy" (UCA), refer to a state of aneuploidy in which one cell contains two chromosomes that are from the same parent and may be homologous but not identical. This type of aneuploidy may arise during meiosis and may be referred to as a meiotic error. Mismatched trisomy may refer to the case where three copies of a given chromosome are present in an individual, where two of the copies are from the same parent and are homologous but not identical. Note that mismatched trisomy may refer to the case where two homologous chromosomes from one parent are present, where some segments of the chromosome are identical while other segments are merely homologous.

相同染色体とは、通常は減数分裂の間に対合する同じ遺伝子の集合を含有する染色体コピーを指す。 Homologous chromosomes refer to chromosome copies that contain the same set of genes that normally pair up during meiosis.

同一染色体とは、同じ遺伝子の集合を含有する染色体コピーを指し、各遺伝子について、同一染色体は同一またはほぼ同一である同じ対立遺伝子の集合を有する。 Identical chromosomes refer to chromosome copies that contain the same set of genes, and for each gene, identical chromosomes have the same set of alleles that are identical or nearly identical.

対立遺伝子ドロップアウト(ADO)とは、所与の対立遺伝子における相同染色体由来の塩基対の集合内の塩基対の少なくとも一方が検出されない状況を指す。 Allelic dropout (ADO) refers to the situation in which at least one of the base pairs in a set of base pairs from the homologous chromosome at a given allele is not detected.

遺伝子座ドロップアウト(LDO)とは、所与の対立遺伝子における相同染色体由来の塩基対の集合内の塩基対の両方が検出されない状況を指す。 Locus dropout (LDO) refers to the situation where both base pairs within a set of base pairs from homologous chromosomes at a given allele are not detected.

ホモ接合性とは、対応する染色体の遺伝子座と同様の対立遺伝子を有することを指す。 Homozygosity refers to having similar alleles at corresponding chromosomal loci.

ヘテロ接合性とは、対応する染色体の遺伝子座と同様でない対立遺伝子を有することを指す。 Heterozygosity refers to the possession of nonidentical alleles at corresponding chromosomal loci.

ヘテロ接合性率とは、集団内の個体が所与の遺伝子座においてヘテロ接合性対立遺伝子を有する率を指す。ヘテロ接合性率は、個体またはDNAの試料中の所与の遺伝子座における予測された対立遺伝子の比または測定された対立遺伝子の比を指す場合もある。 Heterozygosity rate refers to the rate at which individuals in a population have heterozygous alleles at a given locus. Heterozygosity rate can also refer to the expected or measured allele ratio at a given locus in an individual or sample of DNA.

情報価値が高い一塩基多型(HISNP)とは、胎児が母親の遺伝子型には存在しない対立遺伝子を有するSNPを指す。 Highly informative single nucleotide polymorphisms (HISNPs) are SNPs in which the fetus has an allele that is not present in the mother's genotype.

染色体領域とは、染色体のセグメントまたは完全な染色体を指す。 A chromosomal region refers to a segment of a chromosome or a complete chromosome.

染色体のセグメントとは、1つの塩基対から染色体全体までサイズに幅があり得る染色体のセクションを指す。 A chromosomal segment refers to a section of a chromosome that can range in size from a single base pair to an entire chromosome.

染色体とは、完全な染色体または染色体のセグメントもしくはセクションのいずれかを指す。 Chromosome refers to either a complete chromosome or a segment or section of a chromosome.

コピーとは、染色体セグメントのコピーの数を指す。それは、染色体セグメントの同一のコピー、または同一ではない相同なコピーを指す場合があり、染色体セグメントの異なるコピーは実質的に類似した遺伝子座の集合を含有し、対立遺伝子のうちの1個または複数個が異なる。M2コピーエラーなどの異数性のいくつかの場合には、所与の染色体セグメントの同一であるいくらかのコピーならびに同じ染色体セグメントの同一ではないいくらかのコピーを有する可能性があることに留意されたい。 Copy refers to the number of copies of a chromosomal segment. It may refer to identical copies of a chromosomal segment, or non-identical homologous copies, where different copies of a chromosomal segment contain a substantially similar set of loci and differ in one or more of the alleles. Note that in some cases of aneuploidy, such as M2 copy error, it is possible to have some identical copies of a given chromosomal segment as well as some non-identical copies of the same chromosomal segment.

ハプロタイプとは、一般には、同じ染色体上で一緒に遺伝によって受け継がれる、複数の遺伝子座における対立遺伝子の組み合わせを指す。ハプロタイプとは、所与の遺伝子座の集合の間で起こった組換え事象の数に応じて、わずか2つの遺伝子座または染色体全体を指し得る。ハプロタイプとは、統計学的に関連する単一の染色分体上の一塩基多型(SNP)の集合も指す場合がある。 A haplotype generally refers to a combination of alleles at multiple loci that are inherited together on the same chromosome. A haplotype can refer to as few as two loci or an entire chromosome, depending on the number of recombination events that have occurred between a given set of loci. A haplotype can also refer to a set of single nucleotide polymorphisms (SNPs) on a single chromatid that are statistically associated.

ハプロタイプデータ、同様に「相が特定されたデータ」または「順序づけられた遺伝子データ」とは、二倍体ゲノムまたは倍数体ゲノムの単一染色体、すなわち、二倍体ゲノムの染色体の分離された母系のコピーまたは父系のコピーのいずれかからのデータを指す。 Haplotype data, also "phased data" or "ordered genetic data", refers to data from a single chromosome of a diploid or polyploid genome, i.e., from either the separated maternal or paternal copy of a chromosome of a diploid genome.

相の特定(Phasing)とは、順序づけられていない、二倍体(または倍数性)遺伝子データを考慮して個体のハプロタイプ遺伝子データを決定する行為を指す。相の特定とは、1つの染色体上に見いだされる対立遺伝子の集合について、対立遺伝子の2つの遺伝子のどちらが、個体の2つの相同染色体のそれぞれと関連するかを決定する行為を指し得る。 Phasing refers to the act of determining the haplotype genetic data of an individual given unordered, diploid (or polyploid) genetic data. Phasing can refer to the act of determining, for a set of alleles found on a chromosome, which of the two genes of the allele are associated with each of the two homologous chromosomes of the individual.

相が特定されたデータとは、1個または複数個のハプロタイプが決定された遺伝子データを指す。 Phase-specified data refers to genetic data in which one or more haplotypes have been determined.

仮説とは、所与の染色体の集合における可能性のある倍数性状態または所与の遺伝子座の集合における可能性のある対立遺伝子の状態の集合を指す。可能性の集合は、1個または複数個のエレメントを含んでよい。 A hypothesis refers to a set of possible ploidy states at a given set of chromosomes or possible allelic states at a given set of loci. A set of possibilities may contain one or more elements.

コピー数仮説、同様に「倍数性状態仮説」とは、個体の染色体のコピーの数に関する仮説を指す。これは、各染色体の起源となる親、および親の2つの染色体のどちらが個体に存在するかを含めた、染色体のそれぞれの同一性に関する仮説を指す場合もある。これは、もしあれば、関連する個体由来の染色体または染色体セグメントのいずれが、個体由来の所与の染色体に遺伝的に対応するかに関する仮説を指す場合もある。 Copy number hypothesis, also "ploidy state hypothesis", refers to a hypothesis regarding the number of copies of a chromosome in an individual. It may also refer to a hypothesis regarding the identity of each of the chromosomes, including the parent of origin of each chromosome and which of the two parental chromosomes are present in the individual. It may also refer to a hypothesis regarding which, if any, chromosomes or chromosome segments from related individuals correspond genetically to a given chromosome from an individual.

標的個体とは、遺伝子の状態が決定される個体を指す。いくつかの実施形態では、限られた量のDNAのみが標的個体から入手可能である。いくつかの実施形態では、標的個体は胎児である。いくつかの実施形態では、2体以上の標的個体が存在し得る。いくつかの実施形態では、一対の親から生まれた胎児をそれぞれ標的個体とみなすことができる。いくつかの実施形態では、決定される遺伝子データは、1つの対立遺伝子のコールまたは対立遺伝子のコールの集合である。いくつかの実施形態では、決定される遺伝子データは、倍数性コールである。 Target individual refers to an individual for whom a genetic state is to be determined. In some embodiments, only a limited amount of DNA is available from the target individual. In some embodiments, the target individual is a fetus. In some embodiments, there may be more than one target individual. In some embodiments, each fetus born to a pair of parents may be considered a target individual. In some embodiments, the genetic data to be determined is an allele call or a collection of allele calls. In some embodiments, the genetic data to be determined is a ploidy call.

関連する個体とは、標的個体と遺伝的に関連する、したがって、標的個体とハプロタイプブロックを共有する任意の個体を指す。ある状況では、関連する個体は、標的個体の遺伝学的な親、または親に由来する任意の遺伝物質、例えば、精子、極体、胚、胎児または子であってよい。関連する個体とは、同胞、親または祖父母を指す場合もある。 Related individual refers to any individual that is genetically related to the target individual and therefore shares a haplotype block with the target individual. In some situations, a related individual may be a genetic parent of the target individual, or any genetic material derived from a parent, such as a sperm, polar body, embryo, fetus, or child. Related individuals may also refer to siblings, parents, or grandparents.

同胞とは、遺伝学的な親が問題の個体と同じである任意の個体を指す。いくつかの実施形態では、同胞とは、生まれた子、胚もしくは胎児、または生まれた子、胚もしくは胎児に由来する1個または複数個の細胞を指し得る。同胞とは、親の一方を起源とする一倍体個体、例えば、精子、極体または任意の他のハプロタイプの遺伝物質の集合を指す場合もある。個体は、それ自体を同胞とみなすことができる。 Sibling refers to any individual who has the same genetic parent as the individual in question. In some embodiments, sibling may refer to a born child, embryo, or fetus, or one or more cells derived from a born child, embryo, or fetus. Sibling may also refer to a haploid individual, e.g., sperm, polar body, or any other collection of haplotype genetic material originating from one parent. An individual may consider itself a sibling.

胎児の(fetal)とは、「胎児の(of the fetus)」、または「胎児と遺伝的に類似である胎盤の領域の(of the region of the placenta that is genetically similar to the fetus)」を指す。妊娠中の女性では、胎盤の一部は胎児と遺伝的に類似であり、母系の血液中に見いだされる浮動性胎児DNAは、遺伝子型が胎児と一致する胎盤の部分を起源とし得る。胎児の染色体の半分の遺伝子情報は、胎児の母親から遺伝によって受け継がれることに留意されたい。いくつかの実施形態では、胎児の細胞に由来するこれらの母系的に遺伝によって受け継がれた染色体からのDNAは、「母体起源の(of maternal origin)」ものではなく「胎児起源の(of fetal origin)」ものと考えられる。 Fetal refers to "of the fetus" or "of the region of the placenta that is genetically similar to the fetus." In pregnant women, parts of the placenta are genetically similar to the fetus, and free-floating fetal DNA found in maternal blood may originate from parts of the placenta that are genotypically similar to the fetus. Note that the genetic information of half of the fetal chromosomes is inherited from the fetus's mother. In some embodiments, DNA from these maternally inherited chromosomes that originate from fetal cells is considered to be "of fetal origin" rather than "of maternal origin."

胎児起源のDNAとは、元々は遺伝子型が基本的に胎児の遺伝子型と等しい細胞の一部であったDNAを指す。 DNA of fetal origin refers to DNA that was originally part of a cell whose genotype was essentially equivalent to that of the fetus.

母体起源のDNAとは、元々は遺伝子型が基本的に母親の遺伝子型と等しい細胞の一部であったDNAを指す。 DNA of maternal origin refers to DNA that was originally part of a cell whose genotype was essentially identical to that of the mother.

子とは、胚、割球または胎児を指し得る。ここで開示されている実施形態では、記載されている概念は、生まれた子、胎児、胚またはそれら由来の細胞の集合である個体に同等に良好に当てはまることに留意されたい。子という用語の使用は、単に子と称される個体が親の遺伝学的子孫であることを内包することを意味する。 Offspring may refer to an embryo, blastomere, or fetus. Note that in the presently disclosed embodiments, the concepts described apply equally well to an individual that is a born child, fetus, embryo, or collection of cells derived therefrom. The use of the term offspring is simply meant to connote that the individual referred to as offspring is the genetic descendant of the parent.

親とは、個体の遺伝学的母親または父親を指す。個体は、一般には、2体の親、母親および父親を有するが、これは、例えば、遺伝子または染色体のキメラ現象において、必ずしもそうではない。親は個体とみなすことができる。 Parent refers to an individual's genetic mother or father. An individual generally has two parents, a mother and a father, but this is not necessarily the case, for example in genetic or chromosomal chimerism. A parent can be considered an individual.

親の状況とは、標的の2体の親の一方または両方について、2つの関連性のある染色体のそれぞれにおける所与のSNPの遺伝子の状態を指す。 Parental context refers to the genetic state of a given SNP on each of the two relevant chromosomes for one or both of the two target parents.

所望の通り発生させる、同様に「正常に発生させる」とは、成長可能な胚を子宮内に着床させ、妊娠をもたらすこと、および/または、妊娠を継続し、出生をもたらすこと、および/または、生まれた子に染色体異常がないこと、および/または、生まれた子に他の望ましくない遺伝子の状態、例えば、疾患連鎖遺伝子がないことを指す。「所望の通り発生させる」という用語は、親または健康管理の補助者により所望され得るいかなるものも包含することを意味する。いくつかの場合には、「所望の通り発生させる」とは、医学的な研究または他の目的に有用である成長できない胚または成長可能な胚を指し得る。 Desired development, as well as "normal development," refers to implantation of a viable embryo in the uterus resulting in pregnancy, and/or continuation of the pregnancy resulting in live birth, and/or the absence of chromosomal abnormalities in the offspring, and/or the absence of other undesirable genetic conditions in the offspring, such as disease-linked genes. The term "desired development" is meant to encompass anything that may be desired by a parent or health care provider. In some cases, "desired development" may refer to a non-viable or viable embryo that is useful for medical research or other purposes.

子宮への挿入とは、インビトロでの受精との関連において胚を子宮腔に移入するプロセスを指す。 Uterine insertion refers to the process of transferring an embryo into the uterine cavity in the context of in vitro fertilization.

母系の血漿とは、妊娠中の女性由来の血液の血漿部分を指す。 Maternal plasma refers to the plasma portion of blood from a pregnant woman.

臨床的決定とは、個体の健康または生存に影響を及ぼす転帰を有する措置を取るか取らないかの任意の決定を指す。出生前診断との関連において、臨床的決定とは、胎児を流産するか流産しないかの決定を指し得る。臨床的決定とは、さらなる検査を行うこと、望ましくない表現型を減ずるための措置を取ること、または異常を持つ子の誕生の準備をするための措置を取ることの決定を指す場合もある。 A clinical decision refers to any decision to take or not take an action that has an outcome that affects the health or survival of an individual. In the context of prenatal diagnosis, a clinical decision may refer to the decision to abort or not abort a fetus. A clinical decision may also refer to the decision to perform further testing, to take action to reduce an undesirable phenotype, or to take action to prepare for the birth of a child with an abnormality.

診断ボックスとは、本明細書に開示されている方法の1つまたは複数の態様を実施するために設計された1つの機械またはその機械の組み合わせを指す。ある実施形態では、診断ボックスは、患者をケアする所に置くことができる。ある実施形態では、診断ボックスにより、標的化増幅、その後の配列決定を実施することができる。ある実施形態では、診断ボックスは、単独で、または技師の補助で機能し得る。 Diagnostic Box refers to a machine or combination of machines designed to perform one or more aspects of the methods disclosed herein. In some embodiments, the Diagnostic Box can be located at a patient care location. In some embodiments, the Diagnostic Box can perform targeted amplification followed by sequencing. In some embodiments, the Diagnostic Box can function alone or with the assistance of a technician.

インフォマティクスに基づく方法とは、大量のデータを解明するために、統計量に大きく依拠する方法を指す。出生前診断との関連において、インフォマティクスに基づく方法とは、1個または複数個の染色体における倍数性状態または1個または複数個の対立遺伝子における対立遺伝子の状態を、状態を直接物理的に測定することによってではなく、例えば、分子アレイまたは配列決定からの大量の遺伝子データを考慮して、最も可能性が高い状態を統計学的に推論することによって決定するために設計された方法を指す。本開示のある実施形態では、インフォマティクスに基づく技法は、本特許に開示されているものであってよい。本開示のある実施形態では、インフォマティクスに基づく技法はPARENTAL SUPPORT(商標)であってよい。 Informatics-based methods refer to methods that rely heavily on statistics to make sense of large amounts of data. In the context of prenatal diagnosis, informatics-based methods refer to methods designed to determine the ploidy state at one or more chromosomes or the allelic state at one or more alleles not by direct physical measurement of the state, but by statistically inferring the most likely state given large amounts of genetic data, e.g., from molecular arrays or sequencing. In some embodiments of the present disclosure, the informatics-based technique may be one disclosed in this patent. In some embodiments of the present disclosure, the informatics-based technique may be PARENTAL SUPPORT™.

一次遺伝子データとは、遺伝子型決定プラットフォームから出力されるアナログの強度シグナルを指す。SNPアレイとの関連において、一次遺伝子データとは、いかなる遺伝子型コールも行われる前の強度シグナルを指す。配列決定との関連において、一次遺伝子データとは、いかなる塩基対の同一性も決定される前、および配列がゲノムにマッピングされる前にシーケンサーから生じる、クロマトグラムと類似しているアナログ測定値を指す。 Primary genetic data refers to the analog intensity signal output from a genotyping platform. In the context of SNP arrays, primary genetic data refers to the intensity signal before any genotype calls are made. In the context of sequencing, primary genetic data refers to the analog measurements, similar to a chromatogram, that come out of the sequencer before any base pair identities are determined and before the sequence is mapped to the genome.

二次遺伝子データとは、遺伝子型決定プラットフォームから出力される加工された遺伝子データを指す。SNPアレイとの関連において、二次遺伝子データとは、SNPアレイリーダーに付随するソフトウェアによって行われる対立遺伝子コールを指し、該ソフトウェアにより、試料中に所与の対立遺伝子が存在するか存在しないかのコールが行われる。配列決定との関連において、二次遺伝子データとは、配列の塩基対の同一性が決定されることを指し、場合によっては、同様に、配列がゲノムにマッピングされたことを指す。 Secondary genetic data refers to the processed genetic data output from a genotyping platform. In the context of SNP arrays, secondary genetic data refers to the allele calls made by software associated with the SNP array reader that calls the presence or absence of a given allele in a sample. In the context of sequencing, secondary genetic data refers to the base pair identity of a sequence being determined, and in some cases, the sequence being mapped to a genome as well.

非侵襲的な出生前診断(NPD)または、同様に「非侵襲的な出生前スクリーニング」(NPS)とは、母親の血液中に見いだされる遺伝物質を用いて、母親が妊娠中の胎児の遺伝子の状態を決定する方法を指し、遺伝物質は、母親の静脈内血液を抜き取ることによって得る。 Non-invasive prenatal diagnosis (NPD) or, similarly, "non-invasive prenatal screening" (NPS) refers to a method of determining the genetic status of a fetus during pregnancy by a mother using genetic material found in the mother's blood, which is obtained by drawing the mother's intravenous blood.

遺伝子座に対応するDNAを優先的に富化すること、または遺伝子座におけるDNAを優先的に富化することは、その遺伝子座に対応する富化後のDNA混合物中のDNA分子の百分率を、その遺伝子座に対応する富化前のDNA混合物中のDNA分子の百分率よりも高くする任意の方法を指す。前記方法は、遺伝子座に対応するDNA分子の選択的増幅を包含し得る。前記方法は、遺伝子座に対応しないDNA分子を除去するステップを包含し得る。前記方法は、方法の組み合わせを包含し得る。富化の程度は、その遺伝子座に対応する富化後の混合物におけるDNA分子の百分率を、その遺伝子座に対応する富化前の混合物におけるDNA分子の百分率で割ったものと定義される。優先的な富化は、複数の遺伝子座において行うことができる。本開示のいくつかの実施形態では、富化の程度は20を超える。本開示のいくつかの実施形態では、富化の程度は200を超える。本開示のいくつかの実施形態では、富化の程度は2,000を超える。優先的な富化を複数の遺伝子座において行う場合、富化の程度とは、遺伝子座の集合内の全ての遺伝子座の平均の富化の程度を指し得る。 Preferential enrichment of DNA corresponding to a locus or preferential enrichment of DNA at a locus refers to any method that results in a higher percentage of DNA molecules in the enriched DNA mixture that correspond to the locus than the percentage of DNA molecules in the pre-enriched DNA mixture that correspond to the locus. The method may include selective amplification of DNA molecules that correspond to the locus. The method may include removing DNA molecules that do not correspond to the locus. The method may include a combination of methods. The degree of enrichment is defined as the percentage of DNA molecules in the enriched mixture that correspond to the locus divided by the percentage of DNA molecules in the pre-enriched mixture that correspond to the locus. Preferential enrichment can be performed at multiple loci. In some embodiments of the present disclosure, the degree of enrichment is greater than 20. In some embodiments of the present disclosure, the degree of enrichment is greater than 200. In some embodiments of the present disclosure, the degree of enrichment is greater than 2,000. When preferential enrichment is performed at multiple loci, the degree of enrichment can refer to the average degree of enrichment of all loci in the set of loci.

増幅とは、DNA分子のコピーの数を増加させる方法を指す。 Amplification refers to a method for increasing the number of copies of a DNA molecule.

選択的な増幅とは、特定のDNA分子またはDNAの特定の領域に対応するDNA分子のコピーの数を増加させる方法を指し得る。選択的な増幅とは、特定の標的のDNA分子または標的のDNAの領域のコピーの数を、DNAの標識していない分子または領域を増大させるよりも増加させる方法を指す場合もある。選択的な増幅は、優先的に富化する方法であってよい。 Selective amplification can refer to a method of increasing the number of copies of a particular DNA molecule or a DNA molecule that corresponds to a particular region of DNA. Selective amplification can also refer to a method of increasing the number of copies of a particular target DNA molecule or region of target DNA over increasing unlabeled molecules or regions of DNA. Selective amplification can be a method of preferential enrichment.

ユニバーサルプライミング配列とは、標的DNA分子の集団に、例えば、ライゲーション、PCRまたはライゲーション媒介性PCRによって付加することができるDNA配列を指す。標的分子の集団に付加した後、ユニバーサルプライミング配列に特異的なプライマーを用いて、増幅プライマーの単一の対を使用して標的集団を増幅することができる。ユニバーサルプライミング配列は、一般には、標的配列に関連しない。 A universal priming sequence refers to a DNA sequence that can be added to a population of target DNA molecules, for example, by ligation, PCR, or ligation-mediated PCR. Once added to a population of target molecules, a primer specific to the universal priming sequence can be used to amplify the target population using a single pair of amplification primers. The universal priming sequence is generally not related to the target sequence.

ユニバーサルアダプタまたは「ライゲーションアダプタ」または「ライブラリータグ」
は、標的二本鎖DNA分子の集団の5’末端および3’末端に共有結合的に連結することができるユニバーサルプライミング配列を含有するDNA分子である。アダプタを付加することにより、そこからPCR増幅を行うことができる標的集団の5’末端および3’末端にユニバーサルプライミング配列がもたらされ、標的集団由来の全ての分子を、増幅プライマーの単一の対を使用して増幅する。
Universal Adapters or "Ligation Adapters" or "Library Tags"
is a DNA molecule that contains a universal priming sequence that can be covalently linked to the 5' and 3' ends of a population of target double-stranded DNA molecules. The addition of adapters provides universal priming sequences at the 5' and 3' ends of the target population from which PCR amplification can be performed, amplifying all molecules from the target population using a single pair of amplification primers.

標的化とは、DNAの混合物中の遺伝子座の集合に対応するDNA分子を選択的に増幅する、または別の方法で優先的に富化するために使用される方法を指す。 Targeting refers to methods used to selectively amplify or otherwise preferentially enrich DNA molecules that correspond to a set of loci in a mixture of DNA.

同時分布モデルとは、複数のランダムな変数に関して定義済みの事象の確率を、変数の確率が関連づけられている、同じ確率空間に対して定義済みの複数のランダムな変数を考慮して、定義するモデルを指す。いくつかの実施形態では、変数の確率が関連づけられていない退化事例を用いることができる。 A joint distribution model refers to a model that defines the probability of a defined event with respect to multiple random variables, considering multiple random variables defined over the same probability space, where the probabilities of the variables are related. In some embodiments, degenerate cases can be used, where the probabilities of the variables are not related.

ここで開示されている実施形態は、添付図を参照してさらに説明され、同様の構造はいくつかの概観を通じて同様の数字で参照される。示されている図は必ずしも一定の縮尺ではなく、概して、ここで開示されている実施形態の原理の例示が強調されている。 The presently disclosed embodiments are further described with reference to the accompanying drawings, in which like structures are referenced by like numerals throughout the several views. The drawings shown are not necessarily to scale, with emphasis generally being placed upon illustrating the principles of the presently disclosed embodiments.

直接多重mini-PCR法の模式図である。FIG. 2 is a schematic diagram of the direct multiplex mini-PCR method. セミネステッドmini-PCR法の説明図である。FIG. 2 is an illustration of the semi-nested mini-PCR method. 完全ネステッドmini-PCR法の説明図である。FIG. 2 is a diagram illustrating the fully nested mini-PCR method. ヘミネステッドmini-PCR法の説明図である。FIG. 2 is an illustration of the hemi-nested mini-PCR method. 3重ヘミネステッドmini-PCR法の説明図である。FIG. 2 is an illustration of triple hemi-nested mini-PCR. 片側ネステッドmini-PCR法の説明図である。FIG. 2 is a diagram illustrating one-sided nested mini-PCR. 片側mini-PCR法の説明図である。FIG. 2 is an explanatory diagram of one-sided mini-PCR method. 逆セミネステッドmini-PCR法の説明図である。FIG. 2 is a schematic diagram of the reverse semi-nested mini-PCR method. セミネステッド法のいくつかの可能性のあるワークフロー図である。FIG. 1 is a diagram of some possible workflows for the semi-nested method. ループライゲーションアダプタの説明図である。FIG. 1 is an illustration of a loop ligation adaptor. 内部にタグを付けたプライマーの説明図である。FIG. 1 is an illustration of internally tagged primers. 内部のタグを有するいくつかのプライマーの例である。1 is an example of some primers with internal tags. ライゲーションアダプタ結合領域を有するプライマーを使用する方法の説明図である。FIG. 1 is an illustration of a method using a primer with a ligation adaptor binding region. 2つの異なる分析技法を用いた計数方法についてのシミュレートされた倍数性コールの正確度を示すグラフである。1 is a graph showing simulated ploidy calling accuracy for counting methods using two different analytical techniques. 実験4の細胞系における複数のSNPについての2個の対立遺伝子の比を示す図である。FIG. 1 shows the ratio of the two alleles for multiple SNPs in cell lines from experiment 4. 染色体により分けた、実験4の細胞系における複数のSNPについての2つの対立遺伝子の比を示す図である。FIG. 1 shows the ratio of the two alleles for multiple SNPs in cell lines from experiment 4, separated by chromosome. 図17A~Dは、染色体により分けた、4人の妊娠中の女性の血漿試料における複数のSNPについての2個の対立遺伝子の比を示す図である。17A-D show the ratios of the two alleles for multiple SNPs in plasma samples of four pregnant women, separated by chromosome. 図17A~Dは、染色体により分けた、4人の妊娠中の女性の血漿試料における複数のSNPについての2個の対立遺伝子の比を示す図である。17A-D show the ratios of the two alleles for multiple SNPs in plasma samples of four pregnant women, separated by chromosome. 図17A~Dは、染色体により分けた、4人の妊娠中の女性の血漿試料における複数のSNPについての2個の対立遺伝子の比を示す図である。17A-D show the ratios of the two alleles for multiple SNPs in plasma samples of four pregnant women, separated by chromosome. 図17A~Dは、染色体により分けた、4人の妊娠中の女性の血漿試料における複数のSNPについての2個の対立遺伝子の比を示す図である。17A-D show the ratios of the two alleles for multiple SNPs in plasma samples of four pregnant women, separated by chromosome. データ補正の前後の二項分散によって説明することができるデータの割合を示すグラフである。1 is a graph showing the proportion of data that can be explained by binomial variance before and after data correction. 短いライブラリー調製プロトコール後の試料中の胎児DNAの相対的な富化を示すグラフである。1 is a graph showing the relative enrichment of fetal DNA in samples following a short library preparation protocol. リード深度に関し直接PCRとセミネステッド法を比較したグラフである。1 is a graph comparing direct PCR and semi-nested methods in terms of read depth. 3種のゲノム試料の直接PCRのリード深度の比較を示すグラフである。Graph showing comparison of direct PCR read depth for three genomic samples. 3種の試料のセミネステッドmini-PCRのリード深度の比較を示すグラフである。Graph showing comparison of semi-nested mini-PCR read depth for three samples. 1,200プレックス反応および9,600プレックス反応のリード深度の比較を示すグラフである。1 is a graph showing a comparison of read depth for 1,200-plex and 9,600-plex reactions. 6種の細胞について3つの染色体におけるリード数比率を示すグラフである。Graph showing read number ratios in three chromosomes for six types of cells. 3種の染色体における、2つの3細胞反応についての、および1ngのゲノムDNAに対して行った第3の反応についての対立遺伝子の比を示す図である。FIG. 1 shows allelic ratios for three chromosomes for two three-cell reactions and for a third reaction performed on 1 ng of genomic DNA. 3種の染色体における、2つの単一細胞反応についての対立遺伝子の比を示す図である。FIG. 1 shows allelic ratios for two single-cell reactions in three chromosomes. 2種のプライマー ライブラリーのそれぞれにより標的とされる特定のマイナー対立遺伝子頻度を有する遺伝子座の数を示す図である。FIG. 1 shows the number of loci with a particular minor allele frequency targeted by each of the two primer libraries. 図28A:PCR産物の電気泳動のグラフである。FIG. 28A: Electrophoresis graph of PCR products. 図28B~28Mは、図28A中のそれぞれのレーン1~12の電気泳動図である。28B-28M are electropherograms of lanes 1-12, respectively, in FIG. 28A. 図28B~28Mは、図28A中のそれぞれのレーン1~12の電気泳動図である。28B-28M are electropherograms of lanes 1-12, respectively, in FIG. 28A. 図28B~28Mは、図28A中のそれぞれのレーン1~12の電気泳動図である。28B-28M are electropherograms of lanes 1-12, respectively, in FIG. 28A. 図29A~29E:胎児の異数性の決定用の本発明の方法のイメージ表現である(図29A)。ハップマップデータベース由来の母系および父系遺伝子型データ(血液または頬スワブ由来)および乗換え頻度データを利用してそれぞれの可能な胎児倍数性状態に対する複数の独立仮説をインシリコにより生成する(図29B)。これらの仮説のそれぞれを異なる可能な乗換え点を考慮に入れた副次的仮説を含むように拡張する。データモデルにより、それぞれの仮説上の胎児の遺伝子型および異なる胎児のcfDNA割合に対して、生成しそうな配列決定データが予測され(予測対立遺伝子分布)、実際の配列決定データと比較される(図29C)。ベイズ統計学を使ってそれぞれの仮説に対する尤度が決定される。この仮説上の例で、最高尤度(正倍数性)を有する仮説が決定される(図29D)。図29Cのそれぞれのコピー数仮説ファミリー(モノソミー、ダイソミー、または三倍体性)の個別の尤度が合計される。最大尤度の仮説は、倍数性状態としてコールされ、胎児画分を明らかにし、試料特異的な計算精度(図29E)を示す。Figures 29A-29E: Image representation of the method of the present invention for determining fetal aneuploidy (Figure 29A). Maternal and paternal genotype data (from blood or cheek swabs) and crossover frequency data from the HapMap database are used to generate multiple independent hypotheses for each possible fetal ploidy state in silico (Figure 29B). Each of these hypotheses is expanded to include sub-hypotheses that take into account different possible crossover points. The data model predicts the likely sequencing data (predicted allele distribution) for each hypothetical fetal genotype and different fetal cfDNA percentages and compares them to the actual sequencing data (Figure 29C). The likelihood for each hypothesis is determined using Bayesian statistics. In this hypothetical example, the hypothesis with the highest likelihood (euploidy) is determined (Figure 29D). The individual likelihoods of each copy number hypothesis family (monosomy, disomy, or triploidy) in Figure 29C are summed. The maximum likelihood hypothesis was called as the ploidy state, accounting for the fetal fraction and showing sample-specific calculation accuracy (FIG. 29E). 図30A~30H:正倍数性(図30A~30C)、モノソミー(図30D)、およびトリソミー(図30E~30H)の代表的なグラフ表示である。全プロットでx軸は、それぞれの染色体(プロットの下部に示す)に沿った個別多形遺伝子座のリニア位置、およびy軸は、合計(A+B)対立遺伝子リード中の割合としてA対立遺伝子リード数を表す。母系および胎児の遺伝子型、ならびに、バンドの中心となるy軸の位置はプロットの右側に示されている。見やすくする必要があれば、赤色がAAの母系遺伝子型を示し、青色がBBの母系遺伝子型を示し、緑色がABの母系遺伝子型を示すように、母系遺伝子型に応じてプロットを色分けしてもよい。必要があれば、母系対立遺伝子の寄与を「胎児の遺伝子型」の列中に色で示してもよい。対立遺伝子の寄与は、母がAAで胎児がABである対立遺伝子の場合にAA|ABのように、母系|胎児の形式で表される。図30Aは、2個の染色体が存在し、胎児のcfDNA画分が0%である場合に生成したプロットである。このプロットは非妊婦由来であり、従って、遺伝子型が完全に母系である場合のパターンを表す。従って、対立遺伝子クラスターは、1(AA対立遺伝子)、0.5(AB対立遺伝子)、および0(BB対立遺伝子)を中心として分布する。図30Bは、2個の染色体が存在し、胎児画分が12%の場合に生成するプロットを示す。A対立遺伝子リードの割合に対する胎児の対立遺伝子の寄与により、一部の対立遺伝子スポットの位置がy軸に沿って上下に移動する。そのために、バンドは、1(AA|AA対立遺伝子)、0.94(AA|AB対立遺伝子)、0.56(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.44(AB|BB対立遺伝子)、0.06(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心になる。図30Cは、2個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。2本の赤色と2本の青色の周辺バンドおよび三つ組の中央の緑色のバンドを含むパターンが容易に見てとれる(色は図には示されていない)。バンドは、1(AA|AA対立遺伝子)、0.87(AA|AB対立遺伝子)、0.63(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.37(AB|BB対立遺伝子)、0.13(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心となる。図30Dは、1個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。1本の外側赤色および1本の外側青色周辺バンド、ならびに、2本の中央部の緑色のバンドのホールマークパターンは、母系遺伝モノソミーを示した(色は図には示されていない)。胎児は対立遺伝子リードに対し、単一対立遺伝子(AまたはB)のみに寄与するので、内側の周辺部の赤色および青色バンドは存在せず、中央部の三つ組バンドは、2本のバンドに圧縮される(色は図には示されていない)。バンドは、1(AA|A対立遺伝子)、0.57(AB|A対立遺伝子)、0.43(AB|B対立遺伝子)、および0(BB|B対立遺伝子)が中心である。図30Eは、3個の染色体が存在し、胎児画分が27%の場合に生成されたプロットである。2本の赤色および2本の青色周辺バンドならびに2本の中心部緑色のバンドのこのパターンは、母系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.88(AA|AAB対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.12(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)を中心とする。図30Fは、3個の染色体が存在し、胎児画分が14%の場合に生成したプロットである。3本の赤色と3本の青色周辺バンド、ならびに2本の中心部緑色バンドのこのパターンは、父系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.93(AA|AAB対立遺伝子)、0.87(AA|ABB対立遺伝子)、0.60(AB|AAA対立遺伝子)、0.53(AB|AAB対立遺伝子)、0.47(AB|ABB対立遺伝子)、0.40(AB|BBB対立遺伝子)、0.13(BB|AAB対立遺伝子)、0.07(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Gは、3個の染色体が存在し、胎児画分が35%の場合に生成されたプロットである。2本の赤色と2本の青色周辺バンドおよび4本の緑色バンドのこのパターンは、母系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.85(AA|AAB対立遺伝子)、0.72(AB|AAA対立遺伝子)、0.57(AB|AAB対立遺伝子)、0.43(AB|ABB対立遺伝子)、0.28(AB|BBB対立遺伝子)、0.15(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Hは、3個の染色体が存在し、胎児画分が25%の場合に生成したプロットである。2本の赤色と2本の青色周辺バンド、ならびに、4本の中心部の緑色のバンドのこのパターンは、父系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。このパターンは、母系遺伝有糸分裂トリソミー(図30Gのような)のパターンとは、内側周辺バンドの位置により識別できる。具体的には、バンドは、1(AA|AAA対立遺伝子)、0.78(AA|ABB対立遺伝子)、0.67(AB|AAA対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.33(AB|BBB対立遺伝子)、0.22(BB|AAB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。30A-30H: Representative graphical representations of euploidy (FIGS. 30A-30C), monosomy (FIG. 30D), and trisomy (FIGS. 30E-30H). In all plots, the x-axis represents the linear position of the individual polymorphic locus along the respective chromosome (shown at the bottom of the plot), and the y-axis represents the number of A allele reads as a percentage of the total (A+B) allele reads. Maternal and fetal genotypes, as well as the y-axis location of the band centers, are shown to the right of the plots. If needed for ease of visualization, plots can be color-coded according to maternal genotype, with red indicating AA maternal genotype, blue indicating BB maternal genotype, and green indicating AB maternal genotype. If needed, maternal allele contributions can be indicated by color in the "fetal genotype" column. Allele contributions are expressed in the format maternal|fetal, such as AA|AB for AA maternal and AB fetal alleles. FIG. 30A shows a plot generated when there are two chromosomes and the fetal cfDNA fraction is 0%. This plot is from a non-pregnant woman and therefore represents a pattern when the genotype is entirely maternal. Thus, the allele clusters are centered around 1 (AA alleles), 0.5 (AB alleles), and 0 (BB alleles). FIG. 30B shows a plot generated when there are two chromosomes and the fetal fraction is 12%. Due to the contribution of fetal alleles to the proportion of A allele reads, the position of some allele spots shifts up and down along the y-axis. Therefore, the bands are centered around 1 (AA|AA alleles), 0.94 (AA|AB alleles), 0.56 (AB|AA alleles), 0.50 (AB|AB alleles), 0.44 (AB|BB alleles), 0.06 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30C shows a plot generated when two chromosomes are present and the fetal fraction is 26%. The pattern is easily visible, including two red and two blue peripheral bands and a triplet of central green bands (colors not shown). The bands are centered at 1 (AA|AA alleles), 0.87 (AA|AB alleles), 0.63 (AB|AA alleles), 0.50 (AB|AB alleles), 0.37 (AB|BB alleles), 0.13 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30D shows a plot generated when one chromosome is present and the fetal fraction is 26%. The hallmark pattern of one outer red and one outer blue peripheral band, and two central green bands, indicates maternally inherited monosomy (colors not shown). Because the fetus contributes only a single allele (A or B) to the allelic reads, the inner peripheral red and blue bands are absent and the central triplet band is compressed to two bands (colors not shown in figure). The bands are centered at 1 (AA|A allele), 0.57 (AB|A allele), 0.43 (AB|B allele), and 0 (BB|B allele). Figure 30E is a plot generated when three chromosomes are present and the fetal fraction is 27%. This pattern of two red and two blue peripheral bands and two central green bands indicates a maternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.88 (AA|AAB alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.12 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30F is a plot generated when three chromosomes are present and the fetal fraction is 14%. This pattern of three red and three blue peripheral bands and two central green bands indicates a paternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.93 (AA|AAB alleles), 0.87 (AA|ABB alleles), 0.60 (AB|AAA alleles), 0.53 (AB|AAB alleles), 0.47 (AB|ABB alleles), 0.40 (AB|BBB alleles), 0.13 (BB|AAB alleles), 0.07 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30G is a plot generated when three chromosomes are present and the fetal fraction is 35%. This pattern of two red and two blue peripheral bands and four green bands indicates a maternally inherited mitotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.85 (AA|AAB alleles), 0.72 (AB|AAA alleles), 0.57 (AB|AAB alleles), 0.43 (AB|ABB alleles), 0.28 (AB|BBB alleles), 0.15 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30H is a plot generated when three chromosomes are present and the fetal fraction is 25%. This pattern of two red and two blue peripheral bands and four central green bands indicates a paternally inherited mitotic trisomy (colors not shown in the figure). This pattern can be distinguished from that of a maternally inherited mitotic trisomy (as in Figure 30G) by the location of the inner peripheral bands. Specifically, the bands are centered at 1 (AA|AAA alleles), 0.78 (AA|ABB alleles), 0.67 (AB|AAA alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.33 (AB|BBB alleles), 0.22 (BB|AAB alleles), and 0 (BB|BBB alleles). 図30A~30H:正倍数性(図30A~30C)、モノソミー(図30D)、およびトリソミー(図30E~30H)の代表的なグラフ表示である。全プロットでx軸は、それぞれの染色体(プロットの下部に示す)に沿った個別多形遺伝子座のリニア位置、およびy軸は、合計(A+B)対立遺伝子リード中の割合としてA対立遺伝子リード数を表す。母系および胎児の遺伝子型、ならびに、バンドの中心となるy軸の位置はプロットの右側に示されている。見やすくする必要があれば、赤色がAAの母系遺伝子型を示し、青色がBBの母系遺伝子型を示し、緑色がABの母系遺伝子型を示すように、母系遺伝子型に応じてプロットを色分けしてもよい。必要があれば、母系対立遺伝子の寄与を「胎児の遺伝子型」の列中に色で示してもよい。対立遺伝子の寄与は、母がAAで胎児がABである対立遺伝子の場合にAA|ABのように、母系|胎児の形式で表される。図30Aは、2個の染色体が存在し、胎児のcfDNA画分が0%である場合に生成したプロットである。このプロットは非妊婦由来であり、従って、遺伝子型が完全に母系である場合のパターンを表す。従って、対立遺伝子クラスターは、1(AA対立遺伝子)、0.5(AB対立遺伝子)、および0(BB対立遺伝子)を中心として分布する。図30Bは、2個の染色体が存在し、胎児画分が12%の場合に生成するプロットを示す。A対立遺伝子リードの割合に対する胎児の対立遺伝子の寄与により、一部の対立遺伝子スポットの位置がy軸に沿って上下に移動する。そのために、バンドは、1(AA|AA対立遺伝子)、0.94(AA|AB対立遺伝子)、0.56(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.44(AB|BB対立遺伝子)、0.06(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心になる。図30Cは、2個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。2本の赤色と2本の青色の周辺バンドおよび三つ組の中央の緑色のバンドを含むパターンが容易に見てとれる(色は図には示されていない)。バンドは、1(AA|AA対立遺伝子)、0.87(AA|AB対立遺伝子)、0.63(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.37(AB|BB対立遺伝子)、0.13(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心となる。図30Dは、1個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。1本の外側赤色および1本の外側青色周辺バンド、ならびに、2本の中央部の緑色のバンドのホールマークパターンは、母系遺伝モノソミーを示した(色は図には示されていない)。胎児は対立遺伝子リードに対し、単一対立遺伝子(AまたはB)のみに寄与するので、内側の周辺部の赤色および青色バンドは存在せず、中央部の三つ組バンドは、2本のバンドに圧縮される(色は図には示されていない)。バンドは、1(AA|A対立遺伝子)、0.57(AB|A対立遺伝子)、0.43(AB|B対立遺伝子)、および0(BB|B対立遺伝子)が中心である。図30Eは、3個の染色体が存在し、胎児画分が27%の場合に生成されたプロットである。2本の赤色および2本の青色周辺バンドならびに2本の中心部緑色のバンドのこのパターンは、母系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.88(AA|AAB対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.12(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)を中心とする。図30Fは、3個の染色体が存在し、胎児画分が14%の場合に生成したプロットである。3本の赤色と3本の青色周辺バンド、ならびに2本の中心部緑色バンドのこのパターンは、父系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.93(AA|AAB対立遺伝子)、0.87(AA|ABB対立遺伝子)、0.60(AB|AAA対立遺伝子)、0.53(AB|AAB対立遺伝子)、0.47(AB|ABB対立遺伝子)、0.40(AB|BBB対立遺伝子)、0.13(BB|AAB対立遺伝子)、0.07(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Gは、3個の染色体が存在し、胎児画分が35%の場合に生成されたプロットである。2本の赤色と2本の青色周辺バンドおよび4本の緑色バンドのこのパターンは、母系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.85(AA|AAB対立遺伝子)、0.72(AB|AAA対立遺伝子)、0.57(AB|AAB対立遺伝子)、0.43(AB|ABB対立遺伝子)、0.28(AB|BBB対立遺伝子)、0.15(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Hは、3個の染色体が存在し、胎児画分が25%の場合に生成したプロットである。2本の赤色と2本の青色周辺バンド、ならびに、4本の中心部の緑色のバンドのこのパターンは、父系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。このパターンは、母系遺伝有糸分裂トリソミー(図30Gのような)のパターンとは、内側周辺バンドの位置により識別できる。具体的には、バンドは、1(AA|AAA対立遺伝子)、0.78(AA|ABB対立遺伝子)、0.67(AB|AAA対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.33(AB|BBB対立遺伝子)、0.22(BB|AAB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。30A-30H: Representative graphical representations of euploidy (FIGS. 30A-30C), monosomy (FIG. 30D), and trisomy (FIGS. 30E-30H). In all plots, the x-axis represents the linear position of the individual polymorphic locus along the respective chromosome (shown at the bottom of the plot), and the y-axis represents the number of A allele reads as a percentage of the total (A+B) allele reads. Maternal and fetal genotypes, as well as the y-axis location of the band centers, are shown to the right of the plots. If needed for ease of visualization, plots can be color-coded according to maternal genotype, with red indicating AA maternal genotype, blue indicating BB maternal genotype, and green indicating AB maternal genotype. If needed, maternal allele contributions can be indicated by color in the "fetal genotype" column. Allele contributions are expressed in the format maternal|fetal, such as AA|AB for AA maternal and AB fetal alleles. FIG. 30A shows a plot generated when there are two chromosomes and the fetal cfDNA fraction is 0%. This plot is from a non-pregnant woman and therefore represents a pattern when the genotype is entirely maternal. Thus, the allele clusters are centered around 1 (AA alleles), 0.5 (AB alleles), and 0 (BB alleles). FIG. 30B shows a plot generated when there are two chromosomes and the fetal fraction is 12%. Due to the contribution of fetal alleles to the proportion of A allele reads, the position of some allele spots shifts up and down along the y-axis. Therefore, the bands are centered around 1 (AA|AA alleles), 0.94 (AA|AB alleles), 0.56 (AB|AA alleles), 0.50 (AB|AB alleles), 0.44 (AB|BB alleles), 0.06 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30C shows a plot generated when two chromosomes are present and the fetal fraction is 26%. The pattern is easily visible, including two red and two blue peripheral bands and a triplet of central green bands (colors not shown). The bands are centered at 1 (AA|AA alleles), 0.87 (AA|AB alleles), 0.63 (AB|AA alleles), 0.50 (AB|AB alleles), 0.37 (AB|BB alleles), 0.13 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30D shows a plot generated when one chromosome is present and the fetal fraction is 26%. The hallmark pattern of one outer red and one outer blue peripheral band, and two central green bands, indicates maternally inherited monosomy (colors not shown). Because the fetus contributes only a single allele (A or B) to the allelic reads, the inner peripheral red and blue bands are absent and the central triplet band is compressed to two bands (colors not shown in figure). The bands are centered at 1 (AA|A allele), 0.57 (AB|A allele), 0.43 (AB|B allele), and 0 (BB|B allele). Figure 30E is a plot generated when three chromosomes are present and the fetal fraction is 27%. This pattern of two red and two blue peripheral bands and two central green bands indicates a maternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.88 (AA|AAB alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.12 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30F is a plot generated when three chromosomes are present and the fetal fraction is 14%. This pattern of three red and three blue peripheral bands and two central green bands indicates a paternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.93 (AA|AAB alleles), 0.87 (AA|ABB alleles), 0.60 (AB|AAA alleles), 0.53 (AB|AAB alleles), 0.47 (AB|ABB alleles), 0.40 (AB|BBB alleles), 0.13 (BB|AAB alleles), 0.07 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30G is a plot generated when three chromosomes are present and the fetal fraction is 35%. This pattern of two red and two blue peripheral bands and four green bands indicates a maternally inherited mitotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.85 (AA|AAB alleles), 0.72 (AB|AAA alleles), 0.57 (AB|AAB alleles), 0.43 (AB|ABB alleles), 0.28 (AB|BBB alleles), 0.15 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30H is a plot generated when three chromosomes are present and the fetal fraction is 25%. This pattern of two red and two blue peripheral bands and four central green bands indicates a paternally inherited mitotic trisomy (colors not shown in the figure). This pattern can be distinguished from that of a maternally inherited mitotic trisomy (as in Figure 30G) by the location of the inner peripheral bands. Specifically, the bands are centered at 1 (AA|AAA alleles), 0.78 (AA|ABB alleles), 0.67 (AB|AAA alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.33 (AB|BBB alleles), 0.22 (BB|AAB alleles), and 0 (BB|BBB alleles). 図30A~30H:正倍数性(図30A~30C)、モノソミー(図30D)、およびトリソミー(図30E~30H)の代表的なグラフ表示である。全プロットでx軸は、それぞれの染色体(プロットの下部に示す)に沿った個別多形遺伝子座のリニア位置、およびy軸は、合計(A+B)対立遺伝子リード中の割合としてA対立遺伝子リード数を表す。母系および胎児の遺伝子型、ならびに、バンドの中心となるy軸の位置はプロットの右側に示されている。見やすくする必要があれば、赤色がAAの母系遺伝子型を示し、青色がBBの母系遺伝子型を示し、緑色がABの母系遺伝子型を示すように、母系遺伝子型に応じてプロットを色分けしてもよい。必要があれば、母系対立遺伝子の寄与を「胎児の遺伝子型」の列中に色で示してもよい。対立遺伝子の寄与は、母がAAで胎児がABである対立遺伝子の場合にAA|ABのように、母系|胎児の形式で表される。図30Aは、2個の染色体が存在し、胎児のcfDNA画分が0%である場合に生成したプロットである。このプロットは非妊婦由来であり、従って、遺伝子型が完全に母系である場合のパターンを表す。従って、対立遺伝子クラスターは、1(AA対立遺伝子)、0.5(AB対立遺伝子)、および0(BB対立遺伝子)を中心として分布する。図30Bは、2個の染色体が存在し、胎児画分が12%の場合に生成するプロットを示す。A対立遺伝子リードの割合に対する胎児の対立遺伝子の寄与により、一部の対立遺伝子スポットの位置がy軸に沿って上下に移動する。そのために、バンドは、1(AA|AA対立遺伝子)、0.94(AA|AB対立遺伝子)、0.56(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.44(AB|BB対立遺伝子)、0.06(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心になる。図30Cは、2個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。2本の赤色と2本の青色の周辺バンドおよび三つ組の中央の緑色のバンドを含むパターンが容易に見てとれる(色は図には示されていない)。バンドは、1(AA|AA対立遺伝子)、0.87(AA|AB対立遺伝子)、0.63(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.37(AB|BB対立遺伝子)、0.13(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心となる。図30Dは、1個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。1本の外側赤色および1本の外側青色周辺バンド、ならびに、2本の中央部の緑色のバンドのホールマークパターンは、母系遺伝モノソミーを示した(色は図には示されていない)。胎児は対立遺伝子リードに対し、単一対立遺伝子(AまたはB)のみに寄与するので、内側の周辺部の赤色および青色バンドは存在せず、中央部の三つ組バンドは、2本のバンドに圧縮される(色は図には示されていない)。バンドは、1(AA|A対立遺伝子)、0.57(AB|A対立遺伝子)、0.43(AB|B対立遺伝子)、および0(BB|B対立遺伝子)が中心である。図30Eは、3個の染色体が存在し、胎児画分が27%の場合に生成されたプロットである。2本の赤色および2本の青色周辺バンドならびに2本の中心部緑色のバンドのこのパターンは、母系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.88(AA|AAB対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.12(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)を中心とする。図30Fは、3個の染色体が存在し、胎児画分が14%の場合に生成したプロットである。3本の赤色と3本の青色周辺バンド、ならびに2本の中心部緑色バンドのこのパターンは、父系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.93(AA|AAB対立遺伝子)、0.87(AA|ABB対立遺伝子)、0.60(AB|AAA対立遺伝子)、0.53(AB|AAB対立遺伝子)、0.47(AB|ABB対立遺伝子)、0.40(AB|BBB対立遺伝子)、0.13(BB|AAB対立遺伝子)、0.07(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Gは、3個の染色体が存在し、胎児画分が35%の場合に生成されたプロットである。2本の赤色と2本の青色周辺バンドおよび4本の緑色バンドのこのパターンは、母系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.85(AA|AAB対立遺伝子)、0.72(AB|AAA対立遺伝子)、0.57(AB|AAB対立遺伝子)、0.43(AB|ABB対立遺伝子)、0.28(AB|BBB対立遺伝子)、0.15(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Hは、3個の染色体が存在し、胎児画分が25%の場合に生成したプロットである。2本の赤色と2本の青色周辺バンド、ならびに、4本の中心部の緑色のバンドのこのパターンは、父系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。このパターンは、母系遺伝有糸分裂トリソミー(図30Gのような)のパターンとは、内側周辺バンドの位置により識別できる。具体的には、バンドは、1(AA|AAA対立遺伝子)、0.78(AA|ABB対立遺伝子)、0.67(AB|AAA対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.33(AB|BBB対立遺伝子)、0.22(BB|AAB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。30A-30H: Representative graphical representations of euploidy (FIGS. 30A-30C), monosomy (FIG. 30D), and trisomy (FIGS. 30E-30H). In all plots, the x-axis represents the linear position of the individual polymorphic locus along the respective chromosome (shown at the bottom of the plot), and the y-axis represents the number of A allele reads as a percentage of the total (A+B) allele reads. Maternal and fetal genotypes, as well as the y-axis location of the band centers, are shown to the right of the plots. If needed for ease of visualization, plots can be color-coded according to maternal genotype, with red indicating AA maternal genotype, blue indicating BB maternal genotype, and green indicating AB maternal genotype. If needed, maternal allele contributions can be indicated by color in the "fetal genotype" column. Allele contributions are expressed in the format maternal|fetal, such as AA|AB for AA maternal and AB fetal alleles. FIG. 30A shows a plot generated when there are two chromosomes and the fetal cfDNA fraction is 0%. This plot is from a non-pregnant woman and therefore represents a pattern when the genotype is entirely maternal. Thus, the allele clusters are centered around 1 (AA alleles), 0.5 (AB alleles), and 0 (BB alleles). FIG. 30B shows a plot generated when there are two chromosomes and the fetal fraction is 12%. Due to the contribution of fetal alleles to the proportion of A allele reads, the position of some allele spots shifts up and down along the y-axis. Therefore, the bands are centered around 1 (AA|AA alleles), 0.94 (AA|AB alleles), 0.56 (AB|AA alleles), 0.50 (AB|AB alleles), 0.44 (AB|BB alleles), 0.06 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30C shows a plot generated when two chromosomes are present and the fetal fraction is 26%. The pattern is easily visible, including two red and two blue peripheral bands and a triplet of central green bands (colors not shown). The bands are centered at 1 (AA|AA alleles), 0.87 (AA|AB alleles), 0.63 (AB|AA alleles), 0.50 (AB|AB alleles), 0.37 (AB|BB alleles), 0.13 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30D shows a plot generated when one chromosome is present and the fetal fraction is 26%. The hallmark pattern of one outer red and one outer blue peripheral band, and two central green bands, indicates maternally inherited monosomy (colors not shown). Because the fetus contributes only a single allele (A or B) to the allelic reads, the inner peripheral red and blue bands are absent and the central triplet band is compressed to two bands (colors not shown in figure). The bands are centered at 1 (AA|A allele), 0.57 (AB|A allele), 0.43 (AB|B allele), and 0 (BB|B allele). Figure 30E is a plot generated when three chromosomes are present and the fetal fraction is 27%. This pattern of two red and two blue peripheral bands and two central green bands indicates a maternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.88 (AA|AAB alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.12 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30F is a plot generated when three chromosomes are present and the fetal fraction is 14%. This pattern of three red and three blue peripheral bands and two central green bands indicates a paternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.93 (AA|AAB alleles), 0.87 (AA|ABB alleles), 0.60 (AB|AAA alleles), 0.53 (AB|AAB alleles), 0.47 (AB|ABB alleles), 0.40 (AB|BBB alleles), 0.13 (BB|AAB alleles), 0.07 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30G is a plot generated when three chromosomes are present and the fetal fraction is 35%. This pattern of two red and two blue peripheral bands and four green bands indicates a maternally inherited mitotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.85 (AA|AAB alleles), 0.72 (AB|AAA alleles), 0.57 (AB|AAB alleles), 0.43 (AB|ABB alleles), 0.28 (AB|BBB alleles), 0.15 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30H is a plot generated when three chromosomes are present and the fetal fraction is 25%. This pattern of two red and two blue peripheral bands and four central green bands indicates a paternally inherited mitotic trisomy (colors not shown in the figure). This pattern can be distinguished from that of a maternally inherited mitotic trisomy (as in Figure 30G) by the location of the inner peripheral bands. Specifically, the bands are centered at 1 (AA|AAA alleles), 0.78 (AA|ABB alleles), 0.67 (AB|AAA alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.33 (AB|BBB alleles), 0.22 (BB|AAB alleles), and 0 (BB|BBB alleles). 図30A~30H:正倍数性(図30A~30C)、モノソミー(図30D)、およびトリソミー(図30E~30H)の代表的なグラフ表示である。全プロットでx軸は、それぞれの染色体(プロットの下部に示す)に沿った個別多形遺伝子座のリニア位置、およびy軸は、合計(A+B)対立遺伝子リード中の割合としてA対立遺伝子リード数を表す。母系および胎児の遺伝子型、ならびに、バンドの中心となるy軸の位置はプロットの右側に示されている。見やすくする必要があれば、赤色がAAの母系遺伝子型を示し、青色がBBの母系遺伝子型を示し、緑色がABの母系遺伝子型を示すように、母系遺伝子型に応じてプロットを色分けしてもよい。必要があれば、母系対立遺伝子の寄与を「胎児の遺伝子型」の列中に色で示してもよい。対立遺伝子の寄与は、母がAAで胎児がABである対立遺伝子の場合にAA|ABのように、母系|胎児の形式で表される。図30Aは、2個の染色体が存在し、胎児のcfDNA画分が0%である場合に生成したプロットである。このプロットは非妊婦由来であり、従って、遺伝子型が完全に母系である場合のパターンを表す。従って、対立遺伝子クラスターは、1(AA対立遺伝子)、0.5(AB対立遺伝子)、および0(BB対立遺伝子)を中心として分布する。図30Bは、2個の染色体が存在し、胎児画分が12%の場合に生成するプロットを示す。A対立遺伝子リードの割合に対する胎児の対立遺伝子の寄与により、一部の対立遺伝子スポットの位置がy軸に沿って上下に移動する。そのために、バンドは、1(AA|AA対立遺伝子)、0.94(AA|AB対立遺伝子)、0.56(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.44(AB|BB対立遺伝子)、0.06(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心になる。図30Cは、2個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。2本の赤色と2本の青色の周辺バンドおよび三つ組の中央の緑色のバンドを含むパターンが容易に見てとれる(色は図には示されていない)。バンドは、1(AA|AA対立遺伝子)、0.87(AA|AB対立遺伝子)、0.63(AB|AA対立遺伝子)、0.50(AB|AB対立遺伝子)、0.37(AB|BB対立遺伝子)、0.13(BB|AB対立遺伝子)、および0(BB|BB対立遺伝子)が中心となる。図30Dは、1個の染色体が存在し、胎児画分が26%の場合に生成したプロットを示す。1本の外側赤色および1本の外側青色周辺バンド、ならびに、2本の中央部の緑色のバンドのホールマークパターンは、母系遺伝モノソミーを示した(色は図には示されていない)。胎児は対立遺伝子リードに対し、単一対立遺伝子(AまたはB)のみに寄与するので、内側の周辺部の赤色および青色バンドは存在せず、中央部の三つ組バンドは、2本のバンドに圧縮される(色は図には示されていない)。バンドは、1(AA|A対立遺伝子)、0.57(AB|A対立遺伝子)、0.43(AB|B対立遺伝子)、および0(BB|B対立遺伝子)が中心である。図30Eは、3個の染色体が存在し、胎児画分が27%の場合に生成されたプロットである。2本の赤色および2本の青色周辺バンドならびに2本の中心部緑色のバンドのこのパターンは、母系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.88(AA|AAB対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.12(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)を中心とする。図30Fは、3個の染色体が存在し、胎児画分が14%の場合に生成したプロットである。3本の赤色と3本の青色周辺バンド、ならびに2本の中心部緑色バンドのこのパターンは、父系遺伝減数分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.93(AA|AAB対立遺伝子)、0.87(AA|ABB対立遺伝子)、0.60(AB|AAA対立遺伝子)、0.53(AB|AAB対立遺伝子)、0.47(AB|ABB対立遺伝子)、0.40(AB|BBB対立遺伝子)、0.13(BB|AAB対立遺伝子)、0.07(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Gは、3個の染色体が存在し、胎児画分が35%の場合に生成されたプロットである。2本の赤色と2本の青色周辺バンドおよび4本の緑色バンドのこのパターンは、母系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。バンドは、1(AA|AAA対立遺伝子)、0.85(AA|AAB対立遺伝子)、0.72(AB|AAA対立遺伝子)、0.57(AB|AAB対立遺伝子)、0.43(AB|ABB対立遺伝子)、0.28(AB|BBB対立遺伝子)、0.15(BB|ABB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。図30Hは、3個の染色体が存在し、胎児画分が25%の場合に生成したプロットである。2本の赤色と2本の青色周辺バンド、ならびに、4本の中心部の緑色のバンドのこのパターンは、父系遺伝有糸分裂トリソミーを示す(色は図には示されていない)。このパターンは、母系遺伝有糸分裂トリソミー(図30Gのような)のパターンとは、内側周辺バンドの位置により識別できる。具体的には、バンドは、1(AA|AAA対立遺伝子)、0.78(AA|ABB対立遺伝子)、0.67(AB|AAA対立遺伝子)、0.56(AB|AAB対立遺伝子)、0.44(AB|ABB対立遺伝子)、0.33(AB|BBB対立遺伝子)、0.22(BB|AAB対立遺伝子)、および0(BB|BBB対立遺伝子)が中心である。30A-30H: Representative graphical representations of euploidy (FIGS. 30A-30C), monosomy (FIG. 30D), and trisomy (FIGS. 30E-30H). In all plots, the x-axis represents the linear position of the individual polymorphic locus along the respective chromosome (shown at the bottom of the plot), and the y-axis represents the number of A allele reads as a percentage of the total (A+B) allele reads. Maternal and fetal genotypes, as well as the y-axis location of the band centers, are shown to the right of the plots. If needed for ease of visualization, plots can be color-coded according to maternal genotype, with red indicating AA maternal genotype, blue indicating BB maternal genotype, and green indicating AB maternal genotype. If needed, maternal allele contributions can be indicated by color in the "fetal genotype" column. Allele contributions are expressed in the format maternal|fetal, such as AA|AB for AA maternal and AB fetal alleles. FIG. 30A shows a plot generated when there are two chromosomes and the fetal cfDNA fraction is 0%. This plot is from a non-pregnant woman and therefore represents a pattern when the genotype is entirely maternal. Thus, the allele clusters are centered around 1 (AA alleles), 0.5 (AB alleles), and 0 (BB alleles). FIG. 30B shows a plot generated when there are two chromosomes and the fetal fraction is 12%. Due to the contribution of fetal alleles to the proportion of A allele reads, the position of some allele spots shifts up and down along the y-axis. Therefore, the bands are centered around 1 (AA|AA alleles), 0.94 (AA|AB alleles), 0.56 (AB|AA alleles), 0.50 (AB|AB alleles), 0.44 (AB|BB alleles), 0.06 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30C shows a plot generated when two chromosomes are present and the fetal fraction is 26%. The pattern is easily visible, including two red and two blue peripheral bands and a triplet of central green bands (colors not shown). The bands are centered at 1 (AA|AA alleles), 0.87 (AA|AB alleles), 0.63 (AB|AA alleles), 0.50 (AB|AB alleles), 0.37 (AB|BB alleles), 0.13 (BB|AB alleles), and 0 (BB|BB alleles). FIG. 30D shows a plot generated when one chromosome is present and the fetal fraction is 26%. The hallmark pattern of one outer red and one outer blue peripheral band, and two central green bands, indicates maternally inherited monosomy (colors not shown). Because the fetus contributes only a single allele (A or B) to the allelic reads, the inner peripheral red and blue bands are absent and the central triplet band is compressed to two bands (colors not shown in figure). The bands are centered at 1 (AA|A allele), 0.57 (AB|A allele), 0.43 (AB|B allele), and 0 (BB|B allele). Figure 30E is a plot generated when three chromosomes are present and the fetal fraction is 27%. This pattern of two red and two blue peripheral bands and two central green bands indicates a maternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.88 (AA|AAB alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.12 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30F is a plot generated when three chromosomes are present and the fetal fraction is 14%. This pattern of three red and three blue peripheral bands and two central green bands indicates a paternally inherited meiotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.93 (AA|AAB alleles), 0.87 (AA|ABB alleles), 0.60 (AB|AAA alleles), 0.53 (AB|AAB alleles), 0.47 (AB|ABB alleles), 0.40 (AB|BBB alleles), 0.13 (BB|AAB alleles), 0.07 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30G is a plot generated when three chromosomes are present and the fetal fraction is 35%. This pattern of two red and two blue peripheral bands and four green bands indicates a maternally inherited mitotic trisomy (colors not shown in figure). The bands are centered at 1 (AA|AAA alleles), 0.85 (AA|AAB alleles), 0.72 (AB|AAA alleles), 0.57 (AB|AAB alleles), 0.43 (AB|ABB alleles), 0.28 (AB|BBB alleles), 0.15 (BB|ABB alleles), and 0 (BB|BBB alleles). Figure 30H is a plot generated when three chromosomes are present and the fetal fraction is 25%. This pattern of two red and two blue peripheral bands and four central green bands indicates a paternally inherited mitotic trisomy (colors not shown in the figure). This pattern can be distinguished from that of a maternally inherited mitotic trisomy (as in Figure 30G) by the location of the inner peripheral bands. Specifically, the bands are centered at 1 (AA|AAA alleles), 0.78 (AA|ABB alleles), 0.67 (AB|AAA alleles), 0.56 (AB|AAB alleles), 0.44 (AB|ABB alleles), 0.33 (AB|BBB alleles), 0.22 (BB|AAB alleles), and 0 (BB|BBB alleles). 図31:正倍数体(図31A)、T13(図31B)、T18(図31C)、T21(図31D)、45、X(図31E)、および47、XXY(図31F)試験試料のグラフ表示である。それぞれの染色体を、プロットの上端に、胎児と母系遺伝子型をプロットの右側に示し、x軸は、それぞれの染色体に沿ったSNPのリニア位置を表し、y軸は、合計リードに対する割合で表したA対立遺伝子リード数を示す。本明細書で記載のように、胎児画分に基づきクラスター位置を変化していることに留意されたい。それぞれのスポットは、単一SNP遺伝子座を表す。胎児および母系遺伝子型は、プロットの右側に示され、染色体の識別情報はプロットの上部に示す。Figure 31: Graphical representation of euploid (Figure 31A), T13 (Figure 31B), T18 (Figure 31C), T21 (Figure 31D), 45,X (Figure 31E), and 47,XXY (Figure 31F) test samples. Each chromosome is shown at the top of the plot and fetal and maternal genotypes to the right of the plot, with the x-axis representing the linear position of the SNP along each chromosome and the y-axis showing the number of A allele reads as a percentage of the total reads. Note that the cluster position has been changed based on the fetal fraction as described herein. Each spot represents a single SNP locus. Fetal and maternal genotypes are shown to the right of the plot and chromosome identity is shown at the top of the plot. 図31:正倍数体(図31A)、T13(図31B)、T18(図31C)、T21(図31D)、45、X(図31E)、および47、XXY(図31F)試験試料のグラフ表示である。それぞれの染色体を、プロットの上端に、胎児と母系遺伝子型をプロットの右側に示し、x軸は、それぞれの染色体に沿ったSNPのリニア位置を表し、y軸は、合計リードに対する割合で表したA対立遺伝子リード数を示す。本明細書で記載のように、胎児画分に基づきクラスター位置を変化していることに留意されたい。それぞれのスポットは、単一SNP遺伝子座を表す。胎児および母系遺伝子型は、プロットの右側に示され、染色体の識別情報はプロットの上部に示す。Figure 31: Graphical representation of euploid (Figure 31A), T13 (Figure 31B), T18 (Figure 31C), T21 (Figure 31D), 45,X (Figure 31E), and 47,XXY (Figure 31F) test samples. Each chromosome is shown at the top of the plot and fetal and maternal genotypes to the right of the plot, with the x-axis representing the linear position of the SNP along each chromosome and the y-axis showing the number of A allele reads as a percentage of the total reads. Note that the cluster position has been changed based on the fetal fraction as described herein. Each spot represents a single SNP locus. Fetal and maternal genotypes are shown to the right of the plot and chromosome identity is shown at the top of the plot. 図31:正倍数体(図31A)、T13(図31B)、T18(図31C)、T21(図31D)、45、X(図31E)、および47、XXY(図31F)試験試料のグラフ表示である。それぞれの染色体を、プロットの上端に、胎児と母系遺伝子型をプロットの右側に示し、x軸は、それぞれの染色体に沿ったSNPのリニア位置を表し、y軸は、合計リードに対する割合で表したA対立遺伝子リード数を示す。本明細書で記載のように、胎児画分に基づきクラスター位置を変化していることに留意されたい。それぞれのスポットは、単一SNP遺伝子座を表す。胎児および母系遺伝子型は、プロットの右側に示され、染色体の識別情報はプロットの上部に示す。Figure 31: Graphical representation of euploid (Figure 31A), T13 (Figure 31B), T18 (Figure 31C), T21 (Figure 31D), 45,X (Figure 31E), and 47,XXY (Figure 31F) test samples. Each chromosome is shown at the top of the plot and fetal and maternal genotypes to the right of the plot, with the x-axis representing the linear position of the SNP along each chromosome and the y-axis showing the number of A allele reads as a percentage of the total reads. Note that the cluster position has been changed based on the fetal fraction as described herein. Each spot represents a single SNP locus. Fetal and maternal genotypes are shown to the right of the plot and chromosome identity is shown at the top of the plot. 図31:正倍数体(図31A)、T13(図31B)、T18(図31C)、T21(図31D)、45、X(図31E)、および47、XXY(図31F)試験試料のグラフ表示である。それぞれの染色体を、プロットの上端に、胎児と母系遺伝子型をプロットの右側に示し、x軸は、それぞれの染色体に沿ったSNPのリニア位置を表し、y軸は、合計リードに対する割合で表したA対立遺伝子リード数を示す。本明細書で記載のように、胎児画分に基づきクラスター位置を変化していることに留意されたい。それぞれのスポットは、単一SNP遺伝子座を表す。胎児および母系遺伝子型は、プロットの右側に示され、染色体の識別情報はプロットの上部に示す。Figure 31: Graphical representation of euploid (Figure 31A), T13 (Figure 31B), T18 (Figure 31C), T21 (Figure 31D), 45,X (Figure 31E), and 47,XXY (Figure 31F) test samples. Each chromosome is shown at the top of the plot and fetal and maternal genotypes to the right of the plot, with the x-axis representing the linear position of the SNP along each chromosome and the y-axis showing the number of A allele reads as a percentage of the total reads. Note that the cluster position has been changed based on the fetal fraction as described herein. Each spot represents a single SNP locus. Fetal and maternal genotypes are shown to the right of the plot and chromosome identity is shown at the top of the plot. 性染色体異数性による複合出生有病率は、常染色体異数性による場合より高いことを示すグラフである。FIG. 1 is a graph showing that the combined birth prevalence of sex chromosome aneuploidies is higher than that of autosomal aneuploidies.

上記の図は、ここで開示されている実施形態がについて説明しているが、考察において言及されている通り、他の実施形態も意図されている。本開示は、例示により実施形態を代表として示しており、限定として示しているのではない。当業者は、ここで開示されている実施形態の原理の範囲および趣旨の範囲内に入る多数の他の改変および実施形態を考案することができる。 Although the above figures illustrate embodiments disclosed herein, other embodiments are contemplated as noted in the discussion. This disclosure presents embodiments by way of example, and not by way of limitation. Those skilled in the art can devise numerous other modifications and embodiments which fall within the scope and spirit of the principles of the embodiments disclosed herein.

本発明は、一部は、プライマーライブラリー中の相対的に少数に過ぎないプライマーが多重PCR反応中に形成される相当量の増幅プライマー二量体生成の原因である場合が多いという予期しない発見に基づいている。候補プライマーライブラリーから除去する目的で最も望ましくないプライマーを選択する方法が開発された。無視できる量(PCR産物の約0.1%)までプライマー二量体の量を減らすことにより、これらの方法は、生成したプライマーライブラリーを使ってただ1回の多重PCR反応で多数の標的遺伝子座を同時に増幅することを可能とする。プライマーは、標的遺伝子座にハイブリダイズし、他のプライマーにハイブリダイズして増幅されたプライマー二量体を形成することなく標的遺伝子座を増幅するので、増幅できる異なる標的遺伝子座の数が増加する。また、通常より低プライマー濃度およびかなり長いアニーリング時間を使うことにより、相互にハイブリダイズしてプライマー二量体を形成するのではなく、プライマーが標的遺伝子座にハイブリダイズする尤度が高まることも明らかになった。 The present invention is based, in part, on the unexpected discovery that a relatively small number of primers in a primer library are often responsible for the generation of a significant amount of amplified primer dimers formed during a multiplex PCR reaction. Methods have been developed to select the least desirable primers for removal from a candidate primer library. By reducing the amount of primer dimers to a negligible amount (approximately 0.1% of the PCR product), these methods allow the resulting primer library to be used to simultaneously amplify multiple target loci in a single multiplex PCR reaction. Primers hybridize to target loci and amplify the target loci without hybridizing to other primers to form amplified primer dimers, thus increasing the number of different target loci that can be amplified. It has also been found that the use of lower than normal primer concentrations and significantly longer annealing times increases the likelihood that primers will hybridize to target loci, rather than hybridizing to each other to form primer dimers.

PCR増幅およびゲノム試料中の19,488標的遺伝子座のシークエンシングの間に、これらの99.4~99.7%のシークエンシングリードがゲノムにマップされ、99.99%が標的遺伝子座にマップされた。1000万シークエンシングリードを有する血漿試料に対しては、通常、19,488標的遺伝子座の内の少なくとも19,350(99.3%)が増幅され、配列決定された。このような多数の標的遺伝子座を一度に同時増幅できることにより、数千の標的遺伝子座の解析に必要な時間とDNAの量を大幅に減らせる。例えば、インビトロ受精の前の胚由来の単一細胞の遺伝子検査または小量のDNAを含む法医学試料の遺伝子検査などのDNAの量が少ない用途で重要である数千の標的遺伝子座を同時に解析するために、単1細胞由来のDNAで充分である。さらに、標的遺伝子座を複数の別の反応に試料を分割しないで1反応体積(例えば、1つの容器またはウェル)で解析できることにより、反応中に起こり得る変動を減らせる。さらに、前記方法は、参照基準を使用し、異なる標的遺伝子座の間で起こる得る増幅の偏りを補正するように開発されている。例えば、GC含量などの因子に起因する標的遺伝子座間の増幅効率の差異により、実際は同じ量で産生されるべき標的遺伝子座のPCR産物の量が、異なった量になってしまう場合がある。標的遺伝子座に類似の参照基準の使用により、このような増幅の偏りを検出して、それを標的遺伝子座の定量化の間に補正することができる。 During PCR amplification and sequencing of the 19,488 target loci in the genomic sample, 99.4-99.7% of these sequencing reads were mapped to the genome and 99.99% were mapped to the target loci. For a plasma sample with 10 million sequencing reads, typically at least 19,350 (99.3%) of the 19,488 target loci were amplified and sequenced. The ability to simultaneously amplify such a large number of target loci at once significantly reduces the time and amount of DNA required to analyze thousands of target loci. For example, DNA from a single cell is sufficient to simultaneously analyze thousands of target loci, which is important in applications where DNA is low, such as genetic testing of single cells from embryos prior to in vitro fertilization or genetic testing of forensic samples containing small amounts of DNA. Furthermore, the ability to analyze the target loci in one reaction volume (e.g., one vessel or well) without splitting the sample into multiple separate reactions reduces possible variability during the reaction. Furthermore, the method has been developed to use a reference standard to correct for possible amplification biases between different target loci. For example, differences in amplification efficiency between target loci due to factors such as GC content may result in different amounts of PCR product at target loci that should actually be produced in equal amounts. The use of a reference standard similar to the target loci allows such amplification biases to be detected and corrected for during quantification of the target loci.

PCR産物のシークエンシング中に、プライマー二量体などのアーチファクトが検出され、その結果、標的増幅産物の検出を阻害する。この制限のために、ハイブリダイゼーションプローブを備えたマイクロアレイが検出用に使用される場合が多い。理由は、プライマー二量体の干渉に対する感度が低いためである。現状達成できる最小限の非標的増幅産物を含む高レベルの多重化により、マイクロアレイの代替としてPCRとそれに引き続くシークエンシングが使用可能となる。 During sequencing of PCR products, artifacts such as primer dimers are detected, which in turn inhibit the detection of the target amplification products. Due to this limitation, microarrays with hybridization probes are often used for detection, because they are less sensitive to primer dimer interference. The high level of multiplexing currently achievable, with minimal non-target amplification products, allows PCR followed by sequencing to be used as an alternative to microarrays.

本発明の多重PCR法は、多様な用途に使用可能である。例えば、遺伝子型分析、染色体異常(例えば、胎児染色体異数性)の検出、遺伝子変異および多型(例えば、一塩基多型、SNP)分析、遺伝子欠失分析、父子鑑定、集団内の遺伝的差異分析、法医学分析、疾患に対する素因測定、mRNAの定量分析、および感染病原体(例えば、細菌、寄生虫、およびウイルス)の検出と特定に使用可能である。また、多重PCR法は、無侵襲的出生前遺伝学的検査、例えば、父子鑑定または胎児染色体異常の検出用にも使用できる。 The multiplex PCR method of the present invention can be used for a variety of applications, such as genotyping, detection of chromosomal abnormalities (e.g., fetal chromosomal aneuploidies), gene mutation and polymorphism (e.g., single nucleotide polymorphism, SNP) analysis, gene deletion analysis, paternity testing, population genetic variation analysis, forensic analysis, disease predisposition measurement, quantitative analysis of mRNA, and detection and identification of infectious agents (e.g., bacteria, parasites, and viruses). The multiplex PCR method can also be used for non-invasive prenatal genetic testing, such as paternity testing or detection of fetal chromosomal abnormalities.

代表的プライマー設計法
高度多重PCRにより、多くの場合、プライマー二量体形成などの非生産的な副反応がもたらす産物DNAが非常に高い割合で産生され得る。ある実施形態では、非生産的な副反応を引き起こす可能性が最も高い特定のプライマーを、プライマーライブラリーから除去して、ゲノムにマッピングされる増幅されたDNAを高い割合でもたらすプライマーライブラリーを得ることができる。問題のあるプライマー、すなわち、特に二量体を安定させる可能性があるプライマーを除去するステップにより、予想外に、その後の配列決定による分析のための非常に高いPCR多重化レベルが可能になった。プライマー二量体および/または他の悪影響を及ぼす産物によって性能が著しく低下する配列決定などの系では、他に記載されている多重化よりも10倍超、50倍超、および100倍超高度な多重化が実現された。これは、過剰なプライマー二量体が感知できるほど結果に影響を及ぼさないプローブに基づく検出方法、例えば、マイクロアレイ、TAQMAN、PCRとは対照的であることに留意されたい。当技術分野における一般的な考えでは、配列決定するための多重化PCRは、同じウェルでは約100アッセイに限られることにも留意されたい。FluidigmおよびRain Danceは、1つの試料について並行した反応で48または1000のPCRアッセイを実施するためのプラットフォームを提供する。
Representative Primer Design Methods Highly multiplexed PCR can often produce a very high percentage of product DNA resulting from non-productive side reactions such as primer dimer formation. In an embodiment, certain primers that are most likely to cause non-productive side reactions can be removed from the primer library to obtain a primer library that results in a high percentage of amplified DNA that maps to the genome. The step of removing problematic primers, i.e., primers that may stabilize dimers in particular, unexpectedly enabled very high PCR multiplexing levels for subsequent analysis by sequencing. In systems such as sequencing, where performance is significantly reduced by primer dimers and/or other adverse products, multiplexing that is more than 10-fold, more than 50-fold, and more than 100-fold higher than other described multiplexing has been achieved. It should be noted that this is in contrast to probe-based detection methods, e.g., microarray, TAQMAN, PCR, where excess primer dimers do not appreciably affect the results. It should also be noted that the general belief in the art is that multiplexed PCR for sequencing is limited to about 100 assays in the same well. Fluidigm and Rain Dance provide platforms for performing 48 or 1000 PCR assays in parallel reactions on a single sample.

非マッピングプライマー二量体または他の悪影響を及ぼすプライマー産物の量を最小限にしたライブラリーのためのプライマーを選択するためのいくつもの方法が存在する。経験的なデータにより、少数の「悪い」プライマーは大量の非マッピングプライマー二量体副反応に関与することが示されている。これらの「悪い」プライマーを除去することにより、標的の遺伝子座に対して位置を決めるシーケンスリードのパーセントを上昇させることができる。「悪い」プライマーを同定するための1つの方法は、標的化増幅によって増幅されたDNAの配列決定データを調べることであり、最大の頻度で認められるプライマー二量体を除去して、ゲノムにマッピングされない副産物DNAをもたらす可能性が有意に低いプライマーライブラリーを生じることができる。種々のプライマーの組み合わせの結合エネルギーを算出することができる公的に入手可能なプログラムも存在し、結合エネルギーが最も高いプライマーの組み合わせを除去することにより、同様に、ゲノムにマッピングされない副産物DNAをもたらす可能性が有意に低いプライマーライブラリーが生じる。 There are several methods for selecting primers for libraries that minimize the amount of non-mapping primer dimers or other adverse primer products. Empirical data shows that a small number of "bad" primers are responsible for a large amount of non-mapping primer dimer side reactions. Removing these "bad" primers can increase the percentage of sequence reads that map to the target locus. One method for identifying "bad" primers is to examine the sequencing data of DNA amplified by targeted amplification, and the most frequently observed primer dimers can be removed to produce a primer library that is significantly less likely to result in by-product DNA that does not map to the genome. There are also publicly available programs that can calculate the binding energy of various primer combinations, and removing the primer combinations with the highest binding energy will similarly produce a primer library that is significantly less likely to result in by-product DNA that does not map to the genome.

プライマー選択のためのいくつかの実施形態では、初期の候補プライマーライブラリーは、候補標的遺伝子座に対する1個または複数個のプライマーまたはプライマー対を設計することにより作製される。候補標的遺伝子座(例えば、SNP)の集合は、標的集団内のSNPの頻度またはSNPのヘテロ接合率などの標的遺伝子座の所望のパラメータに関する公的に入手可能な情報に基づいて選択できる。一実施形態では、PCRプライマーは、Primer3プログラム(primer3.sourceforge.netのworldwide web;libprimer3 release 2.2.3、(参照によりその全体が本明細書に組み込まれる))を使って設計できる。必要に応じ、プライマーは、特定のアニーリング温度範囲内でアニールするように、特定の範囲のGC含量となるように、特定のサイズ範囲に入るように、特定のサイズ範囲の標的増幅産物を産生するように、および/または他のパラメータ特性を有するように設計できる。候補標的遺伝子座当たり複数プライマーまたはプライマー対から出発することにより、ライブラリー中にほとんどのまたは全ての標的遺伝子座に対するプライマーまたはプライマー対が残る尤度を高める。一実施形態では、選択基準は、標的遺伝子座当たり少なくとも1個のプライマー対がライブラリー中に残ることが必要であるということであってもよい。そのようにして、最終プライマーライブラリーを使うことにより、ほとんどまたは全ての標的遺伝子座が増幅されるであろう。これは、欠失の選別またはゲノム中の多数の部位での複製または疾患または疾患の危険性の増加に関連する多数の配列(例えば、多型または他の変異)の選別などの用途にとって望ましい。ライブラリー由来のプライマー対が別のプライマー対により生成された標的増幅産物と重複する標的増幅産物を生成する場合には、プライマー対の片方をライブラリーから取り除き、干渉を防止できる。 In some embodiments for primer selection, an initial candidate primer library is created by designing one or more primers or primer pairs for candidate target loci. A set of candidate target loci (e.g., SNPs) can be selected based on publicly available information on desired parameters of the target loci, such as the frequency of the SNPs in a target population or the heterozygosity rate of the SNPs. In one embodiment, PCR primers can be designed using the Primer3 program (worldwide web at primer3.sourceforge.net; libprimer3 release 2.2.3, incorporated herein by reference in its entirety). Optionally, primers can be designed to anneal within a particular annealing temperature range, to have a particular range of GC content, to fall within a particular size range, to produce target amplicons in a particular size range, and/or to have other parameter characteristics. Starting with multiple primers or primer pairs per candidate target locus increases the likelihood that primers or primer pairs for most or all of the target loci will remain in the library. In one embodiment, the selection criteria may be that at least one primer pair per target locus must remain in the library. In that way, most or all of the target loci will be amplified by using the final primer library. This is desirable for applications such as screening for deletions or duplications at multiple sites in a genome or screening for multiple sequences (e.g., polymorphisms or other mutations) associated with disease or increased risk of disease. If a primer pair from the library produces a target amplicon that overlaps with a target amplicon produced by another primer pair, one of the primer pairs can be removed from the library to prevent interference.

いくつかの実施形態では、「アンデザイアラビリティスコア」(より高いスコアが最小の望ましさを表す)が、候補プライマーライブラリー由来の2個のプライマーのほとんどまたは全ての可能な組み合わせに対し計算(コンピュータによる計算等で)される。種々の実施形態では、アンデザイアラビリティスコアは、ライブラリー中の候補プライマーの少なくとも80、90、95、98、99、または99.5%の可能な組み合わせに対して計算される。それぞれのアンデザイアラビリティスコアは、2個の候補プライマー間の二量体形成の尤度に少なくとも一部基づいている。必要に応じ、アンデザイアラビリティスコアはまた、標的遺伝子座のヘテロ接合率、標的遺伝子座での配列(例えば、多型)に関連する有病率、標的遺伝子座での配列(例えば、多型)に関連する疾患浸透度、候補プライマーの標的遺伝子座に対する特異性、候補プライマーのサイズ、標的増幅産物の融解温度、標的増幅産物のGC含量、標的増幅産物の増幅効率、および標的増幅産物のサイズからなる群から選択される1個または複数個の他のパラメータに基づいてもよい。複数の因子を考慮する場合、アンデザイアラビリティスコアは、種々のパラメータの加重平均に基づいて計算してもよい。パラメータは、プライマーが使われる特定の用途に対する重要性に基づいて異なる加重を割り付けることができる。いくつかの実施形態では、最高のアンデザイアラビリティスコアを有するプライマーは、ライブラリーから取り除かれる。取り除かれたプライマーが1つの標的遺伝子座にハイブリダイズするプライマー対のメンバーである場合、プライマー対のもう一方のメンバーもライブラリーから取り除くことができる。プライマーと取り除くプロセスは、必要に応じ繰り返すことができる。いくつかの実施形態では、ライブラリー中に残っている候補プライマーの組み合わせのアンデザイアラビリティスコアが全て最小閾値以下になるまでその選択方法が実行される。いくつかの実施形態では、その選択方法は、ライブラリー中に残っている候補プライマーの数が所望の数に減らされるまで実行される。 In some embodiments, an "undesirability score" (wherein a higher score indicates the least desirability) is calculated (e.g., computationally) for most or all possible combinations of two primers from a library of candidate primers. In various embodiments, an undesirability score is calculated for at least 80, 90, 95, 98, 99, or 99.5% of the possible combinations of candidate primers in the library. Each undesirability score is based at least in part on the likelihood of dimer formation between the two candidate primers. Optionally, the undesirability score may also be based on one or more other parameters selected from the group consisting of the heterozygosity rate of the target locus, the prevalence of a disease associated with a sequence (e.g., a polymorphism) at the target locus, the disease penetrance associated with a sequence (e.g., a polymorphism) at the target locus, the specificity of the candidate primer for the target locus, the size of the candidate primer, the melting temperature of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon. When multiple factors are considered, the undesirability score may be calculated based on a weighted average of the various parameters. The parameters can be assigned different weights based on their importance to the particular application for which the primer is to be used. In some embodiments, the primer with the highest undesirability score is removed from the library. If the removed primer is a member of a primer pair that hybridizes to one target locus, the other member of the primer pair can also be removed from the library. The primer and removal process can be repeated as necessary. In some embodiments, the selection method is performed until the undesirability scores of all candidate primer combinations remaining in the library are below a minimum threshold. In some embodiments, the selection method is performed until the number of candidate primers remaining in the library is reduced to a desired number.

種々の実施形態では、アンデザイアラビリティスコアが計算された後で、第1の最小閾値を超えるアンデザイアラビリティスコアを有する2個の候補プライマーの組み合わせのうち最多数のもののの一部である候補プライマーがライブラリーから取り除かれる。このステップは、第1の最小閾値以下の相互作用を無視する。理由は、これらの相互作用は、重要性が低いからである。取り除かれたプライマーが1つの標的遺伝子座にハイブリダイズするプライマー対のメンバーの場合は、プライマー対のもう一方のメンバーをライブラリーから取り除くことができる。プライマーを取り除くプロセスは、必要に応じ繰り返すことができる。いくつかの実施形態では、ライブラリー中に残っている候補プライマーの組み合わせに対するアンデザイアラビリティスコアが全て第1の最小閾値以下になるまでその選択方法が実行される。ライブラリー中に残っている候補プライマーの数が必要数より多い場合は、第1の最小閾値を第2の最小閾値に下げ、プライマーを取り除くプロセスを繰り返すことによりプライマーの数を減らすことができる。ライブラリー中に残っている候補プライマーの数が必要数より少ない場合は、第1の最小閾値をより大きい第2の最小閾値に増やし、ことにより、元の候補プライマーライブラリーを使ってプライマーを取り除くプロセスを繰り返し、それにより、より多くの候補プライマーをライブラリー中に残すことにより前記方法を継続できる。いくつかの実施形態では、ライブラリー中に残っている補プライマーの組み合わせのアンデザイアラビリティスコアが全て第2の最小閾値以下になるか、またはライブラリー中に残っている候補プライマーの数が所望の数に減るまでその選択方法が実行される。 In various embodiments, after the undesirability scores are calculated, the candidate primers that are part of the greatest number of combinations of two candidate primers that have undesirability scores above a first minimum threshold are removed from the library. This step ignores interactions below the first minimum threshold because these interactions are less important. If the removed primer is a member of a primer pair that hybridizes to one target locus, the other member of the primer pair can be removed from the library. The process of removing primers can be repeated as necessary. In some embodiments, the selection method is performed until all of the undesirability scores for the candidate primer combinations remaining in the library are below the first minimum threshold. If the number of candidate primers remaining in the library is greater than required, the number of primers can be reduced by lowering the first minimum threshold to a second minimum threshold and repeating the process of removing primers. If the number of candidate primers remaining in the library is less than the required number, the method can continue by repeating the process of removing primers using the original candidate primer library by increasing the first minimum threshold to a larger second minimum threshold, thereby leaving more candidate primers in the library. In some embodiments, the selection method is performed until the undesirability scores of all of the complementary primer combinations remaining in the library are equal to or less than the second minimum threshold, or the number of candidate primers remaining in the library is reduced to the desired number.

必要に応じ、別のプライマー対により生成される標的増幅産物と重複する標的増幅産物を生成するプライマー対は、別の増幅反応に分割できる。多重PCR増幅反応は、(重複する標的増幅産物のために分析から候補標的遺伝子座を除くのではなく)全ての候補標的遺伝子座を分析するのが望ましい用途への適用が好ましい場合もある。 If necessary, primer pairs that generate target amplicons that overlap with target amplicons generated by other primer pairs can be split into separate amplification reactions. Multiplex PCR amplification reactions may be preferred for applications in which it is desirable to analyze all candidate target loci (rather than excluding candidate target loci from the analysis due to overlapping target amplicons).

これらの選択方法は、プライマー二量体の所望の低減を達成するためにライブラリーから取り除く必要のある候補プライマーの数を最小限化する。より少ない数の候補プライマーをライブラリーから取り除くことにより、得られたプライマーライブラリーを使ってより多くの(または全ての)標的遺伝子座を増幅できる。 These selection methods minimize the number of candidate primers that need to be removed from the library to achieve the desired reduction in primer dimers. By removing a smaller number of candidate primers from the library, the resulting primer library can be used to amplify more (or all) of the target loci.

多数のプライマーを多重化することにより、含めることができるアッセイにかなりの制約が課される。意図せずに相互作用するアッセイにより、偽の増幅産物がもたらされる。miniPCRのサイズの制約により、さらなる制約がもたらされ得る。ある実施形態では、非常に多数の潜在的なSNP標的(約500から100万超の間)で開始し、各SNPを増幅するためのプライマーを設計することを試みることが可能である。プライマーを設計することができる場合、可能性のあるプライマーの対の全ての間で偽のプライマー2重鎖が形成される尤度を、DNA2重鎖形成についての公開された熱力学的なパラメータを使用して評価することによって、偽の産物を形成する可能性があるプライマー対を同定することを試みることが可能である。プライマー相互作用は、相互作用に関連するスコア関数によって順位づけ、所望のプライマーの数に見合うまで相互作用スコアが最も悪いプライマーを排除することができる。ヘテロ接合性の可能性があるSNPが最も有用である場合には、同様にアッセイの一覧を順位付け、最もヘテロ接合性に適合するアッセイを選択することが可能である。実験により、相互作用スコアが高いプライマーが、プライマー二量体を形成する可能性が最も高いことが検証された。高度な多重化においては、全ての偽の相互作用を排除することは不可能であるが、インシリコで相互作用スコアが最も高いプライマーまたはプライマー対は、全体の反応の優位を占め、意図された標的からの増幅を著しく限定するので、これらを除去することが必須である。この手順を実施して、10,000プライマーにも達する、および、場合によってはそれを超える多重化プライマー集合を作製した。この手順による改善は、実質的なものであり、全てのPCR産物の配列決定によって決定された通り、最も悪いプライマーを除去しなかった反応からの10%と比較して、標的産物の80%超、90%超、95%超、98%超、およびさらには99%超の増幅を可能にする。以前に記載されている部分的なセミネステッド手法と組み合わせると、90%超、および95%超までもの増幅産物を標的の配列にマッピングすることができる。 Multiplexing a large number of primers places significant constraints on the assays that can be included. Assays that interact unintentionally will result in spurious amplification products. The size constraints of miniPCR may result in further constraints. In an embodiment, it is possible to start with a very large number of potential SNP targets (between about 500 and over 1 million) and attempt to design primers to amplify each SNP. If primers can be designed, it is possible to attempt to identify primer pairs that may form spurious products by evaluating the likelihood of spurious primer duplex formation between all of the possible pairs of primers using published thermodynamic parameters for DNA duplex formation. Primer interactions can be ranked by a score function related to the interaction, and primers with the worst interaction scores can be eliminated until the desired number of primers is met. If SNPs with potential heterozygosity are most useful, it is possible to rank the list of assays in a similar manner and select the assay that best matches heterozygosity. Experiments have verified that primers with high interaction scores are most likely to form primer dimers. In highly multiplexed systems, it is not possible to eliminate all spurious interactions, but it is essential to remove the primers or primer pairs with the highest in silico interaction scores, as they dominate the overall reaction and severely limit amplification from the intended target. This procedure has been implemented to generate multiplexed primer sets up to, and in some cases, more than 10,000 primers. The improvement from this procedure is substantial, allowing amplification of more than 80%, 90%, 95%, 98%, and even 99% of the target product, as determined by sequencing of all PCR products, compared to 10% from reactions that did not remove the worst primers. When combined with the previously described partial semi-nested approach, more than 90% and even 95% of the amplification products can be mapped to the target sequence.

どのPCRプローブが二量体を形成する可能性があるかを決定するための他の方法が存在することに留意されたい。ある実施形態では、最適化されていないプライマーの集合を使用して増幅したDNAのプールの分析が、問題のあるプライマーを決定するために十分であり得る。例えば、分析は配列決定を用いて行うことができ、最大の数で存在する二量体を、二量体を形成する可能性が最も高いものであると決定し、除去することができる。 It should be noted that there are other methods for determining which PCR probes are likely to form dimers. In some embodiments, analysis of a pool of DNA amplified using a set of non-optimized primers may be sufficient to determine problematic primers. For example, analysis can be performed using sequencing, and the dimers present in the greatest numbers can be determined to be the ones most likely to form dimers and removed.

この方法には、いくつもの潜在的な適用、例えば、SNP遺伝子型決定、ヘテロ接合性率決定、コピー数測定、および他の標的化配列決定への適用がある。ある実施形態では、プライマーを設計する方法を、本文書の他の箇所に記載されているmini-PCR法と組み合わせて用いることができる。いくつかの実施形態では、プライマーの設計方法を、大規模な多重PCR法の一部として用いることができる。 This method has a number of potential applications, including SNP genotyping, heterozygosity rate determination, copy number measurement, and other targeted sequencing applications. In some embodiments, the primer design method can be used in combination with the mini-PCR methods described elsewhere in this document. In some embodiments, the primer design method can be used as part of a large-scale multiplex PCR method.

プライマーにタグを使用することにより、プライマー二量体産物の増幅および配列決定を減らすことができる。いくつかの実施形態では、プライマーは、タグを有するループ構造を形成する内部領域を含む。特定の実施形態では、プライマーは、標的遺伝子座に特異的な5’領域、標的遺伝子座に特異的ではないループ構造を形成する内部領域,および標的遺伝子座に特異的な3’領域を含む。いくつかの実施形態では、ループ領域は、2つの結合領域がテンプレートDNAの近接または隣接領域に結合するように設計されている2つの結合領域の間に位置してもよい。種々の実施形態では、3’領域の長さは、少なくとも7ヌクレオチドである。いくつかの実施形態では、3’領域の長さは、7~20ヌクレオチドであり、例えば、7~15ヌクレオチド,または7~10ヌクレオチドである。種々の実施形態では、プライマーは、標的遺伝子座に特異的ではない5’領域(例えば、タグまたはユニバーサルプライマー結合部位)、続けて、標的遺伝子座に特異的な領域、標的遺伝子座に特異的ではないループ構造を形成する内部領域,および標的遺伝子座に特異的な3’領域を含む。タグ-プライマーを用いて、必要な標的特異的配列を20塩基対未満、15塩基対未満、12塩基対未満、さらには10塩基対未満までに短縮することができる。これは、プライマー結合部位内で標的配列が断片化される場合に標準のプライマーの設計に伴って偶然発見され得る、または、または、プライマー設計へと企画することができる。この方法の利点としては、特定の最大の増幅産物の長さに対して設計することができるアッセイの数が増加すること、および「情報価値のない」プライマー配列の配列決定が短縮されることが挙げられる。前記方法は、内部のタグ付けと組み合わせて用いることもできる(本文書の他の箇所を参照されたい)。 The use of tags on primers can reduce amplification and sequencing of primer dimer products. In some embodiments, the primers include an internal region that forms a loop structure with the tag. In certain embodiments, the primers include a 5' region that is specific to the target locus, an internal region that forms a loop structure that is not specific to the target locus, and a 3' region that is specific to the target locus. In some embodiments, the loop region may be located between two binding regions that are designed to bind to adjacent or adjacent regions of the template DNA. In various embodiments, the length of the 3' region is at least 7 nucleotides. In some embodiments, the length of the 3' region is 7 to 20 nucleotides, e.g., 7 to 15 nucleotides, or 7 to 10 nucleotides. In various embodiments, the primers include a 5' region that is not specific to the target locus (e.g., a tag or universal primer binding site), followed by a region that is specific to the target locus, an internal region that forms a loop structure that is not specific to the target locus, and a 3' region that is specific to the target locus. Using tag-primers, the required target-specific sequence can be shortened to less than 20, 15, 12, or even 10 base pairs. This can be serendipitous with standard primer design when the target sequence is fragmented within the primer binding site, or can be designed into the primer design. Advantages of this method include an increase in the number of assays that can be designed for a particular maximum amplicon length, and shortened sequencing of "uninformative" primer sequences. The method can also be used in combination with internal tagging (see elsewhere in this document).

ある実施形態では、多重標的PCR増幅における非生産的な産物の相対量を、アニーリング温度を上昇させることによって減少させることができる。標的特異的プライマーと同じタグを有するライブラリーを増幅する場合には、タグがプライマー結合に寄与するので、アニーリング温度をゲノムDNAと比較して増大させることができる。いくつかの実施形態では、以前報告されたものよりも相当低いプライマー濃度を用い、それと一緒に、他の箇所で報告されているものよりも長いアニーリング時間を用いる。いくつかの実施形態では、アニーリング時間は、3分超、5分超、8分超、10分超、15分超、20分超、30分超、60分超、120分超、240分超、480分超、およびさらには960分超であってよい。ある実施形態では、以前の報告よりも長いアニーリング時間を用い、これにより、より低いプライマー濃度が可能になる。種々の実施形態では、例えば、3,5,8,10,または15分を超える通常より長い伸長時間が使われる。いくつかの実施形態では、プライマー濃度は、50nM、20nM、10nM、5nM、1nM、および1μM未満までの低さである。驚いたことに、これにより、高度に多重化された反応、例えば、1,000プレックス反応、2,000プレックス反応、5,000プレックス反応、10,000プレックス反応、20,000プレックス反応、50,000プレックス反応、およびさらには100,000プレックス反応に対して頑強な性能がもたらされる。ある実施形態では、増幅には、長いアニーリング時間で実行する1サイクル、2サイクル、3サイクル、4サイクルまたは5サイクルを用い、その後、タグを付けたプライマーを用いて通常のアニーリング回数より多いPCRサイクルを行う。 In some embodiments, the relative amount of non-productive products in multiplex target PCR amplification can be reduced by increasing the annealing temperature. When amplifying libraries with the same tag as the target-specific primers, the annealing temperature can be increased compared to genomic DNA, since the tag contributes to primer binding. In some embodiments, a significantly lower primer concentration than previously reported is used, along with a longer annealing time than reported elsewhere. In some embodiments, the annealing time can be greater than 3 minutes, greater than 5 minutes, greater than 8 minutes, greater than 10 minutes, greater than 15 minutes, greater than 20 minutes, greater than 30 minutes, greater than 60 minutes, greater than 120 minutes, greater than 240 minutes, greater than 480 minutes, and even greater than 960 minutes. In some embodiments, a longer annealing time than previously reported is used, which allows for a lower primer concentration. In various embodiments, a longer extension time than usual is used, for example, greater than 3, 5, 8, 10, or 15 minutes. In some embodiments, primer concentrations are as low as 50 nM, 20 nM, 10 nM, 5 nM, 1 nM, and less than 1 μM. Surprisingly, this results in robust performance for highly multiplexed reactions, such as 1,000-plex, 2,000-plex, 5,000-plex, 10,000-plex, 20,000-plex, 50,000-plex, and even 100,000-plex reactions. In an embodiment, amplification uses 1, 2, 3, 4, or 5 cycles performed with long annealing times, followed by PCR cycles with tagged primers and more than the normal annealing times.

標的場所を選択するために、候補となるプライマー対設計物のプールを用いて着手し、プライマー対間の潜在的に有害な相互作用の熱力学的モデルを作製し、次いで、このモデルを用いてプール内の他の設計物と適合しない設計物を排除することができる。 To select target locations, one can start with a pool of candidate primer pair designs, create a thermodynamic model of potentially deleterious interactions between primer pairs, and then use this model to eliminate designs that are incompatible with the other designs in the pool.

選択プロセス後、ライブラリー中に残っているプライマーは、本発明のいずれかの方法で使用できる。 After the selection process, the primers remaining in the library can be used in any of the methods of the present invention.

代表的プライマーライブラリー
一態様では、本発明は、プライマー、例えば、候補プライマーライブラリーから本発明のいずれかの方法を使って選択されたプライマーのライブラリーを特徴とする。いくつかの実施形態では、ライブラリーは、1反応体積で、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズする(もしくは、同時にハイブリダイズ可能な)、または同時に増幅する(もしくは、同時に増幅可能な)プライマーを含む。種々の実施形態では、ライブラリーは、1,000~2,000;2,000~5,000;5,000~7,500;7,500~10,000;10,000~20,000;20,000~25,000;25,000~30,000;30,000~40,000;40,000~50,000;50,000~75,000;75,000~100,000個の異なる標的遺伝子座を1反応体積で同時に増幅する(もしくは、同時に増幅可能な)プライマーを含む。種々の実施形態では、ライブラリーは、1反応体積で、1,000~100,000個の異なる標的遺伝子座、例えば、1,000~50,000;1,000~30,000;1,000~20,000;1,000~10,000;2,000~30,000;2,000~20,000;2,000~10,000;5,000~30,000;5,000~20,000;または5,000~10,000個の異なる標的遺伝子座を同時に増幅する(もしくは、同時に増幅可能な)プライマーを含む。いくつかの実施形態では、ライブラリーは、標的遺伝子座を1反応体積で同時に増幅する(もしくは、同時に増幅可能な)プライマーを含み、それにより、増幅産物の60、40、30、20、10、5、4、3、2、1、0.5、0.25、0.1、または0.5%未満がプライマー二量体となる。種々の実施形態では、プライマー二量体増幅産物の量は、0.5~60%であり、例えば、0.1~40%,0.1~20%,0.25~20%,0.25~10%,0.5~20%,0.5~10%,1~20%,または1~10%である。いくつかの実施形態では、プライマーは、標的遺伝子座を1反応体積で同時に増幅し(もしくは、同時に増幅可能であり)、それにより、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の増幅産物が標的増幅産物である。種々の実施形態では、標的増幅産物である増幅産物の量は、50~99.5%,例えば、60~99%,70~98%,80~98%,90~99.5%,または95~99.5%である。いくつかの実施形態では、プライマーは、標的遺伝子座を1反応体積で同時に増幅し(もしくは、同時に増幅可能であり)、それにより、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の標的遺伝子座が増幅される。種々の実施形態では、増幅された標的遺伝子座の量は、50~99.5%であり、例えば、60~99%,70~98%,80~99%,90~99.5%,95~99.9%,または98~99.99%である。いくつかの実施形態では、プライマーライブラリーは、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個のプライマー対を含み、それぞれの対のプライマーは、フォワード試験プライマーおよびリバース試験プライマーを含み、それぞれの試験プライマー対は、標的遺伝子座にハイブリダイズする。いくつかの実施形態では、プライマーライブラリーは、それぞれ異なる標的遺伝子座にハイブリダイズする少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の個別プライマーを含み、個別プライマーは、プライマー対の一部ではない。
Exemplary Primer Libraries In one aspect, the invention features a library of primers, e.g., primers selected using any of the methods of the invention from a library of candidate primers. In some embodiments, the library includes primers that simultaneously hybridize to (or are capable of simultaneously hybridizing to) or simultaneously amplify (or are capable of simultaneously amplifying) at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci in one reaction volume. In various embodiments, the library comprises primers that simultaneously amplify (or are capable of simultaneously amplifying) between 1,000 and 2,000; 2,000 and 5,000; 5,000 and 7,500; 7,500 and 10,000; 10,000 and 20,000; 20,000 and 25,000; 25,000 and 30,000; 30,000 and 40,000; 40,000 and 50,000; 50,000 and 75,000; 75,000 and 100,000 different target loci in one reaction volume. In various embodiments, the library comprises primers that simultaneously amplify (or are capable of simultaneously amplifying) between 1,000 and 100,000 different target loci in one reaction volume, e.g., between 1,000 and 50,000; between 1,000 and 30,000; between 1,000 and 20,000; between 1,000 and 10,000; between 2,000 and 30,000; between 2,000 and 20,000; between 2,000 and 10,000; between 5,000 and 30,000; between 5,000 and 20,000; or between 5,000 and 10,000 different target loci. In some embodiments, the library includes primers that simultaneously amplify (or are capable of simultaneously amplifying) target loci in one reaction volume, such that less than 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.5% of the amplified products are primer dimers. In various embodiments, the amount of primer dimer amplified products is between 0.5 and 60%, e.g., between 0.1 and 40%, 0.1 and 20%, 0.25 and 20%, 0.25 and 10%, 0.5 and 20%, 0.5 and 10%, 1 and 20%, or 1 and 10%. In some embodiments, the primers simultaneously amplify (or are capable of simultaneously amplifying) target loci in one reaction volume, such that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the amplified products are target amplified products. In various embodiments, the amount of amplification product that is a target amplification product is 50-99.5%, e.g., 60-99%, 70-98%, 80-98%, 90-99.5%, or 95-99.5%. In some embodiments, the primers simultaneously amplify (or are capable of simultaneously amplifying) the target loci in one reaction volume, such that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified. In various embodiments, the amount of the target loci amplified is 50-99.5%, e.g., 60-99%, 70-98%, 80-99%, 90-99.5%, 95-99.9%, or 98-99.99%. In some embodiments, the primer library comprises at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 primer pairs, each pair of primers comprising a forward test primer and a reverse test primer, each test primer pair hybridizing to a target locus. In some embodiments, the primer library comprises at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 individual primers, each hybridizing to a different target locus, each individual primer not being part of a primer pair.

種々の実施形態では、それぞれのプライマーの濃度は、100、75、50、25、20、10、5、2、もしくは1nM未満、または500、100、10、もしくは1uM未満である。種々の実施形態では、それぞれのプライマーの濃度は、1uM~100nMであり、例えば、1uM~1nM,1~75nM,2~50nMまたは5~50nMである。種々の実施形態では、プライマーのGC含量は、30~80%であり、例えば、40~70%,または50~60%である。いくつかの実施形態では、プライマーのGC含量の範囲は、30、20、10、または5%未満である。いくつかの実施形態では、プライマーのGC含量の範囲は、5~30%であり、例えば、5~20%または5~10%である。いくつかの実施形態では、試験プライマーの融解温度(T)は、40~80℃であり、例えば、50~70℃,55~65℃,または57~60.5℃である。いくつかの実施形態では、Tは、組込みSantaLuciaパラメータ(primer3.sourceforge.netのworldwide web)を使ってprimer3プログラム(libprimer3 release 2.2.3)で計算される。いくつかの実施形態では、プライマーの融解温度の範囲は、15、10、5、3、または1℃未満である。いくつかの実施形態では、プライマーの融解温度の範囲は、1~15℃であり、例えば、1~10℃、1~5℃、または1~3℃である。いくつかの実施形態では、プライマーの長さは、15~100ヌクレオチドであり、例えば、15~75ヌクレオチド、15~40ヌクレオチド、17~35ヌクレオチド、18~30ヌクレオチド、20~65ヌクレオチドである。いくつかの実施形態では、プライマーの長さの範囲は、50、40、30、20、10、または5ヌクレオチド未満である。いくつかの実施形態では、プライマーの長さの範囲は、5~50ヌクレオチドであり、例えば、5~40ヌクレオチド、5~20ヌクレオチド、または5~10ヌクレオチドである。いくつかの実施形態では、標的増幅産物の長さは、50~100ヌクレオチドであり、例えば、60~80ヌクレオチド、または60~75ヌクレオチドである。いくつかの実施形態では、標的増幅産物の長さの範囲は、50、25、15、10、または5ヌクレオチド未満である。いくつかの実施形態では、標的増幅産物の長さの範囲は、5~50ヌクレオチドであり、例えば、5~25ヌクレオチド、5~15ヌクレオチド、または5~10ヌクレオチドである。 In various embodiments, the concentration of each primer is less than 100, 75, 50, 25, 20, 10, 5, 2, or 1 nM, or less than 500, 100, 10, or 1 uM. In various embodiments, the concentration of each primer is between 1 uM and 100 nM, e.g., between 1 uM and 1 nM, 1 to 75 nM, 2 to 50 nM, or 5 to 50 nM. In various embodiments, the GC content of the primers is between 30 to 80%, e.g., between 40 to 70%, or between 50 to 60%. In some embodiments, the range of the GC content of the primers is less than 30, 20, 10, or 5%. In some embodiments, the range of the GC content of the primers is between 5 to 30%, e.g., between 5 to 20% or between 5 to 10%. In some embodiments, the melting temperature (T m ) of the test primers is between 40-80° C., e.g., between 50-70° C., 55-65° C., or 57-60.5° C. In some embodiments, the T m is calculated with the primer3 program (libprimer3 release 2.2.3) using the built-in SantaLucia parameters (worldwide web at primer3.sourceforge.net). In some embodiments, the melting temperature range of the primers is less than 15, 10, 5, 3, or 1° C. In some embodiments, the melting temperature range of the primers is between 1-15° C., e.g., between 1-10° C., 1-5° C., or 1-3° C. In some embodiments, the length of the primers is between 15 and 100 nucleotides, e.g., between 15 and 75 nucleotides, between 15 and 40 nucleotides, between 17 and 35 nucleotides, between 18 and 30 nucleotides, between 20 and 65 nucleotides. In some embodiments, the length of the primers is less than 50, 40, 30, 20, 10, or 5 nucleotides. In some embodiments, the length of the primers is between 5 and 50 nucleotides, e.g., between 5 and 40 nucleotides, between 5 and 20 nucleotides, or between 5 and 10 nucleotides. In some embodiments, the length of the target amplicon is between 50 and 100 nucleotides, e.g., between 60 and 80 nucleotides, or between 60 and 75 nucleotides. In some embodiments, the length of the target amplicon is less than 50, 25, 15, 10, or 5 nucleotides. In some embodiments, the length of the target amplicon is between 5 and 50 nucleotides, e.g., between 5 and 25 nucleotides, between 5 and 15 nucleotides, or between 5 and 10 nucleotides.

これらのプライマーライブラリーは、本発明のいずれかの方法で使用可能である。 These primer libraries can be used in any of the methods of the present invention.

代表的プライマーキット
一態様では、本発明は、本発明のいずれかのプライマーライブラリーを含むキット(例えば、核酸試料中の標的遺伝子座を増幅するキット)を特徴とする。いくつかの実施形態では、本開示で記載の方法を実現するために設計された複数のプライマーを含むキットを処方することができる。プライマーは、本明細書に開示されている外側のフォワードプライマーおよびリバースプライマー、内側のフォワードプライマーおよびリバースプライマーであってよく、プライマーの設計のセクションに開示されている通り、キット内の他のプライマーに対する結合親和性が低いように設計されたプライマーであってよく、関連するセクションに記載のとおりハイブリッド捕捉プローブまたは環状化前プローブであるかまたはそのいくつかの組み合わせであってよい。ある実施形態では、本明細書に開示されている方法で使用するために設計された、妊娠中の胎児における標的染色体の倍数性状態を決定するためのキットであって、複数の内側のフォワードプライマー、および必要に応じて複数の内側のリバースプライマー、および必要に応じて、外側のフォワードプライマーおよび外側のリバースプライマーであって、該プライマーのそれぞれが、標的染色体および必要に応じて、さらに別の染色体上の標的部位(例えば、多型部位)のうちの1つのすぐ上流および/または下流のDNAの領域とハイブリダイズするように設計されているプライマー、を含むキットを構築することができる。ある実施形態では、プライマーキットは、本文書の他の箇所に記載されている診断ボックスと組み合わせて用いることができる。いくつかの実施形態では、キットは、ライブラリーを使用して標的遺伝子座を増幅するための説明書を含む。
Representative Primer Kits In one aspect, the present invention features a kit (e.g., a kit for amplifying a target locus in a nucleic acid sample) that includes any of the primer libraries of the present invention. In some embodiments, a kit can be formulated that includes a plurality of primers designed to realize the methods described in this disclosure. The primers can be outer forward and reverse primers, inner forward and reverse primers as disclosed herein, or primers designed to have low binding affinity to other primers in the kit as disclosed in the primer design section, or hybrid capture probes or pre-circularization probes as described in the relevant sections, or some combination thereof. In an embodiment, a kit for determining the ploidy state of a target chromosome in a gestating fetus, designed for use in the methods disclosed herein, can be constructed that includes a plurality of inner forward primers, and optionally a plurality of inner reverse primers, and optionally outer forward and outer reverse primers, each of which is designed to hybridize to a region of DNA immediately upstream and/or downstream of one of the target sites (e.g., polymorphic sites) on the target chromosome and, optionally, another chromosome. In some embodiments, the primer kit can be used in combination with the diagnostic boxes described elsewhere in this document. In some embodiments, the kit includes instructions for using the library to amplify target loci.

代表的多重PCR法
一態様では、本発明は、核酸試料中の標的遺伝子座を増幅する方法を特徴とし、前記方法は、(i)核酸試料を、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズするプライマーライブラリーと接触させて反応混合物を生成するステップ、および(ii)反応混合物をプライマー伸長反応条件(例えば、PCR条件)に供し、標的増幅産物を含む増幅産物を生成するステップを含む。いくつかの実施形態では、前記方法はまた、少なくとも1種の標的増幅産物(例えば、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の標的増幅産物)の存在の有無を判定するステップも含む。いくつかの実施形態では、前記方法はまた、少なくとも1種の標的増幅産物(例えば、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の標的増幅産物)の配列を決定するステップも含む。いくつかの実施形態では、少なくとも50、60、70、80、90、95、96、97、98、99、または99.5%の標的遺伝子座が増幅される。種々の実施形態では、60、50、40、30、20、10、5、4、3、2、1、0.5、0.25、0.1、または0.05%未満の増幅産物がプライマー二量体である。
Exemplary Multiplex PCR Methods In one aspect, the invention features a method of amplifying target loci in a nucleic acid sample, the method including: (i) contacting the nucleic acid sample with a library of primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci to generate a reaction mixture, and (ii) subjecting the reaction mixture to primer extension reaction conditions (e.g., PCR conditions) to generate an amplification product that includes a target amplicon. In some embodiments, the method also includes determining the presence or absence of at least one target amplicon (e.g., at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicon). In some embodiments, the method also includes determining the sequence of at least one target amplicon (e.g., at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicons). In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified. In various embodiments, less than 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.05% of the amplicons are primer dimers.

ある実施形態では、本明細書に開示されている方法は、非常に効率的な高度多重標的PCRを使用して、DNAを増幅し、その後ハイスループット配列決定を行って各標的遺伝子座における対立遺伝子頻度を決定する。約50または100を超えるPCRプライマーを1反応体積で、生じたシーケンスリードの大部分が、標的の遺伝子座にマッピングされるように多重化できることは、新規かつ非自明である。非常に効率的な様式で実施するための高度多重標的PCRを可能にする1つの技法は、互いとハイブリダイズする可能性が低いプライマーの設計を伴う。一般にはプライマーと称されるPCRプローブは、少なくとも500、少なくとも1,000、少なくとも2,000、少なくとも5,000、少なくとも7,500、少なくとも10,000、少なくとも20,000、少なくとも25,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも75,000、または少なくとも100,000の潜在的なプライマー対間の潜在的に有害な相互作用、または、プライマーと試料DNAの間の意図されたものではない相互作用の熱力学的モデルを作製し、次いで、このモデルを使用して、プール内の他の設計物と適合しない設計物を排除することによって選択する。非常に効率的な様式で実施するための高度多重標的PCRを可能にする別の技法は、部分的な、または完全なネスティング手法を用いて標的PCRを行うことである。これらの手法の1つまたはその組み合わせを用いることにより、単一のプール内の少なくとも300個、少なくとも800個、少なくとも1,200個、少なくとも4,000個または少なくとも10,000個のプライマーを多重化することが可能になり、生じた増幅されたDNAは、配列決定すると、標的の遺伝子座にマッピングされる大多数のDNA分子を含む。これらの手法の1つまたはその組み合わせを用いることにより、単一のプール内の多数のプライマーを多重化することが可能になり、生じた増幅されたDNAは、50%超、60%超、67%超、80%超、90%超、95%超、96%超、97%超、98%超、99%超、または99.5%超の、標的の遺伝子座にマッピングされるDNA分子を含む。 In an embodiment, the methods disclosed herein use highly efficient highly multiplexed targeted PCR to amplify DNA followed by high-throughput sequencing to determine allele frequency at each target locus. It is novel and non-obvious that more than about 50 or 100 PCR primers can be multiplexed in one reaction volume such that the majority of the resulting sequence reads map to the targeted loci. One technique that allows highly multiplexed targeted PCR to be performed in a highly efficient manner involves the design of primers that are unlikely to hybridize with each other. PCR probes, commonly referred to as primers, are selected by creating a thermodynamic model of potentially deleterious interactions between at least 500, at least 1,000, at least 2,000, at least 5,000, at least 7,500, at least 10,000, at least 20,000, at least 25,000, at least 30,000, at least 40,000, at least 50,000, at least 75,000, or at least 100,000 potential primer pairs, or unintended interactions between primers and sample DNA, and then using this model to eliminate designs that are incompatible with other designs in the pool. Another technique that allows highly multiplexed targeted PCR to be performed in a very efficient manner is to perform targeted PCR using a partial or complete nesting approach. Using one or a combination of these techniques, it is possible to multiplex at least 300, at least 800, at least 1,200, at least 4,000, or at least 10,000 primers in a single pool, with the resulting amplified DNA containing a majority of DNA molecules that map to the targeted locus when sequenced. Using one or a combination of these techniques, it is possible to multiplex a large number of primers in a single pool, with the resulting amplified DNA containing more than 50%, more than 60%, more than 67%, more than 80%, more than 90%, more than 95%, more than 96%, more than 97%, more than 98%, more than 99%, or more than 99.5% of DNA molecules that map to the targeted locus.

いくつかの実施形態では、標的遺伝物質の検出は多重様式で行うことができる。並行して実行することができる遺伝子の標的配列の数は、1~10、10~100、100~1,000、1,000~10,000、10,000~100,000、100,000~1,000,000または1,000,000~10,000,000にわたり得る。プール当たり100個超のプライマーを多重化するための以前の試みでは、プライマーの二量体形成などの望ましくない副反応を伴う重大な問題が生じた。 In some embodiments, detection of target genetic material can be done in a multiplexed fashion. The number of genetic target sequences that can be run in parallel can range from 1-10, 10-100, 100-1,000, 1,000-10,000, 10,000-100,000, 100,000-1,000,000, or 1,000,000-10,000,000. Previous attempts to multiplex more than 100 primers per pool have resulted in significant problems with undesirable side reactions such as primer dimer formation.

標的PCR
いくつかの実施形態では、PCRを用いて、ゲノムの特定の場所を標的とすることができる。血漿試料において、元のDNAは高度に断片化されている(一般には、500bp未満、平均長200bp未満)。PCRでは、増幅を可能にするために、フォワードプライマーとリバースプライマーの両方が同じ断片とアニーリングする。したがって、断片が短い場合、PCRアッセイでは、同様に比較的短い領域を増幅しなければならない。MIPSのように、多型の位置がポリメラーゼ結合部位と近すぎると、異なる対立遺伝子からの増幅に偏りが生じる。現在、SNPを含有するものなどの多型領域を標的とするPCRプライマーは、一般には、プライマーの3’末端が1個または複数個の多型の塩基のすぐ隣の塩基とハイブリダイズするように設計される。本開示のある実施形態では、フォワードPCRプライマーおよびリバースPCRプライマーの両方の3’末端が、標的の対立遺伝子の変異の位置(多型部位)と1つまたは少数の位置だけ離れている塩基とハイブリダイズするように設計する。多型部位(SNPまたは他の種類のもの)と、プライマーの3’末端がハイブリダイズするように設計された塩基との間の塩基の数は、1塩基であってよい、2塩基であってよい、3塩基であってよい、4塩基であってよい、5塩基であってよい、6塩基であってよい、7~10塩基であってよい、11~15塩基であってよい、または、16~20塩基であってよい。フォワードプライマーおよびリバースプライマーは、多型部位から離れた異なる数の塩基とハイブリダイズするように設計することができる。
Targeted PCR
In some embodiments, PCR can be used to target specific locations in the genome. In plasma samples, the original DNA is highly fragmented (generally less than 500 bp, with an average length of less than 200 bp). In PCR, both forward and reverse primers anneal to the same fragment to allow amplification. Therefore, if the fragment is short, the PCR assay must amplify a relatively short region as well. If the polymorphic position is too close to the polymerase binding site, as in MIPS, it will bias the amplification from different alleles. Currently, PCR primers that target polymorphic regions, such as those containing SNPs, are generally designed so that the 3' end of the primer hybridizes to the base immediately adjacent to one or more polymorphic bases. In some embodiments of the present disclosure, the 3' end of both the forward and reverse PCR primers are designed to hybridize to a base that is one or a few positions away from the position of the mutation (polymorphic site) of the targeted allele. The number of bases between the polymorphic site (SNP or other type) and the base to which the 3' end of the primer is designed to hybridize can be 1 base, 2 bases, 3 bases, 4 bases, 5 bases, 6 bases, 7-10 bases, 11-15 bases, or 16-20 bases. The forward and reverse primers can be designed to hybridize a different number of bases away from the polymorphic site.

PCRアッセイを多数生成することができるが、異なるPCRアッセイ間の相互作用により、約100アッセイを越えてそれらを多重化することが難しくなる。種々の複雑な分子的手法を用いて、多重化のレベルを上昇させることができるが、それでも反応当たり100未満、おそらく200、またはことによると500アッセイに限られ得る。多量のDNAを有する試料は、複数の副次反応に分割し、次いで配列決定の前に組み換えることができる。DNA分子の全体的な試料または一部の亜集団のいずれかが限られている試料については、試料を分割することにより統計学的なノイズが導入されることになる。ある実施形態では、少ないまたは限られた量のDNAとは、10pg未満、10pgから100pgの間、100pgから1ngの間、1ngから10ngの間または10ngから100ngの間の量を指し得る。この方法は、複数のプールに分割するステップを包含する他の方法では確率論的ノイズの導入に関連する重大な問題が引き起こされ得る少量のDNAに対して特に有用であるが、この方法は、いかなる量のDNAの試料に対して実行された場合でも、偏りを最小化する利益をもたらすことに留意されたい。これらの状況では、ユニバーサル前増幅ステップを使用して、全体的な試料の量を増大させることができる。理想的には、この前増幅ステップでは、対立遺伝子分布を感知できるほどには変えるべきでない。 Although a large number of PCR assays can be generated, interactions between different PCR assays make it difficult to multiplex them beyond about 100 assays. Using various complex molecular techniques, the level of multiplexing can be increased, but still limited to less than 100, perhaps 200, or possibly 500 assays per reaction. Samples with large amounts of DNA can be split into multiple sub-reactions and then recombined prior to sequencing. For samples with limited overall samples or some subpopulations of DNA molecules, splitting the sample will introduce statistical noise. In certain embodiments, low or limited amounts of DNA can refer to amounts less than 10 pg, between 10 pg and 100 pg, between 100 pg and 1 ng, between 1 ng and 10 ng, or between 10 ng and 100 ng. It should be noted that this method is particularly useful for small amounts of DNA, where other methods involving splitting into multiple pools can cause significant problems associated with the introduction of stochastic noise, but the method provides the benefit of minimizing bias when performed on samples of any amount of DNA. In these situations, a universal preamplification step can be used to increase the overall sample volume. Ideally, this preamplification step should not appreciably alter the allele distribution.

ある実施形態では、本開示の方法により、体液由来の単一細胞またはDNAなどの限られた試料から、配列決定またはいくつかの他の遺伝子型決定方法によって遺伝子型決定するために、多数の標的の遺伝子座、詳細には1,000~5,000の遺伝子座、5,000~10,000の遺伝子座、または10,000超の遺伝子座に特異的なPCR産物を生成することができる。現在、5超~10個の標的の多重PCR反応を実施することにより、大きな課題が示され、多くの場合、プライマー副産物、例えば、プライマー二量体、および他のアーチファクトが妨害となる。ハイブリダイゼーションプローブを用いたマイクロアレイを使用して標的配列を検出する場合、プライマー二量体および他のアーチファクトは検出されないので、これらは無視することができる。しかし、検出の方法として配列決定を用いる場合、シーケンシングリードの大部分は、そのようなアーチファクトを配列決定し、試料中の所望の標的配列は配列決定しない。1反応体積において50超または100の反応を多重化し、その後に配列決定するために用いられる先行技術に記載の方法により、一般には20%超、および多くの場合50%超、多くの場合80%超およびいくつかの場合には90%超のオフターゲットのシーケンスリードがもたらされる。 In an embodiment, the disclosed method allows for the generation of PCR products specific for a large number of target loci, specifically 1,000-5,000 loci, 5,000-10,000 loci, or more than 10,000 loci, from a limited sample, such as a single cell or DNA from a bodily fluid, for genotyping by sequencing or some other genotyping method. Currently, performing multiplex PCR reactions for more than 5 to 10 targets presents a major challenge and is often hindered by primer by-products, e.g., primer dimers, and other artifacts. When detecting target sequences using microarrays with hybridization probes, primer dimers and other artifacts can be ignored, as they are not detected. However, when using sequencing as a method of detection, the majority of the sequencing reads sequence such artifacts and do not sequence the desired target sequences in the sample. Prior art methods used to multiplex greater than 50 or 100 reactions in one reaction volume followed by sequencing typically result in greater than 20%, and often greater than 50%, often greater than 80%, and in some cases greater than 90% off-target sequence reads.

一般に、試料における多数の(n)標的(50超、100超、500超または1,000超)に対し標的化配列決定を実施するために、試料をいくつもの並行した反応物へと分割し、1つの個体標的を増幅することができる。これは、PCR多ウェルプレートにおいて実施されている、または商業的なプラットフォーム、例えば、FLUIDIGM ACCESS ARRAY(マイクロ流体チップにおいて試料当たり48の反応)またはRAIN DANCE TECHNOLOGYからのDROPLET PCR(100~数千もの標的)において実行することができる。残念ながら、これらのスプリットアンドプール(split-and-pool)方法は、多くの場合、存在するゲノムのコピーが、各ウェル中にゲノムの各領域の1つのコピーが存在することを確実にするためには不十分であるので、DNAの量が限られている試料に対しては問題がある。これは、多型遺伝子座を標的とする場合に特に重大な問題であり、分割およびプールすることによって導入される確率論的ノイズにより、元のDNAの試料に存在していた対立遺伝子の割合の非常に不十分に正確な測定が引き起こされるので、多型遺伝子座における対立遺伝子の相対的な割合が必要である。限られた量のDNAのみが利用可能である場合に適用可能な、多くのPCR反応物を有効かつ効率的に増幅するための方法が本明細書に記載されている。ある実施形態では、単一細胞、体液、DNAの混合物、例えば、母系の血漿中に見いだされる浮動性DNA、生検材料、環境試料および/または法医学試料を分析するために前記方法を適用することができる。 Typically, to perform targeted sequencing on a large number (n) of targets in a sample (>50, >100, >500 or >1,000), the sample can be split into several parallel reactions and one individual target can be amplified. This can be done in PCR multi-well plates or in commercial platforms such as the FLUIDIGM ACCESS ARRAY (48 reactions per sample in a microfluidic chip) or the DROPLET PCR from RAIN DANCE TECHNOLOGY (100-1000 targets). Unfortunately, these split-and-pool methods are problematic for samples with limited amounts of DNA, as there are often insufficient copies of the genome to ensure that there is one copy of each region of the genome in each well. This is a particularly significant problem when targeting polymorphic loci, where the relative proportions of alleles at polymorphic loci are needed because the stochastic noise introduced by splitting and pooling causes a very poorly accurate measurement of the proportion of alleles that were present in the original sample of DNA. Described herein are methods for effective and efficient amplification of many PCR reactions that are applicable when only limited amounts of DNA are available. In certain embodiments, the methods can be applied to analyze single cells, body fluids, mixtures of DNA, such as free-floating DNA found in maternal plasma, biopsies, environmental samples and/or forensic samples.

ある実施形態では、標的シークエンシングは、1つの、複数の、または全ての次のステップを含んでもよい。a) DNA断片の両端にアダプタ配列を有するライブラリーを生成し、増幅する。b)ライブラリー増幅後、複数反応に分割する。c) DNA断片の両端にアダプタ配列を有するライブラリーを生成し、任意選択で、増幅する。d)標的当たり1個の標的特異的「フォワード」プライマーおよび1個のタグ特異的プライマーを使って、選択標的の1000~10,000プレックス増幅を行う。e)「リバース」標的特異的プライマーおよび第1ラウンドで標的特異的フォワードプライマーの一部として導入されたユニバーサルタグ特異的1個(または2個以上)のプライマーを使ってこの産物から第2の増幅を行う。f)限定サイクル数で選択標的の1000プレックスプレ増殖を行う。g)産物を複数分割量に分け、標的のサブプールを個別反応で増幅する(例えば、50~500プレックス(この方法は、単一プレックスまでの任意プレックスで使用できる))。h)並列サブプール反応の産物をプールする。i)これらの増幅の間、プライマーは、シークエンシング適合性タグ(部分長または全長)を保持でき、それにより、産物をシークエンシングできる。 In some embodiments, targeted sequencing may include one, several, or all of the following steps: a) Generate and amplify libraries with adapter sequences at both ends of DNA fragments; b) After library amplification, split into multiple reactions; c) Generate and optionally amplify libraries with adapter sequences at both ends of DNA fragments; d) Perform 1000-10,000-plex amplification of selected targets using one target-specific "forward" primer and one tag-specific primer per target; e) Perform a second amplification of this product using a "reverse" target-specific primer and one (or more) primers specific for a universal tag that were introduced as part of the target-specific forward primer in the first round; f) Perform 1000-plex preamplification of selected targets for a limited number of cycles; g) Split the product into multiple aliquots and amplify subpools of targets in separate reactions (e.g., 50-500-plex (this method can be used with any plex up to single plex)); h) Pool the products of the parallel subpool reactions. i) During these amplifications, the primers can carry sequencing-compatible tags (partial or full length), allowing the products to be sequenced.

高度多重PCR
本明細書には、血漿から得られるゲノムDNAなどの核酸試料由来の100~数万をも超える標的配列(例えば、SNP遺伝子座)の標的化増幅を可能にする方法が開示されている。増幅された試料は、プライマー二量体産物を比較的含まず、標的遺伝子座における対立遺伝子の偏りが少ない。増幅の間または増幅後に、産物に配列決定適合性アダプタを付加する場合、これらの産物の分析を配列決定によって実施することができる。
Highly multiplexed PCR
Disclosed herein are methods that allow targeted amplification of over 100 to tens of thousands of target sequences (e.g., SNP loci) from a nucleic acid sample, such as genomic DNA obtained from plasma. The amplified samples are relatively free of primer dimer products and have low allelic bias at the target loci. Analysis of these products can be performed by sequencing if sequencing-compatible adapters are added to the products during or after amplification.

当技術分野で公知の方法を用いて高度多重PCR増幅を実施することにより、所望の増幅産物が過剰であり、配列決定に適さないプライマー二量体産物が生成する。これらは、経験的に、これらの産物を形成するプライマーを排除することによって、またはプライマーのインシリコ選択を実施することによって減少させることができる。しかし、アッセイの数が多くなるほど、この問題はより困難になる。 Performing highly multiplexed PCR amplifications using methods known in the art results in an excess of the desired amplification products and the generation of primer dimer products that are not suitable for sequencing. These can be reduced empirically by eliminating the primers that form these products or by performing in silico selection of primers. However, the larger the number of assays, the more challenging this problem becomes.

1つの解法は、5,000プレックス反応をいくつかの低プレックス増幅、例えば、100回の50プレックス反応または50回の100プレックス反応に分割すること、またはマイクロフルイディクスを使用すること、または、さらには、試料を個々のPCR反応に分割することである。しかし、妊娠血漿からの非侵襲的な出生前診断においてなど試料DNAが限られている場合は、多数の反応間に試料を分割することは、これによりボトルネッキングが生じるので、回避するべきである。 One solution is to split the 5,000-plex reaction into several lower-plex amplifications, e.g., 100 50-plex reactions or 50 100-plex reactions, or to use microfluidics, or even to split the sample into individual PCR reactions. However, when sample DNA is limited, such as in non-invasive prenatal testing from pregnancy plasma, splitting the sample between multiple reactions should be avoided as this creates bottlenecking.

本明細書には、まず試料の血漿DNAを全体的に増幅し、次いで試料を、反応当たり、より中程度の数の標的配列を伴う複数の多重化標的富化反応に分割するための方法が記載されている。ある実施形態では、本開示の方法は、DNA混合物を複数の遺伝子座で優先的に富化するために用いることができ、前記方法は以下のステップの1つまたは複数を含む:DNAの混合物からライブラリーを生成し、増幅するステップであって、ライブラリー内の分子がDNA断片の両末端にライゲーションされたアダプタ配列を有するステップ、増幅されたライブラリーを複数の反応に分割するステップ、選択された標的の多重増幅の第1ラウンドを、標的当たり1つの標的特異的「フォワード」プライマーおよび1個または複数個のアダプタ特異的なユニバーサル「リバース」プライマーを使用して実施するステップ。ある実施形態では、本開示の方法は、「リバース」標的特異的プライマー、および1個または複数個の、第1ラウンドにおいて標的特異的フォワードプライマーの一部として導入されたユニバーサルタグに特異的なプライマーを使用して第2の増幅を実施するステップをさらに含む。ある実施形態では、前記方法は、完全ネステッドPCR手法、ヘミネステッドPCR手法、セミネステッドPCR手法、片側完全ネステッドPCR手法、片側ヘミネステッドPCR手法または片側セミネステッドPCR手法を伴ってよい。ある実施形態では、DNA混合物を複数の遺伝子座において優先的に富化するために本開示の方法を用い、前記方法は、選択された標的の多重化前増幅を、限られたサイクル数で実施するステップと、産物を複数の一定分量に分けるステップと、個々の反応における標的のサブプールを増幅するステップと、並行サブプール反応の産物をプールするステップとを含む。この手法は、50~500遺伝子座について、500~5,000遺伝子座について、5,000~50,000遺伝子座について、または、さらには50,000~500,000遺伝子座について、対立遺伝子の偏りが低レベルになるように標的化増幅を実施するために用いることができることに留意されたい。ある実施形態では、プライマーは、部分長、または完全長の配列決定適合性タグを担持する。 Described herein is a method for first globally amplifying the plasma DNA of a sample and then splitting the sample into multiple multiplexed target enrichment reactions with a more moderate number of target sequences per reaction. In an embodiment, the disclosed method can be used to preferentially enrich a DNA mixture at multiple loci, the method comprising one or more of the following steps: generating and amplifying a library from a mixture of DNA, where the molecules in the library have adapter sequences ligated to both ends of the DNA fragments, splitting the amplified library into multiple reactions, and performing a first round of multiplex amplification of selected targets using one target-specific "forward" primer per target and one or more adapter-specific universal "reverse" primers. In an embodiment, the disclosed method further comprises performing a second amplification using a "reverse" target-specific primer and one or more primers specific to the universal tag introduced as part of the target-specific forward primer in the first round. In an embodiment, the method may involve a fully nested PCR approach, a hemi-nested PCR approach, a semi-nested PCR approach, a one-sided fully nested PCR approach, a one-sided hemi-nested PCR approach, or a one-sided semi-nested PCR approach. In an embodiment, the disclosed method is used to preferentially enrich a DNA mixture at multiple loci, the method includes performing multiplexed pre-amplification of selected targets with a limited number of cycles, dividing the product into multiple aliquots, amplifying subpools of targets in individual reactions, and pooling the products of parallel subpool reactions. It is noted that this approach can be used to perform targeted amplification with low levels of allelic bias for 50-500 loci, for 500-5,000 loci, for 5,000-50,000 loci, or even for 50,000-500,000 loci. In an embodiment, the primers carry partial or full-length sequencing-compatible tags.

ワークフローは、(1)血漿DNAなどのDNAを抽出するステップと、(2)断片の両末端にユニバーサルアダプタを有する断片ライブラリーを調製するステップと、(3)ライブラリーを、アダプタに特異的なユニバーサルプライマーを使用して増幅するステップと、(4)増幅された試料「ライブラリー」を複数の一定分量に分けるステップと、(5)一定分量に対して多重化(例えば、標的当たり1つの標的特異的プライマーおよびタグ特異的プライマーを用いた約100プレックス、1,000または10,000プレックス)増幅を実施するステップと、(6)1つの試料の一定分量をプールするステップと、(7)試料についてバーコーディングを行うステップと、(8)試料を混合し、濃度を調整するステップと、(9)試料について配列決定するステップとを伴ってよい。ワークフローは、列挙されているステップのうちの1つを含有する複数のサブステップを含んでよい(例えば、ステップ(2)のライブラリーを調製するステップは、3つの酵素的ステップ(平滑末端化、dAテーリングおよびアダプタライゲーション)および3つの精製ステップを伴ってよい)。ワークフローのステップは、組み合わせることができる、分けることができる、または異なる順序で実施することができる(例えば、試料のバーコーディングおよびプール)。 The workflow may involve (1) extracting DNA, such as plasma DNA; (2) preparing a fragment library with universal adaptors at both ends of the fragments; (3) amplifying the library using universal primers specific for the adaptors; (4) dividing the amplified sample "library" into multiple aliquots; (5) performing multiplex (e.g., about 100-plex, 1,000 or 10,000-plex with one target-specific primer and tag-specific primers per target) amplification on the aliquots; (6) pooling the aliquots of one sample; (7) barcoding the samples; (8) mixing the samples and adjusting the concentration; and (9) sequencing the samples. The workflow may include multiple substeps that contain one of the steps listed (e.g., the step of preparing the library in step (2) may involve three enzymatic steps (blunting, dA tailing and adaptor ligation) and three purification steps). Workflow steps can be combined, separated, or performed in a different order (e.g., barcoding and pooling samples).

ライブラリーの増幅は、短い断片をより効率的に増幅することに偏りがあるように実施することができることに留意することが重要である。このように、より短い配列、例えば、モノヌクレオソームのDNA断片を妊娠中の女性の循環中に見いだされる無細胞の胎児DNA(胎盤起源の)として優先的に増幅することが可能である。PCRアッセイは、タグ、例えば配列決定タグ(通常15~25塩基の切断形態)を有してよいことに留意されたい。多重化した後、試料のPCR多重化産物をプールし、次いで、タグ特異的PCRによって(ライゲーションによって行うこともできる)タグ付けを完了する(バーコーディングを含む)。また、多重化として完全な配列決定タグを同じ反応に加えることができる。第1のサイクルでは、標的を、標的特異的プライマーを用いて増幅することができ、その後、タグ特異的プライマーが優勢になって完全なSQアダプタ配列を完成させる。PCRプライマーはタグを担持しなくてよい。配列決定タグはライゲーションによって増幅産物に付加することができる。 It is important to note that the library amplification can be performed in a biased manner to amplify short fragments more efficiently. In this way, it is possible to preferentially amplify shorter sequences, e.g. mononucleosomal DNA fragments, as cell-free fetal DNA (of placental origin) found in the circulation of pregnant women. Note that the PCR assay may have a tag, e.g. a sequencing tag (usually a 15-25 base truncated form). After multiplexing, the PCR multiplexed products of the samples are pooled and then the tagging is completed (including barcoding) by tag-specific PCR (which can also be done by ligation). Also, the complete sequencing tag can be added to the same reaction as the multiplexing. In the first cycle, the target can be amplified with target-specific primers, after which the tag-specific primers predominate to complete the complete SQ adapter sequence. The PCR primers do not have to carry tags. The sequencing tag can be added to the amplification product by ligation.

ある実施形態では、高度多重PCR、その後クローン配列決定を用いて増幅された材料を評価することによって、胎児の異数性を検出などの種々の用途に使用することができる。従来の多重PCRでは最大で50遺伝子座を同時に評価するが、本明細書に記載の手法を使用して、50超の遺伝子座を同時に、100超遺伝子座を同時に、500超遺伝子座を同時に、1,000超遺伝子座を同時に、5,000超遺伝子座を同時に、10,000超遺伝子座を同時に、50,000超遺伝子座を同時に、および100,000超遺伝子座を同時に、同時評価することを可能にし得る。実験により、10,000まで、10,000を含めて、および10,000超の別個の遺伝子座を、単一反応において、十分に優良な効率および特異性で同時に評価して、非侵襲的な出生前異数性診断および/またはコピー数のコールを高い正確度で行うことができることが示された。アッセイは、単一反応において、母系の血漿から単離されたcfDNA試料などの試料全体、その画分またはcfDNA試料のさらに加工した誘導体と組み合わせることができる。試料(例えば、cfDNAまたは誘導体)は、複数の並行の多重反応に分割することもできる。最適な試料の分割および多重化を、種々の性能仕様のトレードオフによって決定する。材料の量が限られているので、試料を複数の画分に分割することにより、サンプリングノイズ、取扱い時間、およびエラーの可能性の増大がもたらされる可能性がある。逆に、高多重化の結果、偽の増幅の量が増え、増幅の不等性が増す可能性があり、どちらによっても検査性能が低下する。 In an embodiment, the amplified material can be evaluated using highly multiplexed PCR followed by clonal sequencing for various applications such as detecting fetal aneuploidy. While conventional multiplexed PCR evaluates up to 50 loci simultaneously, the techniques described herein may be used to simultaneously evaluate more than 50 loci, more than 100 loci, more than 500 loci, more than 1,000 loci, more than 5,000 loci, more than 10,000 loci, more than 50,000 loci, and more than 100,000 loci simultaneously. Experiments have shown that up to, including, and more than 10,000 distinct loci can be simultaneously evaluated in a single reaction with sufficient efficiency and specificity to perform non-invasive prenatal aneuploidy diagnosis and/or copy number calling with high accuracy. The assay can be combined in a single reaction with the entire sample, such as a cfDNA sample isolated from maternal plasma, a fraction thereof, or a further processed derivative of the cfDNA sample. The sample (e.g., cfDNA or derivatives) can also be split into multiple parallel multiplex reactions. Optimal sample splitting and multiplexing is determined by trading off various performance specifications. Because of the limited amount of material, splitting the sample into multiple fractions can result in increased sampling noise, handling time, and potential for error. Conversely, high multiplexing can result in increased amounts of spurious amplification and increased amplification inequality, both of which reduce test performance.

本明細書に記載の方法の適用における2つの極めて重要な関連する考慮すべき事柄は、限られた量の元の試料(例えば、血漿)および対立遺伝子頻度または他の測定値を得る材料内の元の分子の数である。元の分子の数が特定のレベルを下回る場合、ランダムサンプリングノイズが著しくなり、検査の正確度に影響を及ぼす可能性がある。一般には、標的遺伝子座当たり500~1000個の元の分子相当を含む試料に対して測定を行う場合、非侵襲的な出生前異数性診断を行うために十分な品質のデータを得ることができる。別個の測定値の数を増加させる、例えば、試料の体積を増加させるいくつもの方法が存在する。試料に適用される各操作によっても、潜在的に材料が損失する。検査の性能を低下させ得る損失を回避するために、種々の操作によって受けた損失を特徴付けること、および特定の操作を回避するまたは必要に応じてその収量を改善することが必須である。 Two crucial relevant considerations in the application of the methods described herein are the limited amount of original sample (e.g., plasma) and the number of original molecules in the material from which allele frequency or other measurements are obtained. If the number of original molecules falls below a certain level, random sampling noise can become significant and affect the accuracy of the test. In general, if measurements are performed on samples containing the equivalent of 500-1000 original molecules per target locus, data of sufficient quality can be obtained to perform non-invasive prenatal aneuploidy diagnosis. There are several ways to increase the number of distinct measurements, e.g., to increase the volume of the sample. Each manipulation applied to the sample also potentially results in a loss of material. It is essential to characterize the losses incurred by the various manipulations and to avoid certain manipulations or improve their yield if necessary, in order to avoid losses that could reduce the performance of the test.

ある実施形態では、元の試料(例えば、cfDNA試料)の全てまたはある割合を増幅することによって、その後のステップにおける潜在的な損失を減ずることが可能である。試料中の遺伝物質の全てを増幅し、それにより下流の手順のために利用可能な量を増大させるために、種々の方法が利用可能である。ある実施形態では、ライゲーション媒介性PCR(LM-PCR)DNA断片を、1つの別個のアダプタ、2つの別個のアダプタまたは多くの別個のアダプタのいずれかをライゲーションした後に、PCRによって増幅する。ある実施形態では、多置換増幅(MDA)phi-29ポリメラーゼを使用して、全てのDNAを等温的に増幅する。DOP-PCRおよびその変形では、ランダムプライミングを使用して元の材料DNAを増幅する。各方法は、特定の特性、例えば、代表的なゲノムの領域全てにわたる増幅の均一性、元のDNAの捕捉および増幅の効率、および断片の長さに応じた増幅性能を有する。 In some embodiments, it is possible to reduce potential losses in subsequent steps by amplifying all or a percentage of the original sample (e.g., a cfDNA sample). Various methods are available to amplify all of the genetic material in a sample, thereby increasing the amount available for downstream procedures. In some embodiments, ligation-mediated PCR (LM-PCR) DNA fragments are amplified by PCR after ligation with either one separate adaptor, two separate adaptors, or many separate adaptors. In some embodiments, multiple displacement amplification (MDA) phi-29 polymerase is used to amplify all DNA isothermally. DOP-PCR and its variants use random priming to amplify the original material DNA. Each method has certain characteristics, such as uniformity of amplification across all representative genomic regions, efficiency of capture and amplification of original DNA, and amplification performance as a function of fragment length.

ある実施形態では、LM-PCRを、3’チロシンを有する単一のヘテロ二本鎖アダプタと一緒に使用することができる。ヘテロ二本鎖アダプタにより、PCRの第1ラウンドの間に元のDNA断片の5’末端および3’末端上の2つの別個の配列に変換することができる単一のアダプタ分子を使用することが可能になる。ある実施形態では、サイズ分離によって増幅されたライブラリー、またはAMPURE、TASS、もしくは他の同様の方法などの産物を分画することが可能である。ライゲーションの前に、試料DNAを平滑末端化し、次いで、単一のアデノシン塩基を3’末端に付加する。ライゲーションの前に、DNAを、制限酵素またはいくつかの他の切断方法を用いて切断することができる。ライゲーションの間、試料断片の3’アデノシンおよびアダプタの相補的な3’チロシンオーバーハングにより、ライゲーション効率が増強され得る。PCR増幅の伸長ステップは、約200bp、約300bp、約400bp、約500bpまたは約1,000bpより長い断片からの増幅を低下させるための時間の観点から、限られ得る。母系の血漿中に見いだされるより長いDNAはほぼ排他的に母系であるので、これにより、胎児DNAの10~50%の富化および検査性能の改善がもたらされ得る。市販のキットによって規定されている条件を用いていくつもの反応を実行し、試料DNA分子の10%未満の上首尾のライゲーションがもたらされた。これに対する反応条件の一連の最適化により、ライゲーションがおよそ70%に改善された。 In an embodiment, LM-PCR can be used with a single heteroduplex adapter with a 3' tyrosine. The heteroduplex adapter allows for the use of a single adapter molecule that can be converted into two separate sequences on the 5' and 3' ends of the original DNA fragment during the first round of PCR. In an embodiment, it is possible to fractionate the amplified library by size separation, or the products such as AMPURE, TASS, or other similar methods. Prior to ligation, the sample DNA is blunt-ended and then a single adenosine base is added to the 3' end. Prior to ligation, the DNA can be cleaved using a restriction enzyme or some other cleavage method. During ligation, the 3' adenosine of the sample fragment and the complementary 3' tyrosine overhang of the adapter can enhance ligation efficiency. The extension step of the PCR amplification may be limited in terms of time to reduce amplification from fragments longer than about 200 bp, about 300 bp, about 400 bp, about 500 bp, or about 1,000 bp. Since the longer DNA found in maternal plasma is almost exclusively maternal, this may result in a 10-50% enrichment of fetal DNA and improved test performance. Several reactions were performed using conditions specified by the commercial kit, resulting in successful ligation of less than 10% of the sample DNA molecules. Sequential optimization of the reaction conditions for this improved ligation to approximately 70%.

Mini-PCR
下記のMini-PCR法は、cfDNAなどの短い核酸,消化核酸,またはフラグメント化核酸を含む試料に好適する。従来のPCRアッセイ設計により、特徴的な胎児の分子の損失が大きいが、この損失は、mini-PCRアッセイと称される非常に短いPCRアッセイを設計することによって著しく低下させることができる。母系の血清中の胎児のcfDNAは高度に断片化されており、断片サイズはほぼガウス様式で分布しており、平均が160bpであり、標準偏差が15bpであり、最小サイズが約100bpであり、最大サイズが約220bpである。標的の多型に関する断片の開始位置および終了位置の分布は、必ずしもランダムではないが、個々の標的の間で、および集合的に全ての標的の間で広範に変動し、1つの特定の標的遺伝子座の多型部位は、その遺伝子座を起源とする種々の断片の中で開始から終了までの任意の位置を占有し得る。mini-PCRという用語は、さらなる制限または限定なく、通常のPCRを等しく良好に指し得ることに留意されたい。
Mini-PCR
The Mini-PCR method described below is suitable for samples containing short, digested, or fragmented nucleic acids such as cfDNA. Conventional PCR assay design results in a high loss of characteristic fetal molecules, which can be significantly reduced by designing a very short PCR assay, referred to as a mini-PCR assay. Fetal cfDNA in maternal serum is highly fragmented, with fragment sizes distributed in an approximately Gaussian manner, with a mean of 160 bp, a standard deviation of 15 bp, a minimum size of about 100 bp, and a maximum size of about 220 bp. The distribution of fragment start and end positions for targeted polymorphisms is not necessarily random, but varies widely among individual targets and among all targets collectively, and a polymorphic site at one particular target locus may occupy any position from start to end among the various fragments originating from that locus. It is noted that the term mini-PCR may equally well refer to regular PCR without further restrictions or limitations.

PCRの間、増幅はフォワードプライマー部位とリバースプライマー部位の両方を含む鋳型DNA断片のみから起こる。胎児のcfDNA断片は短いので、両方のプライマー部位が存在する尤度であって、フォワードプライマー部位とリバースプライマー部位の両方を含む長さLの胎児の断片の尤度は、増幅産物の長さと断片の長さの比である。理想的な条件下では、増幅産物が45bp、50bp、55bp、60bp、65bpまたは70bpであるアッセイにより、それぞれ、利用可能な鋳型断片分子の72%、69%、66%、63%、59%または56%から首尾よく増幅される。増幅産物の長さは、フォワードプライミング部位およびリバースプライミング部位の5’末端の間の距離である。当業者により一般に使用されるものよりも短い長さの増幅産物により、必要な短いシーケンスリードのみによる所望の多型遺伝子座のより効率的な測定がもたらされ得る。ある実施形態では、増幅産物の実質的な画分は100bp未満、90bp未満、80bp未満、70bp未満、65bp未満、60bp未満、55bp未満、50bp未満、または45bp未満であるべきである。 During PCR, amplification occurs only from template DNA fragments that contain both forward and reverse primer sites. Because fetal cfDNA fragments are short, the likelihood that both primer sites are present, and thus the likelihood of a fetal fragment of length L containing both forward and reverse primer sites, is the ratio of the length of the amplicon to the length of the fragment. Under ideal conditions, assays in which the amplicon is 45 bp, 50 bp, 55 bp, 60 bp, 65 bp, or 70 bp will successfully amplify from 72%, 69%, 66%, 63%, 59%, or 56% of the available template fragment molecules, respectively. The length of the amplicon is the distance between the 5' ends of the forward and reverse priming sites. Amplified products of shorter lengths than those commonly used by those skilled in the art may result in more efficient measurement of the desired polymorphic locus with only short sequence reads required. In certain embodiments, a substantial fraction of the amplification products should be less than 100 bp, less than 90 bp, less than 80 bp, less than 70 bp, less than 65 bp, less than 60 bp, less than 55 bp, less than 50 bp, or less than 45 bp.

先行技術で公知の方法において、本明細書に記載のものなどの短いアッセイは、必要ではなく、また、プライマーの設計に対して、プライマーの長さの限定、アニーリング特性、およびフォワードプライマーとリバースプライマーの間の距離によってかなりの制約を課すので、通常は回避されることに留意されたい。 It should be noted that in methods known in the prior art, short assays such as those described herein are not necessary and are usually avoided because they impose significant constraints on primer design due to limited primer length, annealing properties, and distance between forward and reverse primers.

いずれかのプライマーの3’末端が多型部位のおよそ1~6塩基の範囲内である場合、増幅の偏りが潜在的に存在することにも留意されたい。最初にポリメラーゼが結合する部位におけるこの一塩基の差異により、一方の対立遺伝子の優先的な増幅がもたらされる可能性があり、これにより、観察される対立遺伝子頻度が変更され、性能が低下する可能性がある。これらの制約の全てにより、特定の遺伝子座を首尾よく増幅するプライマーを同定すること、およびそれに加えて、同じ多重化反応に適合するプライマーの大きな集合を設計することが非常に困難になる。ある実施形態では、内側のフォワードプライマーおよびリバースプライマーの3’末端を、多型部位の上流にあり、少数の塩基で多型部位から隔てられているDNAの領域とハイブリダイズするように設計する。理想的には、塩基の数は6塩基から10塩基の間であってよいが、同等に良好に、4塩基から15塩基の間、3塩基から20塩基の間、2塩基から30塩基の間または1塩基から60塩基の間であってよく、実質的に同じ結果が実現され得る。 It should also be noted that amplification bias is potentially present if the 3' end of either primer is within approximately 1-6 bases of the polymorphic site. This single base difference in the site where the polymerase first binds can result in preferential amplification of one allele, which can alter the observed allele frequency and reduce performance. All of these constraints make it very difficult to identify primers that successfully amplify specific loci, and in addition, to design a large collection of primers that are compatible with the same multiplex reaction. In one embodiment, the 3' ends of the inner forward and reverse primers are designed to hybridize to a region of DNA that is upstream of the polymorphic site and separated from it by a small number of bases. Ideally, the number of bases can be between 6 and 10 bases, but can equally well be between 4 and 15 bases, 3 and 20 bases, 2 and 30 bases, or 1 and 60 bases, and essentially the same results can be achieved.

多重PCRは、全ての標的が増幅される単回ラウンドのPCRを伴ってよい、または、1ラウンドのPCR、その後の1または複数のラウンドのネステッドPCRまたはネステッドPCRのいくつかの変形を伴ってよい。ネステッドPCRは、前のラウンドで使用されたプライマーよりも少なくとも1つの塩基対だけ内部に結合する1個または複数個の新しいプライマーを使用した、次の1または複数のラウンドのPCR増幅からなる。ネステッドPCRにより、正確な内部の配列を有する前の反応からの増幅産物のみを、その後の反応において、増幅することによって偽の増幅標的の数が減少する。偽の増幅標的が減少することにより、特に配列決定において得ることができる有用な測定値の数が改善される。ネステッドPCRは、一般には、前のプライマー結合部位よりも完全に内部のプライマーを設計することを伴い、必然的に、増幅のために必要な最小のDNAセグメントサイズが増大する。DNAが高度に断片化されている母系の血漿cfDNAなどの試料については、より大きなアッセイサイズにより、測定値を得ることができる別個のcfDNA分子の数が減少する。ある実施形態では、この影響を相殺するために、第2ラウンドのプライマーの一方または両方が、いくつかの数の塩基を内部に伸長させている第1の結合部位とオーバーラップしている部分的なネスティング手法を用いて、全アッセイサイズの拡大を最小限にしながらさらに別の特異性を実現することができる。 Multiplex PCR may involve a single round of PCR in which all targets are amplified, or it may involve one round of PCR followed by one or more rounds of nested PCR or some variation of nested PCR. Nested PCR consists of one or more subsequent rounds of PCR amplification using one or more new primers that bind at least one base pair further inwards than the primer used in the previous round. Nested PCR reduces the number of false amplification targets by amplifying, in subsequent reactions, only those amplification products from the previous reaction that have the correct internal sequence. Reducing false amplification targets improves the number of useful measurements that can be obtained, especially in sequencing. Nested PCR generally involves designing primers completely inwards to the previous primer binding site, which necessarily increases the minimum DNA segment size required for amplification. For samples such as maternal plasma cfDNA, where the DNA is highly fragmented, the larger assay size reduces the number of distinct cfDNA molecules from which measurements can be obtained. In some embodiments, to counteract this effect, a partial nesting approach can be used in which one or both of the second round primers overlap the first binding site extending internally by several bases, providing additional specificity while minimizing expansion of the overall assay size.

ある実施形態では、PCRアッセイの多重プールを、潜在的にヘテロ接合性である1個または複数個の染色体上のSNPまたは他の多型遺伝子座または非多型遺伝子座を増幅するように設計し、これらのアッセイを単一反応において用いてDNAを増幅する。PCRアッセイの数は、50回から200回の間のPCRアッセイ、200回から1,000回の間のPCRアッセイ、1,000回から5,000回の間のPCRアッセイまたは5,000回から20,000回の間のPCRアッセイ(50~200プレックス、200~1,000プレックス、1,000~5,000プレックス、5,000~20,000プレックス、20,000超プレックスそれぞれ)であってよい。ある実施形態では、約10,000PCRアッセイ(10,000プレックス)の多重プールを、X染色体、Y染色体、第13染色体、第18染色体、および第21染色体および第1染色体または第2染色体上の潜在的にヘテロ接合性であるSNP遺伝子座を増幅するように設計し、これらのアッセイを単一反応において用いて、材料血漿試料、絨毛膜絨毛試料、羊水穿刺試料、単一または少数の細胞、他の体液または組織、がんまたは他の遺伝物質から得られたcfDNAを増幅する。各遺伝子座のSNP頻度は、増幅産物の配列決定のクローンによる方法またはいくつかの他の方法によって決定することができる。対立遺伝子頻度分布の統計分析または全てのアッセイの比を使用して、試料が、検査に含まれる染色体のうちの1個または複数個のトリソミーを含有するかどうかを決定することができる。別の実施形態では、元のcfDNA試料を2つの試料に分割し、並行した5,000プレックスアッセイを実施する。別の実施形態では、元のcfDNA試料をn個の試料に分割し、並行した(約10,000/n)プレックスアッセイを実施し、ここでnは、2から12の間または12から24の間または24から48の間または48から96の間である。データを収集し、既に記載されているものと同様に分析する。この方法は、転座、欠失、重複、および他の染色体異常を検出することに同等に良好に適用可能であることに留意されたい。 In some embodiments, multiplex pools of PCR assays are designed to amplify SNPs or other polymorphic or non-polymorphic loci on one or more chromosomes that are potentially heterozygous, and these assays are used in a single reaction to amplify DNA. The number of PCR assays can be between 50 and 200 PCR assays, between 200 and 1,000 PCR assays, between 1,000 and 5,000 PCR assays, or between 5,000 and 20,000 PCR assays (50-200plex, 200-1,000plex, 1,000-5,000plex, 5,000-20,000plex, and over 20,000plex, respectively). In an embodiment, a multiplex pool of about 10,000 PCR assays (10,000-plex) is designed to amplify potentially heterozygous SNP loci on chromosomes X, Y, 13, 18, and 21, and chromosomes 1 or 2, and these assays are used in a single reaction to amplify cfDNA obtained from material plasma samples, chorionic villus samples, amniocentesis samples, single or small numbers of cells, other body fluids or tissues, cancer or other genetic material. The SNP frequency of each locus can be determined by a clonal method of sequencing the amplified products or some other method. Statistical analysis of allele frequency distribution or ratios of all assays can be used to determine whether the sample contains one or more trisomies of the chromosomes included in the test. In another embodiment, the original cfDNA sample is split into two samples and parallel 5,000-plex assays are performed. In another embodiment, the original cfDNA sample is split into n samples and parallel (approximately 10,000/n)plex assays are performed, where n is between 2 and 12, or between 12 and 24, or between 24 and 48, or between 48 and 96. Data is collected and analyzed similarly to that already described. Note that this method is equally well applicable to detecting translocations, deletions, duplications, and other chromosomal abnormalities.

ある実施形態では、標的ゲノムに対する相同性を有さない尾部をプライマーのいずれかの3’末端または5’末端に付加することもできる。これらの尾部により、その後の操作、手順または測定が容易になる。ある実施形態では、尾部配列は、標的特異的フォワードプライマーと標的特異的リバースプライマーに対して同じであってよい。ある実施形態では、標的特異的フォワードプライマーと標的特異的リバースプライマーのために異なる尾部を用いることができる。ある実施形態では、異なる遺伝子座または遺伝子座の集合に対して複数の異なる尾部を用いることができる。全ての遺伝子座の間で、または遺伝子座のサブセットの間で特定の尾部が共有されてよい。例えば、現行の配列決定プラットフォームのいずれかに必要なフォワード配列およびリバース配列に対応するフォワード尾部およびリバース尾部を用いて、増幅後の直接配列決定が可能になる。ある実施形態では、尾部を、全ての増幅された標的の間で、他の有用な配列を付加するために使用することができる一般的なプライミング部位として使用することができる。いくつかの実施形態では、内側のプライマーは、標的の遺伝子座(例えば、多型遺伝子座)の上流または下流のいずれかとハイブリダイズするように設計された領域を含有してよい。いくつかの実施形態では、プライマーは、分子バーコードを含有してよい。いくつかの実施形態では、プライマーは、PCR増幅が可能になるように設計されたユニバーサルプライミング配列を含有してよい。 In some embodiments, tails that have no homology to the target genome can also be added to the 3' or 5' end of any of the primers. These tails facilitate subsequent manipulations, procedures, or measurements. In some embodiments, the tail sequence can be the same for the target-specific forward and reverse primers. In some embodiments, different tails can be used for the target-specific forward and reverse primers. In some embodiments, multiple different tails can be used for different loci or sets of loci. Certain tails can be shared between all loci or between subsets of loci. For example, forward and reverse tails that correspond to the forward and reverse sequences required for any of the current sequencing platforms allow for direct sequencing after amplification. In some embodiments, the tails can be used as a general priming site that can be used to add other useful sequences between all amplified targets. In some embodiments, the inner primers can contain regions designed to hybridize either upstream or downstream of the target locus (e.g., polymorphic locus). In some embodiments, the primers can contain molecular barcodes. In some embodiments, the primers may contain universal priming sequences designed to enable PCR amplification.

ある実施形態では、10,000プレックスPCRアッセイプールを、フォワードプライマーおよびリバースプライマーが、ハイスループット配列決定計器、例えば、ILLUMINAから入手可能なHISEQ、GAIIXまたはMYSEQに必要な所要のフォワード配列およびリバース配列に対応する尾部を有するように作製する。さらに、配列決定尾部に対して5’側には、その後のPCRにおいて増幅産物にヌクレオチドバーコード配列を付加するためのプライミング部位として用いることができるさらに別の配列が含まれ、それにより、複数の試料をハイスループット配列決定計器の単一のレーンで多重化シークエンシングが可能になる。 In one embodiment, a 10,000-plex PCR assay pool is created in which the forward and reverse primers have tails that correspond to the required forward and reverse sequences required for a high-throughput sequencing instrument, such as the HISEQ, GAIIX, or MYSEQ available from ILLUMINA. Additionally, an additional sequence is included 5' to the sequencing tails that can be used as a priming site for adding a nucleotide barcode sequence to the amplified product in a subsequent PCR, thereby allowing multiplexed sequencing of multiple samples in a single lane of a high-throughput sequencing instrument.

ある実施形態では、10,000プレックスPCRアッセイプールを、リバースプライマーが、ハイスループット配列決定計器に必要な所要のリバース配列に対応する尾部を有するように作製する。第1の10,000プレックスアッセイで増幅した後、その後のPCR増幅を、全ての標的に対して部分ネステッドフォワードプライマー(例えば、6塩基ネステッド)、および第1ラウンドに含まれたリバース配列決定尾部に対応するリバースプライマーを有する別の10,000プレックスプールを使用して実施することができる。この、ただ1つの標的特異的プライマーおよびユニバーサルプライマーを用いた部分ネステッド増幅の次のラウンドでは、アッセイに必要なサイズが限られ、サンプリングノイズが低下するが、偽の増幅産物の数が著しく減少する。配列決定タグを、付加したライゲーションアダプタに、および/またはPCRプローブの一部として付加することができ、したがって、タグは最後の増幅産物の一部になる。 In one embodiment, a 10,000-plex PCR assay pool is created where the reverse primer has a tail corresponding to the required reverse sequence required for a high-throughput sequencing instrument. After amplification in the first 10,000-plex assay, a subsequent PCR amplification can be performed using a partially nested forward primer (e.g., 6-base nested) for all targets and another 10,000-plex pool with a reverse primer corresponding to the reverse sequencing tail included in the first round. This next round of partially nested amplification with only one target-specific primer and a universal primer limits the size required for the assay, lowering sampling noise but significantly reducing the number of spurious amplicons. Sequencing tags can be added to the added ligation adaptors and/or as part of the PCR probe, so that the tags become part of the final amplicons.

胎児画分は検査の性能に影響を及ぼす。母系の血漿中に見いだされるDNAの胎児画分を富化するためのいくつもの方法が存在する。胎児画分は、既に考察されている上記のLM-PCR法によって、ならびに長い母系断片の標的化除去によって増大させることができる。ある実施形態では、標的遺伝子座の多重PCR増幅の前に、追加の多重PCR反応を行って、その後の多重PCRにおいて標的とされる遺伝子座に対応する長くて大きい母系断片を選択的に除去することができる。追加のプライマーを、無細胞の胎児DNA断片の間に存在することが予想されるよりも多型からの距離が長い部位とアニーリングするように設計する。これらのプライマーは、標的多型遺伝子座の多重PCRの前の1サイクル多重PCR反応において用いることができる。これらの遠位プライマーには、タグを付けたDNAの小片の選択的な認識を可能にし得る分子または部分でタグ付けする。ある実施形態では、これらのDNAの分子は、1サイクルのPCR後に、これらのプライマーを含む新しく形成された二本鎖DNAを除去することを可能にするビオチン分子を用いて共有結合的に修飾することができる。その第1ラウンドの間に形成された二本鎖DNAは、母体起源であるようである。ハイブリッド材料の除去は、磁性ストレプトアビジンビーズを使用することにより実現することができる。同等に良好に機能し得るタグ付けの他の方法が存在する。ある実施形態では、サイズ選択法を使って、例えば、約800bp未満、約500bp未満、または約300bp未満のDNAなどのより短鎖のDNAのために試料を富化できる。次いで、短い断片の増幅を通常通り進める。 The fetal fraction affects the performance of the test. There are several ways to enrich the fetal fraction of DNA found in maternal plasma. The fetal fraction can be increased by the LM-PCR method already discussed above, as well as by targeted removal of long maternal fragments. In an embodiment, prior to the multiplex PCR amplification of the target loci, an additional multiplex PCR reaction can be performed to selectively remove long and large maternal fragments corresponding to the loci targeted in the subsequent multiplex PCR. Additional primers are designed to anneal to sites that are a greater distance from the polymorphism than would be expected to be present among the cell-free fetal DNA fragments. These primers can be used in a one-cycle multiplex PCR reaction prior to the multiplex PCR of the target polymorphic loci. These distal primers are tagged with a molecule or moiety that may allow selective recognition of the tagged piece of DNA. In an embodiment, these molecules of DNA can be covalently modified with a biotin molecule that allows the removal of the newly formed double-stranded DNA containing these primers after one cycle of PCR. The double-stranded DNA formed during that first round is likely to be of maternal origin. Removal of hybrid material can be accomplished by using magnetic streptavidin beads. There are other methods of tagging that may work equally well. In some embodiments, size selection methods can be used to enrich the sample for shorter strands of DNA, such as, for example, DNA less than about 800 bp, less than about 500 bp, or less than about 300 bp. Amplification of the short fragments then proceeds as normal.

本開示に記載のmini-PCR法により、単一反応において、単一の試料から数百~数千、またはさらに数百万もの遺伝子座の高度に多重化された増幅および分析が可能になる。同時に、増幅されたDNAの検出を多重化することができ、バーコーディングPCRを用いることによって、数十~数百の試料を1つの配列決定レーンにおいて多重化することができる。この多重化検出は、最大49プレックスまで首尾よく試験されており、はるかに高い程度の多重化が可能である。事実上、これにより、単回の配列決定の実行で、数百の試料について数千ものSNPにおける遺伝子型決定することが可能になる。これらの試料について、前記方法により、遺伝子型およびヘテロ接合性率を決定すること、また、同時に、コピー数を決定することが可能になり、これらはどちらも異数性を検出するために用いることができる。この方法は、母系の血漿中に見いだされる浮動性DNAから妊娠中の胎児の異数性を検出することにおいて特に有用である。この方法は、胎児の性判別をし、かつ/または胎児の父系性を予測するための方法の一部として用いることができる。この方法は、変異量決定ための方法の一部として用いることができる。この方法は、任意の量のDNAまたはRNAに対して用いることができ、標的の領域はSNP、他の多型領域、非多型領域、およびそれらの組み合わせであってよい。 The mini-PCR method described in this disclosure allows for highly multiplexed amplification and analysis of hundreds to thousands or even millions of loci from a single sample in a single reaction. At the same time, detection of the amplified DNA can be multiplexed, and by using barcoding PCR, tens to hundreds of samples can be multiplexed in one sequencing lane. This multiplexed detection has been successfully tested up to 49-plex, allowing for a much higher degree of multiplexing. In effect, this allows for genotyping at thousands of SNPs for hundreds of samples in a single sequencing run. For these samples, the method allows for the determination of genotype and heterozygosity rates, and at the same time, copy number, both of which can be used to detect aneuploidy. This method is particularly useful in detecting aneuploidy in a gestating fetus from free-floating DNA found in maternal plasma. This method can be used as part of a method for sexing the fetus and/or predicting fetal paternity. This method can be used as part of a method for mutation load determination. This method can be used on any amount of DNA or RNA, and the target regions can be SNPs, other polymorphic regions, non-polymorphic regions, and combinations thereof.

いくつかの実施形態では、断片化されたDNAのライゲーション媒介性ユニバーサルPCR増幅を用いることができる。ライゲーション媒介性ユニバーサルPCR増幅を用いて、血漿DNAを増幅することができ、次いで、それを複数の並行した反応へと分割することができる。ライゲーション媒介性ユニバーサルPCR増幅は、短い断片を優先的に増幅し、それにより、胎児画分を富化するためにも用いることができる。いくつかの実施形態では、ライゲーションによって断片にタグを付加することにより、より短い断片を検出すること、プライマーのより短い標的配列特異的部分を使用すること、および/または非特異的な反応を減少させるより高温でアニーリングすることを可能にし得る。 In some embodiments, ligation-mediated universal PCR amplification of fragmented DNA can be used. Ligation-mediated universal PCR amplification can be used to amplify plasma DNA, which can then be split into multiple parallel reactions. Ligation-mediated universal PCR amplification can also be used to preferentially amplify short fragments, thereby enriching the fetal fraction. In some embodiments, adding tags to the fragments by ligation can allow for detection of shorter fragments, use of shorter target sequence specific portions of the primers, and/or annealing at higher temperatures to reduce non-specific reactions.

本明細書に記載の方法は、ある量の混入DNAと混在している標的DNAの集合が存在する場合の、いくつもの目的のために用いることができる。いくつかの実施形態では、標的DNAおよび混入DNAは、遺伝的に関連する個体由来であってよい。例えば、胎児(標的)における遺伝子の異常は、胎児(標的)のDNAおよび同様に母系の(混入)DNAを含有する母系の血漿から検出することができ、異常としては、全染色体異常(例えば、異数性)、部分的な染色体異常(例えば、欠失、重複、逆位、転座)、ポリヌクレオチド多型(例えば、STR)、一塩基多型、および/または他の遺伝子の異常または差異が挙げられる。いくつかの実施形態では、標的DNAおよび混入DNAは、同じ個体由来であってよいが、例えば、がんの場合には、標的DNAと混入DNAが1個または複数個の変異によって異なる (例えば、H.Mamon et al.Preferential Amplification of Apoptotic DNA from Plasma:Potential for Enhancing Detection of Minor DNA Alterations in Circulating DNA.Clinical Chemistry 54:9(2008)、を参照)。いくつかの実施形態では、DNAは、細胞培養物(アポトーシス性)上清中に見いだすことができる。いくつかの実施形態では、その後のライブラリーの調製、増幅および/または配列決定のために、生体試料(例えば、血液)においてアポトーシスを誘導することが可能である。この目的を実現するためのいくつもの可能となるワークフローおよびプロトコールが本開示の他の箇所に示されている。 The methods described herein can be used for a number of purposes where there is a collection of target DNA mixed with a certain amount of contaminating DNA. In some embodiments, the target DNA and the contaminating DNA may be from genetically related individuals. For example, genetic abnormalities in a fetus (target) can be detected from maternal plasma containing fetal (target) DNA and also maternal (contaminating) DNA, including whole chromosomal abnormalities (e.g., aneuploidies), partial chromosomal abnormalities (e.g., deletions, duplications, inversions, translocations), polynucleotide polymorphisms (e.g., STRs), single nucleotide polymorphisms, and/or other genetic abnormalities or differences. In some embodiments, the target DNA and the contaminating DNA may be from the same individual, but in the case of, for example, cancer, the target DNA and the contaminating DNA differ by one or more mutations (see, e.g., H. Mamon et al. Preferential Amplification of Apoptotic DNA from Plasma: Potential for Enhancing Detection of Minor DNA Alterations in Circulating DNA. Clinical Chemistry 54:9 (2008)). In some embodiments, the DNA can be found in cell culture (apoptotic) supernatants. In some embodiments, apoptosis can be induced in biological samples (e.g., blood) for subsequent library preparation, amplification and/or sequencing. A number of possible workflows and protocols for achieving this goal are presented elsewhere in this disclosure.

いくつかの実施形態では、標的DNAは、単一細胞、標的ゲノムの1個に満たないコピーからなるDNA試料、小量のDNA、混合起源からのDNA(例えば、妊娠血漿:胎盤および母系DNA;癌患者血漿および腫瘍:健康および癌DNAの混合物、移植片、など)、他の体液,細胞培養物、培養上清、法医学DNA試料、古代DNA試料(例えば、琥珀中に捕捉された昆虫),他のDNA試料、およびこれらの組み合わせ由来であってよい。 In some embodiments, the target DNA may be from a single cell, a DNA sample consisting of less than one copy of the target genome, small amounts of DNA, DNA from mixed sources (e.g., pregnancy plasma: placenta and maternal DNA; cancer patient plasma and tumor: a mixture of healthy and cancer DNA, transplants, etc.), other bodily fluids, cell cultures, culture supernatants, forensic DNA samples, ancient DNA samples (e.g., insects trapped in amber), other DNA samples, and combinations thereof.

いくつかの実施形態では、短い増幅産物サイズを用いることができる。短い増幅産物サイズは、断片化されたDNAに特に適している(例えば、A. Sikoraら、Detection of increased amounts of cell-free fetal DNA with short PCR amplicons.Clin Chem. 2010年1月;56巻(1号):136~8頁を参照されたい)。 In some embodiments, short amplicon sizes can be used. Short amplicon sizes are particularly suitable for fragmented DNA (see, e.g., A. Sikora et al., Detection of increased amounts of cell-free fetal DNA with short PCR amplicons. Clin Chem. January 2010; 56(1):136-8).

短い増幅産物サイズを用いることにより、いくつかの重要な利益がもたらされ得る。短い増幅産物サイズにより、最適化された増幅効率がもたされ得る。短い増幅産物サイズにより、一般には、より短い産物が生じ、したがって、非特異的なプライミングの見込みは少ない。より短い産物は、クラスターがより小さくなるほど、配列決定フローセル上により高密度にクラスター化することができる。本明細書に記載の方法は、より長いPCR増幅産物に対して同等に良好に機能し得ることに留意されたい。増幅産物の長さは、必要であれば、例えば、より大きな配列の範囲について配列決定する場合には増大させることができる。ネステッドPCRプロトコールの第1のステップとして100bp~200bp長のアッセイを伴う146プレックス標的化増幅を用いた実験を、単一細胞およびゲノムDNAに対して行い、陽性の結果を得た。 Using short amplicon sizes can provide several important benefits. Short amplicon sizes can provide optimized amplification efficiency. Short amplicon sizes generally result in shorter products and therefore less chance of non-specific priming. Shorter products can be clustered more densely on a sequencing flow cell, as the clusters are smaller. Note that the methods described herein can work equally well for longer PCR amplicons. The amplicon length can be increased if necessary, for example, when sequencing a larger sequence range. Experiments using 146-plex targeted amplification with 100-200 bp long assays as the first step of the nested PCR protocol have been performed on single cells and genomic DNA with positive results.

いくつかの実施形態では、本明細書に記載の方法を用いて、SNP、コピー数、ヌクレオチドのメチル化、mRNAのレベル、他の種類のRNAの発現レベル、他の遺伝子の形体および/または後成的な形体を増幅し、かつ/または検出することができる。本明細書に記載のmini-PCR法は、次世代配列決定と一緒に用いることができ、前記方法は、他の下流の方法、例えば、マイクロアレイ、デジタルPCRによる計数、リアルタイムPCR、質量分析などと一緒に用いることができる。 In some embodiments, the methods described herein can be used to amplify and/or detect SNPs, copy number, nucleotide methylation, mRNA levels, expression levels of other types of RNA, other genetic and/or epigenetic features. The mini-PCR methods described herein can be used in conjunction with next generation sequencing, and the methods can be used in conjunction with other downstream methods, such as microarrays, digital PCR counting, real-time PCR, mass spectrometry, etc.

いくつかの実施形態では、本明細書に記載のmini-PCR増幅方法は、少数集団を正確に定量化するための方法の一部として用いることができる。前記方法は、スパイク較正物質を使用した絶対的定量化のために用いることができる。前記方法は、超ディープシーケンシングによる、変異/微量な対立遺伝子の定量化のために用いることができ、高度に多重化された様式で実行することができる。前記方法は、ヒト、動物、植物または他の生き物における近親者または祖先の標準の父系性および同一性検査のために用いることができる。前記方法は、法医学的試験のために用いることができる。前記方法は、任意の種類の材料、例えば、羊水およびCVS、精子、受胎産物(POC)に対する迅速な遺伝子型決定およびコピー数解析(CN)のために用いることができる。前記方法は、胚からの生検試料に対する遺伝子型決定などの単一細胞分析のために用いることができる。前記方法は、min-PCRを用いた標的化配列決定による迅速な胚分析(生検から1日未満、1日、または2日以内)のために用いることができる。 In some embodiments, the mini-PCR amplification methods described herein can be used as part of a method for accurate quantification of minority populations. The methods can be used for absolute quantification using spiked calibrators. The methods can be used for quantification of variants/low abundance alleles by ultra-deep sequencing and can be performed in a highly multiplexed manner. The methods can be used for standard paternity and identity testing of relatives or ancestry in humans, animals, plants or other living organisms. The methods can be used for forensic testing. The methods can be used for rapid genotyping and copy number analysis (CN) on any type of material, e.g., amniotic fluid and CVS, sperm, products of conception (POC). The methods can be used for single cell analysis, such as genotyping on biopsy samples from embryos. The methods can be used for rapid embryo analysis (less than 1 day, 1 day, or 2 days after biopsy) by targeted sequencing using min-PCR.

いくつかの実施形態では、mini-PCR増幅方法は、腫瘍分析に使用できる:腫瘍生検は、健康と腫瘍細胞の混合物であることが多い。標的PCRにより、近くにバックグラウンド配列がないSNPおよび遺伝子座のディープシーケンシングが可能になる。前記方法は、腫瘍DNAに対するコピー数およびヘテロ接合性の損失の分析のために用いることができる。前記腫瘍DNAは、腫瘍患者の多くの異なる体液または組織に存在し得る。前記方法は、腫瘍の再発の検出および/または腫瘍スクリーニングのために用いることができる。前記方法は、種子の品質管理試験のために用いることができる。前記方法は、育種または漁業のために用いることができる。これらの方法はいずれも、倍数性コールのための非多型の遺伝子座の標的化に同等に良好に用いることができることに留意されたい。 In some embodiments, the mini-PCR amplification method can be used for tumor analysis: tumor biopsies are often a mixture of healthy and tumor cells. Targeted PCR allows deep sequencing of SNPs and loci without nearby background sequences. The method can be used for copy number and loss of heterozygosity analysis for tumor DNA. The tumor DNA can be present in many different body fluids or tissues of tumor patients. The method can be used for tumor recurrence detection and/or tumor screening. The method can be used for seed quality control testing. The method can be used for breeding or fishing. Note that any of these methods can be used equally well to target non-polymorphic loci for ploidy calling.

本開示の基礎になるいくつかの基本的な方法を記載している一部の文献には、(1)Wang HY,Luo M,Tereshchenko IV,Frikker DM,Cui X,LiJ Y,Hu G,Chu Y,Azaro MA,Lin Y,Shen L,Yang Q,Kambouris ME,Gao R,Shih W,LiH.Genome Res.2005 Feb;15(2):276-83.Department of Molecular Genetics,Microbiology and Immunology/The Cancer Institute of New Jersey,Robert Wood Johnson Medical School,New Brunswick,New Jersey 08903,USA.(2)High-throughput genotyping of single nucleotide polymorphisms with high sensitivity.Li H,Wang HY,Cui X,Luo M,Hu G,Greenawalt DM,Tereshchenko IV,Li JY,Chu Y,Gao R.Methods Mol Biol.2007;396-PubMed PMID:18025699.(3)Nested Patch PCR enables highly multiplexed mutation discovery in candidate genes.Varley KE,Mitra RD.Genome Res.2008 Nov;18(11):1844-50.Epub 2008 Oct 10(この文献にはシーケンシング用の平均9種のアッセイの多重化を含む方法が記載されている)、が含まれる。本明細書に開示されている方法により、上記の参考文献におけるものよりも桁の大きい多重化が可能になることに留意されたい。 Some references describing some of the basic methods underlying this disclosure include: (1) Wang HY, Luo M, Tereshchenko IV, Fricker DM, Cui X, LiJ Y, Hu G, Chu Y, Azaro MA, Lin Y, Shen L, Yang Q, Kambouris ME, Gao R, Shih W, LiH. Genome Res. 2005 Feb;15(2):276-83. Department of Molecular Genetics, Microbiology and Immunology/The Cancer Institute of New Jersey, Robert Wood Johnson Medical School, New Brunswick, New Jersey 08903, USA. (2) High-throughput genotyping of single nucleotide polymorphisms with high sensitivity. Li H, Wang HY, Cui X, Luo M, Hu G, Greenawalt DM, Tereshchenko IV, Li JY, Chu Y, Gao R. Methods Mol Biol. 2007;396-PubMed PMID:18025699. (3) Nested Patch PCR enables highly multiplexed mutation discovery in candidate genes. Varley K. E., Mitra R. D. Genome Res. 2008 Nov;18(11):1844-50. Epub 2008 Oct 10, which describes a method involving multiplexing an average of nine assays for sequencing. Note that the method disclosed herein allows for orders of magnitude more multiplexing than in the above references.

標的PCRの変形物-ネスティング
PCRを行う場合に可能である多くのワークフローが存在し、本明細書に開示されている方法に典型的ないくつかのワークフローが記載されている。本明細書において概説されているステップは、他の可能性のあるステップを排除することを意図しておらず、かつ、方法が適正に機能するために本明細書に記載のステップいずれかが必要であることも意味しない。多数のパラメータの変形または他の改変が文献において公知であり、本発明の核心に影響を及ぼすことなく行うことができる。1つの特定の一般的なワークフローが下に示され、その後にいくつもの可能性のある変形物(variant)が続く。変形物とは、一般には、可能性のある二次PCR反応、例えば、行うことができる異なる種類のネスティング(ステップ3)を指す。変形物は、本明細書に明確に記載されているものと違う時間において、または異なる順序で行うことができることに留意することが重要である。説明のために多形遺伝子座を使用している例は、必要に応じ、非多形遺伝子座の増幅に容易に適合させることができる。
1. 試料中のDNAには、多くの場合ライブラリータグまたはライゲーションアダプタタグ(LT)と称されるライゲーションアダプタを付加することができ、ライゲーションアダプタはユニバーサルプライミング配列を含有し、その後にユニバーサル増幅が続く。ある実施形態では、これは、断片化後に、配列決定ライブラリーを作製するために設計された標準のプロトコールを使用して行うことができる。ある実施形態では、DNA試料を平滑末端化し、次いで、Aを3’末端に付加することができる。T-オーバーハングを有するY-アダプタを付加し、ライゲーションすることができる。いくつかの実施形態では、AまたはTオーバーハング以外の他の粘着末端を使用することができる。いくつかの実施形態では、他のアダプタ、例えば、ループライゲーションアダプタを付加することができる。いくつかの実施形態では、アダプタは、PCR増幅のために設計されたタグを有してよい。
2. 特異的標的増幅(STA):数百、数千、数万、さらには数十万もの標的を1反応体積において前増幅で多重化することができる。STAは、一般には、10~30サイクル実行されるが、5~40サイクル、2~50サイクル、およびさらには1~100サイクル実行することができる。例えば、より単純なワークフローのため、または大部分の二量体の配列決定を回避するために、プライマーに尾部を付けることができる。一般には、同じタグを保有する両方のプライマーの二量体は効率的に増幅または配列決定されないことに留意されたい。いくつかの実施形態では、1サイクルから10サイクルの間のPCRを行うことができ、いくつかの実施形態では、10サイクルから20サイクルの間のPCRを行うことができ、いくつかの実施形態では、20サイクルから30サイクルの間のPCRを行うことができ、いくつかの実施形態では、30サイクルから40サイクルの間のPCRを行うことができ、いくつかの実施形態では、40サイクル超のPCRを行うことができる。増幅は、線形増幅であってよい。PCRサイクルの数を最適化して、最適なリード深度(DOR)プロファイルをもたらすことができる。異なるDORプロファイルは異なる目的のために望ましい場合がある。いいくつかの実施形態では、全てのアッセイ間のリードのより均一な分布が望ましい;いくつかのアッセイについてDORが非常に小さい場合、データが非常に有用であるためには確率論的ノイズが高すぎる可能性があるが、リード深度が非常に深い場合、各追加のリードの限界有用性は比較的小さい。
プライマー尾部により、普遍的にタグを付けたライブラリーからの断片化されたDNAの検出を改善することができる。ライブラリータグおよびプライマー尾部が相同な配列を含有する場合、ハイブリダイゼーションを改善することができ(例えば、融解温度(T)を下げる)、プライマー標的配列の一部が試料のDNA断片内にある場合にのみ、プライマーを伸長することができる。いくつかの実施形態では、13以上の標的特異的塩基対を用いることができる。いくつかの実施形態では、10~12の標的特異的塩基対を用いることができる。いくつかの実施形態では、8~9の標的特異的塩基対を用いることができる。いくつかの実施形態では、6~7の標的特異的塩基対を用いることができる。いくつかの実施形態では、STAは、前増幅されたDNA、例えば、MDA、RCA、他の全ゲノム増幅またはアダプタ-媒介性ユニバーサルPCRに対して実施することができる。いくつかの実施形態では、STAは、例えば、サイズ選択、標的捕捉、指向性分解によって特定の配列および集団が富化された、または枯渇した試料に対して実施することができる。
3. いくつかの実施形態では、二次的な多重PCRまたはプライマー伸長反応を実施して、特異性を増大させ、望ましくない産物を減少させることが可能である。例えば、完全なネスティング、セミネスティング、ヘミネスティング、および/またはより小さなアッセイプールの並行した反応への細分化は、全て、特異性を増大させるために用いることができる技法である。実験により、試料を3回の400プレックス反応に分割することにより、正確に同じプライマーを用いた1回の1,200プレックス反応よりも高い特異性で産物DNAがもたらされることが示された。同様に、実験により、試料を4回の2,400プレックス反応に分割することにより、正確に同じプライマーを用いた1回の9,600プレックス反応よりも高い特異性で産物DNAがもたらされることが示された。ある実施形態では、同じ方向性および反対の方向性の標的特異的プライマーおよびタグ特異的プライマーを用いることが可能である。
4. いくつかの実施形態では、STA反応によって産生されるDNA試料(希釈、精製またはその他)をタグ特異的プライマーおよび「ユニバーサル増幅」を用いて増幅すること、すなわち、前増幅し、タグを付けた標的の多くまたは全てを増幅することが可能である。プライマーは、ハイスループット配列決定プラットフォームにおける配列決定に必要な追加の機能的な配列、例えば、バーコードまたは完全なアダプタ配列を含有してよい。
Variants of Targeted PCR - Nesting There are many workflows possible when performing PCR, and several workflows typical of the methods disclosed herein are described. The steps outlined herein are not intended to exclude other possible steps, nor are they meant to imply that any of the steps described herein are necessary for the method to function properly. Numerous parameter variations or other modifications are known in the literature and can be made without affecting the essence of the invention. One particular general workflow is shown below, followed by a number of possible variants. Variants generally refer to possible secondary PCR reactions, e.g., different types of nesting (step 3), that can be performed. It is important to note that variants can be performed at different times or in a different order than explicitly described herein. The examples using polymorphic loci for illustration can be easily adapted to the amplification of non-polymorphic loci, if desired.
1. The DNA in the sample can be appended with ligation adaptors, often referred to as library tags or ligation adaptor tags (LT), which contain universal priming sequences, followed by universal amplification. In an embodiment, this can be done using standard protocols designed to generate sequencing libraries after fragmentation. In an embodiment, the DNA sample can be blunt ended and then an A can be added to the 3' end. A Y-adaptor with a T-overhang can be added and ligated. In some embodiments, other sticky ends other than A or T overhangs can be used. In some embodiments, other adaptors can be added, for example looped ligation adaptors. In some embodiments, the adaptors can have tags designed for PCR amplification.
2. Specific Target Amplification (STA): Hundreds, thousands, tens of thousands, and even hundreds of thousands of targets can be multiplexed with pre-amplification in one reaction volume. STA is typically performed for 10-30 cycles, but can be performed for 5-40 cycles, 2-50 cycles, and even 1-100 cycles. For example, primers can be tailed for a simpler workflow or to avoid sequencing most dimers. Note that dimers of both primers carrying the same tag generally will not be efficiently amplified or sequenced. In some embodiments, between 1 and 10 cycles of PCR can be performed, in some embodiments, between 10 and 20 cycles of PCR can be performed, in some embodiments, between 20 and 30 cycles of PCR can be performed, in some embodiments, between 30 and 40 cycles of PCR can be performed, and in some embodiments, more than 40 cycles of PCR can be performed. The amplification can be linear amplification. The number of PCR cycles can be optimized to result in an optimal depth of read (DOR) profile. Different DOR profiles may be desirable for different purposes. In some embodiments, a more even distribution of reads among all assays is desirable; if the DOR for some assays is very small, the stochastic noise may be too high for the data to be very useful, but if the read depth is very deep, the marginal usefulness of each additional read is relatively small.
Primer tails can improve detection of fragmented DNA from universally tagged libraries. If the library tag and primer tail contain homologous sequences, hybridization can be improved (e.g., lowering the melting temperature (T M )) and the primer can be extended only if a portion of the primer target sequence is within the DNA fragment of the sample. In some embodiments, 13 or more target specific base pairs can be used. In some embodiments, 10-12 target specific base pairs can be used. In some embodiments, 8-9 target specific base pairs can be used. In some embodiments, 6-7 target specific base pairs can be used. In some embodiments, STA can be performed on pre-amplified DNA, e.g., MDA, RCA, other whole genome amplification or adapter-mediated universal PCR. In some embodiments, STA can be performed on samples in which specific sequences and populations have been enriched or depleted, e.g., by size selection, target capture, directed degradation.
3. In some embodiments, secondary multiplex PCR or primer extension reactions can be performed to increase specificity and reduce unwanted products. For example, full nesting, semi-nesting, hemi-nesting, and/or subdivision of smaller assay pools into parallel reactions are all techniques that can be used to increase specificity. Experiments have shown that splitting a sample into three 400-plex reactions results in product DNA with higher specificity than one 1,200-plex reaction with the exact same primers. Similarly, experiments have shown that splitting a sample into four 2,400-plex reactions results in product DNA with higher specificity than one 9,600-plex reaction with the exact same primers. In some embodiments, target-specific and tag-specific primers of the same and opposite orientations can be used.
4. In some embodiments, it is possible to amplify the DNA sample (diluted, purified or otherwise) produced by the STA reaction using tag-specific primers and "universal amplification", i.e., amplifying many or all of the pre-amplified and tagged targets. The primers may contain additional functional sequences, such as barcodes or complete adapter sequences, required for sequencing in high-throughput sequencing platforms.

これらの方法は、任意のDNAの試料を分析するために用いることができ、DNAの試料が特に少ない場合、または、それが、DNAが2つ以上の個体を起源とするDNAの試料である場合、例えば、母系の血漿の場合に特に有用である。これらの方法は、単一または少数の細胞、ゲノムDNA、血漿DNA、増幅された血漿ライブラリー、増幅されたアポトーシス性の上清ライブラリーまたは他の混合DNAの試料などのDNA試料に対して用いることができる。ある実施形態では、これらの方法は、遺伝子の構成が異なる細胞が、単一の個体に存在する可能性がある場合、例えば、がんまたは移植片に用いることができる。 These methods can be used to analyze any sample of DNA, and are particularly useful when the sample of DNA is particularly small, or when it is a sample of DNA where the DNA originates from more than one individual, such as maternal plasma. These methods can be used on DNA samples such as single or small numbers of cells, genomic DNA, plasma DNA, amplified plasma libraries, amplified apoptotic supernatant libraries, or other mixed DNA samples. In some embodiments, these methods can be used when cells with different genetic makeup may be present in a single individual, such as cancer or transplants.

プロトコールの変形物(上記のワークフローに対する変形物および/または追加物)
直接多重mini-PCR:タグを付けたプライマーを用いた複数の標的配列の特異的標的増幅(STA)が図1に示されている。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、PCRプライマーがハイブリダイズした、ユニバーサル増幅された一本鎖DNAを示す。104は、最終のPCR産物を示す。いくつかの実施形態では、STAは、100超、200超、500超、1,000超、2,000超、5,000超、10,000超、20,000超、50,000超、100,000超、または200,000超の標的に対して行うことができる。その後の反応において、タグ特異的プライマーにより全ての標的配列を増幅し、サンプリングインデックスを含めた、配列決定するために必要な全ての配列を含むタグを伸長する。ある実施形態では、プライマーにタグ付けしなくてよい、または特定のプライマーのみにタグを付けてよい。シーケンシングアダプタは、従来のアダプタライゲーションによって付加することができる。ある実施形態では、最初のプライマーはタグを担持してよい。
Protocol Variations (Variations and/or Additions to the Workflow Above)
Direct multiplex mini-PCR: Specific target amplification (STA) of multiple target sequences using tagged primers is shown in FIG. 1. 101 shows double stranded DNA with polymorphic loci of interest at X. 102 shows double stranded DNA with ligation adaptors added for universal amplification. 103 shows the universally amplified single stranded DNA with hybridized PCR primers. 104 shows the final PCR product. In some embodiments, STA can be performed on more than 100, more than 200, more than 500, more than 1,000, more than 2,000, more than 5,000, more than 10,000, more than 20,000, more than 50,000, more than 100,000, or more than 200,000 targets. In a subsequent reaction, all target sequences are amplified with tag-specific primers and the tags are extended to include all sequences required for sequencing, including sampling indexes. In some embodiments, the primers may not be tagged, or only certain primers may be tagged. Sequencing adaptors may be added by conventional adaptor ligation. In some embodiments, the first primer may carry a tag.

ある実施形態では、プライマーを、増幅されるDNAの長さが予想外に短くなるように設計する。先行技術により、当業者が一般には、100+bpの増幅産物を設計することが実証されている。ある実施形態では、増幅産物を、80bp未満になるように設計することができる。ある実施形態では、増幅産物を、70bp未満になるように設計することができる。ある実施形態では、増幅産物を、60bp未満になるように設計することができる。ある実施形態では、増幅産物を、50bp未満になるように設計することができる。ある実施形態では、増幅産物を、45bp未満になるように設計することができる。ある実施形態では、増幅産物を、40bp未満になるように設計することができる。ある実施形態では、増幅産物を、35bp未満になるように設計することができる。ある実施形態では、増幅産物を、40bpから65bpの間になるように設計することができる。 In some embodiments, the primers are designed such that the length of the amplified DNA is unexpectedly short. Prior art has demonstrated that one of skill in the art typically designs an amplification product of 100+ bp. In some embodiments, the amplification product can be designed to be less than 80 bp. In some embodiments, the amplification product can be designed to be less than 70 bp. In some embodiments, the amplification product can be designed to be less than 60 bp. In some embodiments, the amplification product can be designed to be less than 50 bp. In some embodiments, the amplification product can be designed to be less than 45 bp. In some embodiments, the amplification product can be designed to be less than 40 bp. In some embodiments, the amplification product can be designed to be less than 35 bp. In some embodiments, the amplification product can be designed to be between 40 bp and 65 bp.

実験を、このプロトコールを使用して、1200プレックス増幅を用いて実施した。ゲノムDNAと妊娠血漿の両方を使用した;シーケンスリードの約70%が標的の配列にマッピングされた。詳細は本文書の他の箇所に示されている。アッセイの設計および選択を伴わない1042プレックスの配列決定により、配列の>99%がプライマー二量体産物となった。 Experiments were performed using this protocol with 1200-plex amplification. Both genomic DNA and pregnancy plasma were used; approximately 70% of sequence reads were mapped to the target sequence. Details are presented elsewhere in this document. 1042-plex sequencing without assay design and selection resulted in >99% of sequences being primer dimer products.

逐次的なPCR:STA1の後、産物の複数の一定分量を、同じプライマーを有する複雑さが低下したプールを用いて並行して増幅することができる。第1の増幅により、分割するために十分な材料が生じ得る。この方法は、少ない試料、例えば、約6~100pg、約100pg~1ng、約1ng~10ngまたは約10ng~100ngの試料に対して特に優良である。1200プレックスを3回の400プレックスにしたプロトコールを実施した。シーケンシングリードのマッピングは、1200プレックス単独における約60~70%から95%超まで増大した。 Sequential PCR: After STA1, multiple aliquots of product can be amplified in parallel using pools of reduced complexity with the same primers. The first amplification can yield enough material to split. This method is particularly good for small samples, e.g., about 6-100 pg, about 100 pg-1 ng, about 1 ng-10 ng, or about 10 ng-100 ng. A 1200-plex to 3x 400-plex protocol was performed. Mapping of sequencing reads increased from about 60-70% in 1200-plex alone to over 95%.

セミネステッドmini-PCR:(図2参照)STA1の後、内側のネステッドフォワードプライマー(103B、105b)の多重のセットおよび1つ(または少数)のタグ特異的リバースプライマー(103A)で構成される第2のSTAを実施する。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、フォワードプライマーBおよびリバースプライマーAがハイブリダイズした、ユニバーサル増幅された一本鎖DNAを示す。104は、103からのPCR産物を示す。105は、ハイブリダイズしたネステッドフォワードプライマーb、および既に103と104の間に生じたPCRからの分子の一部であるリバースタグAを有する104からの産物を示す。106は、最終のPCR産物を示す。このワークフローを用いると、通常、配列の95%超が意図された標的にマッピングされる。ネステッドプライマーは外側のフォワードプライマー配列とオーバーラップしてよいが、追加の3’末端塩基を導入する。いくつかの実施形態では、1から20個の間の余分の3’塩基を用いることが可能である。実験により、1200プレックス設計物において9個以上の余分の3’塩基を用いると良好に機能することが示された。 Semi-nested mini-PCR: (see FIG. 2) After STA1, a second STA is performed consisting of a multiplex set of inner nested forward primers (103B, 105b) and one (or a few) tag-specific reverse primers (103A). 101 shows double-stranded DNA with the polymorphic locus of interest at X. 102 shows double-stranded DNA with ligation adaptors added for universal amplification. 103 shows the universally amplified single-stranded DNA with hybridized forward primer B and reverse primer A. 104 shows the PCR product from 103. 105 shows the product from 104 with hybridized nested forward primer b and reverse tag A that is already part of the molecule from the PCR that occurred between 103 and 104. 106 shows the final PCR product. Using this workflow, typically more than 95% of the sequence maps to the intended target. Nested primers may overlap the outer forward primer sequence, but introduce additional 3' terminal bases. In some embodiments, between 1 and 20 extra 3' bases can be used. Experiments have shown that using 9 or more extra 3' bases works well in a 1200-plex design.

完全ネステッドmini-PCR:(図3参照)STAステップ1の後、第2の多重PCR(または複雑さが低下した並行のm.p.PCR)を、タグ(A、a、B、b)を保有する2つのネステッドプライマーを用いて実施することが可能である。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、フォワードプライマーBおよびリバースプライマーAがハイブリダイズした、ユニバーサル増幅された一本鎖DNAを示す。104は、103からのPCR産物を示す。105は、ネステッドフォワードプライマーbおよびネステッドリバースプライマーaがハイブリダイズした、104からの産物を示す。106は、最終のPCR産物を示す。いくつかの実施形態では、2つのプライマーの完全なセットを用いることが可能である。完全ネステッドmini-PCRプロトコールを使用した実験を用いて、単一細胞および3つの細胞に対して、ユニバーサルライゲーションアダプタを付加し、増幅するステップ102を伴わずに146プレックス増幅を実施した。 Fully nested mini-PCR: (see FIG. 3) After STA step 1, a second multiplex PCR (or reduced complexity parallel m.p. PCR) can be performed with two nested primers carrying tags (A, a, B, b). 101 shows double stranded DNA with polymorphic locus of interest at X. 102 shows double stranded DNA with ligation adaptors added for universal amplification. 103 shows universally amplified single stranded DNA with hybridized forward primer B and reverse primer A. 104 shows PCR product from 103. 105 shows product from 104 with hybridized nested forward primer b and nested reverse primer a. 106 shows final PCR product. In some embodiments, a complete set of two primers can be used. Using experiments using a fully nested mini-PCR protocol, 146-plex amplification was performed on single cells and triplicate cells without step 102, which adds universal ligation adapters and amplifies.

ヘミネステッドmini-PCR:(図4参照)断片の末端にアダプタを有する標的DNAを用いることが可能である。フォワードプライマー(B)の多重セットおよび1つ(または少数)のタグ特異的リバースプライマー(A)で構成されるSTAを実施する。第2のSTAを、ユニバーサルタグ特異的フォワードプライマーおよび標的特異的リバースプライマーを使用して実施することができる。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、リバースプライマーAがハイブリダイズした、ユニバーサル増幅された一本鎖DNAを示す。104は、リバースプライマーAおよびライゲーションアダプタタグプライマーLTを使用して増幅した、103からのPCR産物を示す。105は、フォワードプライマーBがハイブリダイズした、104からの産物を示す。106は、最終のPCR産物を示す。このワークフローでは、標的特異的フォワードプライマーおよびリバースプライマーを別々の反応において使用し、それにより、反応の複雑さが減少し、フォワードプライマーとリバースプライマーの二量体形成が防がれる。この例では、プライマーAおよびBを、第1のプライマーとみなすことができ、プライマー「a」および「b」を、内側のプライマーとみなすことができることに留意されたい。この方法は、直接PCRと同等に優良であるが、プライマー二量体を回避するので、直接PCRに対する大きな改善である。第1ラウンドのヘミネステッドプロトコールの後、一般には、約99%の非標的DNAが認められるが、第2ラウンドの後には一般には、大きく改善される。 Hemi-nested mini-PCR: (see FIG. 4) It is possible to use target DNA with adaptors at the ends of the fragments. An STA consisting of a multiplex set of forward primers (B) and one (or a few) tag-specific reverse primers (A) is performed. A second STA can be performed using a universal tag-specific forward primer and a target-specific reverse primer. 101 shows double-stranded DNA with a polymorphic locus of interest at X. 102 shows double-stranded DNA with ligation adaptors added for universal amplification. 103 shows universally amplified single-stranded DNA with hybridized reverse primer A. 104 shows PCR product from 103 amplified using reverse primer A and ligation adaptor tag primer LT. 105 shows product from 104 with hybridized forward primer B. 106 shows the final PCR product. In this workflow, target-specific forward and reverse primers are used in separate reactions, which reduces the complexity of the reaction and prevents dimer formation of the forward and reverse primers. Note that in this example, primers A and B can be considered as the first primers, and primers "a" and "b" can be considered as the inner primers. This method is as good as direct PCR, but is a major improvement over direct PCR because it avoids primer dimers. After the first round of the hemi-nested protocol, about 99% of the non-target DNA is typically seen, but after the second round, there is typically a major improvement.

三重ヘミネステッドmini-PCR:(図5参照)断片の末端にアダプタを有する標的DNAを用いることが可能である。フォワードプライマー(B)の多重セットおよび1つ(または少数)のタグ特異的なリバースプライマー(A)および(a)で構成されるSTAを実施する。第2のSTAを、ユニバーサルタグ特異的フォワードプライマーおよび標的特異的リバースプライマーを使用して実施することができる。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、リバースプライマーAがハイブリダイズした、ユニバーサル増幅された一本鎖DNAを示す。104は、リバースプライマーAおよびライゲーションアダプタタグプライマーLTを使用して増幅した、103からのPCR産物を示す。105は、フォワードプライマーBがハイブリダイズした、104からの産物を示す。106は、リバースプライマーAおよびフォワードプライマーBを使用して増幅した、105からのPCR産物を示す。107は、リバースプライマー「a」がハイブリダイズした、106からの産物を示す。108は、最終のPCR産物を示す。この例では、プライマー「a」およびBを、内側のプライマーとみなすことができ、Aを、第1のプライマーとみなすことができることに留意されたい。必要に応じて、AとBの両方を第1のプライマーとみなすことができ、「a」を、内側のプライマーとみなすことができる。リバースプライマーおよびフォワードプライマーの名称は切り換えることができる。このワークフローでは、標的特異的フォワードプライマーおよびリバースプライマーを別々の反応において使用し、それにより、反応の複雑さが減少し、フォワードプライマーとリバースプライマーの二量体形成が防がれる。この方法は、直接PCRと同等に優良であるが、プライマー二量体を回避するので、直接PCRに対する大きな改善である。第1ラウンドのヘミネステッドプロトコールの後、一般には、約99%の非標的DNAが認められるが、第2ラウンドの後には一般には、大きく改善される。 Triple hemi-nested mini-PCR: (see FIG. 5) It is possible to use target DNA with adaptors at the ends of the fragments. An STA consisting of a multiplex set of forward primers (B) and one (or a few) tag-specific reverse primers (A) and (a) is performed. A second STA can be performed using a universal tag-specific forward primer and a target-specific reverse primer. 101 shows double-stranded DNA with a polymorphic locus of interest at X. 102 shows double-stranded DNA with ligation adaptors added for universal amplification. 103 shows universally amplified single-stranded DNA with hybridized reverse primer A. 104 shows PCR product from 103 amplified using reverse primer A and ligation adaptor tag primer LT. 105 shows product from 104 with hybridized forward primer B. 106 shows PCR product from 105 amplified using reverse primer A and forward primer B. 107 shows the product from 106 with the reverse primer "a" hybridized. 108 shows the final PCR product. Note that in this example, primers "a" and B can be considered inner primers and A can be considered the first primer. If desired, both A and B can be considered first primers and "a" can be considered the inner primer. The names of the reverse and forward primers can be switched. In this workflow, target-specific forward and reverse primers are used in separate reactions, which reduces the complexity of the reaction and prevents dimer formation of the forward and reverse primers. This method is a major improvement over direct PCR because it is as good as direct PCR but avoids primer dimers. After the first round of the hemi-nested protocol, typically about 99% non-target DNA is seen, but after the second round, it is typically greatly improved.

片側ネステッドmini-PCR:(図6参照)断片の末端にアダプタを有する標的DNAを用いることが可能である。STAを、ネステッドフォワードプライマーの多重セットを用い、リバースプライマーとしてライゲーションアダプタタグを使用して実施することもできる。次いで、ネステッドフォワードプライマーおよびユニバーサルリバースプライマーのセットを使用して第2のSTAを実施することができる。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、フォワードプライマーAがハイブリダイズした、ユニバーサル増幅された一本鎖DNAを示す。104は、フォワードプライマーAおよびライゲーションアダプタタグリバースプライマーLTを使用して増幅した、103からのPCR産物を示す。105は、ネステッドフォワードプライマーがハイブリダイズした、104からの産物を示す。106は、最終のPCR産物を示す。この方法では、第1のSTAおよび第2のSTAにおいてオーバーラップしているプライマーを使用することにより、標準のPCRによるよりも短い標的配列を検出することができる。前記方法は、一般には、既に上記のSTAステップ1-ユニバーサルタグの付加および増幅を受けたDNAの試料を差し引いて実施し、2つのネステッドプライマーは一方の側にのみあり、他方の側にはライブラリータグを使用する。前記方法を、アポトーシス性の上清および妊娠血漿のライブラリーに対して実施した。このワークフローを用いると、配列の約60%が意図された標的にマッピングされた。リバースアダプタ配列を含有したリードはマッピングしておらず、したがって、リバースアダプタ配列を含有するリードをマッピングした場合にはこの数字は大きくなることが予想されることに留意されたい。 One-sided nested mini-PCR: (see FIG. 6) It is possible to use target DNA with adaptors at the ends of the fragments. STA can also be performed using a multiplex set of nested forward primers and a ligation adaptor tag as the reverse primer. A second STA can then be performed using a set of nested forward primers and universal reverse primers. 101 shows double-stranded DNA with a polymorphic locus of interest at X. 102 shows double-stranded DNA with a ligation adaptor added for universal amplification. 103 shows the universally amplified single-stranded DNA with forward primer A hybridized. 104 shows the PCR product from 103 amplified using forward primer A and ligation adaptor tag reverse primer LT. 105 shows the product from 104 with nested forward primer hybridized. 106 shows the final PCR product. In this method, shorter target sequences can be detected by using overlapping primers in the first and second STAs than by standard PCR. The method is generally performed minus a sample of DNA that has already undergone STA step 1 above - universal tagging and amplification, with two nested primers on only one side and a library tag on the other. The method was performed on apoptotic supernatant and pregnancy plasma libraries. Using this workflow, approximately 60% of the sequences were mapped to the intended target. Note that reads that contained reverse adapter sequences were not mapped, so this number is expected to be higher if reads containing reverse adapter sequences were mapped.

片側のみのmini-PCR:断片の末端にアダプタを有する標的DNAを用いることが可能である(図7参照)。STAを、フォワードプライマーの多重セットおよび1つ(または少数)のタグ特異的なリバースプライマーを用いて実施することができる。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、フォワードプライマーAがハイブリダイズした一本鎖DNAを示す。104は、フォワードプライマーAおよびライゲーションアダプタタグリバースプライマーLTを使用して増幅した、103からのPCR産物を示し、これは最終のPCR産物である。この方法により、標準のPCRによるよりも短い標的配列を検出することができる。しかし、ただ1つの標的特異的プライマーを使用するので、比較的非特異的であり得る。このプロトコールの有効性は片側ネステッドminiPCRの半分である。 One-sided mini-PCR: It is possible to use target DNA with adapters at the ends of the fragments (see Figure 7). STA can be performed with a multiplex set of forward primers and one (or a few) tag-specific reverse primers. 101 shows double-stranded DNA with the polymorphic locus of interest at X. 102 shows double-stranded DNA with ligation adapters added for universal amplification. 103 shows single-stranded DNA hybridized with forward primer A. 104 shows the PCR product from 103 amplified using forward primer A and ligation adapter tag reverse primer LT, which is the final PCR product. This method allows detection of shorter target sequences than by standard PCR. However, since only one target-specific primer is used, it can be relatively non-specific. The efficacy of this protocol is half that of one-sided nested mini-PCR.

リバースセミネステッドmini-PCR:断片の末端にアダプタを有する標的DNAを用いることが可能である(図8参照)。STAを、フォワードプライマーの多重セットおよび1つ(または少数)のタグ特異的なリバースプライマーを用いて実施することができる。101は、Xに対象の多型遺伝子座を有する二本鎖DNAを示す。102は、ユニバーサル増幅のためにライゲーションアダプタを付加した二本鎖DNAを示す。103は、リバースプライマーBがハイブリダイズした一本鎖DNAを示す。104は、リバースプライマーBおよびライゲーションアダプタタグフォワードプライマーLTを使用して増幅した、103からのPCR産物を示す。105は、フォワードプライマーA、および内側のリバースプライマー「b」がハイブリダイズした、PCR産物104を示す。106は、フォワードプライマーAおよびリバースプライマー「b」を使用して105から増幅されたPCR産物を示し、これは最終のPCR産物である。この方法により、標準のPCRによるよりも短い標的配列を検出することができる。 Reverse semi-nested mini-PCR: It is possible to use target DNA with adaptors at the ends of the fragments (see FIG. 8). STA can be performed with a multiplex set of forward primers and one (or a few) tag-specific reverse primers. 101 shows double-stranded DNA with a polymorphic locus of interest at X. 102 shows double-stranded DNA with ligation adaptors added for universal amplification. 103 shows single-stranded DNA with hybridized reverse primer B. 104 shows PCR product from 103 amplified using reverse primer B and ligation adaptor tag forward primer LT. 105 shows PCR product 104 with hybridized forward primer A and inner reverse primer "b". 106 shows PCR product amplified from 105 using forward primer A and reverse primer "b", which is the final PCR product. This method allows detection of shorter target sequences than by standard PCR.

上記の方法の単に反復または組み合わせであるさらなる変形物、例えば、プライマーの3つのセットを使用する二重ネステッドPCRも存在し得る。別の変形物は片側半ネステッドmini-PCRであり、STAをネステッドフォワードプライマーの多重セットおよび1つ(または少数)のタグ特異的なリバースプライマーを用いて実施することもできる。 There may be further variations that are simply repetitions or combinations of the above methods, for example, double-nested PCR using three sets of primers. Another variation is one-sided semi-nested mini-PCR, where STA can also be performed with multiple sets of nested forward primers and one (or a few) tag-specific reverse primers.

これらの変形物の全てにおいて、フォワードプライマーおよびリバースプライマーの同一性は交換することができることに留意されたい。いくつかの実施形態では、ネステッド変形物は、アダプタタグを付加すること、およびユニバーサル増幅ステップを含む最初のライブラリーの調製を伴わずに同等に良好に実行することができることに留意されたい。いくつかの実施形態では、追加のフォワードプライマーおよび/またはリバースプライマーおよび増幅ステップを伴ってPCRの追加のラウンドを含めることができ、これらの追加のステップは、標的の遺伝子座に対応するDNA分子のパーセントをさらに増大させることが望ましい場合に特に有用であり得ることに留意されたい。 Note that in all of these variations, the identities of the forward and reverse primers can be swapped. Note that in some embodiments, the nested variations can be performed equally well without adding adapter tags and without the initial library preparation that includes a universal amplification step. Note that in some embodiments, additional rounds of PCR can be included with additional forward and/or reverse primers and amplification steps; these additional steps can be particularly useful when it is desirable to further increase the percentage of DNA molecules that correspond to the targeted locus.

ネスティングワークフロー
異なる程度のネスティング、および異なる程度の多重化を伴って増幅を実施するための多くの方法が存在する。図9では、フローチャートが、可能性のあるワークフローのいくつかと共に示されている。10,000プレックスPCRの使用は単なる例であり、これらのフローチャートは他の多重化の程度に対しても同等に良好に機能することに留意されたい。
Nesting Workflows There are many ways to perform amplification with different degrees of nesting, and different degrees of multiplexing. In Figure 9, a flow chart is shown with some of the possible workflows. Note that the use of 10,000-plex PCR is just an example, and these flow charts work equally well for other degrees of multiplexing.

ループライゲーションアダプタ
例えば、配列決定するためのライブラリーを作出するためにユニバーサルタグを付けたアダプタを付加する場合、アダプタをライゲーションするためのいくつもの方法が存在する。1つの方法は、試料DNAを平滑末端化し、A-テーリングを実施し、T-オーバーハングを有するアダプタとライゲーションすることである。アダプタをライゲーションするための、いくつもの他の方法が存在する。ライゲーションすることができるアダプタもいくつも存在する。例えば、DNAの2つの鎖からなり、一方の鎖が二本鎖領域、およびフォワードプライマー領域によって指定される領域を有し、他方の鎖が第1の鎖上の二本鎖領域と相補的な二本鎖領域、およびリバースプライマーを伴う領域によって指定されるY-アダプタを使用することができる。アニーリングする場合、二本鎖領域は、Aオーバーハングを有する二本鎖DNAとライゲーションするために、T-オーバーハングを含有してよい。
Loop Ligation Adapters For example, when adding universally tagged adaptors to generate libraries for sequencing, there are a number of ways to ligate the adaptors. One way is to blunt end the sample DNA, perform A-tailing, and ligate with adaptors that have T-overhangs. There are a number of other ways to ligate the adaptors. There are also a number of adaptors that can be ligated. For example, a Y-adapter can be used that consists of two strands of DNA, one strand has a double-stranded region and a region specified by a forward primer region, and the other strand is specified by a double-stranded region complementary to the double-stranded region on the first strand and a region with a reverse primer. When annealed, the double-stranded region may contain a T-overhang to ligate with double-stranded DNA that has an A-overhang.

ある実施形態では、アダプタは、末端領域が相補的であって、フォワードプライマーでタグを付けた領域(LFT)、リバースプライマーでタグを付けた領域(LRT)、およびその2つの間の切断部位を含有する、DNAのループであってよい(図10参照)。101は、二本鎖の平滑末端の標的DNAを指す。102は、A尾部をもつ標的DNAを指す。103は、Tオーバーハング「T」および切断部位「Z」を有するループライゲーションアダプタを指す。104は、ループライゲーションアダプタが付加された標的DNAを指す。105は、切断部位において切断された、ライゲーションアダプタが付加された標的DNAを指す。LFTはライゲーションアダプタフォワードタグを指し、LRTはライゲーションアダプタリバースタグを指す。相補的な領域はTオーバーハング、または標的DNAとライゲーションするために使用することができる他の形体で終わってよい。切断部位は、UNGに沿った切断のための一連のウラシルであり得るか、あるいは制限酵素もしくは他の切断方法または単に基本的な増幅によって認識され切断され得る配列であり得る。これらのアダプタは、例えば、配列決定するための任意のライブラリーを調製するために使用することができる。これらのアダプタは、本明細書に記載の他の方法のいずれか、例えば、mini-PCR増幅方法と組み合わせて用いることができる。 In an embodiment, the adaptor may be a loop of DNA with complementary terminal regions, containing a forward primer tagged region (LFT), a reverse primer tagged region (LRT), and a cleavage site between the two (see FIG. 10). 101 refers to a double stranded blunt ended target DNA. 102 refers to an A-tailed target DNA. 103 refers to a loop ligation adaptor with a T overhang "T" and a cleavage site "Z". 104 refers to a target DNA with a loop ligation adaptor added. 105 refers to a target DNA with a ligation adaptor added, cleaved at the cleavage site. LFT refers to a ligation adaptor forward tag and LRT refers to a ligation adaptor reverse tag. The complementary regions may end in a T overhang or other feature that can be used to ligate to the target DNA. The cleavage site can be a series of uracils for cleavage along the UNG, or a sequence that can be recognized and cleaved by a restriction enzyme or other cleavage method or simply basic amplification. These adapters can be used, for example, to prepare any library for sequencing. These adapters can be used in combination with any of the other methods described herein, for example, mini-PCR amplification methods.

内部にタグを付けたプライマー
所与の多型遺伝子座に存在する対立遺伝子を決定するために配列決定を用いる場合、シーケンスリードは、一般には、プライマー結合部位(a)の上流で開始され、次いで、多型部位(X)が読まれる。タグは一般には、図11の左側に示されている通り配置される。101は、対象の多型遺伝子座「X」およびタグ「b」が付加されたプライマー「a」を有する一本鎖標的DNAを指す。非特異的なハイブリダイゼーションを回避するために、プライマー結合部位(「a」と相補的な標的DNAの領域)は、一般には、18~30bpの長さである。配列タグ「b」は、一般には約20bpであり、理論上は、これらは約15bpより長い任意の長さであってよいが、多くの人々は配列決定プラットフォームの企業から販売されているプライマー配列を使用する。「a」と「X」の間の距離「d」は、対立遺伝子の偏りを回避するために少なくとも2bpであってよい。W多重PCR増幅を、過剰なプライマー間相互作用を回避するために慎重なプライマーの設計が必要である、本明細書に開示されている方法または他の方法を用いて実施する場合、許容できる「a」と「X」の間の距離「d」のウィンドウは、相当に変動し得る:2bp~10bp、2bp~20bp、2bp~30bpまたは、さらには2bp~30bp超。したがって、図11の左側に示されているプライマーの配置を用いる場合、シーケンスリードは、多型遺伝子座を測定するために十分に長いリードを得るために、最小の40bpでなければならず、また、「a」および「d」の長さに応じてシーケンスリードは60bpまたは75bpまでが必要になる場合がある。通常、シーケンスリードが長いほど、所与の数のリードについて配列決定するための費用および時間が増し、したがって、必要なリードの長さを最小化することにより、時間と金の両方を節約することができる。さらに、平均で、リードの初期の塩基のリードは、リード後期のリードよりも正確なリードであるので、必要なシーケンスリードの長さを減らすことにより、多型領域の測定の正確度を上げることもできる。
Internally tagged primers When using sequencing to determine the allele present at a given polymorphic locus, the sequence read typically begins upstream of the primer binding site (a) and then reads the polymorphic site (X). The tags are typically positioned as shown on the left side of FIG. 11. 101 refers to the single stranded target DNA with the polymorphic locus of interest "X" and primer "a" with tag "b" attached. To avoid non-specific hybridization, the primer binding site (the region of the target DNA complementary to "a") is typically 18-30 bp in length. The sequence tag "b" is typically around 20 bp, and although in theory they can be any length longer than about 15 bp, most people use the primer sequences sold by the sequencing platform companies. The distance "d" between "a" and "X" can be at least 2 bp to avoid allelic bias. When performing W multiplex PCR amplification using the methods disclosed herein or other methods, where careful primer design is required to avoid excessive primer-primer interactions, the window of acceptable distance "d" between "a" and "X" can vary considerably: from 2 bp to 10 bp, from 2 bp to 20 bp, from 2 bp to 30 bp, or even from 2 bp to more than 30 bp. Thus, using the primer configuration shown on the left side of FIG. 11, the sequence read must be a minimum of 40 bp to obtain a read long enough to measure the polymorphic locus, and depending on the length of "a" and "d", sequence reads may need to be up to 60 bp or 75 bp. Typically, the longer the sequence read, the more expensive and time it takes to sequence a given number of reads, and therefore minimizing the length of the required reads can save both time and money. Furthermore, since on average, reads of bases earlier in the read are more accurate than those later in the read, reducing the length of the required sequence read can also increase the accuracy of the measurement of the polymorphic region.

ある実施形態では、図11の103に示されている通り、内部にタグを付けたプライマーと称されるプライマー結合部位(a)を複数のセグメント(a’、a’’、a’’’....)に分割し、配列タグ(b)を、2つのプライマー結合部位の中央のDNAのセグメント上に置く。この配置により、シーケンサーがより短いシーケンスリードを行うことが可能になる。ある実施形態では、a’+a’’は少なくとも約18bpであるべきであり、30bp、40bp、50bp、60bp、80bp、100bp、または100bp超の長さであってよい。ある実施形態では、a’’は少なくとも約6bpであるべきであり、ある実施形態では、約8bpから16bpの間である。全ての他の因子も同等であり、内部にタグを付けたプライマーを使用することにより、必要なシーケンスリードの長さを、少なくとも6bp、8bp、10bp、12bp、15bpと同程度、さらには20bpまたは30bpと同程度に切り詰めることができる。この結果、かなりの金、時間および正確度の利点がもたらされ得る。内部にタグを付けたプライマーの例は図12に示されている。 In one embodiment, as shown in FIG. 11 at 103, the primer binding site (a), referred to as an internally tagged primer, is divided into multiple segments (a', a'', a''',...) and the sequence tag (b) is placed on the segment of DNA in the middle of the two primer binding sites. This arrangement allows the sequencer to make shorter sequence reads. In one embodiment, a'+a'' should be at least about 18 bp, and may be 30 bp, 40 bp, 50 bp, 60 bp, 80 bp, 100 bp, or more than 100 bp long. In one embodiment, a'' should be at least about 6 bp, and in one embodiment, is between about 8 bp and 16 bp. All other factors being equal, the use of internally tagged primers can trim the length of the required sequence read by at least as much as 6 bp, 8 bp, 10 bp, 12 bp, 15 bp, or even as much as 20 bp or 30 bp. This can result in significant money, time, and accuracy advantages. An example of an internally tagged primer is shown in FIG. 12.

ライゲーションアダプタ結合領域を有するプライマー
断片化されたDNAに伴う1つの問題は、その長さが短いので、多型がDNA鎖の末端の近くにある見込みが長い鎖よりも高いことである(例えば、101、図10)。多型をPCRによって捕捉するためには、多型の両側に適切な長さのプライマー結合部位が必要であるので、プライマーと標的の結合部位の間のオーバーラップが不十分であることに起因して、標的の多型を有するかなりの数のDNAの鎖が捕捉し損なわれる。ある実施形態では、標的DNA101にはライゲーションアダプタ102を付加することができ、標的プライマー103は、設計された結合領域(a)の上流に付加したライゲーションアダプタタグ(lt)と相補的な領域(cr)を有し得る(図13参照);したがって、結合領域(aと相補的な101の領域)が一般にハイブリダイゼーションのために必要な18bpよりも短い場合には、ライブラリータグと相補的なプライマーの領域(cr)により、PCRが進行することができるところまで結合エネルギーを増大させることができる。より短い結合領域に起因して失われる任意の特異性は、適切に長い標的結合領域を有する他のPCRプライマーによって補うことができることに留意されたい。この実施形態は、直接PCRまたは本明細書に記載の他の方法のいずれか、例えば、ネステッドPCR、セミネステッドPCR、ヘミネステッドPCR、片側ネステッドまたはセミネステッドまたはヘミネステッドPCRまたは他のPCRプロトコールと組み合わせて用いることができることに留意されたい。
Primers with Ligation Adapter Binding Regions One problem with fragmented DNA is that due to its short length, the polymorphism is more likely to be near the end of the DNA strand than a longer strand (e.g., 101, FIG. 10). Since a primer binding site of appropriate length is required on either side of the polymorphism to capture it by PCR, a significant number of strands of DNA with the target polymorphism will fail to be captured due to insufficient overlap between the primer and target binding sites. In an embodiment, the target DNA 101 can be appended with a ligation adaptor 102, and the target primer 103 can have a region (cr) complementary to the ligation adaptor tag (lt) appended upstream of the designed binding region (a) (see FIG. 13); thus, if the binding region (region of 101 complementary to a) is shorter than the 18 bp typically required for hybridization, the region of the primer complementary to the library tag (cr) can increase the binding energy to the point where PCR can proceed. Note that any specificity lost due to the shorter binding region can be compensated for by other PCR primers with appropriately long target binding regions. Note that this embodiment can be used in combination with direct PCR or any of the other methods described herein, such as nested PCR, semi-nested PCR, hemi-nested PCR, one-sided nested or semi-nested or hemi-nested PCR or other PCR protocols.

配列決定データを用い、種々の仮説について、観察された対立遺伝子データと予測される対立遺伝子分布を比較することを伴う分析的な方法と組み合わせて倍数性を決定する場合、リード深度が低い対立遺伝子からの追加のリードのそれぞれにより、リード深度が高い対立遺伝子からのリードよりも多くの情報がもたらされる。したがって、理想的には、各遺伝子座が同様の数の代表的なシーケンスリードを有する均一なリード深度(DOR)が認められることが望まれる。したがって、DORの分散を最小限にすることが望ましい。ある実施形態では、アニーリング時間を増加させることによってDORの変動係数(これは、DORの標準偏差/平均DORと定義することができる)を減少させることが可能である。いくつかの実施形態では、アニーリング温度は、2分超、4分超、10分超、30分超、および1時間超またはさらに長くてよい。アニーリングは平衡プロセスであるので、アニーリング時間の増加に伴うDORの分散の改善に限界はない。ある実施形態では、プライマー濃度を増加させることにより、DORの分散が減少する。 When sequencing data is used to determine ploidy in combination with analytical methods that involve comparing observed allele data with predicted allele distributions for various hypotheses, each additional read from an allele with a low read depth provides more information than a read from an allele with a high read depth. Ideally, therefore, one would like to see a uniform read depth (DOR) where each locus has a similar number of representative sequence reads. It is therefore desirable to minimize the variance of the DOR. In an embodiment, it is possible to reduce the coefficient of variation of the DOR (which can be defined as the standard deviation of the DOR/average DOR) by increasing the annealing time. In some embodiments, the annealing temperature may be greater than 2 minutes, greater than 4 minutes, greater than 10 minutes, greater than 30 minutes, and greater than 1 hour or even longer. Since annealing is an equilibrium process, there is no limit to the improvement of the variance of the DOR with increasing annealing time. In an embodiment, the variance of the DOR is reduced by increasing the primer concentration.

代表的全ゲノム増幅法
いくつかの実施形態では、標的遺伝子座のみを増幅する前に、核酸試料を増幅するために全ゲノムアプリケーションなどのDNA増幅を含めることができる。DNAの増幅は、少量の遺伝物質を、同様の遺伝子データの集合を含む、より大量の遺伝物質に変換するプロセスであり、これに限定されないが、ポリメラーゼ連鎖反応(PCR)を含めた多種多様な方法によって行うことができる。DNAを増幅する1つの方法は、全ゲノム増幅(WGA)である。WGAに利用可能ないくつもの方法がある:ライゲーション媒介性PCR(LM-PCR)、縮重オリゴヌクレオチドプライマーPCR(DOP-PCR)、および多置換増幅(MDA)。LM-PCRでは、アダプタと称される短いDNA配列をDNAの平滑末端にライゲーションする。これらのアダプタはユニバーサル増幅配列を含有し、これを使用して、PCRによってDNAを増幅する。DOP-PCRでは、同様にユニバーサル増幅配列を含有するランダムプライマーが第1ラウンドのアニーリングおよびPCRにおいて使用されている。次いで、第2ラウンドのPCRを使用して、さらにユニバーサルプライマー配列を用いて配列を増幅する。MDAでは、DNAを複製する高度にプロセッシブかつ非特異的な酵素であり、単一細胞分析のために使用されているphi-29ポリメラーゼを用いる。単一細胞由来の材料の増幅に対する主要な限定は、(1)極度に希釈したDNA濃度または非常に小さな体積の反応混合物を使用する必要性、および(2)全ゲノムにわたってDNAをタンパク質から確実に解離することの難しさである。それにもかかわらず、単一細胞全ゲノム増幅は、何年にもわたる種々の適用のために首尾よく用いられてきた。DNAの試料からDNAを増幅する他の方法がある。DNA増幅では、最初のDNAの試料を、配列の集合が同様であるが、はるかに量が多いDNAの試料に変換する。いくつかの場合には、増幅は必要ない可能性がある。
Exemplary Whole Genome Amplification Methods In some embodiments, DNA amplification such as whole genome applications can be included to amplify the nucleic acid sample prior to amplifying only the target loci. Amplification of DNA is the process of converting small amounts of genetic material into larger amounts of genetic material containing a collection of similar genetic data, and can be done by a variety of methods including, but not limited to, polymerase chain reaction (PCR). One method of amplifying DNA is whole genome amplification (WGA). There are several methods available for WGA: ligation-mediated PCR (LM-PCR), degenerate oligonucleotide primer PCR (DOP-PCR), and multiple displacement amplification (MDA). In LM-PCR, short DNA sequences called adapters are ligated to the blunt ends of the DNA. These adapters contain universal amplification sequences and are used to amplify the DNA by PCR. In DOP-PCR, random primers, also containing universal amplification sequences, are used in the first round of annealing and PCR. A second round of PCR is then used to further amplify the sequences using the universal primer sequences. MDA uses phi-29 polymerase, a highly processive and non-specific enzyme that replicates DNA and has been used for single cell analysis. The major limitations to the amplification of material from single cells are (1) the need to use extremely dilute DNA concentrations or very small volumes of reaction mixtures, and (2) the difficulty of reliably dissociating DNA from proteins across the entire genome. Nevertheless, single cell whole genome amplification has been used successfully for a variety of applications for many years. There are other methods to amplify DNA from a sample of DNA. DNA amplification converts the initial sample of DNA into a sample of DNA with a similar set of sequences, but in much greater quantities. In some cases, amplification may not be necessary.

いくつかの実施形態では、DNAを、ユニバーサル増幅、例えば、WGAまたはMDAを用いて増幅することができる。いくつかの実施形態では、DNAを、標的化増幅、例えば、標的PCRまたは環状化プローブを用いることによって増幅することができる。いくつかの実施形態では、DNAを、標的化増幅方法または所望のDNAと望ましくないDNAの完全なまたは部分的な分離をもたらす方法、例えば、ハイブリダイゼーション手法による捕捉を用いて、優先的に富化することができる。いくつかの実施形態では、DNAを、ユニバーサル増幅方法と優先的な富化方法の組み合わせを用いることによって増幅することができる。これらの方法のいくつかについてのより充実した記載は本文書の他の箇所に見いだすことができる。 In some embodiments, DNA can be amplified using universal amplification, e.g., WGA or MDA. In some embodiments, DNA can be amplified by using targeted amplification, e.g., targeted PCR or circularization probes. In some embodiments, DNA can be preferentially enriched using targeted amplification methods or methods that result in complete or partial separation of desired and undesired DNA, e.g., capture by hybridization techniques. In some embodiments, DNA can be amplified by using a combination of universal amplification and preferential enrichment methods. A fuller description of some of these methods can be found elsewhere in this document.

代表的富化およびシークエンシング法
ある実施形態では、本明細書に開示されている方法は、元のDNAの試料中、標的遺伝子座(例えば、多型遺伝子座)の集合からの各標的遺伝子座(例えば、各多型遺伝子座)に存在する相対的な対立遺伝子頻度を保存する選択的富化技法を用いる。富化は多形遺伝子座の分析法として特に有益であるが、これらの富化方法は、必要に応じ、非多形遺伝子座に対しても容易に適合させることができる。いくつかの実施形態では、増幅および/または選択的富化技法は、ライゲーション媒介性PCRなどのPCR、ハイブリダイゼーションによる断片の捕捉、分子反転プローブまたは他の環状化プローブを伴い得る。いくつかの実施形態では、増幅または選択的な富化のための方法は、標的配列と正確にハイブリダイズした際に、ヌクレオチドプローブの3’末端または5’末端が、少数のヌクレオチドで対立遺伝子の多型部位から隔てられるようなプローブの使用を伴ってよい。この隔たりにより、対立遺伝子の偏りと称される、一方の対立遺伝子の優先的な増幅が減少する。
これは、正確にハイブリダイズしたプローブの3’末端または5’末端が対立遺伝子の多型部位と直接隣接する、またはそれと非常に近くなるようなプローブの使用を伴う方法よりも改善されている。ある実施形態では、ハイブリダイズ領域が、多型部位を含有する可能性がある、またはそれを確実に含有するプローブは排除される。ハイブリダイゼーションの部位に多型部位があることにより、一部の対立遺伝子において不均等なハイブリダイゼーションが引き起こされ得る、または、ハイブリダイゼーションが全体で阻害されてもよく、その結果、特定の対立遺伝子が優先的に増幅される。これらの実施形態は、試料が単一の個体由来の純粋なゲノム試料であろうが個体の混合物であろうが、試料の各多型遺伝子座における元の対立遺伝子頻度をより良好に保存するという点で、標的化増幅および/または選択的な富化を伴う他の方法よりも改善されている。
Exemplary Enrichment and Sequencing Methods In certain embodiments, the methods disclosed herein use selective enrichment techniques that preserve the relative allele frequency present at each target locus (e.g., each polymorphic locus) from a set of target loci (e.g., polymorphic loci) in the original DNA sample. Although enrichment is particularly useful for analyzing polymorphic loci, these enrichment methods can be easily adapted to non-polymorphic loci as needed. In some embodiments, amplification and/or selective enrichment techniques may involve PCR, such as ligation-mediated PCR, fragment capture by hybridization, molecular inversion probes or other circularization probes. In some embodiments, methods for amplification or selective enrichment may involve the use of probes such that when hybridized correctly to the target sequence, the 3' or 5' end of the nucleotide probe is separated from the polymorphic site of the allele by a small number of nucleotides. This separation reduces preferential amplification of one allele, referred to as allelic bias.
This is an improvement over methods involving the use of probes in which the 3' or 5' end of the correctly hybridized probe is directly adjacent to or very close to the polymorphic site of the allele. In an embodiment, probes whose hybridization region may or certainly contains the polymorphic site are excluded. The presence of a polymorphic site at the site of hybridization may cause unequal hybridization at some alleles or may inhibit hybridization altogether, resulting in preferential amplification of certain alleles. These embodiments are an improvement over other methods involving targeted amplification and/or selective enrichment in that they better preserve the original allele frequency at each polymorphic locus of the sample, whether the sample is a pure genomic sample from a single individual or a mixture of individuals.

非侵襲的な出生前対立遺伝子コールまたは倍数性コールのための方法の一部としてDNAの試料を標的遺伝子座の集合において富化し、その後、配列決定する技法を使用することにより、いくつもの予想外の利点が付与され得る。本開示のいくつかの実施形態では、前記方法は、インフォマティクスに基づく方法、例えば、PARENTAL SUPPORT(商標)(PS)で使用するための遺伝子データを測定するステップを包含する。実施形態のいくつかの最終の転帰は、胚または胎児のすぐに使用可能な遺伝子データである。具体化された方法の一部として、個体および/または関連する個体の遺伝子データを測定するために用いることができる多くの方法が存在する。ある実施形態では、標的の対立遺伝子の集合の濃度を富化するための方法が本明細書に開示されており、前記方法は、以下のステップの1個または複数個を含む:遺伝物質を標的化増幅するステップ、遺伝子座に特異的なオリゴヌクレオチドプローブを添加するステップ、特定のDNA鎖をライゲーションするステップ、所望のDNAの集合を単離するステップ、反応の望ましくない構成成分を除去するステップ、ハイブリダイゼーションによって特定のDNAの配列を検出するステップ、およびDNAの配列決定方法によって1個または複数個のDNA鎖の配列を検出するステップ。いくつかの場合には、DNA鎖とは標的遺伝物質を指してもよく、いくつかの場合には、DNA鎖とはプライマーを指してもよく、いくつかの場合には、DNA鎖とは合成された配列、またはそれらの組み合わせを指してもよい。これらのステップは、いくつもの異なる順序で行うことができる。 The use of techniques to enrich and then sequence a sample of DNA at a set of target loci as part of a method for non-invasive prenatal allele or ploidy calling can confer a number of unexpected advantages. In some embodiments of the present disclosure, the method includes measuring genetic data for use in informatics-based methods, such as PARENTAL SUPPORT™ (PS). The end outcome of some of the embodiments is actionable genetic data of the embryo or fetus. There are many methods that can be used to measure genetic data of an individual and/or related individuals as part of the embodied methods. In an embodiment, a method for enriching a set of target alleles is disclosed herein, the method comprising one or more of the following steps: targeted amplification of genetic material, adding a locus-specific oligonucleotide probe, ligating specific DNA strands, isolating the desired set of DNA, removing undesired components of the reaction, detecting specific DNA sequences by hybridization, and detecting the sequence of one or more DNA strands by DNA sequencing methods. In some cases, the DNA strands may refer to the target genetic material, in some cases, the DNA strands may refer to primers, in some cases, the DNA strands may refer to synthesized sequences, or combinations thereof. These steps can be performed in a number of different orders.

例えば、標的化増幅の前のDNAのユニバーサル増幅ステップにより、いくつかの有利な点、例えば、ボトルネックのリスクの除去および対立遺伝子の偏りの低減が付与され得る。DNAを、標的配列の両側の2つの隣接する領域とハイブリダイズすることができるオリゴヌクレオチドプローブと混合することができる。ハイブリダイゼーション後、プローブの末端を、ライゲーションの手段であるポリメラーゼ、およびプローブの環状化を可能にするための任意の必要な試薬を加えることによって結びつけることができる。環状化した後、エキソヌクレアーゼを加えて環状化されていない遺伝物質を消化し、その後、環状化されたプローブを検出することができる。DNAを、標的配列の両側の2つの隣接する領域とハイブリダイズすることができるPCRプライマーと混合することができる。ハイブリダイゼーション後、プローブの末端を、ライゲーションの手段であるポリメラーゼ、およびPCR増幅を完了させるための任意の必要な試薬を加えることによって結びつけることができる。増幅されたDNAまたは増幅されなかったDNAは、遺伝子座の集合を標的とするハイブリッド捕捉プローブの標的であってもよく、ハイブリダイゼーション後、プローブを局在させ、混合物から分離して、標的配列で富化されたDNAの混合物をもたらすことができる。 For example, a universal amplification step of DNA prior to targeted amplification may confer several advantages, such as elimination of the risk of bottlenecks and reduction of allelic bias. The DNA may be mixed with an oligonucleotide probe capable of hybridizing to two adjacent regions on either side of the target sequence. After hybridization, the ends of the probe may be joined by adding a polymerase, a means of ligation, and any necessary reagents to allow circularization of the probe. After circularization, an exonuclease may be added to digest the non-circularized genetic material, after which the circularized probe may be detected. The DNA may be mixed with a PCR primer capable of hybridizing to two adjacent regions on either side of the target sequence. After hybridization, the ends of the probe may be joined by adding a polymerase, a means of ligation, and any necessary reagents to complete the PCR amplification. The amplified or unamplified DNA may be the target of a hybrid capture probe that targets a set of loci, and after hybridization, the probe may be localized and separated from the mixture to provide a mixture of DNA enriched with the target sequence.

対立遺伝子コールまたは倍数性コールの方法の一部として特定の遺伝子座を標的とし、その後配列決定する方法を用いることにより、いくつもの予想外の利点が付与され得る。DNAを標的とし得る、または優先的に富化することができるいくつかの方法は、環状化プローブ、連結逆方向プローブ(linked inverted probe)(LIP、MIP)、SURESELECTなどのハイブリダイゼーションによる捕捉方法、および標的PCRまたはライゲーション媒介性PCR増幅戦略を使用することを含む。 The use of methods to target and subsequently sequence specific loci as part of an allele or ploidy calling methodology can confer a number of unexpected advantages. Some methods by which DNA can be targeted or preferentially enriched include using circularized probes, linked inverted probes (LIPs, MIPs), capture by hybridization methods such as SURESELECT, and targeted PCR or ligation-mediated PCR amplification strategies.

いくつかの実施形態では、本開示の方法は、インフォマティクスに基づく方法、例えば、本明細書でさらに説明されるPARENTAL SUPPORT(商標)(PS)で使用するための遺伝子データを測定するステップを包含する。PARENTAL SUPPORT(商標)は、遺伝子データを操作するためのインフォマティクスに基づく手法であり、その態様は本明細書に記載されている。実施形態のいくつかの最終の転帰は、胚または胎児のすぐに使用可能な遺伝子データ、その後のすぐに使用可能なデータに基づく臨床的決定である。PS法の背景のアルゴリズムは、標的個体、多くの場合は胚または胎児の測定された遺伝子データ、および関連する個体から測定された遺伝子データを取得し、標的個体の遺伝子の状態が分かる正確度を上昇させることができる。ある実施形態では、測定された遺伝子データを、出生前遺伝子診断の間に倍数性の決定を行う状況において使用する。ある実施形態では、測定された遺伝子データを、インビトロでの受精の間に胚に対して倍数性の決定または対立遺伝子コールを行う状況において使用する。上述の状況において個体および/または関連する個体の遺伝子データを測定するために用いることができる多くの方法が存在する。異なる方法は、いくつものステップを含み、これらのステップは、多くの場合、遺伝物質を増幅するステップ、オリゴヌクレオチドプローブを添加するステップ、特定のDNA鎖をライゲーションするステップ、所望のDNAの集合を単離するステップ、反応の望ましくない構成成分を除去するステップ、ハイブリダイゼーションによって特定のDNAの配列を検出するステップ、DNAの配列決定方法によって1個または複数個のDNA鎖の配列を検出するステップを伴う。ある場合には、DNA鎖とは標的遺伝物質を意味し、ある場合には、DNA鎖とはプライマーを意味し、ある場合には、DNA鎖とは合成された配列、またはそれらの組み合わせを意味する。これらのステップは、いくつもの異なる順序で行うことができる。 In some embodiments, the disclosed methods include measuring genetic data for use in informatics-based methods, such as PARENTAL SUPPORT™ (PS), further described herein. PARENTAL SUPPORT™ is an informatics-based approach to manipulating genetic data, aspects of which are described herein. The end outcome of some of the embodiments is actionable genetic data of the embryo or fetus, followed by a clinical decision based on the actionable data. The algorithm behind the PS method takes measured genetic data of the target individual, often the embryo or fetus, and measured genetic data from related individuals, and can increase the accuracy with which the genetic status of the target individual is known. In some embodiments, the measured genetic data is used in the context of making ploidy determinations during prenatal genetic diagnosis. In some embodiments, the measured genetic data is used in the context of making ploidy determinations or allele calls on embryos during in vitro fertilization. There are many methods that can be used to measure genetic data of individuals and/or related individuals in the above-mentioned situations. The different methods include a number of steps that often involve amplifying the genetic material, adding oligonucleotide probes, ligating specific DNA strands, isolating the desired set of DNA, removing unwanted components of the reaction, detecting specific DNA sequences by hybridization, detecting the sequence of one or more DNA strands by DNA sequencing methods. In some cases, the DNA strand refers to the target genetic material, in some cases, the DNA strand refers to a primer, in some cases, the DNA strand refers to a synthesized sequence, or a combination thereof. These steps can be performed in a number of different orders.

理論上はゲノム内の任意の数の遺伝子座、1個の遺伝子座から100万超までのいずれかの遺伝子座を標的とすることが可能であることに留意されたい。DNAの試料を標的化、次いで配列決定に供する場合、シーケンサーによって読み取られる対立遺伝子の割合は、それらが試料中に天然に存在する量に対して富化される。富化の程度は、1パーセント(またはさらに低い)から10倍、100倍、1,000倍またはさらに多く100万倍までのいずれであってもよい。ヒトゲノムには、およそ7,500万の多型遺伝子座を含む、およそ30億の塩基対、およびヌクレオチドが存在する。標的とされる遺伝子座が多いほど、より少ない富化の程度が可能である。標的とされる遺伝子座の数が少ないほど、より大きな富化の程度が可能であり、それらの遺伝子座において、所与の数のシーケンスリードに対してより大きなリード深度を実現することができる。 Note that in theory it is possible to target any number of loci in the genome, anywhere from one locus to over a million loci. When a sample of DNA is targeted and then subjected to sequencing, the percentage of alleles read by the sequencer is enriched relative to the amount they naturally occur in the sample. The degree of enrichment can be anything from 1 percent (or even lower) to 10-fold, 100-fold, 1,000-fold, or even up to a million-fold. There are approximately 3 billion base pairs and nucleotides in the human genome, including approximately 75 million polymorphic loci. The more loci that are targeted, the less enrichment is possible. The fewer the number of loci that are targeted, the greater the degree of enrichment is possible, and the greater the read depth can be achieved at those loci for a given number of sequence reads.

本開示のある実施形態では、標的化または優先(preferential)は、完全にSNPに焦点を当てることができる。ある実施形態では、標的化または優先は、任意の多型部位に焦点を当てることができる。エクソンを富化するためのいくつもの商業的な標的化産物が利用可能である。驚いたことに、排他的にSNPを、または排他的に多型遺伝子座を標的化することは、対立遺伝子分布に依拠するNPDのための方法を用いる場合に特に有利である。配列決定を用いるNPDのための公開された方法も存在し、例えば、米国特許第7,888,017号は、リード数が、所与の染色体にマッピングされるリード数をカウントすることに焦点が当てられるリード数解析を伴い、分析されたシーケンスリードは、多型のゲノムの領域には焦点を当てていない。多型対立遺伝子に焦点を当てないこれらの種類の方法体系は、対立遺伝子の集合を標的化または優先的に富化することほど役立たない。 In certain embodiments of the present disclosure, the targeting or preference can be entirely focused on SNPs. In certain embodiments, the targeting or preference can be focused on any polymorphic site. A number of commercial targeting products are available for enriching exons. Surprisingly, targeting exclusively SNPs or exclusively polymorphic loci is particularly advantageous when using methods for NPD that rely on allele distribution. There are also published methods for NPD using sequencing, such as U.S. Pat. No. 7,888,017, which involves a read count analysis where the read count is focused on counting the number of reads that map to a given chromosome, and the analyzed sequence reads are not focused on the region of the genome that is polymorphic. These types of methodologies that do not focus on polymorphic alleles are not as useful as targeting or preferentially enriching a set of alleles.

本開示のある実施形態では、遺伝子試料をゲノムの多型領域において富化するためにSNPに焦点を当てる標的化方法を用いることが可能である。ある実施形態では、少数のSNP、例えば、1から100の間のSNP、またはそれよりも多数、例えば、100から1,000の間、1,000から10,000の間、10,000から100,000の間、または100,000超のSNPに焦点を当てることが可能である。ある実施形態では、生存するトリソミーでの出生と相関する1つまたは少数の染色体、例えば、第13染色体、第18染色体、第21染色体、X染色体およびY染色体またはそのいくつかの組み合わせに焦点を当てることが可能である。ある実施形態では、標的のSNPを小さな係数、例えば、1.01倍から100倍の間、またはそれよりも大きな係数、例えば、100倍から1,000,000倍の間、または1,000,000超倍まで富化することが可能である。本開示のある実施形態では、標的化方法を用いて、ゲノムの多型領域において優先的に富化されたDNAの試料を作製することが可能である。ある実施形態では、この方法を用いて、これらの特性のいずれかを有するDNAの混合物を作製することが可能であり、ここで、DNAの混合物は、母系DNAと、浮動性胎児DNAも含有する。ある実施形態では、この方法を用いて、これらの係数の任意の組み合わせを有するDNAの混合物を作製することが可能である。例えば、本明細書に記載の方法を用いて、母系DNAおよび胎児DNAを含み、200SNPであって、全てが第18染色体または第21染色体のいずれかに位置し、平均で1,000倍に富化される200SNPに対応するDNAにおいて優先的に富化されたDNAの混合物を生成することができる。別の例では、前記方法を用いて、10,000SNPであって、全てまたはほとんどが第13染色体、第18染色体、第21染色体、X染色体およびY染色体に位置し、遺伝子座当たりの平均の富化が500倍を超える10,000SNPにおいて優先的に富化されたDNAの混合物を作製することが可能である。本明細書に記載の標的化方法のいずれかを用いて、特定の遺伝子座において優先的に富化されたDNAの混合物を作製することができる。 In certain embodiments of the present disclosure, it is possible to use targeted methods that focus on SNPs to enrich genetic samples in polymorphic regions of the genome. In certain embodiments, it is possible to focus on a small number of SNPs, for example between 1 and 100 SNPs, or a larger number, for example between 100 and 1,000, between 1,000 and 10,000, between 10,000 and 100,000, or more than 100,000 SNPs. In certain embodiments, it is possible to focus on one or a small number of chromosomes that are correlated with live trisomic births, for example chromosomes 13, 18, 21, X and Y, or some combination thereof. In certain embodiments, it is possible to enrich the targeted SNPs by a small factor, for example between 1.01-fold and 100-fold, or by a larger factor, for example between 100-fold and 1,000,000-fold, or more than 1,000,000-fold. In an embodiment of the present disclosure, the targeting method can be used to create a sample of DNA that is preferentially enriched in polymorphic regions of the genome. In an embodiment, the method can be used to create a mixture of DNA with any of these characteristics, where the mixture of DNA contains maternal DNA and also floating fetal DNA. In an embodiment, the method can be used to create a mixture of DNA with any combination of these factors. For example, the method described herein can be used to generate a mixture of DNA that includes maternal DNA and fetal DNA and is preferentially enriched in DNA corresponding to 200 SNPs, all located on either chromosome 18 or chromosome 21, and enriched by an average of 1,000 times. In another example, the method can be used to create a mixture of DNA that is preferentially enriched in 10,000 SNPs, all or most of which are located on chromosomes 13, 18, 21, X and Y, with an average enrichment per locus of more than 500 times. Any of the targeting methods described herein can be used to generate a mixture of DNA that is preferentially enriched at a particular locus.

いくつかの実施形態では、本開示の方法は、ハイスループットDNAシーケンサーを使用して混合画分中のDNAを測定するステップであって、混合画分中のDNAが、不相応な数の1個または複数個の染色体由来の配列を含有し、1個または複数個の染色体が第13染色体、第18染色体、第21染色体、X染色体、Y染色体およびそれらの組み合わせを含む群から選択されるステップをさらに含む。 In some embodiments, the disclosed method further comprises measuring the DNA in the mixed fraction using a high-throughput DNA sequencer, wherein the DNA in the mixed fraction contains a disproportionate number of sequences from one or more chromosomes, the one or more chromosomes being selected from the group including chromosome 13, chromosome 18, chromosome 21, chromosome X, chromosome Y, and combinations thereof.

本明細書には3つの方法、多重PCR、ハイブリダイゼーションによる標的化捕捉、および連結逆方向プローブ(LIP)が記載されており、それを用いて、胎児の異数性を検出するために、母系の血漿試料由来の十分な数の多型遺伝子座から測定値を得て解析することができる。これは、標的の遺伝子座を選択的に富化する他の方法を排除するものではない。前記方法の核心を変化させることなく他の方法を同等に良好に用いることができる。それぞれの場合において、アッセイされる多型は、一塩基多型(SNP)、小さな挿入欠失またはSTRを含んでよい。好ましい方法は、SNPの使用を伴う。各手法により、対立遺伝子頻度データが生じ、各標的の遺伝子座についての対立遺伝子頻度データおよび/またはこれらの遺伝子座からの同時対立遺伝子頻度分布を解析して、胎児の倍数性を決定することができる。各手法は、供給源材料が限られていること、および母系の血漿が母系DNAと胎児DNAの混合物からなるという事実に起因して、それ自体の考慮すべき事柄を有する。この方法は、より正確な決定をもたらすための他の手法と組み合わせることができる。ある実施形態では、この方法を、米国特許第7,888,017号に記載のものなどの配列計数手法と組み合わせることができる。記載されている手法は、胎児の父系性を非侵襲的に、母系の血漿試料から検出するために用いることもできる。さらに、各手法は、異数性染色体の存在または不在を検出するため、分解されたDNA試料由来の多数のSNPについて遺伝子型決定するため、セグメントに分かれたコピー数の変動(CNV)を検出するため、他の対象の遺伝子型の状態またはそのいくつかの組み合わせを検出するために、他のDNAの混合物または純粋なDNA試料に適用することができる。 Three methods are described herein, multiplex PCR, targeted capture by hybridization, and linked inverse probes (LIP), that can be used to obtain and analyze measurements from a sufficient number of polymorphic loci from maternal plasma samples to detect fetal aneuploidy. This is not to exclude other methods of selectively enriching the targeted loci. Other methods can be used equally well without changing the core of the method. In each case, the polymorphisms assayed may include single nucleotide polymorphisms (SNPs), small insertions/deletions, or STRs. The preferred method involves the use of SNPs. Each method generates allele frequency data, and the allele frequency data for each targeted locus and/or the joint allele frequency distribution from these loci can be analyzed to determine fetal ploidy. Each method has its own considerations due to the limited source material and the fact that maternal plasma consists of a mixture of maternal and fetal DNA. This method can be combined with other methods to provide a more accurate determination. In some embodiments, this method can be combined with sequence counting techniques such as those described in U.S. Pat. No. 7,888,017. The described techniques can also be used to detect fetal paternity non-invasively from maternal plasma samples. Additionally, each technique can be applied to other DNA mixtures or pure DNA samples to detect the presence or absence of aneuploid chromosomes, to genotype multiple SNPs from degraded DNA samples, to detect segmental copy number variations (CNVs), to detect other genotypic states of interest, or some combination thereof.

試料中の対立遺伝子分布の正確な測定
現行の配列決定手法を用いて、試料中の対立遺伝子の分布を推定することができる。そのような方法の1つは、ショットガン配列決定と称される、プールDNAから配列を無作為にサンプリングするステップを包含する。配列決定データにおける特定の対立遺伝子の割合は、一般には、非常に低く、単純統計量によって決定することができる。ヒトゲノムは、およそ30億の塩基対を含有する。したがって、使用した配列決定方法により100bpのリードが生じた場合、特定の対立遺伝子は、およそ3,000万回のシーケンスリードごとに1回測定される。
Accurate measurement of allele distribution in a sample Current sequencing techniques can be used to estimate the distribution of alleles in a sample. One such method involves randomly sampling sequences from pooled DNA, called shotgun sequencing. The proportion of specific alleles in sequencing data is generally very low and can be determined by simple statistics. The human genome contains approximately 3 billion base pairs. Therefore, if the sequencing method used produces 100 bp reads, a specific allele is measured approximately once every 30 million sequence reads.

ある実施形態では、本開示の方法を用いて、DNAの試料中の同じ遺伝子座の集合を含有する2種以上の異なるハプロタイプの存在または不在を、その染色体由来の遺伝子座の測定された対立遺伝子分布から決定する。異なるハプロタイプは、1つの個体由来の2つの異なる相同染色体、トリソミーの個体由来の3つの異なる相同染色体、母親および胎児由来の3つの異なる相同なハプロタイプであって、該ハプロタイプのうちの1つが母親と胎児の間で共有されるハプロタイプ、母親および胎児由来の3つまたは4つのハプロタイプであって、該ハプロタイプの1つまたは2つが母親と胎児の間で共有されるハプロタイプ、または他の組み合わせを示し得る。ハプロタイプ間で多型である対立遺伝子はより情報価値がある傾向があるが、母親および父親がどちらも同じ対立遺伝子についてホモ接合性ではない任意の対立遺伝子により、測定された対立遺伝子分布を通じて、単純リード数解析から入手可能である情報を越えた有用な情報がもたらされる。 In an embodiment, the disclosed method is used to determine the presence or absence of two or more different haplotypes containing the same set of loci in a sample of DNA from the measured allele distribution of loci from that chromosome. The different haplotypes may represent two different homologous chromosomes from one individual, three different homologous chromosomes from a trisomic individual, three different homologous haplotypes from the mother and fetus, where one of the haplotypes is shared between the mother and fetus, three or four haplotypes from the mother and fetus, where one or two of the haplotypes are shared between the mother and fetus, or other combinations. Alleles that are polymorphic between haplotypes tend to be more informative, but any allele where the mother and father are not both homozygous for the same allele will provide useful information through the measured allele distribution beyond that available from simple read count analysis.

しかし、そのような試料のショットガン配列決定は、それにより、試料中の異なるハプロタイプ間で多型ではない領域、または対象ではない染色体についての多くの配列がもたらされ、したがって、標的ハプロタイプの割合に関する情報を示さないので、非常に非効率的である。本明細書には、ゲノム内で多型である可能性がより高い、試料中のDNAのセグメントを特異的に標的とし、かつ/または優先的に富化して、配列決定によって得られる対立遺伝子の情報の収量を上昇させる方法が記載されている。標的個体に存在する実際の量を真に表すことになる富化された試料において測定された対立遺伝子分布について、標的のセグメント内の所与の遺伝子座における他の対立遺伝子と比較して1つの対立遺伝子の優先的な富化がわずかである、または存在しないことが重大であることに留意されたい。多型対立遺伝子を標的とするための現行の当技術分野で公知の方法は、存在する任意の対立遺伝子の少なくとも一部が検出されることが確実になるように設計されている。しかし、これらの方法は、元の混合物に存在する多型対立遺伝子の不偏の対立遺伝子分布を測定する目的では設計されていなかった。標的富化の任意の特定の方法により、富化された試料を生成することができ、測定された対立遺伝子分布が元の増幅されていない試料に存在する対立遺伝子分布を、任意の他の方法よりも良好に正確に示すことは自明ではない。理論上は、多くの富化方法がそのような目的を実現することが予測され得るが、当業者は、現行の増幅、標的化および他の優先的な富化方法には相当量の確率論的または決定論的な偏りがあることをよく理解している。本明細書に記載の方法の一実施形態により、ゲノム内の所与の遺伝子座に対応するDNAの混合物に見いだされる複数の対立遺伝子を、対立遺伝子のそれぞれの富化の程度がほぼ同じになるように増幅または優先的に富化することが可能になる。別の言い方では、前記方法により、各遺伝子座に対応する対立遺伝子間の比は元のDNAの混合物における比と基本的に同じままで、混合物に存在する対立遺伝子の相対的な量を全体として増大させることが可能になる。いくつかの報告されている方法では、1%超、2%超、5%超、さらには10%超の対立遺伝子の偏りがもたらされ得る。この優先的な富化は、ハイブリダイゼーション手法による捕捉を用いた場合の捕捉の偏り、または各サイクルに関しては小さい可能性があるが、20サイクル、30サイクルまたは40サイクルにわたって組み立てる(compounded)と大きくなり得る増幅の偏りに起因し得る。本開示の目的で、比が基本的に同じままであるとは、元の混合物における対立遺伝子の比を、生じた混合物における対立遺伝子の比で割ったものが、0.95から1.05の間、0.98から1.02の間、0.99から1.01の間、0.995から1.005の間、0.998から1.002の間、0.999から1.001の間、または0.9999から1.0001の間であることを意味する。本明細書で提示された対立遺伝子の比の算出は、標的個体の倍数性状態の決定には使用することができず、単に対立遺伝子の偏りを測定するために使用されるメトリックであり得ることに留意されたい。 However, shotgun sequencing of such samples is very inefficient, as it results in many sequences for regions that are not polymorphic between the different haplotypes in the sample, or for chromosomes that are not of interest, and therefore does not provide information about the proportion of the target haplotype. Described herein is a method to specifically target and/or preferentially enrich segments of DNA in a sample that are more likely to be polymorphic in the genome, thereby increasing the yield of allelic information obtained by sequencing. It should be noted that for the allelic distribution measured in the enriched sample to truly represent the actual amount present in the target individual, it is crucial that there is little or no preferential enrichment of one allele compared to other alleles at a given locus in the targeted segment. Current methods known in the art for targeting polymorphic alleles are designed to ensure that at least a portion of any alleles present are detected. However, these methods were not designed to measure an unbiased allelic distribution of polymorphic alleles present in the original mixture. It is not self-evident that any particular method of target enrichment can produce an enriched sample in which the measured allele distribution better accurately represents the allele distribution present in the original unamplified sample than any other method. In theory, many enrichment methods can be expected to achieve such a goal, but those skilled in the art are well aware that current amplification, targeting and other preferential enrichment methods have a significant amount of stochastic or deterministic bias. One embodiment of the method described herein allows multiple alleles found in a mixture of DNA corresponding to a given locus in a genome to be amplified or preferentially enriched such that the degree of enrichment of each of the alleles is approximately the same. In other words, the method allows the ratio between the alleles corresponding to each locus to remain essentially the same as in the original DNA mixture, while increasing the relative amount of alleles present in the mixture as a whole. Some reported methods can result in allele biases of more than 1%, more than 2%, more than 5%, or even more than 10%. This preferential enrichment may be due to capture bias when using capture by hybridization techniques, or amplification bias that may be small for each cycle, but may become large when compounded over 20, 30 or 40 cycles. For purposes of this disclosure, the ratio remains essentially the same means that the ratio of alleles in the original mixture divided by the ratio of alleles in the resulting mixture is between 0.95 and 1.05, between 0.98 and 1.02, between 0.99 and 1.01, between 0.995 and 1.005, between 0.998 and 1.002, between 0.999 and 1.001, or between 0.9999 and 1.0001. It should be noted that the calculation of allele ratios presented herein cannot be used to determine the ploidy state of the target individual, but may simply be a metric used to measure allele bias.

ある実施形態では、混合物が標的遺伝子座の集合において優先的に富化されたら、クローン試料(単一分子から生成される試料;例としては、ILLUMINA GAIIx、ILLUMINA HiSeq、Life Technologies SOLiD、5500XLが挙げられる)について配列決定する、以前の、現行のまたは次世代の配列決定計器のうちの任意の1つを用いてシークエンシングができる。比は、標的の領域内の特定の対立遺伝子を通してシークエンシングによって評価することができる。これらのシーケンシングリードを、対立遺伝子の型、および、したがって決定される異なる対立遺伝子の割り当てに応じて分析し、カウントすることができる。1から数塩基の長さである変動について、対立遺伝子の検出は配列決定によって実施し、捕捉された分子の対立遺伝子の組成を評価するために、シーケンシングリードが問題の対立遺伝子にわたることが必須である。遺伝子型についてアッセイする捕捉された分子の総数は、シーケンシングリードの長さが増加することによって増加することができる。全ての分子の完全な配列決定により、富化されたプールにおいて利用可能な最大量のデータの収集が保証される。しかし、配列決定は、現在は費用がかかり、少数のシーケンスリードを用いて対立遺伝子分布を測定することができる方法は非常に価値がある。さらに、リードの長さが増加すると、可能性のあるリードの最大長に対する技術的な限界ならびに正確度の限界がでてくる。有用性が最大である対立遺伝子は、1~数塩基の長さのものであるが、理論的には、シーケンシングリードの長さよりも短い任意の対立遺伝子を使用することができる。対立遺伝子の変動は全ての型で生じるが、本明細書において提供される実施例は、ほんの数個隣接する塩基対に含有されるSNPまたは変異体に焦点を当てる。より大きな変異体、例えば、セグメントに分かれたコピー数の変異体は、多くの場合、セグメントの内部のSNPの全体的な集団が重複しているので、これらのより小さな変動を総計することによって検出することができる。数塩基よりも大きな変異体、例えば、STRは、特別な考慮およびいくつかの標的化手法研究を必要とするが、他のものは必要としない。 In an embodiment, once the mixture is preferentially enriched in a set of target loci, it can be sequenced using any one of the previous, current, or next generation sequencing instruments that sequence clonal samples (samples generated from single molecules; examples include ILLUMINA GAIIx, ILLUMINA HiSeq, Life Technologies SOLiD, 5500XL). The ratio can be assessed by sequencing through specific alleles within the targeted region. These sequencing reads can be analyzed and counted according to the allele type and thus the assignment of the different alleles determined. For variations that are one to a few bases in length, allele detection is performed by sequencing, and it is essential that the sequencing reads span the alleles in question to assess the allelic composition of the captured molecules. The total number of captured molecules assayed for genotype can be increased by increasing the length of the sequencing read. Complete sequencing of all molecules ensures collection of the maximum amount of data available in the enriched pool. However, sequencing is currently expensive, and methods that can measure allele distributions using a small number of sequence reads would be extremely valuable. Furthermore, as read lengths increase, there are technical limits to the maximum length of a possible read as well as limits to accuracy. Alleles of greatest utility are those that are one to a few bases long, but theoretically any allele shorter than the length of the sequencing read can be used. Allelic variation occurs in all forms, but the examples provided herein focus on SNPs or variants contained within only a few adjacent base pairs. Larger variants, e.g., segmental copy number variants, can often be detected by summing up these smaller variations, since the entire population of SNPs within a segment overlaps. Variants larger than a few bases, e.g., STRs, require special consideration and some targeted approach studies, whereas others do not.

ゲノム内の1個または複数個の変異体の位置を特異的に単離し、富化するために使用することができる複数の標的化手法が存在する。一般には、これらは、変異体配列に隣接している変異していない配列を利用することに依拠する。基質が母系血漿場合のシークエンシングにおける標的化に関連する他の研究者による報告がある(例えば、Liao et al.,Clin.Chem.2011;57(1):pp.92-101、を参照)。しかし、これらの手法は、エクソンを標的とする標的化プローブを使用し、ゲノムの多型領域を標的とすることには焦点を当てていない。ある実施形態では、本開示の方法は、多型領域に排他的またはほぼ排他的に焦点を当てた標的化プローブを使用するステップを包含する。ある実施形態では、本開示の方法は、SNPに排他的またはほぼ排他的に焦点を当てる標的化プローブを使用するステップを包含する。本開示のいくつかの実施形態では、標的の多型部位は、少なくとも10%のSNP、少なくとも20%のSNP、少なくとも30%のSNP、少なくとも40%のSNP、少なくとも50%のSNP、少なくとも60%のSNP、少なくとも70%のSNP、少なくとも80%のSNP、少なくとも90%のSNP、少なくとも95%のSNP、少なくとも98%のSNP、少なくとも99%のSNP、少なくとも99.9%のSNPまたは排他的にSNPからなる。 There are several targeting approaches that can be used to specifically isolate and enrich one or more variant locations in the genome. Generally, these rely on utilizing non-mutated sequences adjacent to the variant sequence. There have been reports by other researchers related to targeting in sequencing when the substrate is maternal plasma (see, for example, Liao et al., Clin. Chem. 2011; 57(1): pp. 92-101). However, these approaches use targeting probes that target exons and do not focus on targeting polymorphic regions of the genome. In an embodiment, the disclosed method includes using a targeting probe that focuses exclusively or nearly exclusively on the polymorphic region. In an embodiment, the disclosed method includes using a targeting probe that focuses exclusively or nearly exclusively on the SNP. In some embodiments of the present disclosure, the target polymorphic sites consist of at least 10% SNPs, at least 20% SNPs, at least 30% SNPs, at least 40% SNPs, at least 50% SNPs, at least 60% SNPs, at least 70% SNPs, at least 80% SNPs, at least 90% SNPs, at least 95% SNPs, at least 98% SNPs, at least 99% SNPs, at least 99.9% SNPs, or exclusively SNPs.

ある実施形態では、本開示の方法を用いて、遺伝子型(特定の遺伝子座におけるDNAの塩基組成)およびDNA分子の混合物由来のこれらの遺伝子型の相対的な割合を決定することができ、これらのDNA分子は、1つまたはいくつもの遺伝的に別個の個体を起源とし得る。ある実施形態では、本開示の方法を用いて、多型遺伝子座の集合における遺伝子型、およびこれらの遺伝子座に存在する異なる対立遺伝子の量の相対的な比を決定することができる。ある実施形態では、多型遺伝子座は、完全にSNPからなってよい。ある実施形態では、多型遺伝子座は、SNP、単一のタンデム反復、および他の多型を含んでよい。ある実施形態では、本開示の方法を用いて、DNAの混合物における多型遺伝子座の集合における対立遺伝子の相対的な分布を決定することができ、DNAの混合物は、母親を起源とするDNA、および胎児を起源とするDNAを含む。ある実施形態では、妊娠中の女性由来の血液から単離されたDNAの混合物について同時対立遺伝子分布を決定することができる。ある実施形態では、遺伝子座の集合における対立遺伝子分布を使用して、妊娠中の胎児について1個または複数個の染色体の倍数性状態を決定することができる。 In an embodiment, the disclosed method can be used to determine genotypes (the base composition of DNA at specific loci) and the relative proportions of these genotypes from a mixture of DNA molecules, which may originate from one or several genetically distinct individuals. In an embodiment, the disclosed method can be used to determine genotypes at a set of polymorphic loci and the relative ratios of the amounts of different alleles present at these loci. In an embodiment, the polymorphic loci may consist entirely of SNPs. In an embodiment, the polymorphic loci may include SNPs, single tandem repeats, and other polymorphisms. In an embodiment, the disclosed method can be used to determine the relative distribution of alleles at a set of polymorphic loci in a mixture of DNA, which includes DNA originating from the mother and DNA originating from the fetus. In an embodiment, the joint allele distribution can be determined for a mixture of DNA isolated from blood from a pregnant woman. In an embodiment, the allele distribution at a set of loci can be used to determine the ploidy state of one or more chromosomes for a pregnant fetus.

ある実施形態では、DNA分子の混合物は、1つの個体の複数の細胞から抽出したDNAに由来してよい。ある実施形態では、個体がモザイク(生殖系列または体細胞)である場合、DNAが由来する元の細胞の集団は、同じ遺伝子型または異なる遺伝子型の二倍体細胞または一倍体細胞の混合物を含み得る。ある実施形態では、DNA分子の混合物は、単一細胞から抽出したDNAに由来してもよい。ある実施形態では、DNA分子の混合物は、同じ個体の2つ以上の細胞または異なる個体の2つ以上の細胞の混合物から抽出したDNAに由来してもよい。ある実施形態では、DNA分子の混合物は、無細胞DNAを含有することが公知である血漿などの、既に細胞から遊離した生物材料から単離されたDNAに由来してよい。ある実施形態では、この生物材料は、胎児DNAが混合物中に存在することが示されている妊娠中の場合と同様に、1つまたは複数の個体由来のDNAの混合物であってよい。ある実施形態では、生物材料は、母系の血液中に見いだされた細胞の混合物由来であってよく、細胞のいくつかは胎児を起源とする。ある実施形態では、生物材料は、胎児の細胞において富化された妊娠中の血液由来の細胞であってよい。 In some embodiments, the mixture of DNA molecules may be derived from DNA extracted from multiple cells of one individual. In some embodiments, if an individual is mosaic (germline or somatic), the original population of cells from which the DNA is derived may contain a mixture of diploid or haploid cells of the same or different genotypes. In some embodiments, the mixture of DNA molecules may be derived from DNA extracted from a single cell. In some embodiments, the mixture of DNA molecules may be derived from DNA extracted from a mixture of two or more cells of the same individual or two or more cells of different individuals. In some embodiments, the mixture of DNA molecules may be derived from DNA isolated from a biological material that is already free of cells, such as blood plasma, which is known to contain cell-free DNA. In some embodiments, the biological material may be a mixture of DNA from one or more individuals, as in the case of pregnancy, where fetal DNA has been shown to be present in the mixture. In some embodiments, the biological material may be derived from a mixture of cells found in maternal blood, some of which are of fetal origin. In some embodiments, the biological material may be cells from blood during pregnancy enriched in fetal cells.

環状化プローブ
本開示のいくつかの実施形態は、以前文献に記載された「連結逆方向プローブ」(LIP)を使用し、本発明の多重PCR法でLIPではないプライマーを使って増幅する前または後で、標的遺伝子座を増幅することを含む。LIPとは、環状DNA分子を作製することを伴う技術を包含することを意味する総称であり、プローブは、標的の対立遺伝子の両側の標的のDNAの領域とハイブリダイズするように設計されており、したがって、適切なポリメラーゼおよび/もしくはリガーゼ、および適切な条件、緩衝液および他の試薬の添加により、標的の対立遺伝子をわたるDNAの相補的な逆方向領域が完成し標的の対立遺伝子に見いだされる情報を捕捉するDNAの環状ループを作製される。LIPは、環状化前プローブ(pre-circularized probe)、環状化前プローブ(pre-circularizing probe)または環状化プローブとも称される。LIPプローブは、長さが50ヌクレオチドから500ヌクレオチドの間の直鎖DNA分子であってよく、ある実施形態では、長さが70ヌクレオチドから100ヌクレオチドの間であってよく、いくつかの実施形態では、本明細書に記載されているよりも長くてよい、または短くてよい。本開示の他の複数の実施形態は、LIP技術の異なる具体化、例えば、Padlockプローブおよび分子逆方向プローブ(MIP)を伴う。
Circularizing Probes Some embodiments of the present disclosure include the use of "ligated inverted probes" (LIPs), previously described in the literature, to amplify target loci either before or after amplification with non-LIP primers in the multiplex PCR methods of the present invention. LIPs is a generic term meant to encompass techniques that involve creating circular DNA molecules, where the probes are designed to hybridize to regions of the target DNA on either side of the target allele, such that with the addition of the appropriate polymerase and/or ligase, and appropriate conditions, buffers and other reagents, the complementary inverted regions of DNA spanning the target allele are completed, creating a circular loop of DNA that captures the information found in the target allele. LIPs are also referred to as pre-circularized probes, pre-circularizing probes or circularizing probes. LIP probes can be linear DNA molecules between 50 and 500 nucleotides in length, and in some embodiments between 70 and 100 nucleotides in length, and in some embodiments can be longer or shorter than described herein. Other embodiments of the present disclosure involve different implementations of the LIP technology, such as Padlock probes and molecular inverted probes (MIPs).

配列決定するために特定の場所を標的とする1つの方法は、プローブの3’末端および5’末端が標的DNAと、標的の領域に近接し、その両側の場所で、逆方向様式でアニーリングし、したがって、DNAポリメラーゼおよびDNAリガーゼを添加することにより、3’末端からの伸長がもたらされ、標的分子と相補的な一本鎖プローブに塩基が付加され(ギャップ充填)、その後、新しい3’末端が元のプローブの5’末端とライゲーションし、その結果、後でバックグラウンドDNAから単離することができる環状DNA分子がもたらされるようなプローブを合成することである。プローブ末端は、対象の標的の領域に隣接するように設計されている。Oこの手法の一態様は、一般に、MIPSと称され、充填される配列の性質を決定するために、アレイ技術と併せて用いられている。対立遺伝子の比を測定する状況においてMIPを用いることの1つの欠点は、ハイブリダイゼーションステップ、環状化ステップおよび増幅ステップが、同じ遺伝子座における異なる対立遺伝子について同等の率で起こらないことである。その結果、元の混合物に存在する実際の対立遺伝子の比を表さない対立遺伝子の比が測定される。 One way to target a specific location for sequencing is to synthesize a probe whose 3' and 5' ends anneal to the target DNA in an inverted fashion at locations adjacent to and on either side of the target region, so that adding DNA polymerase and DNA ligase results in extension from the 3' end, adding bases to the single-stranded probe that is complementary to the target molecule (gap filling), and then ligating the new 3' end to the 5' end of the original probe, resulting in a circular DNA molecule that can then be isolated from background DNA. The probe ends are designed to be adjacent to the target region of interest. One aspect of this approach is commonly referred to as MIPS and has been used in conjunction with array technology to determine the nature of the filled sequence. One drawback to using MIPs in the context of measuring allele ratios is that the hybridization, circularization and amplification steps do not occur at equal rates for different alleles at the same locus. The result is a measurement of allele ratios that do not represent the actual allele ratios present in the original mixture.

ある実施形態では、環状化プローブは、標的の多型遺伝子座の上流とハイブリダイズするように設計されているプローブの領域および標的の多型遺伝子座の下流とハイブリダイズするように設計されているプローブの領域が、非核酸骨格を通じ共有結合的に接続するように構築される。この骨格は、任意の生体適合性分子または生体適合性分子の組み合わせであってよい。可能性のある生体適合性分子のいくつかの例は、ポリ(エチレングリコール)、ポリカーボネート、ポリウレタン、ポリエチレン、ポリプロピレン、スルホンポリマー、シリコーン、セルロース、フルオロポリマー、アクリル化合物、スチレンブロック共重合体、および他のブロック共重合体である。 In one embodiment, the circularization probe is constructed such that the region of the probe designed to hybridize upstream of the target polymorphic locus and the region of the probe designed to hybridize downstream of the target polymorphic locus are covalently connected through a non-nucleic acid backbone. This backbone can be any biocompatible molecule or combination of biocompatible molecules. Some examples of possible biocompatible molecules are poly(ethylene glycol), polycarbonate, polyurethane, polyethylene, polypropylene, sulfone polymers, silicone, cellulose, fluoropolymers, acrylic compounds, styrene block copolymers, and other block copolymers.

本開示のある実施形態では、この手法は、配列内の充填を調べる手段として配列決定を容易に受けられるように改変されている。元の試料の元の対立遺伝子の割合を保持するために、少なくとも1つの重要な考慮すべき事柄を考慮に入れなければならない。ギャップ充填領域内の異なる対立遺伝子の間の可変性の位置は、変異体の鑑別をもたらすDNAポリメラーゼによる開始の偏りがあり得るので、プローブ結合部位に近すぎないようにすべきである。別の考慮すべき事柄は、異なる対立遺伝子からの不均等な増幅をもたらし得るギャップ充填領域内の変異体と相関があるプローブ結合部位にさらなる変動が存在する可能性があることである。本開示のある実施形態では、環状化前プローブの3’末端および5’末端を、標的の対立遺伝子の変異の位置(多型部位)と1つまたは少数の位置だけ離れている塩基とハイブリダイズするように設計する。多型部位(SNPまたは他の種類のもの)と、環状化前プローブの3’末端および/または5’末端がハイブリダイズするように設計されている塩基との間の塩基の数は、1塩基であってよく、2塩基であってよく、3塩基であってよく、4塩基であってよく、5塩基であってよく、6塩基であってよく、7~10塩基であってよく、11~15塩基であってよく、または、16~20塩基、20~30塩基または30~60塩基であってよい。フォワードプライマーおよびリバースプライマーは、多型部位から離れた異なる数の塩基とハイブリダイズするように設計することができる。現行のDNA合成技術を用いて環状化プローブを多数生成することができ、これにより、非常に多数のプローブを生成し、潜在的にプールすることが可能になり、多くの遺伝子座を同時に調べることができる。300,000超のプローブで作業することが報告されている。標的個体のゲノムのデータを測定するために使用することができる環状化プローブを伴う方法を考察している2つの論文としては、Porrecaら、Nature Methods、2007年、4巻(11号)、931~936頁;および同様にTurnerら、Nature Methods、2009年、6巻(5号)、315~316頁が挙げられる。これらの論文に記載されている方法は、本明細書に記載の他の方法と組み合わせて用いることができる。これらの2つの論文からの方法の特定のステップは、本明細書に記載の他の方法からの他のステップと組み合わせて用いることができる。 In an embodiment of the present disclosure, this technique is modified to be easily amenable to sequencing as a means of examining the filling in the sequence. In order to preserve the original allele ratio of the original sample, at least one important consideration must be taken into account. The variable position between different alleles in the gap-fill region should not be too close to the probe binding site, as there may be bias initiation by the DNA polymerase resulting in differentiation of the variants. Another consideration is that there may be additional variation in the probe binding site that correlates with the variants in the gap-fill region that may result in unequal amplification from the different alleles. In an embodiment of the present disclosure, the 3' and 5' ends of the pre-circularization probe are designed to hybridize to bases that are one or a few positions away from the variant position (polymorphic site) of the target allele. The number of bases between the polymorphic site (SNP or other type) and the base to which the 3' and/or 5' ends of the pre-circularization probe are designed to hybridize can be 1 base, 2 bases, 3 bases, 4 bases, 5 bases, 6 bases, 7-10 bases, 11-15 bases, or 16-20 bases, 20-30 bases, or 30-60 bases. Forward and reverse primers can be designed to hybridize different numbers of bases away from the polymorphic site. Circularization probes can be generated in large numbers using current DNA synthesis techniques, allowing very large numbers of probes to be generated and potentially pooled, allowing many loci to be interrogated simultaneously. Working with over 300,000 probes has been reported. Two articles that discuss methods involving circularized probes that can be used to measure genomic data of a target individual include Porreca et al., Nature Methods, 2007, vol. 4(11), pp. 931-936; and Turner et al., Nature Methods, 2009, vol. 6(5), pp. 315-316. The methods described in these articles can be used in combination with other methods described herein. Certain steps of the methods from these two articles can be used in combination with other steps from other methods described herein.

本明細書に開示されている方法のいくつかの実施形態では、標的個体の遺伝物質を、必要に応じて増幅し、その後、環状化前プローブとハイブリダイズさせ、ギャップ充填を実施してハイブリダイズしたプローブの2つの末端間の塩基を充填し、2つの末端をライゲーションして環状化されたプローブを形成し、環状化されたプローブを、例えば、ローリングサークル増幅を用いて増幅する。所望の標的対立遺伝子の遺伝子情報が適切に設計された環状化オリゴヌクレオチド性プローブ、例えば、LIP系において捕捉されたら、環状化されたプローブの遺伝子配列を測定して、所望の配列データをもたらすことができる。ある実施形態では、適切に設計されたオリゴヌクレオチドプローブを、増幅されなかった標的個体の遺伝物質において直接環状化し、その後増幅することができる。ローリングサークル増幅、MDAまたは他の増幅プロトコールを含めたいくつもの増幅手順を使用して、元の遺伝物質を増幅することまたはLIPを環状化することができることに留意されたい。異なる方法を用いて、例えば、ハイスループット配列決定、サンガー配列決定、他の配列決定方法、ハイブリダイゼーションによる捕捉、環状化による捕捉、多重PCR、他のハイブリダイゼーション方法、およびそれらの組み合わせを用いて、標的ゲノム上の遺伝子情報を測定することができる。 In some embodiments of the methods disclosed herein, the genetic material of the target individual is optionally amplified, then hybridized with a pre-circularized probe, gap-filling is performed to fill in the bases between the two ends of the hybridized probe, the two ends are ligated to form a circularized probe, and the circularized probe is amplified, for example, using rolling circle amplification. Once the genetic information of the desired target allele is captured in a properly designed circularized oligonucleotide probe, for example, a LIP system, the genetic sequence of the circularized probe can be measured to provide the desired sequence data. In some embodiments, a properly designed oligonucleotide probe can be directly circularized in the unamplified genetic material of the target individual and then amplified. It should be noted that any number of amplification procedures, including rolling circle amplification, MDA, or other amplification protocols, can be used to amplify the original genetic material or to circularize the LIP. Different methods can be used to measure genetic information on a target genome, for example, high-throughput sequencing, Sanger sequencing, other sequencing methods, capture by hybridization, capture by circularization, multiplex PCR, other hybridization methods, and combinations thereof.

上記の方法の1つまたは組み合わせ、インフォマティクスに基づく方法、例えば、PARENTAL SUPPORT(商標)法を、適切な遺伝子測定と一緒に用いて個体の遺伝物質を測定したら、次いで、それを用いて、個体における1個または複数個の染色体の倍数性状態、および/または対立遺伝子の1つもしくは対立遺伝子の集合(詳細には、対象の疾患または遺伝子の状態と相関する対立遺伝子)の遺伝子の状態を決定することができる。遺伝子配列を多重化捕捉し、その後、配列決定を用いて遺伝子型決定するためのLIPの使用が報告されていることに留意されたい。しかし、LIPに基づく戦略によって生じる配列決定データを、単一細胞、少数の細胞または細胞外DNAにおいて見いだされる遺伝物質を増幅するために使用することは、標的個体の倍数性状態を決定するためには用いられていない。 Once an individual's genetic material has been measured using one or a combination of the above methods, informatics-based methods, such as the PARENTAL SUPPORT™ method, along with appropriate genetic measurements, it can then be used to determine the ploidy state of one or more chromosomes in the individual, and/or the genetic state of one or a set of alleles (particularly alleles that correlate with a disease or genetic condition of interest). It is noted that the use of LIP for multiplexed capture of genetic sequences and subsequent genotyping using sequencing has been reported. However, the use of sequencing data generated by LIP-based strategies to amplify genetic material found in single cells, small numbers of cells, or extracellular DNA has not been used to determine the ploidy state of a target individual.

ハイブリダイゼーションアレイ、例えば、ILLUMINA INFINIUMアレイまたはAFFYMETRIX遺伝子チップによって測定された遺伝子データから個体の倍数性状態を決定するためのインフォマティクスに基づく方法の適用は、本文書の他の箇所の参考文献に記載されている。しかし、本明細書に記載の方法は、以前に文献に記載された方法に対する改善を示す。例えば、LIPに基づく手法、その後のハイスループット配列決定により、この手法は、多重化についての能力がより優れ、捕捉特異性がより優れ、均一性がより優れ、対立遺伝子の偏りが少ないので、予想外に、より良好な遺伝子型データがもたらされる。多重化がより大きいことにより、より多くの対立遺伝子を標的とすることが可能になり、より正確な結果がもたらされる。均一性がより優れていることにより、より多くの標的の対立遺伝子が測定され、より正確な結果がもたらされる。対立遺伝子の偏りの率がより低いことにより、誤ったコールの率が低下し、より正確な結果がもたらされる。より正確な結果により、臨床転帰が改善され、より良い医療がもたらされる。 The application of informatics-based methods to determine the ploidy status of individuals from genetic data measured by hybridization arrays, e.g., ILLUMINA INFINIUM arrays or AFFYMETRIX gene chips, has been described in references elsewhere in this document. However, the methods described herein represent an improvement over methods previously described in the literature. For example, LIP-based approaches followed by high-throughput sequencing unexpectedly provide better genotype data, as the approaches have greater capacity for multiplexing, greater capture specificity, greater uniformity, and less allelic bias. Greater multiplexing allows more alleles to be targeted, resulting in more accurate results. Greater uniformity allows more targeted alleles to be measured, resulting in more accurate results. Lower rates of allelic bias reduce the rate of false calls, resulting in more accurate results. More accurate results result in improved clinical outcomes and better medical care.

LIPを、配列決定以外の方法によって遺伝子型決定するために、DNAの試料における特定の遺伝子座を標的とするための方法として用いることができることに留意することが重要である。例えば、SNPアレイまたは他のDNAもしくはRNAに基づくマイクロアレイを用いて遺伝子型決定するために、LIPを用いてDNAを標的とすることができる。 It is important to note that LIP can be used as a method to target specific loci in a sample of DNA for genotyping by methods other than sequencing. For example, LIP can be used to target DNA for genotyping using SNP arrays or other DNA or RNA based microarrays.

ライゲーション媒介性PCR
ライゲーションされていないプライマーを使ってPCR増幅する前または後でライゲーション媒介性PCRを使って標的遺伝子座を増幅できる。ライゲーション媒介性PCRは、DNAの混合物における1個または複数個の遺伝子座を増幅することによってDNAの試料を優先的に富化するために用いるPCRの方法であり、前記方法は、プライマー対の集合を得るステップであって、対の各プライマーが標的特異的配列および非標的配列を含有し、好ましくは、標的特異的配列が、標的領域であって、1つが多型部位の上流、および1つが多型部位の下流である標的領域とアニーリングするように設計されており、該標的特異的配列が、多型部位から0、1、2、3、4、5、6、7、8、9、10、11~20、21~30、31~40、41~50、51~100、または、100超隔てられていてよいステップと、上流のプライマーの3’末端からDNAを重合させて、それと、標的分子と相補的なヌクレオチドを有する下流のプライマーの5’末端との間の一本鎖領域を充填するステップと、上流のプライマーの最後の重合した塩基を、近接する下流のプライマーの5’塩基とライゲーションさせるステップと、重合し、ライゲーションした分子のみを、上流のプライマーの5’末端および下流のプライマーの3’末端を含有する非標的配列を使用して増幅するステップとを含む。別個の標的に対するプライマー対を同じ反応において混合することができる。非標的配列は、ユニバーサル配列としての機能を果たし、したがって、首尾よく重合し、ライゲーションした全てのプライマー対を、増幅プライマーの単一の対を用いて増幅することができる。
Ligation-Mediated PCR
Ligation-mediated PCR can be used to amplify target loci before or after PCR amplification with unligated primers. Ligation-mediated PCR is a method of PCR used to preferentially enrich a sample of DNA by amplifying one or more loci in a mixture of DNA, the method comprising the steps of obtaining a set of primer pairs, each primer of the pair containing a target specific sequence and a non-target sequence, preferably the target specific sequence is designed to anneal to a target region, one upstream and one downstream of the polymorphic site, and the target specific sequence is within 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20, 20-30, 30-40, 40-50, 50-60, 60-70, 70-80, 80-90, 90-100, 100-1100, 1100-1200, 1200-1300, 1300-1400, 1400-1500, 1500-2600, 1600-2700, 1700-3000, 1800-2900, 1900-4000, 2000-5000, 2100-2400, 2200-2500, 2300-2400, 2400-2500, 2500-3000, 2600-2700, 2700-3000, 2800-3000, 2900-4000, 3000-4000, 3100-4000, 3200-4000, 3300-4000, 3400-4000, 3500-4000 The steps may be separated by 1-30, 31-40, 41-50, 51-100, or more than 100, polymerizing DNA from the 3' end of the upstream primer to fill in the single-stranded region between it and the 5' end of the downstream primer with nucleotides complementary to the target molecule, ligating the last polymerized base of the upstream primer to the adjacent 5' base of the downstream primer, and amplifying only the polymerized and ligated molecules using a non-target sequence containing the 5' end of the upstream primer and the 3' end of the downstream primer. Primer pairs for distinct targets can be mixed in the same reaction. The non-target sequence serves as a universal sequence, so all successfully polymerized and ligated primer pairs can be amplified using a single pair of amplification primers.

ハイブリダイゼーションによる捕捉
いくつかの実施形態では、本開示の方法は、多重PCRを使用して標的遺伝子座を増幅することに加えて、次のいずれかのハイブリダイゼーション法による捕捉を使用するステップを含むことができる。標的ゲノムにおける特異的な配列の集合を優先的に富化することは、いくつもの方法で実現することができる。本文書の他の箇所に、特異的な配列の集合を標的とするためにLIPをどのように用いることができるかについての記載があるが、これらの適用の全てにおいて、他の標的化および/または優先的な富化方法を、同じ目的のために同等に良好に用いることができる。別の標的化方法の1つの例はハイブリダイゼーション手法による捕捉である。商業的なハイブリダイゼーション技術による捕捉のいくつかの例としては、AGILENTのSURE SELECT、およびILLUMINAのTruSeqが挙げられる。ハイブリダイゼーションによる捕捉では、所望の標的の配列と相補的またはほぼ相補的なオリゴヌクレオチドの集合をDNAの混合物とハイブリダイズさせ、次いで混合物から物理的に分離することが可能になる。所望の配列が標的化オリゴヌクレオチドとハイブリダイズしたら、標的化オリゴヌクレオチドを物理的に取り出す作用により、標的の配列も取り出されることになる。ハイブリダイズしたオリゴを取り出したら、それらを、それらの融解温度を上回るまで加熱し、増幅することができる。標的化オリゴヌクレオチドを物理的に取り出すためのいくつかの方法は、標的化オリゴを固体支持体、例えば磁気ビーズまたはチップと共有結合させることによる。標的化オリゴヌクレオチドを物理的に取り出すための別の方法は、標的化オリゴヌクレオチドを、別の分子部分に対する強力な親和性を有する分子部分と共有結合させることによる。そのような分子対の例は、例えばSURE SELECTにおいて使用されるビオチンおよびストレプトアビジンである。したがって、その標的の配列をビオチン分子に共有結合的に付着させ、ハイブリダイゼーション後に、ストレプトアビジンを付加した固体支持体を使用して、標的の配列がハイブリダイズしたビオチン化オリゴヌクレオチドをプルダウンすることができる。
Capture by Hybridization In some embodiments, the method of the present disclosure can include using any of the following hybridization capture methods in addition to amplifying the target loci using multiplex PCR: Preferential enrichment of a specific set of sequences in the target genome can be achieved in a number of ways. Elsewhere in this document, we describe how LIP can be used to target a specific set of sequences, but in all of these applications, other targeting and/or preferential enrichment methods can be used equally well for the same purpose. One example of another targeting method is capture by hybridization techniques. Some examples of commercial capture by hybridization techniques include AGILENT's SURE SELECT and ILLUMINA's TruSeq. In hybridization capture, a set of oligonucleotides that are complementary or nearly complementary to the sequences of the desired target are hybridized to a mixture of DNA and then allowed to be physically separated from the mixture. Once the desired sequence is hybridized with the targeting oligonucleotide, the action of physically removing the targeting oligonucleotide will also remove the target sequence. Once the hybridized oligos are removed, they can be heated above their melting temperature and amplified. Some methods for physically removing the targeting oligonucleotide are by covalently binding the targeting oligonucleotide to a solid support, such as a magnetic bead or chip. Another method for physically removing the targeting oligonucleotide is by covalently binding the targeting oligonucleotide to a molecular moiety that has a strong affinity for another molecular moiety. An example of such a molecular pair is biotin and streptavidin, for example, as used in SURE SELECT. Thus, the target sequence is covalently attached to a biotin molecule, and after hybridization, the biotinylated oligonucleotide with which the target sequence is hybridized can be pulled down using a solid support with streptavidin added.

ハイブリッド捕捉は、対象の標的と相補的なプローブを標的分子とハイブリダイズさせることを伴う。ハイブリッド捕捉プローブはもともと、標的間に相対的な均一性を有するゲノムの大部分を標的とし、富化するために開発された。その適用では、増幅される全ての標的が、全ての領域を配列決定によって検出することができる十分な均一性を有することが重要であったが、元の試料における対立遺伝子の割合を保持することには注意が払われなかった。捕捉した後、試料中に存在する対立遺伝子を、捕捉された分子の直接配列決定によって決定することができる。これらのシーケンシングリードを、対立遺伝子の型に応じて分析し、カウントすることができる。しかし、現行の技術を用いると、測定された捕捉された配列の対立遺伝子分布は、一般には、元の対立遺伝子分布を表さない。 Hybrid capture involves hybridizing a probe complementary to the target of interest to a target molecule. Hybrid capture probes were originally developed to target and enrich large portions of the genome with relative uniformity between targets. In that application, it was important that all targets amplified had sufficient uniformity that all regions could be detected by sequencing, but no attention was paid to preserving the proportion of alleles in the original sample. After capture, the alleles present in the sample can be determined by direct sequencing of the captured molecules. These sequencing reads can be analyzed and counted according to allele type. However, with current technology, the allele distribution of the measured captured sequences generally does not represent the original allele distribution.

ある実施形態では、配列決定によって対立遺伝子の検出を実施する。多型部位における対立遺伝子の同一性を捕捉するために、捕捉された分子の対立遺伝子の組成を評価するために、シーケンシングリードが問題の対立遺伝子にわたることが必須である。捕捉分子は多くの場合、長さが変動するので、配列決定の際に、分子全体が配列決定されなければ、変異の位置がオーバーラップすることを保証することができない。しかし、最大の可能性のある長さおよびシーケンシングリードの正確度に関する費用検討ならびに技術的な限界により、分子全体の配列決定は実行できない。ある実施形態では、約30塩基から約50塩基または約70塩基まで増加させることができるリードの長さにより、標的の配列内の変異の位置とオーバーラップするリード数を著しく増加させることができる。 In one embodiment, allele detection is performed by sequencing. To capture the identity of the allele at the polymorphic site, it is essential that the sequencing read spans the allele in question to assess the allelic composition of the captured molecule. Because the captured molecules are often of variable length, when sequenced, the entire molecule must be sequenced to ensure that the mutation location overlaps. However, cost considerations and technical limitations regarding the maximum possible length and accuracy of the sequencing reads make sequencing of the entire molecule impractical. In one embodiment, the length of the read can be increased from about 30 bases to about 50 or 70 bases, allowing a significant increase in the number of reads that overlap the mutation location in the target sequence.

対象の位置を調べるリード数を増加させるための別の方法は、基礎をなす富化された対立遺伝子の偏りをもたらさない限りはプローブの長さを減少させることである。合成されたプローブの長さは、1つの遺伝子座において見いだされた2つの異なる対立遺伝子とハイブリダイズするように設計された2種のプローブが元の試料中の種々の対立遺伝子とほぼ同等の親和性でハイブリダイズするために十分な長さであるべきである。現在、当技術分野で公知の方法には、一般には120塩基より長いプローブが記載されている。現行の実施形態において、対立遺伝子が1つまたは少数の塩基である場合、捕捉プローブは、約110塩基未満、約100塩基未満、約90塩基未満、約80塩基未満、約70塩基未満、約60塩基未満、約50塩基未満、約40塩基未満、約30塩基未満、および約25塩基未満であってもよく、全ての対立遺伝子からの同等の富化を確実にするためにはこの量で十分である。ハイブリッド捕捉技術を用いて富化するDNAの混合物が、血液、例えば母系の血液から単離された浮動性DNAを含む混合物である場合、DNAの平均長はかなり短く、一般には、200塩基未満である。より短いプローブを使用することにより、ハイブリッド捕捉プローブが所望のDNA断片を捕捉する見込みが大きくなる。より大きな変動は、より長いプローブを必要とする場合がある。ある実施形態では、対象の変動は、1(SNP)~数塩基の長さである。ある実施形態では、ゲノム内の標的の領域を、ハイブリッド捕捉プローブを使用して優先的に富化することができ、ここで、ハイブリッド捕捉プローブの長さは90塩基未満であり、80塩基未満、70塩基未満、60塩基未満、50塩基未満、40塩基未満、30塩基未満または25塩基未満であってよい。ある実施形態では、所望の対立遺伝子が配列決定される見込みを増大させるために、多型の対立遺伝子の場所に隣接している領域とハイブリダイズするように設計されているプローブの長さを、90塩基超から、約80塩基まで、または約70塩基まで、または約60塩基まで、または約50塩基まで、または約40塩基まで、または約30塩基まで、または約25塩基まで減少させることができる。 Another way to increase the number of reads interrogating a locus of interest is to decrease the length of the probe, provided that it does not result in bias of the underlying enriched allele. The length of the synthesized probe should be long enough for two probes designed to hybridize with two different alleles found at one locus to hybridize with approximately equal affinity to the various alleles in the original sample. Currently, methods known in the art generally describe probes longer than 120 bases. In current embodiments, when the allele is one or a few bases, the capture probe may be less than about 110 bases, less than about 100 bases, less than about 90 bases, less than about 80 bases, less than about 70 bases, less than about 60 bases, less than about 50 bases, less than about 40 bases, less than about 30 bases, and less than about 25 bases, which is sufficient to ensure equal enrichment from all alleles. When the mixture of DNA to be enriched using hybrid capture techniques is a mixture containing free floating DNA isolated from blood, e.g., maternal blood, the average length of the DNA is fairly short, generally less than 200 bases. Using shorter probes increases the likelihood that the hybrid capture probe will capture the desired DNA fragment. Larger variations may require longer probes. In an embodiment, the variation of interest is one (SNP) to a few bases in length. In an embodiment, targeted regions within the genome can be preferentially enriched using hybrid capture probes, where the hybrid capture probes are less than 90 bases in length, and may be less than 80 bases, less than 70 bases, less than 60 bases, less than 50 bases, less than 40 bases, less than 30 bases, or less than 25 bases in length. In certain embodiments, to increase the likelihood that the desired allele will be sequenced, the length of the probe designed to hybridize to the region adjacent to the location of the polymorphic allele can be reduced from more than 90 bases to about 80 bases, or to about 70 bases, or to about 60 bases, or to about 50 bases, or to about 40 bases, or to about 30 bases, or to about 25 bases.

捕捉を可能にするために、合成されたプローブと標的分子の間に最小のオーバーラップが存在する。この合成されたプローブは、できるだけ短くすることができるが、それでもこの最小の必要なオーバーラップよりも大きい。多型領域を標的とするためにより短いプローブ長を用いることの効果は、より多くの分子が標的対立遺伝子領域とオーバーラップすることである。元のDNA分子の断片化の状態も、標的の対立遺伝子とオーバーラップするリード数に影響を及ぼす。血漿試料などの一部のDNA試料は、インビボで起こる生物学的プロセスに起因して既に断片化されている。しかし、より長い断片を有する試料には、配列決定ライブラリーの調製および富化の前の断片化が有益である。プローブと断片の両方が短い(約60~80bp)場合、最大の特異性は、対象の重要な領域とオーバーラップできない比較的少ないシーケンスリードで実現することができる。 To allow capture, there is a minimum overlap between the synthesized probe and the target molecule. This synthesized probe can be as short as possible, but still be larger than this minimum required overlap. The effect of using a shorter probe length to target a polymorphic region is that more molecules will overlap with the target allele region. The fragmentation state of the original DNA molecule also influences the number of reads that overlap with the target allele. Some DNA samples, such as plasma samples, are already fragmented due to biological processes occurring in vivo. However, samples with longer fragments benefit from fragmentation prior to sequencing library preparation and enrichment. When both the probe and the fragments are short (approximately 60-80 bp), maximum specificity can be achieved with relatively few sequence reads that cannot overlap with the critical region of interest.

ある実施形態では、ハイブリダイゼーション条件を調整して、元の試料中に存在する異なる対立遺伝子の捕捉における均一性を最大にすることができる。ある実施形態では、対立遺伝子間のハイブリダイゼーションの偏りの差異を最小限にするためにハイブリダイゼーション温度を低下させる。当技術分野で公知の方法では、温度を低下させることには、プローブと、意図されたものではない標的とのハイブリダイゼーションを増大させる効果があるので、ハイブリダイゼーションのためにより低い温度を用いることを回避する。しかし、目的が、最大の忠実度で対立遺伝子の比を保存することである場合、現行技術の教示がこの手法を避けているという事実にもかかわらずより低いハイブリダイゼーション温度を用いる手法により、最適に正確な対立遺伝子の比がもたらされる。ハイブリダイゼーション温度は、標的の領域の実質的なオーバーラップを有する標的のみが捕捉されるように、標的と合成されたプローブとの間のより大きなオーバーラップを必要とするために上昇させることもできる。本開示のいくつかの実施形態では、ハイブリダイゼーション温度を、通常のハイブリダイゼーション温度から、約40℃まで、約45℃まで、約50℃まで、約55℃まで、約60℃まで、約65までまたは約70℃まで低下させる。 In some embodiments, the hybridization conditions can be adjusted to maximize uniformity in the capture of different alleles present in the original sample. In some embodiments, the hybridization temperature is reduced to minimize differences in hybridization bias between alleles. Methods known in the art avoid using lower temperatures for hybridization because reducing the temperature has the effect of increasing hybridization of the probe with unintended targets. However, if the goal is to preserve the allele ratio with maximum fidelity, a technique using a lower hybridization temperature will result in the most accurate allele ratio, despite the fact that current art teachings avoid this technique. Hybridization temperatures can also be increased to require greater overlap between the target and the synthesized probe, so that only targets with substantial overlap of the target region are captured. In some embodiments of the present disclosure, the hybridization temperature is reduced from the normal hybridization temperature to about 40°C, to about 45°C, to about 50°C, to about 55°C, to about 60°C, to about 65°C, or to about 70°C.

ある実施形態では、ハイブリッド捕捉プローブは、多型の対立遺伝子に隣接している領域に見いだされるDNAと相補的なDNAを有する捕捉プローブの領域が多型部位のすぐ隣ではないように設計することができる。その代わりに、捕捉プローブは、標的の多型部位に隣接しているDNAとハイブリダイズするように設計されている捕捉プローブの領域が、多型部位とファンデルワールスにより接触する捕捉プローブの部分と、1つまたは少数の塩基と等しい長さの小さな距離で隔てられているように設計することができる。ある実施形態では、ハイブリッド捕捉プローブは、多型の対立遺伝子と隣接しているが、それとは交差していない領域とハイブリダイズするように設計されており、これは、隣接捕捉プローブと称される。隣接捕捉プローブの長さは、約120塩基未満、約110塩基未満、約100塩基未満、約90塩基未満であってよく、約80塩基未満、約70塩基未満、約60塩基未満、約50塩基未満、約40塩基未満、約30塩基未満、または約25塩基未満であってよい。隣接捕捉プローブの標的となるゲノムの領域は、多型遺伝子座と1塩基対、2塩基対、3塩基対、4塩基対、5塩基対、6塩基対、7塩基対、8塩基対、9塩基対、10塩基対、11~20塩基対、または、20超塩基対で隔てられていてよい。 In some embodiments, a hybrid capture probe can be designed such that the region of the capture probe that has DNA complementary to the DNA found in the region adjacent to the polymorphic allele is not immediately adjacent to the polymorphic site. Instead, the capture probe can be designed such that the region of the capture probe that is designed to hybridize to the DNA adjacent to the target polymorphic site is separated from the portion of the capture probe that makes van der Waals contact with the polymorphic site by a small distance, the length of which is equal to one or a few bases. In some embodiments, a hybrid capture probe is designed to hybridize to a region adjacent to but not across the polymorphic allele, which is referred to as an adjacent capture probe. The length of the adjacent capture probe can be less than about 120 bases, less than about 110 bases, less than about 100 bases, less than about 90 bases, and can be less than about 80 bases, less than about 70 bases, less than about 60 bases, less than about 50 bases, less than about 40 bases, less than about 30 bases, or less than about 25 bases. The region of the genome targeted by the flanking capture probe may be separated from the polymorphic locus by 1 base pair, 2 base pairs, 3 base pairs, 4 base pairs, 5 base pairs, 6 base pairs, 7 base pairs, 8 base pairs, 9 base pairs, 10 base pairs, 11-20 base pairs, or more than 20 base pairs.

標的化配列捕捉を用いる、標的化捕捉に基づく疾患スクリーニング検査についての記載。現在AGILENT(SURE SELECT)、ROCHE-NIMBLEGENまたはILLUMINAから提供されているものなどの特別注文の標的化配列捕捉。捕捉プローブは、種々の種類の変異の捕捉を確実にするために特別注文で設計することができる。点変異については、点変異とオーバーラップする1個または複数個のプローブが、変異を捕捉し、配列決定するために十分であるはずである。 Description of targeted capture based disease screening tests using targeted sequence capture. Custom targeted sequence capture such as those currently offered by AGILENT (SURE SELECT), ROCHE-NIMBLEGEN or ILLUMINA. Capture probes can be custom designed to ensure capture of various types of mutations. For point mutations, one or more probes overlapping the point mutation should be sufficient to capture and sequence the mutation.

小さな挿入または欠失については、変異とオーバーラップする1個または複数個のプローブが、変異を含む断片を捕捉し、配列決定するために十分であり得る。ハイブリダイゼーションは、一般には、ゲノム配列を参照するために設計されるプローブ限定捕捉効率の間で効率が低い可能性がある。変異を含む断片の捕捉を確実にするために、正常な対立遺伝子と一致するものと、変異対立遺伝子と一致するものの2種のプローブを設計することができる。より長いプローブにより、ハイブリダイゼーションを増強することができる。複数のオーバーラッププローブにより捕捉を増強することができる。最後に、プローブをすぐ隣であるがオーバーラップはしていないところに置くと、変異は、正常な対立遺伝子と変異対立遺伝子の比較的同様の捕捉効率が可能となり得る。 For small insertions or deletions, one or more probes overlapping the mutation may be sufficient to capture and sequence the fragment containing the mutation. Hybridization may be less efficient between the probes generally designed to reference the genomic sequence and limited capture efficiency. To ensure capture of the fragment containing the mutation, two probes can be designed, one matching the normal allele and one matching the mutant allele. Longer probes can enhance hybridization. Multiple overlapping probes can enhance capture. Finally, placing probes immediately adjacent but not overlapping the mutation may allow relatively similar capture efficiency of the normal and mutant alleles.

単純タンデム反復(STR)については、これらの高度に可変性の部位とオーバーラップしているプローブは、断片を上手く捕捉する可能性が低い。捕捉を増強するために、プローブを、可変性部位と近接しているがオーバーラップはしていないところに置くことができる。次いで、断片について通常通り配列決定して、STRの長さおよび組成を示すことができる。 For simple tandem repeats (STRs), probes that overlap these highly variable sites are unlikely to capture the fragments successfully. To enhance capture, probes can be placed close to, but not overlapping, the variable sites. The fragments can then be sequenced as usual to reveal the length and composition of the STRs.

大規模な欠失については、現在エクソン捕捉系において用いられている一般的な手法である一連のオーバーラッププローブが機能し得る。しかし、この手法を用いると、個体がヘテロ接合性であるか否かを決定することが難しい場合がある。捕捉された領域内のSNPを標的とし、評価することにより、個体が保有者であることを示す、その領域にわたるヘテロ接合性の損失を潜在的に示すことができる。ある実施形態では、非オーバーラッププローブまたはシングルトンプローブを、潜在的に欠失した領域にわたって置き、捕捉された断片の数をヘテロ接合性の尺度として使用することが可能である。個体が大規模な欠失を有する場合には、非欠失(二倍体)参照遺伝子座と比較して、断片の数の2分の1を捕捉のために利用可能であることが予測される。したがって、欠失した領域から得られたリード数は、正常な二倍体の遺伝子座から得られたリード数のおよそ半分であるはずである。潜在的に欠失した領域にわたる複数のシングルトンプローブからのシーケンシングリード深度を総計し、平均することにより、シグナルを増強し、診断の信頼度を改善することができる。2つの手法、SNPを標的として、ヘテロ接合性の損失を同定すること、および複数のシングルトンプローブを使用して、その遺伝子座から基礎をなす断片の量の定量的尺度を得ることを組み合わせることもできる。これらの戦略のいずれか、または両方を、他の戦略と組み合わせて、同じ結果をよりよく得ることができる。 For large deletions, a series of overlapping probes, a common approach currently used in exon capture systems, may work. However, using this approach, it may be difficult to determine whether an individual is heterozygous. Targeting and evaluating SNPs within the captured region can potentially indicate loss of heterozygosity across the region, indicating that the individual is a carrier. In an embodiment, non-overlapping or singleton probes can be placed across the potentially deleted region, and the number of captured fragments can be used as a measure of heterozygosity. If an individual has a large deletion, it is expected that half the number of fragments will be available for capture compared to the non-deleted (diploid) reference locus. Thus, the number of reads obtained from the deleted region should be approximately half the number of reads obtained from the normal diploid locus. The sequencing read depth from multiple singleton probes across the potentially deleted region can be aggregated and averaged to increase the signal and improve diagnostic confidence. The two approaches can also be combined: targeting SNPs to identify loss of heterozygosity and using multiple singleton probes to obtain a quantitative measure of the amount of underlying fragment from the locus. Either or both of these strategies can be combined with the other to better achieve the same results.

試験の間に、同じ試験において捕捉され、配列決定されるY染色体断片の存在によって示される、男の胎児のcfDNAの検出、ならびに母親および父親が影響されないX連鎖優性変異または母親が影響されない優性変異のいずれかにより、胎児に対するリスクが高まることが示される。影響のない母親における同じ遺伝子内に2つの変異劣性対立遺伝子が検出されることは、胎児が、変異対立遺伝子を父親から、および潜在的に第2の変異対立遺伝子を母親から遺伝によって受け継いだことを意味する。全ての場合において、羊水穿刺または絨毛膜絨毛採取による追跡検査も示され得る。 During testing, detection of cfDNA in a male fetus, indicated by the presence of a Y chromosome fragment that is captured and sequenced in the same test, and either an X-linked dominant mutation in which the mother and father are unaffected or a dominant mutation in which the mother is unaffected, indicates an increased risk to the fetus. Detection of two mutant recessive alleles in the same gene in an unaffected mother means that the fetus has inherited a mutant allele from the father and potentially a second mutant allele from the mother. In all cases, follow-up testing with amniocentesis or chorionic villus sampling may also be indicated.

標的化捕捉に基づく疾患スクリーニング検査は、異数性についての標的化捕捉に基づく非侵襲的な出生前診断検査と組み合わせることができる。リード深度(DOR)の変動性を減少させるためのいくつもの方法が存在する:例えば、プライマー濃度を上昇させることができる、より長い標的化増幅プローブを使用することができる、または、STAサイクルをより多く実行することができる(例えば、25超、30超、35超、または、さらには40超)。 Targeted capture-based disease screening tests can be combined with targeted capture-based non-invasive prenatal diagnostic tests for aneuploidy. There are a number of ways to reduce the variability of the depth of read (DOR): for example, primer concentrations can be increased, longer targeted amplification probes can be used, or more STA cycles can be performed (e.g., more than 25, more than 30, more than 35, or even more than 40).

試料中のDNA分子数の代表的決定方法
第1ラウンドのDNA増幅の間に試料中の元のDNA分子のそれぞれについて独自に同定された分子を生成することによって、試料中のDNA分子の数を決定するための方法が本明細書に記載されている。上記の目的を実現し、その後に単一分子配列決定法またはクローン配列決定法が続く手順が本明細書に記載されている。
Exemplary Methods for Determining the Number of DNA Molecules in a Sample Described herein are methods for determining the number of DNA molecules in a sample by generating a uniquely identified molecule for each original DNA molecule in the sample during a first round of DNA amplification. Described herein are procedures that achieve the above objectives and are followed by single molecule or clonal sequencing.

該手法は、1個または複数個の特定の遺伝子座を標的とするステップ、および、各標的の遺伝子座が独特のタグを有し、このバーコードをクローン配列決定または単一分子配列決定を用いて配列決定した際に互いに区別することができるように元の分子のタグを付けたコピーを生成するステップを包含する。独特の配列決定されたバーコードのそれぞれは元の試料における独特の分子を示す。同時に、配列決定データを使用して、分子が由来する遺伝子座を確認する。この情報を使用して、各遺伝子座について、元の試料中の独特の分子の数を決定することができる。 The technique involves targeting one or more specific loci and generating tagged copies of the original molecule such that each targeted locus has a unique tag and can be distinguished from one another when the barcodes are sequenced using clonal or single molecule sequencing. Each unique sequenced barcode represents a unique molecule in the original sample. At the same time, the sequencing data is used to confirm the locus from which the molecule originates. This information can be used to determine the number of unique molecules in the original sample for each locus.

この方法は、元の試料中の分子の数の定量的評価が必要な任意の適用のために用いることができる。さらに、1個または複数個の標的の独特の分子の数を、1個または複数個の他の標的に対する独特の分子の数に関連づけて、相対的なコピー数、対立遺伝子分布または対立遺伝子の比を決定することができる。あるいは、元の標的のコピーの最も可能性の高い数を同定するために、種々の標的から検出されたコピーの数を分布によってモデリングすることができる。適用としては、これらに限らないが、挿入および欠失、例えば、デュシェンヌ型筋ジストロフィーの保有者に見いだされるものの検出;染色体のセグメントの欠失または重複、例えば、コピー数変異体において観察されたものの定量;生まれた個体由来の試料の染色体コピー数;生まれていない個体、例えば、胚または胎児由来の試料の染色体コピー数が挙げられる。 This method can be used for any application requiring a quantitative assessment of the number of molecules in the original sample. Additionally, the number of unique molecules of one or more targets can be related to the number of unique molecules relative to one or more other targets to determine relative copy numbers, allele distributions, or allele ratios. Alternatively, the number of copies detected from various targets can be modeled by distribution to identify the most likely number of copies of the original target. Applications include, but are not limited to, detection of insertions and deletions, such as those found in carriers of Duchenne muscular dystrophy; quantification of deletions or duplications of chromosomal segments, such as those observed in copy number variants; chromosome copy numbers in samples from born individuals; chromosome copy numbers in samples from unborn individuals, such as embryos or fetuses.

前記方法は、配列による標的化に含有される同時に起こる変動の評価と組み合わせることができる。これを用いて、元の試料における各対立遺伝子を示す分子の数を決定することができる。このコピー数法は、SNPまたは他の配列の変動の評価と組み合わせて、生まれた個体および生まれていない個体の染色体コピー数を決定することができる;短い配列の変動を有するが、その中でPCRにより複数の標的領域から増幅することができる遺伝子座由来のコピーの識別および定量化、例えば、棘筋萎縮の保有者検出の目的で;異なる個体の混合物からなる試料由来の分子の種々の供給源のコピー数の決定、例えば、母系の血漿から得られた浮動性DNAからの胎児の異数性の検出の目的で。 The method can be combined with the evaluation of coincident variations contained in the targeting by sequence. This can be used to determine the number of molecules representing each allele in the original sample. This copy number method can be combined with the evaluation of SNPs or other sequence variations to determine chromosomal copy numbers in born and unborn individuals; identification and quantification of copies from loci that have short sequence variations but in which they can be amplified from multiple target regions by PCR, for example for carrier detection of spinal muscular atrophy; determination of copy numbers of various sources of molecules from samples consisting of a mixture of different individuals, for example for detection of fetal aneuploidy from free floating DNA obtained from maternal plasma.

ある実施形態では、単一の標的遺伝子座に関係する方法は、以下のステップの1つまたは複数を含んでよい:(1)特定の遺伝子座をPCR増幅するための、オリゴマーの標準の対を設計するステップ。(2)合成の間に、標的特異的オリゴマーのうちの1つの5’末端側に、標的遺伝子座またはゲノムに対する相補性を有さない、または最小の相補性を有する特定の塩基の配列を付加するステップ。尾部と称されるこの配列は既知の配列であって、その後の増幅のために用いられるものであり、ランダムなヌクレオチドの配列が後に続く。これらのランダムなヌクレオチドはランダムな領域を含む。ランダムな領域は、各プローブ分子間で確率的に異なる、ランダムに生成した核酸の配列を含む。したがって、合成した後、尾部を付けたオリゴマープールは、既知の配列から始まり、その後に分子間で異なる未知の配列が続き、その後に標的特異的配列が続くオリゴマーの集団からなる。(3)尾部を付けたオリゴマーのみを使用して1ラウンドの増幅(変性、アニーリング、伸長)を実施するステップ。(4)エキソヌクレアーゼを反応物に加え、PCR反応を有効に停止させ、反応物を適切な温度でインキュベートして、鋳型とアニーリングしなかったフォワード一本鎖オリゴを除去し、伸長させて二本鎖産物を形成するステップ。(5)反応物を高い温度でインキュベートして、エキソヌクレアーゼを変性させ、その活性を排除するするステップ(6)第1の反応において使用したオリゴマーの尾部と相補的な新しいオリゴヌクレオチドを他の標的特異的オリゴマーと一緒に反応物に加えて、PCRの第1ラウンドで生成した産物のPCR増幅を可能にするステップ。(7)増幅を継続して下流のクローン配列決定のために十分な産物を生成させるステップ。(8)十分な数の塩基を配列に結んだ、増幅されたPCR産物を、多数の方法、例えば、クローン配列決定によって測定するステップ。 In an embodiment, a method relating to a single target locus may include one or more of the following steps: (1) designing a standard pair of oligomers for PCR amplification of a specific locus; (2) adding a sequence of specific bases with no or minimal complementarity to the target locus or genome to the 5' end of one of the target-specific oligomers during synthesis. This sequence, called the tail, is a known sequence that is used for subsequent amplification and is followed by a sequence of random nucleotides. These random nucleotides include random regions. The random regions include randomly generated sequences of nucleic acids that are stochastically different between each probe molecule. Thus, after synthesis, the tailed oligomer pool consists of a population of oligomers that start with a known sequence, followed by an unknown sequence that differs between molecules, followed by the target-specific sequence. (3) performing one round of amplification (denaturation, annealing, extension) using only the tailed oligomers. (4) Add an exonuclease to the reaction to effectively stop the PCR reaction and incubate the reaction at an appropriate temperature to remove the forward single-stranded oligo that did not anneal to the template and extend it to form a double-stranded product. (5) Incubate the reaction at an elevated temperature to denature the exonuclease and eliminate its activity. (6) Add a new oligonucleotide complementary to the tail of the oligomer used in the first reaction to the reaction along with other target-specific oligomers to allow PCR amplification of the product generated in the first round of PCR. (7) Continue amplification to generate enough product for downstream clonal sequencing. (8) Measure the amplified PCR products that have a sufficient number of bases in the sequence by a number of methods, for example, clonal sequencing.

ある実施形態では、本開示の方法は、多数の遺伝子座を並行してまたは別の方法で標的とするステップを包含する。異なる標的遺伝子座に対するプライマーを独立に生成し、混合して多重PCRプールを作製することができる。ある実施形態では、元の試料を、サブプールに分けることができ、各サブプールにおいて異なる遺伝子座を標的とした後に組み換え、シークエンシングができる。ある実施形態では、プールを細分する前にタグを付けるステップおよびいくつもの増幅サイクルを実施して全ての標的の効率的な標的化を確実にした後に、分割し、改善し、その後、細分されたプールにおけるより小さなプライマーの集合を使用して増幅を継続することによって増幅することができる。 In an embodiment, the disclosed method involves targeting multiple loci in parallel or otherwise. Primers for different target loci can be generated independently and mixed to create a multiplex PCR pool. In an embodiment, the original sample can be split into subpools, with different loci targeted in each subpool, followed by recombination and sequencing. In an embodiment, the pool can be tagged before being subdivided and several amplification cycles performed to ensure efficient targeting of all targets, then split, refined, and then amplified by continuing amplification using a smaller set of primers in the subdivided pool.

この技術が特に有用になる適用の1つの例は、非侵襲的な出生前異数性診断であり、所与の遺伝子座における対立遺伝子の比またはいくつもの遺伝子座における対立遺伝子の分布を用いて、胎児に存在する染色体のコピーの数の決定に役立てることができる。この状況では、最初の試料中に存在するDNAを、種々の対立遺伝子の相対的な量を維持しながら増幅することが望ましい。一部の場合、特に、存在するDNAが非常に少量である、例えば、5,000未満のゲノムのコピー、1,000未満のゲノムのコピー、500未満のゲノムのコピー、および100未満のゲノムのコピーである場合には、ボトルネッキングと称される現象が起こり得る。これは、最初の試料中に任意の所与の対立遺伝子の少数のコピーが存在し、増幅の偏りの結果、増幅されたDNAのプールの有するそれらの対立遺伝子の比が最初のDNAの混合物におけるそれらの対立遺伝子の比とは有意に異なるということである。標準のPCR増幅の前に、各DNAの鎖にバーコードの独特のまたはほぼ独特の集合を適用することにより、同じ元の分子を起源とする配列決定されたDNAのn個の同一の分子の集合からDNAのn-1コピーを排除することが可能である。 One example of an application in which this technology would be particularly useful is non-invasive prenatal aneuploidy diagnosis, where the ratio of alleles at a given locus or the distribution of alleles at several loci can be used to help determine the number of copies of a chromosome present in a fetus. In this situation, it is desirable to amplify the DNA present in the initial sample while maintaining the relative amounts of the various alleles. In some cases, especially when very little DNA is present, e.g., less than 5,000 copies of the genome, less than 1,000 copies of the genome, less than 500 copies of the genome, and less than 100 copies of the genome, a phenomenon called bottlenecking can occur. This means that there are a small number of copies of any given allele in the initial sample, and as a result of amplification bias, the amplified pool of DNA has a significantly different ratio of those alleles than the ratio of those alleles in the initial mixture of DNA. By applying a unique or nearly unique set of barcodes to each strand of DNA prior to standard PCR amplification, it is possible to eliminate n-1 copies of DNA from a set of n identical molecules of sequenced DNA originating from the same original molecule.

例えば、個体のゲノム内のヘテロ接合性であるSNP、および元のDNAの試料中に各対立遺伝子が10分子存在する個体由来のDNAの混合物を考える。増幅した後、その遺伝子座に対応する100,000分子のDNAが存在し得る。確率論的なプロセスに起因して、DNAの比は1:2~2:1のいずれであってもよいが、元の分子のそれぞれに独特のタグでタグを付けたので、増幅されたプール内のDNAが正確に各対立遺伝子由来の10分子のDNAを起源とすることを決定することが可能である。したがって、この方法により、この手法を用いない方法よりも正確な測度の相対的な各対立遺伝子の量がもたらされる。対立遺伝子の偏りの相対量を最小限にすることが望ましい方法に対して、この方法により正確なデータがもたらされる。 For example, consider a SNP in an individual's genome that is heterozygous, and a mixture of DNA from that individual where there are 10 molecules of each allele in the original sample of DNA. After amplification, there may be 100,000 molecules of DNA corresponding to that locus. Due to stochastic processes, the ratio of DNA may be anywhere from 1:2 to 2:1, but because each of the original molecules was tagged with a unique tag, it is possible to determine that the DNA in the amplified pool originates from exactly 10 molecules of DNA from each allele. Thus, this method provides a more accurate measure of the relative amount of each allele than methods that do not use this technique. This method provides accurate data for methods where it is desirable to minimize the relative amount of allele bias.

配列決定された断片と標的遺伝子座の関連づけは、いくつもの方法で実現することができる。ある実施形態では、標的配列に対応する分子バーコード、同様に、十分な数の独特の塩基を標的の断片に結んで十分な長さの配列を得て、標的遺伝子座を明白に同定することを可能にする。別の実施形態では、ランダムに生成した分子バーコードを含有する分子バーコーディングプライマーは、それが関連づけられる標的を同定する遺伝子座に特異的なバーコード(遺伝子座バーコード)も含有することができる。この遺伝子座バーコードは、個々の標的の各々に対する全ての分子バーコーディングプライマー間で、したがって、生じた増幅産物の全ての間で同一であるが、他の全ての標的とは異なる。ある実施形態では、本明細書に記載のタグ付け方法を、片側のネスティングプロトコールと組み合わせることができる。 The association of the sequenced fragments with the target locus can be achieved in a number of ways. In one embodiment, a molecular barcode corresponding to the target sequence, as well as a sufficient number of unique bases are linked to the target fragment to obtain a sequence of sufficient length to allow unambiguous identification of the target locus. In another embodiment, the molecular barcoding primer containing the randomly generated molecular barcode can also contain a locus-specific barcode (locus barcode) that identifies the target with which it is associated. This locus barcode is identical among all molecular barcoding primers for each individual target, and therefore among all of the resulting amplification products, but is distinct from all other targets. In one embodiment, the tagging method described herein can be combined with a one-sided nesting protocol.

ある実施形態では、分子バーコーディングプライマーの設計および生成は、以下の通り実施化することができる:分子バーコーディングプライマーは、標的配列と相補的でない配列、それに続くランダムな分子バーコード領域、それに続く標的特異的配列からなってよい。分子バーコードの5’の配列は部分配列PCR増幅ために用いることができ、配列決定するために増幅産物をライブラリーに変換することにおいて有用な配列を含み得る。ランダムな分子バーコード配列は多数の方法で生成することができる。好ましい方法では、分子タグを付けたプライマーを、バーコード領域を合成する間の反応のために4種の塩基全てを含むように合成する。塩基の全てまたは塩基の種々の組み合わせは、IUPACDNA多義コードを使用して明記することができる。このように、合成された分子の集団は、分子バーコード領域内の配列のランダムな混合物を含有する。バーコード領域の長さにより、どのくらい多くのプライマーが独特のバーコードを含有するかが決定される。独特の配列の数は、Nとしてバーコード領域の長さに関連づけられ、ここで、Nは塩基の数であり、一般には4であり、Lはバーコードの長さである。5塩基のバーコードにより、最大1024個の独特の配列をもたらすことができ、8塩基のバーコードにより、65536個の独特のバーコードをもたらすことができる。ある実施形態では、DNAを、配列決定方法によって測定することができ、配列データは単一分子の配列を示す。これは、単一分子について直接配列決定する方法、または単一分子を増幅して、配列決定計器によって検出可能なクローンを形成するが、なお単一分子を示す、本明細書ではクローン配列決定と称される方法を含むことができる。 In an embodiment, the design and generation of molecular barcoding primers can be implemented as follows: the molecular barcoding primers may consist of a sequence that is not complementary to the target sequence, followed by a random molecular barcode region, followed by a target-specific sequence. The sequence 5' of the molecular barcode can be used for partial sequence PCR amplification and may contain sequences useful in converting the amplified products into a library for sequencing. The random molecular barcode sequences can be generated in a number of ways. In a preferred method, the molecular tagged primers are synthesized to include all four bases for reaction during synthesis of the barcode region. All of the bases or various combinations of bases can be specified using the IUPAC DNA ambiguity code. In this way, the population of molecules synthesized contains a random mixture of sequences within the molecular barcode region. The length of the barcode region determines how many primers contain unique barcodes. The number of unique sequences is related to the length of the barcode region as N L , where N is the number of bases, typically 4, and L is the length of the barcode. A 5-base barcode can provide up to 1024 unique sequences, and an 8-base barcode can provide 65536 unique barcodes. In an embodiment, the DNA can be measured by a sequencing method, where the sequence data represents the sequence of a single molecule. This can include direct sequencing of a single molecule, or a method referred to herein as clonal sequencing, where a single molecule is amplified to form a clone detectable by a sequencing instrument, but still represents a single molecule.

増幅産物の定量化の代表的方法および試薬 対象の特異的核酸配列の定量化は、通常、TAQMAN(LIFE TECHNOLOGIES)、INVADERプローブ(THIRD WAVE TECHNOLOGIES)、などの定量的リアルタイムPCR技術により行われる。このような技術は、複数配列の並行同時分析(多重化)に対する限られた能力および増幅サイクルが可能な狭い範囲(例えば、PCR増幅産生量の対数対サイクル数が、直線範囲内)でのみ正確な定量データを生成する能力などの多くの短所がある。MYSEQ(ILLUMINA)、HISEQ(ILLUMINA)、ION TORRENT(LIFE TECHNOLOGIES)、GENOME ANALYZERILX(ILLUMINA)、GSFLEX+(ROCHE454)などで採用されるようなDNAシークエンシング技術、特に高スループット次世代シークエンシング技術(大量並列シーケンシング技術と呼ばれることも多い)を使って、試料中に存在する対象配列のコピー数の定量的測定ができ、それにより、出発物質に関する定量的情報、例えば、コピー数または転写レベルを得ることができる。高スループット遺伝子シーケンサーは、バーコーディング(すなわち、特徴的核酸配列を使った試料のタギング)を使用して、個別集団から特異的試料を特定し、それにより、DNAシーケンサーの1回の操作で複数試料の同時分析を可能とする。ライブラリー調製物(または他の対象核酸調製物)中の一定の領域のゲノムが配列決定される回数(リード数)は、対象ゲノム中のその配列のコピー数(または、cDNA含有調製物の場合は、発現レベル)に比例するであろう。しかし、遺伝子ライブラリーの調製およびシークエンシング(および、類似のゲノム由来の調製)は、対象の核酸配列の正確な定量的リードの取得と干渉する多くの偏りを持ち込む場合がある。例えば、核酸配列が異なると、遺伝子ライブラリー調製または試料調製の間に発生する核酸増幅ステップ中の増幅効率が異なる場合がある。 Representative Methods and Reagents for Quantification of Amplification Products Quantification of specific nucleic acid sequences of interest is typically performed by quantitative real-time PCR techniques such as TAQMAN (LIFE TECHNOLOGIES), INVADER probes (THIRD WAVE TECHNOLOGIES), etc. Such techniques suffer from a number of shortcomings, including limited capacity for parallel simultaneous analysis of multiple sequences (multiplexing) and the ability to generate accurate quantitative data only within a narrow range of possible amplification cycles (e.g., within the linear range of the logarithm of PCR amplification product yield vs. cycle number). DNA sequencing technologies, particularly high-throughput next-generation sequencing technologies (often referred to as massively parallel sequencing technologies), such as those employed in MYSEQ (ILLUMINA), HISEQ (ILLUMINA), ION TORRENT (LIFE TECHNOLOGIES), GENOME ANALYZERILX (ILLUMINA), GSFLEX+ (ROCHE454), can be used to quantitatively measure the number of copies of a sequence of interest present in a sample, thereby providing quantitative information about the starting material, such as copy number or transcription level. High-throughput genetic sequencers use barcoding (i.e., tagging samples with characteristic nucleic acid sequences) to identify specific samples from a population of individuals, thereby allowing the simultaneous analysis of multiple samples in a single run of the DNA sequencer. The number of times a given region of the genome in a library preparation (or other nucleic acid preparation of interest) is sequenced (number of reads) will be proportional to the number of copies (or, in the case of cDNA-containing preparations, the expression level) of that sequence in the genome of interest. However, preparation and sequencing of genetic libraries (and similar genome-derived preparations) can introduce many biases that interfere with obtaining accurate quantitative reads of the nucleic acid sequences of interest. For example, different nucleic acid sequences may have different amplification efficiencies during the nucleic acid amplification step that occurs during genetic library preparation or sample preparation.

異なる増幅効率に関連する問題は、本発明の特定の実施形態を使うことにより緩和できる。本発明は、定量化の正確度を改善するために使用できる増幅プロセス中の含有物基準の使用に関連する種々の方法と組成物を含む。本明細書で記載し、また、特に、米国特許第8,008,018号;同7,332,277号;国際公開第WO2012/078792A2号;同WO2011/146632A1号に記載されているように、本発明は、母系血液中の浮動性胎児DNAを分析することによる胎児の異数性の検出の領域で特に有用である。これらの特許は、参照によりその全体が本明細書に組み込まれる。また、本発明の実施形態は、インビトロ生成胚中の異数性の検出にも有用である。商業的に重要な検出可能な異数性には、ヒト染色体13、18、21、XおよびYの異数性が含まれる。 Problems associated with differing amplification efficiencies can be mitigated by using certain embodiments of the present invention. The present invention includes various methods and compositions related to the use of inclusion criteria during the amplification process that can be used to improve quantification accuracy. As described herein and, inter alia, in U.S. Pat. Nos. 8,008,018; 7,332,277; WO 2012/078792 A2; and WO 2011/146632 A1, the present invention is particularly useful in the area of fetal aneuploidy detection by analyzing free floating fetal DNA in maternal blood. These patents are incorporated herein by reference in their entirety. Embodiments of the present invention are also useful for detection of aneuploidy in in vitro generated embryos. Commercially important detectable aneuploidies include aneuploidies of human chromosomes 13, 18, 21, X, and Y.

本発明の実施形態は、ヒトまたは非ヒト核酸に対して使用でき、また、動物および植物由来核酸の両方に適用できる。また、本発明の実施形態を使って、欠失または挿入により特徴付けられる他の遺伝性障害に関連する対立遺伝子の検出、および/または定量化も可能である。欠失含有対立遺伝子が、対象対立遺伝子保持者と疑われる人から検出される場合がある。 Embodiments of the invention can be used with human or non-human nucleic acids and are applicable to both animal and plant derived nucleic acids. Embodiments of the invention can also be used to detect and/or quantitate alleles associated with other genetic disorders characterized by deletions or insertions. Deletion-containing alleles may be detected in individuals suspected of being carriers of the allele of interest.

本発明の一実施形態は、既知の量(相対的または絶対的)で存在する基準を含む。例えば、染色体8(遺伝子座Aを含む)は二倍体、および染色体21(遺伝子座Bを含む)は三倍体である遺伝源から作製される遺伝子ライブラリーを考える。遺伝子ライブラリーは、試料中に存在する染色体の数、例えば、200コピーの遺伝子座Aおよび300コピーの遺伝子座Bの関数となる量の配列を含む試料から生成できる。しかし、遺伝子座Aが遺伝子座Bよりはるかに高い効率で増幅される場合、PCR後には、60,000コピーのA増幅産物および30,000コピーのB増幅産物が存在する可能性があり、従って、高スループットDNAシークエンシング(または他の定量核酸検出技術)による分析の場合に、初期の真のゲノム試料の染色体コピー数を不明確にすることになる。この問題を軽減するために、遺伝子座Aに対する基準配列が採用され、この場合、基準配列は、実質的に遺伝子座Aと同じ効率で増幅される。同様に、遺伝子座Bの基準配列が形成され、この場合、基準配列は、遺伝子座Bと実質的に同じ効率で増幅される。PCR(または他の増幅技術)の前に遺伝子座Aの基準配列および遺伝子座Bの基準配列が混合物に加えられる。これらの基準配列は、相対量または絶対量としての既知の量で存在する。従って、同じ条件セット下で、基準配列Aと基準配列Bの1:1混合物が、前の例中の混合物に(増幅の前に)加えられた場合、3000コピーの基準A増幅産物が生成され、また、1000コピーの基準B増幅産物が生成され、遺伝子座Aは、遺伝子座Bより3倍効率的に増幅されることを示す。 One embodiment of the present invention includes standards present in known amounts (relative or absolute). For example, consider a genetic library made from a genetic source in which chromosome 8 (containing locus A) is diploid and chromosome 21 (containing locus B) is triploid. A genetic library can be generated from a sample containing sequences in amounts that are a function of the number of chromosomes present in the sample, e.g., 200 copies of locus A and 300 copies of locus B. However, if locus A is amplified much more efficiently than locus B, there may be 60,000 copies of A amplicon and 30,000 copies of B amplicon after PCR, thus obscuring the chromosome copy number of the initial true genomic sample when analyzed by high-throughput DNA sequencing (or other quantitative nucleic acid detection techniques). To alleviate this problem, a standard sequence for locus A is employed, where the standard sequence is amplified with substantially the same efficiency as locus A. Similarly, a standard sequence for locus B is formed, where the standard sequence is amplified with substantially the same efficiency as locus B. Prior to PCR (or other amplification technique), a reference sequence for locus A and a reference sequence for locus B are added to the mixture. These reference sequences are present in known amounts, either as relative or absolute amounts. Thus, under the same set of conditions, if a 1:1 mixture of reference sequence A and reference sequence B were added to the mixture in the previous example (prior to amplification), 3000 copies of reference A amplicon would be produced and 1000 copies of reference B amplicon would be produced, indicating that locus A is amplified 3 times more efficiently than locus B.

対象SNP(または他の多型)を含むゲノムの1つまたは複数の選択領域に対し、特異的増幅およびその後の配列決定ができる。この標的特異的増幅は、シークエンシング用の遺伝子ライブラリー形成中に行わせることができる。ライブラリーは、多くの標的増幅領域を含むことができる。いくつかの実施形態では、少なくとも10;100;500;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000の対象領域を含む。このようなライブラリーの例は、本明細書に記載され、また、2011年11月18日出願の米国特許公開第2012/0270212号で見出すことができる。この特許は、参照によりその全体が本明細書に組み込まれる。 One or more selected regions of the genome containing the SNPs (or other polymorphisms) of interest can be specifically amplified and subsequently sequenced. This target specific amplification can be performed during the formation of a genetic library for sequencing. The library can include many target amplified regions. In some embodiments, the library includes at least 10; 100; 500; 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 regions of interest. Examples of such libraries are described herein and can also be found in U.S. Patent Publication No. 2012/0270212, filed November 18, 2011, which is incorporated herein by reference in its entirety.

多くの高スループットDNAシークエンシング技術は、ライブラリー形成に出発遺伝物質の改変、例えば、ユニバーサルプライミング部位および/またはバーコードのライゲーションが必要で、それにより、その後のシークエンシング反応を行う前に小さい核酸フラグメントのクローン増幅を促進する。いくつかの実施形態では、遺伝子ライブラリー形成中に1個または複数個の基準配列が付加されるか、またはライブラリーの増幅の前に遺伝子ライブラリーの前駆成分に付加される。基準配列は、高スループット遺伝子シークエンシング技術によりシークエンシング用に調製される標的ゲノムフラグメントを模倣する(それでも、ヌクレオチド塩基配列に基づいて区別できる)ように選択できる。一実施形態では、基準配列は、1、2、3、4~10、または11~20個のヌクレオチドを除いて標的ゲノムフラグメントと同じであってもよい。いくつかの実施形態では、標的遺伝子配列がSNPを含む場合、基準配列は、多形塩基のヌクレオチド以外のSNPと同じであってもよく、天然の部位には観察されない4個のヌクレオチドの内の1個であるように選択できる。基準配列は、複数標的遺伝子座(例えば、多形遺伝子座)の高度多重化分析に使用できる。基準配列は、ライブラリー形成(増幅前)のプロセス中に(相対的または絶対的)既知の量で付加されて分析試料中の対象標的配列の量の決定に際し、より高い正確度のための基準メトリックを提供できる。以前に特徴が明らかにされた倍数性レベル、例えば、全常染色体が二倍体であるとわかっているゲノムから形成されたシークエンシング用倍数性レベルライブラリー形成の情報と共に、使用された既知の量の基準配列の情報の組み合わせを使って、それぞれの基準配列のそれに対応する標的配列に関する増幅特性を較正でき、また、複数基準配列を含むバッチ混合物間の変動を考慮に入れることができる。大量の遺伝子座を同時に分析することが必要となる場合が多いことを考慮すれば、多くの基準配列セットを含む混合物を生成することは有用である。本発明の実施形態には、複数基準配列を含む混合物が含まれる。混合物中のそれぞれの基準配列の量が高精度で分かっていることが理想的である。しかし、この理想の達成は極めて困難である。理由は、実際問題として、混合物中のそれぞれの基準配列の量、特に、多数の異なる合成オリゴヌクレオチドを含む混合物の基準配列の量に大きな変動があるためである。この変動には多くの発生源、例えば、インビトロオリゴヌクレオチド合成反効率のバッチ間変動、体積測定の不正確さ、ピペット操作の変動が挙げられる。さらに、この変動は、理論的に正確に同じ量の正確に同じ基準配列セットを含むバッチ間でも起こる場合がある。従って、それぞれの基準配列バッチを独立に較正することは有意義である。基準配列バッチは、既知の染色体組成の参照ゲノムに対し較正できる。基準配列バッチは、シークエンシングプロトコール中に含まれる増幅ステップを最小限にして、または増幅ステップ無しで、基準配列バッチをシークエンシングすることにより較正できる。本発明の実施形態は、較正された種々の基準配列の混合物を含む。他の本発明の実施形態は、異なる基準配列の混合物を較正する方法および本方法により作製された較正された異なる基準配列の混合物を含む。 Many high-throughput DNA sequencing techniques require modification of the starting genetic material for library formation, e.g., ligation of universal priming sites and/or barcodes, to facilitate clonal amplification of small nucleic acid fragments prior to subsequent sequencing reactions. In some embodiments, one or more reference sequences are added during genetic library formation or to precursor components of the genetic library prior to library amplification. The reference sequence can be selected to mimic (yet be distinguishable based on nucleotide base sequence) the target genomic fragments prepared for sequencing by the high-throughput genetic sequencing technique. In one embodiment, the reference sequence can be identical to the target genomic fragment except for 1, 2, 3, 4-10, or 11-20 nucleotides. In some embodiments, if the target genetic sequence contains a SNP, the reference sequence can be selected to be identical to the SNP except for the nucleotide of the polymorphic base, which is one of four nucleotides not observed at the natural site. The reference sequence can be used for highly multiplexed analysis of multiple target loci (e.g., polymorphic loci). The standard sequences can be added in known amounts (relative or absolute) during the process of library formation (pre-amplification) to provide a reference metric for greater accuracy in determining the amount of target sequences of interest in the analyzed sample. The combination of information on the known amount of standard sequences used, together with information on the previously characterized ploidy level, e.g., ploidy level library formation for sequencing formed from a genome where all autosomes are known to be diploid, can be used to calibrate the amplification characteristics of each standard sequence for its corresponding target sequence and can take into account the variation between batch mixtures containing multiple standard sequences. Given that it is often necessary to analyze a large number of loci simultaneously, it is useful to generate mixtures containing many sets of standard sequences. An embodiment of the present invention includes mixtures containing multiple standard sequences. Ideally, the amount of each standard sequence in the mixture would be known with high accuracy. However, this ideal is extremely difficult to achieve. This is because, in practice, there is a large variation in the amount of each standard sequence in a mixture, especially in the amount of standard sequences in a mixture containing a large number of different synthetic oligonucleotides. This variation can come from many sources, including batch-to-batch variation in in vitro oligonucleotide synthesis efficiency, volumetric inaccuracies, and pipetting variations. Moreover, this variation can occur even between batches that theoretically contain exactly the same set of standard sequences in exactly the same amounts. Therefore, it is meaningful to independently calibrate each batch of standard sequences. The batches of standard sequences can be calibrated against a reference genome of known chromosomal composition. The batches of standard sequences can be calibrated by sequencing the batches of standard sequences with minimal or no amplification steps included in the sequencing protocol. Embodiments of the invention include calibrated mixtures of different standard sequences. Other embodiments of the invention include methods of calibrating mixtures of different standard sequences and calibrated mixtures of different standard sequences produced by the methods.

対象基準配列混合物およびそれらの使用方法の種々の実施形態は、少なくとも10;100;500;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個以上の基準配列、ならびに、種々のこれらの中間の個数を含んでよい。基準配列の数は、DNAシークエンシング用標的ライブラリーの生成中に分析用に選択された標的配列の数と同じであってもよい。しかし、いくつかの実施形態では、構築されるライブラリー中の標的領域の数より少ない数の基準配列を使用するのが有利な場合がある。より少ない数を使って採用した高スループットDNAシーケンサーのシークエンシング能力の限界に達するのを避けるのが有利であろう。基準配列の数は、標的領域の数の50%以下、標的領域の数の40%以下、標的領域の数の30%以下、標的領域の数の20%以下、標的領域の数の10%以下、標的領域の数の5%以下、標的領域の数の1%以下、ならびに種々のこれらの中間の数であってよい。例えば、遺伝子ライブラリーが特異的SNP含有遺伝子座を標的とする15,000対のプライマーを使って作製される場合、15,000個の標的遺伝子座の内の1500個に対応する1500個の基準配列を含む適切な混合物を、ライブラリー構築の増幅ステップの前に添加できる。 Various embodiments of the target reference sequence mixture and their methods of use may include at least 10; 100; 500; 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 or more reference sequences, as well as various intermediate numbers. The number of reference sequences may be the same as the number of target sequences selected for analysis during the generation of the target library for DNA sequencing. However, in some embodiments, it may be advantageous to use a number of reference sequences that is less than the number of target regions in the library to be constructed. It may be advantageous to use a smaller number to avoid reaching the limits of the sequencing capacity of the high-throughput DNA sequencer employed. The number of standard sequences may be 50% or less of the number of target regions, 40% or less of the number of target regions, 30% or less of the number of target regions, 20% or less of the number of target regions, 10% or less of the number of target regions, 5% or less of the number of target regions, 1% or less of the number of target regions, as well as various intermediate numbers. For example, if a gene library is created using 15,000 pairs of primers targeting specific SNP-containing loci, an appropriate mixture containing 1500 standard sequences corresponding to 1500 of the 15,000 target loci can be added prior to the amplification step of library construction.

ライブラリー構築中に添加される基準配列の量は、個別実施形態間で大きく変化してもよい。いくつかの実施形態では、それぞれの基準配列の量は、ライブラリー調製に使用されるゲノム物質試料中に存在する標的配列の予測量とほぼ同じであってよい。他の実施形態では、それぞれの基準配列の量は、ライブラリー調製に使用されるゲノム物質試料中に存在する標的配列の予測量よりも多くても、または少なくてもよい。標的配列および基準配列の初期の相対量は、本発明の目的にとって重大なものではないが、ライブラリー調製に使用されるゲノム物質試料中に存在する標的配列の量より100倍多い量から100倍少ない量の範囲であるのが好ましい。過剰な量の基準配列は、装置の定められた操作回数でDNAシーケンサーのシークエンシング能力の多くを使い過ぎる可能性がある。あまりに少ない量の基準配列を使用した場合は、増幅効率の変動の分析に役立たせるにしては不充分なデータになるであろう。 The amount of standard sequence added during library construction may vary widely between individual embodiments. In some embodiments, the amount of each standard sequence may be approximately the same as the predicted amount of the target sequence present in the genomic material sample used for library preparation. In other embodiments, the amount of each standard sequence may be greater or less than the predicted amount of the target sequence present in the genomic material sample used for library preparation. The initial relative amounts of target and standard sequences are not critical for purposes of the present invention, but are preferably in the range of 100-fold greater to 100-fold less than the amount of the target sequence present in the genomic material sample used for library preparation. Excessive amounts of standard sequences may use too much of the sequencing capacity of the DNA sequencer for a given number of runs of the instrument. Using too little standard sequence will result in insufficient data to be useful in analyzing variations in amplification efficiency.

基準配列は、増幅される対象領域に極めて類似したヌクレオチド塩基配列となるように選択でき、好ましくは、基準配列は、分析されるゲノム領域、すなわち、「標的配列」と正確に同じプライマー結合部位を有する。基準配列は、所与の遺伝子座の対応する標的配列とは区別できる必要がある。便宜上、この区別可能な基準配列の領域を「マーカー配列」と呼ぶ。いくつかの実施形態では、標的配列のマーカー配列領域は、多形領域、例えば、SNPを含み、プライマー結合領域が両側の位置に配置されていてもよい。基準配列は、対応する標的配列のGC含量に厳密に適合するように選択できる。いくつかの実施形態では、基準配列のプライマー結合領域は、ユニバーサルプライミング部位により両脇を挟まれている。これらのユニバーサルプライミング部位は、分析用ゲノムライブラリー中で使われるユニバーサルプライミング部位に適合するように選択される。他の実施形態では、基準配列は、ユニバーサルプライミング部位が無く、ユニバーサルプライミング部位は、ライブラリー形成中に付加される。基準配列は、通常、一本鎖型で提供される。基準配列は、対応する標的配列に対して定義され、配列特異的試薬を使用して標的配列が増幅される。いくつかの実施形態では、標的配列は、分析用の核酸試料中に存在する対象多型、例えば、SNP、欠失、または挿入を含む。基準配列は、ヌクレオチド塩基配列が標的配列と類似であるが、それでも、少なくとも1個のヌクレオチド塩基の差異のために標的配列とは区別でき、それにより、基準配列由来の増幅産物配列を、標的配列由来の増幅産物配列とは区別する機構を与える合成ポリヌクレオチドである。基準配列は、同じセットの増幅試薬、例えば、PCRプライマーと共に増幅される場合、対応する標的配列と実質的に同じ増幅特性を有するように選択される。いくつかの実施形態では、基準配列は、対応する標的配列と同じプライマー配列結合部位を有することができる。他の実施形態では、基準配列は、対応する標的配列とは異なるプライマー配列結合部位を持つことができる。いくつかの実施形態では、基準配列は、対応する標的配列由来の増幅産物の長さと同じ長さの増幅産物を生成するように選択できる。他の実施形態では、基準配列は、対応する標的配列由来の増幅産物の長さよりわずかに異なる長さの増幅産物を生成するように選択できる。 The reference sequence can be selected to be a nucleotide base sequence closely similar to the region of interest to be amplified, and preferably the reference sequence has exactly the same primer binding sites as the genomic region to be analyzed, i.e., the "target sequence". The reference sequence must be distinguishable from the corresponding target sequence at a given locus. For convenience, this distinguishable region of the reference sequence is called the "marker sequence". In some embodiments, the marker sequence region of the target sequence contains a polymorphic region, e.g., a SNP, and may have primer binding regions located at both sides. The reference sequence can be selected to closely match the GC content of the corresponding target sequence. In some embodiments, the primer binding regions of the reference sequence are flanked on both sides by universal priming sites. These universal priming sites are selected to match the universal priming sites used in the genomic library to be analyzed. In other embodiments, the reference sequence is free of universal priming sites, and universal priming sites are added during library formation. The reference sequence is usually provided in single-stranded form. The reference sequence is defined relative to the corresponding target sequence, and the target sequence is amplified using sequence-specific reagents. In some embodiments, the target sequence includes a polymorphism of interest, e.g., a SNP, deletion, or insertion, present in the nucleic acid sample for analysis. The reference sequence is a synthetic polynucleotide that is similar in nucleotide base sequence to the target sequence, but is still distinguishable from the target sequence due to at least one nucleotide base difference, thereby providing a mechanism for distinguishing an amplified product sequence derived from the reference sequence from an amplified product sequence derived from the target sequence. The reference sequence is selected to have substantially the same amplification characteristics as the corresponding target sequence when amplified with the same set of amplification reagents, e.g., PCR primers. In some embodiments, the reference sequence can have the same primer sequence binding site as the corresponding target sequence. In other embodiments, the reference sequence can have a different primer sequence binding site than the corresponding target sequence. In some embodiments, the reference sequence can be selected to generate an amplified product of the same length as the amplified product from the corresponding target sequence. In other embodiments, the reference sequence can be selected to generate an amplified product of a slightly different length than the amplified product from the corresponding target sequence.

増幅反応が完了後、ライブラリーは、高スループットDNAシーケンサーで配列決定されるが、この場合、個別分子をクローン増幅して配列決定される。標的配列のそれぞれの対立遺伝子のシーケンスリード数が計数され、また、同様に、標的配列に対応する基準配列のシーケンスリード数も計数される。また、このプロセスは、少なくとももう一対の標的配列と対応する基準配列に対しても同様に行われる。例えば、遺伝子座Aに関し、遺伝子座Aの対立遺伝子1に対しXA1リード、遺伝子座Aの対立遺伝子2に対しXA2リードが生成され、基準配列Aに対しXACリードが生成されたとする。それぞれの対象遺伝子座に対し、XACに対する(XA1プラスXA2)の比率が決定される。前に考察のように、このプロセスは、参照ゲノム、例えば、全染色体が二倍体であるとわかっているゲノムで行うことができる。このプロセスは、多くの数のリード値を得て平均リード数およびリード数の標準偏差を測定するために多数回反復できる。このプロセスは、異なる遺伝子座に対応する多数の異なる基準配列を含む混合物で行われる。(1)XA1プラスXA2が、既知の数の染色体、例えば、通常のヒトの女性ゲノムに対しては2に対応すること、および(2)基準配列が、それらの対応する天然遺伝子座と類似の増幅(および検出)特性を有することを仮定することにより、多重基準混合物中の相対量の異なる基準配列が決定できる。その後、較正された多重基準配列混合物を使って、多重増幅反応における異なる遺伝子座間の増幅効率の変動を調節できる。 After the amplification reaction is completed, the library is sequenced on a high-throughput DNA sequencer, where individual molecules are clonally amplified and sequenced. The number of sequence reads for each allele of the target sequence is counted, as well as the number of sequence reads for the reference sequence corresponding to the target sequence. This process is also performed for at least another pair of target sequences and corresponding reference sequences. For example, for locus A, an X A1 read is generated for allele 1 of locus A, an X A2 read is generated for allele 2 of locus A, and an X AC read is generated for reference sequence A. For each locus of interest, the ratio of (X A1 plus X A2 ) to X AC is determined. As discussed previously, this process can be performed on a reference genome, for example, a genome in which all chromosomes are known to be diploid. This process can be repeated multiple times to obtain a large number of read values and measure the average number of reads and the standard deviation of the number of reads. This process is performed on a mixture containing many different reference sequences corresponding to different loci. The relative amounts of different standard sequences in a multiplex standard mixture can be determined by assuming (1) that X A1 plus X A2 corresponds to a known number of chromosomes, e.g., 2 for a normal human female genome, and (2) that the standard sequences have similar amplification (and detection) properties as their corresponding native loci. The calibrated multiplex standard sequence mixture can then be used to adjust for variations in amplification efficiency between different loci in a multiplex amplification reaction.

他の本発明の実施形態は、複製およびシークエンシングによる定量化と干渉する可能性のある大きな欠失が特徴の変異体遺伝子などの対象特異的遺伝子のコピー数を測定する方法と組成物を含む。シークエンシングでは、このような欠失を有する対立遺伝子の検出が難しい場合がある。基準配列を含む増幅プロセスを使用して、この問題を低減できる。 Other embodiments of the invention include methods and compositions for measuring copy number of a specific gene of interest, such as a mutant gene characterized by large deletions that can interfere with duplication and quantification by sequencing. Sequencing can have difficulty detecting alleles with such deletions. An amplification process that includes a reference sequence can be used to reduce this problem.

本発明の一実施形態では、分析用標的配列は、野性型(すなわち、機能型)および欠失が特徴の変異型の遺伝子である。代表的なこのような遺伝子は、遺伝疾患の脊髄性筋萎縮症(SMA)の原因である欠失を有する対立遺伝子のSMN1である。高スループット遺伝子シークエンシング技術によって変異型の遺伝子を保持する個人を検出することは有意義である。特に、シークエンシング中に配列の欠如が観察される(単純点変異またはSNPの検出とは対照的に)という理由で、欠失変異の検出へのこのような技術の応用は、問題がある場合がある。このような実施形態では、(1)対象の遺伝子(またはその一部)を増幅し、変異対立遺伝子を大きくは増幅しない、対象の遺伝子に特異的な一対の増幅プライマー、(2)対象の遺伝子(すなわち、標的配列)の野性型対立遺伝子に対応するが、少なくとも1個の検出可能ヌクレオチド塩基が異なる基準配列、(3)参照配列として機能する第2の標的配列に特異的な一対の増幅プライマー、および(4)参照配列に対応する基準配列、を用いる。 In one embodiment of the present invention, the target sequences for analysis are wild type (i.e., functional) and mutant forms of a gene characterized by a deletion. A representative such gene is SMN1, an allele with a deletion that is responsible for the genetic disease spinal muscular atrophy (SMA). It is worthwhile to detect individuals carrying mutant forms of the gene by high-throughput gene sequencing techniques. The application of such techniques to the detection of deletion mutations can be problematic, especially because of the lack of sequence observed during sequencing (as opposed to the detection of simple point mutations or SNPs). In such an embodiment, (1) a pair of amplification primers specific to the gene of interest that amplifies the gene of interest (or a portion thereof) and does not significantly amplify the mutant allele, (2) a reference sequence that corresponds to the wild type allele of the gene of interest (i.e., the target sequence) but differs by at least one detectable nucleotide base, (3) a pair of amplification primers specific to a second target sequence that serves as a reference sequence, and (4) a reference sequence that corresponds to the reference sequence.

本発明の一実施形態では、対象の遺伝子のコピー数を測定する方法が提供され、対象の遺伝子は、欠失を含む1個の意図的対立遺伝子を有する。前記方法は、対象の遺伝子の欠失含有対立遺伝子を増幅しないで、少なくとも対象の遺伝子の一部、もしくは対象の全遺伝子、または対象の遺伝子に隣接する領域を増幅する点で対象の遺伝子に特異的な増幅試薬、例えば、PCRプライマーを採用できる。さらに、本方法は、対象の遺伝子に対応する基準配列を採用し、この場合、基準配列は、少なくとも1個のヌクレオチド塩基分だけ対象の遺伝子とは異なる(基準配列の配列が、対象の天然の遺伝子とは容易に区別できるように)。通常、基準配列は、対象の遺伝子と同じプライマー結合部位を含み、それにより、対象の遺伝子と、対象の遺伝子に対応する基準配列との間の全ての増幅時の差異を最小化する。また、反応は、参照配列に特異的な増幅試薬も含む。参照配列は、分析されるゲノム中の既知の(または少なくとも既知であると想定される)コピー数の配列である。反応は、参照配列に対応する基準配列をさらに含む。通常、参照配列に対応する基準配列は、参照配列と同じプライマー結合部位を含み、それにより、参照配列と、参照配列に対応する基準配列との間の全ての増幅時の差異を最小化する。 In one embodiment of the present invention, a method is provided for determining the copy number of a gene of interest, the gene of interest having one intended allele that contains a deletion. The method can employ amplification reagents, e.g., PCR primers, that are specific to the gene of interest in that they do not amplify the deletion-containing allele of the gene of interest, but rather amplify at least a portion of the gene of interest, or the entire gene of interest, or a region adjacent to the gene of interest. Additionally, the method employs a reference sequence corresponding to the gene of interest, where the reference sequence differs from the gene of interest by at least one nucleotide base (so that the sequence of the reference sequence is easily distinguishable from the native gene of interest). Typically, the reference sequence contains the same primer binding sites as the gene of interest, thereby minimizing any amplification differences between the gene of interest and the reference sequence corresponding to the gene of interest. The reaction also includes amplification reagents specific to the reference sequence. The reference sequence is a sequence of known (or at least assumed to be known) copy number in the genome being analyzed. The reaction further includes a reference sequence corresponding to the reference sequence. Typically, a standard sequence that corresponds to a reference sequence contains the same primer binding sites as the reference sequence, thereby minimizing any amplification differences between the reference sequence and the standard sequence that corresponds to the reference sequence.

代表的核酸試料
いくつかの実施形態では、遺伝子試料を調製し、かつ/または精製することができる。そのような目的を実現するための当技術分野で公知のいくつもの標準の手順がある。いくつかの実施形態では、試料を遠心分離して、種々の層に分離することができる。いくつかの実施形態では、濾過を用いてDNAを単離することができる。いくつかの実施形態では、DNAの調製は、増幅、分離、クロマトグラフィーによる精製、液液分離、単離、優先的な富化、優先的な増幅、標的化増幅または当技術分野で公知であるか、または本明細書に記載されているいくつもの他の技法のいずれかを伴ってよい。
Representative Nucleic Acid Samples In some embodiments, a genetic sample can be prepared and/or purified. There are a number of standard procedures known in the art to accomplish such a goal. In some embodiments, the sample can be centrifuged to separate the various layers. In some embodiments, filtration can be used to isolate the DNA. In some embodiments, preparation of the DNA can involve amplification, separation, chromatographic purification, liquid-liquid separation, isolation, preferential enrichment, preferential amplification, targeted amplification, or any of a number of other techniques known in the art or described herein.

いくつかの実施形態では、本明細書に開示されている方法は、存在するDNAが非常に少量である状況において、例えば、インビトロでの受精または、1つまたは少数の細胞(一般には、細胞10個未満、細胞20個未満または細胞40個未満)が利用可能である法医学的な状況において用いることができる。これらの実施形態では、本明細書に開示されている方法は、他のDNAが混入していないが、DNAが少量であるので倍数性コールが非常に難しい場合に少量のDNAから倍数性コールを行うために役立つ。いくつかの実施形態では、本明細書に開示されている方法は、標的DNAに別の個体のDNAが混入している状況において、例えば、出生前診断、父子試験との関連における母系の血液または受胎検査の産物において用いることができる。これらの方法が特に有利になるいくつかの他の状況は、より大量の正常な細胞の中でただ1つまたは少数の細胞が存在するがん検査の場合である。これらの方法の一部として用いる遺伝子測定は、DNAまたはRNAを含む任意の試料、例えば、これらに限定されないが血液、血漿、体液、尿、毛髪、涙、唾液、組織、皮膚、指の爪、割球、胚、羊水、絨毛膜絨毛試料、糞便、胆汁、リンパ液、頸管粘液、精液または核酸を含む他の細胞または材料に対して行うことができる。ある実施形態では、本明細書に開示されている方法は、核酸検出方法、例えば、配列決定、マイクロアレイ、qPCR、デジタルPCRまたは核酸を測定するために用いられる他の方法と一緒に実行することができる。何らかの理由で望ましいことが見いだされた場合、遺伝子座における対立遺伝子数の確率の比を算出することができ、対立遺伝子の比を、本明細書に記載の方法のいくつかと、それらの方法に適合性がある限りにおいて組み合わせて用いて倍数性状態を決定することができる。いくつかの実施形態では、本明細書に開示されている方法は、加工された試料に対して行ったDNA測定から、複数の多型遺伝子座における対立遺伝子の比をコンピュータで算出するステップを包含する。いくつかの実施形態では、本明細書に開示されている方法は、本開示に記載の他の改善の任意の組み合わせと一緒に、加工された試料に対して行ったDNA測定から、複数の多型遺伝子座における対立遺伝子の比をコンピュータで算出するステップを包含する。 In some embodiments, the methods disclosed herein can be used in situations where there is very little DNA present, such as in in vitro fertilization or forensic situations where one or a few cells (typically less than 10 cells, less than 20 cells, or less than 40 cells) are available. In these embodiments, the methods disclosed herein are useful for making ploidy calls from small amounts of DNA where there is no other DNA contamination, but the small amount of DNA makes ploidy calls very difficult. In some embodiments, the methods disclosed herein can be used in situations where the target DNA is contaminated with the DNA of another individual, such as in maternal blood in the context of prenatal testing, paternity testing, or products of conception testing. Some other situations where these methods are particularly advantageous are in the case of cancer testing where only one or a few cells are present among a much larger amount of normal cells. The genetic measurements used as part of these methods can be performed on any sample containing DNA or RNA, including but not limited to blood, plasma, bodily fluids, urine, hair, tears, saliva, tissue, skin, fingernails, blastomeres, embryos, amniotic fluid, chorionic villus samples, feces, bile, lymph, cervical mucus, semen, or other cells or materials containing nucleic acids. In an embodiment, the methods disclosed herein can be performed together with a nucleic acid detection method, such as sequencing, microarray, qPCR, digital PCR, or other methods used to measure nucleic acids. If found desirable for any reason, the ratio of allele count probabilities at loci can be calculated, and the allele ratios can be used in combination with some of the methods described herein to determine ploidy state, as long as the methods are compatible. In some embodiments, the methods disclosed herein include a step of calculating the allele ratios at multiple polymorphic loci by computer from DNA measurements performed on the processed sample. In some embodiments, the methods disclosed herein, together with any combination of other improvements described in this disclosure, include a step of calculating by a computer allele ratio at a plurality of polymorphic loci from DNA measurements made on the processed sample.

いくつかの実施形態では、この方法を用いて、単一細胞、少数の細胞、2~5個の細胞、6~10個の細胞、10~20個の細胞、20~50個の細胞、50~100個の細胞、100~1,000個の細胞または少量、例えば、1~10ピコグラム、10~100ピコグラム、100ピコグラム~1ナノグラム、1~10ナノグラム、10~100ナノグラムまたは100ナノグラム~1マイクログラムの細胞外DNAについて遺伝子型決定することができる。 In some embodiments, the method can be used to genotype a single cell, a small number of cells, 2-5 cells, 6-10 cells, 10-20 cells, 20-50 cells, 50-100 cells, 100-1,000 cells, or small amounts, e.g., 1-10 picograms, 10-100 picograms, 100 picograms to 1 nanogram, 1-10 nanograms, 10-100 nanograms, or 100 nanograms to 1 microgram of extracellular DNA.

代表的RNA発現調査
本発明の多重PCR法を使って、遺伝子発現プロファイリング実験中に評価できる標的遺伝子座の数を増やすことができる。例えば、数千の遺伝子の発現レベルを同時にモニターして、疾患(例えば、癌)または疾患の危険性の増加に関連する配列(例えば、多型または他の変異)を有するかどうかを判定できる。これらの方法を使って、患者由来の試料中の遺伝子発現(例えば、特定のmRNA対立遺伝子の発現)を疾患の有無と比較することにより、疾患、例えば、癌の危険性の増加または減少に関する配列(例えば、多型または他の変異)を特定できる。さらに、特定の治療、疾患、または発育段階が遺伝子発現に与える影響を決定できる。同様に、これらの方法を使って、感染および非感染細胞または組織中の遺伝子発現を比較することにより、病原体または他の生物に反応してどの遺伝子の発現が変化したかを特定できる。これらの方法では、シークエンシングリード数は、検出されるべき多型に対し十分なリードが実行されるように、その多型の頻度に基づいて調節できる(分析される多型が存在する場合)。
Exemplary RNA Expression Surveys The multiplex PCR methods of the present invention can be used to increase the number of target loci that can be evaluated during gene expression profiling experiments. For example, the expression levels of thousands of genes can be monitored simultaneously to determine whether they have sequences (e.g., polymorphisms or other mutations) associated with disease (e.g., cancer) or increased risk of disease. These methods can be used to identify sequences (e.g., polymorphisms or other mutations) that are associated with increased or decreased risk of disease, e.g., cancer, by comparing gene expression (e.g., expression of specific mRNA alleles) in samples from patients with or without disease. In addition, the effect of a particular treatment, disease, or developmental stage on gene expression can be determined. Similarly, these methods can be used to identify which genes have changed expression in response to a pathogen or other organism by comparing gene expression in infected and uninfected cells or tissues. In these methods, the number of sequencing reads can be adjusted based on the frequency of the polymorphism to be detected (if the polymorphism being analyzed is present) so that sufficient reads are performed for the polymorphism to be detected.

いくつかの実施形態では、RNA(例えば、mRNA)を含む試料は、逆転写酵素(RT)を使って増幅され、得られたDNA(例えば、cDNA)は、その後、DNAポリメラーゼ(PCR)を使って増幅される。RTとPCRステップは、同じ反応体積中でまたは別々に、順次行うことができる。本発明のプライマーライブラリーのいずれかを、このリバース転写ポリメラーゼ連鎖反応(RT-PCR)法で使用できる。種々の実施形態では、リバース転写は、オリゴdT、ランダムプライマー、オリゴdTとランダムプライマーの混合物、または標的遺伝子座特異的プライマーを使って行うことができる。混入ゲノムDNAの増幅を避けるために、RT-PCR用のプライマーは、1個のプライマーの一部が、1個のエキソンの3’末端にハイブリダイズし、他のプライマーの一部が隣接エキソンの5’末端にハイブリダイズするように設計できる。このようなプライマーは、スプライスされたmRNAから合成されたcDNAにアニールするが、ゲノムDNAにはアニールしない。混入DNAの増幅を検出するために、RT-PCRプライマー対を、少なくとも1個のイントロンを含む領域の側に配置されるように設計できる。cDNA(イントロン不含)から増幅された産物は、ゲノムDNA(イントロン含有)から増幅されたものより小さい。産物のサイズ差を使って混入DNAの存在が検出される。いくつかの実施形態では、mRNA配列のみが既知である場合、少なくとも300~400塩基対離れているプライマーアニーリング部位が選択される。理由は、真核生物DNA由来のこのサイズのフラグメントは、スプライスジャンクションを含む可能性があるためである。あるいは、試料をDNA分解酵素で処理して混入DNAを分解できる。 In some embodiments, a sample containing RNA (e.g., mRNA) is amplified using reverse transcriptase (RT) and the resulting DNA (e.g., cDNA) is then amplified using DNA polymerase (PCR). The RT and PCR steps can be performed sequentially in the same reaction volume or separately. Any of the primer libraries of the present invention can be used in this reverse transcription polymerase chain reaction (RT-PCR) method. In various embodiments, reverse transcription can be performed using oligo-dT, random primers, a mixture of oligo-dT and random primers, or target locus-specific primers. To avoid amplification of contaminating genomic DNA, primers for RT-PCR can be designed such that a portion of one primer hybridizes to the 3' end of one exon and a portion of the other primer hybridizes to the 5' end of the adjacent exon. Such primers anneal to cDNA synthesized from spliced mRNA but not to genomic DNA. To detect amplification of contaminating DNA, RT-PCR primer pairs can be designed to flank a region that contains at least one intron. Products amplified from cDNA (without introns) are smaller than those amplified from genomic DNA (with introns). The size difference in the products is used to detect the presence of contaminating DNA. In some embodiments, when only the mRNA sequence is known, primer annealing sites are selected that are at least 300-400 base pairs apart, since fragments of this size from eukaryotic DNA are likely to contain splice junctions. Alternatively, the sample can be treated with DNase to degrade contaminating DNA.

代表的父子鑑定方法
非常に多くの標的遺伝子座を一度に分析できるために、(例えば、2011年12月22日出願の米国特許公開第2012/0122701号を参照。この特許は、参照によりその全体が本明細書に組み込まれる)本発明の多重PCR法を使って父子鑑定の正確度を改善できる。例えば、多重PCR法は、数千の多形遺伝子座(例えば、SNP)を本明細書記載のPARENTAL SUPPORTアルゴリズム中で使用するために分析して父親とされる人が胎児の生物学上の父親であるかどうかを判定することを可能とする。いくつかの実施形態では、前記方法は、(i)父親とされる人由来の遺伝物質上の少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座を含む複数の多形遺伝子座を同時に増幅して第1の増幅産物集合を生成するステップと、(ii)妊娠中の母親の血液試料由来の胎児DNAおよび母系DNAを含む混合DNA試料の対応する複数の多形遺伝子座を同時に増幅して第2の増幅産物集合を生成するステップと、(iii)第1および第2の増幅産物集合に基づく遺伝子型測定値を使って父親とされる人が胎児の生物学上の父親である確率をコンピュータで算出するステップと、(iv)父親とされる人が胎児の生物学上の父親であることに関する算出された確率を使って父親とされる人が胎児の生物学上の父親かどうかを確定するステップとを含む。種々の実施形態では、前記方法は、母親由来の遺伝物質上の対応する複数の多形遺伝子座を同時に増幅して第3の増幅産物集合を生成するステップをさらに含み、この場合、第1、第2、および第3の増幅産物集合に基づく遺伝子型測定値を使って父親とされる人が胎児の生物学上の父親である確率が算出される。
Exemplary Paternity Testing Methods The accuracy of paternity testing can be improved using the multiplex PCR methods of the present invention because a large number of target loci can be analyzed at once (see, e.g., U.S. Patent Publication No. 2012/0122701, filed December 22, 2011, which is incorporated herein by reference in its entirety). For example, multiplex PCR methods allow thousands of polymorphic loci (e.g., SNPs) to be analyzed for use in the PARENTAL SUPPORT algorithm described herein to determine whether an alleged father is the biological father of a fetus. In some embodiments, the method includes the steps of: (i) simultaneously amplifying a plurality of polymorphic loci, including at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different polymorphic loci, on genetic material from the alleged father to generate a first set of amplified products; (ii) simultaneously amplifying a corresponding plurality of polymorphic loci of a mixed DNA sample, including fetal DNA and maternal DNA, from a blood sample of the pregnant mother to generate a second set of amplified products; (iii) calculating on a computer a probability that the alleged father is the biological father of the fetus using genotypic measurements based on the first and second sets of amplified products; and (iv) establishing whether the alleged father is the biological father of the fetus using the calculated probability that the alleged father is the biological father of the fetus. In various embodiments, the method further comprises simultaneously amplifying corresponding polymorphic loci on the genetic material from the mother to generate a third set of amplified products, where genotype measurements based on the first, second, and third sets of amplified products are used to calculate the probability that the alleged father is the biological father of the fetus.

代表的胚キャラクタリゼーションおよび選択方法
本発明の多重PCR法を使って数千の標的遺伝子座を一度に分析可能とすることにより、インビトロ受精用の胚の選択を改善できる(例えば、2008年5月27日出願、2011年12月22日出願の米国特許公開第2011/0092763号を参照。この特許は、参照によりその全体が本明細書に組み込まれる)。例えば、多重PCR法は、本明細書で記載のPARENTAL SUPPORTアルゴリズムで使用するための数千の多形遺伝子座(例えば、SNP)を分析可能として、胚の集合からインビトロ受精用の胚の選択を行うことができる。
Exemplary Embryo Characterization and Selection Methods The multiplex PCR methods of the present invention can be used to improve the selection of embryos for in vitro fertilization by allowing thousands of target loci to be analyzed at once (see, e.g., U.S. Patent Publication No. 2011/0092763, filed May 27, 2008, and filed December 22, 2011, which is incorporated by reference in its entirety). For example, the multiplex PCR methods can allow the analysis of thousands of polymorphic loci (e.g., SNPs) for use in the PARENTAL SUPPORT algorithm described herein to select embryos for in vitro fertilization from a collection of embryos.

いくつかの実施形態では、本発明は、胚集合由来のそれぞれの胚を所望の通り発生させる相対的尤度を推定する方法を提供する。いくつかの実施形態では、前記方法は、それぞれの胚由来の試料を、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズするプライマーライブラリーと接触させてそれぞれの胚の混合物を生成するステップを含み、試料は、それぞれ、胚由来の1個または複数個の細胞から得られる。いくつかの実施形態では、それぞれの反応混合物は、プライマー伸長反応条件に供されて増幅産物を生成する。いくつかの実施形態では、前記方法は、コンピュータでそれぞれの胚由来の少なくとも1個の細胞の1つまたは複数の特性を増幅産物に基づいて決定するステップと、それぞれの胚を所望の通り発生させる相対的尤度をそれぞれの胚に対する少なくとも1個の細胞の1つまたは複数の特性に基づいてコンピュータで推定するステップとを含む。いくつかの実施形態では、前記方法は、インフォマティクスベースの方法を使用して少なくとも1つの特性、例えば、本明細書で記載のPARENTAL SUPPORTアルゴリズムを決定するステップを含む。いくつかの実施形態では、特性は、倍数性状態を含む。いくつかの実施形態では、特性は、異数体、正倍数体、モザイク、零染色体性、モノソミー、片親ダイソミー、トリソミー、テトラソミー、異数性のタイプ、不一致コピーエラートリソミー、一致コピーエラートリソミー、母体起源の異数性、父系起源の異数性、疾患連鎖遺伝子の存在の有無、全ての正倍数体染色体の染色体同一性、異常遺伝子状態、欠失または複製、特性の尤度、およびこれらの組み合わせからなる群より選択される。特性は、染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、染色体16、染色体17、染色体18、染色体19、染色体20、染色体21、染色体22、X染色体またはY染色体、およびこれらの組み合わせ、からなる群より選択される染色体に関連するものであってよい。 In some embodiments, the invention provides a method for estimating the relative likelihood of each embryo from a set of embryos to develop as desired. In some embodiments, the method includes contacting a sample from each embryo with a library of primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci to generate a mixture of each embryo, each sample being obtained from one or more cells from the embryo. In some embodiments, each reaction mixture is subjected to primer extension reaction conditions to generate an amplification product. In some embodiments, the method includes determining in a computer one or more characteristics of at least one cell from each embryo based on the amplification product, and estimating in a computer the relative likelihood of each embryo to develop as desired based on the one or more characteristics of the at least one cell for each embryo. In some embodiments, the method includes determining at least one trait using an informatics-based method, such as the PARENTAL SUPPORT algorithm described herein. In some embodiments, the trait includes a ploidy state. In some embodiments, the trait is selected from the group consisting of aneuploid, euploid, mosaic, nullisomy, monosomy, uniparental disomy, trisomy, tetrasomy, type of aneuploidy, unmatched copy error trisomy, matched copy error trisomy, aneuploidy of maternal origin, aneuploidy of paternal origin, presence or absence of disease-linked genes, chromosomal identity of all euploid chromosomes, abnormal gene state, deletion or duplication, likelihood of trait, and combinations thereof. The trait may be associated with a chromosome selected from the group consisting of chromosome 1, chromosome 2, chromosome 3, chromosome 4, chromosome 5, chromosome 6, chromosome 7, chromosome 8, chromosome 9, chromosome 10, chromosome 11, chromosome 12, chromosome 13, chromosome 14, chromosome 15, chromosome 16, chromosome 17, chromosome 18, chromosome 19, chromosome 20, chromosome 21, chromosome 22, the X chromosome, or the Y chromosome, and combinations thereof.

代表的出生前診断法
本発明の多重PCR法を使用して、胎児染色体の倍数性状態の判定などの出生前診断法を改善できる。同時に増幅される多数の標的遺伝子座を考慮すれば、より正確な判定を行うことが可能である。
Exemplary Prenatal Diagnostic Methods The multiplex PCR methods of the present invention can be used to improve prenatal diagnostic methods, such as determining the ploidy status of fetal chromosomes. More accurate determinations can be made given the large number of target loci that are simultaneously amplified.

ある実施形態では、本開示は、DNAの混合試料(すなわち、胎児の母親由来のDNA、および胎児由来のDNA)から測定された遺伝子型データから、および必要に応じて、母親由来の遺伝物質および場合によっては同様に父親由来の遺伝物質の試料から測定された遺伝子型データから、妊娠中の胎児における染色体の倍数性状態を決定するためのエクスビボ方法であって、前記決定を、同時分布モデルを用い、親の遺伝子型データを考慮して、胎児における可能性のある異なる倍数性状態についての予測される対立遺伝子分布の集合を作製し、予測される対立遺伝子分布と、混合試料において測定された実際の対立遺伝子分布とを比較し、予測される対立遺伝子分布パターンが観察された対立遺伝子分布パターンと最も厳密に一致する倍数性状態を選択することによって行う方法を提供する。ある実施形態では、混合試料は、母系の血液または母系の血清もしくは血漿に由来する。ある実施形態では、DNAの混合試料を、標的遺伝子座(例えば、複数の多型遺伝子座)で優先的に富化することができる。ある実施形態では、優先的な富化は、対立遺伝子の偏りが最小限になるように行う。ある実施形態では、本開示は、複数の遺伝子座において対立遺伝子の偏りが少なくなるように優先的に富化されたDNAの組成に関する。ある実施形態では、対立遺伝子分布(複数可)を、混合試料由来のDNAについてシークエンシングによって測定する。ある実施形態では、同時分布モデルにより、対立遺伝子が二項様式で分布することが仮定される。ある実施形態では、種々の供給源からの現存の組換え頻度を考慮して、例えば、International HapMap Consortiumからのデータを使用して、遺伝的に連鎖している遺伝子座について予測同時対立遺伝子分布の集合を作製する。 In an embodiment, the disclosure provides an ex vivo method for determining the ploidy state of chromosomes in a gestating fetus from genotype data measured from a mixed sample of DNA (i.e., DNA from the fetus's mother and DNA from the fetus) and, optionally, from samples of genetic material from the mother and, optionally, from genetic material from the father as well, by using a joint distribution model to generate a set of predicted allele distributions for different possible ploidy states in the fetus, taking into account the genotype data of the parents, comparing the predicted allele distributions with the actual allele distributions measured in the mixed sample, and selecting the ploidy state whose predicted allele distribution pattern most closely matches the observed allele distribution pattern. In an embodiment, the mixed sample is derived from maternal blood or maternal serum or plasma. In an embodiment, the mixed sample of DNA can be preferentially enriched at target loci (e.g., multiple polymorphic loci). In an embodiment, the preferential enrichment is performed such that allele bias is minimized. In an embodiment, the present disclosure relates to a composition of DNA that is preferentially enriched to reduce allele bias at multiple loci. In an embodiment, the allele distribution(s) are measured by sequencing DNA from a mixed sample. In an embodiment, a joint distribution model assumes that alleles are distributed in a binomial manner. In an embodiment, a set of predicted joint allele distributions is generated for genetically linked loci, taking into account existing recombination frequencies from various sources, e.g., using data from the International HapMap Consortium.

ある実施形態では、本開示は、非侵襲的な出生前診断(NPD)の方法、詳細には、DNA混合物について測定された遺伝子型データにおいて複数の多型遺伝子座における対立遺伝子測定値を観察することによって胎児の異数性状態を決定するための方法であって、ある特定の対立遺伝子測定値により異数体の胎児が示され、一方、他の対立遺伝子測定値により正倍数性の胎児が示される示す方法を提供する。ある実施形態では、遺伝子型データを、母系の血漿に由来するDNA混合物についてシークエンシングによって測定する。ある実施形態では、DNA試料を、対立遺伝子分布を算出する複数の遺伝子座に対応するDNA分子について優先的に富化することができる。ある実施形態では、母親由来の遺伝物質のみを含む、または、ほぼ母親由来の遺伝物質のみを含むDNAの試料を測定し、場合によっては、父親由来の遺伝物質のみを含む、または、ほぼ父親由来の遺伝物質のみを含むDNAの試料も測定する。ある実施形態では、一方の親または両親の遺伝子測定値を推定される胎児画分と一緒に使用して、胎児における可能性のある異なる基礎をなす遺伝子の状態に対応する複数の予測される対立遺伝子分布を作製し、前記予測される対立遺伝子分布は、仮説と称することができる。ある実施形態では、母系の遺伝子データは、天然で排他的またはほぼ排他的に母系のものである遺伝物質を測定することによって決定するのではなく、母系DNAと胎児DNAの混合物を含む母系の血漿に対して行われる遺伝子測定から推定する。いくつかの実施形態では、仮説は、1個または複数個の染色体における胎児の倍数性、胎児のどの染色体のどのセグメントがどちらの親から遺伝したか、およびそれらの組み合わせを含んでよい。いくつかの実施形態では、胎児の倍数性状態は、観察された対立遺伝子測定値と、異なる仮説であって、前記仮説の少なくとも一部が、異なる倍数性状態に対応する仮説を比較し、観察された対立遺伝子測定値を考慮して、真である可能性が最も高い仮説に対応する倍数性状態を選択することによって決定する。ある実施形態では、この方法は、遺伝子座がホモ接合性であるかヘテロ接合性であるかにかかわらず、測定されたSNPの一部または全部からの対立遺伝子測定データの使用を伴い、したがって、ヘテロ接合性のみである遺伝子座の対立遺伝子の使用は伴わない。この方法は、遺伝子データがただ1つの多型遺伝子座に関係する状況には適さない場合がある。この方法は、遺伝子データが、標的染色体に対して10超の多型遺伝子座、または20超の多型遺伝子座についてのデータを含む場合に特に有利である。この方法は、遺伝子データが、標的染色体に対して50超の多型遺伝子座、100超の多型遺伝子座、または標的染色体に対して200超の多型遺伝子座についてのデータを含む場合に特に有利である。いくつかの実施形態では、遺伝子データは、標的染色体に対して500超の多型遺伝子座、1,000超の多型遺伝子座、2,000超の多型遺伝子座、または、標的染色体に対して5,000超の多型遺伝子座についてのデータを含んでよい。 In an embodiment, the present disclosure provides a method for non-invasive prenatal diagnosis (NPD), specifically a method for determining the aneuploidy status of a fetus by observing allele measurements at multiple polymorphic loci in genotype data measured on a DNA mixture, where certain allele measurements indicate an aneuploid fetus, while other allele measurements indicate a euploid fetus. In an embodiment, the genotype data is measured by sequencing on a DNA mixture derived from maternal plasma. In an embodiment, the DNA sample can be preferentially enriched for DNA molecules corresponding to the multiple loci for which the allele distribution is calculated. In an embodiment, a sample of DNA containing only or almost exclusively maternal genetic material is measured, and in some cases, a sample of DNA containing only or almost exclusively paternal genetic material is also measured. In an embodiment, the genetic measurements of one or both parents are used together with the estimated fetal fraction to generate multiple predicted allele distributions corresponding to different possible underlying genetic states in the fetus, which predicted allele distributions can be referred to as hypotheses. In an embodiment, maternal genetic data is not determined by measuring genetic material that is exclusively or nearly exclusively maternal in nature, but is estimated from genetic measurements made on maternal plasma that contains a mixture of maternal and fetal DNA. In some embodiments, the hypotheses may include the ploidy of the fetus at one or more chromosomes, which segments of which fetal chromosomes were inherited from which parent, and combinations thereof. In some embodiments, the ploidy state of the fetus is determined by comparing the observed allele measurements with different hypotheses, at least some of which correspond to different ploidy states, and selecting the ploidy state that corresponds to the hypothesis that is most likely to be true given the observed allele measurements. In an embodiment, the method involves the use of allele measurement data from some or all of the measured SNPs, regardless of whether the locus is homozygous or heterozygous, and therefore does not involve the use of alleles at loci that are only heterozygous. This method may not be suitable for situations where the genetic data pertains to only one polymorphic locus. This method is particularly advantageous when the genetic data includes data for more than 10 polymorphic loci for the target chromosome, or more than 20 polymorphic loci. This method is particularly advantageous when the genetic data includes data for more than 50 polymorphic loci for the target chromosome, more than 100 polymorphic loci, or more than 200 polymorphic loci for the target chromosome. In some embodiments, the genetic data may include data for more than 500 polymorphic loci for the target chromosome, more than 1,000 polymorphic loci, more than 2,000 polymorphic loci, or more than 5,000 polymorphic loci for the target chromosome.

ある実施形態では、本明細書に開示されている方法は、多型遺伝子座の各対立遺伝子の独立した観察の数の定量的尺度を提供する。これは、マイクロアレイまたは定性的PCRなどの、2つの対立遺伝子の比に関する情報をもたらすが、いずれかの対立遺伝子の独立した観察の数を定量化しない大多数の方法とは異なる。独立した観察の数に関する定量的情報をもたらす方法では、倍数性の算出には比のみを利用し、一方、定量的情報はそれ自体では有用ではない。独立した観察の数に関する情報を保持することの重要性を例示するために、2つの対立遺伝子、AおよびBを有する試料の遺伝子座について考察する。第1の実験では20の対立遺伝子Aおよび20の対立遺伝子Bを観察し、第2の実験では200の対立遺伝子Aおよび200の対立遺伝子Bを観察する。どちらの実験でも、比(A/(A+B))は0.5と等しいが、第2の実験は、第1の実験よりも対立遺伝子AまたはBの頻度の確実性に関する多くの情報を伝える。別の研究者によるいくつかの方法は、個々の対立遺伝子からの対立遺伝子の比(チャネル比)(すなわちx/y)を平均または合計し、この比を、参照染色体と比較するか、またはこの比が特定の状況でどのように挙動すると予想されるかに関する規則を用いるかのいずれかで解析することを伴う。このような方法では、対立遺伝子の重み付けを伴わず、各対立遺伝子についてほぼ同じ量のPCR産物を確実にすることができること、および全ての対立遺伝子が同じように挙動するはずであることが想定される。このような方法にはいくつもの不都合があり、より重要なことに、本開示の他の箇所で記載されているいくつもの改善を用いることが妨げられる。 In an embodiment, the method disclosed herein provides a quantitative measure of the number of independent observations of each allele at a polymorphic locus. This differs from the majority of methods, such as microarrays or qualitative PCR, which provide information on the ratio of two alleles but do not quantify the number of independent observations of either allele. Methods that provide quantitative information on the number of independent observations only use the ratio to calculate ploidy, while the quantitative information is not useful in itself. To illustrate the importance of retaining information on the number of independent observations, consider a sample locus with two alleles, A and B. In the first experiment, 20 alleles A and 20 alleles B are observed, and in the second experiment, 200 alleles A and 200 alleles B are observed. In both experiments, the ratio (A/(A+B)) is equal to 0.5, but the second experiment conveys more information about the certainty of the frequency of alleles A or B than the first experiment. Some methods by other researchers involve averaging or summing the allelic ratios (channel ratios) (i.e., x i /y i ) from individual alleles and analyzing this ratio either by comparing it to a reference chromosome or by using rules on how the ratio is expected to behave in a particular situation. Such methods do not involve allele weighting and assume that one can ensure approximately the same amount of PCR product for each allele and that all alleles should behave in the same way. Such methods have a number of disadvantages and, more importantly, prevent the use of a number of improvements described elsewhere in this disclosure.

ある実施形態では、本明細書に開示されている方法は、ダイソミーにおいて予測される対立遺伝子頻度分布ならびに減数分裂Iの間の染色体不分離、減数分裂IIの間の染色体不分離、および/または胎児発生の初期の有糸分裂の間の染色体不分離によって生じるトリソミーの場合に予測され得る複数の対立遺伝子頻度分布を明確にモデリングする。なぜこれが重要であるかを例示するために、乗換えがない場合を考える:減数分裂Iの間の染色体不分離により、2つの異なる相同体が一方の親から遺伝によって受け継がれたトリソミーがもたらされ、対照的に、減数分裂IIの間、または胎児発生の初期の有糸分裂の間の染色体不分離により、一方の親由来の同じ相同体の2つのコピーがもたらされることになる。各筋書きにより、各多型遺伝子座において、また遺伝連鎖に起因して、共同して考えられる全ての遺伝子座において、予測される対立遺伝子の異なる頻度がもたらされることになる。相同体間での遺伝物質の交換をもたらす乗換えにより、遺伝様式がより複雑になり、ある実施形態では、当該方法は、遺伝子座間の物理的な距離に加えて、組換え率の情報を使用することによってこれに適応する。ある実施形態では、減数分裂I時の染色体不分離と減数分裂IIまたは有糸分裂時の染色体不分離との間の区別の改善を可能にするために、当該方法では、モデルに、セントロメアからの距離が増加するにつれて上昇する乗換えの確率を組み入れる。減数分裂IIおよび有糸分裂時の染色体不分離は、有糸分裂時の染色体不分離により、一般には、1つの相同体の同一またはほぼ同一のコピーがもたらされるが、一方、減数分裂II時の染色体不分離事象の後に存在する2つの相同体は、多くの場合、配偶子形成の間の1つまたは複数の乗換えに起因して異なるという事実によって区別することができる。 In an embodiment, the methods disclosed herein explicitly model the allele frequency distributions expected in disomy as well as the multiple allele frequency distributions that may be expected in the case of trisomy resulting from nondisjunction during meiosis I, nondisjunction during meiosis II, and/or nondisjunction during early mitosis of fetal development. To illustrate why this is important, consider the case where there is no crossover: nondisjunction during meiosis I results in trisomy with two different homologs inherited from one parent, in contrast to nondisjunction during meiosis II or during early mitosis of fetal development that results in two copies of the same homolog from one parent. Each scenario will result in different expected allele frequencies at each polymorphic locus and, due to genetic linkage, at all loci considered jointly. Crossover, which results in the exchange of genetic material between homologs, introduces a more complex inheritance pattern, which in an embodiment the method accommodates by using information on recombination rates in addition to the physical distance between loci. In one embodiment, to allow for improved discrimination between meiosis I nondisjunction and meiosis II or mitotic nondisjunction, the method incorporates into the model a probability of crossing over that increases with increasing distance from the centromere. Meiosis II and mitotic nondisjunction can be distinguished by the fact that mitotic nondisjunction generally results in identical or nearly identical copies of one homolog, whereas the two homologs present after a meiosis II nondisjunction event often differ due to one or more crossing overs during gamete formation.

いくつかの実施形態では、本明細書に開示されている方法は、観察された対立遺伝子測定値を、可能性のある胎児の遺伝子異数性に対応する理論的仮説と比較するステップを包含し、ヘテロ接合性遺伝子座における対立遺伝子の比を定量するステップは包含しない。遺伝子座の数が約20未満の場合、ヘテロ接合性遺伝子座における対立遺伝子の比を定量するステップを含む方法を用いて行った倍数性の決定と、観察された対立遺伝子測定値を、可能性のある胎児の遺伝子の状態に対応する理論的な対立遺伝子分布の仮説と比較することを含む方法を用いて行った倍数性の決定は、同様の結果をもたらし得る。しかし、遺伝子座の数が50超である場合、これらの2つの方法は、有意に異なる結果をもたらす可能性があり、遺伝子座の数が400超、1,000超または2,000超である場合、これらの2つの方法は、ますます有意に異なる結果をもたらす可能性が高い。これらの差は、各対立遺伝子の大きさを独立に測定すること、および比を総計または平均することを伴わずにヘテロ接合性遺伝子座における対立遺伝子の比を定量するステップを含む方法が、同時分布モデルを用いること、連鎖解析を実施すること、二項分布モデルを用いること、および/または他の高度な統計学的技法を含めた技法を用いることを妨げるが、観察された対立遺伝子測定値を、可能性のある胎児の遺伝子の状態に対応する理論的な対立遺伝子分布の仮説と比較するステップを含む方法を用いると、決定の正確度を実質的に上昇させることができるこれらの技法を用いることができるという事実に起因する。 In some embodiments, the methods disclosed herein include comparing the observed allele measurements to theoretical hypotheses corresponding to possible fetal genetic aneuploidies, and do not include quantifying the ratio of alleles at heterozygous loci. When the number of loci is less than about 20, ploidy determinations performed using a method including quantifying the ratio of alleles at heterozygous loci and ploidy determinations performed using a method including comparing the observed allele measurements to theoretical hypotheses of allele distribution corresponding to possible fetal genetic conditions may yield similar results. However, when the number of loci is more than 50, these two methods may yield significantly different results, and when the number of loci is more than 400, more than 1,000, or more than 2,000, these two methods are increasingly likely to yield significantly different results. These differences arise from the fact that methods that involve quantifying allele ratios at heterozygous loci without measuring the magnitude of each allele independently and aggregating or averaging the ratios preclude the use of techniques including using joint distribution models, performing linkage analysis, using binomial distribution models, and/or other advanced statistical techniques, whereas methods that involve comparing observed allele measurements to theoretical allele distribution hypotheses corresponding to possible fetal genetic states allow the use of these techniques that can substantially increase the accuracy of the determination.

ある実施形態では、本明細書に開示されている方法は、観察された対立遺伝子測定値の分布により、同時分布モデルを用いて正倍数性または異数体の胎児が示されるかどうかを決定するステップを包含する。同時分布モデルの使用は、方法であって、多型遺伝子座を独立に処理することによってヘテロ接合率を決定する方法とは、得られた決定の正確度が有意に高いという点で異なり、それよりも有意に改善されている。いかなる特定の理論にも縛られることなく、それらの正確度が高い1つの理由は、同時分布モデルでは、SNP間の連鎖、および成長して胎児になる胚を形成する配偶子を生じる減数分裂の間に起こった乗換えの尤度を考慮に入れることであると考えられる。1個または複数個の仮説について対立遺伝子測定値の予測される分布を作製する際に連鎖の概念を用いる目的は、それにより、連鎖を用いない場合よりも相当よい現実に対応する予測される対立遺伝子測定値分布の作製を可能にすることである。例えば、2つのSNPが存在し、1および2は、互いに近くに位置し、母親は、一方の相同体上のSNP1がAであり、SNP2がAであり、相同体2上のSNP1がBであり、SNP2がBであると考える。父親が、両方の相同体上の両方のSNPについてAであり、胎児のSNP1についてBが測定された場合、これは、相同体2を胎児が遺伝によって受け継いだこと、したがって、胎児のSNP2にBが存在する尤度がはるかに高いことを示す。連鎖を考慮に入れたモデルではこれが予測されるが、連鎖を考慮に入れないモデルでは予測されない。あるいは、母親のSNP1がABであり、近くのSNP2がABである場合、その場所における母系トリソミーに対応する2つの仮説-一致コピーエラー(減数分裂IIまたは胎児発生初期の有糸分裂における染色体不分離)を伴うもの、および不一致コピーエラー(減数分裂Iにおける染色体不分離)を伴うものを用いることができる。一致コピーエラートリソミーの場合には、胎児が、SNP1において母親からAAを遺伝によって受け継いだ場合、胎児は、SNP2において母親から、ABではなく、AAまたはBBのいずれかを遺伝によって受け継ぐ可能性がはるかに高い。不一致コピーエラーの場合には、胎児は、両方のSNPにおいて母親からABを遺伝によって受け継ぐことになる。連鎖を考慮に入れた、倍数性コール方法によって立てられた対立遺伝子分布の仮説により、これらの予測がなされ、したがって、連鎖を考慮に入れなかった倍数性コール方法よりも相当に大きな程度で、実際の対立遺伝子測定値に対応する。連鎖手法は、対立遺伝子の比を算出することおよびそれらの対立遺伝子の比を総計することに依拠する方法を用いる場合には不可能であることに留意されたい。 In an embodiment, the method disclosed herein includes determining whether the distribution of observed allele measurements indicates a euploid or aneuploid fetus using a joint distribution model. The use of a joint distribution model is different from and a significant improvement over methods that determine heterozygosity rates by independently treating polymorphic loci in that the accuracy of the determinations obtained is significantly higher. Without being bound to any particular theory, it is believed that one reason for their high accuracy is that the joint distribution model takes into account the linkage between SNPs and the likelihood of crossovers that occurred during meiosis that gave rise to the gametes that form the embryo that will develop into the fetus. The purpose of using the concept of linkage in generating the predicted distribution of allele measurements for one or more hypotheses is to thereby enable the generation of predicted allele measurement distributions that correspond significantly better to reality than would be the case without the use of linkage. For example, consider two SNPs, 1 and 2, located near each other, and the mother has A at SNP1 and A at SNP2 on one homolog, and B at SNP1 and B at SNP2 on homolog 2. If the father has A for both SNPs on both homologs, and B is measured for SNP1 in the fetus, this indicates that homolog 2 has been inherited by the fetus, and therefore there is a much higher likelihood that a B is present at SNP2 in the fetus. Models that take linkage into account would predict this, but models that do not would not. Alternatively, if the mother has AB at SNP1 and AB at nearby SNP2, two hypotheses can be used that correspond to maternal trisomy at that location - one with a concordant copy error (nondisjunction in meiosis II or early fetal mitosis) and one with a discordant copy error (nondisjunction in meiosis I). In the case of a matching copy error trisomy, if the fetus inherited AA from the mother at SNP1, it is much more likely to inherit either AA or BB from the mother at SNP2, but not AB. In the case of a nonmatching copy error, the fetus will inherit AB from the mother at both SNPs. These predictions are made because of the allele distribution assumptions made by ploidy calling methods that take linkage into account, and therefore correspond to the actual allele measurements to a much greater extent than ploidy calling methods that do not take linkage into account. Note that linkage approaches are not possible when using methods that rely on calculating allele ratios and aggregating those allele ratios.

観察された対立遺伝子測定値を、可能性のある胎児の遺伝子の状態に対応する理論的仮説と比較するステップを含む方法を用いる倍数性の決定の正確度がより高いと考えられる1つの理由は、配列決定を使用して対立遺伝子を測定する場合、この方法では、リードの総数が他の方法よりも少ない場合に、対立遺伝子からのデータから、より多くの情報を収集することができることであり、例えば、対立遺伝子の比を算出することおよび総計することに依拠する方法では、不釣り合いに重み付けられた確率論的ノイズが生じる。例えば、配列決定を用いて対立遺伝子を測定することを伴う場合であって、各遺伝子座についてシーケンスリードが5つのみ検出された遺伝子座の集合が存在する場合を考える。ある実施形態では、対立遺伝子のそれぞれについて、データを、仮定された対立遺伝子分布と比較し、シーケンスリード数に従って重み付けることができ、したがって、これらの測定からのデータは、適切に重み付けられ、全体的な決定に組み入れられる。これは、ヘテロ接合性遺伝子座における対立遺伝子の比を定量することを伴う方法が、可能性のある対立遺伝子の比として0%、20%、40%、60%、80%または100%の比しか算出することができず、これらはいずれも予測される対立遺伝子の比には近づくことができないので、上記方法とは対照的である。この後者の場合、算出された対立遺伝子の比は、リードが不十分なので棄却しなければならないか、あるいは、不相応に重み付けされ、確率論的ノイズが決定に導入され、それにより、決定の正確度が低下する。ある実施形態では、個々の対立遺伝子測定を、独立した測定として処理することができ、この場合、同じ遺伝子座の対立遺伝子に対して行った測定間の関係が、異なる遺伝子座の対立遺伝子に対して行った測定間の関係と異ならない。 One reason that the accuracy of ploidy determination using a method that includes comparing observed allele measurements to theoretical hypotheses corresponding to possible fetal genetic states is believed to be higher is that when sequencing is used to measure alleles, the method can glean more information from data from alleles when the total number of reads is smaller than other methods, for example, methods that rely on calculating and summing allele ratios produce disproportionately weighted stochastic noise. For example, consider a case that involves measuring alleles using sequencing and where there is a set of loci where only five sequence reads were detected for each locus. In an embodiment, for each of the alleles, the data can be compared to the hypothesized allele distribution and weighted according to the number of sequence reads, and thus the data from these measurements are appropriately weighted and incorporated into the overall determination. This is in contrast to methods that involve quantifying allele ratios at heterozygous loci, which can only calculate 0%, 20%, 40%, 60%, 80% or 100% possible allele ratios, none of which come close to the expected allele ratio. In this latter case, the calculated allele ratio must be rejected due to insufficient reads or is disproportionately weighted, introducing stochastic noise into the decision, thereby reducing its accuracy. In an embodiment, each allele measurement can be treated as an independent measurement, in which case the relationship between measurements made on alleles at the same locus is no different from the relationship between measurements made on alleles at different loci.

ある実施形態では、本明細書に開示されている方法は、任意のメトリックを、ダイソミーであることが予想される参照染色体において観察された対立遺伝子測定値と比較するステップ(RC法と称される)を包含せずに、観察された対立遺伝子測定値の分布により、正倍数性または異数体の胎児が示されるかどうかを決定するステップを包含する。これは、疑わしい染色体から無作為に配列決定された断片の割合を、1個または複数個の推測ダイソミー参照染色体と比較して評価することによって異数性を検出する、ショットガン配列決定を用いる方法などの方法に対する有意な改善である。このRC法では、推測ダイソミー参照染色体が実際にはダイソミーではない場合、不正確な結果がもたらされる。これは、異数性が、単一染色体のトリソミーより実質的である場合、または胎児が三倍体であり、全ての常染色体がトリソミーである場合に起こり得る。雌性三倍体(69、XXX)胎児の場合には、実際は、ダイソミー染色体は全く存在しない。本明細書に記載の方法は、参照染色体を必要とせず、雌性三倍体胎児におけるトリソミー染色体を正確に同定することができる。染色体、仮説、子の割合(child fraction)およびノイズレベルのそれぞれについて、同時分布モデルを、参照染色体のデータ、全体的な子の割合の見積もりまたは固定された参照仮説のいずれも伴わずに適合させることができる。 In an embodiment, the method disclosed herein involves determining whether the distribution of observed allele measurements indicates a euploid or aneuploid fetus without including a step of comparing any metric to the allele measurements observed in a reference chromosome expected to be disomic (referred to as the RC method). This is a significant improvement over methods such as those using shotgun sequencing, which detect aneuploidy by assessing the proportion of randomly sequenced fragments from a suspect chromosome compared to one or more suspected disomic reference chromosomes. This RC method produces inaccurate results when the suspected disomic reference chromosome is not actually disomic. This can occur when the aneuploidy is more substantial than a single chromosome trisomy or when the fetus is triploid and all autosomes are trisomic. In the case of a female triploid (69, XXX) fetus, there are in fact no disomic chromosomes at all. The method described herein does not require a reference chromosome and can accurately identify trisomic chromosomes in a female triploid fetus. For each chromosome, hypothesis, child fraction, and noise level, a joint distribution model can be fitted without reference chromosome data, estimates of the overall child fraction, or a fixed reference hypothesis.

ある実施形態では、本明細書に開示されている方法は、観察されている多型遺伝子座における対立遺伝子分布をどのように使用して、先行技術の方法よりも高い正確度で胎児の倍数性状態を決定することができるかを実証している。ある実施形態では、前記方法は、標的化配列決定を用いて、複数のSNPにおける混合母体-胎児遺伝子型、および必要に応じて、母親の遺伝子型および/または父親の遺伝子型を得て、最初に異なる仮説の下での種々の予測される対立遺伝子頻度分布を確立すること、次いで、母体-胎児混合物において得られる定量的な対立遺伝子の情報を観察すること、および、どの仮説がデータに最もよく適合するかを評価することを用い、データに最もよく適合する仮説に対応する遺伝子の状態を正確な遺伝子の状態としてコールする。ある実施形態では、本明細書に開示されている方法は、コールされた遺伝子の状態が正確な遺伝子の状態であることの信頼度を生成するために、適合の程度も用いる。ある実施形態では、本明細書に開示されている方法は、親の状況が異なる遺伝子座に関して見いだされる対立遺伝子の分布を解析するアルゴリズムを使用するステップ、および異なる親の状況(異なる親の遺伝子型のパターン)についての、異なる倍数性状態について、観察された対立遺伝子分布を、予測される対立遺伝子分布と比較するステップを包含する。これは、母体-胎児混合試料中の各遺伝子座における各対立遺伝子の独立した事例の数を推定することができる方法を用いない方法とは異なり、それよりも改善されている。ある実施形態では、本明細書に開示されている方法は、観察された対立遺伝子測定値の分布により、母親がヘテロ接合性である遺伝子座において測定された、観察された対立遺伝子分布を用いて、正倍数性または異数体の胎児が示されるかどうかを決定するステップを包含する。これは、その特定の標的個体に対して情報価値が高いことが知られていない遺伝子座についてDNAが優先的に富化されていない場合、または優先的に富化されている場合、倍数性の決定において、配列データの集合から約2倍の遺伝子測定データを用いることが可能になり、それにより、より正確な決定がもたらされるので、母親がヘテロ接合性である遺伝子座における観察された対立遺伝子分布を用いない方法とは異なり、それよりも改善されている。 In an embodiment, the methods disclosed herein demonstrate how the observed allele distributions at polymorphic loci can be used to determine the ploidy state of the fetus with greater accuracy than prior art methods. In an embodiment, the method uses targeted sequencing to obtain mixed maternal-fetal genotypes at multiple SNPs, and optionally maternal and/or paternal genotypes, to first establish various expected allele frequency distributions under different hypotheses, then observe the quantitative allelic information obtained in the maternal-fetal mixtures, and evaluate which hypothesis best fits the data, and call the genetic state corresponding to the hypothesis that best fits the data as the correct genetic state. In an embodiment, the methods disclosed herein also use the degree of fit to generate a confidence that the called genetic state is the correct genetic state. In an embodiment, the method disclosed herein involves using an algorithm to analyze the distribution of alleles found for loci with different parental statuses, and comparing the observed allele distributions to expected allele distributions for different ploidy states for different parental statuses (different parental genotype patterns). This is different from and an improvement over methods that do not use methods that can estimate the number of independent instances of each allele at each locus in a mixed maternal-fetal sample. In an embodiment, the method disclosed herein involves determining whether the distribution of observed allele measurements indicates a euploid or aneuploid fetus using the observed allele distributions measured at loci where the mother is heterozygous. This is different from and an improvement over methods that do not use the observed allele distributions at loci where the mother is heterozygous, as it allows for approximately twice as much genetic measurement data from the set of sequence data to be used in determining ploidy, resulting in a more accurate determination, when DNA is not preferentially enriched or is preferentially enriched for loci that are not known to be highly informative for that particular target individual.

ある実施形態では、本明細書に開示されている方法は、天然では、各遺伝子座における対立遺伝子頻度が多項式(したがって、SNPが二対立遺伝子である場合は二項式)であると仮定する同時分布モデルを用いる。いくつかの実施形態では、同時分布モデルは、ベータ二項分布を使用する。各遺伝子座に存在する各対立遺伝子についての定量的尺度を提供する配列決定などの測定技法を用いる場合、二項モデルを、各遺伝子座に適用することができ、対立遺伝子頻度の基礎をなす程度およびその頻度の信頼度を確かめることができる。対立遺伝子の比から倍数性コールを生成する当技術分野で公知の方法または定量的な対立遺伝子情報が棄却される方法を用いて、観察された比の確実性を確かめることができない。当該方法は、特定の遺伝子座における対立遺伝子の比を算出し、次いでそれらの比を総計することを伴う任意の方法では、任意の所与の対立遺伝子または遺伝子座からのDNAの量を示す測定された強度または計数値がガウス様式で分布することを必ず仮定するので、対立遺伝子の比を算出し、それらの比を総計して倍数性コールを行う方法とは異なり、それよりも改善されている。本明細書に開示されている方法は、対立遺伝子の比を算出することを伴わない。いくつかの実施形態では、本明細書に開示されている方法は、複数の遺伝子座の各対立遺伝子の観察結果の数をモデルに組み入れるステップを包含し得る。いくつかの実施形態では、本明細書に開示されている方法は、予測される分布自体を算出するステップであって、それにより、対立遺伝子測定値のガウス分布を仮定するモデルのいずれよりも正確であり得る同時二項分布(joint binomial distribution)モデルを用いることが可能になるステップを包含し得る。二項分布モデルがガウス分布よりも有意に正確である尤度は、遺伝子座の数が増加するにつれて増大する。例えば、20未満の遺伝子座を調べる場合、二項分布モデルが有意にすぐれている尤度は低い。しかし、100超、または特に400超、または特に1,000超、または特に2,000超の遺伝子座を使用すると、二項分布モデルの、ガウス分布モデルよりも有意に正確である尤度は非常に高くなり、それにより、より正確な倍数性の決定がもたらされる。二項分布モデルがガウス分布よりも有意に正確である尤度は、同様に、各遺伝子座における観察結果の数が増加するにつれて増大する。例えば、各遺伝子座において10未満の別個の配列を観察する場合、二項分布モデルが有意にすぐれている尤度は低い。しかし、各遺伝子座について50超のシーケンスリード、または特に100超のシーケンスリード、または特に200超のシーケンスリード、または特に300超のシーケンスリードを使用すると、二項分布モデルの、ガウス分布モデルよりも有意に正確である尤度は非常に高くなり、それにより、より正確な倍数性の決定がもたらされる。 In an embodiment, the methods disclosed herein use a joint distribution model that assumes that the allele frequency at each locus is polynomial in nature (and therefore binomial if the SNP is biallelic). In some embodiments, the joint distribution model uses a beta-binomial distribution. If a measurement technique such as sequencing is used that provides a quantitative measure for each allele present at each locus, the binomial model can be applied to each locus and the underlying degree of allele frequency and the confidence in that frequency can be ascertained. The certainty of the observed ratios cannot be ascertained using methods known in the art that generate ploidy calls from allele ratios or methods in which quantitative allele information is discarded. The method is different from and an improvement over methods that calculate allele ratios and aggregate the ratios to make ploidy calls, since any method that involves calculating allele ratios at a particular locus and then aggregating those ratios necessarily assumes that the measured intensities or counts that indicate the amount of DNA from any given allele or locus are distributed in a Gaussian manner. The methods disclosed herein do not involve calculating allele ratios. In some embodiments, the methods disclosed herein may include incorporating the number of observations of each allele at multiple loci into the model. In some embodiments, the methods disclosed herein may include calculating the expected distribution itself, which allows for the use of a joint binomial distribution model, which may be more accurate than any model that assumes a Gaussian distribution of allele measurements. The likelihood that the binomial distribution model is significantly more accurate than the Gaussian distribution increases as the number of loci increases. For example, when examining less than 20 loci, the likelihood that the binomial distribution model is significantly superior is low. However, when using more than 100, or especially more than 400, or especially more than 1,000, or especially more than 2,000 loci, the likelihood that the binomial distribution model is significantly more accurate than the Gaussian distribution model becomes very high, thereby resulting in a more accurate ploidy determination. The likelihood that the binomial model is significantly more accurate than the Gaussian distribution model similarly increases as the number of observations at each locus increases. For example, when less than 10 distinct sequences are observed at each locus, the likelihood that the binomial model is significantly better is low. However, when more than 50 sequence reads are used for each locus, or especially more than 100 sequence reads, or especially more than 200 sequence reads, or especially more than 300 sequence reads, the likelihood that the binomial model is significantly more accurate than the Gaussian distribution model becomes very high, thereby resulting in more accurate ploidy determinations.

ある実施形態では、本明細書に開示されている方法では、配列決定を用いて、DNA試料中の各遺伝子座における各対立遺伝子の事例の数を測定する。シーケンシングリードのそれぞれは、特定の遺伝子座にマッピングし、バイナリーのシーケンスリードとして処理することができる、あるいは、リードおよび/またはマッピングの同一性の確率を、シーケンスリードの一部として組み入れることができ、その結果、確率的なシーケンスリード、すなわち所与の遺伝子座にマッピングされるシーケンスリードの推定の整数または分数がもたらされる。バイナリーの計数値または計数値の確率を使用すると、測定値の各集合について二項分布を用いることが可能であり、これにより、計数値の範囲の(around the number of counts)信頼区間を算出することが可能になる。二項分布を用いることができることにより、より正確な倍数性の推定およびより精度の高い信頼区間を算出することが可能になる。これは、存在する対立遺伝子の量を測定するために強度を用いる方法、例えば、マイクロアレイを用いる方法、または電気泳動のバンドにおいて蛍光性タグを付けたDNAの強度を測定するために蛍光リーダーを用いて測定を行う方法とは異なり、それよりも改善されている。 In an embodiment, the methods disclosed herein use sequencing to measure the number of instances of each allele at each locus in a DNA sample. Each sequencing read can be mapped to a specific locus and treated as a binary sequence read, or the probability of the identity of the read and/or mapping can be incorporated as part of the sequence read, resulting in a probabilistic sequence read, i.e., an estimated integer or fractional number of sequence reads that map to a given locus. Using binary counts or count probabilities, a binomial distribution can be used for each set of measurements, which allows for the calculation of confidence intervals around the number of counts. The ability to use a binomial distribution allows for more accurate ploidy estimates and more precise confidence intervals to be calculated. This is different from and an improvement over methods that use intensity to measure the amount of alleles present, such as using microarrays or using a fluorescent reader to measure the intensity of fluorescently tagged DNA in electrophoretic bands.

ある実施形態では、本明細書に開示されている方法では、本データの集合の態様を用いて、そのデータの集合についての推定される対立遺伝子頻度分布のパラメータを決定する。これは、本予測される対立遺伝子頻度分布または場合によっては予測される対立遺伝子の比のパラメータを設定するために、トレーニングデータ集合または事前データ集合を利用する方法よりも改善されている。これは、あらゆる遺伝子試料の収集および測定に関与する異なる状態の集合が存在することが原因であり、したがって、当該データの集合からのデータを使用して、その試料についての倍数性の決定に使用するためのものである同時分布モデルのパラメータを決定する方法がより正確になりやすい。 In one embodiment, the methods disclosed herein use aspects of the data set to determine parameters of the estimated allele frequency distribution for the data set. This is an improvement over methods that utilize a training or prior data set to set parameters for the expected allele frequency distribution or possibly the expected allele ratio. This is because there is a set of different conditions involved in the collection and measurement of any genetic sample, and therefore the method of using data from the data set to determine parameters of a joint distribution model to be used in determining ploidy for that sample is more likely to be accurate.

ある実施形態では、本明細書に開示されている方法は、観察された対立遺伝子測定値の分布により、最尤法を用いて、正倍数性または異数体の胎児が示されるかどうかを決定するステップを包含する。最尤法を用いることは、得られる決定の正確度が有意に高いという点で、単一仮説棄却法を用いる方法とは異なり、それよりも有意に改善されている。1つの理由は、単一仮説棄却法では、2つの測定値分布ではなく、ただ1つの測定値分布に基づいてカットオフ閾値が設定される、つまり、閾値が通常は最適ではないことである。別の理由は、最尤法では、個々の試料の各々の特定の特性にかかわらず全ての試料に対して使用されるカットオフ閾値を決定するのではなく、個々の試料の各々についてカットオフ閾値を最適化することが可能になることである。別の理由は、最尤法を用いることにより、各倍数性コールについて信頼度を算出することが可能になることである。各コールに対して信頼度の算出を行うことができることにより、実践者が、どのコールが正確であるか、およびどれが誤りである可能性がより高いかを知ることが可能になる。いくつかの実施形態では、多種多様な方法を最尤推定法と組み合わせて、倍数性コールの正確度を増強することができる。ある実施形態では、最尤法を、米国特許第7,888,017号に記載の方法と組み合わせて用いることができる。ある実施形態では、最尤法を、標的PCR増幅を用いて混合試料中のDNAを増幅し、その後、リード計数方法、例えば、2011年10月のMontrealでのInternational Congress of Human Genetics 2011年において発表されたTANDEM DIAGNOSTICSを用いて配列決定し分析する方法と組み合わせて用いることができる。ある実施形態では、本明細書に開示されている方法は、混合試料中のDNAの胎児画分を推定するステップ、およびその推定値を用いて倍数性コールと倍数性コールの信頼度の両方を算出するステップを包含する。これは、推定される胎児画分を十分な胎児画分のスクリーニングとして用い、その後、胎児画分を考慮に入れず、コールについての信頼度の算出も生じない単一仮説棄却法を用いて倍数性コールを行う方法とは異なり、かつその方法とは区別されることに留意されたい。 In an embodiment, the method disclosed herein involves using maximum likelihood to determine whether the distribution of observed allele measurements indicates a euploid or aneuploid fetus. Using maximum likelihood is different from and a significant improvement over single hypothesis rejection methods in that the accuracy of the resulting determination is significantly higher. One reason is that in single hypothesis rejection methods, the cutoff threshold is set based on only one measurement distribution rather than two, i.e., the threshold is usually not optimal. Another reason is that maximum likelihood methods allow the cutoff threshold to be optimized for each individual sample, rather than determining a cutoff threshold to be used for all samples regardless of the specific characteristics of each individual sample. Another reason is that using maximum likelihood methods allows a confidence to be calculated for each ploidy call. Being able to perform a confidence calculation for each call allows the practitioner to know which calls are accurate and which are more likely to be incorrect. In some embodiments, a wide variety of methods can be combined with maximum likelihood estimation to enhance the accuracy of ploidy calls. In an embodiment, the maximum likelihood method can be used in combination with the method described in U.S. Pat. No. 7,888,017. In an embodiment, the maximum likelihood method can be used in combination with a method using targeted PCR amplification to amplify the DNA in the mixed sample, followed by sequencing and analysis using a read counting method, such as TANDEM DIAGNOSTICS, presented at the International Congress of Human Genetics 2011, Montreal, October 2011. In an embodiment, the method disclosed herein involves estimating the fetal fraction of the DNA in the mixed sample, and using that estimate to calculate both the ploidy call and the confidence of the ploidy call. Note that this is different from and distinct from the method of using the estimated fetal fraction as a screen for sufficient fetal fraction, followed by a ploidy call using a single hypothesis rejection method that does not take the fetal fraction into account, nor does it result in a calculation of confidence for the call.

ある実施形態では、本明細書に開示されている方法は、各測定値に確率を付与することによってデータがノイズを伴い、エラーを含有する傾向を考慮に入れる。付与された確率的な推定値を伴う測定データを使用して立てられた仮説の集合から正確な仮説を選択するために最尤法を用いることにより、不正確な測定値が考慮に入れられない可能性が高くなり、倍数性コールを導く算出において正確な測定値が用いられる。より精度が高くあるために、この方法では、倍数性の決定において不正確に測定されたデータの影響を系統的に低下させる。これは、全てのデータが同等に正確であると仮定される方法または範囲外のデータが倍数性コールを導く算出から任意に排除される方法よりも改善されている。チャネル比測定値を用いる現行の方法は、個々のSNPチャネル比を平均することによってこの方法を多数のSNPに拡張することを主張する。SNPの質および観察されたリード深度に基づいて予測される測定値の分散によって個々のSNPに重み付けをしないことにより、生じた統計量の正確度が低下し、その結果、倍数性コールの正確度が、特に境界の場合に有意に低下する。 In an embodiment, the method disclosed herein takes into account the tendency of data to be noisy and contain errors by assigning a probability to each measurement. By using maximum likelihood to select the correct hypothesis from a set of hypotheses made using measurement data with assigned probabilistic estimates, it is more likely that inaccurate measurements will not be taken into account and accurate measurements will be used in the calculation leading to the ploidy call. To be more accurate, the method systematically reduces the influence of inaccurately measured data in the determination of ploidy. This is an improvement over methods where all data are assumed to be equally accurate or where outlying data are arbitrarily excluded from the calculation leading to the ploidy call. Current methods using channel ratio measurements claim to extend the method to a large number of SNPs by averaging individual SNP channel ratios. By not weighting individual SNPs by the expected variance of measurements based on the quality of the SNP and the observed read depth, the accuracy of the resulting statistics is reduced, which in turn significantly reduces the accuracy of the ploidy call, especially in borderline cases.

ある実施形態では、本明細書に開示されている方法は、胎児においてどのSNPまたは他の多型遺伝子座がヘテロ接合性であるかの知見を前提としない。この方法により、父系の遺伝子型の情報が入手不可能である場合に倍数性コールを行うことが可能になる。これは、標的とする遺伝子座を適切に選択するため、または混合胎児DNA/母系DNA試料に対して得た遺伝子測定値を解釈するために、どのSNPがヘテロ接合性であるかの知見が前もって知られていなければならない方法よりも改善されている。 In certain embodiments, the methods disclosed herein do not presuppose knowledge of which SNPs or other polymorphic loci are heterozygous in the fetus. This method allows ploidy calls to be made when paternal genotype information is not available. This is an improvement over methods in which knowledge of which SNPs are heterozygous must be known in advance in order to appropriately select loci to target or to interpret genetic measurements obtained on a mixed fetal/maternal DNA sample.

本明細書に記載の方法は、利用可能なDNAが少量である試料、または胎児DNAのパーセントが低い試料に対して用いる場合に特に有利である。これは、少量のDNAしか利用可能でない場合に生じる、対立遺伝子ドロップアウト率が相応して高いこと、および/または胎児DNAと母系DNAの混合試料中の胎児DNAのパーセントが低い場合に胎児の対立遺伝子ドロップアウト率が相応して高いことに起因する。対立遺伝子ドロップアウト率が高いこと、つまり、標的個体について、対立遺伝子の大部分が測定されなかったことにより、不十分に正確な胎児画分の算出、および不十分に正確な倍数性の決定がもたらされる。本明細書に開示されている方法は、SNP間の遺伝様式における連鎖を考慮に入れた同時分布モデルを用いることができるので、有意により正確な倍数性の決定を行うことができる。本明細書に記載の方法により、混合物中の胎児性のDNA分子のパーセントが40%未満、30%未満、20%未満、10%未満、8%未満、さらには6%未満である場合に、正確な倍数性の決定を行うことが可能になる。 The methods described herein are particularly advantageous when used with samples with small amounts of DNA available or with a low percentage of fetal DNA. This is due to the correspondingly high allele dropout rate that occurs when only small amounts of DNA are available and/or when the percentage of fetal DNA in the mixed fetal and maternal DNA sample is low. A high allele dropout rate, i.e., a large proportion of alleles were not measured for the target individual, leads to insufficiently accurate calculation of fetal fractions and insufficiently accurate ploidy determinations. The methods disclosed herein can use a joint distribution model that takes into account linkage in the inheritance pattern between SNPs, allowing for significantly more accurate ploidy determinations. The methods described herein allow for accurate ploidy determinations when the percentage of fetal DNA molecules in the mixture is less than 40%, less than 30%, less than 20%, less than 10%, less than 8%, or even less than 6%.

ある実施形態では、個体のDNAが関連する個体のDNAと混在している場合の測定値に基づいて個体の倍数性状態を決定することが可能である。ある実施形態では、DNAの混合物は、母系の血漿中に見いだされる浮動性DNAであり、これは、既知の核型および既知の遺伝子型を有する母親由来のDNAを含んでもよく、また、未知の核型および未知の遺伝子型を有する胎児DNAと混在してもよい。一方の親または両親からの既知の遺伝子型の情報を用いて、混合試料中のDNAの複数の潜在的な遺伝子の状態を、異なる倍数性状態、各親から胎児への異なる染色体の寄与、および必要に応じて、混合物中の異なる胎児DNAの割合について予測することが可能である。潜在的な組成のそれぞれは、仮説と称することができる。次いで、胎児の倍数性状態を、実際の測定値について調べ、観察されたデータを考慮してどの潜在的な組成が最も可能性が高いかを決定することによって決定することができる。 In some embodiments, it is possible to determine the ploidy state of an individual based on measurements of the individual's DNA when mixed with DNA of related individuals. In some embodiments, the mixture of DNA is free-floating DNA found in maternal plasma, which may include DNA from the mother with known karyotype and known genotype, and may also be mixed with fetal DNA with unknown karyotype and unknown genotype. With known genotype information from one or both parents, it is possible to predict multiple potential genetic states of the DNA in the mixed sample for different ploidy states, different chromosomal contributions from each parent to the fetus, and, optionally, different percentages of fetal DNA in the mixture. Each potential composition may be referred to as a hypothesis. The ploidy state of the fetus can then be determined by examining the actual measurements and determining which potential composition is most likely given the observed data.

上記の点のさらなる考察は、本文書の他の箇所に見いだすことができる。 Further discussion of the above points can be found elsewhere in this document.

非侵襲的な出生前診断(NPD)
非侵襲的な出生前診断のプロセスは、いくつものステップを伴う。ステップのいくつかとしては、(1)胎児から遺伝物質を得るステップと、(2)混合試料中に存在する可能性がある胎児の遺伝物質をエクスビボで富化するステップと、(3)遺伝物質をエクスビボで増幅するステップと、(4)遺伝物質の特定の遺伝子座をエクスビボで優先的に富化するステップと、(5)遺伝物質をエクスビボで測定するステップと、(6)遺伝子型データを、エクスビボで、コンピュータで分析するステップとを挙げることができる。これらの6つおよび他の関連性のあるステップの実施を減少させるための方法が本明細書に記載されている。前記方法のステップの少なくとも一部は、直接体には適用されない。ある実施形態では、本開示は、体から単離され、分離された組織および他の生物材料に適用される処置および診断の方法に関する。前記方法のステップの少なくとも一部は、コンピュータで実行される。
Non-Invasive Prenatal Diagnosis (NPD)
The process of non-invasive prenatal diagnosis involves a number of steps. Some of the steps may include (1) obtaining genetic material from a fetus, (2) enriching fetal genetic material that may be present in a mixed sample ex vivo, (3) amplifying the genetic material ex vivo, (4) preferentially enriching specific loci of the genetic material ex vivo, (5) measuring the genetic material ex vivo, and (6) analyzing the genotype data ex vivo on a computer. Methods are described herein to reduce the implementation of these six and other related steps. At least some of the steps of the method are not directly applied to the body. In an embodiment, the present disclosure relates to methods of treatment and diagnosis applied to tissues and other biological materials isolated and separated from the body, at least some of the steps of the method are computer-implemented.

本開示のいくつかの実施形態により、臨床医は母親が妊娠中の胎児の遺伝子の状態を非侵襲的に決定することが可能になり、それにより、胎児の遺伝物質を採取することによって乳児の健康が危険にさらされることがなく、また、母親が侵襲的手順を受ける必要がない。さらに、ある特定の態様では、本開示により、胎児の遺伝子の状態を、高い正確度、例えば、出生前ケアに広く用いられているトリプルテストの、非侵襲的な母系の血清分析物に基づくスクリーニングよりも有意に高い正確度で決定することが可能になる。 Some embodiments of the present disclosure allow clinicians to non-invasively determine the genetic status of a fetus during pregnancy, without endangering the health of the infant by harvesting genetic material from the fetus and without the mother having to undergo an invasive procedure. Furthermore, in certain aspects, the present disclosure allows the genetic status of the fetus to be determined with high accuracy, for example, significantly higher accuracy than the non-invasive maternal serum analyte-based screening of the triple test commonly used in prenatal care.

本明細書に開示されている方法の正確度が高いことは、本明細書に記載の、遺伝子型データを分析するためのインフォマティクス手法の結果である。現代の技術的な進歩により、ハイスループット配列決定および遺伝子型決定アレイなどの方法を用いて遺伝子試料から大量の遺伝子情報を測定することができるようになった。本明細書に開示されている方法により、臨床医は利用可能な大量のデータをより大きく活用すること、および胎児の遺伝子の状態のより正確な診断を行うことが可能になる。いくつもの実施形態の詳細が下に示されている。異なる実施形態は、上述のステップの異なる組み合わせを包含し得る。異なるステップの異なる実施形態の種々の組み合わせを互換的に用いることができる。 The high accuracy of the methods disclosed herein is a result of the informatics approaches described herein for analyzing genotype data. Modern technological advances have made it possible to measure large amounts of genetic information from genetic samples using methods such as high-throughput sequencing and genotyping arrays. The methods disclosed herein allow clinicians to take greater advantage of the large amounts of data available and to make more accurate diagnoses of fetal genetic conditions. Details of several embodiments are provided below. Different embodiments may include different combinations of the steps described above. Various combinations of different embodiments of different steps can be used interchangeably.

ある実施形態では、妊娠中の母親から血液試料を取得し、母体起源のDNA、および胎児起源のDNAの両方の混合物を含有する母親の血液の血漿中の浮動性DNAを単離し、胎児の倍数性状態を決定するために使用する。ある実施形態では、本明細書に開示されている方法は、多型対立遺伝子に対応するDNAの混合物中のDNA配列を、対立遺伝子の比および/または対立遺伝子分布が、富化に際してほとんど変わらないままであるように、優先的に富化するステップを包含する。ある実施形態では、本明細書に開示されている方法は、生じた分子の非常に高い百分率が、標的の遺伝子座に対応するように、非常に効率的な標的PCRに基づく増幅を伴う。ある実施形態では、本明細書に開示されている方法は、母体起源のDNA、および胎児起源のDNAの両方を含有するDNAの混合物について配列決定するステップを包含する。ある実施形態では、本明細書に開示されている方法は、測定された対立遺伝子分布を用いて、母親が妊娠中の胎児の倍数性状態を決定するステップを包含する。ある実施形態では、本明細書に開示されている方法は、決定された倍数性状態を臨床医に報告するステップを包含する。ある実施形態では、本明細書に開示されている方法は、臨床的措置をとるステップ、例えば、絨毛膜絨毛採取または羊水穿刺の侵襲的検査の経過観察を実施するステップ、トリソミーの個体の誕生の準備をするステップ、またはトリソミーの胎児の選択的中絶を包含する。 In an embodiment, a blood sample is obtained from a pregnant mother, and free floating DNA in the plasma of the mother's blood containing a mixture of both maternal and fetal DNA is isolated and used to determine the ploidy state of the fetus. In an embodiment, the method disclosed herein includes preferentially enriching DNA sequences in the mixture of DNA corresponding to polymorphic alleles such that the allele ratio and/or allele distribution remains largely unchanged upon enrichment. In an embodiment, the method disclosed herein involves highly efficient targeted PCR-based amplification such that a very high percentage of the resulting molecules correspond to the targeted locus. In an embodiment, the method disclosed herein includes sequencing the mixture of DNA containing both maternal and fetal DNA. In an embodiment, the method disclosed herein includes using the measured allele distribution to determine the ploidy state of the fetus while the mother is pregnant. In an embodiment, the method disclosed herein includes reporting the determined ploidy state to a clinician. In some embodiments, the methods disclosed herein include taking a clinical action, such as performing invasive follow-up testing of chorionic villus sampling or amniocentesis, preparing the trisomic individual for birth, or elective termination of the trisomic fetus.

本出願は、2006年11月28日出願の米国実用新案出願第11/603,406号(米国特許出願公開第:20070184467);2008年3月17日出願の米国実用新案出願第12/076,348号(米国特許出願公開第:20080243398);2009年8月4日出願のPCT出願第PCT/US09/52730号(PCT公開第WO/2010/017214号);2010年9月30日出願のPCT出願第PCT/US10/050824号(PCT公開第WO/2011/041485号)、2011年5月18日出願の米国実用新案出願第13/110,685号、および2012年10月3日出願のPCT出願第PCT/US12/58578号を参照する。これらの特許は、その全体が参照により本明細書に組み込まれる。本出願において使用される語彙のいくつかは、これらの参考文献にその前例を有し得る。本明細書に記載の概念のいくつかは、これらの参考文献に見いだされる概念に照らして、よりよく理解することができる。 This application is a continuation of U.S. Utility Application No. 11/603,406, filed November 28, 2006 (U.S. Patent Application Publication No. 20070184467); U.S. Utility Application No. 12/076,348, filed March 17, 2008 (U.S. Patent Application Publication No. 20080243398); and PCT Application No. PCT/US09/52730, filed August 4, 2009 (PCT No. WO/2010/017214; U.S. Utility Model Application No. PCT/US10/050824, filed September 30, 2010 (PCT Publication No. WO/2011/041485); U.S. Utility Model Application No. 13/110,685, filed May 18, 2011; and PCT Application No. PCT/US12/58578, filed October 3, 2012. These patents are incorporated herein by reference in their entireties. Some of the vocabulary used in this application may have its antecedents in these references. Some of the concepts described herein may be better understood in light of the concepts found in these references.

浮動性胎児DNAを含む母系の血液のスクリーニング
本明細書に記載の方法を用いて、標的の遺伝物質が、ある量の他の遺伝物質の存在下で見いだされる、子、胎児または他の標的個体の遺伝子型の決定を補助することができる。いくつかの実施形態では、遺伝子型とは、1個または複数個の染色体の倍数性状態を指してもよく、1つまたは複数の疾患連鎖対立遺伝子またはそのいくつかの組み合わせを指してもよい。本開示では、考察は、胎児DNAが母系の血液中に見いだされる場合に胎児の遺伝子の状態を決定することに焦点が当てられるが、この例は、この方法を適用することができる可能性のある状況に限定することを示していない。さらに、前記方法は、標的DNAの量が非標的DNAに対していかなる割合で存在する場合にも適用可能であり、例えば、標的DNAは、存在するDNAの0.000001%から99.999999%の間のいずれを構成してもよい。さらに、非標的DNAは、関連性のある非標的個体(複数可)の一部または全部からの遺伝子データが既知である限りは、必ずしも1つの個体由来である必要はなく、さらには関連する個体由来である必要はない。ある実施形態では、本明細書に開示されている方法を用いて、胎児DNAを含有する母系の血液から胎児の遺伝子型データを決定することができる。前記方法は、妊娠中の女性の子宮内に複数の胎児がいる場合、または他の混入DNA、例えば、他の既に生まれている同胞由来のDNAが試料に存在する可能性がある場合にも用いることができる。
Screening Maternal Blood Containing Free-floating Fetal DNA The methods described herein can be used to aid in the determination of the genotype of a child, fetus, or other target individual in which the targeted genetic material is found in the presence of an amount of other genetic material. In some embodiments, genotype may refer to the ploidy state of one or more chromosomes, one or more disease-linked alleles, or some combination thereof. In this disclosure, the discussion focuses on determining the genetic state of a fetus when fetal DNA is found in maternal blood, but this example is not intended to be limiting to the possible situations in which the method can be applied. Furthermore, the method is applicable when the amount of target DNA is present in any ratio to non-target DNA, for example, the target DNA may constitute anywhere between 0.000001% and 99.999999% of the DNA present. Furthermore, the non-target DNA does not necessarily have to come from one individual, or even from related individuals, so long as genetic data from some or all of the relevant non-target individual(s) is known. In an embodiment, the methods disclosed herein can be used to determine fetal genotype data from maternal blood containing fetal DNA, and can be used when a pregnant woman has multiple fetuses in her uterus, or when other contaminating DNA, such as DNA from other preborn siblings, may be present in the sample.

この技法は、胎児の血液細胞が胎盤絨毛を通じて母系の循環に進入する現象を用いることができる。普通は、胎児の細胞の非常に少数のみが、このように母系の循環に入る(胎児母体間出血についてのKleihauer-Betke検査で陽性になるには不十分である)。胎児の細胞を選別し、さまざまな技法によって解析して特定のDNA配列を探すことができるが、侵襲的手順が本質的に有するリスクは伴わない。この技法は、問題の胎盤組織が胎児と同じ遺伝子型のDNAを含有する場合、胎盤組織のアポトーシス後のDNA放出によって浮動性胎児DNAが母系の循環に進入する現象も用いることができる。母系の血漿中に見いだされる浮動性DNAは、30~40%の胎児DNAと同程度の割合で胎児DNAを含有することが示されている。 This technique can exploit the phenomenon of fetal blood cells entering the maternal circulation through the placental villi. Normally, only a very small number of fetal cells enter the maternal circulation in this way (not enough to give a positive Kleihauer-Betke test for feto-maternal hemorrhage). Fetal cells can be selected and analyzed by various techniques to look for specific DNA sequences, but without the inherent risks of invasive procedures. This technique can also exploit the phenomenon of free-floating fetal DNA entering the maternal circulation by DNA release after apoptosis of placental tissue, if the placental tissue in question contains DNA of the same genotype as the fetus. The free-floating DNA found in maternal plasma has been shown to contain as much as 30-40% fetal DNA.

ある実施形態では、血液を妊娠中の女性から抜き取ることができる。研究により、母系の血液は、母体起源の浮動性DNAに加えて、胎児由来の少量の浮動性DNAを含有し得ることが示された。さらに、母体起源の多くの血液細胞に加えて、胎児起源のDNAを含む脱核胎児血液細胞も存在してよく、これは、一般には、核DNAを含有しない。胎児DNAを単離するまたは胎児DNAが富化された画分を作製するための当技術分野で公知の多くの方法が存在する。例えば、クロマトグラフィーにより、胎児DNAが富化された特定の画分が作製されることが示されている。 In some embodiments, blood can be drawn from a pregnant woman. Studies have shown that maternal blood can contain small amounts of free-floating DNA from the fetus in addition to free-floating DNA of maternal origin. Furthermore, in addition to many blood cells of maternal origin, there may also be enucleated fetal blood cells that contain DNA of fetal origin, which generally do not contain nuclear DNA. There are many methods known in the art for isolating fetal DNA or making fractions enriched in fetal DNA. For example, chromatography has been shown to make certain fractions enriched in fetal DNA.

比較的非侵襲的に抜き取られ、ある量の胎児DNAを、細胞性または浮動性のいずれかで、その母系DNAに対する割合に富化されて、またはその元の比率のいずれかで含有する母系の血液、血漿または他の体液の試料を手にしたら、前記試料中に見いだされるDNAの遺伝子型を決定することができる。いくつかの実施形態では、血液は、血液を静脈、例えば、尺側皮静脈から回収するための針を使用して抜き取ることができる。本明細書に記載の方法を用いて、胎児の遺伝子型データを決定することができる。例えば、前記方法を用いて、1個または複数個の染色体における倍数性状態を決定することができ、前記方法を用いて、挿入、欠失、および転座を含め、1つのSNPまたはSNPの集合の同一性を決定することができる。前記方法を用いて、1個または複数個の遺伝子型の形体の起源である親を含めた1個または複数個のハプロタイプを決定することができる。 Once one has a sample of maternal blood, plasma or other bodily fluid that has been drawn relatively non-invasively and contains a quantity of fetal DNA, either cellular or free-floating, enriched in its ratio to maternal DNA, or in its original ratio, one can determine the genotype of the DNA found in the sample. In some embodiments, blood can be drawn using a needle to withdraw blood from a vein, for example, the basilic vein. The methods described herein can be used to determine fetal genotype data. For example, the methods can be used to determine the ploidy state at one or more chromosomes, and the methods can be used to determine the identity of a SNP or set of SNPs, including insertions, deletions, and translocations. The methods can be used to determine one or more haplotypes, including the parent from which one or more genotypic features originate.

この方法は、任意の遺伝子型決定および/または配列決定方法、例えば、ILLUMINA INFINIUM ARRAYプラットフォーム、AFFYMETRIX GENECHIP、ILLUMINA GENOME ANALYZERまたはLIFE TECHNOLGIES’ SOLID SYSTEMに使用することができる任意の核酸を用いて機能する点に留意されたい。これは、血漿から抽出された浮動性DNAまたはその増幅物(例えば、全ゲノム増幅、PCR);他の細胞型(例えば、全血由来のヒトリンパ球)由来のゲノムDNAまたはその増幅物を含む。DNAを調製するために、これらのプラットフォームのうちの1つに適したゲノムDNAを生成する任意の抽出または精製方法も同様に機能する。この方法は、RNAの試料を用いて同等に良好に機能し得る。ある実施形態では、試料の保管は、分解が最小限になるように行ない得る(例えば、約-20℃またはそれよりも低い温度で凍結下)。 Note that this method works with any nucleic acid that can be used for any genotyping and/or sequencing method, e.g., the ILLUMINA INFINIUM ARRAY platform, AFFYMETRIX GENECHIP, ILLUMINA GENOME ANALYZER, or LIFE TECHNOLOGIES' SOLID SYSTEM. This includes free-floating DNA extracted from plasma or its amplification (e.g., whole genome amplification, PCR); genomic DNA from other cell types (e.g., human lymphocytes from whole blood) or its amplification. To prepare DNA, any extraction or purification method that produces genomic DNA suitable for one of these platforms will work as well. This method may work equally well with samples of RNA. In certain embodiments, the samples may be stored in a way that minimizes degradation (e.g., frozen at about -20°C or lower).

親支援
いくつかの実施形態は、PARENTAL SUPPORT(商標)(PS)法と組み合わせて用いることができ、PARENTAL SUPPORT(商標)(PS)法の複数の実施形態は、その全体が参照により本明細書に組み込まれる、米国特許出願第11/603,406号(米国特許出願公開第20070184467号)、米国特許出願第12/076,348号(米国特許出願公開第20080243398号)、米国特許出願第13/110,685号、PCT出願第PCT/US09/52730号(PCT公開第WO/2010/017214号)、およびPCT出願第PCT/US10/050824号(PCT公開第WO/2011/041485号)に記載されている。これらの特許は、その全体が参照により本明細書に組み込まれる。PARENTAL SUPPORT(商標)は、遺伝子データを解析するために使用することができる、インフォマティクスに基づく手法である。いくつかの実施形態では、本明細書に開示されている方法は、PARENTAL SUPPORT(商標)法の一部とみなすことができる。いくつかの実施形態では、PARENTAL SUPPORT(商標)法は、標的個体の遺伝子データを高い正確度で、その個体由来の1つまたは少数の細胞の遺伝子データ、または標的個体由来のDNAおよび1個または複数個の他の個体由来のDNAからなるDNAの混合物の遺伝子データを決定するため、詳細には、標的個体における疾患関連対立遺伝子、他の対象の対立遺伝子、および/または1個または複数個の染色体の倍数性状態を決定するために使用することができる方法の集合である。PARENTAL SUPPORT(商標)とは、これらの方法のいずれも指し得る。PARENTAL SUPPORT(商標)は、インフォマティクスに基づく方法の例である。PARENTAL SUPPORT(商標)法の代表的実施形態は、図29~31Gに図示され、また、実験19に記載されている。
PARENTAL SUPPORT Some embodiments may be used in combination with the PARENTAL SUPPORT™ (PS) Method, embodiments of which are described in U.S. Patent Application No. 11/603,406 (U.S. Patent Application Publication No. 20070184467), U.S. Patent Application No. 12/076,348 (U.S. Patent Application Publication No. 20080243398), U.S. Patent Application No. 13/110,685, PCT Application No. PCT/US09/52730 (PCT Publication No. WO/2010/017214), and PCT Application No. PCT/US10/050824 (PCT Publication No. WO/2011/041485), which are incorporated by reference herein in their entireties. These patents are incorporated herein by reference in their entirety. PARENTAL SUPPORT™ is an informatics-based approach that can be used to analyze genetic data. In some embodiments, the methods disclosed herein can be considered as part of the PARENTAL SUPPORT™ method. In some embodiments, the PARENTAL SUPPORT™ method is a collection of methods that can be used to determine the genetic data of a target individual with high accuracy, the genetic data of one or a small number of cells from that individual, or the genetic data of a mixture of DNA consisting of DNA from the target individual and DNA from one or more other individuals, in particular to determine disease-associated alleles, other alleles of interest, and/or the ploidy state of one or more chromosomes in the target individual. PARENTAL SUPPORT™ can refer to any of these methods. PARENTAL SUPPORT™ is an example of an informatics-based method. An exemplary embodiment of the PARENTAL SUPPORT™ method is illustrated in FIGS.

PARENTAL SUPPORT(商標)法では、既知の親の遺伝子データ、すなわち母親および/または父親のハプロタイプおよび/または二倍体の遺伝子データを、減数分裂の機構および標的DNAの不完全な測定、および場合によっては1つまたは複数の関連する個体の知見と共に、集団に基づく乗換え頻度と一緒に、インシリコで、複数の対立遺伝子における遺伝子型、および/または胚または任意の標的細胞(複数可)の倍数性状態、および重要な遺伝子座に対して位置を決める標的DNAを高い程度の信頼度で再構築するために使用する。PARENTAL SUPPORT(商標)法により、不十分に測定された一塩基多型(SNP)だけでなく、挿入および欠失、ならびに全く測定されなかったSNPまたはDNAの全領域も再構築することができる。さらに、PARENTAL SUPPORT(商標)法により、単一細胞から、複数の疾患連鎖遺伝子座の測定ならびに異数性についてのスクリーニングの両方を行うことができる。いくつかの実施形態では、PARENTAL SUPPORT(商標)法を用いて、1個または複数個の細胞の遺伝子の状態を決定するために、IVFサイクルの間に生検された胚由来の1個または複数個の細胞を特徴付けることができる。 In the PARENTAL SUPPORT™ method, known parental genetic data, i.e., maternal and/or paternal haplotype and/or diploid genetic data, together with incomplete measurements of the meiotic machinery and target DNA, and possibly knowledge of one or more related individuals, together with population-based crossover frequencies, are used to reconstruct in silico, with a high degree of confidence, the genotype at multiple alleles, and/or the ploidy state of the embryo or any target cell(s), and the target DNA that maps to key loci. The PARENTAL SUPPORT™ method allows the reconstruction of not only poorly measured single nucleotide polymorphisms (SNPs), but also insertions and deletions, as well as SNPs or entire regions of DNA that were not measured at all. Furthermore, the PARENTAL SUPPORT™ method allows both the measurement of multiple disease-linked loci as well as screening for aneuploidy from a single cell. In some embodiments, the PARENTAL SUPPORT™ method can be used to characterize one or more cells from an embryo biopsied during an IVF cycle to determine the genetic status of the one or more cells.

PARENTAL SUPPORT(商標)法により、ノイズを伴う遺伝子データをクリーニングすることが可能になる。これは、関連する個体(親)の遺伝子型を参照として用いて、標的ゲノム(胚)における正確な遺伝子の対立遺伝子を推定することによって行ない得る。PARENTAL SUPPORT(商標)は、少量の遺伝物質しか利用可能でない場合(例えば、PGD)、および遺伝物質の量が限られていることに起因して遺伝子型の直接的な測定が本質的にノイズを伴う場合に特に適し得る。PARENTAL SUPPORT(商標)は、利用可能な遺伝物質のごく一部のみが標的個体由来である場合(例えば、NPD)、および別の個体由来の混入DNAシグナルに起因して遺伝子型の直接的な測定が本質的にノイズを伴う場合に特に適し得る。PARENTAL SUPPORT(商標)法により、従来の順序づけられていない二倍体測定値は対立遺伝子のドロップアウト、ドロップイン、可変性の増幅の偏りおよび他のエラーの率が高いことによって特徴付けることができるが、胚上に非常に正確な規則正しい二倍体の対立遺伝子配列を、染色体セグメントのコピー数と共に再構築することができる。前記方法では、基礎をなす遺伝子モデルおよび基礎をなす測定エラーのモデルの両方を使用することができる。遺伝子モデルにより、各SNPにおける対立遺伝子の確率およびSNP間の乗換え確率の両方を決定することができる。対立遺伝子の確率は、各SNPにおいて親から得られたデータに基づいてモデリングすることができ、International HapMap Projectにより開発されたHapMapデータベースから得られたデータに基づいてSNP間の乗換え確率をモデリングすることができる。適切な基礎をなす遺伝子モデルおよび測定エラーモデルを考慮すると、最大事後(MAP)推定を、計算的に効率的にするための改変を伴って用いて、正確な、胚の各SNPにおける規則正しい対立遺伝子値を推定することができる。 The PARENTAL SUPPORT™ method allows cleaning of noisy genetic data. This can be done by estimating the exact genetic alleles in the target genome (embryo) using the genotypes of related individuals (parents) as a reference. PARENTAL SUPPORT™ may be particularly suitable when only a small amount of genetic material is available (e.g., PGD) and when direct measurement of genotype is inherently noisy due to the limited amount of genetic material. PARENTAL SUPPORT™ may be particularly suitable when only a small portion of the available genetic material is from the target individual (e.g., NPD) and when direct measurement of genotype is inherently noisy due to contaminating DNA signals from another individual. The PARENTAL SUPPORT™ method allows highly accurate regular diploid allele arrangements on embryos to be reconstructed along with the copy numbers of chromosome segments, whereas conventional unordered diploid measurements can be characterized by high rates of allele dropout, drop-in, variable amplification bias and other errors.The method can use both the underlying genetic model and the underlying measurement error model.The genetic model can determine both the allele probability at each SNP and the crossover probability between SNPs.The allele probability can be modeled based on the data obtained from parents at each SNP, and the crossover probability between SNPs can be modeled based on the data obtained from the HapMap database developed by the International HapMap Project. Given the appropriate underlying genetic and measurement error models, maximum a posteriori (MAP) estimation can be used, with modifications to make it computationally efficient, to estimate accurate, ordered allele values at each SNP in the embryo.

上で概説した技法により、いくつかの場合には、個体の遺伝子型を、その個体に由来する非常に少量のDNAを考慮して決定することができる。これは、1つまたは少数の細胞由来のDNAであってよい、または、母系の血液中に見いだされる少量の胎児DNA由来であってよい。 The techniques outlined above allow, in some cases, the genotype of an individual to be determined by considering very small amounts of DNA from that individual. This may be DNA from one or a few cells, or it may be from the small amounts of fetal DNA found in maternal blood.

仮説
本開示との関連において、仮説とは、可能性のある遺伝子の状態を指す。仮説とは、可能性のある倍数性状態を指し得る。仮説とは、可能性のある対立遺伝子の状態を指し得る。仮説の集合とは、可能性のある遺伝子の状態の集合、可能性のある対立遺伝子の状態の集合、可能性のある倍数性状態の集合、またはそれらの組み合わせを指し得る。いくつかの実施形態では、仮説の集合は、集合からの1つの仮説が、任意の所与の個体の実際の遺伝子の状態に対応するように設計することができる。いくつかの実施形態では、仮説の集合は、あらゆる可能性のある遺伝子の状態が、集合からの少なくとも1つの仮説によって記載することができるように設計することができる。本開示のいくつかの実施形態では、方法の一態様は、どの仮説が問題の個体の実際の遺伝子の状態に対応するかを決定することである。
Hypothesis In the context of the present disclosure, a hypothesis refers to a possible genetic state. A hypothesis may refer to a possible ploidy state. A hypothesis may refer to a possible allelic state. A set of hypotheses may refer to a set of possible genetic states, a set of possible allelic states, a set of possible ploidy states, or a combination thereof. In some embodiments, a set of hypotheses can be designed such that one hypothesis from the set corresponds to the actual genetic state of any given individual. In some embodiments, a set of hypotheses can be designed such that every possible genetic state can be described by at least one hypothesis from the set. In some embodiments of the present disclosure, an aspect of the method is to determine which hypothesis corresponds to the actual genetic state of the individual in question.

本開示の別の実施形態では、1つのステップは仮説を作製するステップを包含する。いくつかの実施形態では、仮説は、コピー数仮説であってよい。いくつかの実施形態では、仮説は、関連する個体のそれぞれ由来のどの染色体のセグメントが、もしあれば、他の関連する個体のどのセグメントに遺伝的に対応するかに関する仮説を包含する。仮説を作製することとは、変数の限度を、考慮中の可能性のある遺伝子の状態の全集合がそれらの変数に包含されるように設定する行為を指し得る。 In another embodiment of the present disclosure, a step includes generating a hypothesis. In some embodiments, the hypothesis may be a copy number hypothesis. In some embodiments, the hypothesis includes a hypothesis regarding which chromosomal segments from each of the related individuals correspond genetically to which segments, if any, in other related individuals. Generating a hypothesis may refer to the act of setting limits on variables such that the entire set of possible genetic states under consideration are encompassed by those variables.

「コピー数仮説」は、「倍数性仮説」または「倍数性状態仮説」とも称され、標的個体における所与の染色体コピー、染色体型または染色体のセクションについての可能性のある倍数性状態に関する仮説を指し得る。これは、個体の2種以上の染色体型における倍数性状態を指す場合もある。コピー数仮説の集合とは、仮説の集合を指してもよく、各仮説は、個体における可能性のある異なる倍数性状態に対応する。仮説の集合は、可能性のある倍数性状態の集合、可能性のある親のハプロタイプの寄与の集合、混合試料中の可能性のある胎児DNAの百分率の集合、またはそれらの組み合わせに関するものであってもよい。 "Copy number hypothesis", also referred to as "ploidy hypothesis" or "ploidy state hypothesis", may refer to a hypothesis regarding the possible ploidy state for a given chromosome copy, chromosome type, or section of a chromosome in a target individual. It may also refer to the ploidy state in two or more chromosome types in an individual. A set of copy number hypotheses may refer to a set of hypotheses, each corresponding to a different possible ploidy state in an individual. A set of hypotheses may be for a set of possible ploidy states, a set of possible parental haplotype contributions, a set of possible fetal DNA percentages in a mixed sample, or a combination thereof.

正常な個体は、各親由来の各染色体型のうちの1つを含有する。しかし、減数分裂および有糸分裂におけるエラーに起因して、個体が、各親由来の所与の染色体型を0個、1個、2個、またはそれより多くを有する可能性がある。実際には、親由来の所与の染色体が3つ以上認められることはまれである。本開示では、いくつかの実施形態では、所与の染色体の0コピー、1コピーまたは2コピーが親に由来する、可能性のある仮説のみを考慮し、親を起源とするいくらか可能性のあるコピーを考慮することは自明の拡張である。いくつかの実施形態では、所与の染色体に対して、可能性のある仮説が9つある:母体起源の0個の染色体、1個の染色体または2個の染色体に関する3つの可能性のある仮説に父系起源の0個の染色体、1個の染色体または2個の染色体に関する3つの可能性のある仮説を掛け合わせたもの。(m,f)を、mが母親から遺伝によって受け継がれた所与の染色体の数であり、およびfが父親から遺伝によって受け継がれた所与の染色体の数である仮説を指すものとする。したがって、9つの仮説は、(0、0)、(0、1)、(0、2)、(1、0)、(1、1)、(1、2)、(2、0)、(2、1)、および(2、2)である。これらは、H00、H01、H02、H10、H12、H20、H21、およびH22と記載することもできる。.異なる仮説は、異なる倍数性状態に対応する。例えば、(1、1)とは、通常のダイソミー染色体を指し、(2、1)とは、母系トリソミーを指し、(0、1)とは、父系モノソミーを指す。いくつかの実施形態では、2つの染色体が一方の親から遺伝によって受け継がれ、1つの染色体が他方の親から遺伝によって受け継がれる場合は、2つの場合にさらに分けられ得る:2つの染色体が同一である場合(一致コピーエラー)と、2つの染色体が相同であるが同一ではない場合(不一致コピーエラー)。これらの実施形態では、可能性のある仮説が16ある。他の仮説の集合、および異なる数の仮説を使用することが可能であることが理解されるべきである。 A normal individual contains one of each chromosome type from each parent. However, due to errors in meiosis and mitosis, an individual may have zero, one, two, or more of a given chromosome type from each parent. In practice, it is rare to find more than two copies of a given chromosome from a parent. In this disclosure, in some embodiments, we only consider the possible hypotheses that zero, one, or two copies of a given chromosome come from a parent, with a trivial extension to consider some possible copies originating from a parent. In some embodiments, for a given chromosome, there are nine possible hypotheses: three possible hypotheses for zero, one, or two chromosomes of maternal origin multiplied by three possible hypotheses for zero, one, or two chromosomes of paternal origin. Let (m, f) refer to the hypothesis where m is the number of a given chromosome inherited by the mother, and f is the number of a given chromosome inherited by the father. Thus, the nine hypotheses are (0,0), (0,1), (0,2), (1,0), (1,1), (1,2), (2,0), (2,1), and (2,2). These can also be written as H00 , H01 , H02 , H10 , H12 , H20 , H21 , and H22 . Different hypotheses correspond to different ploidy states. For example, (1,1) refers to a normal disomic chromosome, (2,1) refers to a maternal trisomy, and (0,1) refers to a paternal monosomy. In some embodiments, the case where two chromosomes are inherited from one parent and one chromosome is inherited from the other parent can be further divided into two cases: when the two chromosomes are identical (matching copy error) and when the two chromosomes are homologous but not identical (mismatching copy error). In these embodiments, there are 16 possible hypotheses. It should be understood that other sets of hypotheses, and different numbers of hypotheses, can be used.

本開示のいくつかの実施形態では、倍数性仮説とは、他の関連する個体由来の染色体のいずれが、標的個体のゲノムに見いだされる染色体に対応するかに関する仮説を指す。いくつかの実施形態では、方法の鍵となるのは、関連する個体がハプロタイプブロックを共有することが予測され得るという事実であり、関連する個体から測定された遺伝子データを、どのハプロタイプブロックが標的個体と関連する個体との間で一致するかの知見と一緒に用いると、標的個体の遺伝子測定値を単独で用いるよりも高い信頼度で標的個体についての正確な遺伝子データを推論することが可能である。従って、いくつかの実施形態では、倍数性仮説は、染色体の数だけでなく、関連する個体のどの染色体が、標的個体の1個または複数個の染色体と同一またはほぼ同一であるかに関し得る。 In some embodiments of the present disclosure, the ploidy hypothesis refers to a hypothesis regarding which chromosomes from other related individuals correspond to chromosomes found in the genome of the target individual. In some embodiments, key to the method is the fact that related individuals can be predicted to share haplotype blocks, and using measured genetic data from related individuals together with knowledge of which haplotype blocks match between the target and related individuals, it is possible to infer accurate genetic data about the target individual with a higher degree of confidence than using the genetic measurements of the target individual alone. Thus, in some embodiments, the ploidy hypothesis may concern not only the number of chromosomes, but also which chromosomes of related individuals are identical or nearly identical to one or more chromosomes of the target individual.

仮説の集合が定義されたら、アルゴリズムが入力遺伝子データに対して作動すると、考慮中の仮説のそれぞれについて、決定された統計学的な確率が出力され得る。種々の仮説の確率は、種々の仮説のそれぞれについて、専門技法、アルゴリズム、および/または本開示の他の箇所に記載されている方法のうちの1つまたは複数により示された確率が等しい値を、関連性のある遺伝子データを入力として用いて数学的に算出することによって決定することができる。 Once a set of hypotheses is defined, the algorithm may operate on the input genetic data to output a determined statistical probability for each of the hypotheses under consideration. The probabilities of the various hypotheses may be determined by mathematically calculating, using the relevant genetic data as input, a value that is equal in probability to that indicated by one or more of the expert techniques, algorithms, and/or methods described elsewhere in this disclosure for each of the various hypotheses.

複数の技法によって決定された通り、異なる仮説の確率が推定されたら、それらを組み合わせることができる。これは、各仮説について、各技法によって決定された確率を掛け算することを必要とし得る。仮説の確率の積を正規化することができる。1つの倍数性仮説は、染色体についての1つの可能性のある倍数性状態を指す。 Once the probabilities of different hypotheses, as determined by multiple techniques, have been estimated, they can be combined. This may require multiplying the probabilities determined by each technique for each hypothesis. The product of the hypothesis probabilities can be normalized. One ploidy hypothesis refers to one possible ploidy state for a chromosome.

「確率の組み合わせ」プロセスは、「仮説の組み合わせ」または専門技法の結果の組み合わせとも称され、線形代数の当業者によく知られているはずの概念である。1つの可能性のある確率の組み合わせ方は以下の通りである:専門技法を用いて、遺伝子データの集合を考慮して仮説の集合を評価する場合、方法の出力は、仮説の集合内の各仮説と1対1で関連する確率の集合である。そのそれぞれが集合内の仮説のうちの1つと関連づけられる、第1の専門技法によって決定された確率の集合を、そのそれぞれが同じ仮説の集合と関連づけられる、第2の専門技法によって決定された確率の集合と組み合わせる場合、確率の2つの集合を掛け算する。これは、集合内の各仮説について、2つの専門方法によって決定された、その仮説と関連づけられる2つの確率を掛け合わせ、対応する積が出力確率であることを意味する。このプロセスは、任意の数の専門技法に拡大することができる。ただ1つの専門技法を用いる場合、出力確率は入力確率と同じである。3つ以上の専門技法を用いる場合、関連性のある確率を同時に掛け算することができる。積は、仮説の集合内の仮説の確率が合計で100%になるように正規化することができる。 The process of "combining probabilities", also referred to as "combining hypotheses" or combining the results of expert techniques, is a concept that should be familiar to those skilled in the art of linear algebra. One possible way of combining probabilities is as follows: When an expert technique is used to evaluate a set of hypotheses given a set of genetic data, the output of the method is a set of probabilities that are one-to-one associated with each hypothesis in the set of hypotheses. When a set of probabilities determined by a first expert technique, each of which is associated with one of the hypotheses in the set, is combined with a set of probabilities determined by a second expert technique, each of which is associated with the same set of hypotheses, the two sets of probabilities are multiplied. This means that for each hypothesis in the set, the two probabilities associated with that hypothesis, determined by the two expert methods, are multiplied together, and the corresponding product is the output probability. This process can be extended to any number of expert techniques. When only one expert technique is used, the output probability is the same as the input probability. When more than two expert techniques are used, the relevant probabilities can be multiplied simultaneously. The products can be normalized so that the probabilities of the hypotheses in the set of hypotheses sum to 100%.

いくつかの実施形態では、所与の仮説についての複合確率が他の仮説のいずれかについての複合確率を超える場合、その仮説が、最も可能性が高いと決定されるとみなすことができる。いくつかの実施形態では、正規化された確率が閾値を超えた場合、仮説を、最も可能性が高いと決定することができ、倍数性状態または他の遺伝子の状態をコールすることができる。ある実施形態では、これは、その仮説に関連づけられる染色体の数および同一性を、倍数性状態としてコールすることができることを意味し得る。ある実施形態では、これは、その仮説に関連づけられる対立遺伝子の同一性を、対立遺伝子の状態としてコールすることができることを意味し得る。いくつかの実施形態では、閾値は、約50%から約80%の間であり得る。いくつかの実施形態では、閾値は、約80%から約90%の間であり得る。いくつかの実施形態では、閾値は、約90%から約95%の間であり得る。いくつかの実施形態では、閾値は、約95%から約99%の間であり得る。いくつかの実施形態では、閾値は、約99%から約99.9%の間であり得る。いくつかの実施形態では、閾値は、約99.9%超であり得る。 In some embodiments, if the combined probability for a given hypothesis exceeds the combined probability for any of the other hypotheses, that hypothesis may be considered to be determined to be most likely. In some embodiments, if the normalized probability exceeds a threshold, the hypothesis may be determined to be most likely and a ploidy state or other genetic state may be called. In an embodiment, this may mean that the number and identity of chromosomes associated with that hypothesis may be called as a ploidy state. In an embodiment, this may mean that the identity of alleles associated with that hypothesis may be called as an allele state. In some embodiments, the threshold may be between about 50% and about 80%. In some embodiments, the threshold may be between about 80% and about 90%. In some embodiments, the threshold may be between about 90% and about 95%. In some embodiments, the threshold may be between about 95% and about 99%. In some embodiments, the threshold may be between about 99% and about 99.9%. In some embodiments, the threshold may be greater than about 99.9%.

親の状況
親の状況とは、標的の2体の親の一方または両方についての、2つの関連性のある染色体のそれぞれの所与の対立遺伝子の遺伝子の状態を指す。ある実施形態では、親の状況とは、標的の対立遺伝子の状態を指すのではなく、親の対立遺伝子の状態を指すことに留意されたい。所与のSNPについての親の状況は、父系の2つと母系の2つの、4塩基対からなってよく、これらは互いに同じであってよい、または異なってよい。「m|f」と書くことが一般的であり、ここでmおよびmは、2つの母系染色体上の所与のSNPの遺伝子の状態であり、fおよびfは2つの父系染色体上の所与のSNPの遺伝子の状態である。いくつかの実施形態では、親の状況は、「f|m」と書くことができる。下付き文字の「1」および「2」は、第1の染色体および第2の染色体の所与の対立遺伝子における遺伝子型を示すことに留意されたい。どの染色体を「1」とし、どの染色体を「2」とするかの選択は任意であることにも留意されたい。
Parental context Parental context refers to the genetic state of a given allele of each of the two relevant chromosomes for one or both of the two parents of the target. Note that in an embodiment, parental context does not refer to the allelic state of the target, but rather to the allelic state of the parents. The parental context for a given SNP may consist of four base pairs, two paternal and two maternal, which may be the same or different from each other. It is common to write "m 1 m 2 | f 1 f 2 ", where m 1 and m 2 are the genetic states of the given SNP on the two maternal chromosomes, and f 1 and f 2 are the genetic states of the given SNP on the two paternal chromosomes. In some embodiments, the parental context can be written as "f 1 f 2 | m 1 m 2 ". Note that the subscripts "1" and "2" indicate the genotype at a given allele on the first and second chromosomes. Note also that the choice of which chromosome is designated "1" and which is designated "2" is arbitrary.

本開示では、塩基対の同一性を一般的に示すために、多くの場合、AおよびBを使用することに留意されたい;AまたはBは、C(シトシン)、G(グアニン)、A(アデニン)またはT(チミン)を同等に上手く示すことができる。例えば、所与のSNPに基づく対立遺伝子において、母親の遺伝子型が1つの染色体上のそのSNPにおいてTであり、相同染色体上のそのSNPにおいてGであり、その対立遺伝子における父親の遺伝子型が、相同染色体の両方のそのSNPにおいてGであった場合、標的個体の対立遺伝子が親の状況AB|BBを有するということができ、対立遺伝子が親の状況AB|AAを有するということもできる。理論上、4種の可能性のあるヌクレオチドはいずれも所与の対立遺伝子に存在してもよく、したがって、例えば、所与の対立遺伝子において母親が遺伝子型ATを有し、父親が遺伝子型GCを有する可能性があることに留意されたい。しかし、経験的なデータにより、ほとんどの場合、所与の対立遺伝子において4種の可能性のある塩基対のうち2種のみが観察されることが示されている。例えば、単一のタンデム反復を用いた場合、2超、4超、さらには10超の親の状況を有する可能性がある。本開示の考察では、所与の対立遺伝子において2種の可能性のある塩基対のみが観察されると仮定するが、本明細書に開示されている実施形態は、この仮定が当てはまらない場合を考慮に入れるように改変することができる。 Note that in this disclosure, A and B are often used to generally indicate the identity of a base pair; A or B can equally well indicate C (cytosine), G (guanine), A (adenine) or T (thymine). For example, if at a given SNP-based allele the mother's genotype is T at that SNP on one chromosome and G at that SNP on the homologous chromosome, and the father's genotype at that allele is G at that SNP on both homologous chromosomes, then the target individual's allele can be said to have the parental context AB|BB, and the allele can also be said to have the parental context AB|AA. Note that in theory, all four possible nucleotides may be present at a given allele, so, for example, the mother may have the genotype AT and the father may have the genotype GC at a given allele. However, empirical data shows that in most cases, only two of the four possible base pairs are observed at a given allele. For example, with a single tandem repeat, it is possible to have more than two, more than four, or even more than ten parental situations. The discussion in this disclosure assumes that only two possible base pairs are observed at a given allele, but the embodiments disclosed herein can be modified to take into account cases where this assumption is not true.

「親の状況」とは、同じ親の状況を有する標的SNPの集合またはサブセットを指し得る。例えば、標的個体の所与の染色体上の1000個の対立遺伝子を測定する場合、状況AA|BBとは、標的の母親の遺伝子型がホモ接合性であり、標的の父親の遺伝子型がホモ接合性であるが、その遺伝子座における母系の遺伝子型と父系の遺伝子型が同様でない、1,000個の対立遺伝子群内の全ての対立遺伝子の集合を示し得る。親のデータについて相が特定されない、したがって、AB=BAである場合は、可能性のある親の状況は9ある:AA|AA、AA|AB、AA|BB、AB|AA、AB|AB、AB|BB、BB|AA、BB|AB、およびBB|BB。親のデータについて相が特定される、したがって、AB≠BAである場合は、可能性のある異なる親の状況が16ある:AA|AA、AA|AB、AA|BA、AA|BB、AB|AA、AB|AB、AB|BA、AB|BB、BA|AA、BA|AB、BA|BA、BA|BB、BB|AA、BB|AB、BB|BA、およびBB|BB。性染色体上の一部のSNPを除いて、染色体上のあらゆるSNP対立遺伝子が、これらの親の状況のうちの1つを有する。一方の親についての親の状況がヘテロ接合性であるSNPの集合は、ヘテロ接合性の状況と称することができる。 "Parental context" may refer to a set or subset of target SNPs that have the same parental context. For example, if 1000 alleles on a given chromosome of a target individual are measured, context AA|BB may refer to the set of all alleles in the 1,000 allele group where the target's mother's genotype is homozygous and the target's father's genotype is homozygous, but the maternal and paternal genotypes at that locus are not similar. If the parental data is not phased, so AB=BA, there are nine possible parental contexts: AA|AA, AA|AB, AA|BB, AB|AA, AB|AB, AB|BB, BB|AA, BB|AB, and BB|BB. If the parental data are phased, thus AB≠BA, there are 16 different possible parental contexts: AA|AA, AA|AB, AA|BA, AA|BB, AB|AA, AB|AB, AB|BA, AB|BB, BA|AA, BA|AB, BA|BA, BA|BB, BB|AA, BB|AB, BB|BA, and BB|BB. With the exception of some SNPs on the sex chromosomes, every SNP allele on a chromosome has one of these parental contexts. The set of SNPs where the parental context for one parent is heterozygous can be referred to as a heterozygous context.

NPDにおける親の状況の使用
非侵襲的な出生前診断は、非侵襲的に、例えば、妊娠中の母親に対する採血によって得られる遺伝物質から胎児の遺伝子の状態を決定するために用いることができる重要な技法である。血液を分離し、血漿単離し、その後血漿DNAを単離することができる。サイズ選択を用いて、適切な長さのDNAを単離することができる。DNAを遺伝子座の集合において優先的に富化することができる。次いで、このDNAを、遺伝子型決定アレイにハイブリダイズさせ、蛍光を測定することによって、またはハイスループットシーケンサーでシークエンシングによる、いくつもの手段によって測定することができる。
Use of Parental Status in NPD Non-invasive prenatal testing is an important technique that can be used to determine the genetic status of a fetus non-invasively, for example, from genetic material obtained by drawing blood from the pregnant mother. Blood can be separated, plasma isolated, and then plasma DNA isolated. Size selection can be used to isolate DNA of the appropriate length. DNA can be preferentially enriched in a set of loci. This DNA can then be measured by a number of means, such as hybridizing to a genotyping array and measuring fluorescence, or by sequencing on a high-throughput sequencer.

非侵襲的な出生前診断との関連において胎児の倍数性コールのために配列決定を使用する場合、配列データを使用するいくつもの方法がある。配列データを使用することができる最も一般的な方法は、単に所与の染色体にマッピングされるリード数をカウントすることである。例えば、胎児の第21染色体の倍数性状態を決定しようとすると考える。さらに、試料中のDNAの10%が胎児起源のDNAで構成され、90%が母体起源のDNAで構成されると考える。この場合、ダイソミーであることが予測され得る染色体、例えば、第3染色体のリードの平均の数を調べ、それを、リードを独特の配列の一部である染色体上の塩基対の数について調整した第21染色体上のリード数と比較する。胎児が正倍数性であった場合、ゲノムの単位当たりのDNAの量は全ての場所においてほぼ同等であることが予想される(確率的変動を受けやすい)。他方では、胎児が第21染色体においてトリソミーであった場合、第21染色体由来の遺伝単位当たりのDNAがゲノムの他の場所よりもわずかに多いことが予想される。詳細には、混合物中の第21染色体由来のDNAが約5%多いことが予想される。配列決定を使用してDNAを測定する場合、独特のセグメント当たりの第21染色体由来の独自にマッピング可能なリードが他の染色体由来のものよりも約5%多いことが予想される。ある特定の閾値よりも多い量の特定の染色体由来のDNAの観察を、その染色体に独自にマッピング可能な配列の数について調整した場合に、異数性を診断するための基礎として使用することができる。異数性を検出するために使用することができる別の方法は、親の状況を考慮に入れることができること以外は上記のものと同様である。 When using sequencing for fetal ploidy calling in the context of non-invasive prenatal diagnosis, there are a number of ways to use sequence data. The most common way sequence data can be used is simply to count the number of reads that map to a given chromosome. For example, consider that one wishes to determine the ploidy state of chromosome 21 of a fetus. Further consider that 10% of the DNA in the sample is composed of DNA of fetal origin and 90% of DNA of maternal origin. In this case, one looks at the average number of reads for a chromosome that can be predicted to be disomic, e.g., chromosome 3, and compares it to the number of reads on chromosome 21 where the reads are adjusted for the number of base pairs on the chromosome that are part of the unique sequence. If the fetus was euploid, one would expect the amount of DNA per unit of genome to be roughly equal at all locations (subject to stochastic variation). On the other hand, if the fetus was trisomic at chromosome 21, one would expect slightly more DNA per genetic unit from chromosome 21 than elsewhere in the genome. In particular, one would expect about 5% more DNA from chromosome 21 in the mixture. When sequencing is used to measure DNA, it is expected that there will be approximately 5% more uniquely mappable reads from chromosome 21 per unique segment than from other chromosomes. The observation of an amount of DNA from a particular chromosome greater than a certain threshold, when adjusted for the number of uniquely mappable sequences to that chromosome, can be used as the basis for diagnosing aneuploidy. Another method that can be used to detect aneuploidy is similar to the one above, except that it can take into account parental circumstances.

どの対立遺伝子を標的とするかを考える際、一部の親の状況が、他よりも情報価値がある可能性がある尤度を考慮に入れることができる。例えば、AA|BBおよび対称の状況BB|AAでは、胎児が母親とは異なる対立遺伝子を保有することが既知であるので、最も情報価値のある状況である。対称性の理由で、AA|BB状況とBB|AA状況はどちらもAA|BBと称することができる。情報価値のある親の状況の別の集合はAA|ABおよびBB|ABであり、これは、これらの場合、胎児が、母親が有さない対立遺伝子を保有する見込みが50%であるからである。対称性の理由で、AA|AB状況とBB|AB状況はどちらも、AA|ABと称することができる。情報価値のある親の状況の第3の集合はAB|AAおよびAB|BBであり、これは、これらの場合、胎児が既知の父系対立遺伝子を保有し、その対立遺伝子が母系ゲノムにも存在するからである。対称性の理由で、AB|AA状況とAB|BB状況は、AB|AAと称することができる。第4の親の状況はAB|ABであり、ここでは胎児は未知の対立遺伝子の状態を有し、対立遺伝子の状態がいかなるものでも、それは、母親が同じ対立遺伝子を有するものである。第5の親の状況はAA|AAであり、ここでは母親および父親がヘテロ接合性である。 When considering which alleles to target, one can take into account the likelihood that some parental situations may be more informative than others. For example, AA|BB and the symmetric situation BB|AA are the most informative situations because the fetus is known to carry a different allele than the mother. For symmetry reasons, both the AA|BB and BB|AA situations can be referred to as AA|BB. Another set of informative parental situations are AA|AB and BB|AB, because in these cases the fetus has a 50% chance of carrying an allele that the mother does not have. For symmetry reasons, both the AA|AB and BB|AB situations can be referred to as AA|AB. A third set of informative parental situations are AB|AA and AB|BB, because in these cases the fetus carries a known paternal allele that is also present in the maternal genome. For symmetry reasons, the AB|AA and AB|BB situations can be referred to as AB|AA. The fourth parent situation is AB|AB, where the fetus has an unknown allele state, and whatever the allele state is, it is one in which the mother has the same allele. The fifth parent situation is AA|AA, where the mother and father are heterozygous.

ここで開示されている実施形態の異なる実行
標的個体の倍数性状態を決定するための方法が本明細書に開示されている。標的個体は、割球、胚または胎児であってよい。本開示のいくつかの実施形態では、標的個体における1個または複数個の染色体の倍数性状態を決定するための方法は、本文書に記載のステップのいずれか、およびそれらの組み合わせを包含し得る:
Different implementations of the presently disclosed embodiments Disclosed herein are methods for determining the ploidy state of a target individual. The target individual may be a blastomere, an embryo or a fetus. In some embodiments of the present disclosure, the method for determining the ploidy state of one or more chromosomes in a target individual may include any of the steps described herein, and combinations thereof:

いくつかの実施形態では、胎児の遺伝子の状態を決定することにおいて使用する遺伝物質の供給源は、母系の血液から単離された胎児有核赤血球などの胎児の細胞であってよい。前記方法は、妊娠中の母親由来の血液試料を得るステップを包含し得る。前記方法は、視覚的な技法を用いて、色の特定の組み合わせは有核赤血球と独自に関連づけられ、色の同様の組み合わせは母系の血液中に存在する任意の他の細胞には関連づけられないというアイデアに基づいて胎児の赤血球を単離するステップを包含し得る。有核赤血球に関連づけられる色の組み合わせは、染色することによってより区別可能にすることができる核の周りのヘモグロビンの赤色、および、例えば青色に染色することができる核材料の色を含んでよい。母系の血液から細胞を単離し、それをスライドに広げ、次いで、赤色(ヘモグロビン由来)と青色(核材料由来)の両方が認められる点を同定することにより、有核赤血球の場所を同定することが可能となり得る。次いで、これらの有核赤血球を、マイクロマニピュレーターを使用して抽出し、遺伝子型決定および/または配列決定技法を用いて、これらの細胞の遺伝物質の遺伝子型の態様を測定することができる。 In some embodiments, the source of genetic material used in determining the genetic state of the fetus may be fetal cells, such as fetal nucleated red blood cells isolated from maternal blood. The method may include obtaining a blood sample from a pregnant mother. The method may include using visual techniques to isolate fetal red blood cells based on the idea that a particular combination of colors is uniquely associated with nucleated red blood cells, and a similar combination of colors is not associated with any other cells present in the maternal blood. The color combination associated with nucleated red blood cells may include the red color of the hemoglobin around the nucleus, which can be made more distinguishable by staining, and the color of the nuclear material, which can be stained, for example, blue. By isolating cells from the maternal blood and spreading them on a slide, and then identifying points where both red (from hemoglobin) and blue (from nuclear material) are found, it may be possible to identify the location of nucleated red blood cells. These nucleated red blood cells can then be extracted using a micromanipulator, and genotyping and/or sequencing techniques can be used to measure genotypic aspects of the genetic material of these cells.

ある実施形態では、胎児のヘモグロビンの存在下でのみ蛍光を発し、母系のヘモグロビンの存在下では蛍光を発しない色素を用いて有核赤血球を染色し、したがって、有核赤血球が、母親に由来するかまたは胎児に由来するかの多義性を除くことができる。本開示のいくつかの実施形態は、染色または他の方法で核材料に印をつけることを伴ってよい。本開示のいくつかの実施形態は、胎児の細胞に特異的な抗体を使用して胎児核材料に特異的に印をつけることを伴ってよい。 In certain embodiments, nucleated red blood cells are stained with a dye that fluoresces only in the presence of fetal hemoglobin and not in the presence of maternal hemoglobin, thus eliminating any ambiguity as to whether the nucleated red blood cells are of maternal or fetal origin. Some embodiments of the present disclosure may involve staining or otherwise marking the nuclear material. Some embodiments of the present disclosure may involve specifically marking the fetal nuclear material using an antibody specific for fetal cells.

胎児の細胞を母系の血液から単離するため、または胎児DNAを母系の血液から単離するため、または母系遺伝物質の存在下で胎児の遺伝物質の試料を富化するための多くの方法がある。これらの方法のいくつかがここに列挙されているが、これは網羅的な列挙を意図したものではない。便宜上、一部の適切な技法がここに列挙されている:蛍光で、または別の方法でタグを付けた抗体、サイズ排除クロマトグラフィー、磁気で、または他の方法で標識したアフィニティータグ、後成的な差異、例えば、特定の対立遺伝子における母系の細胞と胎児の細胞の間の示差的なメチル化、密度勾配遠心分離に続くCD45/14枯渇およびCD45/14陰性細胞からのCD71陽性選択、異なる重量オスモル濃度を用いた一重または二重のPercoll勾配またはガラクトース特異的レクチン法。 There are many methods for isolating fetal cells from maternal blood, or for isolating fetal DNA from maternal blood, or for enriching samples of fetal genetic material in the presence of maternal genetic material. Some of these methods are listed here, but this is not intended to be an exhaustive list. For convenience, some suitable techniques are listed here: fluorescently or otherwise tagged antibodies, size exclusion chromatography, magnetically or otherwise labeled affinity tags, epigenetic differences, e.g., differential methylation between maternal and fetal cells at specific alleles, density gradient centrifugation followed by CD45/14 depletion and CD71 positive selection from CD45/14 negative cells, single or double Percoll gradients with different osmolalities, or galactose specific lectin methods.

本開示のある実施形態では、標的個体は胎児であり、胎児由来の複数のDNA試料に対して異なる遺伝子型測定を行う。本開示のいくつかの実施形態では、胎児DNA試料は単離された胎児の細胞由来であり、その胎児の細胞は、母系の細胞と混在している可能性がある。本開示のいくつかの実施形態では、胎児DNA試料は浮動性胎児DNA由来であり、その胎児DNAは、浮動性母系DNAと混在している可能性がある。いくつかの実施形態では、胎児DNA試料は、母系DNAと胎児DNAの混合物を含有する母系の血漿または母系の血液から得ることができる。いくつかの実施形態では、胎児DNAは、母系DNAと、99.9:0.1%~99:1%;99:1%~90:10%;90:10%~80:20%;80:20%~70:30%;70:30%~50:50%;50:50%~10:90%;または10:90%~1:99%;1:99%~0.1:99.9%、の範囲の母体:胎児比で混在している可能性がある。 In some embodiments of the present disclosure, the target individual is a fetus, and different genotype measurements are made on multiple DNA samples from the fetus. In some embodiments of the present disclosure, the fetal DNA sample is from isolated fetal cells, which may be mixed with maternal cells. In some embodiments of the present disclosure, the fetal DNA sample is from free-floating fetal DNA, which may be mixed with free-floating maternal DNA. In some embodiments, the fetal DNA sample can be obtained from maternal plasma or maternal blood, which contains a mixture of maternal and fetal DNA. In some embodiments, fetal DNA may be mixed with maternal DNA in maternal:fetal ratios ranging from 99.9:0.1% to 99:1%; 99:1% to 90:10%; 90:10% to 80:20%; 80:20% to 70:30%; 70:30% to 50:50%; 50:50% to 10:90%; or 10:90% to 1:99%; 1:99% to 0.1:99.9%.

標的個体および/または関連する個体の遺伝子データは、これらに限定されないが、遺伝子型決定マイクロアレイ、およびハイスループット配列決定を含めた群から選択されるツールおよび、または技法を用いて適切な遺伝物質を測定することによって、分子的状態から電子的状態に変換することができる。いくつかのハイスループット配列決定方法としては、サンガーDNA配列決定、パイロシークエンシング、ILLUMINA SOLEXAプラットフォーム、ILLUMINAのGENOME ANALYZERまたはAPPLIED BIOSYSTEMの454配列決定プラットフォーム、HELICOSのTRUE SINGLE MOLECULE SEQUENCINGプラットフォーム、HALCYON MOLECULARの電子顕微鏡配列決定法または任意の他の配列決定法が挙げられる。これらの方法は全て、DNAの試料に保存されている遺伝子データを、一般には、途中でメモリデバイスに保存されて加工される遺伝子データの集合に物理的に変換する。 The genetic data of the target individual and/or related individuals can be converted from a molecular state to an electronic state by measuring the appropriate genetic material using tools and/or techniques selected from the group including, but not limited to, genotyping microarrays, and high-throughput sequencing. Some high-throughput sequencing methods include Sanger DNA sequencing, pyrosequencing, the ILLUMINA SOLEXA platform, ILLUMINA's GENOME ANALYZER or APPLIED BIOSYSTEM's 454 sequencing platform, HELICOS' TRUE SINGLE MOLECULE SEQUENCEING platform, HALCYON MOLECULAR's electron microscope sequencing, or any other sequencing method. All of these methods physically convert the genetic data stored in a sample of DNA into a collection of genetic data that is typically stored and processed along the way in a memory device.

関連性のある個体の遺伝子データは、これらに限定されないが、個体のバルク二倍体組織、個体由来の1個または複数個の二倍体細胞、個体由来の1個または複数個の一倍体細胞、標的個体由来の1個または複数個の割球、個体において見いだされる細胞外遺伝物質、母系の血液中に見いだされる個体由来の細胞外遺伝物質、母系の血液中に見いだされる個体由来の細胞、関連する個体由来の配偶子(複数可)から作製される1個または複数個の胚、そのような胚から取得した1個または複数個の割球、関連する個体において見いだされる細胞外遺伝物質、関連する個体を起源とすることが既知である遺伝物質、およびそれらの組み合わせを含めた群から選択される物質を分析することによって測定することができる。 Genetic data of the relevant individual may be measured by analyzing material selected from the group including, but not limited to, bulk diploid tissue of the individual, one or more diploid cells from the individual, one or more haploid cells from the individual, one or more blastomeres from the target individual, extracellular genetic material found in the individual, extracellular genetic material from the individual found in maternal blood, cells from the individual found in maternal blood, one or more embryos created from gamete(s) from the relevant individual, one or more blastomeres obtained from such embryos, extracellular genetic material found in the relevant individual, genetic material known to originate from the relevant individual, and combinations thereof.

いくつかの実施形態では、標的個体の対象の染色体型のそれぞれについて、少なくとも1つの倍数性状態仮説の集合を作製することができる。倍数性状態仮説はそれぞれ、標的個体の染色体または染色体セグメントの1つの可能性のある倍数性状態を指し得る。仮説の集合は、標的個体の染色体が有すると予測することができる、可能性のある倍数性状態の一部または全部を含んでよい。可能性のある倍数性状態のいくつかは、零染色体性、モノソミー、ダイソミー、片親性ダイソミー、正倍数性、トリソミー、一致トリソミー、不一致トリソミー、母系トリソミー、父系トリソミー、テトラソミー、平衡(2:2)テトラソミー、不平衡(3:1)テトラソミー、ペンタソミー、ヘキサソミー、他の異数性、およびそれらの組み合わせを含んでよい。これらの異数性状態はいずれも、混在していてよい、または、部分的な異数性、例えば、不平衡転座、平衡転座、ロバートソン転座、組換え、欠失、挿入、乗換え、およびそれらの組み合わせであってよい。 In some embodiments, a set of at least one ploidy state hypothesis can be generated for each of the chromosome types of interest for the target individual. Each ploidy state hypothesis can refer to one possible ploidy state of a chromosome or chromosome segment of the target individual. The set of hypotheses can include some or all of the possible ploidy states that a chromosome of the target individual can be predicted to have. Some of the possible ploidy states can include nullisomy, monosomy, disomy, uniparental disomy, euploidy, trisomy, concordant trisomy, discordant trisomy, maternal trisomy, paternal trisomy, tetrasomy, balanced (2:2) tetrasomy, unbalanced (3:1) tetrasomy, pentasomy, hexasomy, other aneuploidies, and combinations thereof. Any of these aneuploidy states can be mixed or partial aneuploidies, such as unbalanced translocations, balanced translocations, Robertsonian translocations, recombinations, deletions, insertions, crossovers, and combinations thereof.

いくつかの実施形態では、決定された倍数性状態の知見を使用して、臨床的決定を行うことができる。この知見は、一般には、事項の物理的配列としてメモリデバイスに保存され、次いで、報告に変換することができる。次いで、報告は実行され得る。例えば、臨床的決定は、妊娠中絶することであってよい、あるいは、臨床的決定は、妊娠を継続することであってよい。いくつかの実施形態では、臨床的決定は、遺伝的障害の表現型の発現の重症度を低下させるために設計された介入、または特別支援児(special needs child)に対する準備をするための関連性のあるステップを取る決定を伴ってよい。 In some embodiments, knowledge of the determined ploidy status can be used to make a clinical decision. This knowledge is typically stored in a memory device as a physical array of items and can then be converted into a report. The report can then be executed. For example, the clinical decision can be to terminate the pregnancy, or alternatively, the clinical decision can be to continue the pregnancy. In some embodiments, the clinical decision can involve an intervention designed to reduce the severity of the phenotypic manifestation of the genetic disorder, or a decision to take relevant steps to prepare for a special needs child.

本開示のある実施形態では、本明細書に記載の任意の方法は、複数の標的が、同じ標的個体、例えば、同じ妊娠中の母親からの複数の採血に由来することを可能にするために改変することができる。これにより、複数の遺伝子測定によって標的遺伝子型を決定することができるより多くのデータがもたらされ得るので、モデルの正確度を改善することができる。ある実施形態では、1つの標的遺伝子データの集合は、報告された一次データとしての機能を果たし、他の標的遺伝子データの集合は、一次標的遺伝子データを再確認するためのデータとしての機能を果たす。ある実施形態では、標的個体から取得した遺伝物質からそれぞれ測定された複数の遺伝子データの集合を並行して考慮し、したがって、両方の標的遺伝子データの集合は、高い正確度で測定された親の遺伝子データのどのセクションが胎児のゲノムを構成するかを決定するための助けとして機能する。 In certain embodiments of the present disclosure, any of the methods described herein can be modified to allow multiple targets to be derived from the same target individual, e.g., multiple blood draws from the same pregnant mother. This can improve the accuracy of the model, since multiple genetic measurements can provide more data from which target genotypes can be determined. In certain embodiments, one set of target genetic data serves as the reported primary data, and the other set of target genetic data serves as data to reconfirm the primary target genetic data. In certain embodiments, multiple sets of genetic data, each measured from genetic material obtained from a target individual, are considered in parallel, and thus both sets of target genetic data serve as aids to determine which sections of parental genetic data measured with high accuracy constitute the fetal genome.

ある実施形態では、前記方法を、父子試験のために使用することができる。例えば、母親から、および遺伝学的父親である、またはそうでない可能性がある男性からのSNPに基づく遺伝子型の情報ならびに混合試料から測定された遺伝子型の情報を考慮すると、その男性の遺伝子型の情報が実際に妊娠中の胎児の実際の遺伝学的父親を表しているかどうかを決定することが可能である。これを行うための単純な方法は、単に、母親がAAであり、可能性のある父親がABまたはBBである状況について検査することである。これらの場合、それぞれ、父親が2分の1回(AA|AB)または常に(AA|BB)寄与することを予想することができる。予測ADOを考慮に入れると、観察される胎児のSNPが、可能性のある父親のSNPと相関するかどうかを決定することは簡単である。 In an embodiment, the method can be used for paternity testing. For example, given SNP-based genotype information from the mother and from a man who may or may not be the genetic father, as well as genotype information measured from a mixed sample, it is possible to determine whether the man's genotype information actually represents the actual genetic father of the gestating fetus. A simple way to do this is to simply test for situations where the mother is AA and the possible father is AB or BB. In these cases, one can expect the father to contribute half the time (AA|AB) or always (AA|BB), respectively. Taking into account the predicted ADO, it is straightforward to determine whether the observed fetal SNPs correlate with the possible father's SNPs.

本開示の一実施形態は以下の通りであってよい:妊娠中の女性が、自身の胎児がダウン症候群を患っているかどうか、および/または嚢胞性線維症を患っているかどうか知ることを望んでおり、その女性はこれらの状態のいずれかを患っている子を産むことを望んでいない。医師はその女性の血液を採り、ヘモグロビンを1つのマーカーではっきり赤色があらわれるように染色し、核材料を別のマーカーではっきり青色があらわれるように染色する。母系の赤血球は、一般には無核であるが、高い割合の胎児の細胞が核を含有することが公知であるので、医師は、赤色および青色の両方を示す細胞を同定することにより、いくつもの有核赤血球を視覚的に単離することができる。医師は、これらの細胞を、マイクロマニピュレーターでスライドから取り出し、検査室に送り、そこで10個の個々の細胞を増幅し、遺伝子型決定する。遺伝子測定を使用することによって、PARENTAL SUPPORT(商標)法で、細胞10個のうち6個が母系の血液細胞であり、細胞10個のうち4個が胎児の細胞であることを決定することができる。妊娠中の母親に既に子が生まれている場合、PARENTAL SUPPORT(商標)は、胎児の細胞に対して信頼できる対立遺伝子コールを行い、それらが生まれた子の対立遺伝子と同様でないことを示すことによって、胎児の細胞が生まれた子の細胞と別個のものであることを決定するためにも使用することができる。この方法は、本開示の父系検査実施形態と同様の概念であることに留意されたい。胎児の細胞から測定された遺伝子データは質が非常に悪い可能性があり、単一細胞の遺伝子型決定の難しさに起因して、多くの対立遺伝子ドロップアウトを含む。臨床医は、測定された胎児DNAを親の信頼できるDNA測定値と一緒に用い、PARENTAL SUPPORT(商標)を使用して胎児のゲノムの態様を高い正確度で推定し、それにより、胎児由来の遺伝物質に含有される遺伝子データを、コンピュータ上に保存される、予測される胎児の遺伝子の状態に変換することができる。臨床医は、胎児の倍数性状態と、複数の疾患連鎖対象遺伝子の存在または不在の両方とを決定することができる。胎児は正倍数性であり、嚢胞性線維症の保有者ではないことが分かり、母親は妊娠を継続することを決定する。 One embodiment of the present disclosure may be as follows: A pregnant woman wishes to know if her fetus has Down's syndrome and/or cystic fibrosis, and she does not want to give birth to a child with either of these conditions. A physician draws the woman's blood and stains the hemoglobin with one marker to appear distinctly red, and the nuclear material with another marker to appear distinctly blue. Because maternal red blood cells are generally anucleated, but a high percentage of fetal cells are known to contain nuclei, the physician is able to visually isolate a number of nucleated red blood cells by identifying cells that exhibit both red and blue colors. The physician removes these cells from the slide with a micromanipulator and sends them to a laboratory where 10 individual cells are amplified and genotyped. Using genetic measurements, the PARENTAL SUPPORT™ method is able to determine that 6 out of 10 cells are maternal blood cells and 4 out of 10 cells are fetal cells. If the pregnant mother has already had a child, PARENTAL SUPPORT™ can also be used to determine that the fetal cells are distinct from the cells of the born child by making reliable allele calls on the fetal cells and showing that they are not similar to the alleles of the born child. Note that this method is a similar concept to the paternity testing embodiment of the present disclosure. The genetic data measured from the fetal cells can be of very poor quality, containing many allele dropouts due to the difficulty of genotyping single cells. Using the measured fetal DNA together with reliable DNA measurements of the parents, clinicians can use PARENTAL SUPPORT™ to estimate aspects of the fetal genome with high accuracy, thereby converting the genetic data contained in the genetic material from the fetus into a predicted fetal genetic state stored on a computer. Clinicians can determine both the ploidy state of the fetus and the presence or absence of multiple disease-linked genes of interest. The fetus is found to be euploid and not a carrier of cystic fibrosis, and the mother decides to continue the pregnancy.

本開示のある実施形態では、妊娠中の母親は、自身の胎児がいずれかの全染色体異常を患っているかどうかを決定することを望んでいる。その女性は担当医師の所に行き、自身の血液の試料を提供し、また、その女性とその女性の夫は、頬スワブにより自身のDNAの試料を提供する。検査室の研究者は、親のDNAを増幅するためのMDAプロトコールを使用し、多数のSNPにおける親の遺伝子データを測定するためのILLUMINA INFINIUMアレイを使用して、親のDNAの遺伝子型決定を行う。次いで、研究者は血液を遠心沈澱し、血漿を採り、サイズ排除クロマトグラフィーを使用して浮動性DNAの試料を単離する。あるいは、研究者は、1個または複数個の蛍光抗体、例えば、胎児のヘモグロビンに特異的な抗体を使用して、胎児有核赤血球を単離する。次いで、研究者は、単離または富化された胎児の遺伝物質を取得し、それを、各オリゴヌクレオチドの2つの末端が標的対立遺伝子のいずれかの側の隣接配列に対応するように適切に設計された70-マー(mer)のオリゴヌクレオチドのライブラリーを使用して増幅する。ポリメラーゼ、リガーゼ、および適切な試薬を添加すると、オリゴヌクレオチドはギャップ充填環状化、所望の対立遺伝子の捕捉を受けた。エキソヌクレアーゼを加え、熱失活させ、産物を直接PCR増幅の鋳型として使用した。PCR産物について、ILLUMINA GENOME ANALYZERで配列決定した。シーケンスリードをPARENTAL SUPPORT(商標)法のための入力として使用し、次いで、それにより胎児の倍数性状態を予測した。 In one embodiment of the present disclosure, a pregnant mother wishes to determine whether her fetus suffers from any whole chromosomal abnormality. The woman goes to her doctor and provides a sample of her blood, and she and her husband provide a sample of their DNA via cheek swab. Laboratory researchers genotype the parental DNA using the MDA protocol to amplify the parental DNA and ILLUMINA INFINIUM arrays to measure parental genetic data at multiple SNPs. They then spun down the blood, took the plasma, and isolated a sample of free-floating DNA using size-exclusion chromatography. Alternatively, they isolated fetal nucleated red blood cells using one or more fluorescent antibodies, for example, antibodies specific for fetal hemoglobin. They then take the isolated or enriched fetal genetic material and amplify it using a library of 70-mer oligonucleotides appropriately designed such that the two ends of each oligonucleotide correspond to the flanking sequences on either side of the target allele. Upon addition of polymerase, ligase, and appropriate reagents, the oligonucleotides underwent gap-filling circularization, capturing the desired allele. Exonuclease was added, heat inactivated, and the products were used as templates for direct PCR amplification. PCR products were sequenced on an ILLUMINA GENOME ANALYZER. Sequence reads were used as input for the PARENTAL SUPPORT™ method, which then predicted the ploidy state of the fetus.

別の実施形態では、母親が妊娠中であり、高齢出産である夫婦が、妊娠中の胎児がダウン症候群、ターナー症候群、プラダーウィリー症候群またはいくつかの他の全染色体異常を有するかどうかを知ることを望んでいる。産科医は、母親および父親から採血を行う。血液を検査室に送り、そこで、技師が母体試料を遠心分離して血漿およびバフィーコートを単離する。バフィーコート内のDNAおよび父系の血液試料を増幅によって変換し、増幅された遺伝物質にコードされる遺伝子データを、遺伝物質をハイスループットシーケンサーにかけることによって、分子的に保存された遺伝子データから電子的に保存された遺伝子データにさらに変換して、親の遺伝子型を測定する。血漿試料を、5,000プレックスヘミネステッド標的PCR法を用いて、遺伝子座の集合において優先的に富化する。DNA断片の混合物を、配列決定に適したDNAライブラリーに調製する。次いで、DNAを、ハイスループット配列決定方法、例えば、ILLUMINA GAIIx GENOME ANALYZERを用いて配列決定する。配列決定により、DNA内に分子的にコードされている情報をコンピュータハードウェアに電子的にコードされる情報に変換する。ここで開示されている実施形態を含むインフォマティクスに基づく技法、例えば、PARENTAL SUPPORT(商標)を使用して、胎児の倍数性状態を決定することができる。これは、調製された試料に対して行ったDNA測定から、複数の多型遺伝子座における対立遺伝子数の確率をコンピュータで算出するステップと、それぞれが、染色体における可能性のある異なる倍数性状態に関連する、複数の倍数性仮説をコンピュータで作製するステップと、各倍数性仮説について、染色体上の複数の多型遺伝子座における予測される対立遺伝子数についての同時分布モデルをコンピュータで構築するステップと、同時分布モデルおよび調製された試料において測定された対立遺伝子数を用いて、倍数性仮説のそれぞれの相対的確率をコンピュータで決定するステップと、最大の確率を有する仮説に対応する倍数性状態を選択することによって胎児の倍数性状態をコールするステップとを包含し得る。胎児がダウン症候群を有することが決定される。報告を印刷する、または妊娠中の女性の担当産科医に電子的に送信し、その産科医が診断をその女性に伝達する。その女性、その女性の夫、および医師は腰を据えて選択肢を議論する。夫婦は、胎児がトリソミーの状態を患っているという知見に基づいて、妊娠中絶することを決定する。 In another embodiment, a couple, the mother of whom is pregnant and has advanced maternal age, would like to know if the pregnant fetus has Down syndrome, Turner syndrome, Prader-Willi syndrome or some other whole chromosomal abnormality. An obstetrician draws blood from the mother and father. The blood is sent to a laboratory where a technician centrifuges the maternal sample to isolate the plasma and buffy coat. The DNA in the buffy coat and the paternal blood sample are converted by amplification, and the genetic data encoded in the amplified genetic material is further converted from molecularly stored genetic data to electronically stored genetic data by subjecting the genetic material to a high-throughput sequencer to measure the parental genotypes. The plasma sample is preferentially enriched in a set of loci using a 5,000-plex hemi-nested targeted PCR method. A mixture of DNA fragments is prepared into a DNA library suitable for sequencing. The DNA is then sequenced using a high-throughput sequencing method, for example, the ILLUMINA GAIIx GENOME ANALYZER. Sequencing converts the information molecularly encoded in DNA into electronically encoded information in computer hardware. Informatics-based techniques, including embodiments disclosed herein, such as PARENTAL SUPPORT™, can be used to determine the ploidy state of the fetus. This can include the steps of: calculating by computer the probability of allele counts at multiple polymorphic loci from DNA measurements made on the prepared sample; generating by computer multiple ploidy hypotheses, each associated with a different possible ploidy state on the chromosome; constructing by computer a joint distribution model for the expected allele counts at multiple polymorphic loci on the chromosome for each ploidy hypothesis; using the joint distribution model and the allele counts measured on the prepared sample, determining by computer the relative probability of each of the ploidy hypotheses; and calling the ploidy state of the fetus by selecting the ploidy state corresponding to the hypothesis with the greatest probability. It is determined that the fetus has Down's syndrome. The report is printed or sent electronically to the pregnant woman's obstetrician, who communicates the diagnosis to the woman. The woman, her husband, and the doctor sit down to discuss options. The couple decide to terminate the pregnancy based on the knowledge that the fetus suffers from a trisomic condition.

ある実施形態では、企業が、母系の採血から妊娠中の胎児における異数性を検出するために設計された診断技術を提供することを決定し得る。その産物により、母親が、該母親の血液を採取することができる担当産科医に来診することを必要とし得る。産科医は、胎児の父親からも遺伝子試料を収集することができる。臨床医は、母親の血液から血漿を単離し、血漿からDNAを精製することができる。臨床医は、母親の血液からバフィーコート層を単離し、バフィーコートからDNAを調製することもできる。臨床医は、父親の遺伝子試料からDNAを調製することもできる。臨床医は、本開示に記載の分子生物学技法を用いて、血漿試料に由来するDNAにおいてDNAにユニバーサル増幅タグを付加することができる。臨床医は、ユニバーサルタグが付けられたDNAを増幅することができる。臨床医は、ハイブリダイゼーションによる捕捉および標的PCRを含めたいくつもの技法によってDNAを優先的に富化することができる。標的PCRは、ネスティング、ヘミネスティングまたはセミネスティングまたは血漿由来DNAの効率的な富化をもたらす任意の他の手法を伴ってよい。標的PCRにより、例えば、1反応体積で10,000個のプライマーを用いて大規模に多重化することができ、ここで、プライマーは、第13染色体、第18染色体、第21染色体、X染色体上のSNPおよびXおよびYの両方に共通し、必要に応じて、他の染色体にも共通する遺伝子座を標的とする。選択的な富化および/または増幅は、個々の分子それぞれに、異なるタグ、分子バーコード、増幅用タグ、および/または配列決定用タグを用いてタグ付けすることを伴ってよい。次いで、臨床医は血漿試料について配列決定し、また、場合によっては、調製された母系DNAおよび/または父系DNAをシークエンシングができる。分子生物学的ステップを、診断ボックスによって完全にまたは部分的に実行することができる。配列データを、単一のコンピュータに、または別の種類の計算プラットフォーム、例えば、「クラウド」において見出すことができるものに供給することができる。計算プラットフォームにより、シーケンサーによって行われた測定から標的の多型遺伝子座における対立遺伝子数を算出することができる。計算プラットフォームにより、第13染色体、第18染色体、第21染色体、X染色体およびY染色体のそれぞれについての零染色体性、モノソミー、ダイソミー、一致トリソミー、および不一致トリソミーに関係する、複数の倍数性仮説を作製することができる。計算プラットフォームにより、調べられている5つの染色体のそれぞれに対して、各倍数性仮説に対して、染色体上の標的の遺伝子座における予測される対立遺伝子数についての同時分布モデルを構築することができる。計算プラットフォームにより、同時分布モデルおよび血漿試料に由来する優先的に富化されたDNAに対して測定された対立遺伝子数を用いて、倍数性仮説のそれぞれが真である確率を決定することができる。計算プラットフォームにより、第13染色体、第18染色体、第21染色体、X染色体およびY染色体のそれぞれについて、最大の確率を有する適切な仮説に対応する倍数性状態を選択することによって胎児の倍数性状態をコールすることができる。コールされた倍数性状態を含む報告を作製することができ、それを産科医に電子的に送ること、出力デバイスに表示すること、または印刷した報告のハードコピーを産科医に送達することができる。産科医は、患者、および必要に応じて胎児の父親に知らせることができ、彼らは、どの臨床的な選択肢を受け入れられるか、およびどれが最も望ましいかを決定することができる。 In an embodiment, a company may decide to offer a diagnostic technology designed to detect aneuploidies in a gestating fetus from a maternal blood draw. The product may require the mother to visit her obstetrician, who can draw her blood. The obstetrician may also collect a genetic sample from the father of the fetus. The clinician may isolate plasma from the mother's blood and purify DNA from the plasma. The clinician may also isolate the buffy coat layer from the mother's blood and prepare DNA from the buffy coat. The clinician may also prepare DNA from the father's genetic sample. The clinician may add universal amplification tags to DNA in DNA derived from the plasma sample using molecular biology techniques described in this disclosure. The clinician may amplify the universally tagged DNA. The clinician may preferentially enrich DNA by a number of techniques, including capture by hybridization and targeted PCR. Targeted PCR may involve nesting, hemi-nesting or semi-nesting or any other technique that results in efficient enrichment of plasma-derived DNA. Targeted PCR allows for massive multiplexing, for example with 10,000 primers in one reaction volume, where the primers target SNPs on chromosomes 13, 18, 21, X and loci common to both X and Y, and optionally other chromosomes. Selective enrichment and/or amplification may involve tagging each individual molecule with a different tag, molecular barcode, amplification tag, and/or sequencing tag. The clinician can then sequence the plasma sample and, in some cases, the prepared maternal and/or paternal DNA. The molecular biology steps can be performed entirely or in part by the diagnostic box. The sequence data can be fed to a single computer or to another type of computational platform, such as one that can be found in the "cloud". The computational platform can calculate the number of alleles at the targeted polymorphic loci from the measurements made by the sequencer. The computational platform can generate multiple ploidy hypotheses related to nullisomy, monosomy, disomy, concordant trisomy, and discordant trisomy for each of chromosomes 13, 18, 21, X, and Y. The computational platform can build a joint distribution model for the expected allele counts at the target locus on the chromosome for each of the five chromosomes being examined. The computational platform can determine the probability that each of the ploidy hypotheses is true using the joint distribution model and the allele counts measured on the preferentially enriched DNA from the plasma sample. The computational platform can call the ploidy state of the fetus by selecting the ploidy state corresponding to the appropriate hypothesis with the greatest probability for each of chromosomes 13, 18, 21, X, and Y. A report including the called ploidy state can be generated and can be sent electronically to the obstetrician, displayed on an output device, or a hard copy of the printed report can be delivered to the obstetrician. The obstetrician can inform the patient, and if necessary the father of the fetus, who can then decide which clinical options are acceptable to them and which are most desirable.

別の実施形態では、以後「母親」と称される妊娠中の女性は、自身の胎児(複数可)がいずれかの遺伝子異常または他の状態を保有するか否か知りたいと決めることができる。母親は、いかなる全体的異常もないことを確実にしてから妊娠の継続を確信することを希望することができる。母親は、担当産科医のもとに行くことができ、担当産科医は、母親の血液の試料も採ることができる。担当産科医は、母親の頬からの頬スワブなどの遺伝子試料を採ることもできる。担当産科医は、胎児の父親からも遺伝子試料、例えば、頬スワブ、精子試料または血液試料を採ることができる。担当産科医は、試料を臨床医に送ることができる。臨床医は、母系の血液試料中の浮動性胎児DNAの画分を富化することができる。臨床医は、母系の血液試料中の脱核胎児血液細胞の画分を富化することができる。臨床医は、本明細書に記載の方法の種々の態様を用いて、胎児の遺伝子データを決定することができる。その遺伝子データは、胎児の倍数性状態、および/または胎児における1つまたはいくつもの疾患連鎖対立遺伝子の同一性を含み得る。出生前診断の結果が要約されている報告を作製することができる。報告は、医師に送達または郵送することができ、医師は、母親に胎児の遺伝子の状態を告げることができる。母親は、胎児が1個または複数個の染色体もしくは遺伝子の異常または望ましくない状態を有するという事実に基づいて、妊娠を中止することを決定することができる。母親は、同様に、胎児が、いかなる染色体全体もしくは遺伝子の異常またはいかなる対象の遺伝子の状態も有さないという事実に基づいて、妊娠を継続することを決定することができる。 In another embodiment, a pregnant woman, hereafter referred to as the "mother", may decide that she would like to know if her fetus(es) carry any genetic abnormalities or other conditions. The mother may wish to ensure that there are no gross abnormalities before deciding to continue the pregnancy. The mother may go to her obstetrician, who may also take a sample of the mother's blood. The obstetrician may also take a genetic sample, such as a buccal swab from the mother's cheek. The obstetrician may also take a genetic sample, e.g., a buccal swab, sperm sample, or blood sample, from the father of the fetus. The obstetrician may send the sample to a clinician. The clinician may enrich for a fraction of free floating fetal DNA in the maternal blood sample. The clinician may enrich for a fraction of enucleated fetal blood cells in the maternal blood sample. The clinician may use various aspects of the methods described herein to determine genetic data for the fetus. The genetic data may include the ploidy state of the fetus and/or the identity of one or more disease-linked alleles in the fetus. A report can be generated summarizing the results of the prenatal testing. The report can be delivered or mailed to a physician who can inform the mother of the genetic status of the fetus. The mother can decide to terminate the pregnancy based on the fact that the fetus has one or more chromosomal or genetic abnormalities or undesirable conditions. The mother can similarly decide to continue the pregnancy based on the fact that the fetus does not have any full chromosomal or genetic abnormalities or any genetic condition of interest.

別の例は、精子ドナーにより人工受精し、妊娠中である妊娠中の女性に関し得る。その女性は、自身が保有している胎児が遺伝病を有するリスクを最小限にすることを希望している。その女性は、静脈瀉血士による採血を受け、本開示に記載の技法を用いて、3つの胎児有核赤血球を単離し、組織試料も、母親および遺伝学的父親から採取する。胎児由来の遺伝物質ならびに母親および父親由来の遺伝物質を、必要に応じて増幅し、ILLUMINA INFINIUM BEADARRAYを用いて遺伝子型決定し、本明細書に記載の方法により親の遺伝子型および胎児の遺伝子型をきれいにし、高い正確度で相を特定し、ならびに、胎児についての倍数性コールを行う。胎児が正倍数性であることが見いだされ、再構築された胎児の遺伝子型から表現型による罹病性を予測し、報告を作製し、母親の担当医師に送り、したがって、彼らはどんな臨床的決定が最良であり得るかを決定することができる。 Another example may involve a pregnant woman who has been artificially inseminated by a sperm donor and is pregnant. The woman wishes to minimize the risk that the fetus she is carrying will have a genetic disease. The woman has her blood drawn by a phlebotomist and using the techniques described in this disclosure, three fetal nucleated red blood cells are isolated and tissue samples are also taken from the mother and genetic father. The genetic material from the fetus and the mother and father are optionally amplified and genotyped using an ILLUMINA INFINIUM BEADARRAY and the methods described herein clean the parental and fetal genotypes, phase with high accuracy, and make a ploidy call on the fetus. The fetus is found to be euploid and phenotypic susceptibility is predicted from the reconstructed fetal genotype and a report is generated and sent to the mother's physician so they can determine what clinical decisions may be best.

ある実施形態では、母親および父親の未処理の遺伝物質を、増幅によって、ある量の、配列は同様であるが量がより多いDNAに変換する。次いで、遺伝子型決定方法により、核酸によりコードされる遺伝子型データを、上記のものなどのメモリデバイスに物理的かつ/または電子的に保存することができる遺伝子測定値に変換する。PARENTAL SUPPORT(商標)アルゴリズムを構成する関連性のあるアルゴリズムを、プログラミング言語を用いてコンピュータプログラムに翻訳するが、そのアルゴリズムの関連性のある部分は本明細書において詳細に考察されている。次いで、物理的にコードされるビットおよびバイトではなく、生の測定データを示すパターンに整理されているコンピュータハードウェアでコンピュータプログラムを実行することにより、胎児の倍数性状態の高い信頼度の決定を示すパターンに変換される。この変換の詳細は、本明細書に記載の方法を実行するために使用するデータ自体およびコンピュータ言語およびハードウェアシステムに依拠する。次いで、高い質の胎児の倍数性の決定を示すように物理的に構成されたデータを、健康管理実践者に送ることができる報告に変換する。この変換は、プリンタまたはコンピュータディスプレイを使用して行うことができる。報告は、紙または他の適切な媒体に印刷されたコピーであってよい、あるいは、報告は、電子的なものであってよい。電子報告の場合は、伝達することができ、健康管理実践者が利用できるコンピュータに位置するメモリデバイス上に物理的に保存することができる。電子報告は、読み取ることができるようにスクリーン上に表示することもできる。スクリーン表示の場合には、データは、表示デバイス上でピクセルの物理的変換を引き起こすことによって可読の形式に変換することができる。変換は、リン光性スクリーンに電子を物理的に発射することによって、光子を放出または吸収する基材の前に置くことができるスクリーン上のピクセルの特定の集合の透明度を物理的に変化させる電気的な電荷を変更することによって実現することができる。この変換は、ピクセルの特定の集合において、液晶中のナノスケールの分子の配向を、例えば、ネマティック相からコレステリック相またはスメクチックな相に変化させることによって実現することができる。この変換は、意味のあるパターンに配置された複数の発光ダイオードで構成されたピクセルの特定の集合からの光子の放出を引き起こす電流によって実現することができる。この変換は、情報を表示するために使用される任意の他の方法、例えば、コンピュータスクリーンまたはいくつかの他の出力デバイスまたは情報伝達法によって実現することができる。次いで、健康管理実践者は、報告にあるデータを措置に変換するように、報告に基づいて行動することができる。措置は、妊娠を継続または中止することであってよく、その場合、遺伝子の異常を有する妊娠中の胎児は、非生存胎児に変換される。本明細書において列挙されている変換は、例えば、妊娠中の母親および父親の遺伝物質を、本開示において概説されているいくつものステップを通じて、遺伝子の異常を有する胎児を流産することからなる、または妊娠を継続することからなる医学的な決定に変換することができるように総計することができる。あるいは、遺伝子型の測定値の集合を、医師が妊娠中の患者を処置することに役立つ報告に変換することができる。 In an embodiment, the raw genetic material of the mother and father is converted by amplification into a quantity of DNA of similar sequence but greater quantity. The genotyping method then converts the genotype data encoded by the nucleic acid into genetic measurements that can be physically and/or electronically stored in a memory device such as those described above. The relevant algorithms that make up the PARENTAL SUPPORT™ algorithm are translated into a computer program using a programming language, the relevant portions of which are discussed in detail herein. The raw measurement data is then converted into a pattern that indicates a high confidence determination of the ploidy status of the fetus by running the computer program on computer hardware that is organized into a pattern that indicates the raw measurement data, rather than physically coded bits and bytes. The details of this conversion depend on the data itself and the computer language and hardware system used to carry out the methods described herein. The data, physically configured to indicate a high quality fetal ploidy determination, is then converted into a report that can be sent to a health care practitioner. This conversion can be done using a printer or a computer display. The report can be a copy printed on paper or other suitable medium, or the report can be electronic. In the case of electronic reports, they can be transmitted and physically stored on a memory device located on a computer available to the healthcare practitioner. Electronic reports can also be displayed on a screen so that they can be read. In the case of a screen display, the data can be converted into a readable form by causing a physical transformation of pixels on the display device. The transformation can be achieved by physically firing electrons at a phosphorescent screen, by changing an electrical charge that physically changes the transparency of a particular set of pixels on the screen that can be placed in front of a substrate that emits or absorbs photons. This transformation can be achieved by changing the orientation of nanoscale molecules in a liquid crystal, for example, from a nematic phase to a cholesteric or smectic phase, in a particular set of pixels. This transformation can be achieved by an electric current that causes the emission of photons from a particular set of pixels that are made up of a number of light emitting diodes arranged in a meaningful pattern. This transformation can be achieved by any other method used to display information, such as a computer screen or some other output device or method of conveying information. The healthcare practitioner can then act on the report to convert the data in the report into a measure. The action may be to continue or terminate the pregnancy, in which case the pregnant fetus with the genetic abnormality is transformed into a non-viable fetus. The transformations enumerated herein may, for example, be summed up so that the genetic material of the pregnant mother and father can be transformed through a number of steps outlined in this disclosure into a medical decision consisting of aborting the fetus with the genetic abnormality or continuing the pregnancy. Alternatively, a collection of genotypic measurements may be transformed into a report that helps a physician treat a pregnant patient.

本開示のある実施形態では、本明細書に記載の方法を用いて、宿主母親、すなわち妊娠中の女性が、自身が保有している胎児の生物学的母親ではない場合にでも、胎児の倍数性状態を決定することができる。本開示のある実施形態では、本明細書に記載の方法を用いて、母系の血液試料のみを使用し、父系の遺伝子試料を必要とせずに胎児の倍数性状態を決定することができる。 In certain embodiments of the present disclosure, the methods described herein can be used to determine the ploidy state of a fetus even when the host mother, i.e., the pregnant woman, is not the biological mother of the fetus she is carrying. In certain embodiments of the present disclosure, the methods described herein can be used to determine the ploidy state of a fetus using only a maternal blood sample, without the need for a paternal genetic sample.

ここで開示されている実施形態における数学のいくつかにより、限られた数の異数性の状態に関する仮説が立てられる。いくつかの場合には、例えば、0、1つまたは2つの染色体のみが、各親を起源とすることが予測される。本開示のいくつかの実施形態では、本開示の基本的な概念を変化させることなく、数学的な導出を拡大して異数性の他の形態、例えば、3つの染色体が一方の親を起源とするクアドロソミー(quadrosomy)、ペンタソミー、ヘキサソミーを考慮に入れることができる。同時に、より小さな数の倍数性状態、例えば、トリソミーおよびダイソミーのみに焦点を当てることが可能である。整数でない染色体を示す倍数性の決定は、遺伝物質の試料中のモザイク現象を示し得ることに留意されたい。 Some of the mathematics in the embodiments disclosed herein make hypotheses regarding a limited number of aneuploidy states. In some cases, for example, only zero, one or two chromosomes are predicted to originate from each parent. In some embodiments of the present disclosure, the mathematical derivation can be expanded to take into account other forms of aneuploidy, such as quadrosomies, pentasomies, and hexasomies, where three chromosomes originate from one parent, without changing the basic concepts of the present disclosure. At the same time, it is possible to focus only on a smaller number of ploidy states, such as trisomies and disomies. It should be noted that ploidy determinations that indicate a non-integer number of chromosomes may indicate mosaicism in the sample of genetic material.

いくつかの実施形態では、遺伝子の異常は、ダウン症候群(または21トリソミー)、エドワーズ症候群(18トリソミー)、パトー症候群(13トリソミー)、ターナー症候群(45X)、クラインフェルター症候群(2つのX染色体を持つ男性)、プラダーウィリー症候群、およびディジョージ症候群(UPD15)などの異数性の一種である。前文に列挙されているものなどの先天性障害は、一般に望ましくなく、胎児が1つまたは複数の表現型の異常を患っているという知見により、妊娠中絶すること、特別支援児の誕生のための準備をするために必要な対策をとること、または染色体異常の重症度を減らすことを意図したいくつかの治療的手法をとることを決定するための基礎を提供することができる。 In some embodiments, the genetic abnormality is a type of aneuploidy, such as Down's syndrome (or trisomy 21), Edwards syndrome (trisomy 18), Patau syndrome (trisomy 13), Turner syndrome (45X), Klinefelter syndrome (males with two X chromosomes), Prader-Willi syndrome, and DiGeorge syndrome (UPD15). Congenital disorders such as those listed in the previous sentence are generally undesirable, and the knowledge that a fetus suffers from one or more phenotypic abnormalities can provide the basis for deciding to terminate the pregnancy, take necessary measures to prepare for the birth of a special needs child, or take some therapeutic approach intended to reduce the severity of the chromosomal abnormality.

いくつかの実施形態では、本明細書に記載の方法を、非常に初期の妊娠期間、例えば、早ければ4週、早ければ5週、早ければ6週、早ければ7週、早ければ8週、早ければ9週、早ければ10週、早ければ11週、および早ければ12週において用いることができる。 In some embodiments, the methods described herein can be used very early in pregnancy, for example, as early as 4 weeks, as early as 5 weeks, as early as 6 weeks, as early as 7 weeks, as early as 8 weeks, as early as 9 weeks, as early as 10 weeks, as early as 11 weeks, and as early as 12 weeks.

いくつかの実施形態では、本明細書に開示されている方法を、インビトロでの受精の間に胚を選択するための着床前遺伝子診断(PGD)との関連において使用し、ここで、標的個体は胚であり、3日目の胚由来の単一細胞または2つの細胞の生検または5日目または6日目の胚の栄養外胚葉生検材料からの配列決定データから、胚に関する倍数性の決定を行うために、親の遺伝子型データを使用することができる。PGDの環境では、子のDNAのみを測定し、ほんの少数の細胞、一般に、1~5個であるが、多くて10個、20個または50個を検査する。次いで、対立遺伝子AおよびB(SNPにおける)の開始時のコピーの総数が子の遺伝子型および細胞の数によって自明に決定される。NPDでは、開始時のコピーの数は非常に多く、したがって、PCRの後の対立遺伝子の比が開始時の比を正確に反映することが予想される。しかし、PGDにおける開始時のコピーが少数であることは、コンタミネーションおよび不完全なPCR効率が、PCR後の対立遺伝子の比に対する非自明の効果を有することを意味する。この効果は、配列決定後に測定された対立遺伝子の比における分散を予測することにおけるリード深度よりも重要であり得る。既知の子の遺伝子型を考慮して測定された対立遺伝子の比の分布は、PCRプローブの効率およびコンタミネーションの確率に基づいたPCRプロセスのMonteCarloシミュレーションによって作製することができる。可能性のある子の遺伝子型のそれぞれについて対立遺伝子の比の分布を考慮して、種々の仮説の尤度を、NIPDについて記載されているのと同様に算出することができる。 In some embodiments, the methods disclosed herein are used in the context of preimplantation genetic diagnosis (PGD) for selecting embryos during in vitro fertilization, where the target individual is an embryo, and parental genotype data can be used to make ploidy determinations for the embryo from single or two cell biopsies from day 3 embryos or sequencing data from trophectoderm biopsies of day 5 or 6 embryos. In the PGD setting, only the DNA of the offspring is measured and only a small number of cells are examined, typically 1-5, but at most 10, 20 or 50. The total number of starting copies of alleles A and B (at the SNP) is then trivially determined by the offspring's genotype and number of cells. In NPD, the number of starting copies is very high, and therefore the allele ratios after PCR are expected to accurately reflect the starting ratios. However, the small number of starting copies in PGD means that contamination and imperfect PCR efficiency have a non-trivial effect on the allele ratios after PCR. This effect may be more important than read depth in predicting the variance in measured allele ratios after sequencing. The distribution of measured allele ratios given known offspring genotypes can be generated by Monte Carlo simulation of the PCR process based on PCR probe efficiency and contamination probability. Given the distribution of allele ratios for each of the possible offspring genotypes, the likelihood of the various hypotheses can be calculated similarly as described for NIPD.

最尤推定
生物学的な現象または医学的状態の存在または不在を検出するための当技術分野で公知の大多数の方法は、状態と相関するメトリックを測定し、メトリックが所与の閾値の一方の側にあれば、その状態が存在し、メトリックが閾値の他方の側にあれば、その状態は存在しないという単一仮説棄却検定を用いることを包含する。単一仮説棄却検定では、帰無仮説と対立仮説の間の決定を行う際に帰無分布を調べるだけである。対立分布を考慮に入れなければ、観察されたデータを考慮して各仮説の尤度を推定することはできず、したがって、コールに対する信頼度を算出することができない。したがって、単一仮説棄却検定を用いて、特定の場合と関連する信頼度についての感受性を伴わずにyesまたはnoの答えを得る。
Maximum Likelihood Estimation The majority of methods known in the art for detecting the presence or absence of a biological phenomenon or medical condition involve using a single hypothesis rejection test, measuring a metric that correlates with the condition, and if the metric is on one side of a given threshold, the condition is present, and if the metric is on the other side of the threshold, the condition is not present. In a single hypothesis rejection test, we simply look at the null distribution when making a decision between the null hypothesis and the alternative hypothesis. Without taking into account the alternative distribution, we cannot estimate the likelihood of each hypothesis given the observed data, and therefore cannot calculate the confidence in the call. Thus, we use a single hypothesis rejection test to get a yes or no answer without sensitivity to the confidence associated with a particular case.

いくつかの実施形態では、本明細書に開示されている方法では、生物学的な現象または医学的状態の存在または不在を、最尤法を用いて検出することができる。最尤法は、状態の不在または存在をコールするための閾値をそれぞれの場合について適切に調整することができるので、単一仮説棄却法を用いる方法に対する実質的な改善である。これは、母系の血漿中に見いだされる浮動性DNAに存在する胎児DNAと母系DNAの混合物から入手可能な遺伝子データから、妊娠中の胎児における異数性の存在または不在を決定することを目的とする診断技法に特に関連性がある。これは、血漿中の胎児DNAの一部分により割合の変化(fraction change)が導かれると、異数性対正倍数性をコールするための最適な閾値が変化することに起因する。胎児画分が降下すると、異数性に関連づけられるデータの分布がますます正倍数性に関連づけられるデータの分布と同様になる。 In some embodiments, the methods disclosed herein can detect the presence or absence of a biological phenomenon or medical condition using maximum likelihood methods. Maximum likelihood methods are a substantial improvement over methods using single hypothesis rejection, since the threshold for calling the absence or presence of a condition can be appropriately adjusted for each case. This is particularly relevant for diagnostic techniques that aim to determine the presence or absence of aneuploidy in a gestating fetus from genetic data available from a mixture of fetal and maternal DNA present in the free-floating DNA found in maternal plasma. This is due to the fact that the fraction of fetal DNA in the plasma introduces a fractional change in the optimal threshold for calling aneuploidy versus euploidy. As the fetal fraction drops, the distribution of data associated with aneuploidy becomes more and more similar to the distribution of data associated with euploidy.

最尤推定法では、各仮説に関連づけられる分布を使用して、各仮説に対して条件づけたデータの尤度を推定する。次いで、これらの条件的確率を、仮説コールおよび信頼度に変換することができる。同様に、最大事後推定法では、最尤推定と同じ条件的確率を使用するが、最良の仮説を選択し、信頼度を決定する際に前の母集団も組み入れる。 Maximum likelihood estimation uses the distributions associated with each hypothesis to estimate the likelihood of the data conditioned on each hypothesis. These conditional probabilities can then be converted into hypothesis calls and confidences. Similarly, maximum a posteriori estimation uses the same conditional probabilities as maximum likelihood estimation, but also incorporates prior populations in selecting the best hypothesis and determining confidence.

したがって、最尤推定(MLE)技法または密接に関連する最大事後(MAP)技法を用いることにより、2つの利点が生じ、まず、正確なコールの見込みが増大し、また、各コールに対して信頼度を算出することが可能になる。ある実施形態では、最大の確率を有する仮説に対応する倍数性状態を選択するステップを、最尤推定または最大事後推定を使用して行う。ある実施形態では、妊娠中の胎児の倍数性状態を決定するための方法であって、単一仮説棄却法を用いる現在当技術分野で公知の任意の方法をとり、それをMLE技法またはMAP技法を用いるように再公式化することを含む方法が開示されている。これらの技法を適用することによって有意に改善することができる方法のいくつかの例は、米国特許第8,008,018号、米国特許第7,888,017号または米国特許第7,332,277号に見いだすことができる。 Thus, using maximum likelihood estimation (MLE) or the closely related maximum a posteriori (MAP) technique provides two advantages: it increases the likelihood of a correct call and also allows a confidence to be calculated for each call. In an embodiment, the step of selecting the ploidy state corresponding to the hypothesis with the greatest probability is performed using maximum likelihood estimation or maximum a posteriori estimation. In an embodiment, a method is disclosed for determining the ploidy state of a fetus during pregnancy, which involves taking any method currently known in the art that uses single hypothesis rejection and reformulating it to use MLE or MAP techniques. Some examples of methods that can be significantly improved by applying these techniques can be found in U.S. Pat. No. 8,008,018, U.S. Pat. No. 7,888,017 or U.S. Pat. No. 7,332,277.

ある実施形態では、胎児のゲノムDNAおよび母系のゲノムDNAを含む母系の血漿試料における胎児の異数性の存在または不在を決定するための方法であって、母系の血漿試料を得るステップと、血漿試料中に見いだされるDNA断片を、ハイスループットシーケンサーを用いて測定するステップと、配列を染色体にマッピングし、各染色体にマッピングされるシーケンスリード数を決定するステップと、血漿試料中の胎児DNAの割合を算出するステップと、第2の標的染色体が正倍数性である場合に存在すると予測される標的染色体の量の予測される分布、およびその染色体が異数性である場合に予測される1つまたは複数の予測される分布を、胎児画分および正倍数性であることが予測される1個または複数個の参照染色体にマッピングされるシーケンスリード数を使用して算出するステップと、MLEまたはMAPを用いて、どの分布が、正確である可能性が最も高いかを決定し、それにより、胎児の異数性の存在または不在を示すステップとを含む方法が記載されている。ある実施形態では、血漿由来のDNAを測定するステップは、大規模な並行のショットガン配列決定を行うことを包含し得る。ある実施形態では、血漿試料由来のDNAを測定するステップは、例えば、標的化増幅によって、複数の多型遺伝子座または非多型遺伝子座において優先的に富化されたDNAをシークエンシングを包含し得る。複数の遺伝子座を、1つまたは少数の異数性が疑わしい染色体および1つまたは少数の参照染色体を標的とするように設計することができる。優先的に富化することの目的は、倍数性を決定するために情報価値のあるシーケンスリード数を増加させることである。 In an embodiment, a method is described for determining the presence or absence of fetal aneuploidy in a maternal plasma sample containing fetal genomic DNA and maternal genomic DNA, comprising obtaining a maternal plasma sample, measuring DNA fragments found in the plasma sample using a high-throughput sequencer, mapping sequences to chromosomes and determining the number of sequence reads mapped to each chromosome, calculating the percentage of fetal DNA in the plasma sample, calculating a predicted distribution of the amount of the target chromosome predicted to be present if the second target chromosome is euploid, and one or more predicted distributions predicted if the chromosome is aneuploid, using the fetal fraction and the number of sequence reads mapped to one or more reference chromosomes predicted to be euploid, and using MLE or MAP to determine which distribution is most likely to be accurate, thereby indicating the presence or absence of fetal aneuploidy. In an embodiment, measuring the DNA from the plasma may include performing massively parallel shotgun sequencing. In an embodiment, measuring DNA from the plasma sample may include sequencing DNA that is preferentially enriched at multiple polymorphic or non-polymorphic loci, for example by targeted amplification. The multiple loci can be designed to target one or a few suspected aneuploidy chromosomes and one or a few reference chromosomes. The purpose of preferential enrichment is to increase the number of informative sequence reads for determining ploidy.

倍数性コールのインフォマティクスによる方法
本明細書には、配列データを考慮して胎児の倍数性状態を決定するための方法が記載されている。いくつかの実施形態では、この配列データは、ハイスループットシーケンサーで測定することができる。いくつかの実施形態では、配列データは、母系の血液から単離された浮動性DNAを起源とするDNAについて測定することができ、ここで、浮動性DNAは、いくらかの母体起源のDNA、およびいくらかの胎児/胎盤起源のDNAを含む。このセクションでは、分析された混合物中の胎児DNAの割合は未知であり、データから推定されると仮定して胎児の倍数性状態を決定する本開示の一実施形態が記載される。混合物中の胎児DNAの割合(「胎児画分」)または胎児DNAの百分率を別の方法によって測定することができ、また、それが胎児の倍数性状態の決定において既知であると仮定される実施形態も記載される。いくつかの実施形態では、胎児DNAと母系DNAの混合物である母系の血液試料自体に対して行った遺伝子型決定測定値のみを使用して胎児画分を算出することができる。いくつかの実施形態では、測定されたか、または別の方法で既知である母親の遺伝子型および/または測定されたか、または別の方法で既知である父親の遺伝子型を用いてその割合を算出することもできる。別の実施形態では、胎児の倍数性状態は、単に、問題の染色体について算出された胎児DNAの割合に基づいて、ダイソミーであると仮定される参照染色体について算出された胎児DNAの割合と比較して決定することができる。
Informatics Methods of Ploidy Calling Described herein are methods for determining the ploidy status of a fetus taking into account sequence data. In some embodiments, the sequence data can be measured on a high-throughput sequencer. In some embodiments, the sequence data can be measured on DNA originating from free-floating DNA isolated from maternal blood, where the free-floating DNA includes some DNA of maternal origin and some DNA of fetal/placental origin. In this section, an embodiment of the present disclosure is described in which the proportion of fetal DNA in the analyzed mixture is unknown and is assumed to be estimated from the data. The proportion of fetal DNA in the mixture ("fetal fraction") or the percentage of fetal DNA can be measured by other methods, and embodiments are also described in which it is assumed to be known in determining the ploidy status of the fetus. In some embodiments, the fetal fraction can be calculated using only genotyping measurements made on the maternal blood sample itself, which is a mixture of fetal and maternal DNA. In some embodiments, the percentage can also be calculated using the measured or otherwise known genotype of the mother and/or the measured or otherwise known genotype of the father. In another embodiment, the ploidy state of the fetus can be determined simply based on the percentage of fetal DNA calculated for the chromosome in question compared to the percentage of fetal DNA calculated for a reference chromosome that is assumed to be disomic.

好ましい実施形態では、特定の染色体について、N個のSNPを観察し、解析する場合、
・NR個の浮動性DNA配列測定値の集合S=(s,...,sNR)となる。この方法では、SNP測定値を利用するので、非多型の遺伝子座に対応する配列データは全て無視することができる。単純化形では、各SNPに対して計数値(A,B)が得られ、AおよびBが、所与の遺伝子座に存在する2つの対立遺伝子に対応する場合、SはS=((a,b),...,(a,b))と書くことができ、式中、aはSNP i上のA計数値であり、bはSNP i上のB計数値であり、Σi=1:N(a+b)=NRであり、また
・親のデータは、
〇SNPマイクロアレイまたは他の強度に基づく遺伝子型決定プラットフォームからの
遺伝子型:母親M=(m,...,m)、父親F=(f,...,f)、m,f∈(AA,AB,BB)、および/または
〇配列データ測定値:NRM個の母親の測定値SM=(sm,...,smnrm)、NRF個の父親の測定値SF=(sf,...,sfnrf)から構成される。上記の単純化と同様、各SNPについて計数値(A,B)が得られる場合、SM=((am,bm),...,(am,bm))、SF=((af,bf),...,(af,bf))となる。
In a preferred embodiment, when N SNPs are observed and analyzed for a particular chromosome:
- A set of NR floating DNA sequence measurements S = ( s1 ,..., sNR ). Since this method utilizes SNP measurements, all sequence data corresponding to non-polymorphic loci can be ignored. In simplified form, if counts (A,B) are obtained for each SNP, where A and B correspond to the two alleles present at a given locus, then S can be written as S = (( a1 , b1 ),...,( aN , bN )), where ai are the A counts on SNP i and bi are the B counts on SNP i, Σi = 1:N ( ai + bi ) = NR, and - The parental data is
o Genotypes from SNP microarray or other intensity-based genotyping platform: mother M = ( m1 ,..., mN ), father F = ( f1 ,..., fN ), mi , fi ∈ (AA,AB,BB), and/or o Sequence data measurements: composed of NRM maternal measurements SM = ( sm1 ,..., smnrm ), NRF paternal measurements SF = ( sf1 ,..., sfnrf ). Similar to the above simplification, if counts (A,B) are available for each SNP, then SM = (( am1 , bm1 ),...,( amN , bmN )), SF = (( af1 , bf1 ),...,( afN , bfN )).

まとめて、母親、父親、子のデータはD=(M,F,SM,SF,S)で示される。親のデータの取得が望ましく、それによりアルゴリズムの正確度が上昇するが、親のデータ、特に父親のデータは必ずしも必要ではないことに留意されたい。これは、母親および/または父親のデータの不在下でさえ、非常に正確なコピー数の結果を得ることが可能であることを意味する。 Collectively, the maternal, paternal and child data are denoted as D = (M, F, SM, SF, S). Note that while obtaining parental data is desirable and increases the accuracy of the algorithm, parental data, especially paternal data, is not necessary. This means that it is possible to obtain very accurate copy number results even in the absence of maternal and/or paternal data.

データの対数尤度LIK(D|H)を、考えられる仮説(H)全てにわたって最大にすることによって最良のコピー数の推定値(H†*)を導くことが可能である。特に、倍数性仮説のそれぞれの相対的確率は、同時分布モデルおよび調製された試料において測定された対立遺伝子数を用いて、また、以下の通り正確である可能性が最も高い仮説を決定することが可能である:
同様に事後仮説尤度は、データを考慮すると:
と書くことができ、式中、priorprob(H)はモデル設計および以前の知見に基づいて各仮説Hに割り当てられた事前確率である。
事前確率を用いて最大事後推定値を得ることも可能である:
The best copy number estimate (H †* ) can be derived by maximizing the log-likelihood of the data, LIK(D|H), over all possible hypotheses (H). In particular, the relative probability of each of the ploidy hypotheses can be determined using a joint distribution model and the number of alleles measured in the prepared samples, and the hypothesis most likely to be correct can be determined as follows:
Similarly the posterior hypothesis likelihood, given the data, is:
where priorprob(H) is the prior probability assigned to each hypothesis H based on the model design and prior knowledge.
It is also possible to use prior probabilities to obtain maximum a posteriori estimates:

ある実施形態では、考慮に入れることができるコピー数仮説は、以下である:
・モノソミー:
○ 母系H10(母親由来の1つのコピー)
○ 父系H01(父親由来の1つのコピー)
・ダイソミー:H11(母親および父親それぞれにつき1つのコピー)
・単純なトリソミー、乗換えは考慮しない:
○ 母系:H21_一致(母親由来の2つの同一のコピー、父親由来の1つのコピー)、H21_不一致(母親由来の両方のコピー、父親由来の1つのコピー)
○父系:H12_一致(母親由来の1つのコピー、父親由来の2つの同一のコピー)、H12_不一致(母親由来の1つのコピー、父親由来の両方のコピー)
・複合トリソミー、乗換えを考慮する(同時分布モデルを用いる):
○ 母系H21(母親由来の2つのコピー、父親由来の1つのコピー)、
○ 父系H12(母親由来の1つのコピー、父親由来の2つのコピー)
In an embodiment, copy number hypotheses that can be taken into account are:
Monosomy:
Maternal H10 (one copy from the mother)
Paternal H01 (one copy from the father)
Disomy: H11 (one copy from each parent)
Simple trisomies, crossovers not considered:
Maternal: H21_concordant (two identical copies from mother, one copy from father), H21_discordant (both copies from mother, one copy from father)
Paternal: H12_concordant (one copy from mother, two identical copies from father), H12_discordant (one copy from mother, both copies from father)
- Consider complex trisomies and crossovers (using a joint distribution model):
Maternal H21 (two copies from the mother, one copy from the father),
Paternal H12 (one copy from the mother, two copies from the father)

他の実施形態では、他の倍数性状態、例えば、ゼロ染色体性(H00)、片親性ダイソミー(H20およびH02)、およびテトラソミー(H04、H13、H22、H31およびH40)を考慮することができる。 In other embodiments, other ploidy states can be considered, such as nullisomy (H00), uniparental disomy (H20 and H02), and tetrasomy (H04, H13, H22, H31 and H40).

乗換えがない場合、起源が有糸分裂、減数分裂Iまたは減数分裂IIのいずれにしろ、各トリソミーは、一致トリソミーまたは不一致トリソミーのうちの一方になる。乗換えに起因して、真のトリソミーは通常、2つの組み合わせになる。まず、単純仮説について仮説の尤度を導く方法が記載されている。次に、個々のSNP尤度を乗換えと組み合わせた複合仮説について仮説の尤度を導く方法が記載されている。 In the absence of crossovers, each trisomy, whether of mitosis, meiosis I or meiosis II origin, is either a concordant or discordant trisomy. Due to crossovers, the true trisomy is usually a combination of the two. First, a method is described to derive the likelihood of the hypotheses for simple hypotheses. Second, a method is described to derive the likelihood of the hypotheses for compound hypotheses that combine the individual SNP likelihoods with crossovers.

単純仮説についてのLIK(D|H)
ある実施形態では、単純仮説について、以下の通りLIK(D|H)を決定することができる。単純仮説Hについて、染色体全体についての仮説Hの対数尤度LIK(H)を、既知のまたは導かれた子の割合cfを仮定して、個々のSNPの対数尤度の合計として算出することができる。ある実施形態では、データからcfを導くことが可能である。
この仮説では、いかなるSNP間の連鎖も仮定せず、したがって、同時分布モデルを利用しない。
LIK(D|H) for a simple hypothesis
In an embodiment, for a simple hypothesis, LIK(D|H) can be determined as follows: For a simple hypothesis H, the log-likelihood LIK(H) of hypothesis H for the entire chromosome can be calculated as the sum of the log-likelihoods of the individual SNPs, given the known or derived child fraction cf. In an embodiment, cf can be derived from the data.
This hypothesis does not assume linkage between any SNPs and therefore does not utilize a joint distribution model.

いくつかの実施形態では、SNPごとに対数尤度を決定することができる。特定のSNP iについて、胎児の倍数性についての仮説Hおよびパーセント胎児DNA cfを仮定すると、観察されたデータDの対数尤度は、
と定義され、式中、mは可能性のある真の母親の遺伝子型であり、fは可能性のある真の父親の遺伝子型であり、m,f∈{AA,AB,BB}であり、cは、仮説Hを考慮した、可能性のある子の遺伝子型である。特に、モノソミーについてはc∈{A,B}であり、ダイソミーについてはc∈{AA,AB,BB}であり、トリソミーについてはc∈{AAA,AAB,ABB,BBB}である。
In some embodiments, the log-likelihood can be determined for each SNP. For a particular SNP i, given a hypothesis H about fetal ploidy and percent fetal DNA cf, the log-likelihood of the observed data D is:
where m is the possible true genotype of the mother, f is the possible true genotype of the father, m, f∈{AA,AB,BB}, and c is the possible child genotype given hypothesis H. In particular, for monosomy, c∈{A,B}, for disomy, c∈{AA,AB,BB}, and for trisomy, c∈{AAA,AAB,ABB,BBB}.

遺伝子型事前頻度:p(m|i)は、SNP Iにおける既知の母集団頻度に基づくSNP iにおける母親の遺伝子型mの一般的な事前確率であり、pAiで示される。具体的には、
p(AA|pA)=(pA,p(AB|pA)=2(pA)*(1-pA),p(BB|pA)=(1-pA
父親の遺伝子型の確率、p(f|i)も同様に決定することができる。
Genotype prior frequency: p(m|i) is the general prior probability of the maternal genotype m at SNP i based on the known population frequency at SNP I, denoted as pAi. Specifically,
p(AA|pA i )=(pA i ) 2 , p(AB|pA i )=2(pA i )*(1-pA i ), p(BB|pA i )=(1-pA i ) 2
The probability of the paternal genotype, p(f|i), can be determined similarly.

真の子の確率:p(c|m,f,H)は、親m、f、および仮定している仮説Hを考慮して真の子の遺伝子型=cが得られる確率であり、これは容易に算出することができる。例えば、H11、H21一致およびH21不一致についてのp(c|m,f,H)が以下に示されている。
The probability of true child: p(c|m,f,H) is the probability of obtaining true child genotype=c given parents m, f, and the assumed hypothesis H, which can be easily calculated. For example, p(c|m,f,H) for H11, H21 match, and H21 mismatch are shown below:

データの尤度:P(D|m,f,c,H,i,cf)は、真の母親の遺伝子型m、真の父親の遺伝子型f、真の子の遺伝子型c、仮説Hおよび子の割合cfを考慮したSNP iにおける所与のデータDの確率である。これは、以下の通り母親、父親および子データの確率に分解することができる:
P(D|m,f,c,H,cf,i)=P(SM|m,i)P(M|m,i)P(SF|f,i)P(F|f,i)P(S|m,c,H、cf,i)
Data likelihood: P(D|m,f,c,H,i,cf) is the probability of a given data D at SNP i given the true maternal genotype m, the true paternal genotype f, the true child genotype c, the hypothesis H and the child proportion cf. This can be decomposed into the probabilities of the maternal, paternal and child data as follows:
P(D|m,f,c,H,cf,i)=P(S|m,i)P(M|m,i)P(S|f,i)P(F|f,i)P(S|m,c,H,cf,i)

母親のSNPアレイデータの尤度:SNPアレイ遺伝子型が正確であると仮定して、真の遺伝子型mと比較した、SNP iにおける母親のSNPアレイ遺伝子型データの確率mは、単に、
である。
Likelihood of maternal SNP array data: Assuming the SNP array genotype is accurate, the probability m of maternal SNP array genotype data at SNP i compared to the true genotype m is simply
It is.

母親の配列データの尤度:SNP iにおける母親の配列データの確率は、計数値S=(am,bm)の場合には、余分のノイズまたは偏りを伴わず、P(SM|m,i)=PX|m(am)と定義される二項確率であり、ここで、X|m~Binom(p(A),am+bm)であり、p(A)は下表に示す値である。
Likelihood of maternal sequence data: The probability of maternal sequence data at SNP i, for count S i = (am i , bm i ), is a binomial probability defined without extra noise or bias as P(SM|m,i) = P X|m (am i ), where X|m ∼ Binom(p m (A), am i + bm i ), and p m (A) has the values shown in the table below.

父親のデータの尤度:同様の式が父親のデータの尤度にも当てはまる。親のデータ、特に父親のデータを用いずに子の遺伝子型を決定することが可能であることに留意されたい。例えば、父親の遺伝子型データFが利用可能でない場合、単にP(F|f,i)=1を使用することができる。父親の配列データSFが利用可能でない場合、単にP(SF|f,i)=1を使用することができる。 Likelihood of paternal data: Similar formulas apply to the likelihood of paternal data. Note that it is possible to determine the child's genotype without using parental data, especially the paternal data. For example, if the paternal genotype data F is not available, one can simply use P(F|f,i) = 1. If the paternal sequence data SF is not available, one can simply use P(SF|f,i) = 1.

いくつかの実施形態では、前記方法は、各倍数性仮説について、染色体上の複数の多型遺伝子座において予測される対立遺伝子数についての同時分布モデルを構築することを伴い、そのような目的を実現するための1つの方法がここに記載されている。遊離の胎児DNAデータの尤度:P(S|m,c,H,cf,i)は、SNP iにおける遊離の胎児DNA配列データの確率であり、真の母親の遺伝子型m、真の子の遺伝子型c、子のコピー数仮説Hを考慮し、子の割合cfを仮定する。これは、実際、SNP iにおけるA含量の真の確率μ(m,c,cf,H)を考慮したSNP Iにおける配列データSの確率P(S|m,c,H,cf,i)=P(S|μ(m,c,cf,H),i)である。
計数値に関しては、S=(a,b)であり、データに余分のノイズまたは偏りを伴わない場合、
P(S|μ(m,c,cf,H),i)=P(a
となり、式中、X~Binom(p(A),a+b)であり、p(A)=μ(m,c,cf,H)である。正確なアラインメントおよびSNP当たりの(A,B)計数値が未知の、より複雑な場合には、P(S|μ(m,c,cf,H),i)は積分した二項式の組み合わせである。
In some embodiments, the method involves building a joint distribution model for the expected allele counts at multiple polymorphic loci on a chromosome for each ploidy hypothesis, and one method for achieving such an objective is described herein. Likelihood of free fetal DNA data: P(S|m,c,H,cf,i) is the probability of free fetal DNA sequence data at SNP i, given the true maternal genotype m, the true child genotype c, the child copy number hypothesis H, and assuming child proportion cf. This is in fact the probability of sequence data S at SNP I, P(S|m,c,H,cf,i)=P(S|μ(m,c,cf,H),i), given the true probability of A content at SNP i, μ(m,c,cf,H).
For counts, S i =(a i ,b i ), with no extra noise or bias in the data,
P(S|μ(m,c,cf,H),i)= Px (a i )
where X ∼ Binom(p(A), a i + b i ) and p(A) = μ(m, c, cf, H). In the more complicated case where the exact alignment and (A, B) counts per SNP are unknown, P(S|μ(m, c, cf, H), i) is a combination of integrated binomials.

真のA含量の確率:この母親/子混合物におけるSNP iにおけるA含量の真の確率μ(m,c,cf,H)は、真の母親の遺伝子型=m、真の子の遺伝子型=c、および全体的な子の割合=cfと仮定して、
と定義され、式中、#A(g)=遺伝子型gにおけるAの数であり、n=2は、母親のソミーであり、nは仮説Hの下での子の倍数性である(1はモノソミーであり、2はダイソミーであり、3はトリソミーである)。
Probability of true A content: The true probability μ(m,c,cf,H) of A content at SNP i in this mother/child mixture, given true maternal genotype=m, true child genotype=c, and overall child proportion=cf, is
where #A(g) = number of As in genotype g, n m = 2 is the mother's somy, and n c is the ploidy of the child under hypothesis H (1 is monosomy, 2 is disomy, and 3 is trisomy).

同時分布モデルの使用:複合仮説についてのLIK(D|H)
いくつかの実施形態では、この方法は、各倍数性仮説について、染色体上の複数の多型遺伝子座において、予測される対立遺伝子数の同時分布モデルを構築することを伴い、そのような目的を実現するための1つの方法がここに記載されている。多くの場合、トリソミーは、通常、乗換えに起因して、純粋に一致または不一致ではなく、したがって、このセクションでは、可能性のある乗換えを考慮に入れて、一致トリソミーと不一致トリソミーが組み合わされた複合仮説H21(母系トリソミー)およびH12(父系トリソミー)についての結果が導かれる。
Using the Joint Distribution Model: LIK(D|H) for Multiple Hypotheses
In some embodiments, the method involves building a joint distribution model of expected allele numbers at multiple polymorphic loci on a chromosome for each ploidy hypothesis, and one method to achieve such an objective is described herein. In many cases, trisomies are not purely concordant or discordant, usually due to crossovers, and therefore in this section results are derived for the composite hypotheses H21 (maternal trisomy) and H12 (paternal trisomy), which combine concordant and discordant trisomies, taking into account possible crossovers.

トリソミーの場合には、乗換えがなければ、トリソミーは単に一致トリソミーまたは不一致トリソミーになる。一致トリソミーとは、子が一方の親由来の同一染色体セグメントの2つのコピーを遺伝によって受け継ぐ場合である。不一致トリソミーとは、子が親由来の各相同染色体セグメントの1つのコピーを遺伝によって受け継ぐ場合である。乗換えにより、染色体の一部のセグメントが一致トリソミーを有する場合もあり、他の部分が、不一致トリソミーを有してもよい。このセクションには、対立遺伝子の集合について、ヘテロ接合率について、すなわち、1個または複数個の仮説について、いくつもの遺伝子座における予測される対立遺伝子数の同時分布モデルをどのように構築するかが記載されている。 In the case of trisomy, in the absence of crossover, the trisomy is simply a concordant or discordant trisomy. A concordant trisomy is when a child inherits two copies of the same chromosomal segment from one parent. A discordant trisomy is when a child inherits one copy of each homologous chromosomal segment from a parent. With crossover, some segments of a chromosome may have concordant trisomy and other parts may have discordant trisomy. This section describes how to build a joint distribution model of the expected number of alleles at several loci for a set of alleles, for heterozygosity rates, i.e., for one or more hypotheses.

SNP iに対し、LIK(D|Hm,i)は、一致仮説Hに対する適合であり、LIK(D|Hu,i)は、不一致仮説Hに対する適合であり、pc(i)=SNP i-1とSNP iの間の乗換えの確率であると仮定する。このとき、完全な尤度を以下の通り算出することができる:
式中、LIK(D|E,1:N)は、SNP 1:Nについての仮説Eの最終尤度である。E=最後のSNPの仮説であり、E∈(Hm,Hu)である。再帰的に、以下を算出することができる:
式中、~EはE以外の仮説(非E)であり、考慮される仮説はHおよびHである。詳細には、1:i SNPの尤度を、1から(i-1)までのSNPの尤度に基づいて、同じ仮説で乗換えなしか、または逆の仮説で乗換えありのいずれかを用い、SNP iの尤度を乗じて算出することができる:
SNP 1に対し、i=1、LIK(D|E,1:1)=LIK(D|E,1)、
SNP 2に対し、i=2、LIK(D|E,1:2)=LIK(D|E,2)+log(exp(LIK(D|E,1))*(1-pc(2))+exp(LIK(D|~E,1))*pc(2))、
また、i=3:Nについても同様である。
Assume that for SNP i, LIK(D|Hm,i) is the fit to the concordance hypothesis Hm , LIK(D|Hu,i) is the fit to the mismatch hypothesis Hu , and pc(i) = the probability of crossover between SNP i-1 and SNP i. Then the complete likelihood can be calculated as follows:
where LIK(D|E,1:N) is the final likelihood of hypothesis E for SNP 1:N. E = final SNP hypothesis, E ∈ (Hm,Hu). Recursively, we can calculate:
where ∼E is a hypothesis other than E (non-E), and the hypotheses considered are H m and H u . In particular, the likelihood of 1:i SNP can be calculated based on the likelihood of SNPs 1 to (i-1) multiplied by the likelihood of SNP i with either the same hypothesis without crossover or the opposite hypothesis with crossover:
For SNP 1, i=1, LIK(D|E,1:1)=LIK(D|E,1),
For SNP 2, i=2, LIK(D|E,1:2)=LIK(D|E,2)+log(exp(LIK(D|E,1))*(1-pc(2))+exp(LIK(D|~E,1))*pc(2));
The same is true for i=3:N.

いくつかの実施形態では、子の割合(fraction)を決定することができる。子の割合とは、DNAの混合物における子を起源とする配列の割合(proportion)を指してもよい。非侵襲的な出生前診断との関連において、子の割合とは、母系の血漿における、胎児または胎児の遺伝子型を有する胎盤の部分を起源とする配列の割合を指してもよい。子の割合とは、母系の血漿から調製したDNAの試料中の子の画分を指してもよく、胎児DNAに関して富化されていてよい。DNAの試料中の子の割合を決定する1つの目的は、胎児に関して倍数性コールを行うことができるアルゴリズムにおいて使用するためであり、したがって、子の割合とは、非侵襲的な出生前診断のために配列決定によって分析したいかなるDNAの試料を指してもよい。 In some embodiments, the fraction of offspring can be determined. The fraction of offspring may refer to the proportion of sequences originating from the offspring in a mixture of DNA. In the context of non-invasive prenatal testing, the fraction of offspring may refer to the proportion of sequences in maternal plasma originating from the fetus or from portions of the placenta with fetal genotype. The fraction of offspring may refer to the fraction of offspring in a sample of DNA prepared from maternal plasma, which may be enriched for fetal DNA. One purpose of determining the fraction of offspring in a sample of DNA is for use in an algorithm that can make ploidy calls on the fetus, and thus the fraction of offspring may refer to any sample of DNA analyzed by sequencing for non-invasive prenatal testing.

非侵襲的な出生前異数性診断の方法の一部である本開示において示されているアルゴリズムのいくつかは、既知の子の割合を仮定するが、これはいつでもこのようになるわけではない。ある実施形態では、親のデータの存在を含めて、または含めずに、選択された染色体上のダイソミーの尤度を最大にすることによって、最も可能性が高い子の割合を見いだすことが可能である。 Some of the algorithms presented in this disclosure that are part of the method for non-invasive prenatal aneuploidy diagnosis assume a known offspring proportion, but this is not always the case. In one embodiment, it is possible to find the most likely offspring proportion by maximizing the likelihood of disomy on a selected chromosome, with or without the presence of parental data.

詳細には、ダイソミー仮説について、および染色体chr上の子の割合cfについて、上記の通りLIK(D|H11,cf,chr)=対数尤度と仮定する。正倍数性であると仮定した、Csetにおいて選択された染色体(通常、1:16)についての完全な尤度は:
である。
最も可能性が高い子の割合(cf†*)は、cf=argmaxcfLIK(cf)として導かれる。
In particular, assume LIK(D|H11,cf,chr) = log likelihood as above for the disomy hypothesis and for the proportion of offspring on chromosome chr,cf. The full likelihood for the selected chromosomes in Cset (usually 1:16), assuming euploidy, is:
It is.
The proportion of most likely offspring (cf †* ) is derived as cf * = argmax cf LIK(cf).

染色体の任意の集合を使用することが可能である。参照染色体における正倍数性を仮定せずに子の割合を導くことも可能である。この方法を用いて、以下の状況のいずれかについて子の割合を決定することが可能である:(1)親に関するアレイデータおよび母系の血漿に関するショットガン配列決定データを有する;(2)親に関するアレイデータおよび母系の血漿に関する標的化配列決定データを有する;(3)親と母系の血漿の両方に関する標的化配列決定データを有する;(4)母親と母系の血漿画分の両方に関する標的化配列決定データを有する;(5)母系の血漿画分に関する標的化配列決定データを有する;(6)親の画分および子の画分の測定値の他の組み合わせ。 Any set of chromosomes can be used. It is also possible to derive offspring fractions without assuming euploidy in the reference chromosomes. Using this method, it is possible to determine offspring fractions for any of the following situations: (1) having array data on the parents and shotgun sequencing data on maternal plasma; (2) having array data on the parents and targeted sequencing data on maternal plasma; (3) having targeted sequencing data on both the parents and maternal plasma; (4) having targeted sequencing data on both the mother and the maternal plasma fraction; (5) having targeted sequencing data on the maternal plasma fraction; (6) other combinations of parental and offspring fraction measurements.

いくつかの実施形態では、インフォマティクスによる方法により、データドロップアウトを組み入れることができる。これにより、より正確度が高い倍数性の判定結果を得ることができる。本開示の他の箇所において、Aが生じる確率は、真の母親の遺伝子型、真の子の遺伝子型、混合物中の子の割合、および子のコピー数の一次関数であると仮定されている。例えば、混合物中の真の子ABを測定する代わりに、母親または子の対立遺伝子がドロップアウトする可能性もあり、これは対立遺伝子Aにマッピングされる配列のみを測定する場合に起こり得る。ゲノムのイルミナデータについての親のドロップアウト率をdpg、配列データについての親のドロップアウト率をdpsおよび配列データについての子のドロップアウト率をdcsで示すことができる。いくつかの実施形態では、母親のドロップアウト率を0、子のドロップアウト率を比較的低いと仮定することができ、この場合、結果はドロップアウトの影響を大きくは受けない。いくつかの実施形態では、対立遺伝子ドロップアウトの可能性は、それにより予測される倍数性コールに有意な影響がもたらされるのに十分に大きい場合がある。そのような場合、対立遺伝子ドロップアウトをここでアルゴリズムに組み入れる: In some embodiments, data dropout can be incorporated by informatics methods. This can result in more accurate ploidy determination results. Elsewhere in this disclosure, it has been assumed that the probability of A occurring is a linear function of the true maternal genotype, the true child genotype, the proportion of children in the mixture, and the child copy number. For example, instead of measuring the true child AB in the mixture, it is possible that the mother or child alleles will drop out, which may occur if only sequences that map to allele A are measured. The parent dropout rate for the genomic Illumina data can be denoted as d pg , the parent dropout rate for the sequence data as d ps , and the child dropout rate for the sequence data as d cs . In some embodiments, it can be assumed that the maternal dropout rate is 0 and the child dropout rate is relatively low, in which case the results are not significantly affected by the dropout. In some embodiments, the probability of allele dropout may be large enough that it significantly impacts the predicted ploidy call. In such cases, allele dropout is now incorporated into the algorithm:

親のSNPアレイデータドロップアウト:母親のゲノムのデータMについて、ドロップアウト後の遺伝子型をmとすると、
で、式中、上記と同様に、
であり、P(m|m)は、ドロップアウト率dについて以下の通り定義される真の遺伝子型mを考慮した可能性のあるドロップアウト後の遺伝子型mの尤度である
同様の式が父親のSNPアレイデータにも当てはまる。
Parental SNP array data dropout: For the maternal genome data M, let the genotype after dropout be m d .
In the formula, as above,
and P(m d |m) is the likelihood of a possible dropout genotype m d given the true genotype m for a dropout rate d, defined as follows:
A similar formula applies to the paternal SNP array data.

親の配列データドロップアウト:母親の配列データSMに対し、
式中、P(m|m)は前のセクションで定義された通りであり、二項分布からのPx|md(am)確率は、親のデータの尤度セクションにおいて上記の通り定義される。同様の式が父系の配列データにも適用できる。
Parent sequence data dropout: For the maternal sequence data SM,
where P( md |m) is as defined in the previous section and the Px |md ( ami ) probability from the binomial distribution is defined above in the Likelihood of Parental Data section. A similar formula can be applied to the paternal sequence data.

浮動性DNA配列データドロップアウト:
式中、P(S|μ(m,c,cf,H),i)は浮動性のデータの尤度に関するセクションにおいて定義されている通りである。
Floating DNA sequence data dropout:
where P(S|μ(m d , cd , cf, H),i) is as defined in the section on likelihood of floating data.

ある実施形態では、p(m|m)は、真の母親の遺伝子型mを考慮し、ドロップアウト率dpsを仮定した、観察された母親の遺伝子型mの確率であり、p(c|c)は、真の子の遺伝子型cを考慮し、ドロップアウト率dcsを仮定した、観察された子の遺伝子型cの確率である。nA=真の遺伝子型cにおける対立遺伝子Aの数であり、nA=観察された遺伝子型cにおける対立遺伝子Aの数であり、nA≧nAであり、同様に、nB=真の遺伝子型cにおける対立遺伝子Bの数であり、nB=観察された遺伝子型cにおける対立遺伝子Bの数であり、nB≧nBであり、d=ドロップアウト率であるとすると、
である。
In one embodiment, p(m d |m) is the probability of observed maternal genotype m d given the true maternal genotype m and assuming a dropout rate d ps , and p(c d |c) is the probability of observed child genotype c d given the true child genotype c and assuming a dropout rate d cs . Let nA T = the number of A alleles in true genotype c, nA D = the number of A alleles in observed genotype c d , nA T ≧nA D , and similarly, nB T = the number of B alleles in true genotype c, nB D = the number of B alleles in observed genotype c d , nB T ≧nB D , and d = the dropout rate.
It is.

ある実施形態では、インフォマティクスによる方法により、ランダムな偏りおよび一貫した偏りが組み入れられる可能性がある。理想的に言えば、配列計数値にSNP当たりの一貫したサンプリングの偏りまたはランダムなノイズ(二項分布の変動に加えて)は存在しない。詳細には、SNP iにおいて、母親の遺伝子型m、真の子の遺伝子型cおよび子の割合cf、およびX=SNP iにおける(A+B)リードの集合内のAの数に対して、XはX~Binomial(p,A+B)として作用し、p=μ(m,c,cf,H)=A含量の真の確率である。 In one embodiment, informatics methods may incorporate random and consistent biases. Ideally, there is no consistent sampling bias or random noise (in addition to binomial variation) per SNP in the sequence counts. In particular, for maternal genotype m, true offspring genotype c and offspring proportion cf at SNP i, and X=number of A in the set of (A+B) reads at SNP i, X acts as X~Binominal(p,A+B), where p=μ(m,c,cf,H)=true probability of A content.

ある実施形態では、インフォマティクスによる方法により、ランダムな偏りが組み入れられる可能性がある。大抵の場合、測定値に偏りがあると仮定し、したがってこのSNPにおいてAが生じる確率は、上で定義されたpとは少し異なるqに等しい。pとqがどのくらい異なるかは、測定プロセスの正確度および他の因子の数に左右され、pから離れたqの標準偏差によって定量化することができる。ある実施形態では、qを、ベータ分布を有するとしてpに集中したその分布の平均に応じたパラメータα、β、および一部の特定の標準偏差sを用いてモデリングすることが可能である。詳細には、これによりX|q~Bin(q,D)がもたらされ、q~Beta(α,β)である。E(q)=p、V(q)=sとすれば、パラメータα、βはα=pN、β=(1-p)Nとして導くことができ、
である。
In an embodiment, a random bias may be incorporated using informatics methods. In most cases, one assumes that the measurements are biased, and therefore the probability of A occurring at this SNP is equal to q, which is slightly different from p, as defined above. How different p and q are depends on the accuracy of the measurement process and a number of other factors, and can be quantified by the standard deviation of q away from p. In an embodiment, q can be modeled as having a beta distribution, with parameters α, β depending on the mean of that distribution centered on p, and some particular standard deviation s. In particular, this gives X|q ∼ Bin(q,D i ), where q ∼ Beta(α,β). If E(q)=p, V(q)=s 2 , then the parameters α, β can be derived as α=pN, β=(1−p)N,
It is.

これはベータ二項分布の定義であり、可変性のパラメータqを伴う二項分布からサンプリングし、qは平均のpを有するベータ分布に従う。したがって、偏りがないセットアップでは、SNP iにおいて、真の母親の遺伝子型(m)を仮定し、SNP i上の母親の配列A計数値(am)およびSNP i上の母親の配列B計数値(bm)を考慮した親の配列データ(SM)確率を以下の通り算出することができる:P(SM|m,i)=PX|m(am)、ここで、X|m~Binom(p(A),am+bm)である。 This is the definition of beta binomial distribution, which samples from a binomial distribution with a variability parameter q, which follows a beta distribution with mean p. Thus, in an unbiased setup, at SNP i, assuming the true maternal genotype (m), the parental sequence data (SM) probability given the maternal sequence A counts on SNP i (am i ) and the maternal sequence B counts on SNP i (bm i ) can be calculated as follows: P(SM|m,i)=PX |m (am i ), where X|m∼Binom( pm (A),am i +bm i ).

ここで、標準偏差sを有するランダムな偏りを含めると、以下になる:
X|m~BetaBinom(p(A),am+bm,s)。
Now, including a random bias with standard deviation s, we get:
X|m ∼ BetaBinom(p m (A), am i + bm i , s).

偏りがない場合には、真の母親の遺伝子型(m)、真の子の遺伝子型(c)、子の割合(cf)を仮定し、子の仮説Hを仮定し、SNP i上の浮動性DNA配列A計数値(ai)およびSNP i上の浮動性配列B計数値(bi)を考慮した母系の血漿DNA配列データ(S)確率を以下の通り算出することができる:
P(S|m,c,cf,H,i)=Px(a
式中、X~Binom(p(A),a+b)、p(A)=μ(m,c,cf,H)。
In the absence of bias, assuming the true maternal genotype (m), the true child genotype (c), the child proportion (cf), and assuming the child hypothesis H, the probability of the maternal plasma DNA sequence data (S) taking into account the floating DNA sequence A count (ai) on SNP i and the floating sequence B count (bi) on SNP i can be calculated as follows:
P(S|m, c, cf, H, i)=Px(a i )
where X~Binom(p(A), ai + bi ), p(A) = μ(m, c, cf, H).

ある実施形態では、標準偏差sを有するランダムな偏りを含めると、これはX~BetaBinom(p(A),a+b、s)になり、余分の変動の量は偏差パラメータsまたは同等にNによって指定される。sの値が小さいほど(またはNの値が大きいほど)この分布は標準的な二項分布に近づく。偏りの量を推定すること、すなわち上記のNを、明白な状況AA|AA、BB|BB、AA|BB、BB|AAから、上記の確率における推定:
を用いて推定することが可能である。データの挙動に応じて、Nを、リード深度a+bまたはa+bの関数に関係なく一定になるようにし、これにより、より大きなリード深度に対して偏りをより小さくすることができる。
In one embodiment, including a random bias with standard deviation s makes this X~BetaBinom(p(A), ai + bi , s), where the amount of extra variation is specified by the deviation parameter s or equivalently N. Smaller values of s (or larger values of N) make the distribution closer to a standard binomial distribution. To estimate the amount of bias, i.e., N above, from the obvious situations AA|AA, BB|BB, AA|BB, BB|AA, we can estimate the above probabilities:
Depending on the behavior of the data, N can be made to be a constant regardless of the read depth a i + b i or a i + b i function, resulting in less bias for larger read depths.

ある実施形態では、インフォマティクスによる方法により、一貫したSNPごとの偏りが組み入れられる可能性がある。配列決定プロセスのアーチファクトに起因して、一部のSNPは、真のA含量に関係なく、一貫して低いまたは高い計数値を有し得る。SNP iが一貫してA計数値に対してwパーセントの偏りを加えると仮定する。いくつかの実施形態では、この偏りを、同じ条件で導かれたトレーニングデータの集合から推定し、以下のように親の配列データ推定値に戻すことができる:
P(SM|m,i)=PX|m(am)<ここで、X|m~BetaBinom(p(A)+w,am+bm,s)>、
また、浮動性DNA配列データ確率推定値は:
P(S|m,c,cf,H,i)=P(a)<ここで、X~BetaBinom(p(A)+w,a+b,s)>
となる。
In an embodiment, an informatics method may incorporate a consistent SNP-by-SNP bias. Due to artifacts in the sequencing process, some SNPs may have consistently low or high counts regardless of their true A content. Assume that SNP i consistently adds a bias of w i percent to the A counts. In some embodiments, this bias can be estimated from a set of training data derived under the same conditions and added back to the parent sequence data estimates as follows:
P(SM|m,i)=PX |m ( ami )where X|m~BetaBinom( pm (A)+ wi , ami + bmi ,s)
And the floating DNA sequence data probability estimate is:
P(S|m,c,cf,H,i)= PX ( ai )where X~BetaBinom(p(A)+ wi , ai + bi ,s)
It becomes.

いくつかの実施形態では、前記方法は、特にさらに別のノイズ、示差的な試料の質、示差的なSNPの質、およびランダムサンプリングの偏りを考慮に入れて書くことができる。この例はここに示されている。この方法は、データを大規模に多重化されたmini-PCRプロトコールを使用して生成した状況において特に有用であることが示されており、これを実験7~13において用いた。前記方法は、それぞれが最終のモデルに異なる種類のノイズおよび/または偏りを導入するいくつかのステップを伴う:
(1)母系DNAと胎児DNAの混合物を含む第1の試料は、サイズ=N分子、通常、1,000~40,000の範囲、p=真の%refの元のDNAの量を含有すると仮定する。
(2)ユニバーサルライゲーションアダプタを使用した増幅において、N分子がサンプリングされると仮定する;通常、サンプリングに起因してN~N/2分子およびランダムサンプリングの偏りが導入される。増幅された試料は、いくつもの分子Nを含有してよく、N>>Nである。XはNサンプリングされた分子のうちの参照遺伝子座の量(SNPごと)を示し、プロトコールの残り全体を通してランダムサンプリングの偏りを導入するp=X/Nの変動を伴うとする。このサンプリングの偏りを、単純な二項分布モデルを使用する代わりにベータ二項(BB)分布を使用することによってモデルに含める。ベータ二項分布のパラメータNを後で、試料ごとに、0<p<1のSNPについて漏れおよび増幅の偏りを調整した後に、トレーニングデータから推定することができる。漏れは、SNPが不正確に読み取られる傾向である。
(3)増幅ステップにより、対立遺伝子のあらゆる偏りが増幅され、したがって、可能性のある一様でない増幅によって増幅の偏りが導入される。遺伝子座における一方の対立遺伝子がf倍に増幅され、その遺伝子座における他方の対立遺伝子がg倍に増幅されると仮定すると、f=geであり、b=0は偏りがないことを示す。偏りパラメータbは0に集中し、特定のSNPにおいて対立遺伝子Aが対立遺伝子Bと対照的にどのくらい多くまたは少なく増幅されたかを示す。パラメータbは、SNPによって異なってよい。偏りパラメータbは、SNPごとに、例えば、トレーニングデータから推定することができる。
(4)配列決定ステップは、増幅された分子の試料について配列決定するステップを包含する。このステップでは、漏れが存在する可能性があり、漏れとは、SNPが不正確に読み取られる状況である。漏れは、様々な問題に起因する可能性があり、漏れの結果、SNPは、正確な対立遺伝子Aとして読み取られないが、その遺伝子座において見いだされる別の対立遺伝子Bとして、または一般にはその遺伝子座において見いだされない対立遺伝子CまたはDとして読み取られる。配列決定により、サイズN、N<Nの増幅された試料からいくつものDNA分子の配列データが測定されると仮定する。いくつかの実施形態では、Nは、20,000~100,000;100,000~500,000;500,000~4,000,000;4,000,000~20,000,000;または20,000,000~100,000,000の範囲内であってよい。サンプリングされた各分子は正確に読み取られた確率pを有し、その場合、正確に対立遺伝子Aとして示される。試料は、確率1-pgで元の分子と無関係の対立遺伝子として不正確に読み取られ、確率prで対立遺伝子Aのようであり、確率pで対立遺伝子Bのようであり、または確率pで対立遺伝子Cまたは対立遺伝子Dのようであり、p+p+p=1である。パラメータp、p、p、pは、SNPごとに、トレーニングデータから推定する。
In some embodiments, the method can be written to specifically take into account additional noise, differential sample quality, differential SNP quality, and random sampling bias. An example of this is shown here. This method has been shown to be particularly useful in situations where data were generated using a massively multiplexed mini-PCR protocol, and was used in Experiments 7-13. The method involves several steps, each of which introduces a different type of noise and/or bias into the final model:
(1) Assume that a first sample containing a mixture of maternal and fetal DNA contains an amount of original DNA of size = N 0 molecules, typically in the range of 1,000-40,000, p = true %ref.
(2) In amplification using universal ligation adaptors, we assume that N 1 molecules are sampled; typically, N 1 -N 0 /2 molecules and random sampling bias is introduced due to sampling. An amplified sample may contain any number of molecules N 2 , with N 2 >>N 1. Let X 1 denote the amount of reference locus (per SNP) among the N 1 sampled molecules, with a variation of p 1 =X 1 /N 1 that introduces random sampling bias throughout the rest of the protocol. We include this sampling bias in the model by using a beta-binomial (BB) distribution instead of using a simple binomial distribution model. The parameter N of the beta-binomial distribution can later be estimated from the training data, for each sample, after adjusting for leakage and amplification bias for SNPs with 0<p<1. Leakage is the tendency of a SNP to be read incorrectly.
(3) The amplification step amplifies any allele bias, thus introducing amplification bias due to possible uneven amplification. Assuming that one allele at a locus is amplified f-fold and the other allele at that locus is amplified g-fold, then f=ge b , with b=0 indicating no bias. The bias parameter b centers around 0 and indicates how much more or less allele A is amplified at a particular SNP as opposed to allele B. The parameter b may vary from SNP to SNP. The bias parameter b can be estimated for each SNP, for example, from training data.
(4) The sequencing step involves sequencing a sample of the amplified molecules. In this step, leakage may exist, which is a situation where a SNP is read incorrectly. Leakage may result from a variety of issues, resulting in a SNP not being read as the correct allele A, but as another allele B found at the locus, or as alleles C or D, which are not typically found at the locus. Assume that sequencing measures sequence data for a number of DNA molecules from an amplified sample of size N3 , N3 < N2 . In some embodiments, N3 may be in the range of 20,000-100,000; 100,000-500,000; 500,000-4,000,000; 4,000,000-20,000,000; or 20,000,000-100,000,000. Each sampled molecule has a probability pg of being read correctly, in which case it is denoted correctly as allele A. A sample may be read incorrectly as an allele unrelated to the original molecule with probability 1-pg, likely allele A with probability pr, likely allele B with probability pm , or likely allele C or allele D with probability p0 , where pr + pm + p0 =1. The parameters pg , pr , pm , and p0 are estimated for each SNP from the training data.

異なるプロトコールは、同様のステップを包含し、分子生物学的ステップに変動を伴ってよく、その結果、異なる量のランダムサンプリング、異なるレベルの増幅および異なる漏れによる偏りがもたらされる。以下のモデルを、これらの場合のそれぞれに同等に良好に適用することができる。サンプリングされたDNAの量のモデルは、SNPごとに、以下によって示される:
~BetaBinomial(L(F(p,b),p,p)、N*H(p,b))
式中、p=参照DNAの真の量であり、b=SNP当たりの偏りであり、上記のように、pは正確なリードの確率であり、pは、上記の通り、悪いリードの場合、不正確に読み取られたが、偶然に正確な対立遺伝子に見えるリードの確率であり:
F(p,b)=pe/(pe+(1-p))、H(p,b)=(ep+(1-p))/e、L(p,p,p)=p*p+p*(1-p)である。
Different protocols involve similar steps and may involve variations in the molecular biology steps resulting in different amounts of random sampling, different levels of amplification and different leakage biases. The following model can be applied equally well to each of these cases. The model for the amount of sampled DNA is given for each SNP by:
X3 ~ BetaBinomial(L(F(p,b), pr , pg ),N*H(p,b))
where p = true amount of reference DNA, b = bias per SNP, p g is the probability of a correct read as above, and p r is the probability of a read that is incorrectly read but appears to be the correct allele by chance, in the case of a bad read, as above:
F(p,b) = pe b / (pe b + (1-p)), H(p,b) = ( eb p + (1-p)) 2 / eb , and L(p, pr , pg ) = p * pg + pr * (1- pg ).

いくつかの実施形態では、前記方法では単純な二項分布の代わりにベータ二項分布を使用する。これは、ランダムサンプリングの偏りに対処する。ベータ二項分布のパラメータNは、試料ごとに、必要に応じて推定する。単にpの代わりに偏り補正F(p,b)、H(p,b)を用いて、増幅の偏りに対処する。偏りのパラメータbは、前もって、SNPごとに、トレーニングデータから推定する。 In some embodiments, the method uses a beta binomial distribution instead of a simple binomial distribution. This addresses random sampling bias. The beta binomial parameter N is estimated for each sample as needed. Amplification bias is addressed using bias corrections F(p,b), H(p,b) instead of simply p. The bias parameter b is estimated from the training data in advance for each SNP.

いくつかの実施形態では、前記方法では、単にpの代わりに漏れ補正L(p,p,p)を用い、これは漏れによる偏り、すなわちSNPおよび試料の質の変動に対処する。いくつかの実施形態では、パラメータp、p、pは、前もって、SNPごとに、トレーニングデータから推定する。いくつかの実施形態では、パラメータp、p、pは、実行されている現行の試料を用いて更新して、試料の質の変動を明らかにすることができる。 In some embodiments, the method uses a leakage correction L(p, pr , pg ) instead of simply p, which accounts for bias due to leakage, i.e., SNP and sample quality variations. In some embodiments, the parameters pg , pr , po are estimated from training data in advance for each SNP. In some embodiments, the parameters pg , pr , po can be updated using the current sample run to account for sample quality variations.

本明細書に記載のモデルは、かなり一般的であり、示差的な試料の質と示差的なSNPの質の両方を明らかにすることができる。異なる試料およびSNPは、いくつかの実施形態では平均および分散が元のDNAの量、ならびに試料およびSNPの質の関数であるベータ二項分布を用いるという事実によって例証されるように、異なって処理される。 The models described herein are fairly general and can account for both differential sample quality and differential SNP quality. Different samples and SNPs are treated differently, as illustrated by the fact that some embodiments use a beta binomial distribution whose mean and variance are a function of the original DNA amount, as well as sample and SNP quality.

プラットフォームのモデリング
血漿中に存在する予測される対立遺伝子の比がrである(母系の遺伝子型および胎児の遺伝子型に基づいて)単一のSNPを考慮に入れる。予測される対立遺伝子の比は、母系DNAと胎児DNAの組み合わせにおいて、予測される対立遺伝子Aの割合と定義される。母系の遺伝子型gおよび子の遺伝子型gについて、予測される対立遺伝子の比は、遺伝子型が同様に対立遺伝子の比で示されると仮定して、式1によって示される。
r=fg+(1-f)g (1)
Modeling the Platform Consider a single SNP with a predicted allele ratio r present in plasma (based on maternal and fetal genotypes). The predicted allele ratio is defined as the predicted proportion of allele A in the combination of maternal and fetal DNA. For a maternal genotype gm and a child's genotype gc , the predicted allele ratio is given by Equation 1, assuming the genotypes are similarly expressed in allele ratios.
r = fg c + (1 - f) g m (1)

SNPにおける観察は、存在する各対立遺伝子でマッピングされたリード数、nおよびnからなり、合計してリード深度dになる。閾値が既にマッピング確率およびphredスコアに適用されており、したがって、マッピングおよび対立遺伝子の観察を正確であるとみなすことができると仮定する。phredスコアとは、特定の塩基における特定の測定値が誤りである確率に関する数値尺度である。ある実施形態では、塩基を配列決定によって測定した場合、phredスコアは、コールされた塩基に対応する色素の強度と他の塩基の色素の強度の比から算出することができる。尤度を観察するための最も単純なモデルは、dリードのそれぞれが、対立遺伝子の比rを有する大規模なプールからそれぞれ独立に抜き取られたと仮定する二項分布である。式2によりこのモデルが説明される。
An observation at a SNP consists of the number of reads mapped at each allele present, n a and n b , summing to a read depth d. We assume that a threshold has already been applied to the mapping probability and phred score, so that the mapping and allele observations can be considered accurate. The phred score is a numerical measure of the probability that a particular measurement at a particular base is incorrect. In an embodiment, if the base is measured by sequencing, the phred score can be calculated from the ratio of the intensity of the dye corresponding to the called base to the intensity of the dye of the other base. The simplest model for observing the likelihood is a binomial distribution, which assumes that each of the d reads is independently drawn from a large pool with an allele ratio r. Equation 2 describes this model.

二項式モデルは、いくつもの方法で拡張することができる。母系の遺伝子型および胎児の遺伝子型が全てAであるかまたは全てBであるかのいずれかの場合、血漿における予測される対立遺伝子の比は0または1になり、二項確率は明確に定義されない。実際には、時には実施において予想外の対立遺伝子が観察される。ある実施形態では、補正した対立遺伝子の比
を用いて、予想外の対立遺伝子を少数にすることが可能である。ある実施形態では、トレーニングデータを用いて、各SNP上に現れる予想外の対立遺伝子の比率をモデリングすること、およびこのモデルを使用して予測される対立遺伝子の比を補正することが可能である。予測される対立遺伝子の比が0または1ではない場合、観察された対立遺伝子の比は、増幅の偏りまたは他の現象に起因して、予測される対立遺伝子の比に十分に高いリード深度に収束し得ない。次いで、対立遺伝子の比を、予測される対立遺伝子の比に集中したベータ分布としてモデリングし、二項分布よりも分散が大きいP(n,n|r)についてのベータ二項分布を得ることができる。
The binomial model can be extended in a number of ways. If the maternal and fetal genotypes are either all A or all B, the expected allele ratios in plasma will be 0 or 1, and the binomial probabilities are not well-defined. In practice, unexpected alleles are sometimes observed in practice. In one embodiment, the corrected allele ratios
Using the above method, it is possible to make the unexpected alleles minor. In an embodiment, it is possible to use the training data to model the ratio of unexpected alleles appearing on each SNP, and to use this model to correct the expected allele ratio. If the expected allele ratio is not 0 or 1, the observed allele ratio may not converge to the expected allele ratio at a high enough read depth due to amplification bias or other phenomena. The allele ratio can then be modeled as a beta distribution centered on the expected allele ratio, resulting in a beta binomial distribution for P(n a , n b |r) with a larger variance than the binomial distribution.

単一のSNPにおける応答についてのプラットフォームモデルは、F(a,b、g,g,f)と定義される(3)、または観察されているn=aおよびn=bの確率は、母系の遺伝子型および胎児の遺伝子型を考慮すると、同様に式1による胎児画分に左右される。Fの関数形式は、二項分布、ベータ二項分布または上記と同様の関数であってよい。
F(a,b,g,g,f)=P(n=a,n=b|g,g,f)=P(n=a,n=b|r(g,g,f)) (3)
The platform model for response at a single SNP is defined as F(a, b, gc , gm , f) (3), or the probability of observed n a = a and n b = b, given the maternal and fetal genotypes, similarly depends on the fetal fraction according to Equation 1. The functional form of F can be a binomial distribution, a beta-binomial distribution, or similar functions as above.
F(a, b, gc , gm , f) = P(na = a , nb = b | gc , gm , f) = P( na = a, nb = b | r( gc , gm , f)) (3)

ある実施形態では、子の割合を以下の通り決定することができる。出生前検査のための胎児画分fの最尤推定値は、父系の情報を使用することなく導くことができる。これは、父系の遺伝子データが入手不可能である場合、例えば、記録の父親が実際には胎児の遺伝学的父親ではない場合に関連性があり得る。胎児画分は、母系の遺伝子型が0または1である場合にSNPの集合から推定し、その結果、可能性のある胎児の遺伝子型2つのみの集合がもたらされる。Sを、母系の遺伝子型が0であるSNPの集合と定義し、Sを、母系の遺伝子型が1であるSNPの集合と定義する。Sにおける可能性のある胎児の遺伝子型は0および0.5であり、可能性のある対立遺伝子の比の集合R(f)={0,f/2}がもたらされる。同様に、R(f)={1-f/2,1}である。この方法は、母系の遺伝子型が0.5であるSNPを含むように自明に拡張され得るが、これらのSNPは、可能性のある対立遺伝子の比のより大きな集合に起因して情報価値が低い。 In an embodiment, the proportion of offspring can be determined as follows: A maximum likelihood estimate of the fetal fraction f for prenatal testing can be derived without using paternal information. This may be relevant when paternal genetic data is not available, e.g., when the father of record is not in fact the genetic father of the fetus. The fetal fraction is estimated from the set of SNPs where the maternal genotype is 0 or 1, resulting in a set of only two possible fetal genotypes. Define S 0 as the set of SNPs with maternal genotype 0 and S 1 as the set of SNPs with maternal genotype 1. The possible fetal genotypes in S 0 are 0 and 0.5, resulting in a set of possible allele ratios R 0 (f)={0,f/2}. Similarly, R 1 (f)={1-f/2,1}. This method can be trivially extended to include SNPs with a maternal genotype of 0.5, but these SNPs are less informative due to the larger set of possible allele ratios.

a0およびNb0を、SにおけるSNPについてnasおよびnbsによって形成されるベクトルと定義し、Na1およびNb1を同様にSについて定義する。fの最尤推定値
は式4によって定義される。
Define N a0 and N b0 as the vectors formed by n as and n bs for the SNPs in S0 , and N a1 and N b1 are similarly defined for S1 . The maximum likelihood estimate of f
is defined by Equation 4.

各SNPにおける対立遺伝子数をSNPの血漿対立遺伝子の比に対して独立して条件づけたと仮定して、確率は、各集合内のSNPに関する積として表すことができる(5)。
Assuming that the allele count at each SNP is conditioned independently on the SNP's plasma allele ratio, the probability can be expressed as a product over the SNPs in each set (5).

fへの依存は、可能性のある対立遺伝子の比の集合R(f)およびR(f)による。SNP確率P(nas,nbs|f)は、fに対して条件づけた最尤遺伝子型を仮定することによって概算することができる。合理的に高い胎児画分およびリード深度における最尤遺伝子型の選択は信頼度が高くなる。例えば、胎児画分10パーセントおよびリード深度1000において、母親が遺伝子型ゼロを有するSNPを考慮する。予測される対立遺伝子の比は0パーセントおよび5パーセントであり、これは十分に高いリード深度において容易に区別可能である。推定される子の遺伝子型を式5に代入することにより、胎児画分を推定するための完全な式(6)が得られる。
The dependence on f is due to the set of possible allele ratios R 0 (f) and R 1 (f). The SNP probability P(n as , n bs |f) can be estimated by assuming the most likely genotype conditioned on f. Selection of the most likely genotype at a reasonably high fetal fraction and read depth will be more reliable. For example, consider a SNP where the mother has genotype zero at a fetal fraction of 10 percent and a read depth of 1000. The expected allele ratios are 0 percent and 5 percent, which are easily distinguishable at a sufficiently high read depth. Substituting the estimated pup genotype into Equation 5 gives the complete Equation (6) for estimating the fetal fraction.

胎児画分は、範囲[0,1]でなければならず、したがって、条件付き一次元検索によって最適化を容易に実行することができる。 The fetal fraction must be in the range [0,1], and therefore optimization can be easily performed by a constrained one-dimensional search.

低いリード深度の場合または高いノイズレベルの存在下では、不自然に高い信頼度をもたらし得る最尤遺伝子型を仮定しないことが好ましい場合がある。別の方法では、各SNPにおける可能性のある遺伝子型にわたって合計し、その結果、SにおけるSNPについてのP(n,n|f)について以下の式(7)が得られる。事前確率P(r)は、R(f)にわたって一様であると仮定することができ、または母集団頻度に基づいてよい。群Sへの拡大は自明である。
In the case of low read depth or in the presence of high noise levels, it may be preferable not to assume the most likely genotype, which may lead to an artificially high confidence. Another method is to sum over the possible genotypes at each SNP, resulting in the following equation (7) for P(n a ,n b |f) for the SNPs in S 0 . The prior probability P(r) can be assumed to be uniform over R 0 (f) or may be based on population frequencies. Extension to group S 1 is trivial.

いくつかの実施形態では、確率を以下の通り導くことができる。2つの仮説HおよびHのデータ尤度から信頼度を算出することができる。各仮説の尤度を、応答モデル、推定される胎児画分、母親の遺伝子型、対立遺伝子の母集団頻度、および血漿対立遺伝子数に基づいて導く。
以下の表記を定義する:
、G 真の母系の遺伝子型および子の遺伝子型
af、Gtf 父親とされる人の真の遺伝子型および真の父親の真の遺伝子型
G(g,g,gtf)=P(G=g|G=g,Gtf=gtf) 遺伝形質確率
P(g)=P(Gtf=g) 特定のSNPにおける遺伝子型gの母集団頻度
In some embodiments, the probability can be derived as follows: Confidence can be calculated from the data likelihood of the two hypotheses Ht and Hf . The likelihood of each hypothesis is derived based on the response model, the estimated fetal fraction, the maternal genotype, the population frequency of the allele, and the plasma allele count.
We define the following notation:
Gm , Gc the true maternal genotype and the child's genotype Gaf , Gtf the true genotype of the alleged father and the true genotype of the true father G( gc , gm , gtf ) = P( Gc = gc | Gm = gm , Gtf = gtf ) Genetic probability P(g) = P( Gtf = g) Population frequency of genotype g at a particular SNP

各SNPにおける観察は血漿対立遺伝子の比に対して独立して条件づけられると仮定して、父系性仮説の尤度はSNPにおける尤度の積である。以下の式により、単一のSNPについての尤度が導かれる。式8は、任意の仮説hの尤度についての一般的な表現であり、次いで、HおよびHの特定の場合に分解される。
の場合には、父親とされる人は真の父親であり、胎児の遺伝子型は、式9に従って母系の遺伝子型および父親とされる人の遺伝子型から遺伝によって受け継がれる。
Assuming that the observations at each SNP are independently conditioned on the ratio of plasma alleles, the likelihood of the paternity hypothesis is the product of the likelihoods at the SNPs. The following formula derives the likelihood for a single SNP: Equation 8 is a general expression for the likelihood of any hypothesis h, which is then broken down into the specific cases of Ht and Hf .
In the case of H t , the alleged father is the true father and the fetus's genotype is inherited from the maternal genotype and the alleged father's genotype according to Equation 9.

の場合には、父親とされる人は真の父親ではない。真の父親の遺伝子型の最良の推定値は、各SNPにおける母集団頻度によって生じる。したがって、子の遺伝子型の確率を、式10の場合と同様に既知の母親の遺伝子型および母集団頻度によって決定する。
In the case of H f , the alleged father is not the true father. The best estimate of the true father's genotype comes from the population frequencies at each SNP. Therefore, the probability of the child's genotype is determined by the known mother's genotype and the population frequencies as in Equation 10.

正確な父系性に対する信頼度Cを、ベイズの法則(11)を用いて、2つの尤度のSNPに関する積から算出する。
The confidence in correct paternity, Cp , is calculated from the SNP-wise product of the two likelihoods using Bayes' rule (11).

パーセントによる胎児画分を用いた最尤モデル
母系の血清中に含有される浮動性DNAを測定することによって、または任意の混合試料中の遺伝子型の材料を測定することによって胎児の倍数性状態を決定することは、非自明の作業である。いくつもの方法があり、例えば、推測が、胎児が特定の染色体においてトリソミーである場合は、母系の血液中に見いだされるその染色体由来の全体的なDNAの量が参照染色体に対して上昇するというものであるリード数解析を実施する方法が存在する。そのような胎児においてトリソミーを検出するための1つの方法は、各染色体について予測されるDNAの量を、例えば、所与の染色体に対応する分析集合内のSNPの数に従って、または染色体の独自にマッピング可能な部分の数に従って正規化することである。測定値が正規化されたら、特定の閾値を超えるDNAの量が測定された任意の染色体をトリソミーであると決定する。この手法は、FanらPNAS、2008年;105巻(42号);16266~16271頁に記載されており、ChiuらBMJ 2011年;342巻:c7401頁にも記載されている。Chiuらの論文では、正規化は、以下の通りZスコアを算出することによって実現された:
検査例における第21染色体の百分率についてのZスコア=((検査例における第21染色体の百分率)-(参照対照における第21染色体の百分率の平均))/(参照対照における第21染色体の百分率の標準偏差)。
これらの方法では、単一仮説棄却法を用いて胎児の倍数性状態を決定する。しかし、これらは、いくつかの著しい欠点を被る。胎児における倍数性を決定するためのこれらの方法は試料中の胎児DNAの百分率に従って不変であるので、1つのカットオフ値を使用し、その結果、決定の正確度は最適ではなく、混合物中の胎児DNAの百分率が比較的低い場合は、正確度が最も悪くなる。
Maximum Likelihood Model with Percent Fetal Fraction Determining the ploidy status of a fetus by measuring the free floating DNA contained in maternal serum or by measuring genotypic material in any mixed sample is a non-trivial task. There are several ways, for example, methods that perform read count analysis where the assumption is that if the fetus is trisomic in a particular chromosome, the overall amount of DNA from that chromosome found in the maternal blood will be elevated relative to the reference chromosome. One way to detect trisomy in such fetuses is to normalize the amount of DNA expected for each chromosome, for example, according to the number of SNPs in the analysis set that correspond to a given chromosome, or according to the number of uniquely mappable parts of the chromosome. Once the measurements are normalized, any chromosome with a measured amount of DNA above a certain threshold is determined to be trisomic. This approach is described in Fan et al. PNAS 2008;105(42);16266-16271 and also in Chiu et al. BMJ 2011;342:c7401. In the Chiu et al. paper, normalization was achieved by calculating the Z-score as follows:
Z score for percentage of chromosome 21 in test cases = ((percentage of chromosome 21 in test cases) - (mean percentage of chromosome 21 in reference controls)) / (standard deviation of percentage of chromosome 21 in reference controls).
These methods use a single hypothesis rejection method to determine the ploidy state of the fetus. However, they suffer from several significant drawbacks. These methods for determining ploidy in the fetus are invariant according to the percentage of fetal DNA in the sample, so they use a single cutoff value, resulting in a less than optimal accuracy of the determination, with the worst accuracy occurring when the percentage of fetal DNA in the mixture is relatively low.

ある実施形態では、胎児の倍数性状態を決定するために用いる本開示の方法は、試料中の胎児DNAの割合を考慮に入れるステップを包含する。本開示の別の実施形態では、前記方法は、最尤推定の使用を包含する。ある実施形態では、本開示の方法は、試料中の胎児起源または胎盤起源のDNAのパーセントを算出するステップを包含する。ある実施形態では、異数性をコールするための閾値は、算出されたパーセント胎児DNAに基づいて適応調整する。いくつかの実施形態では、DNAの混合物中の胎児起源のものであるDNAの百分率を推定するための方法は、母親由来の遺伝物質、および胎児由来の遺伝物質を含む混合試料を得るステップと、胎児の父親由来の遺伝子試料を得るステップと、混合試料中のDNAを測定するステップと、父親の試料中のDNAを測定するステップと、混合試料のDNA測定値、および父親の試料のDNA測定値を使用して、混合試料中の胎児起源のものであるDNAの百分率を算出するステップとを含む。 In an embodiment, the method of the present disclosure used to determine the ploidy status of a fetus includes taking into account the percentage of fetal DNA in the sample. In another embodiment of the present disclosure, the method includes the use of maximum likelihood estimation. In an embodiment, the method of the present disclosure includes calculating the percent of DNA of fetal or placental origin in the sample. In an embodiment, the threshold for calling aneuploidy is adaptively adjusted based on the calculated percent fetal DNA. In some embodiments, a method for estimating the percentage of DNA that is of fetal origin in a mixture of DNA includes obtaining a mixed sample containing genetic material from the mother and genetic material from the fetus, obtaining a genetic sample from the father of the fetus, measuring the DNA in the mixed sample, measuring the DNA in the father's sample, and calculating the percentage of DNA that is of fetal origin in the mixed sample using the DNA measurements of the mixed sample and the DNA measurements of the father's sample.

本開示のある実施形態では、混合物中の胎児DNAの割合または胎児DNAの百分率を測定することができる。いくつかの実施形態では、胎児DNAと母系DNAの混合物である母系の血漿試料自体に対して行った遺伝子型決定の測定値のみを使用して割合を算出することができる。いくつかの実施形態では、測定されたか、または別の方法で既知である母親の遺伝子型および/または測定されたか、または別の方法で既知である父親の遺伝子型を用いてその割合を算出することもできる。いくつかの実施形態では、母系DNAと胎児DNAの混合物に対して得た測定値を親の状況の知見と一緒に使用して、パーセント胎児DNAを算出することができる。ある実施形態では、特定の対立遺伝子測定値についての確率についてのモデルを調整するために母集団頻度を使用して胎児DNAの割合を算出することができる。 In some embodiments of the present disclosure, the proportion of fetal DNA or the percentage of fetal DNA in the mixture can be measured. In some embodiments, the proportion can be calculated using only genotyping measurements made on the maternal plasma sample itself, which is a mixture of fetal and maternal DNA. In some embodiments, the proportion can also be calculated using the measured or otherwise known genotype of the mother and/or the measured or otherwise known genotype of the father. In some embodiments, measurements made on the mixture of maternal and fetal DNA can be used together with knowledge of the parental status to calculate the percent fetal DNA. In some embodiments, the proportion of fetal DNA can be calculated using population frequencies to adjust a model for the probability of certain allele measurements.

本開示のある実施形態では、胎児の倍数性状態の決定の正確度について信頼度を算出することができる。ある実施形態では、最大の尤度(Hmajor)の仮説の信頼度を(1-Hmajor)/Σ(全てのH)として算出することができる。仮説の全ての分布が既知である場合、仮説の信頼度を決定することが可能である。親の遺伝子型情報が既知である場合、仮説の全ての分布を決定することが可能である。正倍数性の胎児についての予測されるデータの分布および異数性の胎児についての予測されるデータの分布の知見が既知である場合、倍数性の決定の信頼度を算出することが可能である。親の遺伝子型データが既知である場合、これらの予測される分布を算出することが可能である。ある実施形態では、正常な仮説の周りの検定統計量の分布および異常な仮説の周りの検定統計量の分布の知見を用いて、コールの信頼性を決定すること、ならびに閾値を改良してより信頼できるコールを行うことができる。これは、混合物中の胎児DNAの量および/またはパーセントが低い場合に特に有用である。これは、Z統計量などの検定統計量が、胎児DNAが高いパーセントで存在する場合に対して最適化された閾値に基づいて設けた閾値を超えないことが原因で、実際には異数性である胎児が正倍数性であると見いだされる状況を回避するために役立つ。 In an embodiment of the present disclosure, the confidence in the accuracy of the determination of the ploidy status of the fetus can be calculated. In an embodiment, the confidence of the maximum likelihood (H major ) hypothesis can be calculated as (1-H major )/Σ(all H). If all the distributions of the hypotheses are known, the confidence of the hypotheses can be determined. If the genotype information of the parents is known, the distribution of all the hypotheses can be determined. If knowledge of the expected distribution of data for euploid fetuses and the expected distribution of data for aneuploid fetuses is known, the confidence of the ploidy determination can be calculated. If the genotype data of the parents is known, these expected distributions can be calculated. In an embodiment, knowledge of the distribution of the test statistic around the normal hypothesis and the abnormal hypothesis can be used to determine the confidence of the call, as well as to refine the threshold to make a more confident call. This is particularly useful when the amount and/or percentage of fetal DNA in the mixture is low. This helps to avoid situations where a fetus that is actually aneuploid is found to be euploid because a test statistic, such as a Z statistic, does not exceed a threshold based on a threshold optimized for a high percentage of fetal DNA present.

ある実施形態では、本明細書に開示されている方法を用いて、母系の遺伝物質と胎児の遺伝物質の混合物中の母系の標的染色体および胎児の標的染色体のコピーの数を決定することによって胎児の異数性を決定することができる。この方法は、母系の遺伝物質と胎児の遺伝物質の両方を含む母系の組織を得るステップを伴ってよく、いくつかの実施形態では、この母系の組織は、母系の血液から単離された母系の血漿または組織であってよい。この方法は、上述の母系の組織を加工することによって、前記母系の組織から母系の遺伝物質と胎児の遺伝物質の混合物を得るステップも伴ってよい。この方法は、標的染色体由来の標的配列を含む個々の反応試料および標的染色体由来の標的配列を含まない個々の反応試料を無作為にもたらすために、得られた遺伝物質を複数の反応試料に分配するステップ、例えば、試料に対してハイスループット配列決定を実施するステップも伴ってよい。この方法は、前記個々の反応試料中に存在するまたは存在しない遺伝物質の標的配列を分析して、反応試料中の正倍数性であると推測される胎児の染色体の存在または不在を示すバイナリーの結果の第1の数、および反応試料中の異数性である可能性がある胎児の染色体の存在または不在を示すバイナリーの結果の第2の数をもたらすステップを伴ってよい。例えば、特定の染色体、染色体の特定の領域、特定の遺伝子座または遺伝子座の集合にマッピングされるシーケンスリードをカウントするインフォマティクス技法によってバイナリーの結果の数のいずれかを算出することができる。この方法は、集団内の染色体の長さ、染色体の領域の長さまたは遺伝子座の数に基づいてバイナリーの事象の数を規格化するステップを包含し得る。この方法は、反応試料中の正倍数性であると推測される胎児の染色体について、第1の数を用いてバイナリーの結果の数の予測される分布を算出するステップを伴ってよい。この方法は、反応試料中の異数性であることが推測される胎児の染色体についてのバイナリーの結果の数の予測される分布を算出するステップであって、第1の数、および混合物において見いだされる胎児DNAの推定される割合を、例えば、正倍数性であると推測される胎児の染色体についてのバイナリーの結果の数の予測リード数分布に(1+n/2)(nは推定される胎児画分である)を掛けることによって用いて算出するステップを伴ってよい。いくつかの実施形態では、シーケンスリードを、バイナリーの結果ではなく、確率的なマッピングで処理することができ、この方法では、より高い正確度がもたらされるが、さらなる計算能力が必要である。胎児画分は、複数の方法によって推定することができ、そのいくつかは、本開示の他の箇所に記載されている。この方法は、最尤手法を用いて、第2の数が、正倍数性であるまたは異数性である、異数性である可能性がある胎児の染色体に対応するかどうかを決定するステップを伴ってよい。この方法は、測定されたデータを考慮して、正確である尤度が最大である仮説に対応する倍数性状態である胎児の倍数性状態をコールするステップを包含し得る。 In an embodiment, the methods disclosed herein can be used to determine fetal aneuploidy by determining the number of copies of a maternal target chromosome and a fetal target chromosome in a mixture of maternal and fetal genetic material. The method may involve obtaining a maternal tissue that contains both maternal and fetal genetic material, which in some embodiments may be maternal plasma or tissue isolated from maternal blood. The method may also involve obtaining a mixture of maternal and fetal genetic material from the maternal tissue by processing the maternal tissue. The method may also involve distributing the resulting genetic material into a plurality of reaction samples, e.g., performing high-throughput sequencing on the samples, to randomly provide individual reaction samples that contain target sequences from the target chromosome and individual reaction samples that do not contain target sequences from the target chromosome. The method may involve analyzing target sequences of genetic material present or absent in the individual reaction samples to provide a first number of binary results indicating the presence or absence of a suspected euploid fetal chromosome in the reaction sample, and a second number of binary results indicating the presence or absence of a potentially aneuploid fetal chromosome in the reaction sample. For example, either of the numbers of binary results can be calculated by an informatics technique that counts sequence reads that map to a particular chromosome, a particular region of a chromosome, a particular locus, or a set of loci. The method may include normalizing the number of binary events based on the length of the chromosome, the length of the region of the chromosome, or the number of loci in the population. The method may involve calculating an expected distribution of the number of binary results using the first number for the suspected euploid fetal chromosomes in the reaction sample. The method may involve calculating an expected distribution of the number of binary outcomes for fetal chromosomes suspected to be aneuploid in the reaction sample using the first number and the estimated proportion of fetal DNA found in the mixture, for example by multiplying the expected read number distribution of the number of binary outcomes for fetal chromosomes suspected to be euploid by (1+n/2), where n is the estimated fetal fraction. In some embodiments, the sequence reads can be treated with a probabilistic mapping rather than a binary outcome, which provides greater accuracy but requires more computational power. The fetal fraction can be estimated by multiple methods, some of which are described elsewhere in this disclosure. The method may involve using a maximum likelihood approach to determine whether the second number corresponds to a fetal chromosome that is likely to be aneuploid, euploid or aneuploid. The method may include calling the fetal ploidy state, which is the ploidy state that corresponds to the hypothesis that has the greatest likelihood of being correct given the measured data.

最尤モデルを用いて、胎児の倍数性状態を決定する任意の方法の正確度を上昇させることができることに留意されたい。同様に、胎児の倍数性状態を決定する任意の方法について信頼度を算出することができる。最尤モデルを用いることにより、単一仮説棄却法を用いて倍数性の決定を行う任意の方法の正確度が改善される。最尤モデルは、正常な場合と異常な場合の両方について尤度分布を算出することができる任意の方法に用いることができる。最尤モデルを用いることは、倍数性コールについての信頼度を算出する能力を意味する。 Note that the maximum likelihood model can be used to increase the accuracy of any method of determining the ploidy status of a fetus. Similarly, confidence can be calculated for any method of determining the ploidy status of a fetus. The use of the maximum likelihood model improves the accuracy of any method that uses a single hypothesis rejection method to make ploidy determinations. The maximum likelihood model can be used for any method that can calculate the likelihood distribution for both normal and abnormal cases. The use of the maximum likelihood model implies the ability to calculate confidence for ploidy calls.

方法のさらなる考察
ある実施形態では、本明細書に開示されている方法では、多型遺伝子座の各対立遺伝子の独立した観察の数の定量的尺度を利用し、ここで、これには対立遺伝子の比を算出するステップは包含されない。これは、遺伝子座の2つの対立遺伝子の比に関する情報をもたらすが、いずれかの対立遺伝子の独立した観察の数を定量化しない、一部のマイクロアレイに基づく方法などの方法とは異なる。当技術分野で公知のいくつかの方法では、独立した観察の数に関する定量的情報がもたらされ得るが、倍数性の決定をもたらす算出には対立遺伝子の比のみを利用し、定量的情報は利用しない。独立した観察の数に関する情報を保持することの重要性を例示するために、2つの対立遺伝子、AおよびBを有する試料の遺伝子座について考察する。第1の実験では20の対立遺伝子Aおよび20の対立遺伝子Bを観察し、第2の実験では200の対立遺伝子Aおよび200の対立遺伝子Bを観察する。どちらの実験でも、比(A/(A+B))は0.5と等しいが、第2の実験は、第1の実験よりも対立遺伝子AまたはBの頻度の確実性に関する多くの情報を伝える。当該方法では、対立遺伝子の比を利用するのではなく、定量的データを使用して、各多型遺伝子座における最も可能性が高い対立遺伝子頻度をより正確にモデリングする。
Further Considerations of the Method In an embodiment, the methods disclosed herein utilize a quantitative measure of the number of independent observations of each allele of a polymorphic locus, where the step of calculating the ratio of alleles is not included. This differs from methods such as some microarray-based methods that provide information about the ratio of the two alleles of a locus, but do not quantify the number of independent observations of either allele. Some methods known in the art may provide quantitative information about the number of independent observations, but only utilize the ratio of alleles, not the quantitative information, in the calculation that results in the determination of ploidy. To illustrate the importance of retaining information about the number of independent observations, consider a sample locus with two alleles, A and B. In the first experiment, 20 alleles A and 20 alleles B are observed, and in the second experiment, 200 alleles A and 200 alleles B are observed. In both experiments, the ratio (A/(A+B)) is equal to 0.5, but the second experiment conveys more information about the certainty of the frequency of alleles A or B than the first experiment. Rather than utilizing allele ratios, the method uses quantitative data to more accurately model the most likely allele frequencies at each polymorphic locus.

ある実施形態では、当該方法では、複数の多型遺伝子座からの測定値を総計するための遺伝子モデルを構築して、トリソミーとダイソミーをよりよく区別し、トリソミーの種類も決定する。さらに、当該方法では、遺伝連鎖情報を組み入れて、方法の正確度を増強する。これは、対立遺伝子の比を染色体上の多型遺伝子座の全てにわたって平均する、当技術分野で公知のいくつかの方法とは対照的である。本明細書に開示されている方法により、ダイソミーにおいて予測される対立遺伝子頻度分布、ならびに、減数分裂Iの間の染色体不分離、減数分裂IIの間の染色体不分離、および胎児発生の初期の有糸分裂の間の染色体不分離によって生じるトリソミーが明確にモデリングされる。なぜこれが重要であるかを例示すると、乗換えがなければ、減数分裂Iの間の染色体不分離により、2つの異なる相同体が一方の親から遺伝によって受け継がれたトリソミーがもたらされ、減数分裂IIの間、または胎児発生の初期の有糸分裂の間の染色体不分離により、一方の親由来の同じ相同体の2つのコピーがもたらされることになる。各筋書きにより、各多型遺伝子座において、および、一緒に考慮に入れたすべの物理的に連鎖した遺伝子座(すなわち同じ染色体上の遺伝子座)においても予測される対立遺伝子の異なる頻度がもたらされる。相同体間での遺伝物質の交換をもたらす乗換えにより、遺伝様式がより複雑になるが、当該方法は、遺伝連鎖情報、すなわち組換え率の情報および遺伝子座間の物理的な距離を使用することによってこれに対して適応する。減数分裂I時の染色体不分離と減数分裂IIまたは有糸分裂時の染色体不分離をよりよく区別するために、当該方法では、乗換えの確率の上昇をセントロメアからの距離の増加としてモデルに組み入れる。減数分裂IIおよび有糸分裂時の染色体不分離は、有糸分裂時の染色体不分離により、一般には、1つの相同体の同一またはほぼ同一のコピーがもたらされるが、一方、減数分裂II時の染色体不分離事象の後に存在する2つの相同体は、多くの場合、配偶子形成の間の1つまたは複数の乗換えに起因して異なるという事実によって区別することができる。 In an embodiment, the method builds a genetic model to aggregate measurements from multiple polymorphic loci to better distinguish between trisomy and disomy and also determine the type of trisomy. Additionally, the method incorporates genetic linkage information to enhance the accuracy of the method. This is in contrast to some methods known in the art that average allele ratios across all of the polymorphic loci on a chromosome. The methods disclosed herein explicitly model the expected allele frequency distribution in disomy, as well as trisomies resulting from nondisjunction during meiosis I, nondisjunction during meiosis II, and nondisjunction during early mitosis of fetal development. To illustrate why this is important, in the absence of crossover, nondisjunction during meiosis I would result in trisomy with two different homologs inherited from one parent, and nondisjunction during meiosis II or early mitosis of fetal development would result in two copies of the same homolog from one parent. Each scenario results in a different predicted allele frequency at each polymorphic locus and also at all physically linked loci (i.e. loci on the same chromosome) considered together. Crossing over, which results in the exchange of genetic material between homologs, adds complexity to the inheritance pattern, but the method adapts to this by using genetic linkage information, i.e., recombination rate information and physical distance between loci. To better distinguish between meiosis I nondisjunction and meiosis II or mitotic nondisjunction, the method incorporates an increased probability of crossing over into the model as the distance from the centromere increases. Meiosis II and mitotic nondisjunction can be distinguished by the fact that mitotic nondisjunction generally results in identical or nearly identical copies of one homolog, while the two homologs present after a meiosis II nondisjunction event are often different due to one or more crossing overs during gamete formation.

ある実施形態では、本開示の方法では、ダイソミーを仮定する場合、親のハプロタイプを決定することができない。ある実施形態では、トリソミーの場合、当該方法により、血漿が一方の親由来の2つのコピーを取り、親の相情報は、2つのコピーが問題の親から遺伝によって受け継がれたいずれによっても決定することができないという事実を用いることによって、一方の親または両親のハプロタイプに関する決定を行うことができる。詳細には、子は、親の2つの同じコピー(一致トリソミー)または親の両方のコピー(不一致トリソミー)のいずれかを遺伝によって受け継ぐことができる。各SNPにおいて、一致トリソミーの尤度および不一致トリソミーの尤度を算出することができる。乗換えを考慮している連鎖モデルを使用しない倍数性コール方法では、トリソミーの全体的な尤度を、染色体全体にわたって一致トリソミーおよび不一致トリソミーの単純な重み付けられた平均として算出する。しかし、乗換えが存在する場合にのみ、分離エラーおよび乗換えをもたらす生物学的な機構に起因して、トリソミーは、染色体上で一致から不一致に変化し得る(および逆もまた同じ)。当該方法は、確率的に、乗換えの尤度を考慮に入れ、その結果、乗換えの尤度を考慮に入れない方法よりも正確度が高い倍数性コールがもたらされる。 In an embodiment, the disclosed method is unable to determine parental haplotypes when disomy is assumed. In an embodiment, in the case of trisomy, the method allows a decision to be made regarding the haplotype of one or both parents by using the fact that the plasma takes two copies from one parent and parental phase information cannot be determined by which of the two copies inherited from the parent in question. In particular, a child can inherit either two identical copies of a parent (concordant trisomy) or both copies of a parent (discordant trisomy). At each SNP, the likelihood of a concordant trisomy and the likelihood of a discordant trisomy can be calculated. In ploidy calling methods that do not use a linkage model that takes into account crossovers, the overall likelihood of trisomy is calculated as a simple weighted average of concordant and discordant trisomy across the entire chromosome. However, only in the presence of crossovers can trisomy change from concordant to discordant on a chromosome (and vice versa) due to biological mechanisms that result in segregation errors and crossovers. The method probabilistically takes into account the likelihood of crossovers, resulting in more accurate ploidy calls than methods that do not take into account the likelihood of crossovers.

ある実施形態では、参照染色体を使用して子の割合およびノイズレベルの量または確率分布を決定する。ある実施形態では、子の割合、ノイズレベル、および/または確率分布を、倍数性の状態が決定される染色体から入手可能な遺伝子情報のみを使用して決定する。当該方法は、参照染色体を伴わずに、ならびに特定の子の割合またはノイズレベルの固定を伴わずに機能する。これは、子の割合および染色体の挙動を較正するために参照染色体由来の遺伝子データが必要な、当技術分野で公知の方法の有意な改善であり、また、それと異なる点である。 In some embodiments, a reference chromosome is used to determine the offspring proportion and the amount or probability distribution of noise levels. In some embodiments, the offspring proportion, noise level, and/or probability distribution are determined using only the genetic information available from the chromosome for which the ploidy state is being determined. The method works without a reference chromosome and without fixing a particular offspring proportion or noise level. This is a significant improvement over and distinct from methods known in the art that require genetic data from a reference chromosome to calibrate offspring proportions and chromosome behavior.

胎児画分を決定するために参照染色体を必要としないある実施形態では、仮説の決定を以下の通り行う:
参照染色体を用いるアルゴリズムでは、一般には、参照染色体はダイソミーであると仮定し、次いで、(a)最も可能性が高い子の割合およびランダムなノイズレベルNを、この仮定および参照染色体のデータに基づいて固定し:
とし、次いで、LIK(D|H)=LIK(D|H,cfr,N)として換算するか、または、
(b)この仮定および参照染色体のデータに基づいて、子の割合およびノイズレベルの分布を推定する。詳細には、cfrおよびNについてただ1つの値に固定しないが、確率p(cfr,N)を可能性のあるcfr、N値の広い範囲に割り当てる:
p(cfr,N)~LIK(D(ref.chrom)|H11,cfr,N)*priorprob(cfr,N)
式中、priorprob(cfr,N)が特定の子の割合およびノイズレベルの事前確率であり、以前の知見および実験によって決定される。場合によっては、cfr,Nの範囲にわたって一様にする。次いで、
と書くことができる。上記のどちらの方法も良好な結果をもたらす。
In an embodiment where a reference chromosome is not required to determine the fetal fraction, the hypothesis is determined as follows:
Algorithms using a reference chromosome generally assume that the reference chromosome is disomic, and then (a) fix the most likely child fraction and random noise level N based on this assumption and the data for the reference chromosome:
and then converting as LIK(D|H)=LIK(D|H, cfr * , N * ), or
(b) Based on this assumption and the data on the reference chromosomes, estimate the distribution of offspring proportions and noise levels. In particular, we do not fix to a single value for cfr and N, but assign probabilities p(cfr,N) to a wide range of possible cfr,N values:
p(cfr,N) ~ LIK(D(ref.chrom)|H11,cfr,N) * priorprob(cfr,N)
where priorprob(cfr,N) is the prior probability of a particular child proportion and noise level, determined by prior knowledge and experimentation, possibly made uniform over the range of cfr,N. Then,
Either method above gives good results.

いくつかの場合には、参照染色体を使用することは望ましくない、可能でない、または実行可能でないことがあることに留意されたい。そのような場合には、各染色体について最良の倍数性コールを別々に導くことが可能である。詳細には:
p(cfr,N|H)は、各染色体について別々に、単に参照染色体についてダイソミーであると仮定するのではなく、仮説Hを仮定して、上記の通り決定することができる。この方法を用いて、固定されたノイズのパラメータと子の画分のパラメータ両方を保持すること、いずれかのパラメータを固定すること、または両方のパラメータを各染色体および各仮説について確率的な形態で保持することが可能である。
Note that in some cases, it may not be desirable, possible, or feasible to use a reference chromosome. In such cases, it is possible to derive the best ploidy call for each chromosome separately. In particular:
p(cfr,N|H) can be determined as above for each chromosome separately, assuming hypothesis H rather than simply assuming disomy with respect to the reference chromosome. Using this method, it is possible to keep both noise and offspring fraction parameters fixed, to fix either parameter, or to keep both parameters in probabilistic form for each chromosome and each hypothesis.

DNAの測定、特にDNAの量が少ない場合、またはDNAが混入DNAと混在している場合の測定は、ノイズが入りかつ/または誤りがちである。このノイズにより、正確度が低い遺伝子型データ、および正確度が低い倍数性コールが得られる。いくつかの実施形態では、プラットフォームのモデリングまたはいくつかの他のノイズモデリングの方法を用いて、倍数性の決定に対するノイズの有害作用をカウントすることができる。当該方法では、両チャネルの同時モデル(joint model)を用い、入力DNAの量、DNAの質、および/またはプロトコールの質に起因するランダムなノイズを考慮する。 Measurements of DNA, especially when the amount of DNA is low or when the DNA is mixed with contaminating DNA, are noisy and/or prone to errors. This noise results in less accurate genotype data and less accurate ploidy calls. In some embodiments, platform modeling or some other noise modeling method can be used to account for the deleterious effects of noise on ploidy determinations. The method uses a joint model of both channels and accounts for random noise due to the amount of input DNA, the quality of the DNA, and/or the quality of the protocol.

これは、遺伝子座における対立遺伝子の強度の比を用いて倍数性の決定を行う、当技術分野で公知のいくつかの方法とは対照的である。この方法は、正確なSNPノイズモデリングを妨げる。詳細には、測定におけるエラーは、一般には、測定されたチャネル強度比に特異的に依存せず、モデルを、一次元の情報を使用するように縮小する。ノイズ、チャネルの質およびチャネルの相互作用の正確なモデリングには、対立遺伝子の比を用いてモデリングすることができない2次元の同時モデルが必要である。 This is in contrast to some methods known in the art that use the ratio of allele intensities at loci to make ploidy determinations. This method precludes accurate SNP noise modeling. In particular, errors in measurements are generally not specifically dependent on the measured channel intensity ratios, reducing the model to using one-dimensional information. Accurate modeling of noise, channel quality, and channel interactions requires a simultaneous two-dimensional model that cannot be modeled using allele ratios.

詳細には、2つのチャネル情報を、f(x,y)がr=x/yである比rに投影すること自体は、正確なチャネルノイズおよび偏りのモデリングに役立たない。特定のSNPにおけるノイズは、比率の関数ではない、すなわちノイズ(x,y)≠f(x,y)であるが、実際には、両方のチャネルの同時関数(joint function)である。例えば、二項式モデルでは、測定された比率のノイズはr(1-r)/(x+y)の分散を有し、これは、純粋にrの関数ではない。任意のチャネルの偏りまたはノイズが包含されるモデルでは、SNPiにおいて、観察されたチャネルX値はx=aX+bであると仮定し、ここで、Xは真のチャネル値であり、bは余分のチャネルの偏りおよびランダムなノイズである。同様に、y=cY+dと仮定する。(aX+b)/(cY+d)はX/Yの関数ではないので、観察された比r=x/yでは、真の比率X/Yを正確に予測することまたは残りのノイズをモデリングすることができない。 In particular, projecting the two channel information onto a ratio r where f(x,y) is r=x/y does not in itself lend itself to accurate channel noise and bias modeling. The noise at a particular SNP is not a function of the ratio, i.e., noise(x,y)≠f(x,y), but is in fact a joint function of both channels. For example, in a binomial model, the noise of a measured ratio has a variance of r(1-r)/(x+y), which is not purely a function of r. In a model where any channel bias or noise is included, assume that at SNPi, the observed channel X value is x=a i X+b i , where X is the true channel value and b i is the extra channel bias and random noise. Similarly, assume that y=c i Y+d i . Because (a i X+b i )/(c i Y+d i ) is not a function of X/Y, the observed ratio r=x/y cannot accurately predict the true ratio X/Y or model the remaining noise.

本明細書に開示されている方法には、個々の測定チャネルの全ての同時二項分布を使用したノイズおよび偏りの有効なモデリングの方法が記載されている。関連性のある式は、文書の他の箇所、SNPの挙動を有効に調整するSNP当たりの一貫した偏り、P(good)およびP(ref|bad)、P(mut|bad)について記載されているセクションに見いだすことができる。ある実施形態では、本開示の方法では、対立遺伝子の比のみに依拠する、実施による限定を回避し、その代わりに、挙動を両方のチャネル計数値に基づいてモデリングするベータ二項分布を使用する。 The methods disclosed herein describe a method for effective modeling of noise and bias using a joint binomial distribution of all the individual measurement channels. The relevant formulas can be found elsewhere in the document in the sections describing the consistent biases per SNP, P(good), P(ref|bad), and P(mut|bad), which effectively adjust for SNP behavior. In an embodiment, the disclosed methods avoid the implementation limitations that rely solely on allele ratios, and instead use a beta binomial distribution that models behavior based on both channel counts.

ある実施形態では、本明細書に開示されている方法により、全ての利用可能な測定値を使用することによって、母系の血漿中に見いだされる遺伝子データから妊娠中の胎児の倍数性をコールすることができる。ある実施形態では、本明細書に開示されている方法により、親の状況のサブセットのみからの測定値を使用することによって、母系の血漿中に見いだされる遺伝子データから妊娠中の胎児の倍数性をコールすることができる。当技術分野で公知のいくつかの方法では、親の状況がAA|BB状況からのものである場合、すなわち所与の遺伝子座において親がどちらもホモ接合性であるが、対立遺伝子が異なる場合に測定された遺伝子データのみを使用する。この方法に伴う1つの問題は、AA|BB状況からの多型遺伝子座の割合が小さく、一般には、10%未満であることである。本明細書に開示されている方法のある実施形態では、方法は、親の状況がAA|BBである遺伝子座において行われた母系の血漿の遺伝子測定値を使用しない。ある実施形態では、当該方法では、親の状況がAA|AB、AB|AA、およびAB|ABである多型遺伝子座についてのみ血漿測定値を使用する。 In an embodiment, the methods disclosed herein allow for calling the ploidy of a gestating fetus from genetic data found in maternal plasma by using all available measurements. In an embodiment, the methods disclosed herein allow for calling the ploidy of a gestating fetus from genetic data found in maternal plasma by using measurements from only a subset of parental contexts. Some methods known in the art only use genetic data measured when the parental context is from the AA|BB context, i.e., when both parents are homozygous at a given locus but have different alleles. One problem with this method is that the proportion of polymorphic loci from the AA|BB context is small, typically less than 10%. In an embodiment of the methods disclosed herein, the method does not use maternal plasma genetic measurements made at loci with parental contexts of AA|BB. In an embodiment, the method uses plasma measurements only for polymorphic loci with parental contexts of AA|AB, AB|AA, and AB|AB.

当技術分野で公知のいくつかの方法は、両親の遺伝子型が存在するAA|BB状況におけるSNPからの対立遺伝子の比を平均し、これらのSNPにおける平均の対立遺伝子の比から倍数性コールの決定を主張するステップを包含する。この方法は、示差的なSNPの挙動に起因して著しく不正確である。この方法では、両親の遺伝子型が既知であることを仮定することに留意されたい。対照的に、いくつかの実施形態では、当該方法では、親のいずれかの存在を仮定せず、均一なSNPの挙動を仮定しない、同時チャネル分布モデルを使用する。いくつかの実施形態では、当該方法では、異なるSNPの挙動/重み付けを考慮に入れる。いくつかの実施形態では、当該方法は、一方の親または両親の遺伝子型の知見を必要としない。当該方法がどのようにこれを実現するかの例は以下の通りである: Some methods known in the art involve averaging the allele ratios from SNPs in the AA|BB context where both parent genotypes are present and claiming to determine the ploidy call from the average allele ratio at these SNPs. This method is significantly inaccurate due to differential SNP behavior. Note that this method assumes that the genotypes of both parents are known. In contrast, in some embodiments, the method uses a simultaneous channel distribution model that does not assume the presence of either parent and does not assume uniform SNP behavior. In some embodiments, the method takes into account the behavior/weighting of different SNPs. In some embodiments, the method does not require knowledge of the genotype of one or both parents. An example of how the method accomplishes this is as follows:

いくつかの実施形態では、仮説の対数尤度をSNPごとに決定することができる。特定のSNPiについて、胎児の倍数性についての仮説Hおよびパーセント胎児DNAcfを仮定すると、観察されたデータDの対数尤度は:
と定義され、式中、mは可能性のある真の母親の遺伝子型であり、fは可能性のある真の父親の遺伝子型であり、m,f∈{AA,AB,BB}であり、cは、仮説Hを考慮した、可能性のある子の遺伝子型である。詳細には、モノソミーについてはc{A,B}であり、ダイソミーについてはc∈{AA,AB,BB}であり、トリソミーについてはc∈{AAA,AAB,ABB,BBB}である。親の遺伝子型データを含めることにより、一般には、より正確な倍数性の決定がもたらされるが、当該方法が良好に機能するために親の遺伝子型データは必須ではないことに留意されたい。
In some embodiments, the log-likelihood of a hypothesis can be determined for each SNP. For a particular SNPi, given a hypothesis H about fetal ploidy and percent fetal DNAcf, the log-likelihood of the observed data D is:
where m is the possible true mother's genotype, f is the possible true father's genotype, m,f∈{AA,AB,BB}, and c is the possible child's genotype given hypothesis H. In particular, for monosomy, c∈{AA,AB,BB}, for disomy, c∈{AAA,AAB,ABB,BBB}, and for trisomy, c∈{AAA,AAB,ABB,BBB}. Note that while the inclusion of parental genotype data will generally result in more accurate ploidy determination, parental genotype data is not required for the method to work well.

当技術分野で公知のいくつかの方法は、母親がホモ接合性であるが、血漿において異なる対立遺伝子が測定される(AA|ABまたはAA|BBの状況)SNPからの対立遺伝子の比を平均し、これらのSNPにおける平均の対立遺伝子の比から倍数性コールの決定を主張するステップを包含する。この方法は、父系の遺伝子型が入手不可能である場合を意図している。ホモ接合性で反対の父親BBの存在を伴わずに、血漿が特定のSNPにおいてヘテロ接合性であることをどのくらい正確に主張することができるかどうかは疑問であることに留意されたい:子の割合が少ない場合、対立遺伝子Bが存在するように見えるのは、単にノイズの存在である場合があり、さらに、Bが存在しないように見えるのは、胎児の測定値のうちの単純対立遺伝子のドロップアウトである場合もある。さらには、血漿のヘテロ接合性を実際に決定することができる場合であっても、この方法では、父系トリソミーを区別することができない。詳細には、母親がAAであるSNP、および血漿においていくらかのBが測定されるSNPについて、父親がGGである場合、生じた子の遺伝子型はAGGであり、平均の比は33%のAになる(子の割合=100%)。しかし、父親がAGである場合には、生じた子の遺伝子型は、一致トリソミーについてはAGGであってもよく、33%のAの比を与える、または不一致トリソミーについてはAAGであってもよく、平均の比についてさらに66%に近いAが得られる。多くのトリソミーが乗換えを伴って染色体上にあるとすれば、全体的な染色体は、不一致トリソミーが全くないところと全てが不一致トリソミーであるところとの間のいずれの場合もあり、この比率は、33~66%の間のいずれにも変動し得る。通常のダイソミーについては、比率は約50%であるはずである。連鎖モデルまたは平均の正確なエラーモデルを使用しないと、この方法では多くの場合、父系トリソミーが見落とされる。対照的に、本明細書に開示されている方法では、利用可能な遺伝子型の情報および母集団頻度に基づいて、各親の遺伝子型の候補に対して親の遺伝子型の確率を割り当て、親の遺伝子型を明確に必要としない。さらに、本明細書に開示されている方法により、親の遺伝子型データの不在下または存在下でさえもトリソミーを検出することができ、また、連鎖モデルを使用して可能性のある一致トリソミーから不一致トリソミーへの乗換えの点を同定することによって補償することができる。 Some methods known in the art involve averaging the allele ratios from SNPs where the mother is homozygous but different alleles are measured in the plasma (AA|AB or AA|BB situations) and claiming to determine the ploidy call from the average allele ratio at these SNPs. This method is intended for cases where the paternal genotype is not available. Note that it is questionable how accurately one can claim that the plasma is heterozygous at a particular SNP without the presence of a homozygous opposite paternal BB: in a small proportion of offspring, the apparent presence of allele B may simply be the presence of noise, and furthermore, the apparent absence of B may be a simple allele dropout in the fetal measurements. Moreover, even if the plasma heterozygosity can actually be determined, this method does not allow for the distinction of paternal trisomies. Specifically, for SNPs where the mother is AA and some B is measured in plasma, if the father is GG, the resulting child's genotype will be AGG, with an average ratio of 33% A (child proportion = 100%). However, if the father is AG, the resulting child's genotype may be AGG for concordant trisomy, giving a ratio of 33% A, or AAG for discordant trisomy, giving an average ratio closer to 66% A. Given that many trisomies are on chromosomes with crossovers, the overall chromosomes can be anywhere between no discordant trisomies and all discordant trisomies, and the ratio can vary anywhere between 33-66%. For normal disomy, the ratio should be around 50%. Without the use of linkage models or accurate error models of the average, this method often misses paternal trisomies. In contrast, the methods disclosed herein assign parental genotype probabilities to each parental genotype candidate based on available genotype information and population frequencies, and do not explicitly require parental genotypes. Furthermore, the methods disclosed herein can detect trisomies in the absence or even presence of parental genotype data, and can compensate by using linkage models to identify crossover points from possible concordant to discordant trisomies.

当技術分野で公知のいくつかの方法は、母系の遺伝子型も父系の遺伝子型も未知であるSNPからの対立遺伝子の比を平均するため、および、これらのSNPにおける平均の比から倍数性コールを決定するための方法を主張する。しかし、これらの目的を実現する方法は開示されていない。本明細書に開示されている方法により、そのような状況において正確な倍数性コールを行うことができ、同時確率最尤法を用い、必要に応じて、SNPノイズおよび偏りのモデル、ならびに連鎖モデルを利用する実施化が本文書の他の箇所に開示されている。 Several methods known in the art claim to average the ratios of alleles from SNPs where both maternal and paternal genotypes are unknown, and to determine a ploidy call from the average ratios at these SNPs. However, no methods are disclosed that accomplish these objectives. The methods disclosed herein allow accurate ploidy calls to be made in such situations, and implementations are disclosed elsewhere in this document that use joint probability maximum likelihood methods, optionally utilizing models for SNP noise and bias, and linkage models.

当技術分野で公知のいくつかの方法は、対立遺伝子の比を平均し、1つまたは少数のSNPにおける平均の対立遺伝子の比からの倍数性コールの決定を主張するステップを包含する。しかし、そのような方法では、連鎖の概念を利用しない。本明細書に開示されている方法にはこれらの欠点がない。 Some methods known in the art involve averaging allele ratios and purporting to determine a ploidy call from the average allele ratio at one or a small number of SNPs. However, such methods do not utilize the concept of linkage. The methods disclosed herein do not suffer from these drawbacks.

DNAの起源を決定するための事前として配列の長さを使用すること
配列の長さの分布は母系DNAと胎児DNAで異なり、胎児の方が一般に短いことが報告されている。本開示のある実施形態では、以前の知見を経験的なデータの形態で用い、母親のDNA(P(X|母系))と胎児DNA(P(X|胎児))の両方の予測される長さの事前分布を構築することが可能である。長さxの新しい未確認のDNA配列を考慮すると、母系または胎児のいずれかを考慮したxの事前尤度に基づいて、DNAの所与の配列が母系DNAまたは胎児DNAのいずれかである確率を定めることが可能である。詳細には、P(x|母系)>P(x|胎児)である場合は、DNA配列を母系に分類することができ、P(x|母系)=P(x|母系)/[(P(x|母系)+P(x|胎児)]であり、p(x|母系)<p(x|胎児)である場合は、DNA配列を胎児に分類することができ、P(x|胎児)=P(x|胎児)/[(P(x|母系)+P(x|胎児)]である。本開示のある実施形態では、その試料に対して特異的である母系の配列の長さおよび胎児の配列の長さの分布を、高い確率で母系または胎児に割り当てることができる配列を考慮に入れることによって決定することができ、次いで、その試料に特異的な分布を、その試料についての予測されるサイズ分布として用いることができる。
Using sequence length as a prior to determine DNA origin It has been reported that the distribution of sequence lengths differs between maternal and fetal DNA, with fetal DNA generally being shorter. In certain embodiments of the present disclosure, previous knowledge in the form of empirical data can be used to construct a prior distribution of expected lengths for both maternal DNA (P(X|maternal)) and fetal DNA (P(X|fetal)). Given a new unidentified DNA sequence of length x, it is possible to determine the probability that a given sequence of DNA is either maternal or fetal DNA based on the prior likelihood of x considering either maternal or fetal. In particular, if P(x|maternal)>P(x|fetal), then the DNA sequence can be classified as maternal, P(x|maternal)=P(x|maternal)/[(P(x|maternal)+P(x|fetal)], and if p(x|maternal)<p(x|fetal), then the DNA sequence can be classified as fetal, P(x|fetal)=P(x|fetal)/[(P(x|maternal)+P(x|fetal)]. In an embodiment of the present disclosure, a distribution of maternal and fetal sequence lengths that are specific for the sample can be determined by taking into account sequences that can be assigned with high probability to maternal or fetal, and the distribution specific to the sample can then be used as the expected size distribution for the sample.

配列決定の費用を最小限にするための可変性のリード深度
診断薬に関する多くの臨床試験、例えば、ChiuらBMJ、2011年:342巻:c7401頁では、いくつものパラメータを用いるプロトコールを設定し、次いで、試験における患者のそれぞれに対して同じパラメータを用いて同じプロトコールを実行する。遺伝物質を測定するための方法として配列決定を用いて母親が妊娠中の胎児の倍数性の状態を決定する場合には、1つの関係するパラメータはリード数である。リード数とは、実際のリード数、意図されたリード数、シーケンサーの分割レーン、完全なレーンまたは完全なフローセルを指し得る。これらの試験では、リード数は、一般には、全てまたはほぼ全ての試料が正確度の所望のレベルを実現することを確実にするレベルで設定する。配列決定は、現在のところ費用のかかる技術であり、マッピング可能な500万リード当たりおよそ$200の費用がかかり、一方価格が下がると、同様のレベルの正確度で作動するがリードが少ない配列決定に基づく診断を可能にする任意の方法により、かなりの量の金が必ず節約される。
Variable read depth to minimize the cost of sequencing Many clinical trials for diagnostics, such as Chiu et al. BMJ, 2011:342:c7401, set up a protocol with several parameters and then run the same protocol with the same parameters for each patient in the trial. When sequencing is used as a method to measure genetic material to determine the ploidy status of a fetus while the mother is pregnant, one relevant parameter is the number of reads. The number of reads can refer to the actual number of reads, the number of intended reads, a split lane of the sequencer, a complete lane, or a complete flow cell. In these trials, the number of reads is generally set at a level that ensures that all or nearly all samples achieve the desired level of accuracy. Sequencing is currently a costly technology, costing approximately $200 per 5 million mappable reads, while as prices come down, any method that allows for sequencing-based diagnostics that operate at a similar level of accuracy but with fewer reads will surely save a significant amount of money.

倍数性の決定の正確度は、一般には、リード数および混合物中の胎児DNAの割合を含めたいくつもの因子に左右される。正確度は、一般には、混合物中の胎児DNAの割合がより多いほどより高い。同時に、正確度は、一般には、リード数がより多いほどより高い。匹敵する正確度で倍数性の状態を決定する2つの場合を伴う状況を有することが可能であり、第1の場合には第2の場合よりも混合物中の胎児DNAの割合がより少なく、第1の場合には第2の場合よりも多くのリードが配列決定される。混合物中の胎児DNAの推定される割合を、所与のレベルの正確度を実現するために必要なリード数を決定することにおけるガイドとして使用することが可能である。 The accuracy of ploidy determination generally depends on a number of factors, including the number of reads and the percentage of fetal DNA in the mixture. Accuracy is generally higher the higher the percentage of fetal DNA in the mixture. At the same time, accuracy is generally higher the higher the number of reads. It is possible to have a situation with two cases of determining ploidy state with comparable accuracy, where the first case has a smaller percentage of fetal DNA in the mixture than the second case, and where more reads are sequenced in the first case than in the second case. The estimated percentage of fetal DNA in the mixture can be used as a guide in determining the number of reads required to achieve a given level of accuracy.

本開示のある実施形態では、試料の集合を、集合内の異なる試料が異なるリード深度に配列決定される場合に実行することができ、試料のそれぞれに対して実行されるリード数は、各混合物において算出された胎児DNAの割合を考慮して、所与のレベルの正確度が実現されるように選択する。本開示のある実施形態では、これは、混合物中の胎児DNAの割合を決定するために混合試料の測定を行うことを伴ってよく、この胎児画分の推定は、配列決定を用いて行うことができ、TAQMANを用いて行うことができ、qPCRを用いて行うことができ、SNPアレイを用いて行うことができ、所与の遺伝子座における異なる対立遺伝子を区別することができる任意の方法を用いて行うことができる。胎児画分を推定することの必要性は、実際の測定データと比較する際に考慮される仮説の集合内の全てのまたは選択された胎児画分の集合を包含する仮説を含めることによって排除することができる。混合物中の胎児DNAの割合を決定した後、各試料について読み取られる配列の数を決定することができる。 In certain embodiments of the present disclosure, a collection of samples can be performed where different samples in the collection are sequenced to different read depths, and the number of reads performed for each of the samples is selected to achieve a given level of accuracy, taking into account the calculated fetal DNA percentage in each mixture. In certain embodiments of the present disclosure, this may involve performing a measurement of the mixed sample to determine the percentage of fetal DNA in the mixture, and this estimation of the fetal fraction can be performed using sequencing, can be performed using TAQMAN, can be performed using qPCR, can be performed using SNP arrays, or any method that can distinguish different alleles at a given locus. The need to estimate the fetal fraction can be eliminated by including a hypothesis that encompasses the collection of all or selected fetal fractions in the set of hypotheses considered in the comparison with the actual measurement data. After determining the percentage of fetal DNA in the mixture, the number of sequences to be read for each sample can be determined.

本開示のある実施形態では、妊娠中の女性100人が各人のOBに来診し、抗lysant(anti-lysant)および/またはDNAアーゼを不活化するものが入った血液チューブ中に各人の血液を採取する。該女性はそれぞれ、自身が妊娠中の胎児の父親が唾液試料を提供するためのキットを家に持ち帰る。100組の夫婦全てについての両者の遺伝物質の集合を検査室に送り返し、そこで母親の血液を遠心沈澱させ、血漿だけでなくバフィーコートも単離する。血漿は、母系DNAならびに胎盤に由来するDNAの混合物を含む。母系のバフィーコートおよび父系の血液についてSNPアレイを使用して遺伝子型決定し、母系の血漿試料中のDNAを、SURESELECTハイブリダイゼーションプローブを用いて標的とする。プローブを用いてプルダウンされたDNAを使用して、母体試料のそれぞれに対するものであり、各試料に異なるタグでタグ付けした、タグ付けしたライブラリーを100個生成する。各ライブラリーからの一部分を取り出し、それらの一部分のそれぞれを一緒に混合し、ILLUMINA HISEQ DNAシーケンサーの2つのレーンに多重様式で加え、各レーンからおよそ5,000万のマッピング可能なリードがもたらされ、100の多重化混合物においておよそ1億のマッピング可能なリード、または試料当たりおよそ100万のリードがもたらされた。シーケンスリードを使用して、各混合物中の胎児DNAの割合を決定した。50の試料が、混合物中15%超の胎児DNAを有し、100万のリードが、99.9%の信頼度で胎児の倍数性の状態を決定するために十分であった。 In one embodiment of the present disclosure, 100 pregnant women visit their OB and each person's blood is drawn into a blood tube containing anti-lysant and/or DNAase inactivating. Each woman takes home a kit for the father of the fetus she is carrying to provide a saliva sample. The collection of genetic material from both partners for all 100 couples is sent back to the laboratory where the mother's blood is spun down and the buffy coat is isolated as well as the plasma. The plasma contains a mixture of maternal DNA as well as DNA derived from the placenta. The maternal buffy coat and paternal blood are genotyped using SNP arrays and the DNA in the maternal plasma sample is targeted with SURESELECT hybridization probes. The DNA pulled down with the probes is used to generate 100 tagged libraries, one for each of the maternal samples, with each sample tagged with a different tag. A portion from each library was removed and each of the portions mixed together and added in a multiplexed fashion to two lanes of an ILLUMINA HISEQ DNA sequencer, resulting in approximately 50 million mappable reads from each lane, resulting in approximately 100 million mappable reads in 100 multiplexed mixtures, or approximately 1 million reads per sample. The sequence reads were used to determine the percentage of fetal DNA in each mixture. Fifty samples had more than 15% fetal DNA in the mixture, and 1 million reads were sufficient to determine the fetal ploidy state with 99.9% confidence.

残りの混合物のうち、25個が10%から15%の間の胎児DNAを有し、これらの混合物から調製された関連性のあるライブラリーのそれぞれの一部分を多重化し、HISEQの1つのレーンに流し、各試料についてさらなる200万のリードを生成した。10%から15%の間の胎児DNAを有する混合物のそれぞれについての配列データの2つの集合を一緒に加え、生じた試料当たり300万のリードは、それらの胎児の倍数性の状態を99.9%の信頼度で決定するために十分であった。 Of the remaining mixtures, 25 had between 10% and 15% fetal DNA, and a portion of each of the relevant libraries prepared from these mixtures was multiplexed and run on one lane of the HISEQ, generating an additional 2 million reads for each sample. The two sets of sequence data for each of the mixtures with between 10% and 15% fetal DNA were added together, and the resulting 3 million reads per sample were sufficient to determine their fetal ploidy state with 99.9% confidence.

残りの混合物のうち、13個が6%から10%の間の胎児DNAを有し、これらの混合物から調製された関連性のあるライブラリーのそれぞれの画分を多重化し、HISEQの1つのレーンに流し、各試料についてさらなる400万のリードを生成した。6%から10%の間の胎児DNAを有する混合物のそれぞれについての配列データの2つの集合を一緒に加え、生じた混合物当たり500万の総リードは、それらの胎児の倍数性の状態を99.9%の信頼度で決定するために十分であった。 Of the remaining mixtures, 13 had between 6% and 10% fetal DNA, and each fraction of the relevant libraries prepared from these mixtures were multiplexed and run on one lane of the HISEQ, generating an additional 4 million reads for each sample. The two sets of sequence data for each of the mixtures with between 6% and 10% fetal DNA were added together, and the resulting 5 million total reads per mixture were sufficient to determine their fetal ploidy state with 99.9% confidence.

残りの混合物のうち、8つが4%から6%の間の胎児DNAを有し、これらの混合物から調製された関連性のあるライブラリーのそれぞれの一部分を多重化し、HISEQの1つのレーンに流し、各試料についてさらなる600万のリードを生成した。4%から6%の間の胎児DNAを有する混合物のそれぞれについての配列データの2つの集合を一緒に加え、生じた混合物当たり700万の総リードは、それらの胎児の倍数性の状態を99.9%の信頼度で決定するために十分であった。 Of the remaining mixtures, eight had between 4% and 6% fetal DNA, and a portion of each of the relevant libraries prepared from these mixtures was multiplexed and run on one lane of the HISEQ, generating an additional 6 million reads for each sample. The two sets of sequence data for each of the mixtures with between 4% and 6% fetal DNA were added together, and the resulting 7 million total reads per mixture were sufficient to determine their fetal ploidy state with 99.9% confidence.

残りの4つの混合物のうちの全てが2%から4%の間の胎児DNAを有し、これらの混合物から調製された関連性のあるライブラリーのそれぞれの一部分を多重化し、HISEQの1つのレーンに流し、各試料についてさらなる1200万のリードを生成した。2%から4%の間の胎児DNAを有する混合物のそれぞれについての配列データの2つの集合を一緒に加え、生じた混合物当たり1300万の総リードは、それらの胎児の倍数性の状態を99.9%の信頼度で決定するために十分であった。 Of the remaining four mixtures, all of which had between 2% and 4% fetal DNA, a portion of each of the relevant libraries prepared from these mixtures was multiplexed and run on one lane of the HISEQ, generating an additional 12 million reads for each sample. The two sets of sequence data for each of the mixtures with between 2% and 4% fetal DNA were added together, and the resulting total of 13 million reads per mixture was sufficient to determine their fetal ploidy state with 99.9% confidence.

この方法では、試料100個にわたって99.9%の正確度を実現するために、HISEQ機械で配列決定するための6レーンが必要であった。あらゆる試料に対して同じ数の実行が必要である場合、あらゆる倍数性の決定が99.9%の正確度で行われることを確実にするためには、配列決定に25レーンが取られ、4%のコールなしの比または誤差率を許容する場合、14レーンの配列決定で実現することができた。 This method required 6 lanes of sequencing on the HISEQ machine to achieve 99.9% accuracy across 100 samples. If the same number of runs were required for every sample, 25 lanes of sequencing would be taken to ensure every ploidy determination was made with 99.9% accuracy, whereas 14 lanes of sequencing could be achieved if a 4% no-call ratio or error rate was allowed.

未加工の遺伝子型決定データの使用
母系の血液中に見いだされる胎児DNAにおいて測定された胎児の遺伝子情報を使用してNPDを実現できるいくつもの方法が存在する。これらの方法のいくつかは、SNPアレイを使用して胎児DNAの測定を行うことを包含し、いくつかの方法は非標的化配列決定を包含し、いくつかの方法は標的化配列決定を包含する。標的化配列決定ではSNPを標的とすることができ、STRを標的とすることができ、他の多型遺伝子座を標的とすることができ、非多型の遺伝子座またはそのいくつかの組み合わせを標的とすることができる。これらの方法のいくつかは、測定を行う機械のセンサーによってもたらされる強度データから対立遺伝子の同一性をコールする、商業的なまたは専有の対立遺伝子コーラーを使用することを含めてよい。例えば、ILLUMINA INFINIUMシステムまたはAFFYMETRIX GENECHIPマイクロアレイシステムは、DNAの相補的なセグメントとハイブリダイズすることができるDNA配列を付着させたビーズまたはマイクロチップを含み、ハイブリダイゼーションすると、センサー分子の蛍光性が変化し、それを検出することができる。配列決定方法、例えば、ILLUMINA SOLEXA GENOME SEQUENCERまたはABI SOLID GENOME SEQUENCERもあり、これは、DNAの断片の遺伝子配列について配列決定し、配列決定される鎖と相補的なDNAの鎖が伸長すると、伸長したヌクレオチドの同一性が、一般には、相補的なヌクレオチドに付加した蛍光性タグまたは放射性タグを介して検出される。これらの方法の全てにおいて、遺伝子型データまたは配列決定データは、一般には、蛍光もしくは他のシグナルまたはそれがないことに基づいて決定される。これらのシステムは、一般には、蛍光または他の検出デバイスのアナログ出力(一次遺伝子データ)から特定の対立遺伝子のコール(二次遺伝子データ)を行う低レベルのソフトウェアパッケージと組み合わせる。例えば、SNPアレイ上の所与の対立遺伝子の場合には、該ソフトウェアにより、蛍光強度がある特定の閾値を上回る、または下回る量である場合に、特定のSNPが存在するまたは存在しないというコールを行う。同様に、シーケンサーの出力は、色素のそれぞれについて検出された蛍光のレベルを示すクロマトグラムであり、該ソフトウェアにより、特定の塩基対が、AもしくはTまたはCもしくはGであるというコールを行う。ハイスループットシーケンサーにより、一般には、リードと称される一連のそのような測定が行われ、配列決定された、最も可能性が高いDNA配列の構造が示される。クロマトグラムの直接的なアナログ出力は、本明細書では一次遺伝子データであると定義され、該ソフトウェアによって行われる塩基対/SNPのコールは、本明細書では二次遺伝子データとみなされる。ある実施形態では、一次データとは、遺伝子型決定プラットフォームの加工されていない出力である生の強度データを指し、遺伝子型決定プラットフォームとは、SNPアレイまたは配列決定プラットフォームを指し得る。二次遺伝子データとは、加工された遺伝子データであって、対立遺伝子のコールが行われている、または配列データが塩基対に割り当てられている、かつ/またはシーケンスリードがゲノムにマッピングされているデータを指す。
Use of raw genotyping data There are a number of ways that NPD can be achieved using fetal genetic information measured in fetal DNA found in maternal blood. Some of these methods involve using SNP arrays to measure fetal DNA, some involve non-targeted sequencing, and some involve targeted sequencing. Targeted sequencing can target SNPs, STRs, other polymorphic loci, non-polymorphic loci, or some combination thereof. Some of these methods may involve using commercial or proprietary allele callers that call the identity of alleles from the intensity data provided by the sensor of the machine that performs the measurement. For example, the ILLUMINA INFINIUM system or the AFFYMETRIX GENECHIP microarray system includes beads or microchips with DNA sequences attached that can hybridize with complementary segments of DNA, and upon hybridization, the fluorescence of the sensor molecule changes, which can be detected. There are also sequencing methods, such as ILLUMINA SOLEXA GENOME SEQUENCER or ABI SOLID GENOME SEQUENCER, which sequence a fragment of DNA for genetic sequence, and when the strand of DNA complementary to the strand to be sequenced is extended, the identity of the extended nucleotide is generally detected via a fluorescent or radioactive tag attached to the complementary nucleotide.In all of these methods, genotype or sequencing data is generally determined based on fluorescence or other signals or their absence.These systems are generally combined with low-level software packages that make specific allele calls (secondary genetic data) from the analog output of fluorescence or other detection devices (primary genetic data).For example, for a given allele on a SNP array, the software makes a call that a particular SNP is present or absent if the fluorescence intensity is above or below a certain threshold amount. Similarly, the output of the sequencer is a chromatogram showing the level of fluorescence detected for each of the dyes, and the software calls that a particular base pair is A or T or C or G. A series of such measurements, commonly referred to as reads, are made by the high-throughput sequencer to indicate the most likely structure of the sequenced DNA sequence. The direct analog output of the chromatogram is defined herein as the primary genetic data, and the base pair/SNP calls made by the software are considered herein as the secondary genetic data. In an embodiment, primary data refers to raw intensity data that is the unprocessed output of a genotyping platform, and the genotyping platform may refer to a SNP array or a sequencing platform. Secondary genetic data refers to processed genetic data where alleles have been called or sequence data has been assigned to base pairs and/or sequence reads have been mapped to the genome.

多くのより高レベルの適用では、これらの対立遺伝子のコール、SNPのコールおよびシーケンスリード、すなわち遺伝子型決定ソフトウェアにより生じる二次遺伝子データを活用する。例えば、DNA NEXUS、ELANDまたはMAQでシーケンシングリードを取得し、それらをゲノムにマッピングする。例えば、非侵襲的な出生前診断との関連において、複雑なインフォマティクス、例えば、PARENTAL SUPPORT(商標)は、個体の遺伝子型を決定するための多数のSNPのコールに影響を及ぼし得る。また、着床前遺伝子診断との関連において、ゲノムにマッピングされるシーケンスリードの集合を取得することが可能であり、各染色体または染色体のセクションにマッピングされる正規化されたリード数を取得することにより、個体の倍数性の状態を決定することが可能であり得る。非侵襲的な出生前診断との関連において、母系の血漿中に存在するDNAにおいて測定されたシーケンスリードの集合を取得し、それらをゲノムにマッピングすることが可能であり得る。次いで、各染色体または染色体のセクションにマッピングされる正規化されたリード数を取得し、そのデータを使用して、個体の倍数性の状態を決定することができる。例えば、不釣り合いに多数のリードを有する染色体は、血液を抜き取った母親が妊娠中の胎児においてトリソミーであると結論づけることが可能であり得る。 Many higher level applications leverage these allele calls, SNP calls and sequence reads, i.e. secondary genetic data generated by genotyping software. For example, DNA NEXUS, ELAND or MAQ take sequencing reads and map them to the genome. For example, in the context of non-invasive prenatal diagnosis, complex informatics, such as PARENTAL SUPPORT™, can affect the calling of a large number of SNPs to determine the genotype of an individual. Also, in the context of preimplantation genetic diagnosis, it may be possible to take a set of sequence reads that are mapped to the genome, and by taking normalized read numbers that are mapped to each chromosome or section of a chromosome, it may be possible to determine the ploidy state of an individual. In the context of non-invasive prenatal diagnosis, it may be possible to take a set of sequence reads measured in DNA present in maternal plasma and map them to the genome. Then, it may be possible to take normalized read numbers that are mapped to each chromosome or section of a chromosome, and use that data to determine the ploidy state of an individual. For example, it may be possible to conclude that a chromosome with a disproportionate number of reads is trisomic in the fetus during the pregnancy of the mother whose blood was drawn.

しかし、実際には、測定計器からの最初の出力は、アナログシグナルである。特定の塩基対を、配列決定ソフトウェアに関連するソフトウェア、例えば、塩基対Tをコールすることができるソフトウェアによってコールする場合、実際には、そのコールは、該ソフトウェアにより可能性が最も高いと考えられるコールである。しかし、いくつかの場合には、コールは低信頼度であってもよく、例えば、アナログシグナルにより、特定の塩基対が、Tである可能性が90%だけであり、Aである可能性が10%であることが示される場合もある。別の例では、SNPアレイリーダーに付随する遺伝子型コールソフトウェアにより、特定の対立遺伝子がGであることがコールされる場合もある。しかし、実際には、基礎をなすアナログシグナルにより、対立遺伝子がGである可能性が70%だけであり、対立遺伝子がTである可能性が30%であることが示される場合もある。これらの場合には、より高レベルの適用においてより低レベルのソフトウェアによって行った遺伝子型のコールおよび配列のコールを用いる場合、一部の情報が失われる。すなわち、遺伝子型決定プラットフォームによって直接測定される一次遺伝子データは、添付のソフトウェアパッケージによって決定される二次遺伝子データよりも厄介であり得るが、それはより多くの情報を含有する。二次遺伝子データ配列のゲノムへのマッピングにおいて、一部の塩基が十分に明瞭に読み取られていないので、または、マッピングが明瞭ではないので、多くのリードが捨てられる。一次遺伝子データシーケンスリードを使用する場合、二次遺伝子データシーケンスリードに最初に変換された際に捨てられた可能性があるリードの全てまたはその多くを、リードを確率的に処理することによって使用することができる。 However, in reality, the first output from the measurement instrument is an analog signal. When a particular base pair is called by software associated with the sequencing software, for example software that can call the base pair T, the call is in fact the call that the software considers to be the most likely. However, in some cases, the call may be of low confidence, for example, the analog signal may indicate that a particular base pair is only 90% likely to be T and 10% likely to be A. In another example, the genotype calling software associated with the SNP array reader may call a particular allele to be G. However, in reality, the underlying analog signal may indicate that the allele is only 70% likely to be G and 30% likely to be T. In these cases, some information is lost when using the genotype and sequence calls made by lower level software in higher level applications. That is, the primary genetic data measured directly by the genotyping platform may be messier than the secondary genetic data determined by the accompanying software package, but it contains more information. In mapping the secondary genetic data sequence to the genome, many reads are discarded because some bases are not read clearly enough or the mapping is not clear. When using the primary genetic data sequence reads, all or many of the reads that may have been discarded when they were first converted to secondary genetic data sequence reads can be used by probabilistically processing the reads.

本開示のある実施形態では、より高レベルのソフトウェアは、より低いレベルのソフトウェアによって決定される対立遺伝子のコール、SNPのコールまたはシーケンスリードに依拠しない。その代わりに、より高レベルのソフトウェアは、遺伝子型決定プラットフォームから直接測定されたアナログシグナルにその算出の基礎を置く。本開示のある実施形態では、インフォマティクスに基づく方法、例えば、PARENTAL SUPPORT(商標)を、胚/胎児/子の遺伝子データを再構築するその能力が、遺伝子型決定プラットフォームによって測定された一次遺伝子データを直接使用するように工学的に操作されるように改変する。本開示のある実施形態では、インフォマティクスに基づく方法、例えば、PARENTAL SUPPORT(商標)では、一次遺伝子データを使用し、二次遺伝子データを使用せずに、対立遺伝子のコール、および/または染色体コピー数のコールを行うことができる。本開示のある実施形態では、遺伝子のコール、SNPのコール、すべてのシーケンスリード、配列マッピングを、一次遺伝子データを二次的な遺伝子のコールに変換するのではなく、遺伝子型決定プラットフォームによって直接測定された生の強度データを使用することによって確率的に処理する。ある実施形態では、対立遺伝子数の確率を算出するステップおよび各仮説の相対的確率を決定するステップにおいて使用する調製された試料からのDNA測定値は、一次遺伝子データを含む。 In an embodiment of the present disclosure, the higher level software does not rely on allele calls, SNP calls or sequence reads determined by lower level software. Instead, the higher level software bases its calculations on analog signals measured directly from the genotyping platform. In an embodiment of the present disclosure, an informatics-based method, e.g., PARENTAL SUPPORT™, is modified such that its ability to reconstruct embryo/fetus/child genetic data is engineered to directly use primary genetic data measured by the genotyping platform. In an embodiment of the present disclosure, an informatics-based method, e.g., PARENTAL SUPPORT™, can make allele calls and/or chromosome copy number calls using primary genetic data and without secondary genetic data. In an embodiment of the present disclosure, gene calls, SNP calls, all sequence reads, sequence mapping are probabilistically processed by using raw intensity data measured directly by the genotyping platform rather than converting primary genetic data to secondary gene calls. In one embodiment, the DNA measurements from the prepared sample used in calculating the allele count probabilities and determining the relative probability of each hypothesis comprise primary genetic data.

いくつかの実施形態では、前記方法により、少なくとも1つの関連する個体の遺伝子データを組み入れる、標的個体の遺伝子データの正確度を上昇させることができ、前記方法は、標的個体のゲノムに特異的な一次遺伝子データおよび関連する個体(複数可)のゲノム(複数可)に特異的な遺伝子データを得るステップと、関連する個体(複数可)由来のどの染色体のセグメントが、標的個体のゲノム内のそれらのセグメントに対応する可能性があるかに関する1個または複数個の仮説の集合を作製するステップと、標的個体の一次遺伝子データおよび関連する個体(複数可)の遺伝子データを考慮して仮説のそれぞれの確率を決定するステップと、各仮説に関連する確率を用いて、実際の標的個体の遺伝物質の最も可能性が高い状態を決定するステップとを含む。いくつかの実施形態では、前記方法により、標的個体のゲノム内の染色体のセグメントのコピーの数を決定することができ、前記方法は、どのくらいの染色体セグメントのコピーが標的個体のゲノム内に存在するかに関するコピー数についての仮説の集合を作製するステップと、標的個体からの一次遺伝子データおよび1つまたは複数の関連する個体からの遺伝子情報をデータ集合に組み入れるステップと、データ集合に関連するプラットフォームの応答の特性を推定するステップであって、プラットフォームの応答が、ある実験と別の実験で変動し得るステップと、データ集合およびプラットフォームの応答特性を考慮して、コピー数についての仮説のそれぞれの相対的確率を計算するステップと、最も可能性の高いコピー数についての仮説に基づいて染色体セグメントのコピー数を決定するステップとを含む。ある実施形態では、本開示の方法は、標的個体の少なくとも1つの染色体の倍数性の状態を決定することができ、前記方法は、標的個体から、および1つまたは複数の関連する個体から、一次遺伝子データを得るステップと、標的個体の染色体のそれぞれについて、少なくとも1つの倍数性の状態についての仮説の集合を作製するステップと、1つまたは複数の専門技法を用いて、集合内の倍数性の状態についての仮説のそれぞれの統計的確率を決定するステップと、使用した専門技法のそれぞれについて、得られた遺伝子データを考慮して、倍数性の状態についての仮説のそれぞれについて、1つまたは複数の専門技法によって決定された統計的確率を組み合わせるステップと、標的個体の染色体のそれぞれについて、倍数性の状態についての仮説のそれぞれについての複合統計確率に基づいて倍数性の状態を決定するステップとを含む。ある実施形態では、本開示の方法は、対立遺伝子の集合において、標的個体において、および標的個体の一方の親または両親から、および必要に応じて、1つまたは複数の関連する個体から、対立遺伝子の状態を決定することができ、前記方法は、標的個体から、および一方の親または両親から、および任意の関連する個体から一次遺伝子データを得るステップと、標的個体について、および一方の親または両親について、および必要に応じて、1つまたは複数の関連する個体について、少なくとも1つの対立遺伝子についての仮説の集合を作製するステップであって、仮説が対立遺伝子の集合における可能性のある対立遺伝子の状態を記載するステップと、仮説の集合内の各対立遺伝子についての仮説について統計的確率を、得られた遺伝子データを考慮して決定するステップと、対立遺伝子の集合内の対立遺伝子のそれぞれについて、標的個体について、および一方の親または両親について、および必要に応じて、1つまたは複数の関連する個体について、対立遺伝子についての仮説のそれぞれの統計的確率に基づいて対立遺伝子の状態を決定するステップとを含む。 In some embodiments, the method can increase the accuracy of genetic data of a target individual that incorporates genetic data of at least one related individual, the method comprising obtaining primary genetic data specific to the genome of the target individual and genetic data specific to the genome(s) of the related individual(s), generating a set of one or more hypotheses regarding which segments of chromosomes from the related individual(s) are likely to correspond to those segments in the genome of the target individual, determining the probability of each of the hypotheses given the primary genetic data of the target individual and the genetic data of the related individual(s), and using the probability associated with each hypothesis to determine the most likely state of the actual genetic material of the target individual. In some embodiments, the method allows for determining the number of copies of a segment of a chromosome in the genome of a target individual, the method comprising the steps of: generating a set of copy number hypotheses regarding how many copies of the chromosomal segment are present in the genome of the target individual; incorporating primary genetic data from the target individual and genetic information from one or more related individuals into a dataset; estimating platform response characteristics associated with the dataset, where the platform response may vary from one experiment to another; calculating the relative probability of each of the copy number hypotheses given the dataset and the platform response characteristics; and determining the copy number of the chromosomal segment based on the most likely copy number hypothesis. In an embodiment, a method of the present disclosure can determine the ploidy state of at least one chromosome of a target individual, the method comprising the steps of obtaining primary genetic data from the target individual and from one or more related individuals; generating a set of hypotheses for at least one ploidy state for each of the chromosomes of the target individual; determining, using one or more expert techniques, the statistical probability of each of the hypotheses for the ploidy state in the set; combining, for each of the expert techniques used, the statistical probability determined by the one or more expert techniques for each of the hypotheses for the ploidy state taking into account the obtained genetic data; and determining, for each of the chromosomes of the target individual, the ploidy state based on the combined statistical probability for each of the hypotheses for the ploidy state. In an embodiment, the method of the present disclosure can determine the state of an allele in a set of alleles, in a target individual, and from one or both parents of the target individual, and optionally from one or more related individuals, the method comprising the steps of obtaining primary genetic data from the target individual, from one or both parents, and from any related individuals; generating a set of hypotheses for at least one allele for the target individual, and for one or both parents, and optionally for one or more related individuals, the hypotheses describing possible allele states in the set of alleles; determining a statistical probability for the hypothesis for each allele in the set of hypotheses in light of the obtained genetic data; and determining the allele state for each of the alleles in the set of alleles, for the target individual, and for one or both parents, and optionally for one or more related individuals, based on the statistical probability of each of the hypotheses for the allele.

いくつかの実施形態では、混合試料の遺伝子データは、配列データを含んでよく、ここで、配列データは、ヒトゲノムに独自にマッピングされない場合がある。いくつかの実施形態では、混合試料の遺伝子データは、配列データを含んでよく、ここで、配列データは、ゲノム内の複数の場所にマッピングされ、ここで、可能性のあるマッピングのぞれぞれは、所与のマッピングが正確である確率を伴う。いくつかの実施形態では、シーケンスリードは、ゲノム内の特定の位置に関連づけられると仮定されない。いくつかの実施形態では、シーケンスリードは、ゲノム内の複数の位置に関連づけられ、付随する確率はその位置に属する。 In some embodiments, the genetic data of the mixed sample may include sequence data, where the sequence data may not be uniquely mapped to the human genome. In some embodiments, the genetic data of the mixed sample may include sequence data, where the sequence data is mapped to multiple locations in the genome, where each possible mapping is accompanied by a probability that the given mapping is correct. In some embodiments, the sequence reads are not assumed to be associated with a specific location in the genome. In some embodiments, the sequence reads are associated with multiple locations in the genome, with an associated probability of belonging to that location.

染色体コピー数を決定する計数法
一態様では、本発明は、異なる染色体に整列させた配列タグの数を比較することにより、胎児染色体の異常分布を検査する方法を特徴とする(例えば、2012年4月20日出願の米国特許第8,296,076号を参照。この特許は、参照によりその全体が本明細書に組み込まれる)。当技術分野で知られているように、用語の「配列タグ」は、例えば、染色体またはゲノム領域または遺伝子にマップされる一定のより大きな配列を特定するために使用できる比較的短い(例えば、15~100)核酸配列を意味する。いくつかの実施形態では、前記方法は、(i)母系および胎児DNAの混合物を含む試料を、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる標的遺伝子座に同時にハイブリダイズするプライマーライブラリーと接触させて反応混合物を生成するステップであって、標的遺伝子座が複数の異なる染色体由来であり、複数の異なる染色体が試料中で異常分布を有すると疑われる少なくとも1個の第1の染色体および試料中で正常分布であると推定される少なくとも1個の第2の染色体を含むステップと、(ii)反応混合物をプライマー伸長反応条件に供して増幅産物を生成するステップと、(iii)増幅産物をシークエンシングして標的遺伝子座に整列した複数の、特異的標的遺伝子座を割り付けるのに十分な長の配列タグを得るステップと、(iv)コンピュータで複数の配列タグをそれらの対応する標的遺伝子座に割り付けるステップと、(v)第1の染色体の標的遺伝子座に整列した配列タグの数および第2の染色体の標的遺伝子座に整列した配列タグの数をコンピュータで決定するステップと、(vi)ステップ(v)からの数を比較して第1の染色体の異常分布の存在の有無を判定するステップとを含む。
Counting Methods for Determining Chromosome Copy Number In one aspect, the invention features a method for examining fetal chromosomal abnormality distribution by comparing the number of sequence tags aligned to different chromosomes (see, e.g., U.S. Patent No. 8,296,076, filed April 20, 2012, which is incorporated by reference in its entirety herein). As known in the art, the term "sequence tag" refers to a relatively short (e.g., 15-100) nucleic acid sequence that can be used to identify a given larger sequence that maps to, for example, a chromosome or genomic region or gene. In some embodiments, the method includes the steps of: (i) contacting a sample comprising a mixture of maternal and fetal DNA with a primer library that simultaneously hybridizes to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different target loci to generate a reaction mixture, wherein the target loci are from a plurality of different chromosomes, the plurality of different chromosomes including at least one first chromosome suspected of having an abnormal distribution in the sample and at least one second chromosome suspected of having a normal distribution in the sample. (ii) subjecting the reaction mixture to primer extension reaction conditions to produce amplification products; (iii) sequencing the amplification products to obtain a plurality of sequence tags of sufficient length to assign specific target loci that align to the target loci; (iv) assigning, by a computer, the plurality of sequence tags to their corresponding target loci; (v) determining, by a computer, the number of sequence tags that align to the target loci of the first chromosome and the number of sequence tags that align to the target loci of the second chromosome; and (vi) comparing the numbers from step (v) to determine the presence or absence of an abnormal distribution of the first chromosome.

一態様では、本発明は、染色体間の標的増幅産物の相対度数を比較することにより、胎児の異数性の存在の有無を検出する方法を提供する(例えば、2012年1月23日出願の国際公開第WO2012/103031号を参照。この特許は、参照によりその全体が本明細書に組み込まれる)。いくつかの実施形態では、前記方法は、(i)母系および胎児DNAの混合物を含む試料を、複数の異なる染色体由来の少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる非多形標的遺伝子座に同時にハイブリダイズするプライマーライブラリーと接触させて反応混合物を生成するステップと、(ii)反応混合物をプライマー伸長反応条件に供して標的増幅産物を含む増幅産物を生成するステップと、(iii)第1と第2の対象染色体由来の標的増幅産物の相対度数をコンピュータで定量化するステップと、(iv)第1と第2の対象染色体由来の標的増幅産物の相対度数をコンピュータで比較するステップと、(v)第1と第2の対象染色体の比較結果の相対度数に基づいて異数性の存在の有無を特定するステップとを含む。いくつかの実施形態では、第1の染色体は、正倍数体と疑われる染色体である。いくつかの実施形態では、第2の染色体は、異数性であると疑われる染色体である。 In one aspect, the present invention provides a method for detecting the presence or absence of fetal aneuploidy by comparing the relative frequency of target amplification products between chromosomes (see, e.g., International Publication No. WO 2012/103031, filed January 23, 2012, which is incorporated herein by reference in its entirety). In some embodiments, the method includes the steps of: (i) contacting a sample comprising a mixture of maternal and fetal DNA with a library of primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different non-polymorphic target loci from a plurality of different chromosomes to generate a reaction mixture; (ii) subjecting the reaction mixture to primer extension reaction conditions to generate an amplification product comprising a target amplicon; (iii) quantifying by a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; (iv) comparing by a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; and (v) identifying the presence or absence of an aneuploidy based on the relative frequency of the first and second chromosomes of interest. In some embodiments, the first chromosome is a chromosome suspected to be euploid. In some embodiments, the second chromosome is a chromosome suspected to be aneuploid.

出生前診断の組み合わせ方法
異数性または他の遺伝的欠陥を出生前診断または出生前スクリーニングするために用いることができる多くの方法が存在する。本文書の他の箇所、ならびに、2006年11月28日に出願された米国実用新案出願第11/603,406号;2008年3月17日に出願された米国実用新案出願第12/076,348号、およびPCT出願第PCT/S09/52730号に、関連する個体の遺伝子データを使用して、胎児などの標的個体の遺伝子データが公知であるまたは推定される正確度を上昇させる方法の1つが記載されている。出生前診断のために用いる他の方法は、母系の血液中の、種々の遺伝子の異常と相関する特定のホルモンのレベルを測定するステップを包含する。この例はトリプルテストと称される、母系の血液中のいくつか(一般に、2つ、3つ、4つまたは5つ)の異なるホルモンのレベルを測定する検査である。複数の方法を用いて所与の転帰の尤度を決定し、どの方法もそれ自体が決定的でない場合には、これらの方法によって生じる情報を組み合わせて、個々の方法のいずれよりも正確な予測を行うことが可能である。トリプルテストでは、3つの異なるホルモンから生じる情報を組み合わせることにより、個々のホルモンレベルにより予測され得るよりも正確な遺伝子の異常の予測がもたらされ得る。
Combination Methods of Prenatal Diagnosis There are many methods that can be used for prenatal diagnosis or prenatal screening of aneuploidy or other genetic defects. Elsewhere in this document, as well as in U.S. Utility Application No. 11/603,406, filed November 28, 2006; U.S. Utility Application No. 12/076,348, filed March 17, 2008, and PCT Application No. PCT/S09/52730, one method is described in which genetic data of related individuals is used to increase the accuracy with which genetic data of a target individual, such as a fetus, is known or presumed. Another method used for prenatal diagnosis involves measuring the levels of certain hormones in maternal blood that are correlated with abnormalities in various genes. An example of this is the so-called triple test, which measures the levels of several (usually two, three, four or five) different hormones in maternal blood. When multiple methods are used to determine the likelihood of a given outcome and no method is conclusive by itself, the information generated by these methods can be combined to produce a more accurate prediction than any of the individual methods. In the triple test, combining information generated from three different hormones can result in a more accurate prediction of genetic abnormalities than can be predicted by individual hormone levels.

本明細書には、胎児の遺伝子の状態、詳細には、胎児における遺伝子の異常の可能性に関してより正確な予測を行うための方法であって、種々の方法を用いて行った胎児における遺伝子の異常の予測を組み合わせること含む方法が開示されている。「より正確な」方法とは、所与の偽陽性率において、偽陰性率がより低い、異常を診断するための方法を指し得る。好ましい本開示の実施形態では、予測のうちの1つまたは複数を、胎児に関する公知の遺伝子データに基づいて行い、遺伝子の知見はPARENTAL SUPPORT(商標)法を使用して決定した、すなわち、胎児に関連する個体の遺伝子データを使用して、胎児の遺伝子データをより高い正確度で決定した。いくつかの実施形態では、遺伝子データは、胎児の倍数性の状態を含んでよい。いくつかの実施形態では、遺伝子データとは、胎児のゲノムにおける対立遺伝子のコールの集合を指し得る。いくつかの実施形態では、予測のいくつかは、トリプルテストを用いて行われた。いくつかの実施形態では、予測のいくつかを、母系の血液中の他のホルモンレベルの測定値を用いて行った。いくつかの実施形態では、診断を考慮する方法によって行われる予測を、スクリーニングを考慮する方法によって行われる予測と組み合わせることができる。いくつかの実施形態では、前記方法は、アルファ-フェトプロテイン(AFP)の母系の血中レベルを測定するステップを包含する。いくつかの実施形態では、前記方法は、コンジュゲートしていないエストリオール(UE)の母系の血中レベルを測定するステップを包含する。いくつかの実施形態では、前記方法は、ベータヒト絨毛性ゴナドトロピン(ベータ-hCG)の母系の血中レベルを測定するステップを包含する。いくつかの実施形態では、前記方法は、浸潤性トロホブラスト抗原(ITA)の母系の血中レベルを測定するステップを包含する。いくつかの実施形態では、前記方法は、インヒビンの母系の血中レベルを測定するステップを包含する。いくつかの実施形態では、前記方法は、妊娠関連血漿タンパク質A(PAPP-A)の母系の血中レベルを測定するステップを包含する。いくつかの実施形態では、前記方法は、他のホルモンまたは母系の血清マーカーの母系の血中レベルを測定するステップを包含する。いくつかの実施形態では、予測のいくつかは、他の方法を用いて行なわれてもよい。いくつかの実施形態では、予測のいくつかは、完全に組み込まれた検査、例えば、妊娠の約12週における超音波検査および血液検査ならびに約16週における第2の血液検査を組み合わせた検査を用いて行なわれてもよい。いくつかの実施形態では、前記方法は、胎児の項部浮腫(NT)を測定するステップを包含する。いくつかの実施形態では、前記方法は、予測を行うために、測定された上述のホルモンのレベルを使用するステップを包含する。いくつかの実施形態では、前記方法は、上述の方法の組み合わせを包含する。 Disclosed herein is a method for making more accurate predictions regarding the genetic status of a fetus, specifically the likelihood of a genetic abnormality in the fetus, which includes combining predictions of genetic abnormalities in the fetus made using various methods. A "more accurate" method may refer to a method for diagnosing an abnormality that has a lower false negative rate at a given false positive rate. In preferred embodiments of the present disclosure, one or more of the predictions are made based on known genetic data about the fetus, and the genetic findings are determined using the PARENTAL SUPPORT™ method, i.e., genetic data of individuals related to the fetus are used to determine the genetic data of the fetus with a higher degree of accuracy. In some embodiments, the genetic data may include the ploidy state of the fetus. In some embodiments, the genetic data may refer to a collection of allele calls in the genome of the fetus. In some embodiments, some of the predictions are made using triple testing. In some embodiments, some of the predictions are made using measurements of other hormone levels in the maternal blood. In some embodiments, predictions made by methods that consider diagnosis can be combined with predictions made by methods that consider screening. In some embodiments, the method includes measuring maternal blood levels of alpha-fetoprotein (AFP). In some embodiments, the method includes measuring maternal blood levels of unconjugated estriol (UE 3 ). In some embodiments, the method includes measuring maternal blood levels of beta-human chorionic gonadotropin (beta-hCG). In some embodiments, the method includes measuring maternal blood levels of invading trophoblast antigen (ITA). In some embodiments, the method includes measuring maternal blood levels of inhibin. In some embodiments, the method includes measuring maternal blood levels of pregnancy associated plasma protein A (PAPP-A). In some embodiments, the method includes measuring maternal blood levels of other hormones or maternal serum markers. In some embodiments, some of the predictions may be made using other methods. In some embodiments, some of the predictions may be made using a fully integrated test, for example, a test that combines an ultrasound and blood test at about 12 weeks of pregnancy and a second blood test at about 16 weeks. In some embodiments, the method includes measuring fetal nuchal edema (NT). In some embodiments, the method includes using the measured levels of the above-mentioned hormones to make a prediction. In some embodiments, the method includes a combination of the above-mentioned methods.

予測を組み合わせるための多くの方法が存在し、例えば、ホルモンの測定値を、中央値の倍数(multiple of the median)(MoM)に変換し、次いで、尤度比(LR)に変換することができる。同様に、他の測定値を、NT分布の混合モデルを使用してLRに変換することができる。NTおよび生化学的マーカーについてのLRに、年齢および妊娠に関連するリスクを掛けて、21トリソミーなどの種々の状態に対するリスクを導くことができる。検出率(DR)および偽陽性率(FPR)を、所与のリスク閾値を上回るリスクを有する割合を取ることによって算出することができる。 There are many ways to combine predictions, for example hormone measurements can be converted to multiples of the median (MoM) and then converted to likelihood ratios (LR). Similarly, other measurements can be converted to LRs using mixture models of NT distribution. LRs for NT and biochemical markers can be multiplied by age and pregnancy-related risks to derive risks for various conditions such as trisomy 21. Detection rates (DR) and false positive rates (FPR) can be calculated by taking the proportion with risk above a given risk threshold.

ある実施形態では、倍数性の状態をコールするための方法は、同時分布モデルおよび対立遺伝子数の確率を用いて決定される倍数性についての仮説のそれぞれの相対的確率と、これらに限定されないが、リード数解析、ヘテロ接合率の比較、親の遺伝子情報を使用する場合にのみ利用可能な統計量、特定の親の状況に対して正規化された遺伝子型シグナルの確率、第1の試料または調製された試料における推定される胎児画分を用いて算出される統計量、およびそれらの組み合わせを含めた、胎児がトリソミーであるリスクスコアを決定する他の方法から選択される統計学的技法を用いて算出された倍数性についての仮説のそれぞれの相対的確率とを組み合わせるステップを包含する。 In an embodiment, the method for calling the ploidy state includes combining the relative probability of each of the hypotheses about ploidy determined using a joint distribution model and allele count probabilities with the relative probability of each of the hypotheses about ploidy calculated using a statistical technique selected from other methods of determining a risk score for fetal trisomy, including, but not limited to, read count analysis, comparison of heterozygosity rates, statistics available only using parental genetic information, genotype signal probabilities normalized to a particular parental status, statistics calculated using an estimated fetal fraction in the first sample or prepared sample, and combinations thereof.

別の方法は、4つの測定されたホルモンレベルを伴う状況であって、これらのホルモンのまわりの確率分布が既知である状況を包含し得:正倍数性の場合はp(x、x、x、x|e)、異数性の場合はp(x、x、x、x|a)である。次いで、DNA測定値についての確率分布を測定することができ、正倍数性の場合および異数性の場合、それぞれg(y|e)およびg(y|a)である。これらは、正倍数性/異数性の仮定を考慮して、独立していると仮定すると、p(x、x、x、x|a)g(y|a)およびp(x、x、x、x|e)g(y|e)として組み合わせ、次いで、母系の年齢を考慮して、それぞれに事前p(a)およびp(e)を掛けることができる。次いで、最も高いものを選択することができる。 Another method may involve the situation with four measured hormone levels where the probability distributions around these hormones are known: p( x1 , x2 , x3 , x4 |e) for euploidy and p( x1 , x2 , x3, x4 |a) for aneuploidy. The probability distributions for the DNA measurements can then be measured, g(y|e) and g(y|a) for euploidy and aneuploidy, respectively. These can be combined as p( x1 , x2 , x3, x4|a)g(y|a) and p( x1 , x2, x3 , x4 |e)g(y|e), assuming independence, given the euploidy / aneuploidy assumptions, and then multiplied by the priors p(a) and p(e), respectively , taking into account maternal age. The highest one can then be selected.

ある実施形態では、中心極限定理を惹起して、g(y|aまたはe)の分布がガウス分布であると仮定し、多数の試料について調べることによって平均値および標準偏差を測定することが可能である。別の実施形態では、転帰を考慮して、これらが独立していないと仮定し、同時分布p(x、x、x、x|aまたはe)を推定するために十分な試料を収集することができる。 In one embodiment, one can invoke the central limit theorem and assume that the distribution of g(y|a or e) is Gaussian, and measure the mean and standard deviation by examining a large number of samples. In another embodiment, one can assume that the outcomes are not independent, and collect enough samples to estimate the joint distribution p( x1 , x2 , x3 , x4 |a or e), taking into account the outcomes.

ある実施形態では、標的個体が倍数性の状態であると決定されるための倍数性の状態は、最大の確率を有する仮説に関連づけられる。いくつかの場合には、1つの仮説は、90%超の正規化された複合確率を有する。各仮説は1つの倍数性の状態または倍数性の状態の集合に関連づけられ、その正規化された複合確率が90%超であるかまたはいくつかの他の閾値、例えば、50%、80%、95%、98%、99%または99.9%を超えている仮説に関連づけられる倍数性の状態を、決定された倍数性の状態として仮説がコールされるのに必要な閾値として選択することができる。 In some embodiments, the ploidy state for which the target individual is determined to be a ploidy state is associated with the hypothesis with the greatest probability. In some cases, one hypothesis has a normalized composite probability of more than 90%. Each hypothesis is associated with one ploidy state or a set of ploidy states, and the ploidy state associated with the hypothesis whose normalized composite probability is greater than 90% or exceeds some other threshold, e.g., 50%, 80%, 95%, 98%, 99% or 99.9%, can be selected as the threshold required for the hypothesis to be called as the determined ploidy state.

母系の血液中の、以前の妊娠由来の子由来のDNA 非侵襲的な出生前診断の1つの難しさは、現行の妊娠由来の胎児の細胞と以前の妊娠由来の胎児の細胞を鑑別することである。一部では、前の妊娠由来の遺伝物質(genetic matter)はいくらかの時間の後に消えると考えられているが、決定的な証拠は示されていない。本開示のある実施形態では、PARENTAL SUPPORT(商標)(PS)法、および父系のゲノムの知見を使用して、母系の血液中に存在する父系起源の胎児DNA(すなわち胎児が父親から遺伝によって受け継いだDNA)を決定することが可能である。この方法では、相が特定された親の遺伝子情報を利用することができる。相が特定されていない遺伝子型の情報から、祖父母の遺伝子データ(例えば、祖父の精子から測定された遺伝子データ)を使用して、または、他の生まれた子からの遺伝子データ、または流産の試料から親の遺伝子型の相を特定することが可能である。父系の細胞のHapMapに基づく相の特定またはハプロタイピングによって、相が特定されていない遺伝子情報の相を特定することもできる。上首尾のハプロタイピングは、染色体が緊密な束である有糸分裂の相にある細胞を静止させ、マイクロフルイディクスを使用して別々の染色体を別々のウェルに入れることによって実証されている。別の実施形態では、相が特定された親のハプロタイプデータを使用して、父親由来の2種以上の相同体の存在を検出することが可能であり、これは、2人以上の子由来の遺伝物質が血液中に存在することを意味する。胎児において正倍数性であることが予測される染色体に焦点を当てることにより、胎児がトリソミーを患っている可能性を除外することができる。また、胎児DNAが現在の父親由来でないかどうかを決定することが可能であり、その場合、他の方法、例えば、トリプルテストを用いて遺伝子の異常を予測することができる。 DNA from a child from a previous pregnancy in maternal blood One difficulty in non-invasive prenatal testing is to distinguish fetal cells from a current pregnancy from fetal cells from a previous pregnancy. Some believe that genetic matter from a previous pregnancy disappears after some time, but no conclusive evidence has been presented. In an embodiment of the present disclosure, using the PARENTAL SUPPORT™ (PS) method and knowledge of the paternal genome, it is possible to determine fetal DNA of paternal origin (i.e., DNA inherited by the fetus from its father) present in maternal blood. This method can utilize phased parental genetic information. It is possible to phase parental genotypes from non-phased genotype information, using grandparental genetic data (e.g., genetic data measured from the grandfather's sperm), or from genetic data from other born children, or from miscarriage samples. HapMap-based phasing or haplotyping of paternal cells can also be used to phase unphased genetic information. Successful haplotyping has been demonstrated by arresting cells in the mitotic phase where the chromosomes are tightly bundled, and using microfluidics to place separate chromosomes into separate wells. In another embodiment, phased parental haplotype data can be used to detect the presence of two or more homologs from the father, meaning that genetic material from more than one child is present in the blood. By focusing on chromosomes predicted to be euploid in the fetus, the possibility that the fetus suffers from trisomy can be ruled out. It can also be determined if the fetal DNA is not from the current father, in which case other methods, such as triple testing, can be used to predict genetic abnormalities.

採血以外の方法によって入手可能な、胎児の遺伝物質の他の供給源があり得る。母系の血液において入手可能な胎児の遺伝物質の場合には、2つの主要なカテゴリー:(1)胎児の細胞全体、例えば、胎児有核赤血球または赤芽球、および(2)浮動性胎児DNAがある。胎児の細胞全体の場合には、胎児の細胞が母系の血液中で長期間存続することができ、したがって、妊娠中の女性から、前の妊娠由来の子または胎児由来のDNAを含有する細胞を単離することが可能であるといういくつかの証拠が存在する。浮動性胎児DNAは、数週間のうちに系から取り除かれるという証拠も存在する。1つの難題は、その遺伝物質が細胞に含有される個体の同一性をどのように決定するか、すなわち、測定された遺伝物質が前の妊娠由来の胎児由来でないことをどのように確実にするかである。本開示のある実施形態では、母系遺伝物質の知見を用いて、問題の遺伝物質が母系遺伝物質ではないことを確実にすることができる。本文書または本文書において参照されているいずれかの特許に記載の通り、インフォマティクスに基づく方法、例えば、PARENTAL SUPPORT(商標)を含めた、この目的を実現するためのいくつもの方法が存在する。 There may be other sources of fetal genetic material available by methods other than blood sampling. In the case of fetal genetic material available in maternal blood, there are two main categories: (1) whole fetal cells, e.g., fetal nucleated red blood cells or erythroblasts, and (2) free-floating fetal DNA. In the case of whole fetal cells, there is some evidence that fetal cells can persist in maternal blood for long periods of time, and thus it is possible to isolate cells from pregnant women that contain DNA from the child or fetus from a previous pregnancy. There is also evidence that free-floating fetal DNA is cleared from the system within a few weeks. One challenge is how to determine the identity of the individual whose genetic material is contained in the cells, i.e., how to ensure that the genetic material measured is not from a fetus from a previous pregnancy. In certain embodiments of the present disclosure, knowledge of the maternal genetic material can be used to ensure that the genetic material in question is not maternal genetic material. There are a number of ways to achieve this goal, including informatics-based methods such as PARENTAL SUPPORT™, as described in this document or any of the patents referenced herein.

本開示のある実施形態では、妊娠中の母親から抜き取った血液を、浮動性胎児DNAを含む画分、および有核赤血球を含む画分に分離することができる。浮動性DNAは必要に応じて富化することができ、DNAの遺伝子型の情報を測定することができる。浮動性DNAから測定された遺伝子型の情報から、母系の遺伝子型の知見を使用して、胎児の遺伝子型の態様を決定することができる。これらの態様は、倍数性の状態、および/または対立遺伝子の集合の同一性を指し得る。次いで、個々の有核赤血球について、本文書の他の箇所および他の参考特許に記載されている方法、特に本文書の最初のセクションに記載の方法を用いて遺伝子型決定することができる。母系ゲノムの知見により、任意の所与の単一の血液細胞が遺伝的に母系かどうかを決定することが可能になる。また、上記の通り決定された胎児の遺伝子型の態様により、単一の血液細胞が、現在妊娠中の胎児に遺伝的に由来するかどうかを決定することが可能になる。本質的に、本開示のこの態様により、母親の遺伝子の知見、および場合によっては他の関連する個体、例えば、父親からの遺伝子情報を、母系の血液中に見いだされる浮動性DNAから測定された遺伝子情報と一緒に使用して、母系の血液中に見いだされる単離された有核細胞が、(a)遺伝的に母系であるか、(b)遺伝的に現在妊娠中の胎児由来であるか、または(c)遺伝的に前の妊娠由来の胎児由来であるかのいずれかを決定することが可能になる。 In an embodiment of the present disclosure, blood drawn from a pregnant mother can be separated into a fraction containing free-floating fetal DNA and a fraction containing nucleated red blood cells. The free-floating DNA can be enriched as necessary, and the genotypic information of the DNA can be measured. From the genotypic information measured from the free-floating DNA, knowledge of the maternal genotype can be used to determine aspects of the fetal genotype. These aspects may refer to the ploidy state and/or identity of the set of alleles. Individual nucleated red blood cells can then be genotyped using methods described elsewhere in this document and in other referenced patents, particularly the methods described in the first section of this document. Knowledge of the maternal genome allows for the determination of whether any given single blood cell is genetically maternal. Also, aspects of the fetal genotype determined as described above allow for the determination of whether a single blood cell is genetically derived from a currently pregnant fetus. Essentially, this aspect of the disclosure allows knowledge of the mother's genes, and possibly genetic information from other related individuals, e.g., the father, to be used together with genetic information measured from free floating DNA found in maternal blood to determine whether isolated nucleated cells found in maternal blood are either (a) genetically maternal, (b) genetically derived from a fetus of the current pregnancy, or (c) genetically derived from a fetus from a previous pregnancy.

出生前の性染色体異数性の決定
当技術分野で公知の方法では、妊娠中の胎児の性別を、母親の血液からを決定することを試みる人は、胎児の浮動性DNA(fffDNA)が母親の血漿中に存在するという事実を用いている。母系の血漿中のY特異的遺伝子座を検出することができれば、これは、妊娠中の胎児が男であることを意味する。しかし、当技術分野で既知の方法を用いる場合、いくつかの場合には、fffDNAの量が、男の胎児の場合にY特異的遺伝子座が検出されることを確実にするには低すぎるので、血漿中のY特異的遺伝子座が検出されないことでは、妊娠中の胎児が女であることは必ずしも保証されない。
Determination of prenatal sex chromosome aneuploidy In methods known in the art, those attempting to determine the sex of a gestating fetus from the mother's blood use the fact that fetal free floating DNA (fffDNA) is present in the mother's plasma. If the Y-specific locus can be detected in the maternal plasma, this means that the gestating fetus is male. However, when using methods known in the art, the absence of detection of the Y-specific locus in the plasma does not necessarily guarantee that the gestating fetus is female, since in some cases the amount of fffDNA is too low to ensure that the Y-specific locus is detected in the case of a male fetus.

本明細書では、Y特異的核酸、すなわち排他的に父系的に由来する遺伝子座由来であるDNAを測定することを必要としない新規の方法が提示される。以前に開示されたParental Support方法では、乗換え頻度データ、親の遺伝子型データ、および妊娠中の胎児の倍数性の状態を決定するためのインフォマティクス技法を用いる。胎児の性別は、単に性染色体における胎児の倍数性の状態である。XXである子は女であり、およびXYは男である。本明細書に記載の方法により、胎児の倍数性の状態を決定することもできる。性判別は性染色体の倍数性の決定と有効に同義であることに留意されたい;性判別の場合には、仮定は、多くの場合、子が正倍数性であるとして立てられ、したがって、可能性のある仮説が少ない。 Presented herein is a novel method that does not require measuring Y-specific nucleic acids, i.e., DNA that is exclusively from paternally derived loci. The previously disclosed Parental Support method uses crossover frequency data, parental genotype data, and informatics techniques to determine the ploidy state of the fetus during pregnancy. Fetal sex is simply the ploidy state of the fetus at the sex chromosomes. A child that is XX is female, and XY is male. The method described herein also allows the determination of the ploidy state of the fetus. Note that sex determination is effectively synonymous with determining the ploidy of the sex chromosomes; in the case of sex determination, the assumption is often made that the child is euploid, and therefore there are fewer possible hypotheses.

本明細書に開示されている方法は、X染色体とY染色体の両方に共通する遺伝子座について調べて、胎児について予測される存在する胎児DNAの量に関するベースラインを作製するステップを包含する。次いで、X染色体のみに特異的な領域を調べて、胎児が女であるか男であるかを決定することができる。男の場合には、X染色体に特異的な遺伝子座由来の胎児DNAが、XとYの両方に特異的な遺伝子座由来の胎児DNAよりも少ないと認められることが予想される。対照的に、女の胎児では、これらの群のそれぞれのDNAの量が同じであることが予想される。問題のDNAは、試料に存在するDNAの量を定量することができる任意の技法、例えば、qPCR、SNPアレイ、遺伝子型決定アレイまたは配列決定によって測定することができる。排他的に1個体に由来するDNAについては、以下が認められることが予想される:
胎児由来のDNAが母親由来のDNAと混在しており、混合物中の胎児DNAの割合がFであり、混合物中の母系DNAの割合がMであり、したがってF+M=100%である場合、以下が認められることが予想される:
FおよびMが既知である場合には、予測比を計算することができ、観察されたデータを、予測データと比較することができる。MおよびFが未知である場合には、閾値を過去のデータに基づいて選択することができる。どちらの場合でも、XとYの両方に特異的な遺伝子座において測定されたDNAの量をベースラインとして用いることができ、胎児の性別の検査は、X染色体のみに特異的な遺伝子座において観察されたDNAの量に基づいてよい。その量がベースラインよりも、およそ1/2Fと等しい量だけ低い、またはそれが予め定義された閾値未満になる量だけ低ければ、胎児は男であることが決定され、その量がベースラインとほとんど等しい、またはそれが予め定義された閾値未満になる量だけ低くなければ、胎児は女であることが決定される。
The method disclosed herein involves examining loci common to both the X and Y chromosomes to create a baseline for the amount of fetal DNA present that is expected for a fetus. Regions specific to only the X chromosome can then be examined to determine whether the fetus is female or male. In the case of males, it is expected that less fetal DNA from loci specific to the X chromosome will be found than from loci specific to both X and Y. In contrast, it is expected that female fetuses will have the same amount of DNA from each of these groups. The DNA in question can be measured by any technique capable of quantifying the amount of DNA present in a sample, for example, qPCR, SNP arrays, genotyping arrays, or sequencing. For DNA derived exclusively from one individual, it is expected that the following will be found:
If DNA from the fetus is mixed with DNA from the mother, such that the percentage of fetal DNA in the mixture is F and the percentage of maternal DNA in the mixture is M, such that F+M=100%, we would expect to see the following:
If F and M are known, a predicted ratio can be calculated and the observed data compared to the predicted data. If M and F are unknown, a threshold can be selected based on past data. In either case, the amount of DNA measured at both X and Y specific loci can be used as a baseline, and the test for the sex of the fetus can be based on the amount of DNA observed at the locus specific to the X chromosome only. If the amount is lower than the baseline by an amount approximately equal to ½F or by an amount that brings it below a predefined threshold, the fetus is determined to be male, and if the amount is not approximately equal to the baseline or by an amount that brings it below a predefined threshold, the fetus is determined to be female.

別の実施形態では、多くの場合Z染色体と称される、X染色体とY染色体に共通である遺伝子座のみを調べることができる。Z染色体上の遺伝子座のサブセットは、一般には、常にX染色体上のA、およびY染色体上のBである。Z染色体由来のSNPがB遺伝子型を有することが見いだされた場合は、胎児は男であるとコールされ、Z染色体由来のSNPがA遺伝子型のみを有することが見いだされた場合には、胎児は女であるとコールされる。別の実施形態では、X染色体においてのみ見いだされる遺伝子座を調べることができる。AA|Bなどの状況は、Bが存在することにより、胎児が父親由来のX染色体を有することが示されるので、特に情報価値がある。AB|Bなどの状況も、女の胎児の場合には、男の胎児と比較して、多くの場合、Bが半分しか存在しないことが認められると予想されるので、情報価値がある。別の実施形態では、対立遺伝子AとBの両方がX染色体とY染色体の両方に存在し、どのSNPが父系のY染色体由来であるか、およびどれが父系のX染色体由来であるかが既知であるZ染色体上のSNPを調べることができる。 In another embodiment, one can look at only loci that are common to the X and Y chromosomes, often referred to as the Z chromosome. The subset of loci on the Z chromosome is generally always A on the X chromosome and B on the Y chromosome. If the SNP from the Z chromosome is found to have the B genotype, the fetus is called male, and if the SNP from the Z chromosome is found to have only the A genotype, the fetus is called female. In another embodiment, one can look at loci that are found only on the X chromosome. A situation such as AA|B is particularly informative, since the presence of B indicates that the fetus has an X chromosome from the father. A situation such as AB|B is also informative, since it is expected that in female fetuses, only half the B will often be found to be present, compared to male fetuses. In another embodiment, one can look at SNPs on the Z chromosome where both the A and B alleles are present on both the X and Y chromosomes, and it is known which SNPs are from the paternal Y chromosome and which are from the paternal X chromosome.

ある実施形態では、Y染色体とX染色体によって共有される相同な非組換え(HNR)領域間で変動することが公知の一塩基位置を増幅することが可能である。このHNR領域内の配列は、X染色体とY染色体の間でほとんど同一である。この同一の領域内に、母集団内のX染色体の間およびY染色体の間では不変であるが、X染色体とY染色体の間では異なる一塩基位置がある。各PCRアッセイによりX染色体とY染色体の両方に存在する遺伝子座由来の配列を増幅することができる。増幅された配列のそれぞれの内部に、配列決定またはいくつかの他の方法を用いて検出することができる単一の塩基がある。 In one embodiment, it is possible to amplify a single base position that is known to vary between the homologous non-recombining (HNR) regions shared by the Y and X chromosomes. The sequence within this HNR region is nearly identical between the X and Y chromosomes. Within this identical region, there is a single base position that is invariant between the X chromosomes and the Y chromosomes within a population, but differs between the X and Y chromosomes. Each PCR assay can amplify sequences from loci present on both the X and Y chromosomes. Within each of the amplified sequences, there is a single base that can be detected using sequencing or some other method.

ある実施形態では、胎児の性別を、母系の血漿中に見いだされる胎児の浮動性DNAから決定することができ、方法は以下のステップの一部または全部を含む:1)HNR領域内のX/Y変異体一塩基位置を増幅するPCR(通常のPCRまたはmini-PCRのいずれか、所望であればそれに加えて多重化)プライマーを設計するステップ、2)母系の血漿を得るステップ、3)母系の血漿由来の標的を、HNRX/Y PCRアッセイを用いてPCR増幅するステップ、4)増幅産物について配列決定するステップ、5)配列データを、増幅された配列のうちの1個または複数個の内部のY対立遺伝子の存在について検査するステップ。1個または複数個の存在により、男の胎児が示される。全ての増幅産物由来の全てのY対立遺伝子が存在しないことにより、女の胎児が示される。 In one embodiment, fetal sex can be determined from free floating fetal DNA found in maternal plasma, the method comprising some or all of the following steps: 1) designing PCR (either regular PCR or mini-PCR, plus multiplexing if desired) primers that amplify X/Y variant single base positions within the HNR region; 2) obtaining maternal plasma; 3) PCR amplifying targets from maternal plasma using an HNR X/Y PCR assay; 4) sequencing the amplified products; 5) examining the sequence data for the presence of Y alleles within one or more of the amplified sequences. The presence of one or more indicates a male fetus. The absence of all Y alleles from all amplified products indicates a female fetus.

ある実施形態では、標的化配列決定を用いて、母系の血漿中のDNAおよび/または親の遺伝子型を測定することができる。ある実施形態では、父系的に供給されたDNAを起源とすることが明白な配列を全て無視することができる。例えば、状況AA|ABでは、A配列の数を計数し、B配列の全てを無視することができる。上記のアルゴリズムについてヘテロ接合性率を決定するために、所与のプローブについて、観察されたA配列の数と総配列の予測数を比較することができる。試料ごとに各プローブについて配列の予測数を算出することができる多くの方法がある。ある実施形態では、過去のデータを使用して、全てのシーケンスリードのどの画分が特異的なプローブのそれぞれに属するかを決定し、次いで、この経験的な画分をシーケンスリードの総数と組み合わせて使用して、各プローブにおける配列の数を推定することが可能である。別の手法では、一部の公知のホモ接合性の対立遺伝子を標的とし、次いで、過去のデータを使用して、各プローブにおけるリード数と既知のホモ接合性の対立遺伝子におけるリード数を関連づけることができる。次いで、各試料について、ホモ接合性の対立遺伝子におけるリード数を測定し、次いで、この測定値を経験的に導かれた関連性と一緒に使用して、各プローブにおけるシーケンスリード数を推定することができる。 In an embodiment, targeted sequencing can be used to measure DNA in maternal plasma and/or parental genotypes. In an embodiment, any sequences that are clearly originating from paternally provided DNA can be ignored. For example, in the situation AA|AB, the number of A sequences can be counted and all B sequences can be ignored. To determine the heterozygosity rate for the above algorithm, the number of observed A sequences can be compared to the expected number of total sequences for a given probe. There are many ways that the expected number of sequences can be calculated for each probe per sample. In an embodiment, historical data can be used to determine what fraction of all sequence reads belong to each specific probe, and then this empirical fraction can be used in combination with the total number of sequence reads to estimate the number of sequences in each probe. Another approach can target some known homozygous alleles and then use historical data to correlate the number of reads in each probe with the number of reads in known homozygous alleles. For each sample, the number of reads at the homozygous alleles can then be measured, and this measurement, together with the empirically derived associations, can then be used to estimate the number of sequence reads at each probe.

いくつかの実施形態では、複数の方法によって行われた予測を組み合わせることによって胎児の性別を決定することが可能である。いくつかの実施形態では、複数の方法は、本開示に記載の方法から選択される。いくつかの実施形態では、複数の方法の少なくとも1つは本開示に記載の方法から選択される。 In some embodiments, it is possible to determine the sex of the fetus by combining predictions made by multiple methods. In some embodiments, the multiple methods are selected from the methods described herein. In some embodiments, at least one of the multiple methods is selected from the methods described herein.

いくつかの実施形態では、本明細書に記載の方法を用いて、妊娠中の胎児の倍数性の状態を決定することができる。ある実施形態では、倍数性コール方法では、X染色体に特異的な遺伝子座またはX染色体とY染色体の両方に共通する遺伝子座を使用するが、いかなるY特異的遺伝子座も使用しない。ある実施形態では、倍数性コール方法では、以下の1つまたは複数を使用する:X染色体に特異的な遺伝子座、X染色体とY染色体の両方に共通する遺伝子座、およびY染色体に特異的な遺伝子座。ある実施形態では、性染色体の比が同様である場合、例えば、45,X(ターナー症候群)、46,XX(正常な女性)および47,XXX(Xトリソミー)、鑑別は、種々の仮説に従って対立遺伝子分布と予測される対立遺伝子分布とを比較することによって実現することができる。別の実施形態では、これは、性染色体についてのシーケンスリードの相対的な数と、正倍数性であることが仮定される1個または複数個の参照染色体とを比較することによって実現することができる。これらの方法は、異数性の場合を含むように拡大することができることにも留意されたい。 In some embodiments, the methods described herein can be used to determine the ploidy status of a gestational fetus. In some embodiments, the ploidy calling method uses loci specific to the X chromosome or loci common to both the X and Y chromosomes, but does not use any Y-specific loci. In some embodiments, the ploidy calling method uses one or more of the following: loci specific to the X chromosome, loci common to both the X and Y chromosomes, and loci specific to the Y chromosome. In some embodiments, when the ratios of sex chromosomes are similar, e.g., 45,X (Turner syndrome), 46,XX (normal female), and 47,XXX (trisomy X), differentiation can be achieved by comparing the allele distributions according to various hypotheses with the expected allele distributions. In another embodiment, this can be achieved by comparing the relative number of sequence reads for the sex chromosomes with one or more reference chromosomes that are assumed to be euploid. Note also that these methods can be extended to include cases of aneuploidy.

単一遺伝子疾患スクリーニング
ある実施形態では、胎児の倍数性の状態を決定するための方法は、単一遺伝子障害についての同時検査が可能になるように拡張することができる。単一遺伝子疾患の診断は、異数性試験のために用いる同じ標的化手法に影響を及ぼし、さらなる特異的な標的を必要とする。ある実施形態では、単一遺伝子NPD診断は連鎖解析による。多くの場合、cfDNA試料の直接的な試験は、母系DNAが存在することにより、胎児が母親の変異を遺伝によって受け継いだかどうかを決定することが実質的に不可能になるので、信頼できない。独自の父系的に由来する対立遺伝子を検出することは困難が少ないが、疾患が優性であり、父親が保有する場合にのみ完全に情報価値があり、それによりこの手法の有用性が限定される。ある実施形態では、前記方法は、PCRまたは関連する増幅手法を包含する。
Single-gene disease screening In an embodiment, the method for determining the ploidy status of a fetus can be expanded to allow for simultaneous testing for single-gene disorders. Diagnosis of single-gene diseases affects the same targeting approach used for aneuploidy testing, and requires additional specific targets. In an embodiment, single-gene NPD diagnosis is by linkage analysis. In many cases, direct testing of cfDNA samples is unreliable, since the presence of maternal DNA makes it virtually impossible to determine whether the fetus inherited the mother's mutation. Detecting unique paternally derived alleles is less difficult, but is only fully informative if the disease is dominant and carried by the father, thereby limiting the usefulness of this approach. In an embodiment, the method includes PCR or related amplification techniques.

いくつかの実施形態では、前記方法は、親において、周囲に非常にしっかりと連鎖したSNPがある異常な対立遺伝子について、第一度近親者からの情報を用いて相を特定するステップを包含する。次いで、これらのSNPから得られた標的化配列決定データに対してParental Supportを実行して、正常な相同体または異常な相同体のいずれを、両親から胎児が遺伝によって受け継いだかを決定することができる。SNPが十分に連鎖している限りは、胎児の遺伝子型の遺伝を非常に確実に決定することができる。いくつかの実施形態では、方法は、(a)日常病の特定の集合を密に隣接させるためのSNP遺伝子座の集合を、異数性を試験するための本発明者らの多重プールに付加するステップと;(b)正常な対立遺伝子および異常な対立遺伝子を有する、付加したこれらのSNPから、種々の近親者からの遺伝子データに基づいて、対立遺伝子について確実に相の特定をするステップと、(c)疾患遺伝子座の周囲の領域内の遺伝によって受け継がれた母系の相同体および父系の相同体における胎児のハプロタイプまたは相が特定されたSNP対立遺伝子の集合を再構築して、胎児の遺伝子型を決定するステップとを含む。いくつかの実施形態では、疾患連鎖遺伝子座に確実に結合するさらなるプローブを、異数性試験のために用いる多型遺伝子座の集合に加える。 In some embodiments, the method involves phasing abnormal alleles in the parents that have very tightly linked SNPs around them with information from first-degree relatives. Parental Support can then be run on the targeted sequencing data from these SNPs to determine whether the fetus inherited the normal or abnormal homolog from each parent. As long as the SNPs are well linked, the inheritance of the fetal genotype can be determined with great certainty. In some embodiments, the method includes: (a) adding a set of SNP loci to closely flank a particular set of common diseases to our multiplex pool for testing aneuploidy; (b) reliably phase alleles from these added SNPs with normal and abnormal alleles based on genetic data from various relatives; and (c) reconstructing the fetal haplotype or set of phased SNP alleles in inherited maternal and paternal homologs in the region surrounding the disease locus to determine the fetal genotype. In some embodiments, additional probes that reliably bind to disease-linked loci are added to the set of polymorphic loci used for aneuploidy testing.

試料は母系DNAと胎児DNAの混合物であるので、胎児のディプロタイプを再構築することは困難である。いくつかの実施形態では、前記方法では、近親者の情報を組み入れて、SNPおよび疾患対立遺伝子の相を特定し、次いで、場所特異的な組換え尤度からのSNPおよび組換えデータと母系の血漿の遺伝子測定値から観察されたデータの物理的な距離を考慮に入れて、最も可能性が高い胎児の遺伝子型を得る。 Because the sample is a mixture of maternal and fetal DNA, it is difficult to reconstruct the fetal diplotype. In some embodiments, the method incorporates information from close relatives to phase SNPs and disease alleles, and then takes into account the physical distance of SNPs and recombination data from location-specific recombination likelihoods and observed data from maternal plasma genetic measurements to obtain the most likely fetal genotype.

ある実施形態では、疾患連鎖遺伝子座あたりいくつものさらなるプローブを標的の多型遺伝子座の集合に含める;疾患連鎖遺伝子座あたりのさらなるプローブの数は、4個から10個の間、11個から20個の間、21個から40個の間、41個から60個の間、61個から80個の間、またはそれらの組み合わせであってよい。 In some embodiments, a number of additional probes per disease-linked locus are included in the set of targeted polymorphic loci; the number of additional probes per disease-linked locus may be between 4 and 10, between 11 and 20, between 21 and 40, between 41 and 60, between 61 and 80, or a combination thereof.

親由来の二倍体データの相の特定が困難な場合があり、これを行うことができる多くの方法がある。いくつかは本開示で考察されており、他のものは、別の開示でさらに詳細に記載されている(例えば、2009年2月9日出願の国際公開第WO2009105531号、および2009年8月4日出願の同WO2010017214号を参照。これらの特許は、参照によりその全体が本明細書に組み込まれる)。一実施形態では、親由来の半数体組織を測定することにより、例えば、1個または複数個の精子または卵子を測定することにより、親の相を推測して特定できる。一実施形態では、第一度近親者、例えば、親の親または同胞の測定遺伝子型データを使って推測して親の相を特定できる。一実施形態では、それぞれのウェル中に約1個以下のそれぞれのハプロタイプのコピーとなることが予測されるまで1個または複数個のウェル中でDNAを希釈し、その後、1個または複数個のウェル中のDNAを測定することにより親の相を特定できる。一実施形態では、集団ベースハプロタイプ頻度を使用して最も可能性のある相を推測するコンピュータプログラムを使って親の遺伝子型の相の特定ができる。一実施形態では、親の遺伝学的子孫の1個または複数個の相の未特定遺伝子データに加えて、相の特定がなされたハロタイプデータがもう一方の親で既知である場合、親の相の特定ができる。いくつかの実施形態では、親の遺伝学的子孫は、1個または複数個の胚、1人または複数人の胎児、および/または産まれた子供であってもよい。一方の親または両親の相の特定に関するいくつかのこれらの方法のおよび他の方法は、例えば、2010年8月19日出願の米国特許公開第2011/0033862号;2011年2月3日出願の同2011/0178719号;2006年11月22日出願の同2007/018446号;2008年3月17日出願の同2008/0243398号、にさらに詳細に開示されている。これらの特許は、参照によりその全体が本明細書に組み込まれる。 Phasing diploid data from parents can be difficult, and there are many ways this can be done. Some are discussed in this disclosure, others are described in more detail in other disclosures (see, e.g., International Publication Nos. WO2009105531, filed Feb. 9, 2009, and WO2010017214, filed Aug. 4, 2009, which are incorporated herein by reference in their entireties). In one embodiment, parental phase can be inferred and identified by measuring haploid tissue from the parents, e.g., by measuring one or more sperm or eggs. In one embodiment, parental phase can be inferred and identified using measured genotype data from first degree relatives, e.g., parents or siblings of parents. In one embodiment, parental phase can be identified by diluting the DNA in one or more wells until there is expected to be about one or less copy of each haplotype in each well, and then measuring the DNA in one or more wells. In one embodiment, parental genotypes can be phased using a computer program that uses population-based haplotype frequencies to infer the most likely phase. In one embodiment, parental genotypes can be phased when phased haplotype data is known for the other parent in addition to phased unspecified genetic data for one or more of the parent's genetic offspring. In some embodiments, the parent's genetic offspring can be one or more embryos, one or more fetuses, and/or born children. Some of these and other methods of phase-specifying one or both parents are disclosed in further detail, for example, in U.S. Patent Publication Nos. 2011/0033862, filed August 19, 2010; 2011/0178719, filed February 3, 2011; 2007/018446, filed November 22, 2006; and 2008/0243398, filed March 17, 2008. These patents are incorporated herein by reference in their entireties.

胎児のゲノム再構築
一態様では、本発明は、胎児のハプロタイプを決定する方法を特徴とする。種々の実施形態では、前記方法は、どの多形遺伝子座(例えば、SNP)が胎児に遺伝したか判定し、胎児中に存在する相同体を再構築(組換えイベントを含む)すること(および、それにより、多形遺伝子座間の配列を補間すること)を可能とする。必要に応じ、実質的に胎児の全ゲノムを再構築できる。胎児のゲノムにいくつかの曖昧さ(例えば、乗換え間隔)が残されている場合、この曖昧さは、必要に応じ、追加の多形遺伝子座を解析することにより最小化できる。種々の実施形態では、所望レベルに対する全ての曖昧さを減らすために、多形遺伝子座は、1個または複数個の染色体の範囲にわたり一定の密度になるように選択される。前記方法は、胎児ゲノム中の対象多型または他の変異の直接検出ではなく連鎖(例えば、胎児ゲノム中に連鎖多形遺伝子座の存在)に基づくそれらの検出を可能とするために、胎児における対象の多型または他の変異の検出に関し重要な用途がある。例えば、親が嚢胞性線維症(CF)に関連する変異の保持者である場合、胎児の母親由来の母系DNAおよび胎児由来の胎児DNAを含む核酸試料を分析して、胎児DNAがCF変異を有するハプロタイプを含むかどうかを判定できる。特に、胎児DNA中のCF変異それ自体を検出することを必要とせずに、多形遺伝子座を分析して、胎児DNAがCF変異を有するハプロタイプを含むかどうかを判定できる。
Genomic reconstruction of a fetus In one aspect, the invention features a method for determining a haplotype of a fetus. In various embodiments, the method allows for determining which polymorphic loci (e.g., SNPs) were inherited by the fetus and for reconstructing (including recombination events) the homologs present in the fetus (and thereby for interpolating sequences between the polymorphic loci). If desired, substantially the entire genome of the fetus can be reconstructed. If some ambiguity (e.g., crossover intervals) remains in the genome of the fetus, this ambiguity can be minimized by analyzing additional polymorphic loci, if desired. In various embodiments, the polymorphic loci are selected to be at a constant density over a range of one or more chromosomes to reduce all ambiguity to a desired level. The method has important applications for detecting polymorphisms or other mutations of interest in a fetus, since it allows for their detection based on linkage (e.g., the presence of linked polymorphic loci in the fetal genome) rather than direct detection of the polymorphisms or other mutations of interest in the fetal genome. For example, if a parent is a carrier of a mutation associated with cystic fibrosis (CF), a nucleic acid sample containing maternal DNA from the mother of the fetus and fetal DNA from the fetus can be analyzed to determine whether the fetal DNA contains a haplotype that carries the CF mutation. In particular, the polymorphic locus can be analyzed to determine whether the fetal DNA contains a haplotype that carries the CF mutation without the need to detect the CF mutation itself in the fetal DNA.

いくつかの実施形態では、前記方法は、親のハプロタイプ(例えば、胎児の母および父のハプロタイプ)を決定するステップを含む。いくつかの実施形態では、この決定は、母親または父親の親類由来のデータを使うことなく行われる。いくつかの実施形態では、本明細書および別の文献で記載(例えば、2010年8月19日出願の米国特許公開第2011/0033862号を参照。この特許は、参照によりその全体が本明細書に組み込まれる)のように、親のハプロタイプは、希釈手法に続くSNP遺伝子型解析またはシークエンシングを使って決定される。DNAが希釈されるために、1個超のハプロタイプが同じ部分(またはチューブ)中に存在することはないであろう。これにより、事実上チューブ中にDNA単一分子が存在し得る状態となり、単一DNA分子上のハプロタイプを決定できる。いくつかの実施形態では、前記方法は、DNA試料を複数の部分に分割して、少なくとも1つの部分が染色体対由来の1個の染色体または1個の染色体セグメントを含み、少なくとも1つの部分中のDNA試料の遺伝子型解析を行い(例えば、2個以上の多形遺伝子座の存在の決定)、それにより、親のハプロタイプを決定するステップを含む。いくつかの実施形態では、遺伝子型解析は、シークエンシング(例えば、ショットガンシークエンシング)を行うステップを含む。いくつかの実施形態では、遺伝子型解析は、SNPアレイを使用して、多形遺伝子座、例えば、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座を検出するステップを含む。いくつかの実施形態では、遺伝子型解析は、多重PCRを使用するステップを含む。いくつかの実施形態では、前記方法は、分割試料を、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座(例えば、SNP)に同時にハイブリダイズするプライマーライブラリーと接触させて反応混合物を生成するステップと、反応混合物をプライマー伸長反応条件に供して、ハイスループットシーケンサーで測定して配列決定データを生成する増幅産物を得るステップとを含む。 In some embodiments, the method includes determining parental haplotypes (e.g., maternal and paternal haplotypes of the fetus). In some embodiments, this determination is made without using data from maternal or paternal relatives. In some embodiments, the parental haplotypes are determined using a dilution technique followed by SNP genotyping or sequencing, as described herein and elsewhere (see, e.g., U.S. Patent Publication No. 2011/0033862, filed Aug. 19, 2010, which is incorporated herein by reference in its entirety). Because the DNA is diluted, there will not be more than one haplotype in the same portion (or tube). This effectively results in a single molecule of DNA in the tube, and the haplotypes on the single DNA molecule can be determined. In some embodiments, the method includes dividing the DNA sample into multiple portions, with at least one portion comprising a chromosome or a chromosome segment from a chromosome pair, and genotyping the DNA sample in at least one portion (e.g., determining the presence of two or more polymorphic loci), thereby determining parental haplotypes. In some embodiments, the genotyping includes sequencing (e.g., shotgun sequencing). In some embodiments, the genotyping includes using a SNP array to detect polymorphic loci, e.g., at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different polymorphic loci. In some embodiments, the genotyping includes using multiplex PCR. In some embodiments, the method includes contacting the aliquot sample with a library of primers that simultaneously hybridize to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different polymorphic loci (e.g., SNPs) to generate a reaction mixture, and subjecting the reaction mixture to primer extension reaction conditions to obtain amplification products that are measured on a high-throughput sequencer to generate sequencing data.

いくつかの実施形態では、母親のハプロタイプは、母親の親類由来のデータを使って本明細書で記載の方法のいずれかにより決定される。いくつかの実施形態では、父親のハプロタイプは、父親の親類由来のデータを使って本明細書で記載の方法のいずれかにより決定される。いくつかの実施形態では、父親と母親の両方に対するハプロタイプが決定される。いくつかの実施形態では、SNPアレイを使って、母親(または父親)および母親(または父親)の親類由来のDNA試料中の少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座の存在が決定される。いくつかの実施形態では、前記方法は、母親(または父親)および/または母親(または父親)の親類由来のDNA試料を、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座(例えば、SNP)に同時にハイブリダイズするプライマーライブラリーと接触させて反応混合物を生成するステップと、反応混合物をプライマー伸長反応条件に供し、ハイスループットシーケンサーで測定して配列決定データを生成する増幅産物を得るステップとを含む。親のハプロタイプは、SNPアレイまたは配列決定データに基づいて決定できる。いくつかの実施形態では、本文書で記載されているか、または本文書の他の場所で参照されている方法により親のデータの相の特定を行うことができる。 In some embodiments, the maternal haplotype is determined by any of the methods described herein using data from the maternal relatives. In some embodiments, the paternal haplotype is determined by any of the methods described herein using data from the paternal relatives. In some embodiments, haplotypes for both the father and the mother are determined. In some embodiments, a SNP array is used to determine the presence of at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 distinct polymorphic loci in DNA samples from the mother (or father) and the maternal (or paternal) relatives. In some embodiments, the method includes contacting a DNA sample from the mother (or father) and/or maternal (or paternal) relatives with a primer library that simultaneously hybridizes to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different polymorphic loci (e.g., SNPs) to generate a reaction mixture, and subjecting the reaction mixture to primer extension reaction conditions to obtain amplification products that are measured on a high-throughput sequencer to generate sequencing data. Parental haplotypes can be determined based on SNP arrays or sequencing data. In some embodiments, parental data can be phased by methods described or referenced elsewhere in this document.

この親のハプロタイプデータを使って、胎児が親のハプロタイプを受け継いでいるかどうかを判定できる。いくつかの実施形態では、胎児の母親由来の母系DNAおよび胎児由来の胎児DNAを含む核酸試料がSNPアレイを使って分析されて、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座が検出される。いくつかの実施形態では、胎児の母親由来の母系DNAおよび胎児由来の胎児DNAを含む核酸試料は、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座(例えば、SNP)に同時にハイブリダイズするプライマーライブラリーと試料を接触させて反応混合物を生成することにより分析される。いくつかの実施形態では、反応混合物は、プライマー伸長反応条件に供されて増幅産物を生成する。いくつかの実施形態では、増幅産物は、ハイスループットシーケンサーで測定され、配列決定データが生成される。種々の実施形態では、SNPアレイまたは配列決定データを使って、染色体中の種々の部位での染色体乗換え確率に関するデータを使うことにより(例えば、ハップマップデータベース中で見つけることができるような組換えデータを使って任意の間隔に対する組換えリスクスコアを生成することにより)染色体上の多形対立遺伝子間の依存性をモデル化することにより親のハプロタイプが決定される。いくつかの実施形態では、多形遺伝子座での対立遺伝子数は、配列決定データに基づいてコンピュータで計算される。いくつかの実施形態では、それぞれ異なる可能な染色体の倍数性状態に関する複数の倍数性仮説がコンピュータで生成され、染色体上の多形遺伝子座で予測される対立遺伝子数に対するモデル(例えば、同時分布モデル)がそれぞれの倍数性仮説に対しコンピュータで構築され、同時分布モデルおよび対立遺伝子数を使って、それぞれの倍数性仮説の相対的確率がコンピュータで算出され、最大確率を有する仮説に対応する倍数性状態を選択することにより胎児の倍数性状態がコールされる。いくつかの実施形態では、対立遺伝子数についての同時分布モデルを構築するステップおよび各仮説の相対的確率を決定するステップを、参照染色体を使用することを必要としない方法を用いて行う。 This parental haplotype data can be used to determine whether the fetus has inherited the parental haplotypes. In some embodiments, a nucleic acid sample containing maternal DNA from the mother of the fetus and fetal DNA from the fetus is analyzed using a SNP array to detect at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 distinct polymorphic loci. In some embodiments, a nucleic acid sample containing maternal DNA from the mother of the fetus and fetal DNA from the fetus is analyzed by contacting the sample with a primer library that simultaneously hybridizes to at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different polymorphic loci (e.g., SNPs) to generate a reaction mixture. In some embodiments, the reaction mixture is subjected to primer extension reaction conditions to generate an amplification product. In some embodiments, the amplification product is measured in a high-throughput sequencer to generate sequencing data. In various embodiments, the SNP array or sequencing data is used to determine parental haplotypes by modeling the dependency between polymorphic alleles on a chromosome using data on chromosomal crossover probability at various sites in the chromosome (e.g., by using recombination data such as can be found in the HapMap database to generate a recombination risk score for any interval). In some embodiments, the allele counts at the polymorphic loci are computed based on the sequencing data. In some embodiments, multiple ploidy hypotheses for different possible chromosomal ploidy states are computed, a model (e.g., a joint distribution model) for the expected allele counts at the polymorphic loci on the chromosome is computed for each ploidy hypothesis, the relative probability of each ploidy hypothesis is computed using the joint distribution model and the allele counts, and the ploidy state of the fetus is called by selecting the ploidy state corresponding to the hypothesis with the greatest probability. In some embodiments, the steps of constructing a joint distribution model for the allele counts and determining the relative probability of each hypothesis are performed using a method that does not require the use of a reference chromosome.

いくつかの実施形態では、胎児のハプロタイプが、染色体13、18、21、X、およびYからなる群より選択される1個または複数個の染色体に対し決定される。いくつかの実施形態では、胎児のハプロタイプは、全ての胎児染色体に対し決定される。種々の実施形態では、前記方法は、実質的に胎児の全ゲノムを決定する。いくつかの実施形態では、ハプロタイプは、少なくとも30、40、50、60、70、80、90、または95%の胎児のゲノムに対し決定される。いくつかの実施形態では、胎児のハプロタイプ決定は、少なくとも1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;または100,000個の異なる多形遺伝子座に対しどの対立遺伝子が存在するかに関する情報を含む。 In some embodiments, fetal haplotypes are determined for one or more chromosomes selected from the group consisting of chromosomes 13, 18, 21, X, and Y. In some embodiments, fetal haplotypes are determined for all fetal chromosomes. In various embodiments, the method determines substantially the entire fetal genome. In some embodiments, haplotypes are determined for at least 30, 40, 50, 60, 70, 80, 90, or 95% of the fetal genome. In some embodiments, fetal haplotype determination includes information about which alleles are present for at least 1,000; 2,000; 5,000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; 50,000; 75,000; or 100,000 different polymorphic loci.

DNAの組成
胎児に関するゲノムの情報、例えば、胎児の倍数性状態を決定するために、胎児の血液と母系の血液の混合物について測定された配列決定データに対してインフォマティクス分析を実施する場合、対立遺伝子の集合における対立遺伝子分布を測定することが有利であり得る。残念ながら母系の血液試料の血漿において見いだされるDNA混合物から胎児の倍数性状態を決定することを試みる場合などの多くの場合、利用可能なDNAの量は、混合物において優良な忠実度で対立遺伝子分布を直接測定するためには十分でない。これらの場合には、DNA混合物を増幅することにより、所望の対立遺伝子分布を優良な忠実度で測定することができる十分な数のDNA分子がもたらされる。しかし、配列決定するためのDNAの増幅に一般に用いられる増幅の現行の方法は、多くの場合、非常に偏りがある、つまり、多型遺伝子座の両方の対立遺伝子が同じ量で増幅されない。偏りのある増幅の結果、元の混合物における対立遺伝子分布とかなり異なる対立遺伝子分布がもたらされ得る。ほとんどの目的のためには、多型遺伝子座に存在する対立遺伝子の相対的な量を非常に正確に測定することは必要とされない。対照的に、本開示のある実施形態では、多型対立遺伝子を特異的に富化し、対立遺伝子の比を保存する増幅または富化方法は有利である。
Composition of DNA When performing informatics analysis on sequencing data measured on a mixture of fetal and maternal blood to determine genomic information about the fetus, for example the ploidy state of the fetus, it may be advantageous to measure the allele distribution in the set of alleles. Unfortunately, in many cases, such as when attempting to determine the ploidy state of the fetus from the DNA mixture found in the plasma of a maternal blood sample, the amount of DNA available is not sufficient to directly measure the allele distribution in the mixture with good fidelity. In these cases, amplifying the DNA mixture provides a sufficient number of DNA molecules that can measure the desired allele distribution with good fidelity. However, current methods of amplification commonly used to amplify DNA for sequencing are often highly biased, i.e., both alleles of a polymorphic locus are not amplified in the same amount. Biased amplification can result in an allele distribution that is significantly different from the allele distribution in the original mixture. For most purposes, it is not necessary to measure the relative amounts of alleles present at a polymorphic locus very accurately. In contrast, in certain embodiments of the present disclosure, amplification or enrichment methods that specifically enrich for polymorphic alleles and preserve the ratio of alleles are advantageous.

対立遺伝子の偏りが最小限になるようにDNAの試料を複数の遺伝子座で優先的に富化するために用いることができるいくつもの方法が本明細書に記載されている。いくつかの例では、複数の遺伝子座を標的とするために環状化プローブを使用し、環状化前プローブの3’末端および5’末端が、標的の対立遺伝子の多型部位から1つまたは少数の位置離れた塩基とハイブリダイズするように設計されている。別の例は、3’末端PCRプローブが標的の対立遺伝子の多型部位から1つまたは少数の位置離れた塩基とハイブリダイズするように設計されているPCRプローブを使用するというものである。別の例は、スプリットアンドプール手法を用いて、優先的に富化された遺伝子座が、対立遺伝子の偏りが少なく、直接的な多重化の欠点を伴わずに富化されているDNAの混合物を作製するというものである。別の例は、標的の多型部位に隣接しているDNAとハイブリダイズするように設計されている捕捉プローブの領域が、多型部位と1つまたは少数の塩基で隔てられるように捕捉プローブが設計されているハイブリッド捕捉手法を用いるというものである。 Described herein are a number of methods that can be used to preferentially enrich a sample of DNA at multiple loci with minimal allelic bias. In some examples, circularization probes are used to target multiple loci, and the 3' and 5' ends of the pre-circularization probe are designed to hybridize to bases one or a few positions away from the polymorphic site of the targeted allele. Another example is to use PCR probes where the 3' end PCR probe is designed to hybridize to bases one or a few positions away from the polymorphic site of the targeted allele. Another example is to use a split-and-pool approach to create a mixture of DNA where the preferentially enriched loci are enriched with less allelic bias and without the drawbacks of direct multiplexing. Another example is to use a hybrid capture approach where the capture probe is designed such that the region of the capture probe designed to hybridize to DNA adjacent to the targeted polymorphic site is separated from the polymorphic site by one or a few bases.

多型遺伝子座の集合における測定された対立遺伝子分布を使用して個体の倍数性状態を決定する場合には、遺伝子測定のためにDNAの試料が調製されるとき該DNA試料における対立遺伝子の相対的な量を保存することが望ましい。この調製は、WGA増幅、標的化増幅、選択的富化技法、ハイブリッド捕捉法、環状化プローブまたはDNAの量を増幅し、かつ/または特定の対立遺伝子に対応するDNA分子の存在を選択的に増強することを意図した他の方法を包含し得る。 When using the measured allele distribution at a set of polymorphic loci to determine the ploidy state of an individual, it is desirable to preserve the relative abundance of alleles in a DNA sample when the sample is prepared for genetic measurement. This preparation may involve WGA amplification, targeted amplification, selective enrichment techniques, hybrid capture methods, circularization probes, or other methods intended to amplify the amount of DNA and/or selectively enhance the presence of DNA molecules corresponding to specific alleles.

本開示のいくつかの実施形態では、マイナー対立遺伝子頻度が最大である遺伝子座を標的とするように設計されたDNAプローブの集合が存在する。本開示のいくつかの実施形態では、胎児がそれらの遺伝子座において情報価値が高いSNPを有する尤度が最大である遺伝子座を標的とするように設計されたプローブの集合が存在する。本開示のいくつかの実施形態では、プローブが所与の母集団サブグループに対して最適化された遺伝子座を標的とするように設計されたプローブの集合が存在する。本開示のいくつかの実施形態では、プローブが母集団サブグループの所与の混合物に対して最適化された遺伝子座を標的とするように設計されたプローブの集合が存在する。本開示のいくつかの実施形態では、プローブが、異なるマイナー対立遺伝子頻度プロファイルを有する異なる母集団サブグループに由来する所与の親の対に対して最適化された遺伝子座を標的とするように設計されたプローブの集合が存在する。本開示のいくつかの実施形態では、胎児起源のDNAの一部分とアニーリングした少なくとも1つの塩基対を含む環状化DNA鎖が存在する。本開示のいくつかの実施形態では、胎盤起源のDNAの一部分とアニーリングした少なくとも1つの塩基対を含む環状化DNA鎖が存在する。本開示のいくつかの実施形態では、環状化し、その一方でヌクレオチドの少なくとも一部が胎児起源のDNAとアニーリングした環状化DNA鎖が存在する。本開示のいくつかの実施形態では、環状化し、その一方でヌクレオチドの少なくとも一部が胎盤起源のDNAとアニーリングした環状化DNA鎖が存在する。本開示のいくつかの実施形態では、いくつかが単一のタンデム反復を標的とし、いくつかが一塩基多型を標的とするプローブの集合が存在する。いくつかの実施形態では、非侵襲的な出生前診断のために遺伝子座を選択する。いくつかの実施形態では、非侵襲的な出生前診断のためにプローブを使用する。いくつかの実施形態では、環状化プローブ、MIP、ハイブリダイゼーションプローブによる捕捉、SNPアレイ上のプローブ、またはそれらの組み合わせを含んでよい方法を用いて遺伝子座を標的とする。いくつかの実施形態では、プローブを環状化プローブ、MIP、ハイブリダイゼーションプローブによる捕捉、SNPアレイ上のプローブ、またはそれらの組み合わせとして使用する。いくつかの実施形態では、非侵襲的な出生前診断のために遺伝子座について配列決定する。 In some embodiments of the present disclosure, there is a set of DNA probes designed to target loci with the highest minor allele frequency. In some embodiments of the present disclosure, there is a set of probes designed to target loci with the highest likelihood that the fetus has an informative SNP at those loci. In some embodiments of the present disclosure, there is a set of probes designed to target loci optimized for a given population subgroup. In some embodiments of the present disclosure, there is a set of probes designed to target loci optimized for a given mixture of population subgroups. In some embodiments of the present disclosure, there is a set of probes designed to target loci optimized for a given pair of parents from different population subgroups with different minor allele frequency profiles. In some embodiments of the present disclosure, there is a circularized DNA strand that includes at least one base pair annealed to a portion of DNA of fetal origin. In some embodiments of the present disclosure, there is a circularized DNA strand that includes at least one base pair annealed to a portion of DNA of placental origin. In some embodiments of the present disclosure, there is a circularized DNA strand that has been circularized while at least some of the nucleotides are annealed to DNA of fetal origin. In some embodiments of the present disclosure, there is a circularized DNA strand that has been circularized while at least some of the nucleotides are annealed to DNA of placental origin. In some embodiments of the present disclosure, there is a collection of probes, some of which target single tandem repeats and some of which target single nucleotide polymorphisms. In some embodiments, a locus is selected for non-invasive prenatal diagnosis. In some embodiments, a probe is used for non-invasive prenatal diagnosis. In some embodiments, a locus is targeted using a method that may include a circularization probe, a MIP, capture with a hybridization probe, a probe on a SNP array, or a combination thereof. In some embodiments, a probe is used as a circularization probe, a MIP, capture with a hybridization probe, a probe on a SNP array, or a combination thereof. In some embodiments, a locus is sequenced for non-invasive prenatal diagnosis.

配列の相対的(relative)情報価値が、関連する親の状況と組み合わせるとより大きくなる場合には、親の状況が既知であるSNPを含有するシーケンスリード数を最大にすることにより、混合試料についてのシーケンシングリードの集合の情報価値が最大になり得る。ある実施形態では、親の状況が既知であるSNPを含有するシーケンスリード数は、qPCRを用いて特定の配列を優先的に増幅することによって増強することができる。ある実施形態では、親の状況が既知であるSNPを含有するシーケンスリード数を、環状化プローブ(例えば、MIP)を用いて特定の配列を優先的に増幅することによって増強することができる。ある実施形態では、親の状況が既知であるSNPを含有するシーケンスリード数を、ハイブリダイゼーション法による捕捉(例えば、SURESELECT)を用いて特定の配列を優先的に増幅することによって増強することができる。異なる方法を用いて、親の状況が既知であるSNPを含有するシーケンスリード数を増強することができる。ある実施形態では、標的化は、伸長ライゲーション、伸長を伴わないライゲーション、ハイブリダイゼーションによる捕捉またはPCRによって実現することができる。 In some embodiments, the number of sequence reads containing SNPs with known parental context can be increased by preferentially amplifying specific sequences using qPCR, where the relative informativeness of the sequence is greater when combined with the relevant parental context. In some embodiments, the number of sequence reads containing SNPs with known parental context can be increased by preferentially amplifying specific sequences using circularization probes (e.g., MIPs). In some embodiments, the number of sequence reads containing SNPs with known parental context can be increased by preferentially amplifying specific sequences using capture by hybridization (e.g., SURESELECT). Different methods can be used to increase the number of sequence reads containing SNPs with known parental context. In some embodiments, targeting can be achieved by extension ligation, ligation without extension, capture by hybridization, or PCR.

断片化されたゲノムDNAの試料において、DNA配列のある一部分(fraction)が個々の染色体に独自にマッピングされ、他のDNA配列は異なる染色体上に見いだされる。血漿中に見いだされるDNAは、母体起源であろうと胎児起源であろうと、一般には、多くの場合、500bpを下回る長さに断片化されていることに留意されたい。典型的なゲノム試料では、マッピング可能な配列のおよそ3.3%が第13染色体にマッピングされ、マッピング可能な配列の2.2%が第18染色体にマッピングされ、マッピング可能な配列の1.35%が第21染色体にマッピングされ、女性ではマッピング可能な配列の4.5%がX染色体にマッピングされ、マッピング可能な配列の2.25%がX染色体にマッピングされ(男性では)、マッピング可能な配列の0.73%がY染色体にマッピングされる(男性では)。これらは胎児において異数性である可能性が最も高い染色体である。また、dbSNPに含まれるSNPを使用すると、短い配列の中では20配列のうちおよそ1つがSNPを含有する。この割合は、発見されていない多くのSNPが存在し得るとすれば、より高くなり得る。 In a sample of fragmented genomic DNA, a fraction of the DNA sequence maps uniquely to an individual chromosome, while other DNA sequences are found on different chromosomes. It should be noted that DNA found in plasma, whether of maternal or fetal origin, is generally fragmented to lengths often less than 500 bp. In a typical genomic sample, approximately 3.3% of the mappable sequences map to chromosome 13, 2.2% of the mappable sequences map to chromosome 18, 1.35% of the mappable sequences map to chromosome 21, 4.5% of the mappable sequences map to the X chromosome in females, 2.25% of the mappable sequences map to the X chromosome in males, and 0.73% of the mappable sequences map to the Y chromosome in males. These are the chromosomes most likely to be aneuploid in the fetus. Also, using the SNPs contained in dbSNP, approximately 1 in 20 sequences in short sequences contain a SNP. This percentage could be even higher, given that there may be many SNPs that remain to be discovered.

本開示のある実施形態では、標的化方法を用いて、所与の染色体にマッピングされるDNAの試料中のDNAの一部分を、その一部分が、上に列挙されているゲノム試料に典型的な百分率を有意に超えるように増強することができる。本開示のある実施形態では、標的化方法を用いて、DNAの試料中のDNAの一部分を、SNPを含有する配列の百分率が、ゲノム試料に典型的に見出され得る百分率を有意に超えるように増強することができる。本開示のある実施形態では、出生前診断のために、標的化方法を用いて、母系DNAと胎児DNAの混合物中の染色体由来のDNAまたはSNPの集合由来のDNAを標的とすることができる。 In certain embodiments of the present disclosure, the targeting method can be used to enhance the portion of DNA in a sample of DNA that maps to a given chromosome such that the portion significantly exceeds the percentages typical of genomic samples listed above. In certain embodiments of the present disclosure, the targeting method can be used to enhance the portion of DNA in a sample of DNA such that the percentage of sequences that contain SNPs significantly exceeds the percentages that might typically be found in a genomic sample. In certain embodiments of the present disclosure, the targeting method can be used to target DNA from chromosomes or sets of SNPs in a mixture of maternal and fetal DNA for prenatal diagnosis.

疑わしい染色体にマッピングされるリード数を計数し、それを、参照染色体にマッピングされるリード数と比較し、疑わしい染色体上のリードの存在量が過剰であることは、その染色体における胎児の三倍体性に対応するという仮定を用いることによって胎児の異数性を決定するための方法が報告されていることに留意されたい(米国特許第7,888,017号)。これらの出生前診断のための方法では、いかなる種類の標的化も使用されず、また、出生前診断のための標的化の使用については記載されていない。 It should be noted that methods have been reported for determining fetal aneuploidy by counting the number of reads that map to a suspect chromosome and comparing it to the number of reads that map to a reference chromosome, with the assumption that an excess of reads on a suspect chromosome corresponds to fetal triploidy at that chromosome (U.S. Pat. No. 7,888,017). These methods for prenatal diagnosis do not use any kind of targeting, and the use of targeting for prenatal diagnosis is not described.

混合試料の配列決定において標的化手法を用いることにより、少ないシーケンスリードを用いて特定のレベルの正確度を実現することが可能であり得る。正確度とは感度を指す場合があり、正確度とは特異度を指す場合があり、または正確度はそのいくつかの組み合わせを指す場合がある。正確度の所望のレベルは、90%から95%の間であってもよく、正確度の所望のレベルは、95%から98%の間であってもよく、正確度の所望のレベルは、98%から99%の間であってもよく、正確度の所望のレベルは、99%から99.5%の間であってもよく、正確度の所望のレベルは、99.5%から99.9%の間であってもよく、正確度の所望のレベルは、99.9%から99.99%の間であってもよく、正確度の所望のレベルは、99.99%から99.999%の間であってもよく、正確度の所望のレベルは、99.999%から100%の間であってもよい。95%を上回る正確度のレベルを、高い正確度と称することができる。 By using targeted approaches in sequencing mixed samples, it may be possible to achieve a certain level of accuracy using fewer sequence reads. Accuracy may refer to sensitivity, accuracy may refer to specificity, or accuracy may refer to some combination thereof. The desired level of accuracy may be between 90% and 95%, the desired level of accuracy may be between 95% and 98%, the desired level of accuracy may be between 98% and 99%, the desired level of accuracy may be between 99% and 99.5%, the desired level of accuracy may be between 99.5% and 99.9%, the desired level of accuracy may be between 99.9% and 99.99%, the desired level of accuracy may be between 99.99% and 99.999%, and the desired level of accuracy may be between 99.999% and 100%. A level of accuracy greater than 95% may be referred to as high accuracy.

母系DNAと胎児DNAの混合試料からどのように胎児の倍数性状態を決定することができるかについて実証している、いくつもの公開された先行技術の方法、例えば:G.J. W. LiaoらClinical Chemistry 2011年;57巻(1号)92~101頁が存在する。これらの方法は、各染色体に沿った数千もの場所に焦点を当てる。標的とすることができ、一方ではNAの混合試料から、所与の数のシーケンスリードについて、胎児における倍数性の決定を高い正確度でもたらす染色体に沿った場所の数は予想外に少ない。本開示のある実施形態では、任意の標的化の方法、例えば、qPCR、リガンド媒介性PCR、他のPCR法、ハイブリダイゼーションによる捕捉または環状化プローブを用いた標的化配列決定を用いることによって正確な倍数性の決定を行うことができ、ここで、標的とする必要がある染色体に沿った遺伝子座の数は、5,000個から2,000個の間の遺伝子座であってもよく、2,000個から1,000個の間の遺伝子座であってもよく、1,000個から500個の間の遺伝子座であってもよく、500個から300個の間の遺伝子座であってもよく、300個から200個の間の遺伝子座であってもよく、200個から150個の間の遺伝子座であってもよく、150個から100個の間の遺伝子座であってもよく、100個から50個の間の遺伝子座であってもよく、50個から20個の間の遺伝子座であってもよく、20個から10個の間の遺伝子座であってもよい。最適には、標的とする必要がある染色体に沿った遺伝子座の数は、100個から500個の間の遺伝子座であり得る。高レベルの正確度は、少数の遺伝子座を標的とし予想外に少数のシーケンスリードを実行することによって実現することができる。リード数は、1億個から5000万個の間のリードであってもよく、リード数は、5000万個から2000万個の間のリードであってもよく、リード数は、2000万個から1000万個の間のリードであってもよく、リード数は、1000万個から500万個の間のリードであってもよく、リード数は、500万個から200万個の間のリードであってもよく、リード数は、200万個から100万個の間であってもよい;リード数は、100万個から500,000個の間であってもよい;リード数は、500,000個から200,000個の間であってもよく、リード数は、200,000個から100,000個の間であってもよく、リード数は、100,000個から50,000個の間であってもよく、リード数は、50,000個から20,000個の間であってもよく、リード数は、20,000個から10,000個の間であってもよく、リード数は、10,000個未満であってもよい。より大量の入力DNAに対してはより少数のリードが必要である。 There are several published prior art methods that demonstrate how fetal ploidy status can be determined from a mixed sample of maternal and fetal DNA, e.g., G. J. W. Liao et al. Clinical Chemistry 2011; 57(1) 92-101. These methods focus on thousands of locations along each chromosome. While the number of locations along chromosomes that can be targeted and, from a mixed sample of NA, yields high accuracy in determining ploidy in the fetus for a given number of sequence reads, is unexpectedly low. In an embodiment of the present disclosure, accurate ploidy determination can be performed by using any targeted method, such as qPCR, ligand-mediated PCR, other PCR methods, hybridization capture or targeted sequencing using circularization probes, where the number of loci along a chromosome that need to be targeted can be between 5,000 and 2,000 loci, between 2,000 and 1,000 loci, between 1,000 and 500 loci, between 500 and 300 loci, between 300 and 200 loci, between 200 and 150 loci, between 150 and 100 loci, between 100 and 50 loci, between 50 and 20 loci, between 20 and 10 loci. Optimally, the number of loci along a chromosome that need to be targeted can be between 100 and 500 loci. A high level of accuracy can be achieved by targeting a small number of loci and performing an unexpectedly small number of sequence reads. The number of reads may be between 100 million and 50 million reads, the number of reads may be between 50 million and 20 million reads, the number of reads may be between 20 million and 10 million reads, the number of reads may be between 10 million and 5 million reads, the number of reads may be between 5 million and 2 million reads, the number of reads may be between 2 million and 1 million; the number of reads may be between 1 million and 500,000; the number of reads may be between 500,000 and 200,000, the number of reads may be between 200,000 and 100,000, the number of reads may be between 100,000 and 50,000, the number of reads may be between 50,000 and 20,000, the number of reads may be between 20,000 and 10,000, the number of reads may be less than 10,000. Fewer reads are needed for larger amounts of input DNA.

いくつかの実施形態では、胎児起源のDNAと母体起源のDNAの混合物を含む組成物であって、第13染色体に独自にマッピングされる配列のパーセントが4%超、5%超、6%超、7%超、8%超、9%超、10%超、12%超、15%超、20%超、25%超または30%超である組成物が存在する。本開示のいくつかの実施形態では、胎児起源のDNAと母体起源のDNAの混合物を含む組成物であって、第18染色体に独自にマッピングされる配列のパーセントが3%超、4%超、5%超、6%超、7%超、8%超、9%超、10%超、12%超、15%超、20%超、25%超または30%超である組成物が存在する。本開示のいくつかの実施形態では、胎児起源のDNAと母体起源のDNAの混合物を含む組成物であって、第21染色体に独自にマッピングされる配列のパーセントが2%超、3%超、4%超、5%超、6%超、7%超、8%超、9%超、10%超、12%超、15%超、20%超、25%超または30%超である組成物が存在する。本開示のいくつかの実施形態では、胎児起源のDNAと母体起源のDNAの混合物を含む組成物であって、独自にX染色体にマッピングされる配列のパーセントが6%超、7%超、8%超、9%超、10%超、12%超、15%超、20%超、25%超または30%超である組成物が存在する。本開示のいくつかの実施形態では、胎児起源のDNAと母体起源のDNAの混合物を含む組成物であって、独自にY染色体にマッピングされる配列のパーセントが1%超、2%超、3%超、4%超、5%超、6%超、7%超、8%超、9%超、10%超、12%超、15%超、20%超、25%超または30%超である組成物が存在する。 In some embodiments, there are compositions comprising a mixture of DNA of fetal and maternal origin, where the percentage of sequences uniquely mapping to chromosome 13 is greater than 4%, greater than 5%, greater than 6%, greater than 7%, greater than 8%, greater than 9%, greater than 10%, greater than 12%, greater than 15%, greater than 20%, greater than 25%, or greater than 30%. In some embodiments of the present disclosure, there are compositions comprising a mixture of DNA of fetal and maternal origin, where the percentage of sequences uniquely mapping to chromosome 18 is greater than 3%, greater than 4%, greater than 5%, greater than 6%, greater than 7%, greater than 8%, greater than 9%, greater than 10%, greater than 12%, greater than 15%, greater than 20%, greater than 25%, or greater than 30%. In some embodiments of the present disclosure, there are compositions comprising a mixture of DNA of fetal and maternal origin, where the percentage of sequences uniquely mapping to chromosome 21 is greater than 2%, greater than 3%, greater than 4%, greater than 5%, greater than 6%, greater than 7%, greater than 8%, greater than 9%, greater than 10%, greater than 12%, greater than 15%, greater than 20%, greater than 25%, or greater than 30%. In some embodiments of the present disclosure, there are compositions comprising a mixture of DNA of fetal and maternal origin, where the percentage of sequences uniquely mapping to chromosome X is greater than 6%, greater than 7%, greater than 8%, greater than 9%, greater than 10%, greater than 12%, greater than 15%, greater than 20%, greater than 25%, or greater than 30%. In some embodiments of the present disclosure, there are compositions that include a mixture of DNA of fetal and maternal origin, where the percentage of sequences that uniquely map to the Y chromosome is greater than 1%, greater than 2%, greater than 3%, greater than 4%, greater than 5%, greater than 6%, greater than 7%, greater than 8%, greater than 9%, greater than 10%, greater than 12%, greater than 15%, greater than 20%, greater than 25%, or greater than 30%.

いくつかの実施形態では、組成物は、胎児起源のDNAと母体起源のDNAの混合物を含むと記載され、ある染色体に独自にマッピングされ少なくとも1つの一塩基多型を含有する配列のパーセントは、0.2%超、0.3%超、0.4%超、0.5%超、0.6%超、0.7%超、0.8%超、0.9%超、1%超、1.2%超、1.4%超、1.6%超、1.8%超、2%超、2.5%超、3%超、4%超、5%超、6%超、7%超、8%超、9%超、10%超、12%超、15%超または20%超であり、染色体は13、18、21、XまたはYの群から選択される。本開示のいくつかの実施形態では、胎児起源のDNAと母体起源のDNAの混合物を含む組成物であって、ある染色体に独自にマッピングされ一塩基多型の集合からの少なくとも1つの一塩基多型を含有する配列のパーセントは0.15%超、0.2%超、0.3%超、0.4%超、0.5%超、0.6%超、0.7%超、0.8%超、0.9%超、1%超、1.2%超、1.4%超、1.6%超、1.8%超、2%超、2.5%超、3%超、4%超、5%超、6%超、7%超、8%超、9%超、10%超、12%超、15%超または20%超であり、染色体は第13染色体、第18染色体、第21染色体、X染色体およびY染色体の集合から選択され、一塩基多型の集合内の一塩基多型の数は、1個から10個の間、10個から20個の間、20個から50個の間、50個から100個の間、100個から200個の間、200個から500個の間、500個から1,000個の間、1,000個から2,000個の間、2,000個から5,000個の間、5,000個から10,000個の間、10,000個から20,000個の間、20,000個から50,000個の間、および50,000個から100,000個の間である組成物が存在する。 In some embodiments, the composition is described as comprising a mixture of DNA of fetal and maternal origin, wherein the percentage of sequences uniquely mapping to a chromosome and containing at least one single nucleotide polymorphism is greater than 0.2%, greater than 0.3%, greater than 0.4%, greater than 0.5%, greater than 0.6%, greater than 0.7%, greater than 0.8%, greater than 0.9%, greater than 1%, greater than 1.2%, greater than 1.4%, greater than 1.6%, greater than 1.8%, greater than 2%, greater than 2.5%, greater than 3%, greater than 4%, greater than 5%, greater than 6%, greater than 7%, greater than 8%, greater than 9%, greater than 10%, greater than 12%, greater than 15%, or greater than 20%, and the chromosome is selected from the group of 13, 18, 21, X, or Y. In some embodiments of the present disclosure, a composition comprises a mixture of DNA of fetal and maternal origin, wherein the percentage of sequences that uniquely map to a chromosome and contain at least one single nucleotide polymorphism from a set of single nucleotide polymorphisms is greater than 0.15%, greater than 0.2%, greater than 0.3%, greater than 0.4%, greater than 0.5%, greater than 0.6%, greater than 0.7%, greater than 0.8%, greater than 0.9%, greater than 1%, greater than 1.2%, greater than 1.4%, greater than 1.6%, greater than 1.8%, greater than 2%, greater than 2.5%, greater than 3%, greater than 4%, greater than 5%, greater than 6%, greater than 7%, greater than 8%, greater than 9%, greater than 10%, greater than 12%, greater than 15%, or greater than 20%, and the chromosomes are chromosomes 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 8 There are compositions selected from the set of chromosomes 8, 21, X and Y, in which the number of single nucleotide polymorphisms in the set of single nucleotide polymorphisms is between 1 and 10, between 10 and 20, between 20 and 50, between 50 and 100, between 100 and 200, between 200 and 500, between 500 and 1,000, between 1,000 and 2,000, between 2,000 and 5,000, between 5,000 and 10,000, between 10,000 and 20,000, between 20,000 and 50,000, and between 50,000 and 100,000.

理論上は、増幅の各サイクルにより、存在するDNAの量が倍増するが、実際には、増幅の程度は2倍よりわずかに低い。理論上は、標的化増幅を含めた増幅により、偏りのないDNA混合物の増幅がもたらされるが、実際には、異なる対立遺伝子は他の対立遺伝子と異なる程度で増幅される傾向がある。DNAを増幅する場合、対立遺伝子の偏りの程度は、一般には増幅ステップの数に伴って上昇する。いくつかの実施形態では、本明細書に記載の方法は、低レベルの対立遺伝子の偏りでDNAを増幅するステップを包含する。対立遺伝子の偏りはさらに別のサイクルのそれぞれで複合されるので、全体的な偏りのn乗根を算出することによってサイクル当たりの対立遺伝子の偏りを決定することができ、ここで、nは富化の程度の、底を2とする対数である。いくつかの実施形態では、第2のDNAの混合物を含む組成物が存在し、該第2のDNAの混合物は、第1のDNAの混合物からの複数の多型遺伝子座に優先的に富化されており、富化の程度は、少なくとも10、少なくとも100、少なくとも1,000、少なくとも10,000、少なくとも100,000または少なくとも1,000,000であり、第2のDNAの混合物での各遺伝子座における対立遺伝子の比は、第1のDNAの混合物でのその遺伝子座における対立遺伝子の比とは、平均で、1,000%未満、500%、200%、100%、50%、20%、10%、5%、2%、1%、0.5%、0.2%、0.1%、0.05%、0.02%または0.01%の係数だけ異なる。いくつかの実施形態では、第2のDNAの混合物を含む組成物が存在し、第2のDNAの混合物は、第1のDNAの混合物からの複数の多型遺伝子座に優先的に富化されており、ここで、サイクル当たりの複数の多型遺伝子座についての対立遺伝子の偏りは、平均で、10%未満、5%、2%、1%、0.5%、0.2%、0.1%、0.05%または0.02%である。いくつかの実施形態では、複数の多型遺伝子座は、少なくとも10個の遺伝子座、少なくとも20個の遺伝子座、少なくとも50個の遺伝子座、少なくとも100個の遺伝子座、少なくとも200個の遺伝子座、少なくとも500個の遺伝子座、少なくとも1,000個の遺伝子座、少なくとも2,000個の遺伝子座、少なくとも5,000個の遺伝子座、少なくとも10,000個の遺伝子座、少なくとも20,000個の遺伝子座、または少なくとも50,000個の遺伝子座を含む。 In theory, each cycle of amplification doubles the amount of DNA present, but in practice, the degree of amplification is slightly less than two-fold. In theory, amplification, including targeted amplification, results in the amplification of an unbiased DNA mixture, but in practice, different alleles tend to be amplified to different degrees than other alleles. When amplifying DNA, the degree of allelic bias generally increases with the number of amplification steps. In some embodiments, the methods described herein include amplifying DNA with a low level of allelic bias. Since the allelic bias is compounded with each additional cycle, the allelic bias per cycle can be determined by calculating the n-th root of the overall bias, where n is the logarithm to the base 2 of the degree of enrichment. In some embodiments there is a composition comprising a second mixture of DNA, wherein the second mixture of DNA is preferentially enriched at a plurality of polymorphic loci from the first mixture of DNA, where the degree of enrichment is at least 10, at least 100, at least 1,000, at least 10,000, at least 100,000, or at least 1,000,000, and wherein the ratio of alleles at each locus in the second mixture of DNA differs, on average, from the ratio of alleles at that locus in the first mixture of DNA by a factor of less than 1,000%, 500%, 200%, 100%, 50%, 20%, 10%, 5%, 2%, 1%, 0.5%, 0.2%, 0.1%, 0.05%, 0.02%, or 0.01%. In some embodiments, there is a composition comprising a second mixture of DNA, the second mixture of DNA being preferentially enriched for a plurality of polymorphic loci from the first mixture of DNA, and wherein the allelic bias for the plurality of polymorphic loci per cycle is, on average, less than 10%, 5%, 2%, 1%, 0.5%, 0.2%, 0.1%, 0.05%, or 0.02%. In some embodiments, the plurality of polymorphic loci comprises at least 10 loci, at least 20 loci, at least 50 loci, at least 100 loci, at least 200 loci, at least 500 loci, at least 1,000 loci, at least 2,000 loci, at least 5,000 loci, at least 10,000 loci, at least 20,000 loci, or at least 50,000 loci.

いくつかの実施形態
いくつかの実施形態では、妊娠中の胎児における染色体についての決定された倍数性の状態が開示されている報告を作製するための方法が本明細書に開示されており、前記方法は、胎児の母親由来のDNAおよび胎児由来のDNAを含有する第1の試料を得るステップと、胎児の一方の親または両親から遺伝子型データを得るステップと、調製された試料が得られるようにDNAを単離することによって第1の試料を調製するステップと、複数の多型遺伝子座において調製された試料中のDNAを測定するステップと、調製された試料に対して得たDNA測定値から、対立遺伝子数または複数の多型遺伝子座における対立遺伝子数の確率をコンピュータで算出するステップと、染色体における可能性のある異なる倍数性の状態について、染色体上の複数の多型遺伝子座における予測される対立遺伝子数の確率に関する、倍数性についての複数の仮説をコンピュータで作製するステップと、倍数性についての仮説のそれぞれについて、胎児の一方の親または両親からの遺伝子型データを使用して、染色体上の各多型遺伝子座の対立遺伝子数確率についての同時分布モデルをコンピュータで構築するステップと、調製された試料についての同時分布モデルおよび算出された対立遺伝子数の確率を用いて、倍数性についての仮説のそれぞれの相対的確率をコンピュータで決定するステップと、最大の確率を有する仮説に対応する倍数性の状態を選択することによって胎児の倍数性の状態をコールするステップと、決定された倍数性の状態が開示されている報告を作製するステップとを含む。
Some embodiments In some embodiments, disclosed herein is a method for generating a report disclosing determined ploidy states for chromosomes in a gestating fetus, the method comprising the steps of obtaining a first sample containing DNA from the mother of the fetus and DNA from the fetus, obtaining genotype data from one or both parents of the fetus, preparing the first sample by isolating the DNA to obtain a prepared sample, measuring the DNA in the prepared sample at a plurality of polymorphic loci, computing an allele count or allele count probability at a plurality of polymorphic loci from the DNA measurements obtained for the prepared sample, and performing staining for the different possible ploidy states of the chromosomes. The method includes generating, on a computer, a plurality of ploidy hypotheses regarding expected allele count probabilities at a plurality of polymorphic loci on the body; for each ploidy hypothesis, constructing, on a computer, a joint distribution model for the allele count probabilities at each polymorphic locus on the chromosome using genotype data from one or both parents of the fetus; determining, on a computer, the relative probability of each of the ploidy hypotheses using the joint distribution model and the calculated allele count probabilities for the prepared samples; calling the ploidy state of the fetus by selecting the ploidy state corresponding to the hypothesis with the greatest probability; and generating a report disclosing the determined ploidy states.

いくつかの実施形態では、前記方法を用いて、複数のそれぞれの母親における複数の妊娠中の胎児の倍数性の状態を決定し、前記方法は、調製された試料のそれぞれにおける胎児起源のDNAのパーセントを決定するステップをさらに含み、ここで、調製された試料中のDNAを測定するステップは、各調製された試料中のいくつものDNA分子についてシークエンシングによって行い、より大きな胎児DNAの画分を有する調製された試料よりも、より小さな胎児DNAの画分を有する調製された試料由来のDNA分子について多く配列決定する。 In some embodiments, the method is used to determine the ploidy state of multiple gestating fetuses in multiple respective mothers, the method further comprising determining the percent DNA of fetal origin in each of the prepared samples, where measuring the DNA in the prepared samples is performed by sequencing a number of DNA molecules in each prepared sample, sequencing more DNA molecules from prepared samples having smaller fractions of fetal DNA than prepared samples having larger fractions of fetal DNA.

いくつかの実施形態では、前記方法を用いて、複数のそれぞれの母親における複数の妊娠中の胎児の倍数性の状態を決定し、ここで、調製された試料中のDNAを測定するステップは、各胎児に対して、DNAの調製された試料の第1の画分について配列決定して第1の測定値の集合を得ることによって行い、前記方法は、第1のDNA測定値の集合を考慮して、各胎児の倍数性についての仮説のそれぞれに対して第1の相対的確率の決定を行うステップと、倍数性についての仮説のそれぞれに対する第1の相対的確率の決定が、異数体の胎児に対応する倍数性についての仮説が有意であるが決定的ではない確率を有することを示す、その胎児からの調製された試料の第2の画分について再び配列決定して、第2の測定値の集合を得るステップと、第2の測定値の集合および必要に応じて、第1の測定値の集合も使用して、胎児の倍数性についての仮説に対して第2の相対的確率の決定を行うステップと、第2の相対的確率の決定によって決定された通り最大の確率を有する仮説に対応する倍数性の状態を選択することによって第2の試料を再び配列決定した、その胎児の倍数性の状態をコールするステップとをさらに含む。 In some embodiments, the method is used to determine the ploidy state of a plurality of gestating fetuses in a plurality of respective mothers, wherein the step of measuring DNA in the prepared sample is performed by sequencing, for each fetus, a first fraction of the prepared sample of DNA to obtain a first set of measurements, and the method further comprises the steps of making a first relative probability determination for each of the hypotheses about the ploidy of each fetus given the first set of DNA measurements, and determining whether the first relative probability determination for each of the hypotheses about the ploidy is consistent with a ploidy corresponding to an aneuploid fetus. The method further includes resequencing a second fraction of the prepared sample from the fetus that indicates that the hypothesis about the ploidy has a significant but inconclusive probability to obtain a second set of measurements, making a second relative probability determination for the hypothesis about the ploidy of the fetus using the second set of measurements and, optionally, the first set of measurements, and calling the ploidy state of the fetus after resequencing the second sample by selecting the ploidy state corresponding to the hypothesis having the greatest probability as determined by the second relative probability determination.

いくつかの実施形態では、優先的に富化されたDNAの試料を含む組成物であって、優先的に富化されたDNAの試料が、第1のDNAの試料からの複数の多型遺伝子座において優先的に富化されており、第1のDNAの試料が母系の血漿に由来する母系DNAと胎児DNAの混合物からなり、富化の程度が少なくとも2倍であり、第1の試料と優先的に富化された試料の間の対立遺伝子の偏りが、平均で、2%未満、1%未満、0.5%未満、0.2%未満、0.1%未満、0.05%未満、0.02%未満、および0.01%未満からなる群から選択される組成物が開示されている。いくつかの実施形態では、そのような優先的に富化されたDNAの試料を作製するための方法が開示されている。 In some embodiments, a composition is disclosed that includes a preferentially enriched DNA sample, the preferentially enriched DNA sample being preferentially enriched at a plurality of polymorphic loci from a first DNA sample, the first DNA sample being comprised of a mixture of maternal and fetal DNA derived from maternal plasma, the degree of enrichment being at least two-fold, and the allelic bias between the first sample and the preferentially enriched sample being, on average, selected from the group consisting of less than 2%, less than 1%, less than 0.5%, less than 0.2%, less than 0.1%, less than 0.05%, less than 0.02%, and less than 0.01%. In some embodiments, a method for making such preferentially enriched DNA samples is disclosed.

いくつかの実施形態では、胎児のゲノムDNAおよび母系のゲノムDNAを含む母系の組織試料において胎児の異数性の存在または不在を決定するための方法であって、(a)前記母系の組織試料から、胎児のゲノムDNAと母系のゲノムDNAの混合物を得るステップと、(b)胎児DNAと母系DNAの混合物を複数の多型対立遺伝子において選択的に富化するステップと、(c)ステップaにおける胎児のゲノムDNAと母系のゲノムDNAの混合物から選択的に富化された断片を分布させて、単一のゲノムDNA分子または単一のゲノムDNA分子の増幅産物を含む反応試料をもたらすステップと、(d)ステップc)における反応試料中の選択的に富化されたゲノムDNAの断片についての大規模並行DNA配列決定を行って、前記選択的に富化された断片の配列を決定するステップと、(e)ステップd)において得られた配列が属する染色体を同定するステップと、(f)ステップd)からのデータを分析して、i)母親および胎児の両方において二倍体であると推測される、少なくとも1つの最初の標的の染色体に属する、ステップd)からのゲノムDNAの断片の数、およびii)胎児において異数体であることが疑われる第2の標的染色体に属する、ステップd)からのゲノムDNAの断片の数を決定するステップと、(g)第2の標的染色体が正倍数性である場合、第2の標的染色体について、ステップf)パートi)において決定された数を使用してステップd)からのゲノムDNAの断片の数の予測される分布を算出するステップと、(h)第2の標的染色体が異数体である場合、第2の標的染色体について、ステップf)パートi)である第1の数およびステップb)の混合物において見いだされる胎児DNAの推定される割合を用いてステップd)からのゲノムDNAの断片の数の予測される分布を算出するステップと、(i)最尤法または最大事後法を用いて、ステップf)パートii)において決定されたゲノムDNAの断片の数が、ステップg)で算出された分布またはステップh)で算出された分布のどちらの一部である可能性がより高いかを決定し、それにより、胎児の異数性の存在または不在を示すステップとを含む方法が開示されている。 In some embodiments, a method for determining the presence or absence of fetal aneuploidy in a maternal tissue sample comprising fetal genomic DNA and maternal genomic DNA, comprising: (a) obtaining a mixture of fetal and maternal genomic DNA from said maternal tissue sample; (b) selectively enriching the mixture of fetal and maternal DNA at a plurality of polymorphic alleles; (c) distributing the fragments selectively enriched from the mixture of fetal and maternal genomic DNA in step a to result in a reaction sample comprising single genomic DNA molecules or amplification products of single genomic DNA molecules; (d) performing massively parallel DNA sequencing on the fragments of genomic DNA selectively enriched in the reaction sample in step c) to determine the sequences of said selectively enriched fragments; (e) identifying the chromosomes to which the sequences obtained in step d) belong; and (f) analyzing the data from step d) to identify i) chromosomes belonging to at least one initial target chromosome suspected to be diploid in both the mother and the fetus, and The method includes the steps of: (g) calculating a predicted distribution of the number of fragments of genomic DNA from step d) using the number determined in step f) part i) for the second target chromosome if the second target chromosome is euploid; (h) calculating a predicted distribution of the number of fragments of genomic DNA from step d) using the first number, step f) part i), and the estimated proportion of fetal DNA found in the mixture of step b) for the second target chromosome if the second target chromosome is aneuploid; and (i) determining using a maximum likelihood or maximum a posteriori method whether the number of fragments of genomic DNA determined in step f) part ii) is more likely to be part of the distribution calculated in step g) or the distribution calculated in step h), thereby indicating the presence or absence of fetal aneuploidy.

代表的癌診断法
宿主において生存しているがんを起源とするDNAを、宿主の血液中に見いだすことができることが実証されていることに留意されたい。母系の血液中に見いだされる混合DNAを測定することによって遺伝子診断を行うことができるのと同様に、宿主血液中に見いだされる混合DNAを測定することによって同等に良好に遺伝子診断を行うことができる。遺伝子診断は、異数性状態または遺伝子変異を含み得る。母系の血液に対して行った測定からの胎児の倍数性状態または遺伝子の状態を決定することにおいて読み取る当該開示における任意の主張は、宿主血液に対する測定からがんの倍数性状態または遺伝子の状態を決定することにおいて、同等に良好に読み取ることができる。
Representative Cancer Diagnostic Methods It is noted that it has been demonstrated that DNA originating from a cancer surviving in a host can be found in the blood of the host. Just as genetic diagnosis can be performed by measuring the mixed DNA found in maternal blood, genetic diagnosis can equally well be performed by measuring the mixed DNA found in host blood. Genetic diagnosis can include aneuploidy status or genetic mutation. Any claims in the present disclosure that read on determining the ploidy status or genetic status of a fetus from measurements made on maternal blood can equally well be read on determining the ploidy status or genetic status of a cancer from measurements made on host blood.

いくつかの実施形態では、本開示の方法により、がんの倍数性状態を決定することが可能になり、前記方法は、宿主由来の遺伝物質を含有する混合試料、およびがん由来の遺伝物質を得るステップと、混合試料中のDNAを測定するステップと、混合試料中のがん起源のDNAの割合を算出するステップと、混合試料に対して得た測定値および算出された割合を用いてがんの倍数性状態を決定するステップとを含む。いくつかの実施形態では、前記方法は、がんの倍数性状態の決定に基づいてがん治療を施すステップをさらに含んでよい。いくつかの実施形態では、前記方法は、がんの倍数性状態の決定に基づいてがん治療を施すステップをさらに含んでよく、がん治療は、医薬品、生物学的治療薬、および抗体に基づく治療およびそれらの組み合わせを含む群から選択される。 In some embodiments, the disclosed method allows for the determination of the ploidy state of a cancer, the method comprising obtaining a mixed sample containing genetic material from a host and genetic material from a cancer, measuring DNA in the mixed sample, calculating the percentage of DNA of cancer origin in the mixed sample, and determining the ploidy state of the cancer using the measurements obtained for the mixed sample and the calculated percentage. In some embodiments, the method may further comprise administering a cancer treatment based on the determination of the ploidy state of the cancer. In some embodiments, the method may further comprise administering a cancer treatment based on the determination of the ploidy state of the cancer, the cancer treatment being selected from the group including pharmaceuticals, biological therapeutics, and antibody-based therapies and combinations thereof.

代表的実装方法
本明細書に開示されている実施形態はいずれも、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアにおいて、またはそれらの組み合わせにおいて実行することができる。ここで開示されている実施形態の装置は、プログラム可能なプロセッサによって実行するための機械可読記憶デバイスに実体的に具体化されたコンピュータプログラム産物において実行することができ、ここで開示されている実施形態の方法のステップは、入力データを操作し、出力を生成することによってここで開示されている実施形態の機能を実施するための命令のプログラムを実行するプログラム可能なプロセッサによって実施することができる。ここで開示されている実施形態は、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムにおいて実行可能かつ/または解釈可能な1つまたは複数のコンピュータプログラムで有利に実行することができ、該少なくとも1つのプログラム可能なプロセッサは、特別または汎用であり得る、データおよび命令を受け、データおよび命令を伝達するための記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスと連結している。各コンピュータプログラムは、所望であれば、高レベルの手続き型のまたはオブジェクト指向のプログラミング言語で、またはアセンブリ言語または機械語で実装することができ、どんな場合でも、言語はコンパイラ型言語またはインタープリタ型言語であってよい。コンピュータプログラムは、独立型プログラムとして、またはモジュール、コンポーネント、サブルーチンまたはコンピュータ環境において使用するために適した他のユニットとしてのものを含めた、任意の形態で展開することができる。コンピュータプログラムは、1か所の、または複数か所にわたって分布した、および通信網により相互接続された1台のコンピュータまたは複数のコンピュータで実行または解釈されるように展開することができる。
Exemplary Implementation Methods Any of the embodiments disclosed herein may be implemented in digital electronic circuitry, integrated circuits, specially designed ASICs (Application Specific Integrated Circuits), computer hardware, firmware, software, or in combinations thereof. The apparatus of the presently disclosed embodiments may be implemented in a computer program product tangibly embodied in a machine-readable storage device for execution by a programmable processor, and the steps of the methods of the presently disclosed embodiments may be performed by the programmable processor executing a program of instructions for performing the functions of the presently disclosed embodiments by manipulating input data and generating output. The presently disclosed embodiments may be advantageously implemented in one or more computer programs executable and/or interpretable in a programmable system including at least one programmable processor in conjunction with a storage system for receiving and transmitting data and instructions, at least one input device, and at least one output device, which may be special or general purpose. Each computer program may be implemented in a high-level procedural or object-oriented programming language, or in assembly or machine language, if desired, and in any case the language may be a compiled or interpreted language. A computer program may be deployed in any form, including as a stand-alone program or as a module, component, subroutine, or other unit suitable for use in a computing environment. A computer program may be deployed to be executed or interpreted on one computer or on multiple computers at a single site or distributed across multiple sites and interconnected by a communications network.

コンピュータ可読の記憶媒体とは、本明細書で使用される場合、物理的なまたは有形の記憶装置(シグナルとは対照的に)を指し、これらに限定することなく、情報の有形の記憶装置、例えば、コンピュータ可読の命令、データ構造、プログラムモジュールまたは他のデータの任意の方法または技術において実装される揮発性のおよび不揮発性の、取り外し可能なおよび取り外し不可能な媒体を指す。コンピュータ可読の記憶媒体としては、これらに限定されないが、所望の情報またはデータまたは命令を実体的に保存するために使用することができ、コンピュータまたはプロセッサがアクセスすることができるRAM、ROM、EPROM、EEPROM、フラッシュメモリまたは他のソリッドステート記憶技術、CD-ROM、DVDまたは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイスまたは任意の他の物理的なまたは有形の媒体が挙げられる。 Computer-readable storage media, as used herein, refers to physical or tangible storage devices (as opposed to signals), including, without limitation, volatile and non-volatile, removable and non-removable media implemented in any method or technology for the tangible storage of information, such as computer-readable instructions, data structures, program modules or other data. Computer-readable storage media include, but are not limited to, RAM, ROM, EPROM, EEPROM, flash memory or other solid-state storage technology, CD-ROM, DVD or other optical storage, magnetic cassettes, magnetic tapes, magnetic disk storage or other magnetic storage devices or any other physical or tangible media that can be used to tangibly store desired information or data or instructions and that can be accessed by a computer or processor.

本明細書に記載の方法のいずれかは、コンピュータスクリーンまたは紙への印刷などの物理的形式でデータを出力するステップを含んでよい。本文書の他の箇所の任意の実施形態の記載では、記載されている方法を、医師がそれに基づいて行動することができる形式のすぐに使用可能なデータを出力するステップと組み合わせることができることが理解されるべきである。さらに、記載されている方法を、臨床処置、または措置を行わないという臨床的決定の実行をもたらす臨床的決定の実際の実行と組み合わせることができる。標的個体に関係する遺伝子データを決定するための本文書に記載の実施形態のいくつかを、IVFとの関連において、1個または複数個の胚を移入するために選択する決定と組み合わせ、必要に応じて、胚を将来の母親の子宮に移入するプロセスと組み合わせることができる。標的個体に関係する遺伝子データを決定するための本文書に記載の実施形態のいくつかを、潜在的な染色体異常またはそれがないことの医療専門家による通知と組み合わせ、必要に応じて、出生前診断との関連において、胎児を流産するか流産しないかの決定と組み合わせることができる。本明細書に記載の実施形態のいくつかを、すぐに使用可能なデータを出力すること、および臨床処置、または措置を行わないという臨床的決定の実行をもたらす臨床的決定を実行することと組み合わせることができる。 Any of the methods described herein may include outputting data in a physical format, such as a computer screen or printout on paper. In the description of any of the embodiments elsewhere in this document, it should be understood that the described methods may be combined with outputting ready-to-use data in a format on which a physician can act. Additionally, the described methods may be combined with the actual performance of a clinical decision resulting in the performance of a clinical treatment, or a clinical decision not to act. Some of the embodiments described herein for determining genetic data related to a target individual may be combined in the context of IVF with the decision to select one or more embryos for transfer, and optionally with the process of transferring the embryos into the uterus of a future mother. Some of the embodiments described herein for determining genetic data related to a target individual may be combined with notification by a medical professional of a potential chromosomal abnormality or absence thereof, and optionally with the decision to abort or not abort the fetus, in the context of prenatal diagnosis. Some of the embodiments described herein may be combined with outputting ready-to-use data and performing a clinical decision resulting in the performance of a clinical treatment, or a clinical decision not to act.

代表的診断ボックス
ある実施形態では、本開示は、本開示に記載の方法のいずれかを部分的にまたは完全に実行することができる診断ボックスを含む。ある実施形態では、診断ボックスは、診察室、病院の検査室または患者をケアする場所に合理的に近い任意の適切な場所に置かれてよい。ボックスは、方法全体を完全に自動化された様式で実行することを可能にし得る、またはボックスは、技師が手動で完了するための、1つまたはいくつものステップを必要とする場合がある。ある実施形態では、ボックスは、少なくとも母系の血漿について測定された遺伝子型データを解析することを可能にし得る。ある実施形態では、ボックスは、診断ボックスで測定された遺伝子型データを、次いで遺伝子型データを解析し、場合によっては報告の作製も行う外部の計算設備に伝達する手段と連結することができる。診断ボックスは、水性試料または液体試料を1つの容器から別の容器に移すことができるロボットユニットを含んでよい。診断ボックスは、固体と液体の両方のいくつもの試薬を含んでよい。診断ボックスは、ハイスループットシーケンサーを含んでよい。診断ボックスは、コンピュータを含んでよい。
Exemplary Diagnostic Box In an embodiment, the present disclosure includes a diagnostic box capable of partially or completely performing any of the methods described herein. In an embodiment, the diagnostic box may be located in a doctor's office, a hospital laboratory, or any suitable location reasonably close to the patient care location. The box may allow the entire method to be performed in a fully automated manner, or the box may require one or several steps to be completed manually by a technician. In an embodiment, the box may allow the genotype data measured at least for the maternal plasma to be analyzed. In an embodiment, the box may be coupled with a means of transmitting the genotype data measured in the diagnostic box to an external computing facility that then analyzes the genotype data and possibly also generates a report. The diagnostic box may include a robotic unit capable of transferring aqueous or liquid samples from one container to another. The diagnostic box may include any number of reagents, both solid and liquid. The diagnostic box may include a high throughput sequencer. The diagnostic box may include a computer.

実験セクション
ここで開示されている実施形態は、以下の実施例に記載されており、これらは本開示の理解を補助するために記載され、その後に続く特許請求の範囲において定義されている本開示の範囲をいかなる形でも限定するものと解釈されるべきではない。以下の実施例は、当業者に、本記載した実施形態をどのように用いるかについての完全な開示および記載を提供するために提示されており、本開示の範囲を限定するものではなく、以下の実験が、実施した全ての実験または唯一の実験であることを示すものでもない。使用される数字(例えば、量、温度など)に関して正確さを確実にするための試みが行われているが、いくらかの実験的な誤差および偏差が考慮されるべきである。別段の指定のない限り、部分は体積による部分であり、温度は摂氏度である。記載されている方法の変形は、実験が例示することを意味する基本的な態様を変化させることなく行うことができることが理解されるべきである。
Experimental Section The embodiments disclosed herein are described in the following examples, which are provided to aid in the understanding of the present disclosure and should not be construed in any way as limiting the scope of the present disclosure as defined in the claims that follow. The following examples are presented to provide those skilled in the art with a complete disclosure and description of how to use the described embodiments, and are not intended to limit the scope of the disclosure, nor are they intended to represent that the following experiments are all or the only experiments performed. Although attempts have been made to ensure accuracy with respect to numbers used (e.g., amounts, temperatures, etc.), some experimental error and deviation should be accounted for. Unless otherwise specified, parts are parts by volume and temperatures are in degrees Celsius. It should be understood that variations in the methods described can be made without changing the fundamental aspects that the experiments are meant to illustrate.

実験1
目的は、親の遺伝子型を使用して胎児画分を算出するベイズ最尤推定(MLE)アルゴリズムにより、公開された方法と比較して非侵襲的な出生前トリソミー診断の正確度が改善されることを示すことであった。
母系のcfDNAについてシミュレートされた配列決定データを、21トリソミーおよびそれぞれの母親の細胞系において得られたリードをサンプリングすることによって作製した。正確なダイソミーおよびトリソミーのコールの率を、公開された方法(ChiuらBMJ2011年:342巻:c7401頁)および本発明者らのMLEに基づくアルゴリズムについての種々の胎児画分における500のシミュレーションから決定した。IRBに承認されたプロトコールの下で収集した、4人の妊娠中の母親およびそれぞれの父親由来の500万のショットガンリードを得ることによってシミュレーションを検証した。親の遺伝子型を290KSNPアレイで得た(図14参照)。
Experiment 1
The objective was to show that a Bayesian maximum likelihood estimation (MLE) algorithm that uses parental genotypes to calculate the fetal fraction improves the accuracy of non-invasive prenatal trisomy diagnosis compared with published methods.
Simulated sequencing data for maternal cfDNA was generated by sampling the reads obtained in trisomy 21 and each maternal cell line. The rate of correct disomy and trisomy calls was determined from 500 simulations in various fetal fractions for published methods (Chiu et al. BMJ 2011:342:c7401) and our MLE-based algorithm. Simulations were validated by obtaining 5 million shotgun reads from four pregnant mothers and each father, collected under an IRB-approved protocol. Parental genotypes were obtained with a 290K SNP array (see FIG. 14).

シミュレーションでは、MLEに基づく手法により、9%の低さの胎児画分に対して99.0%の正確度が実現され、全体的な正確度によく対応した信頼度が報告された。本発明者らは、これらの結果を、4つの実際の試料を用いて検証し、全て正確なコールが得られ、計算された信頼度は99%を超えた。対照的に、Chiuらの公開されたアルゴリズムを実行したところ、99.0%の正確度を実現するためには18%の胎児画分が必要であり、9%の胎児DNAでは87.8%の正確度しか実現されなかった。 In simulations, the MLE-based approach achieved 99.0% accuracy for fetal fractions as low as 9%, with reported confidence levels that corresponded well to the overall accuracy. We validated these results with four real samples, all of which gave correct calls with calculated confidence levels above 99%. In contrast, implementation of the published algorithm by Chiu et al. required a fetal fraction of 18% to achieve 99.0% accuracy, and only 87.8% accuracy was achieved with 9% fetal DNA.

MLEに基づく手法と併せて、親の遺伝子型から胎児画分を決定することにより、妊娠初期および妊娠中期の早期に予測される胎児画分において、公開されているアルゴリズムよりも高い正確度が実現される。さらに、本明細書に開示されている方法は、結果の信頼性の決定において、特に倍数性の検出がより難しい低胎児画分において、極めて重要な信頼度メトリックを生じる。公開された方法では、偽陽性率を予め定義する手法である、ダイソミートレーニングデータの大きな集合に基づく、倍数性をコールするための正確度が低い閾値方法を用いる。さらに、信頼度メトリックなしでは、公開された方法でコールを行うには胎児のcfDNAが不十分である場合に、偽陰性の結果を報告する危険性がある。いくつかの実施形態では、コールされた倍数性状態について信頼度推定値を算出する。 Determining fetal fraction from parental genotypes in conjunction with an MLE-based approach achieves higher accuracy than published algorithms in predicting fetal fraction early in first and second trimesters. Furthermore, the methods disclosed herein yield a confidence metric that is crucial in determining the reliability of the results, especially at low fetal fractions where ploidy detection is more difficult. The published methods use a less accurate threshold method for calling ploidy based on a large set of disomy training data, an approach that predefines the false positive rate. Furthermore, without a confidence metric, there is a risk of reporting a false negative result when there is insufficient fetal cfDNA to make the call with the published method. In some embodiments, a confidence estimate is calculated for the called ploidy state.

実験2
目的は、ベイズ最尤推定(MLE)アルゴリズムにおいて、標的化配列決定手法を親の遺伝子型およびHapmapデータと組み合わせて用いることによって、特に低胎児画分からなる試料における、胎児の18トリソミー、21トリソミー、およびXトリソミーの非侵襲的な検出を改善することであった。
Experiment 2
The objective was to improve non-invasive detection of fetal trisomies 18, 21, and X, especially in samples with low fetal fraction, by using a targeted sequencing approach in combination with parental genotype and Hapmap data in a Bayesian maximum likelihood estimation (MLE) algorithm.

4つの正倍数性妊娠および2つのトリソミー陽性妊娠由来の母体試料およびそれぞれの父系の試料を、IRBに承認されたプロトコールの下で、胎児の核型が既知である患者から得た。母系のcfDNAを血漿から抽出し、標的の特定のSNPを優先的に富化した後、およそ1,000万のシーケンスリードを得た。親試料について同様に配列決定して、遺伝子型を得た。 Maternal and respective paternal samples from four euploid and two trisomy-positive pregnancies were obtained from patients with known fetal karyotypes under an IRB-approved protocol. Maternal cfDNA was extracted from plasma and after preferential enrichment for targeted specific SNPs, approximately 10 million sequence reads were obtained. Parental samples were similarly sequenced to obtain genotypes.

記載されているアルゴリズムにより、正倍数性の試料および異数性の試料の正常な染色体の全てについて第18染色体ダイソミーおよび第21染色体ダイソミーが正確にコールされた。18トリソミーおよび21トリソミーのコールは正確であり、男の胎児および女の胎児におけるX染色体コピー数も正確であった。アルゴリズムによって生じる信頼度は、全ての場合において98%を超えた。 The described algorithm accurately called disomies 18 and 21 for all normal chromosomes in euploid and aneuploid samples. Calls of trisomies 18 and 21 were accurate, as were X-chromosome copy numbers in male and female fetuses. The confidence generated by the algorithm was greater than 98% in all cases.

記載されている方法により、妊娠初期の試料および妊娠中期の早期の試料のおよそ30%を占める、12%未満の胎児DNAで構成される試料を含めた、6つの試料由来の試験した染色体の全てについて倍数性が正確に報告された。当該MLEアルゴリズムと公開された方法の間の極めて重要な差異は、MLEアルゴリズムでは親の遺伝子型およびHapmapデータを活用して、正確度を改善し、信頼度メトリックを生成することである。低胎児画分では、全ての方法の正確度が低くなる;十分な胎児のcfDNAがない試料を正確に同定して、信頼できるコールを行うことが重要である。他のものは男の胎児の胎児画分を推定するためにY染色体特異的プローブを使用したが、同時に親の遺伝子型決定を行うことにより、両方の性について胎児画分を推定することができる。非標的化ショットガン配列決定を用いた公開された方法の別の固有の限界は、GCリッチなどの因子が異なることにより、倍数性コールの正確度が染色体間で変動することである。当該標的化配列決定手法は、そのような染色体規模の変動とはほとんど無関係であり、染色体間でより一貫した性能をもたらす。 The described method accurately reported ploidy for all tested chromosomes from six samples, including samples composed of less than 12% fetal DNA, which represents approximately 30% of first trimester and early second trimester samples. A crucial difference between the MLE algorithm and the published method is that the MLE algorithm leverages parental genotype and Hapmap data to improve accuracy and generate confidence metrics. At low fetal fractions, all methods have low accuracy; it is important to accurately identify samples that do not have sufficient fetal cfDNA to make reliable calls. While others have used Y-chromosome-specific probes to estimate fetal fractions in male fetuses, fetal fractions can be estimated for both sexes by simultaneously genotyping the parents. Another inherent limitation of the published method using untargeted shotgun sequencing is that the accuracy of ploidy calls varies between chromosomes due to differences in factors such as GC richness. The targeted sequencing approach is largely independent of such chromosome-wide variations, resulting in more consistent performance across chromosomes.

実験3
目的は、母系の血漿中の浮動性胎児DNAのSNP遺伝子座を解析するための新規のインフォマティクスを用いて、三倍体の胎児においてトリソミーが高い信頼度で検出可能であるかどうかを決定することであった。
Experiment 3
The objective was to determine whether trisomies could be detected with high confidence in triploid fetuses using novel informatics to analyze SNP loci of free-floating fetal DNA in maternal plasma.

超音波異常の後に、血液20mLを妊娠中の患者から抜き取った。遠心分離した後、母系DNAをバフィーコートから抽出し(DNEASY、QIAGEN)、無細胞DNAを血漿から抽出した(QIAAMP QIAGEN)。両方のDNA試料において、第2染色体、第21染色体、およびX染色体上のSNP遺伝子座に標的化配列決定を適用した。最尤ベイズ推定により、全ての可能性のある倍数性の状態の集合から、最も可能性が高い仮説を選択した。前記方法により、胎児DNA割合、倍数性の状態および倍数性の決定における明確な信頼度を決定する。参照染色体の倍数性に関する仮定は行わない。診断では、現在の技術水準である、シーケンスリード数と無関係の検定統計量を使用する。 After ultrasound abnormality, 20 mL of blood was drawn from the pregnant patient. After centrifugation, maternal DNA was extracted from the buffy coat (DNEASY, QIAGEN) and cell-free DNA was extracted from the plasma (QIAAMP QIAGEN). In both DNA samples, targeted sequencing was applied to SNP loci on chromosomes 2, 21, and X. From the set of all possible ploidy states, the most likely hypothesis was selected by maximum likelihood Bayesian estimation. The method determines fetal DNA fraction, ploidy state, and an explicit confidence level in the ploidy determination. No assumptions are made regarding the ploidy of the reference chromosomes. The diagnosis uses a test statistic that is independent of the number of sequence reads, which is the current state of the art.

当前記方法により、第2染色体および第21染色体のトリソミーが正確に診断された。子の割合は11.9%[CI11.7~12.1]と推定された。胎児は、第2染色体および第21染色体の1つの母系のコピーおよび2つの父系のコピーを有することが見いだされ、信頼度は有効に1(エラー確率<10-30)であった。これは、第2染色体および第21染色体のそれぞれ92,600リードおよび258,100リードを用いて実現された。 The method correctly diagnosed trisomies for chromosomes 2 and 21. The offspring rate was estimated at 11.9% [CI 11.7-12.1]. Fetuses were found to have one maternal copy and two paternal copies of chromosomes 2 and 21, effectively with a confidence level of 1 (error probability <10 −30 ). This was achieved using 92,600 and 258,100 reads for chromosomes 2 and 21, respectively.

これは、中期の核型によって確認されるように、母系の血液に由来するトリソミー染色体であって、その胎児が三倍体であるという非侵襲的な出生前診断の最初の実証である。非侵襲的な診断の現存の方法では、この試料において異数性は検出されない。現行の方法は、ダイソミー参照染色体と比較した、トリソミー染色体における余剰なシーケンスリードに依拠するが、三倍体の胎児はダイソミー参照を有さない。さらに、現存の方法では、この胎児DNAの割合およびシーケンスリード数を用いては同様に信頼度が高い倍数性の決定は実現されない。該手法を24の染色体全てに拡張することは簡単である。 This is the first demonstration of non-invasive prenatal diagnosis of a trisomic chromosome from maternal blood, as confirmed by metaphase karyotype, and the fetus is triploid. Existing methods of non-invasive diagnosis do not detect aneuploidy in this sample. Current methods rely on excess sequence reads in the trisomic chromosome compared to a disomic reference chromosome, but triploid fetuses do not have a disomic reference. Furthermore, existing methods do not provide a similarly reliable determination of ploidy using this proportion of fetal DNA and sequence read counts. Extending the approach to all 24 chromosomes is straightforward.

実験4
正倍数性の妊娠由来の母系の血漿から単離されたDNA、および同様に21三倍体性細胞系由来のゲノムDNAの、標準のPCR(ネスティングを使用しなかったことを意味する)を使用した800プレックス増幅のために以下のプロトコールを使用した。ライブラリーの調製および増幅は、単一チューブ平滑末端化、その後のA-テーリングを伴った。AGILENT SURESELECTキットに見いだされるライゲーションキットを使用してアダプタライゲーションを実行し、PCRを7サイクル実行した。次いで、第2染色体、第21染色体およびX染色体上のSNPを標的とする800の異なるプライマー対を使用して、STAを15サイクル行った(95℃で30秒間;72℃で1分間;60℃で4分間;65℃で1分間;72℃で30秒間)。12.5nMのプライマー濃度で反応を実行した。次いで、ILLUMINA IIGAXシーケンサーを用いてDNAについて配列決定した。シーケンサーにより190万のリードが出力され、その92%がゲノムにマッピングされ、ゲノムにマッピングされたリードのうち99%超が、標的のプライマーにより標的とされた領域のうちの1つにマッピングされた。数は血漿DNAとゲノムDNAの両方で基本的に同じであった。図15は、第21染色体において既知のトリソミーを有する細胞系から取得したゲノムDNAにおける、シーケンサーによって検出された約780SNPについての2つの対立遺伝子の比を示す。対立遺伝子分布は視覚的に読み取ることが簡単ではないので、ここでは可視化を容易にするために対立遺伝子の比がプロットされていることに留意されたい。丸印はダイソミー染色体上のSNPを示し、星印はトリソミー染色体上のSNPを示す。図16は、図Xの場合と同様に、同じデータの別の表示であり、Y軸は各SNPについて測定されたAとBの相対的な数であり、X軸は染色体によってSNPを分けたSNP数である。図16では、SNP1~312は、第2染色体上に見いだされ、SNP313~605は、トリソミーである第21染色体上に見いだされ、SNP606~800はX染色体上に見出される。第2染色体およびX染色体からのデータは、相対的な配列計数値が3つのクラスター内にあるとおり、ダイソミー染色体を示す:グラフの一番上がAAであり、グラフの一番下がBBであり、グラフの中央がABである。トリソミーである第21染色体からのデータは4つのクラスターを示す:グラフの一番上がAAAであり、0.65の線(2/3)の周辺がAABであり、.35の線(1/3)の周囲がABBであり、グラフの一番下がBBBである。
Experiment 4
The following protocol was used for 800-plex amplification using standard PCR (meaning no nesting was used) of DNA isolated from maternal plasma from euploid pregnancies, and genomic DNA from 21 triploid cell lines as well. Library preparation and amplification involved single-tube blunting followed by A-tailing. Adapter ligation was performed using the ligation kit found in the AGILENT SURESELECT kit, and PCR was run for 7 cycles. STA was then performed for 15 cycles using 800 different primer pairs targeting SNPs on chromosomes 2, 21 and X (95°C for 30 sec; 72°C for 1 min; 60°C for 4 min; 65°C for 1 min; 72°C for 30 sec). Reactions were run at a primer concentration of 12.5 nM. DNA was then sequenced using an ILLUMINA IIGAX sequencer. The sequencer output 1.9 million reads, 92% of which were mapped to the genome, and over 99% of the reads that were mapped to the genome were mapped to one of the regions targeted by the targeted primers. The numbers were essentially the same in both plasma and genomic DNA. Figure 15 shows the ratio of the two alleles for approximately 780 SNPs detected by the sequencer in genomic DNA obtained from a cell line with a known trisomy at chromosome 21. Note that the allele distribution is not easy to read visually, so the allele ratios are plotted here for ease of visualization. Circles indicate SNPs on disomic chromosomes, and stars indicate SNPs on trisomic chromosomes. Figure 16 is another display of the same data as in Figure X, where the Y-axis is the relative number of A and B measured for each SNP, and the X-axis is the number of SNPs split by chromosome. In Figure 16, SNPs 1-312 are found on chromosome 2, SNPs 313-605 are found on trisomic chromosome 21, and SNPs 606-800 are found on chromosome X. Data from chromosomes 2 and X show the disomic chromosomes as the relative sequence counts fall into three clusters: AA at the top of the graph, BB at the bottom of the graph, and AB in the center of the graph. Data from trisomic chromosome 21 shows four clusters: AAA at the top of the graph, AAB around the 0.65 line (2/3), ABB around the .35 line (1/3), and BBB at the bottom of the graph.

図17A~Dは、同じ800プレックスプロトコールについてのデータであって、妊娠中の女性由来の4つの血漿試料から増幅したDNAに対して測定されたデータを示す。これらの4つの試料について、点について7つのクラスターが認められることが予想される:(1)グラフの一番上に沿っているのは、母親および胎児がどちらもAAである遺伝子座であり、(2)グラフの一番上のわずかに下は、母親がAAであり、胎児がABである遺伝子座であり、(3)0.5の線のわずかに上は、母親がABであり、胎児がAAである遺伝子座であり、(4)0.5の線に沿っているのは、母親および胎児がどちらもABである遺伝子座であり、(5)0.5の線のわずかに下は、母親がABであり、胎児がBBである遺伝子座であり、(6)グラフの一番下のわずかに上は、母親がBBであり、胎児がABである遺伝子座であり、(1)グラフの一番下に沿っているのは、母親および胎児がどちらもBBである遺伝子座である。胎児画分が小さいほど、クラスター(1)と(2)の間、クラスター(3)、(4)および(5)の間、ならびにクラスター(6)と(7)の間の分離が小さくなる。分離は、胎児起源のDNAの画分の半分であることが予想される。例えば、DNAの20%が胎児性であり、80%が母系である場合、(1)~(7)は、それぞれ1.0、0.9、0.6、0.5、0.4、0.1および0.0に集中することが予想される;例えば、図17D、POOL1_BC5_ref_rateを参照されたい。その代わりに、DNAの8%が胎児性であり、92%が母系である場合、(1)~(7)は、それぞれ1.00、0.96、0.54、0.50、0.46、0.04および0.00に集中することが予想される;例えば、図17B、POOL1_BC2_ref_rateを参照されたい。胎児DNAが検出されない場合は、(2)、(3)、(5)または(6)が認められることは予想されない;あるいは、分離は0であると言える、したがって(1)および(2)は互いに一番上にあり、(3)、(4)および(5)、ならびに、同様に(6)および(7)も同様である;例えば、図17C、POOL1_BC7_ref_rateを参照されたい。図17A、POOL1_BC1_ref_rateについて胎児画分は約25%であることに留意されたい。 17A-D show data for the same 800plex protocol, measured on DNA amplified from four plasma samples from pregnant women. For these four samples, seven clusters of points are expected to be observed: (1) along the top of the graph are loci where the mother and fetus are both AA, (2) slightly below the top of the graph are loci where the mother is AA and the fetus is AB, (3) slightly above the 0.5 line are loci where the mother is AB and the fetus is AA, (4) along the 0.5 line are loci where the mother and fetus are both AB, (5) slightly below the 0.5 line are loci where the mother is AB and the fetus is BB, (6) slightly above the bottom of the graph are loci where the mother is BB and the fetus is AB, and (1) along the bottom of the graph are loci where the mother and fetus are both BB. The smaller the fetal fraction, the smaller the separation between clusters (1) and (2), between clusters (3), (4) and (5), and between clusters (6) and (7). The separation is expected to be half that of the fraction of DNA of fetal origin. For example, if 20% of the DNA is fetal and 80% is maternal, then (1)-(7) are expected to cluster at 1.0, 0.9, 0.6, 0.5, 0.4, 0.1 and 0.0, respectively; see e.g., FIG. 17D, POOL1_BC5_ref_rate. If instead 8% of the DNA is fetal and 92% is maternal, then (1)-(7) are expected to cluster at 1.00, 0.96, 0.54, 0.50, 0.46, 0.04 and 0.00, respectively; see e.g., FIG. 17B, POOL1_BC2_ref_rate. If no fetal DNA is detected, then (2), (3), (5), or (6) are not expected to be seen; alternatively, the separation can be said to be 0, so (1) and (2) are on top of each other, as are (3), (4) and (5), and similarly (6) and (7); see, for example, FIG. 17C, POOL1_BC7_ref_rate. Note that for FIG. 17A, POOL1_BC1_ref_rate, the fetal fraction is approximately 25%.

実験5
DNAの増幅および測定の大多数の方法により、一般に遺伝子座において見いだされる2つの対立遺伝子が、DNAの試料中の対立遺伝子の実際の量を表さない強度または計数値で検出される、いくらかの対立遺伝子の偏りが生じる。例えば、単一の個体について、ヘテロ接合性遺伝子座において、ヘテロ接合性遺伝子座について予測される理論的な比である、2つの対立遺伝子の1:1の比が認められることが予想されるが、対立遺伝子の偏りに起因して、55:45または、さらには60:40が認められ得る。配列決定との関連において、リード深度が低い場合には、単純な確率論的ノイズにより、有意な対立遺伝子の偏りがもたらされる可能性があることにも留意されたい。ある実施形態では、各SNPの挙動をモデリングすることが可能であり、したがって、特定の対立遺伝子について一貫した偏りが観察される場合、この偏りを補正することができる。図18は、偏り補正の前後の、二項分散によって説明することができるデータの割合を示す。図18では、星印は、800プレックス実験について、生の配列データにおいて観察された対立遺伝子の偏りを示し、丸印は、補正後の対立遺伝子の偏りを示す。対立遺伝子の偏りが全くない場合には、データがx=yの線に沿うことが予想されることに留意されたい。150プレックス標的化増幅を用いてDNAを増幅することによって生じる同様のデータの集合により、偏り補正後に1:1の線のごく近傍に包含されるデータが生じた。
Experiment 5
Most methods of DNA amplification and measurement cause some allelic bias, where the two alleles found at a locus are generally detected with an intensity or count value that does not represent the actual amount of the allele in the DNA sample.For example, for a single individual, a 1:1 ratio of two alleles is expected to be observed at a heterozygous locus, which is the theoretical ratio expected for a heterozygous locus, but due to allelic bias, 55:45 or even 60:40 may be observed.In the context of sequencing, it is also noted that simple stochastic noise may result in significant allelic bias when the read depth is low.In an embodiment, it is possible to model the behavior of each SNP, so that if a consistent bias is observed for a particular allele, this bias can be corrected.Figure 18 shows the proportion of data that can be explained by binomial variance before and after bias correction. In Figure 18, stars indicate the allelic bias observed in the raw sequence data for the 800-plex experiment, and circles indicate the corrected allelic bias. Note that in the absence of any allelic bias, the data would be expected to fall along the x = y line. A similar set of data generated by amplifying DNA with 150-plex targeted amplification produced data that fell very close to the 1:1 line after bias correction.

実験6
プライマーのアニーリングおよび伸長の時間が数分に限られている、アダプタタグに特異的なプライマーとライゲーションしたアダプタを使用したDNAのユニバーサル増幅は、より短いDNA鎖の割合を富化する効果を有する。配列決定に適したDNAライブラリーを作製するために設計された大多数のライブラリープロトコールはそのようなステップを含み、プロトコールの例は公開されており、当業者に周知である。本発明のいくつかの実施形態では、ユニバーサルタグを有するアダプタを血漿DNAにライゲーションし、アダプタタグに特異的なプライマーを使用して増幅する。いくつかの実施形態では、ユニバーサルタグは、配列決定のために用いるものと同じタグであってよく、それはPCR増幅のためだけのユニバーサルタグであってよい、またはそれはタグの集合であってよい。胎児DNAは一般には、天然では短く、一方、母系DNAは天然では短いものと長いものの両方であり得るので、この方法は、混合物中の胎児DNAの割合を富化する効果を有する。アポトーシス性の細胞由来のDNAであると考えられ、胎児DNAと母系DNAの両方を含有する浮動性DNAは短く、大部分は200bp未満である。静脈切開後の一般的な現象である細胞溶解によって放出される細胞性DNAは、一般には、ほぼ排他的に母系であり、同様にかなり長く、大部分が500bpを超える。したがって、数分超放置した血液試料は、短い(胎児性+母系)DNAおよびより長い(母系)DNAの混合物を含有する。母系の血漿に対してユニバーサル増幅を比較的短い伸長時間で実施し、その後、標的化増幅することにより、胎児DNAの相対的な割合が、標的化増幅を単独で用いて増幅した血漿と比較して増大する傾向がある。これは、入力が血漿DNA(垂直方向の軸)である場合に測定された胎児のパーセント対入力DNAがILLUMINA GAIIxライブラリー調製プロトコールを用いて調製したライブラリーを有する血漿DNAである場合に測定された胎児のパーセントを示す図19において認めることができる。線の下に入る点は全て、ライブラリーの調製ステップにより胎児起源のDNAの割合(fraction)が富化されることを示す。赤色であった2つの血漿の試料は溶血を示し、したがって、細胞溶解によって存在する長い母系DNAの量が増大したことを示し、これは、標的化増幅の前にライブラリーの調製を実施した場合に、胎児画分(fetal fraction)が特に有意に富化されることを示す。本明細書に開示されている方法は、溶血があるまたは比較的長い鎖の混入DNAを含む細胞が溶解し、短いDNAと長いDNAが混合した試料に混入するいくつかの他の状況が生じている場合に特に有用である。一般には、比較的短いアニーリング時間および伸長時間は30秒間から2分間の間であるが、5秒または10秒以下の短さであってよく、または5分間または10分間の長さであってよい。
Experiment 6
Universal amplification of DNA using adaptors ligated with primers specific to adaptor tags, with primer annealing and extension times limited to a few minutes, has the effect of enriching the proportion of shorter DNA strands. Most library protocols designed to generate DNA libraries suitable for sequencing include such steps, and examples of protocols are published and well known to those skilled in the art. In some embodiments of the present invention, adaptors with universal tags are ligated to plasma DNA and amplified using primers specific to adaptor tags. In some embodiments, the universal tag may be the same tag used for sequencing, it may be a universal tag only for PCR amplification, or it may be a collection of tags. Since fetal DNA is generally short in nature, while maternal DNA can be both short and long in nature, this method has the effect of enriching the proportion of fetal DNA in the mixture. The free-floating DNA, which is believed to be DNA from apoptotic cells and contains both fetal and maternal DNA, is short, mostly less than 200 bp. Cellular DNA released by cell lysis, a common phenomenon after phlebotomy, is generally almost exclusively maternal and is also quite long, mostly over 500 bp. Thus, blood samples left for more than a few minutes contain a mixture of short (fetal + maternal) and longer (maternal) DNA. By performing universal amplification with a relatively short extension time on maternal plasma followed by targeted amplification, the relative proportion of fetal DNA tends to increase compared to plasma amplified using targeted amplification alone. This can be seen in Figure 19, which shows the percent fetal measured when the input is plasma DNA (vertical axis) versus the percent fetal measured when the input DNA is plasma DNA with libraries prepared using the ILLUMINA GAIIx library preparation protocol. All points that fall below the line indicate that the library preparation step enriches the fraction of DNA of fetal origin. The two plasma samples that were red indicated hemolysis and therefore increased the amount of long maternal DNA present due to cell lysis, which indicates that the fetal fraction is particularly significantly enriched when library preparation is performed prior to targeted amplification. The methods disclosed herein are particularly useful when there is hemolysis or some other situation occurs where cells containing relatively long strands of contaminating DNA are lysed, contaminating the sample with mixed short and long DNA. Generally, the relatively short annealing and extension times are between 30 seconds and 2 minutes, but can be as short as 5 or 10 seconds or less, or as long as 5 or 10 minutes.

実験7
正倍数性の妊娠由来の母系の血漿から単離されたDNA、および同様に21三倍体性細胞系由来のゲノムDNAの、直接PCRプロトコール、および同様にセミネステッド手法を用いた1,200プレックス増幅のために以下のプロトコールを使用した。ライブラリーの調製および増幅は、単一チューブ平滑末端化、その後のA-テーリングを伴った。AGILENT SURESELECTキットに見いだされるライゲーションキットの改変を用いてアダプタライゲーションを実行し、PCRを7サイクル実行した。標的のプライマープールでは、第21染色体由来のSNPについての550のアッセイ、ならびに第1染色体およびX染色体のそれぞれ由来のSNPについての325のアッセイを行った。どちらのプロトコールも、16nMのプライマー濃度を用いてSTAの15サイクルを伴った(95℃で30秒間;72℃で1分間;60℃で4分間;65℃で30秒間;72℃で30秒間)。セミネステッドPCRプロトコールは、29nMの内側のフォワードタグ濃度、および1μMまたは0.1μMのリバースタグ濃度を用いたSTA15サイクルの第2の増幅を伴った(95℃で30秒間;72℃で1分間;60℃で4分間;65℃で30秒間;72℃で30秒間)。次いで、ILLUMINA IIGAXシーケンサーを用いてDNAについて配列決定した。直接PCRプロトコールについては、リードの73%がゲノムにマッピングされ、セミネステッドプロトコールについては、シーケンスリードの97.2%がゲノムにマッピングされる。したがって、セミネステッドプロトコールにより、およそ30%多くの情報がもたらされ、これは、主に、プライマー二量体を引き起こす可能性が最も高いプライマーが排除されたことに起因すると推測される。
Experiment 7
The following protocols were used for direct PCR protocol and 1,200-plex amplification of DNA isolated from maternal plasma from euploid pregnancies, as well as genomic DNA from 21 triploid cell lines, as well as semi-nested approach. Library preparation and amplification involved single-tube blunting followed by A-tailing. Adapter ligation was performed using a modification of the ligation kit found in the AGILENT SURESELECT kit, and PCR was run for 7 cycles. For the targeted primer pool, 550 assays for SNPs from chromosome 21 and 325 assays for SNPs from each of chromosomes 1 and X were performed. Both protocols involved 15 cycles of STA using a primer concentration of 16 nM (95°C for 30 sec; 72°C for 1 min; 60°C for 4 min; 65°C for 30 sec; 72°C for 30 sec). The semi-nested PCR protocol involved a second amplification of STA15 cycles with an inner forward tag concentration of 29 nM and a reverse tag concentration of 1 μM or 0.1 μM (95°C for 30 sec; 72°C for 1 min; 60°C for 4 min; 65°C for 30 sec; 72°C for 30 sec). The DNA was then sequenced using an ILLUMINA II GAX sequencer. For the direct PCR protocol, 73% of the reads map to the genome, and for the semi-nested protocol, 97.2% of the sequence reads map to the genome. Thus, the semi-nested protocol provides approximately 30% more information, which is speculated to be mainly due to the elimination of primers that are most likely to cause primer dimers.

リード深度の変動性は、セミネステッドプロトコールを使用した場合、直接PCRプロトコールを使用した場合よりも高い傾向があり(図20参照)、ひし形はセミネステッドプロトコールを用いて実行した遺伝子座についてのリード深度を指し、四角はネスティングなしで実行した遺伝子座についてのリード深度を指す。SNPは、ひし形についてリード深度によって配置されており、したがって、ひし形は全て曲線上に置かれ、一方四角は、ゆるく相関するようである;SNPの配置は任意であり、リード深度を指すのは、ドットの左から右への場所ではなく、ドットの高さである。 Variability in read depth tends to be higher using the semi-nested protocol than using the direct PCR protocol (see Figure 20), where the diamonds refer to read depth for loci run with the semi-nested protocol and the boxes refer to read depth for loci run without nesting. SNPs are arranged by read depth for the diamonds, so that the diamonds all lie on a curve, while the boxes appear to be loosely correlated; the placement of the SNPs is arbitrary, and it is the height of the dot, not the location of the dot from left to right, that refers to read depth.

いくつかの実施形態では、本明細書に記載の方法により、優れたリード深度(DOR)の分散を実現することができる。例えば、1,200アッセイの、ゲノムDNAの1,200プレックス直接PCR増幅を用いたこの実験の1つのバージョン(図21)において、1186アッセイでは、DORが10超であり、平均のリード深度が400であり、1063アッセイ(88.6%)では、リード深度が200から800の間であり、各対立遺伝子についてのリード数は、意味のあるデータを得るために十分に高いが、各対立遺伝子についてのリード数は、これらのリードの限界使用が特に小さい場合、それほど高くない、理想的なウィンドウを有した。12の対立遺伝子のみが、高いリード深度を有し、1035のリードが一番深かった。DORの標準偏差は290であり、平均DORは453であり、DORの変動係数は64%であり、950,000の総リードが存在し、およびリードの63.1%がゲノムにマッピングされた。1,200プレックスセミネステッドプロトコールを使用した別の実験(図22)では、DORはより高かった。DORの標準偏差は583であり、平均DORは630であり、DORの変動係数は93%であり、870,000の総リードが存在し、リードの96.3%がゲノムにマッピングされた。これらの場合のどちらにおいても、SNPは母親についてのリード深度によって配置され、したがって、曲線は母系のリード深度を示すことに留意されたい。子と父親の間の鑑別は重要でなく、それは単にこの説明のために重要であるトレンドである。 In some embodiments, the methods described herein can achieve excellent depth of read (DOR) distribution. For example, in one version of this experiment (FIG. 21) using 1,200-plex direct PCR amplification of genomic DNA with 1,200 assays, 1186 assays had a DOR of over 10 and an average read depth of 400, and 1063 assays (88.6%) had a read depth between 200 and 800, an ideal window in which the number of reads for each allele was high enough to obtain meaningful data, but not so high that the number of reads for each allele was particularly small given the marginal use of these reads. Only 12 alleles had high read depth, with 1035 reads being the deepest. The standard deviation of DOR was 290, the average DOR was 453, the coefficient of variation of DOR was 64%, there were 950,000 total reads, and 63.1% of the reads were mapped to the genome. In another experiment (Figure 22) using a 1,200-plex semi-nested protocol, the DOR was higher. The standard deviation of the DOR was 583, the mean DOR was 630, the coefficient of variation of the DOR was 93%, there were 870,000 total reads, and 96.3% of the reads were mapped to the genome. Note that in both of these cases, the SNPs are arranged by the read depth for the mother, and therefore the curves show the maternal read depth. The differentiation between the child and the father is not significant, it is simply the trend that is important for this explanation.

実験8
実験において、セミネステッド1,200プレックスPCRプロトコールを用いて、1つの細胞由来のDNAおよび3つの細胞由来のDNAを増幅した。この実験は、母系の血液から単離された胎児の細胞を使用した出生前異数性試験と関連する、または生検割球または栄養外胚葉試料を使用した着床前遺伝子診断のためのものである。条件ごとに2個体(46XYおよび47XX+21)由来の1つの細胞および3つの細胞の3つの複製物が存在した。アッセイは、第1染色体、第21染色体およびX染色体を標的とした。3つの異なる溶解方法を使用した:ARCTURUS、MPERv2およびアルカリ溶解。1つの配列決定レーンにおいて多重化48試料に配列決定を実行した。アルゴリズムにより、3つの染色体のそれぞれについて、および複製物のそれぞれについての正確な倍数性コールが生じた。
Experiment 8
In the experiment, DNA from one cell and three cells were amplified using a semi-nested 1,200-plex PCR protocol. The experiment is in conjunction with prenatal aneuploidy testing using fetal cells isolated from maternal blood or for preimplantation genetic diagnosis using biopsy blastomere or trophectoderm samples. There were three replicates of one cell and three cells from two individuals (46XY and 47XX+21) per condition. The assay targeted chromosomes 1, 21 and X. Three different lysis methods were used: ARCTURUS, MPERv2 and alkaline lysis. Sequencing was performed on multiplexed 48 samples in one sequencing lane. The algorithm produced accurate ploidy calls for each of the three chromosomes and for each of the replicates.

実験9
1つの実験では、4つの母系の血漿試料を調製し、ヘミネステッド9,600プレックスプロトコールを使用して増幅した。試料を以下のように調製した:母系の血液最大40mLを遠心分離して、バフィーコートおよび血漿を単離した。母系試料のゲノムDNAをバフィーコートから調製し、父系のDNAを血液試料または唾液試料から調製した。母系の血漿中の無細胞DNAを、QIAGEN CIRCULATING NUCLEIC ACIDキットを使用して単離し、TE緩衝液45μLで製造者の指示に従って溶出した。ユニバーサルライゲーションアダプタを、精製された血漿DNA35μLの各分子の末端に付加し、ライブラリーを、アダプタ特異的プライマーを使用して7サイクルにわたって増幅した。ライブラリーを、AGENCOURT AMPUREビーズを使用して精製し、水50μlで溶出した。
Experiment 9
In one experiment, four maternal plasma samples were prepared and amplified using a hemi-nested 9,600-plex protocol. Samples were prepared as follows: up to 40 mL of maternal blood was centrifuged to isolate the buffy coat and plasma. Genomic DNA of the maternal samples was prepared from the buffy coat and paternal DNA was prepared from blood or saliva samples. Cell-free DNA in maternal plasma was isolated using the QIAGEN CIRCULATING NUCLEIC ACID kit and eluted in 45 μL of TE buffer according to the manufacturer's instructions. Universal ligation adaptors were added to the end of each molecule of 35 μL of purified plasma DNA and the library was amplified for seven cycles using adaptor-specific primers. The library was purified using AGENCOURT AMPURE beads and eluted in 50 μL of water.

9,600個の標的特異的タグを付けたリバースプライマーのプライマー濃度14.5nMおよび1つのライブラリーアダプタ特異的フォワードプライマーの500nMを使用し、15サイクルのSTAを用いて、3μlのDNAを増幅した(最初のポリメラーゼ活性化のために95℃で10分間、次いで、95℃で30秒間;72℃で10秒間;65℃で1分間;60℃で8分間;65℃で3分間および72℃で30秒間;を15サイクル、および72℃で2分間の最終の伸長)。 3 μl of DNA was amplified using 15 cycles of STA with a primer concentration of 14.5 nM of 9,600 target-specific tagged reverse primers and 500 nM of one library adaptor-specific forward primer (initial polymerase activation at 95°C for 10 min, then 15 cycles of 95°C for 30 s; 72°C for 10 s; 65°C for 1 min; 60°C for 8 min; 65°C for 3 min and 72°C for 30 s; and a final extension at 72°C for 2 min).

ヘミネステッドPCRプロトコールは、第1のSTA産物の希釈物の、1000nMのリバースタグ濃度、および9,600個の標的特異的フォワードプライマーのそれぞれについて16.6u nMの濃度を用いたSTAを15サイクルにわたる第2の増幅を伴った(最初のポリメラーゼ活性化のために95℃で10分間、次いで95℃で30秒間;65℃で1分間;60℃で5分間;65℃で5分間および72℃で30秒間;の15サイクル、および72℃で2分間の最終の伸長)。 The hemi-nested PCR protocol involved a second amplification of a dilution of the first STA product with a reverse tag concentration of 1000 nM and STA for 15 cycles using a concentration of 16.6 u nM for each of the 9,600 target-specific forward primers (initial 95°C for 10 min for polymerase activation, then 15 cycles of 95°C for 30 s; 65°C for 1 min; 60°C for 5 min; 65°C for 5 min and 72°C for 30 s; and a final extension at 72°C for 2 min).

次いで、STA産物の一定分量を、標準のPCRによって、1μMのタグ特異的なフォワードプライマーおよびバーコードを付けたリバースプライマーを用いて10サイクルにわたって増幅し、バーコードを付けた配列決定ライブラリーを生成した。各ライブラリーの一定分量を異なるバーコードのライブラリーと混合し、スピンカラムを使用して精製した。 Aliquots of the STA products were then amplified by standard PCR with 1 μM tag-specific forward primer and barcoded reverse primer for 10 cycles to generate barcoded sequencing libraries. Aliquots of each library were mixed with libraries of different barcodes and purified using spin columns.

このように、単一ウェル反応において9,600個のプライマーを使用した;プライマーは、第1染色体、第2染色体、第13染色体、第18染色体、第21染色体、X染色体およびY染色体上に見いだされるSNPを標的とするように設計した。次いで、増幅産物について、ILLUMINA GAIIXシーケンサーを用いて配列決定した。試料当たり、およそ390万のリードがシーケンサーによって生成され、370万のリードがゲノムにマッピングされ(94%)、それらのうち、290万のリード(74%)が標的のSNPにマッピングされ、平均のリード深度は344であり、リード深度の中央値は255であった。4つの試料についての胎児画分は、9.9%、18.9%、16.3%、および21.2%であることが見いだされた。 Thus, 9,600 primers were used in a single-well reaction; primers were designed to target SNPs found on chromosomes 1, 2, 13, 18, 21, X and Y. The amplified products were then sequenced using an ILLUMINA GAIIX sequencer. Approximately 3.9 million reads were generated by the sequencer per sample, 3.7 million reads were mapped to the genome (94%), of which 2.9 million reads (74%) were mapped to the targeted SNPs, with an average read depth of 344 and a median read depth of 255. The fetal fractions for the four samples were found to be 9.9%, 18.9%, 16.3%, and 21.2%.

関連性のある母系のゲノムDNA試料および父系のゲノムDNA試料を、セミネステッド9600プレックスプロトコールを使用して増幅し、配列決定した。セミネステッドプロトコールは、第1のSTAにおいて9,600個の外側のフォワードプライマーおよびタグを付けたリバースプライマーを7.3nMで適用するという点で異なる。サーモサイクリング条件および第2のSTAの組成、およびバーコーディングPCRはヘミネステッドプロトコールについてのものと同じであった。 Related maternal and paternal genomic DNA samples were amplified and sequenced using a semi-nested 9600plex protocol. The semi-nested protocol differs in that 9,600 outer forward and tagged reverse primers are applied at 7.3 nM in the first STA. Thermocycling conditions and composition of the second STA, and barcoding PCR were the same as for the hemi-nested protocol.

配列決定データを、本明細書に開示されているインフォマティクス方法を用いて解析し、DNAが4つの母系の血漿試料中に存在した胎児について、6つの染色体において倍数性の状態をコールした。集団内の28個の染色体全てについての倍数性コールは正確にコールされ、信頼度は、正確にコールされたが、信頼度が83%であった1つの染色体以外は99.2%を超えた。 The sequencing data was analyzed using the informatics methods disclosed herein to call the ploidy state for six chromosomes for fetuses whose DNA was present in the four maternal plasma samples. Ploidy calls for all 28 chromosomes in the population were called correctly with confidence levels greater than 99.2% except for one chromosome that was called correctly with a confidence level of 83%.

図23は、9,600プレックスヘミネスティング手法のリード深度を、実験7に記載の1,200プレックスセミネステッド手法のリード深度と一緒に示すが、リード深度が100超、200超および400超であるSNPの数は1,200プレックスプロトコールにおけるそれよりも有意に多かった。第90パーセンタイルにおけるリード数を第10パーセンタイルにおけるリード数で割って、無次元のメトリックを得ることができ、それにより、リード深度の均一性が示され;その数が小さいほど、リード深度がより均一である(狭い)。平均の第90パーセンタイル/第10パーセンタイル比は、実験9において行った方法では11.5であるが、実験7において行った方法では5.6である。特定のリードの百分率がリード数の閾値を超えることを確実にするために、より少ないシーケンスリードが必要であるので、配列決定効率のためには、所与のプロトコールプレキシティ(plexity)に対してより狭いリード深度がより良い。 Figure 23 shows the read depth of the 9,600-plex hemi-nested approach along with the read depth of the 1,200-plex semi-nested approach described in experiment 7, where the number of SNPs with read depths >100, >200, and >400 were significantly higher than in the 1,200-plex protocol. The number of reads at the 90th percentile can be divided by the number of reads at the 10th percentile to obtain a dimensionless metric that indicates the uniformity of the read depth; the smaller the number, the more uniform (narrow) the read depth. The average 90th/10th percentile ratio is 11.5 for the method performed in experiment 9, but 5.6 for the method performed in experiment 7. Since fewer sequence reads are needed to ensure that a certain percentage of reads exceeds the read number threshold, a narrower read depth for a given protocol plexity is better for sequencing efficiency.

実験10
1つの実験では、4つの母系の血漿試料を調製し、セミネステッド9,600プレックスプロトコールを使用して増幅した。実験10の詳細は実験9と非常に類似しており、例外はネスティングプロトコールであること、および4つの試料の同一性を含めたことであった。集団内の28個の染色体全てについての倍数性コールは正確にコールされ、信頼度は99.7%を超えた。760万(97%)のリードがゲノムにマッピングされ、リードの630万(80%)が標的のSNPにマッピングされた。平均のリード深度は751であり、リード深度の中央値は396であった。
Experiment 10
In one experiment, four maternal plasma samples were prepared and amplified using a semi-nested 9,600-plex protocol. Details of experiment 10 were very similar to experiment 9, with the exception of the nesting protocol and the inclusion of four sample identities. Ploidy calls for all 28 chromosomes in the population were called correctly with confidence levels exceeding 99.7%. 7.6 million (97%) reads were mapped to the genome, and 6.3 million (80%) of the reads were mapped to targeted SNPs. The average read depth was 751, and the median read depth was 396.

実験11
1つの実験では、3つの母系の血漿試料を5つの均等な部分に分割し、各部分を、2,400個の多重化プライマー(4つの部分)または1,200個の多重化プライマー(1つの部分)のいずれかを使用して増幅し、合計10,800個のプライマーについて、セミネステッドプロトコールを使用して増幅した。増幅した後、配列決定するために該部分を一緒にプールした。実験11の詳細は実験9と非常に類似しており、例外は、ネスティングプロトコール、およびスプリットアンドプール手法であった。集団内の21個の染色体の全てについて、倍数性コールは正確にコールされ、信頼度は、信頼度83%でコールが上手く行かなかった1つ以外は99.7%を超えた。340万のリードが標的のSNPにマッピングされ、平均のリード深度は404であり、リード深度の中央値は258であった。
Experiment 11
In one experiment, three maternal plasma samples were split into five equal parts, and each part was amplified using either 2,400 multiplex primers (four parts) or 1,200 multiplex primers (one part), for a total of 10,800 primers, using a semi-nested protocol. After amplification, the parts were pooled together for sequencing. The details of experiment 11 were very similar to experiment 9, with the exception of the nesting protocol and the split-and-pool approach. For all 21 chromosomes in the population, ploidy calls were called correctly, with confidence exceeding 99.7%, except for one that was not called well, with a confidence of 83%. 3.4 million reads were mapped to the targeted SNPs, with an average read depth of 404 and a median read depth of 258.

実験12
1つの実験では、4つの母系の血漿試料を、4つの均等な部分に分割し、各部分を、2,400個の多重化プライマーを使用して増幅し、合計9,600個のプライマーについて、セミネステッドプロトコールを使用して増幅した。増幅した後、配列決定するために該部分を一緒にプールした。実験12の詳細は実験9と非常に類似しており、例外は、ネスティングプロトコール、およびスプリットアンドプール手法であった。集団内の28個の染色体全てについての倍数性コールは正確にコールされ、信頼度は、信頼度78%でコールが上手く行かなかった1つ以外は97%を超えた。450万のリードが標的のSNPにマッピングされ、平均のリード深度は535であり、リード深度の中央値は412であった。
Experiment 12
In one experiment, four maternal plasma samples were divided into four equal parts, and each part was amplified using 2,400 multiplex primers, for a total of 9,600 primers, using a semi-nested protocol. After amplification, the parts were pooled together for sequencing. The details of experiment 12 were very similar to experiment 9, with the exception of the nesting protocol and the split-and-pool approach. Ploidy calls for all 28 chromosomes in the population were called correctly, with confidence levels exceeding 97%, except for one poorly called call with a confidence level of 78%. 4.5 million reads were mapped to the targeted SNPs, with an average read depth of 535 and a median read depth of 412.

実験13
1つの実験では、4つの母系の血漿試料を調製し、合計9,600個のプライマーについて、9,600プレックス3重ヘミネステッドプロトコールを使用して増幅した。実験12の詳細は実験9と非常に類似しており、例外は、増幅の3つのラウンドを伴うネスティングプロトコールであり;該3つのラウンドは、それぞれ15サイクルのSTA、10サイクルのSTAおよび15サイクルのSTAを伴った。集団内の28個の染色体のうち27個についての倍数性コールは正確にコールされ、信頼度は、94.6%で正確にコールされた1つ、および信頼度80.8%でコールが上手く行かなかった1つ以外は99.9%を超えた。350万のリードが標的のSNPにマッピングされ、平均のリード深度は414であり、リード深度の中央値は249であった。
Experiment 13
In one experiment, four maternal plasma samples were prepared and amplified using a 9,600-plex triple hemi-nested protocol for a total of 9,600 primers. The details of experiment 12 were very similar to experiment 9, with the exception of a nested protocol with three rounds of amplification; the three rounds involved 15 cycles of STA, 10 cycles of STA, and 15 cycles of STA, respectively. Ploidy calls for 27 of the 28 chromosomes in the population were called correctly with confidence exceeding 99.9%, except for one that was called correctly at 94.6% and one that was not called well with confidence of 80.8%. 3.5 million reads were mapped to the targeted SNPs, with an average read depth of 414 and a median read depth of 249.

実験14 1つの実験では、細胞の集合45個を、1,200プレックスセミネステッドプロトコールを使用して増幅し、配列決定し、倍数性の決定を3つの染色体において行った。この実験は、3日目の胚由来の単一細胞生検材料または5日目の胚由来の栄養外胚葉生検材料において着床前遺伝子診断を実施する条件をシミュレートすることを意図していることに留意されたい。個々の単一細胞15個および3つの細胞の集合30個を、合計45の反応のために、45個の個々の反応チューブに入れ、各反応は、ただ1つの細胞系由来の細胞を含有したが、異なる反応は異なる細胞系由来の細胞を含有した。細胞を洗浄バッファー5μl中に調製し、ARCTURUS PICOPURE溶解緩衝液(APPLIED BIOSYSTEMS)5μlを加えることによって溶解させ、56℃で20分間、95℃で10分間インキュベートした。 Experiment 14 In one experiment, 45 sets of cells were amplified using a 1,200-plex semi-nested protocol, sequenced, and ploidy determinations were performed on three chromosomes. Note that this experiment is intended to simulate the conditions of performing preimplantation genetic diagnosis on single cell biopsies from day 3 embryos or trophectoderm biopsies from day 5 embryos. 15 individual single cells and 30 sets of three cells were placed into 45 individual reaction tubes for a total of 45 reactions, each reaction contained cells from only one cell line, but different reactions contained cells from different cell lines. Cells were prepared in 5 μl of wash buffer and lysed by adding 5 μl of ARCTURUS PICOPURE lysis buffer (APPLIED BIOSYSTEMS) and incubated at 56°C for 20 minutes and 95°C for 10 minutes.

単一の細胞/3つの細胞のDNAを、1200個の標的特異的フォワードプライマーおよびタグを付けたリバースプライマーを50nMのプライマー濃度を使用して、25サイクルのSTAを用いて増幅した(最初のポリメラーゼ活性化のために95℃で10分間、次いで95℃で30秒間;72℃で10秒間;65℃で1分間;60℃で8分間;65℃で3分間および72℃で30秒間;を25サイクル、および72℃で2分間の最終の伸長)。 Single cell/triple cell DNA was amplified with 25 cycles of STA using 1200 target-specific forward primers and tagged reverse primers at a primer concentration of 50 nM (initial polymerase activation at 95°C for 10 min, then 25 cycles of 95°C for 30 s; 72°C for 10 s; 65°C for 1 min; 60°C for 8 min; 65°C for 3 min and 72°C for 30 s; and a final extension at 72°C for 2 min).

セミネステッドPCRプロトコールは、1000nMの濃度のリバースタグ特異的プライマー、および、それぞれ60nMの濃度の400個の標的特異的ネステッドフォワードプライマーを使用したSTAの20サイクル(最初のポリメラーゼ活性化のために95℃で10分間、次いで95℃で30秒間;65℃で1分間;60℃で5分間;65℃で5分間および72℃で30秒間;を15サイクル、および72℃で2分間の最終の伸長)にわたる、第1のSTA産物の希釈物の3つの並行した第2の増幅を伴った。したがって、3つの並行400プレックス反応では、第1のSTAにおいて増幅された合計1200個の標的が増幅された。 The semi-nested PCR protocol involved three parallel second amplifications of dilutions of the first STA products over 20 cycles of STA (initial polymerase activation at 95°C for 10 min, then 95°C for 30 s; 65°C for 1 min; 60°C for 5 min; 65°C for 5 min and 72°C for 30 s; 15 cycles, and a final extension at 72°C for 2 min) using a reverse tag-specific primer at a concentration of 1000 nM and 400 target-specific nested forward primers at a concentration of 60 nM each. Thus, in three parallel 400-plex reactions, a total of 1200 targets amplified in the first STA were amplified.

次いで、STA産物の一定分量を、標準のPCRによって、1μMのタグ特異的なフォワードプライマーおよびバーコードを付けたリバースプライマーを用いて15サイクルにわたって増幅し、バーコードを付けた配列決定ライブラリーを生成した。各ライブラリーの一定分量を異なるバーコードのライブラリーと混合し、スピンカラムを使用して精製した。 Aliquots of the STA products were then amplified by standard PCR for 15 cycles with 1 μM tag-specific forward and barcoded reverse primers to generate barcoded sequencing libraries. Aliquots of each library were mixed with libraries of different barcodes and purified using spin columns.

このように、単一細胞反応において1,200個のプライマーを使用した;プライマーは、第1染色体、第21染色体およびX染色体上に見いだされるSNPを標的とするように設計した。次いで、増幅産物について、ILLUMINA GAIIXシーケンサーを用いて配列決定した。試料当たりおよそ390万のリードがシーケンサーによって生成され、5000億~8000億のリードがゲノムにマッピングされた(試料当たりの全てのリードの74%~94%)。 Thus, 1,200 primers were used in the single-cell reaction; primers were designed to target SNPs found on chromosomes 1, 21, and X. The amplified products were then sequenced using an ILLUMINA GAIIX sequencer. Approximately 3.9 million reads per sample were generated by the sequencer, and 500-800 billion reads were mapped to the genome (74%-94% of all reads per sample).

細胞系由来の関連性のある母系のゲノムDNA試料および父系のゲノムDNA試料を、同じセミネステッド1200プレックスアッセイプールを使用して、同様のプロトコールを用い、より少ないサイクルおよび1200プレックスの第2のSTAを用いて解析し、配列決定した。 Related maternal and paternal genomic DNA samples from cell lines were analyzed and sequenced using the same semi-nested 1200-plex assay pool, with a similar protocol, but with fewer cycles and a second STA of 1200-plex.

配列決定データを、本明細書に開示されているインフォマティクス方法を用いて解析し、試料について3つの染色体において倍数性の状態をコールした。 The sequencing data was analyzed using the informatics methods disclosed herein to call the ploidy state of the three chromosomes for the samples.

図24は、6つの試料について、3つの染色体(1=第1染色体;2=第21染色体;3=X染色体)における正規化されたリード深度の比(垂直方向の軸)を示す。比は、その染色体にマッピングされるリード数と等しくなるように設定し、正規化し、それぞれが3つの46XY細胞を含む3つのウェルにわたって平均した、その染色体にマッピングされるリード数で割った。46XY反応に対応する3つのデータ点の集合は、1:1の比を有することが予測される。47XX+21細胞に対応する3つのデータ点の集合は、第1染色体については1:1、第21染色体については1.5:1、およびX染色体については2:1の比を有することが予測される。 Figure 24 shows the normalized read depth ratios (vertical axis) for three chromosomes (1 = chromosome 1; 2 = chromosome 21; 3 = chromosome X) for six samples. The ratio was set equal to the number of reads mapping to that chromosome, normalized, and divided by the number of reads mapping to that chromosome averaged across three wells, each containing three 46XY cells. The set of three data points corresponding to a 46XY reaction is expected to have a 1:1 ratio. The set of three data points corresponding to a 47XX+21 cell is expected to have a 1:1 ratio for chromosome 1, 1.5:1 for chromosome 21, and 2:1 for chromosome X.

図25は、3つの反応に関して3つの染色体(1、21、X)についてプロットした対立遺伝子の比を示す。左下の反応は、3つの46XY細胞における反応を示す。左側の領域は第1染色体についての対立遺伝子の比であり、中央の領域は第21染色体についての対立遺伝子の比であり、右側の領域はX染色体についての対立遺伝子の比である。46XY細胞に関して、第1染色体については、SNP遺伝子型AA、ABおよびBBに対応する1、0.5および0の比が認められることが予想される。46XY細胞に関して、第21染色体については、SNP遺伝子型AA、ABおよびBBに対応する1、0.5および0の比が認められることが予想される。46XY細胞に関して、X染色体については、SNP遺伝子型A、およびBに対応する1および0の比が認められることが予想される。右下の反応は、3つの47XX+21細胞における反応を示す。対立遺伝子の比は、左下のグラフの場合と同様に染色体によって分離される。47XX+21細胞に関して、第1染色体については、SNP遺伝子型AA、ABおよびBBに対応する1、0.5および0の比が認められることが予想される。47XX+21細胞に関して、第21染色体については、SNP遺伝子型AAA、AAB、ABBおよびBBBに対応する1、0.67、0.33および0の比が認められることが予想される。47XX+21細胞に関して、X染色体については、SNP遺伝子型AA、AB、およびBBに対応する1、0.5および0の比が認められることが予想される。右上のプロットは、47XX+21細胞系由来のゲノムDNAを1ng含む反応に対して行われた。図26は、図25と同じグラフを示すが、ただ1つの細胞に対して実施された反応についてのものである。左側のグラフは、47XX+21細胞を含有する反応についてのグラフであり、右側のグラフは46XX細胞を含有する反応についてのグラフであった。 25 shows allelic ratios plotted for three chromosomes (1, 21, X) for three reactions. The bottom left reaction shows reactions in three 46XY cells. The left region is the allelic ratio for chromosome 1, the center region is the allelic ratio for chromosome 21, and the right region is the allelic ratio for the X chromosome. For 46XY cells, for chromosome 1, ratios of 1, 0.5, and 0 are expected to be observed, corresponding to SNP genotypes AA, AB, and BB. For 46XY cells, for chromosome 21, ratios of 1, 0.5, and 0 are expected to be observed, corresponding to SNP genotypes AA, AB, and BB. For 46XY cells, for the X chromosome, ratios of 1 and 0 are expected to be observed, corresponding to SNP genotypes A and B. The bottom right reaction shows reactions in three 47XX+21 cells. Allelic ratios are segregated by chromosome as in the bottom left graph. For 47XX+21 cells, for chromosome 1, ratios of 1, 0.5 and 0 are expected to be observed, corresponding to SNP genotypes AA, AB and BB. For 47XX+21 cells, for chromosome 21, ratios of 1, 0.67, 0.33 and 0 are expected to be observed, corresponding to SNP genotypes AAA, AAB, ABB and BBB. For 47XX+21 cells, for the X chromosome, ratios of 1, 0.5 and 0 are expected to be observed, corresponding to SNP genotypes AA, AB and BB. The plot in the top right was done for a reaction containing 1 ng of genomic DNA from the 47XX+21 cell line. Figure 26 shows the same graph as Figure 25, but for a reaction performed on only one cell. The graph on the left was for a reaction containing 47XX+21 cells, and the graph on the right was for a reaction containing 46XX cells.

図25および図26に示されているグラフから、1および0の比が認められることが予想される染色体については点のクラスターが2つあること、1、0.5、および0の比が認められることが予想される染色体については点のクラスターが3つあること、および1、0.67、0.33および0の比が認められることが予想される染色体については点のクラスターが4つあることが視覚的に明白である。parental supportアルゴリズムにより、45反応全ての3つの染色体の全てについて正確なコールを行うことができた。 From the graphs shown in Figures 25 and 26, it is visually apparent that there are two clusters of dots for chromosomes where a ratio of 1 and 0 is expected to be observed, three clusters of dots for chromosomes where a ratio of 1, 0.5, and 0 is expected to be observed, and four clusters of dots for chromosomes where a ratio of 1, 0.67, 0.33, and 0 is expected to be observed. The parental support algorithm was able to make accurate calls for all three chromosomes in all 45 reactions.

実験15
1つの実験では、母系の血漿試料を調製し、ヘミネステッド19,488プレックスプロトコールを使用して増幅した。試料を以下のように調製した:母系の血液最大20mLを遠心分離して、バフィーコートおよび血漿を単離した。母系試料のゲノムDNAをバフィーコートから調製し、父系のDNAを血液試料または唾液試料から調製した。母系の血漿中の無細胞DNAを、QIAGEN CIRCULATING NUCLEIC ACIDキットを使用して単離し、TE緩衝液50μLで製造者の指示に従って溶出した。ユニバーサルライゲーションアダプタを、精製された血漿DNA40μLの各分子の末端に付加し、ライブラリーを、アダプタ特異的プライマーを使用して9サイクルにわたって増幅した。ライブラリーを、AGENCOURT AMPUREビーズを使用して精製し、50μlのでDNA懸濁緩衝液で溶出した。
Experiment 15
In one experiment, maternal plasma samples were prepared and amplified using a hemi-nested 19,488-plex protocol. Samples were prepared as follows: up to 20 mL of maternal blood was centrifuged to isolate the buffy coat and plasma. Maternal genomic DNA was prepared from the buffy coat and paternal DNA was prepared from blood or saliva samples. Cell-free DNA in maternal plasma was isolated using the QIAGEN CIRCULATING NUCLEIC ACID kit and eluted in 50 μL of TE buffer according to the manufacturer's instructions. Universal ligation adaptors were added to the end of each molecule of 40 μL of purified plasma DNA and the library was amplified for nine cycles using adaptor-specific primers. The library was purified using AGENCOURT AMPURE beads and eluted in 50 μL of DNA suspension buffer.

19,488個の標的特異的タグを付けたリバースプライマーのプライマー濃度7.5nMおよび1つのライブラリーアダプタ特異的フォワードプライマーの500nMを使用し、15サイクルのSTAR1を用いて、6μlのDNAを増幅した(最初のポリメラーゼ活性化のために95℃で10分間、次いで、96℃で30秒間;65℃で1分間;58℃で6分間;60℃で8分間;65℃で4分間および72℃で30秒間;を15サイクル、および72℃で2分間の最終の伸長)。 6 μl of DNA was amplified with 15 cycles of STAR1 using primer concentrations of 7.5 nM of 19,488 target-specific tagged reverse primers and 500 nM of one library adaptor-specific forward primer (initial polymerase activation at 95°C for 10 min, then 15 cycles of 96°C for 30 s; 65°C for 1 min; 58°C for 6 min; 60°C for 8 min; 65°C for 4 min and 72°C for 30 s; and a final extension at 72°C for 2 min).

ヘミネステッドPCRプロトコールは、第1のSTAR1産物の希釈物の、1000nMのリバースタグ濃度、および19,488個の標的特異的フォワードプライマーのそれぞれについて20nMの濃度を用いた15サイクル(STAR2)の第2の増幅を伴った(最初のポリメラーゼ活性化のために95℃で10分間、次いで95℃で30秒間;65℃で1分間;60℃で5分間;65℃で5分間および72℃で30秒間;の15サイクル、および72℃で2分間の最終の伸長)。 The hemi-nested PCR protocol involved a second amplification of a dilution of the first STAR1 product with a reverse tag concentration of 1000 nM and a concentration of 20 nM for each of the 19,488 target-specific forward primers for 15 cycles (STAR2) (initial polymerase activation at 95°C for 10 min, then 15 cycles of 95°C for 30 s; 65°C for 1 min; 60°C for 5 min; 65°C for 5 min and 72°C for 30 s; and a final extension at 72°C for 2 min).

次いで、STAR2産物の一定分量を、標準のPCRによって、1μMのタグ特異的なフォワードプライマーおよびバーコードを付けたリバースプライマーを用いて12サイクルにわたって増幅し、バーコードを付けた配列決定ライブラリーを生成した。各ライブラリーの一定分量を異なるバーコードのライブラリーと混合し、スピンカラムを使用して精製した。 Aliquots of the STAR2 products were then amplified by standard PCR for 12 cycles with 1 μM tag-specific forward and barcoded reverse primers to generate barcoded sequencing libraries. Aliquots of each library were mixed with libraries of different barcodes and purified using spin columns.

このように、単一ウェル反応において19,488個のプライマーを使用した。プライマーは、第1染色体、第2染色体、第13染色体、第18染色体、第21染色体、X染色体およびY染色体上に認められるSNPを標的とするように設計した。次いで、増幅産物について、ILLUMINA GAIIXシーケンサーを用いて配列決定した。血漿試料に対し、およそ1000万のリードがシーケンサーによって生成され、940~960万のリードがゲノムにマッピングされ(94~96%)、それらのうち、99.95%が標的のSNPにマッピングされ、平均のリード深度は460であり、リード深度の中央値は350であった。比較のために計算してみると、完全に均等な分布は、1000万リード/19,488個の標的=513リード/標的となる。プライマー二量体に対しては、30,000リード(シーケンサーにより生成されたリードの0.3%)が配列決定されたプライマー二量体由来であった。ゲノム試料に対しては、99.4~99.7%のリードがゲノムにマップされ、この内の99.99%が標的SNPにマップされ、シーケンサーにより生成されたリードの0.1%がプライマー二量体であった。 Thus, 19,488 primers were used in a single-well reaction. Primers were designed to target SNPs found on chromosomes 1, 2, 13, 18, 21, X, and Y. The amplified products were then sequenced using an ILLUMINA GAIIX sequencer. Approximately 10 million reads were generated by the sequencer for the plasma samples, 9.4-9.6 million reads were mapped to the genome (94-96%), of which 99.95% were mapped to the targeted SNPs, with an average read depth of 460 and a median read depth of 350. For comparison, a perfectly even distribution would be 10 million reads/19,488 targets = 513 reads/target. For primer dimers, 30,000 reads (0.3% of the reads generated by the sequencer) were from sequenced primer dimers. For genomic samples, 99.4-99.7% of reads were mapped to the genome, of which 99.99% were mapped to the targeted SNPs, and 0.1% of the sequencer-generated reads were primer dimers.

1000万シークエンシングリードの血漿試料に対しては、通常、少なくとも19,488個の標的SNPの内の19,350個(99.3%)が増幅および配列決定される。200万シークエンシングリードのDNA試料に対しては、通常、少なくとも19,000標的SNP(97.5%)が増幅および配列決定される。数字が小さいのは、ランダムサンプリングノイズに起因する可能性がある。理由は、リード数が小さく、シーケンサーが一部の増幅産物を見逃すためである。必要があれば、シークエンシングリード数を多くして、増幅および配列決定される標的SNPの数を増やすことができる。 For a plasma sample with 10 million sequencing reads, typically at least 19,350 of the 19,488 target SNPs (99.3%) are amplified and sequenced. For a DNA sample with 2 million sequencing reads, typically at least 19,000 target SNPs (97.5%) are amplified and sequenced. The low numbers may be due to random sampling noise because the number of reads is small and the sequencer misses some amplification products. If necessary, the number of sequencing reads can be increased to increase the number of target SNPs that are amplified and sequenced.

関連性のある母系および父系ゲノムDNA試料を、STAR1中の7.5nMのセミネステッド19,488外側フォワードプライマーおよびタグ付加リバースプライマーを使って増幅した。サーモサイクリング条件およびSTAR2の組成、およびバーコーディングPCRはヘミネステッドプロトコールについてのものと同じであった。 Relevant maternal and paternal genomic DNA samples were amplified using 7.5 nM semi-nested 19,488 outer forward primers and tagged reverse primers in STAR1. Thermocycling conditions and composition of STAR2, and barcoding PCR were the same as for the hemi-nested protocol.

407個の試料に対する平均胎児画分は、14.8%であることが明らかになった。配列決定データを本明細書で開示のインフォマティクス法を使って解析し、407個の母系血漿試料の378個中にDNAが存在していた胎児の4個の染色体(13、18、21、Y)、および407個の母系血漿試料の375個中の染色体Xの倍数性状態をコールした。集団内の1,887個の染色体全てについての倍数性コールは正確にコールされ、信頼度は90%を超えた。1887コールの内の1882は、95%を超える信頼度であり、1,887コールの内の1,862は99%を超える信頼度であった。 The average fetal fraction for the 407 samples was found to be 14.8%. The sequencing data was analyzed using the informatics methods disclosed herein to call the ploidy state of four fetal chromosomes (13, 18, 21, Y) for which DNA was present in 378 of the 407 maternal plasma samples, and chromosome X in 375 of the 407 maternal plasma samples. Ploidy calls for all 1,887 chromosomes in the population were called correctly with greater than 90% confidence. 1,882 of the 1,887 calls were greater than 95% confident, and 1,862 of the 1,887 calls were greater than 99% confident.

血漿から抽出したDNAの代わりに水を使って、血漿PCRプロトコールにより類似の対照実験を行った。6種のこのような試行実験では、5~6%の配列決定リードがプライマー二量体であった。他の配列決定リードは、バックグラウンドノイズによるものであった。この実験は、プライマーがハイブリダイズする標的遺伝子座を有する核酸試料が存在しない場合であっても、(他のプライマーにハイブリダイズして増幅プライマー二量体が形成されないで)少量のプライマー二量体が形成されることを示す。 Similar control experiments were performed with the plasma PCR protocol using water instead of DNA extracted from plasma. In six such trials, 5-6% of the sequencing reads were primer dimers. The remaining sequencing reads were due to background noise. This experiment shows that a small amount of primer dimers are formed (without hybridizing to other primers and forming amplification primer dimers) even when there is no nucleic acid sample with a target locus for the primer to hybridize to.

実験16
次の実験は、本発明のいずれかの多重PCR法で使うことができるプライマーライブラリーの代表的設計および選択方法を示す。目的は、ただ1回の反応で大量の標的遺伝子座(または標的遺伝子座のサブセット)を同時に増幅するために使用できるプライマーを初期の候補プライマーライブラリーから選択することである。初期の候補標的遺伝子座集合に対しては、それぞれの標的遺伝子座に対するプライマーを設計または選択する必要はない。できるだけ多くの望ましい標的遺伝子座に対しプライマーが設計、選択されるの好ましい。
Experiment 16
The following experiment illustrates a representative method for designing and selecting a primer library that can be used in any of the multiplex PCR methods of the present invention. The goal is to select primers from the initial candidate primer library that can be used to simultaneously amplify a large number of target loci (or a subset of target loci) in a single reaction. For the initial set of candidate target loci, it is not necessary to design or select primers for each target locus. It is preferable to design and select primers for as many desired target loci as possible.

ステップ1
候補標的遺伝子座(例えば、SNP)の集合を、標的遺伝子座の望ましいパラメータ例えば、標的集団内のSNP頻度またはSNPのヘテロ接合率(ncbi.nlm.nih.gov/projects/SNP/のworldwide web;Sherry ST,Ward MH,Kholodov M,et al.dbSNP:遺伝的変異のNCBIデータベース、Nucleic Acids Res.2001 Jan 1;29(1):308-11。これらのそれぞれは、参照によりその全体が本明細書に組み込まれる)に関する公的に入手可能な情報に基づいて選択した。それぞれの候補遺伝子座に対し、Primer3プログラム(primer3.sourceforge.netのworldwide web;libprimer3 release 2.2.3。これらは、参照によりその全体が本明細書に組み込まれる)を使って、1個または複数個のPCRプライマー対が設計された。特定の標的遺伝子座のPCRプライマーに対する実行可能な設計が存在しなかった場合は、その標的遺伝子座をその後の検討から除外した。
Step 1
A set of candidate target loci (e.g., SNPs) was selected based on publicly available information regarding desirable parameters of the target loci, such as SNP frequency or SNP heterozygosity rate within a target population (worldwide web at ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward MH, Kholodov M, et al. dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1;29(1):308-11, each of which is incorporated herein by reference in its entirety). For each candidate locus, one or more PCR primer pairs were designed using the Primer3 program (worldwide web at primer3.sourceforge.net; libprimer3 release 2.2.3, which are incorporated herein by reference in their entireties). If there was no viable design for PCR primers for a particular target locus, that target locus was eliminated from further consideration.

必要に応じ、ほとんど、または全ての標的遺伝子座に対し「標的遺伝子座スコア」(高いスコアは、高い望ましさを表す)、例えば、種々の標的遺伝子座に望ましいパラメータの加重平均をベースにして計算した標的遺伝子座スコアを計算してもよい。パラメータは、プライマーが使われる特定の用途に対するそれらの重要性に応じて異なる加重を割り付けることができる。代表的パラメータには、標的遺伝子座のヘテロ接合率、標的遺伝子座の配列(例えば、多型)に関連する有病率、標的遺伝子座の配列(例えば、多型)に関連する疾患浸透度、標的遺伝子座の増幅に使われる候補プライマーの特異性、標的遺伝子座の増幅に使われる候補プライマーのサイズ、および標的増幅産物のサイズが含まれる。 Optionally, a "target locus score" (higher scores indicating higher desirability) may be calculated for most or all of the target loci, e.g., calculated based on a weighted average of parameters desirable for the various target loci. Parameters may be assigned different weights depending on their importance to the particular application for which the primers are used. Exemplary parameters include the heterozygosity rate of the target locus, the prevalence associated with the sequence (e.g., polymorphism) of the target locus, the disease penetrance associated with the sequence (e.g., polymorphism) of the target locus, the specificity of the candidate primers used to amplify the target locus, the size of the candidate primers used to amplify the target locus, and the size of the target amplicon.

ステップ2
それぞれのプライマーと、ステップ1からの全てのその他の標的遺伝子座に対する全てのプライマーとの間で熱力学的相互作用スコアを計算した(例えば、Allawi,H.T.& SantaLucia,J.,Jr.(1998),「Thermodynamics of Internal C-T Mismatches in DNA」,Nucleic Acids Res.26,2694-2701;Peyret,N.,Seneviratne,P.A.,Allawi,H.T.& SantaLucia,J.,Jr.(1999),「Nearest-Neighbor Thermodynamics and NMR of DNA Sequences with Internal A-A,C-C,G-G,and T-T Mismatches」,Biochemistry 38,3468-3477;Allawi,H.T.& SantaLucia,J.,Jr.(1998),「Nearest-Neighbor Thermodynamics of Internal A-C Mismatches in DNA:Sequence Dependence and pH Effects),Biochemistry 37,9435-9444.;Allawi,H.T.& SantaLucia,J.,Jr.(1998),「Nearest Neighbor Thermodynamic Parameters for Internal G-A Mismatches in DNA」,Biochemistry 37,2170-2179;およびAllawi,H.T.& SantaLucia,J.,Jr.(1997),「Thermodynamics and NMR of Internal G-T Mismatches in DNA」,Biochemistry 36,10581-10594;MultiPLX2.1(Kaplinski L,Andreson R,Puurand T,Remm M.MultiPLX:automatic grouping and evaluation of PCR primers.Bioinformatics.2005 Apr 15;21(8):1701-2、を参照。これらの文献は参照によりその全体が本明細書に組み込まれる)。このステップは、相互作用スコアの2D行列を生成する。相互作用スコアにより、2個の相互作用プライマーを含むプライマー二量体の尤度を予測した。スコアは、下式のように計算された:
相互作用_スコア=max(-deltaG_2,0.8*(-deltaG_1))
式中、
deltaG_2=PCRにより両端で伸長可能な、すなわち、それぞれのプライマーの3’末端が他のプライマーにアニールする二量体に対するギブズエネルギー(二量体を破断するのに要するエネルギー);および
deltaG_1=少なくとも一端でPCRにより伸長可能な二量体に対するギブズエネルギー、である。
Step 2
Thermodynamic interaction scores were calculated between each primer and all primers for all other target loci from step 1 (see, e.g., Alawi, H. T. & SantaLucia, J., Jr. (1998), "Thermodynamics of Internal C-T Mismatches in DNA", Nucleic Acids Res. 26, 2694-2701; Peyret, N., Seneviratne, P. A., Alawi, H. T. & SantaLucia, J., Jr. (1999), "Nearest-Neighbor Thermodynamics and NMR of DNA Sequences with "Nearest-Neighbor Thermodynamics of Internal A-C Mismatches in DNA: Sequence Dependence and pH Effects," Biochemistry 37, 9435-9444.; "Nearest-Neighbor Thermodynamics of Internal A-C Mismatches in DNA: Sequence Dependence and pH Effects," Biochemistry 37, 9435-9444.; "Nearest-Neighbor Thermodynamics of Internal A-C Mismatches in DNA: Sequence Dependence and pH Effects," Biochemistry 37, 9435-9444. Neighbor Thermodynamic Parameters for Internal G-A Mismatches in DNA", Biochemistry 37, 2170-2179; and Alawi, H. T. & SantaLucia, J. , Jr. (1997), "Thermodynamics and NMR of Internal G-T Mismatches in DNA", Biochemistry 36, 10581-10594; MultiPLX2.1 (see Kaplinski L, Andreson R, Puurand T, Remm M. MultiPLX: automatic grouping and evaluation of PCR primers. Bioinformatics. 2005 Apr 15;21(8):1701-2, which are incorporated by reference in their entireties). This step generates a 2D matrix of interaction scores. The interaction score predicted the likelihood of a primer dimer containing two interacting primers. The score was calculated as follows:
Interaction score = max (-deltaG_2, 0.8 * (-deltaG_1))
In the formula,
deltaG_2=Gibbs energy (the energy required to break a dimer) for a dimer that is extendable at both ends by PCR, i.e., the 3' end of each primer anneals to the other primer; and deltaG_1=Gibbs energy for a dimer that is extendable at at least one end by PCR.

ステップ3:
それぞれの標的遺伝子座に対し、2個以上のプライマー対設計が存在する場合、下記の方法を使って1個の設計が選択される:
1 遺伝子座のそれぞれのプライマー対設計に対し、その設計の2個のプライマーおよびその他の全ての標的遺伝子座に対する全ての設計による全てのプライマーに対し、最悪の(最高の)相互作用スコアを見つける。
2 最悪相互作用スコア中で最良の(最低の)スコアを有する設計を選択する。
Step 3:
For each target locus, if there is more than one primer pair design, one design is selected using the following method:
1. For each primer pair design at a locus, find the worst (best) interaction score for the two primers of that design and all primers from all designs to all other target loci.
2. Select the design with the best (lowest) score among the worst interaction scores.

ステップ4
それぞれのノードが1個の遺伝子座およびその関連するプライマー対設計(例えば、最大クリーク問題)を表すようにグラフが構築された。それぞれのノード対間に1個のエッジをを形成した。それぞれのエッジに、エッジにより連結された2つのノードに関連するプライマーの内の最悪の(最高の)相互作用スコアに等しい加重を割り付けた。
Step 4
A graph was constructed such that each node represented one locus and its associated primer pair design (e.g., maximum clique problem). An edge was created between each pair of nodes. Each edge was assigned a weight equal to the worst (best) interaction score among the primers associated with the two nodes connected by the edge.

ステップ5
必要に応じ、1つの設計による1個のプライマーと、別の設計による1個のプライマーが重複する標的領域にアニールすると思われる2個の異なる標的遺伝子座の全ての設計対に対して、2個の設計に対するノード間に追加のエッジを加えた。これらのエッジの加重を、ステップ4で割りつけられた最高加重と同じに設定した。従って、ステップ5は、重複する標的領域にアニールし、従って、多重PCR反応中に相互に干渉すると思われるプライマーがライブラリーに含まれるのを防ぐ。
Step 5
Where necessary, for every pair of designs at two different target loci where one primer from one design and one primer from another design would anneal to overlapping target regions, additional edges were added between the nodes for the two designs. The weights of these edges were set equal to the highest weight assigned in step 4. Thus, step 5 prevents the library from including primers that anneal to overlapping target regions and thus would interfere with each other during the multiplex PCR reaction.

ステップ6
初期の相互作用スコア閾値は、次式で計算された:
加重_閾値=max(エッジ_加重)-0.05*(max(エッジ_加重)-min(エッジ_加重))
式中、
max(エッジ_加重)は、グラフ中の最大エッジ加重であり、
min(エッジ_加重)は、グラフ中の最小エッジ加重である。
閾値の開始点は、下記のように設定された:
max_加重_閾値=max(エッジ_加重)
min_加重_閾値=min(エッジ_加重)
Step 6
The initial interaction score threshold was calculated as follows:
weight_threshold=max(edge_weight)-0.05*(max(edge_weight)-min(edge_weight))
In the formula,
max(edge_weight) is the maximum edge weight in the graph,
min(edge_weight) is the minimum edge weight in the graph.
The starting thresholds were set as follows:
max_weight_threshold=max(edge_weight)
min_weight_threshold=min(edge_weight)

ステップ7
加重_閾値を超える加重のエッジのみを有し、ステップ5のグラフと同じ設定のノードからなる新規グラフを構築した。従って、このステップは、加重_閾値以下のスコアの相互作用を無視している。
Step 7
A new graph was constructed with only edges with weights above weight_threshold and with the same set of nodes as the graph in step 5. This step therefore ignores interactions with scores below weight_threshold.

ステップ8
残存エッジが無くなるまで、ノード(および除去されたノードに連結された全てのエッジ)をステップ7のフラグから除去した。それぞれ以下の手順を反復適用して、ノードを除去した:
1 最高角度の(最高数のエッジを持つ)ノードを見つける。2個以上ある場合は、任意の1個を選択する。
2 上記で選択したノードからなるノードおよびそれに連結した全てのノードの集合を定める(但し、上記で選択したものより小さい角度のノードは除く)。
3 ステップ1由来の最小標的遺伝子座スコア(より小さいスコアは、より低い望ましさを表す)を有する集合からノードを選択する。そのノードをグラフから除去する。
Step 8
Nodes (and all edges connected to the removed nodes) were removed from the flag in step 7 until there were no remaining edges. Nodes were removed by iteratively applying the following steps for each:
1. Find the node with the highest angle (with the highest number of edges). If there is more than one, choose an arbitrary one.
2. Define a set of nodes consisting of the nodes selected above and all nodes connected to it (excluding nodes at angles less than those selected above).
3. Select the node from the set with the minimum target locus score (smaller scores represent less desirable) from step 1. Remove that node from the graph.

ステップ9
グラフに残っているノードの数が多重PCRプール用として必要な標的遺伝子の数を満たす場合は(許容可能な誤差内で)、前記方法をステップ10で継続した。
Step 9
If the number of nodes remaining in the graph satisfied the number of target genes required for the multiplex PCR pool (within an acceptable error), the method continued at step 10.

グラフに残っているのが多すぎるか、または少なすぎる場合は、二分探索を行って何の閾値がグラフ中に残っている望ましい数のノードを生成したかを判定した。グラフ中に多すぎるノードがあった場合、加重閾値境界を下式のように調節した:
max_加重_閾値=加重_閾値
そうでない場合(グラフ中に少なすぎるノードしかない場合)、加重閾値境界を下式のように調節した:
min_加重_閾値=加重_閾値
次に、加重閾値を下式のように調節した:
加重_閾値=(max_加重_閾値+min_加重_閾値)/2
ステップ7~9を繰り返した。
If there were too many or too few nodes remaining in the graph, a binary search was performed to determine what threshold produced the desired number of nodes remaining in the graph. If there were too many nodes in the graph, the weighted threshold bounds were adjusted as follows:
max_weight_threshold=weight_threshold. Otherwise (if there are too few nodes in the graph), the weight threshold boundary was adjusted as follows:
min_weighted_threshold=weighted_threshold Then, the weighted threshold was adjusted as follows:
Weight_threshold=(max_weight_threshold+min_weight_threshold)/2
Steps 7-9 were repeated.

ステップ10
グラフ中に残っているノードに関連するプライマー対設計をプライマーライブラリー用に選択した。このプライマーライブラリーを本発明のいずれかの方法で使用できる。
Step 10
Primer pair designs associated with the remaining nodes in the graph were selected for a primer library that can be used in any of the methods of the invention.

必要に応じ、このプライマー設計および選択方法は、1個のみのプライマー(プライマー対ではなく)が標的遺伝子座の増幅に使用されるプライマーライブラリーに対しても実行できる。この場合には、ノードは、(プライマー対ではなく)1個のプライマー当たりの標的遺伝子座を示す。 Optionally, this primer design and selection method can also be performed on primer libraries where only one primer (rather than a primer pair) is used to amplify a target locus. In this case, the nodes represent the target locus per primer (rather than a primer pair).

実験17
図27は、本発明の方法を使って設計された2種のプライマーライブラリーを比較するグラフである。このグラフは、それぞれのプライマーライブラリーの標的となる特定のマイナー対立遺伝子頻度を有する遺伝子座の数を示す。「新規プール」ライブラリーの選択中、より多くのプライマーが保持された。このライブラリーは、より多くの標的遺伝子座、特に、より多くの比較的大きなマイナー対立遺伝子頻度を有する標的遺伝子座(これは、本発明の一部の方法、例えば、胎児の染色体異常の検出に対しより高い情報価値のある対立遺伝子である)の増幅を可能とする。
Experiment 17
27 is a graph comparing two primer libraries designed using the methods of the invention. The graph shows the number of loci with a particular minor allele frequency targeted by each primer library. More primers were retained during selection of the "New Pool" library. This library allows for the amplification of more target loci, particularly more target loci with relatively large minor allele frequencies (which are alleles that are more informative for some methods of the invention, e.g., detection of fetal chromosomal abnormalities).

これらのプライマーライブラリーを次の多重PCR法で使用した。血液(20~40mL)をそれぞれの対象から2個~4個のCELL-FREE(商標)DNAチューブ(Streck)中に採取した。血漿(最低限7mL)を、2,000gで20分間、続けて3,220gで30分間の二重遠心分離プロトコールによりそれぞれの試料から単離し、第1回目の遠心分離後に上清を移した。QIAGEN QIAamp Circulating Nucleic Acidキットを使ってcfDNAを7~20mLの血漿から単離し、45uLのTE緩衝剤で溶出した。純母系ゲノムDNAを第1回目の遠心分離後に得られたバフィーコートから単離し、純父系ゲノムDNAを血液,唾液または頬側試料から同様にして調製した。 These primer libraries were used in the following multiplex PCR method. Blood (20-40 mL) was collected from each subject into 2-4 CELL-FREE™ DNA tubes (Streck). Plasma (minimum 7 mL) was isolated from each sample using a double centrifugation protocol at 2,000 g for 20 min followed by 3,220 g for 30 min, with the supernatant decanted after the first centrifugation. cfDNA was isolated from 7-20 mL of plasma using the QIAGEN QIAamp Circulating Nucleic Acid kit and eluted with 45 uL of TE buffer. Pure maternal genomic DNA was isolated from the buffy coat obtained after the first centrifugation, and pure paternal genomic DNA was prepared similarly from blood, saliva or buccal samples.

11,000標的特異的アッセイを使って、母系cfDNA、母系ゲノムDNA、および父系ゲノムDNA試料を15サイクル前増幅し、一定分量をネステッドプライマーを使った15サイクルの第2のPCR反応に移した。最終的に、第3の12サイクルラウンドのPCRでバーコード化タグを付加することにより試料をシークエンシング用に調製した。従って、1回の反応で11,000標的を増幅し、標的は、13、18、21、X、およびY染色体上に認められるSNPを含んでいた。その後、ILLUMINA GAIIxまたはHISEQシーケンサーを使って増幅産物を配列決定した。胎児の遺伝子型より浅いリード深度(cfDNAのリード深度の約20%)で親の遺伝子型を配列決定した。 Using the 11,000 target-specific assay, maternal cfDNA, maternal genomic DNA, and paternal genomic DNA samples were preamplified for 15 cycles and aliquots were transferred to a second PCR reaction with nested primers for 15 cycles. Finally, samples were prepared for sequencing by adding barcoded tags in a third 12-cycle round of PCR. Thus, 11,000 targets were amplified per reaction, including SNPs found on chromosomes 13, 18, 21, X, and Y. Amplification products were then sequenced using an ILLUMINA GAIIx or HISEQ sequencer. Parental genotypes were sequenced at a shallower read depth (approximately 20% of the cfDNA read depth) than fetal genotypes.

実験18
必要に応じ、標準的な方法、例えば、Agilent Technologies 2100 Bioanalyzer(図28A-M)を使ってPCR産物のサイズと量を分析できる。例えば、2,400プレックス(図28B-28G)および19,488プレックス実験(図28H~28M)に本明細書で記載のネスティングなしの直接PCR法を使用した。図28B~28Dと28H~28J用のプライマーの量は10nMであった。図28E~28Gと28K~28Mのプライマーの量は1nMであった。図28B、28E、28H、および28Kでは、入力DNAの量は24ng;図28C、28F、28I、および28Lでは、80ng;ならびに、図28D、28G、28J、および28Mでは250ngであった。より多くの入力DNAでは、より大きな比率の所望の180塩基対産物が生成した。140塩基対の位置のピークは、プライマー二量体産物である。
Experiment 18
If desired, PCR products can be analyzed for size and quantity using standard methods, for example, an Agilent Technologies 2100 Bioanalyzer (Figures 28A-M). For example, the non-nested direct PCR method described herein was used for the 2,400-plex (Figures 28B-28G) and 19,488-plex experiments (Figures 28H-28M). Primer amounts for Figures 28B-28D and 28H-28J were 10 nM. Primer amounts for Figures 28E-28G and 28K-28M were 1 nM. For Figures 28B, 28E, 28H, and 28K, the amount of input DNA was 24 ng; for Figures 28C, 28F, 28I, and 28L, 80 ng; and for Figures 28D, 28G, 28J, and 28M, 250 ng. More input DNA produced a greater proportion of the desired 180 base pair product. The peak at 140 base pair position is the primer dimer product.

実験19
原理証明調査は、全染色体にわたり等しく高い正確度でのT13,T18,T21,45,X,および47,XXYの検出を実証した。
Experiment 19
Proof-of-principle studies demonstrated detection of T13, T18, T21, 45,X, and 47,XXY with equally high accuracy across all chromosomes.

患者
地域法に準じて施設内審査委員会により承認されたプロトコールに基づいて、妊娠中の夫婦を特殊出生前ケアセンター(specific prenatal care center)に登録した。選択規準は、少なくとも18才の年令、少なくとも9週間の妊娠期間、単胎妊娠、およびインフォームドコンセントへのサインであった。血液試料を妊娠中の母親から採取し、血液または頬側試料を父親から集めた。2例のT13(パトー症候群)を有する妊娠、2例のT18(エドワーズ症候群)を有する妊娠、2例のT21(ダウン症候群)を有する妊娠、2例の45,Xを有する妊娠、2例の47,XXYを有する妊娠、および90例の正常妊娠、由来の試料を、試験前に約500人の女性のコホートから選択し、その方法がどの染色体異常を検出するかを試験した。誕生後の子供組織が入手可能な場合、その試料に対し、正常胎児の核型を分子核型分析により確認した。低リスク女性の侵襲的検査の前に正倍数体試料を採取した。正倍数体試料を、侵襲的検査後少なくとも7日間採取し、別々の研究所での細胞遺伝学的核型分析または蛍光インサイツハイブリダイゼーションにより異数性を確認した。
Patients Pregnant couples were enrolled in a specific prenatal care center under a protocol approved by the Institutional Review Board in accordance with local law. Inclusion criteria were age at least 18 years, gestational age at least 9 weeks, singleton pregnancy, and signed informed consent. Blood samples were taken from pregnant mothers and blood or buccal samples were collected from fathers. Samples from 2 pregnancies with T13 (Patau syndrome), 2 with T18 (Edwards syndrome), 2 with T21 (Down syndrome), 2 with 45,X, 2 with 47,XXY, and 90 normal pregnancies were selected from a cohort of approximately 500 women prior to testing to test which chromosomal abnormalities the method detects. When postnatal child tissue was available, normal fetal karyotype was confirmed by molecular karyotyping. Euploid samples were collected prior to invasive testing in low-risk women. Euploid samples were collected at least 7 days after invasive testing and aneuploidy was confirmed by cytogenetic karyotype analysis or fluorescent in situ hybridization in a separate laboratory.

試料調製および多重PCR
図30A~E、30G、30H、および31A-31G中のデータに対しては、実験15で記載のように試料調製および19,488プレックスPCRを行った。図30F中のデータに関しては、実験17で記載のように試料調製および11,000プレックスPCRを行った。
Sample preparation and multiplex PCR
For the data in Figures 30A-E, 30G, 30H, and 31A-31G, sample preparation and 19,488-plex PCR were performed as described in experiment 15. For the data in Figure 30F, sample preparation and 11,000-plex PCR were performed as described in experiment 17.

方法およびデータ解析
アルゴリズムは、親の遺伝子型および乗換え頻度データ(例えば、ハップマップデータベース由来のデータ)を考慮して、極めて多数の可能な胎児の倍数性状態、および、種々の胎児のcfDNA画分に対する19,488多形遺伝子座での予測される対立遺伝子分布を計算する(図29A~29C)。対立遺伝子比に基づく方法と異なり、アルゴリズムは、連鎖不平衡も考慮に入れ、非ガウス分布データモデルを使って、観察プラットフォーム特性および増幅の偏りを有するSNPに対する対立遺伝子測定の予測分布を示す。その後、アルゴリズムは、種々の予測対立遺伝子分布を、cfDNA試料で測定した実際の対立遺伝子分布と比較し(図29C)、配列決定データに基づいてそれぞれの仮説(モノソミー,ダイソミー,またはトリソミー、これらに対しては、種々の可能な乗換えに基づいて多くの仮説が存在する)の尤度を計算する。アルゴリズムは、それぞれの個別のモノソミー,ダイソミー,またはトリソミー仮説の尤度を合計し(図29D)、コピー数および胎児画分として最大合計尤度を有する倍数性状態をコールする(図29E)。研究室の研究者は、試料核型に対し盲検方式ではなかったが、アルゴリズムは、ヒトの介入なしに倍数性状態をコールするので、真実に対し盲検性が維持されている。
Methods and Data Analysis The algorithm considers parental genotypes and crossover frequency data (e.g., from the HapMap database) to calculate a large number of possible fetal ploidy states and predicted allele distributions at 19,488 polymorphic loci for different fetal cfDNA fractions (Figures 29A-29C). Unlike allele ratio-based methods, the algorithm also takes into account linkage disequilibrium and uses a non-Gaussian data model to show predicted distributions of allele measurements for SNPs with observed platform characteristics and amplification bias. The algorithm then compares the different predicted allele distributions with the actual allele distributions measured in the cfDNA samples (Figure 29C) and calculates the likelihood of each hypothesis (monosomy, disomy, or trisomy, for which there are many hypotheses based on the different possible crossovers) based on the sequencing data. The algorithm sums the likelihood of each individual monosomy, disomy, or trisomy hypothesis (Figure 29D) and calls the ploidy state with the greatest total likelihood as copy number and fetal fraction (Figure 29E). Although laboratory investigators were not blinded to sample karyotype, the algorithm calls ploidy states without human intervention, thus remaining blind to the truth.

データの解釈
生成データのグラフ表示
対象染色体の倍数性状態を決定するために、アルゴリズムは、染色体当たり3,000~4,000個のSNP位置のそれぞれの2個の可能な対立遺伝子の配列数の分布を考慮する。アルゴリズムは、可視化には役立たない手法を使って倍数性コールを行うことに留意することは重要である。従って、説明のために、本明細書では、データは単純化された方式で、AとBとして標識される2個の最も可能性のある対立遺伝子の比率として示され、それにより、関連する傾向がより容易に可視化できる。この単純化図示は、アルゴリズムの一部の特徴を考慮していない。例えば、対立遺伝子比率を提示する可視化の方法では説明できない2つの重要なアルゴリズムの側面は、1)連鎖不平衡、すなわち、1個のSNPでの測定が隣接するSNPの可能な固有の特性に与える影響を活用する能力、および、2)プラットフォーム特性および増幅偏りを有するSNPに対する予測される対立遺伝子測定値の分布を説明する非ガウス分布データモデルの使用である。また、アルゴリズムは、それぞれのSNP位置で2つの、最も頻度の高い対立遺伝子を考慮するのみで、他の可能な対立遺伝子を無視することにも留意されたい。
Interpretation of the Data Graphical Representation of Generated Data To determine the ploidy state of the chromosome of interest, the algorithm considers the distribution of sequence counts of the two possible alleles at each of the 3,000-4,000 SNP positions per chromosome. It is important to note that the algorithm makes ploidy calls using an approach that does not lend itself to visualization. Thus, for purposes of illustration, the data is presented herein in a simplified manner as the ratio of the two most likely alleles, labeled A and B, so that the associated trends can be more easily visualized. This simplified illustration does not take into account some features of the algorithm. For example, two important aspects of the algorithm that cannot be accounted for in the visualization method of presenting allele ratios are 1) the ability to exploit linkage disequilibrium, i.e., the impact of measurements at one SNP on the possible unique properties of adjacent SNPs, and 2) the use of a non-Gaussian data model that accounts for the distribution of expected allele measurements for SNPs with platform characteristics and amplification bias. Also note that the algorithm only considers the two most frequent alleles at each SNP position and ignores other possible alleles.

図30A~30Hのグラフ表示は、2個、1個、または3個の胎児染色体が存在する試料を含む。通常、これらは、正倍数性(図30A~30C)、モノソミー(図30D)、およびトリソミー(図30E~30H)をそれぞれ示す。全てのプロットで、それぞれのスポットは、単一SNPを示し、標的SNPは、1個の染色体に対し左から右へ水平軸に沿って順次プロットされる。垂直軸は、A対立遺伝子に対するリード数を、そのSNPに対するAとB両方の対立遺伝子の合計リード数に対する比率として示す。測定は、母系血液から単離された合計cfDNAに対し行われ、cfDNAは、母系と胎児両方のcfDNAを含み、従って、それぞれのスポットは、そのSNPに対する胎児と母系DNAの寄与の組み合わせを表すことに留意されたい。従って、母系cfDNAの0%~100%の比率の増加は、いくつかのスポットを、母系と胎児の遺伝子型に応じてプロット内で徐々にに上下に移動させることになるであろう。 The graphical representations in Figures 30A-30H include samples in which two, one, or three fetal chromosomes are present. Typically, these indicate euploidy (Figures 30A-30C), monosomy (Figure 30D), and trisomy (Figures 30E-30H), respectively. In all plots, each spot represents a single SNP, and the target SNPs are plotted sequentially along the horizontal axis from left to right for one chromosome. The vertical axis represents the number of reads for the A allele as a ratio to the total number of reads for both A and B alleles for that SNP. Note that measurements were made on total cfDNA isolated from maternal blood, which includes both maternal and fetal cfDNA, and therefore each spot represents the combined contribution of fetal and maternal DNA to that SNP. Thus, an increase in the proportion of maternal cfDNA from 0% to 100% would cause some spots to gradually move up and down in the plot depending on maternal and fetal genotypes.

可視化を容易にすることが必要な場合には、母系遺伝子型はそれぞれのスポットの局在化に多く寄与し、大部分のトリソミーは、母系遺伝であるため、母系遺伝子型に応じてスポットを色分けでき、これは倍数性状態の可視化に有用である。具体的には、母系遺伝子型がAAであるSNPは、赤色で示すことができ、母系遺伝子型がABであるSNPは緑色で示すことができ、母系遺伝子型がBBであるSNPは青色で示すことができる。 If needed to facilitate visualization, the spots can be colored according to maternal genotype, which is useful for visualizing ploidy status, since the maternal genotype contributes a lot to the localization of each spot and most trisomies are maternally inherited. Specifically, SNPs with maternal genotype AA can be shown in red, SNPs with maternal genotype AB can be shown in green, and SNPs with maternal genotype BB can be shown in blue.

全てのケースで、A対立遺伝子に対し母親と胎児の両方由来のホモ接合(AA)であるSNPは、B対立遺伝子が存在しないはずのためA対立遺伝子リード比率が高いので、プロットの上限にぴったりと張り付いているのが認められる。逆に、B対立遺伝子に対し母親と胎児の両方由来のホモ接合であるSNPは、B対立遺伝子のみが存在するはずなのでA対立遺伝子リード比率が小さいために、プロットの下限にぴったりと張り付いているのが認められる。プロットの上限にも下限にもぴったりと張り付かないスポットは、母親、胎児、または両方がヘテロ接合であるSNPを示す。これらのスポットは、胎児の倍数性を特定するのに有用であるが、父系対母系遺伝の判定に対し情報価値のある場合もある。これらのスポットは、母系と胎児の遺伝子型および胎児画分の両方に基づいて分離し、従って、それぞれのy軸に沿った個別のスポットの詳細な位置は、化学量論および胎児画分の両方に依存する。例えば、母がAAで胎児がABである遺伝子座は、異なるA対立遺伝子リード比率を有し、従って、胎児画分に応じてy軸に沿った異なる位置を取ると予測される。 In all cases, SNPs that are homozygous for the A allele (AA) from both the mother and fetus are seen to stick to the upper limit of the plot because the A allele read ratio is high since the B allele should not be present. Conversely, SNPs that are homozygous for the B allele from both the mother and fetus are seen to stick to the lower limit of the plot because the A allele read ratio is small since only the B allele should be present. Spots that do not stick to either the upper or lower limit of the plot indicate SNPs where the mother, fetus, or both are heterozygous. These spots are useful for identifying fetal ploidy, but may also be informative for determining paternal versus maternal inheritance. These spots separate based on both maternal and fetal genotypes and fetal fraction, and therefore the precise location of individual spots along each y-axis depends on both stoichiometry and fetal fraction. For example, loci where the mother is AA and the fetus is AB are expected to have different A allele read ratios and therefore occupy different positions along the y-axis depending on the fetal fraction.

2個の染色体の存在
図30A~30Cは、試料が完全に母系の場合(胎児のcfDNAが存在しない場合:図30A)、中程度の胎児のcfDNA画分を含む場合(図30B)、または高い胎児のcfDNA画分を含む場合(図30C)の2個の染色体の存在を示すデータである。
Presence of Two Chromosomes Figures 30A-30C provide data showing the presence of two chromosomes when samples are entirely maternal (no fetal cfDNA present: Figure 30A), contain a medium fetal cfDNA fraction (Figure 30B), or contain a high fetal cfDNA fraction (Figure 30C).

図30Aは、非妊婦の血液から単離したcfDNAから得たデータを示す。胎児のcfDNAが存在せず、試料が母系cfDNAのみを含む場合、プロットは、純粋に正倍数体母系遺伝子型を表し、ホールマークパターンは、スポットの「クラスター」を含み、赤色クラスターがプロットの上端にぴったりと張り付いており(母系遺伝子型がAAであるSNP)、青色クラスターがプロットの下端にぴったりと張り付いており(母系遺伝子型がBBであるSNP)、さらに、単一の緑色クラスターが中央に存在する(母系遺伝子型がABであるSNP)(図では色を示さず)。 Figure 30A shows data from cfDNA isolated from non-pregnant blood. When fetal cfDNA is absent and the sample contains only maternal cfDNA, the plot represents purely euploid maternal genotypes, with the hallmark pattern including "clusters" of spots, with a red cluster tightly attached to the top of the plot (SNPs with maternal genotype AA), a blue cluster tightly attached to the bottom of the plot (SNPs with maternal genotype BB), and a single green cluster in the middle (SNPs with maternal genotype AB) (color not shown in figure).

胎児のcfDNAが存在する場合は、スポットの位置は、クラスターが離散的「バンド」に分離するように移動する。0%の胎児画分の試料に対して、ひとまとまりのスポットは、「クラスター」と呼ばれ(図30Aのように)、また、0%を超える胎児画分の全ての試料に対しては、ひとまとまりのスポットは、「バンド」(図30B~30Jのように)と呼ばれることに留意されたい。胎児画分が十分大きい場合、これらの離散的バンドは、容易に目視可能となろう。具体的には、図30Bと30Cは、中程度および高い胎児画分がそれぞれ存在する2個の胎児染色体に関連する特徴的パターンを示す。このパターンは、母親中でヘテロ接合であるSNPに対応する3つの中央緑色バンド、および母親中でホモ接合であるSNPに対応するそれぞれプロットの上端(赤)および下端(青)の両方にある2つの「周辺」バンドを含む(図では色を示さず)。 If fetal cfDNA is present, the locations of the spots shift such that the clusters separate into discrete "bands." Note that for samples with 0% fetal fraction, the cluster of spots is called a "cluster" (as in FIG. 30A), and for all samples with fetal fractions greater than 0%, the cluster of spots is called a "band" (as in FIGS. 30B-30J). If the fetal fraction is large enough, these discrete bands will be easily visible. Specifically, FIGS. 30B and 30C show a characteristic pattern associated with two fetal chromosomes with medium and high fetal fractions, respectively. This pattern includes three central green bands corresponding to SNPs that are heterozygous in the mother, and two "peripheral" bands at both the top (red) and bottom (blue) ends of the plot, respectively, corresponding to SNPs that are homozygous in the mother (color not shown in the figure).

図30Bは、正倍数体胎児保有女性由来で、12%胎児のcfDNA画分を含む血漿試料から単離したcfDNA由来のデータを示す。ここで、プロットの上端および下端にぴったり張り付いたスポットのクラスターは、それぞれ:プロットの上端または下端にぴったり張り付いたまま残っている1つの赤色および1つの青色外側周辺バンド、ならびにプロットの端部から離れた1つの赤色および1つの青色内側周辺バンド、の2つの離散的バンドに分離する(図では色を示さず)。これらの0.92と0.08近傍を中心とする内側周辺バンドは、母系遺伝子型がAAで胎児の遺伝子型がAB(赤色で示す)であるSNP、および母系遺伝子型がBBで胎児の遺伝子型がABであるSNP(青色で示す)をそれぞれ表す。緑色のスポットの中央クラスターは広がっているが、この胎児画分では、明確なバンドへの分離は容易には視認できない。 Figure 30B shows data from cfDNA isolated from a plasma sample from a woman with a euploid fetus and containing a 12% fetal cfDNA fraction, where the cluster of spots that are tightly attached to the top and bottom of the plot, respectively, separate into two discrete bands (colors not shown in the figure): one red and one blue outer peripheral band that remain tightly attached to the top or bottom of the plot, and one red and one blue inner peripheral band that are away from the edge of the plot. These inner peripheral bands centered near 0.92 and 0.08 represent SNPs with maternal genotype AA and fetal genotype AB (shown in red), and SNPs with maternal genotype BB and fetal genotype AB (shown in blue), respectively. The central cluster of green spots is spread out, but separation into distinct bands is not readily visible in this fetal fraction.

高い胎児のcfDNA画分では、2個の染色体の存在を示す典型的パターン(3組の緑色のバンド、ならびに2つの赤色および2つの青色周辺バンド)が容易に見てとれる(図では色を示さず)。図30Cは、26%の胎児のcfDNA画分の場合の、正倍数体胎児を保有する女性由来の血漿試料から得たデータを示す。ここで、周辺バンドは、増加した胎児のcfDNA画分由来の変化したB対立遺伝子のレベルに起因して、内側バンドが分離してプロットの中心部へ向かって移動する。高い胎児画分で中央の緑色クラスターの3つの別々のバンドへの分離は、この時点でかなり容易に見てとれるのは意義深いことである。この中央の3組のバンドは、この場合、0.37、0.50および0.63近傍にクラスター化し、母系遺伝子型がABで、それぞれ、胎児の遺伝子型がBB(下部)、AB(中央)およびAA(上部)であるSNPに対応する。 At high fetal cfDNA fractions, the typical pattern indicating the presence of two chromosomes (three sets of green bands, and two red and two blue peripheral bands) is easily visible (color not shown in figure). Figure 30C shows data from a plasma sample from a woman carrying a euploid fetus at a fetal cfDNA fraction of 26%. Here, the peripheral bands move toward the center of the plot with the inner bands separating due to the altered B allele levels from the increased fetal cfDNA fraction. Significantly, at high fetal fractions, the separation of the central green cluster into three separate bands is now quite easily visible. This central triad of bands, in this case clusters near 0.37, 0.50, and 0.63, corresponding to SNPs with maternal genotype AB and fetal genotypes BB (bottom), AB (middle), and AA (top), respectively.

これらのホールマークパターン、すなわち、3つの緑色バンドおよび四つの周辺バンド(2つの赤色および2つの青色)は、常染色体正倍数性の場合、または女性(XX)胎児中のX染色体の場合のように、2個の染色体の存在を示す。 These hallmark patterns, i.e., three green bands and four peripheral bands (two red and two blue), indicate the presence of two chromosomes, as in the case of autosomal euploidy, or an X chromosome in a female (XX) fetus.

1個の染色体の存在
胎児が単一染色体のみを受け継ぎ、従って、単一の対立遺伝子のみを受け継ぐ場合、胎児のヘテロ接合性は、不可能である。従って、唯一の可能な胎児のSNPの識別情報は、AまたはBである。従って、母系遺伝モノソミー染色体は、母親がヘテロ接合であるSNPを示す2つの中央緑色バンド、および母親がホモ接合であるSNPを示し、プロットの上端および下端にぴったり張り付いたまま残っているそれぞれ唯一の赤色および青色周辺バンド(1と0のリード比率)(図30D)(図では色を示さず)の特徴的パターンを有する。内側周辺バンドが存在しないことに留意されたい。このパターンは、母系遺伝常染色体モノソミーの場合、または男性(XY)胎児のX染色体の場合のように、1個の染色体の存在を示す。
Presence of One Chromosome Fetal heterozygosity is not possible if the fetus inherits only a single chromosome and therefore only a single allele. Thus, the only possible fetal SNP identity is A or B. Thus, maternally inherited monosomic chromosomes have a characteristic pattern of two central green bands indicating SNPs for which the mother is heterozygous, and unique red and blue peripheral bands (1 and 0 read ratios) indicating SNPs for which the mother is homozygous, respectively, remaining tightly attached to the top and bottom of the plot (Figure 30D) (color not shown in figure). Note the absence of inner peripheral bands. This pattern indicates the presence of one chromosome, as in the case of maternally inherited autosomal monosomy, or the X chromosome in a male (XY) fetus.

3個の染色体の存在
トリソミー染色体は、3つの特徴的パターンを有する。第1のパターンは、母系遺伝減数分裂トリソミー(減数分裂エラー)を示し、胎児は相同性の、同一でない2個の染色体を母親から受け継いでいる(図30E)。このパターンは、それぞれ2つの赤色および青色周辺バンドを有する2つの中央緑色バンドを含む(図では色を示さず)。第2のパターンは、父親から受け継いでいる減数分裂トリソミーを示し、胎児は、2個の相同性の、同一でない父親由来染色体を受け継いでいる(図30F)。このパターンは、4つの中央緑色バンドおよびそれぞれ3つの赤色および青色周辺バンドを含む(図では色を示さず)。第3のパターンは、母親から(図30G)または父親から受け継いでいる(図30H)有糸分裂トリソミー(有糸分裂エラー)を示し、胎児は、2個の同一の母親または父親由来の染色体を受け継いでいる。このパターンは、それぞれ2つずつ赤色および青色周辺バンドを有する4つの中央緑色バンド含む。母親からおよび父親から受け継いだ有糸分裂トリソミーは、赤色および青色バンドに隣接した配置により識別できる。父親から受け継いでいる有糸分裂トリソミーでは、赤色および青色内側周辺バンド(プロットの端に張り付いていないバンド)が中央により近くなる(図では色を示さず)。これは、同一染色体の父系寄与が原因である。我々の以前の結果から、卵割球段階で、66.7%の母系遺伝トリソミーが減数分裂であり、10.2%のトリソミーのみが父系遺伝であることが示されることに留意されたい。
Presence of Three Chromosomes Trisomic chromosomes have three characteristic patterns. The first pattern indicates a maternally inherited meiotic trisomy (meiotic error), where the fetus inherits two homologous, non-identical chromosomes from the mother (Figure 30E). This pattern includes two central green bands with two red and blue peripheral bands, respectively (color not shown in figure). The second pattern indicates a paternally inherited meiotic trisomy, where the fetus inherits two homologous, non-identical paternally derived chromosomes (Figure 30F). This pattern includes four central green bands and three red and blue peripheral bands, respectively (color not shown in figure). The third pattern indicates a maternally (Figure 30G) or paternally inherited (Figure 30H) mitotic trisomy (mitotic error), where the fetus inherits two identical maternal or paternal chromosomes. This pattern includes four central green bands with two red and blue peripheral bands, respectively. Maternally and paternally inherited mitotic trisomies can be distinguished by adjacent arrangement of red and blue bands. In paternally inherited mitotic trisomies, the red and blue inner peripheral bands (bands that are not attached to the edge of the plot) are closer to the center (not shown in the figure). This is due to the paternal contribution of the same chromosome. Note that our previous results indicate that at the blastomere stage, 66.7% of maternally inherited trisomies are meiotic and only 10.2% of trisomies are paternally inherited.

Y染色体に関しては、PS法は、別々の仮説セット:ゼロ個、1個、または2個の染色体の存在を考慮している。それぞれの遺伝子座でのシーケンスリードに母系の寄与が無い場合、ヘテロ接合遺伝子座は可能ではないので(2個のY染色体のケースは、必ず2個の同一染色体を含む)、バンドは、プロットの上端(A対立遺伝子)または下端(B対立遺伝子)にぴったり張り付いたまま残り(データは図示せず)、解析は極めて単純となり、定量的対立遺伝子数データに依存する。前記方法はSNPを調べるので、Y染色体由来の相同非組換え型SNPを使用し、従って、1個のプローブ対に対してXとYの両方上のデータを取得することに留意されたい。 For the Y chromosome, the PS method considers a separate set of hypotheses: the presence of zero, one, or two chromosomes. Since heterozygous loci are not possible in the absence of maternal contribution to the sequence reads at each locus (the two Y chromosomes case necessarily involves two identical chromosomes), the bands remain tightly attached to the top (A allele) or bottom (B allele) of the plot (data not shown), making the analysis extremely simple and dependent on quantitative allele count data. Note that since the method interrogates SNPs, it uses homologous non-recombining SNPs from the Y chromosome, thus obtaining data on both X and Y for one probe pair.

異数性の特定
上述のように、このプロットベース可視化法を使った常染色体異数性の特定は、直接的に十分な胎児画分が与えられ、異常な数の染色体が存在するプロットを特定することが必要でなだけである。XとY染色体のコピー数の情報を合計することにより、性染色体異数性が存在するか否かが特定される。具体的には、47,XXX遺伝子型を有する胎児を表すプロットは、典型的な「3染色体」パターンを有し、47,XXY遺伝子型を有する胎児を表すプロットは、X染色体に対し典型的な「2染色体」パターンを有するが、また、1個のY染色体の存在を示す対立遺伝子リードも有する。同様に、前記方法は、47,XYYをコールすることもでき、この場合、「1染色体」パターンは、単一X染色体の存在を示し、また、対立遺伝子リードは、2個のY染色体の存在を示す。45,X遺伝子型を有する胎児は、X染色体に対して典型的な「1染色体」パターンを有し、データは、ゼロY染色体を示す。
Identifying Aneuploidies As mentioned above, identifying autosomal aneuploidies using this plot-based visualization method is straightforward given sufficient fetal fraction and only requires identifying plots where abnormal numbers of chromosomes are present. By summing the copy number information of X and Y chromosomes, the presence or absence of sex chromosome aneuploidies is identified. Specifically, a plot representing a fetus with a 47,XXX genotype has a typical "three chromosome" pattern, and a plot representing a fetus with a 47,XXY genotype has a typical "two chromosome" pattern for the X chromosome, but also has allele reads indicating the presence of one Y chromosome. Similarly, the method can call 47,XYY, where the "one chromosome" pattern indicates the presence of a single X chromosome and the allele reads indicate the presence of two Y chromosomes. A fetus with a 45,X genotype has a typical "one chromosome" pattern for the X chromosome, and the data indicates zero Y chromosomes.

胎児画分の影響
上記で考察のように、胎児由来シーケンスリード数は、プロットのy軸に沿ったそれぞれのスポットの正確な位置を与える。胎児画分は、胎児および母親由来のリードの比率に影響を与えるので、それぞれのスポットの位置取りにも影響を与える。図30C~30Eおよび図30Gと30Hの胎児のcfDNAの高い比率(通常約20%)では、スポットクラスターは、主に母系遺伝子型に基づいているが、遺伝子型が母系遺伝子型と異なる対立遺伝子由来の胎児DNAの存在により、クラスターが複数の別個のバンドに変化することが容易に見てとれる。しかし、胎児画分が減少するに伴い(図30Bおよび30Fの場合のように)、スポットは、プロットの両端および中心の方に戻り、より詰まったクラスターを生じる。具体的には、母系遺伝子型がAAである赤色周辺バンドの集合は、プロットの上端の方向に戻り、母系遺伝子型がBBの青色周辺バンドの集合は、下端の方向に戻り、母親がヘテロ接合の緑色中央バンドの集合は、プロット中心部の単一クラスターに圧縮される(図30Bと30Cとを比較されたい)(図では色を示さず)。低胎児画分の場合に対しこの可視化手法を使った場合には、異数性は容易に視認できないが、アルゴリズムは、非常に小さい胎児画分、例えば、3%胎児画分の場合の倍数性状態を特定できる。統計的技術を使って所与の試料パラメータセット(例えば、コピー数、親の遺伝子型、および胎児画分、など)に対し、観察データを、対立遺伝子分布を予測する極めて正確なデータモデルと比較することにより、これが可能となる。小胎児画分の場合には、異なる倍数性状態に対する対立遺伝子分布間の差異は胎児画分に比例するので、データモデル精度が重要である。さらに、アルゴリズムは、データセットに信頼性のある胎児の倍数性決定を行うために十分なデータが含まれない場合を判定できる。
Effect of fetal fraction As discussed above, the number of fetal sequence reads gives the exact location of each spot along the y-axis of the plot. The fetal fraction affects the proportion of fetal and maternal reads, and therefore the positioning of each spot. At a high percentage of fetal cfDNA (usually around 20%) in Figures 30C-30E and Figures 30G and 30H, it is easily seen that the spot clusters are primarily based on the maternal genotype, but the presence of fetal DNA from alleles whose genotype differs from the maternal genotype changes the cluster into multiple distinct bands. However, as the fetal fraction decreases (as in Figures 30B and 30F), the spots move back towards the ends and center of the plot, resulting in tighter clusters. Specifically, the set of red peripheral bands with maternal genotype AA will move back towards the top of the plot, the set of blue peripheral bands with maternal genotype BB will move back towards the bottom, and the set of green central bands with heterozygous mothers will be compressed into a single cluster in the center of the plot (compare Figures 30B and 30C) (color not shown in figure). Although aneuploidy is not easily visible using this visualization technique for low fetal fractions, the algorithm can identify ploidy states for very small fetal fractions, e.g., 3% fetal fraction. This is achieved by using statistical techniques to compare observed data to highly accurate data models that predict allele distributions for a given set of sample parameters (e.g., copy number, parental genotypes, and fetal fraction, etc.). For small fetal fractions, data model accuracy is important because the difference between allele distributions for different ploidy states is proportional to the fetal fraction. Furthermore, the algorithm can determine when a data set does not contain enough data to make a reliable fetal ploidy determination.

結果
標的SNPのマッピングされたシークエンシングリードは、情報価値があると見なされ、アルゴリズムで使用された。シークエンシング結果で、95%超の標的遺伝子座が観察された。重要な倍数性コールを可視化するプロットを、図31A~31Gに示す。図31Aは、正倍数体試料を示す。ここでは、染色体13、18、および21は、典型的な「2染色体」パターン(本明細書で記載のように)を有する。これは、3組の緑色中央バンド、および2つの赤色バンドおよび2つの青色周辺バンドを含む。これは、X染色体に対する2つの緑色中央バンドおよびプロットの端部に沿ったY染色体バンドの存在と一緒に、正倍数体XY遺伝子型を示す(図では色を示さず)。
Results The mapped sequencing reads of the targeted SNPs were deemed informative and used in the algorithm. More than 95% of the targeted loci were observed in the sequencing results. Plots visualizing the significant ploidy calls are shown in Figures 31A-31G. Figure 31A shows a euploid sample. Here, chromosomes 13, 18, and 21 have the typical "2-chromosome" pattern (as described herein). It contains three sets of green central bands, and two red and two blue peripheral bands. This, together with the presence of two green central bands for the X chromosome and a Y chromosome band along the edge of the plot, indicates a euploid XY genotype (color not shown in the figure).

最も一般的な常染色体トリソミーのT13、T18、およびT21は、図31B、31C、および31D中のプロットでそれぞれ示されている。具体的には、図31Bは、T13試料を示す。ここで、染色体18と21は典型的な「2染色体」パターンを示し、染色体Xは典型的な「1染色体」パターンを示し、Y染色体由来のリードが存在する。全体で、これは、染色体18および21でダイソミーを示し、胎児のXY遺伝子型を識別する。しかし、具体的には、染色体13は、典型的な「3染色体」パターンを示す。同様に、図31CはT18試料を示し、図31DはT21試料を示す。 The most common autosomal trisomies, T13, T18, and T21, are shown in the plots in Figures 31B, 31C, and 31D, respectively. Specifically, Figure 31B shows a T13 sample, where chromosomes 18 and 21 show the typical "two chromosome" pattern, chromosome X shows the typical "one chromosome" pattern, and there are reads from the Y chromosome. Overall, this shows disomy at chromosomes 18 and 21, identifying the XY genotype of the fetus. However, specifically, chromosome 13 shows the typical "three chromosome" pattern. Similarly, Figure 31C shows a T18 sample, and Figure 31D shows a T21 sample.

また、前記方法は、45,X(図31E),47,XXY(図31F),および47,XYY(図31G)を含む性染色体異数性を検出することができる。前記方法は、染色体13、18、21、X、およびYでのコピー数をコールしており、全体の染色体数は、残っている染色体にダイソミーを仮定して報告されていることに留意されたい。プロットの45、X試料を示すX染色体領域は、単一染色体の存在を示す。しかし、染色体13、18、および21に対する「2染色体」パターンに加えて、Y染色体由来のリードの欠如は、45,X遺伝子型を指し示す。逆に、47,XXY試料は、2X染色体の存在を示すプロットを生成する。また、データは、Y染色体由来の対立遺伝子のリードを示した。染色体13、18、および21の2コピーに加えて、これは、47,XXY遺伝子型を指し示す。47,XYY遺伝子型は、X染色体に対する「1染色体」パターン、および2個のY染色体の存在を表すリードの存在により示される。 The method can also detect sex chromosome aneuploidies including 45,X (Figure 31E), 47,XXY (Figure 31F), and 47,XYY (Figure 31G). Note that the method calls copy numbers at chromosomes 13, 18, 21, X, and Y, and the overall chromosome count is reported assuming disomy for the remaining chromosomes. The X chromosome region of the plot showing the 45,X sample indicates the presence of a single chromosome. However, the lack of reads from the Y chromosome, in addition to the "two chromosome" pattern for chromosomes 13, 18, and 21, points to a 45,X genotype. Conversely, the 47,XXY sample produces a plot indicating the presence of two X chromosomes. The data also showed allelic reads from the Y chromosome. In addition to the two copies of chromosomes 13, 18, and 21, this points to a 47,XXY genotype. The 47,XYY genotype is indicated by the presence of a "one chromosome" pattern for the X chromosome, and a lead representing the presence of two Y chromosomes.

考察
前記方法は、母系血液からT13、T18、T21、45,X、47,XXY、および47,XYYを非侵襲的に検出した。前記方法は、19,488個のSNPの標的多重PCR増幅および高スループットシークエンシングにより母系血漿からcfDNAを調べる。前記方法は、胎児画分およびDNA品質を含む親の遺伝子型情報および多くの試料パラメータを考慮に入れる前記方法の高度インフォマティクス解析と組み合わせて、より確実に胎児の前兆を検出し、7種の最も良く見られるタイプの出生時異数性(T13、T18、T21、45,X、47,XXX、47,XXY、および47,XYY)に関連する5個の染色体の全てで高度に正確な倍数性コールを行う。前記方法は、以前の方法に比べて、顕著に大きな臨床的適用範囲および高い試料特異的計算精度(個別化されたリスクスコアと同様に)などの多くの臨床的利点を提供する。
Discussion The method non-invasively detects T13, T18, T21, 45,X, 47,XXY, and 47,XYY from maternal blood. The method interrogates cfDNA from maternal plasma by targeted multiplex PCR amplification and high-throughput sequencing of 19,488 SNPs. The method, combined with the advanced informatics analysis of the method that takes into account parental genotype information and many sample parameters, including fetal fraction and DNA quality, more reliably detects fetal precursors and makes highly accurate ploidy calls on all five chromosomes associated with the seven most common types of birth aneuploidy (T13, T18, T21, 45,X, 47,XXX, 47,XXY, and 47,XYY). The method offers many clinical advantages over previous methods, including significantly greater clinical coverage and higher sample-specific computational accuracy (as well as individualized risk scores).

臨床的適用範囲の拡大
常染色体トリソミーおよび性染色体異数性を正確に検出する能力を考慮すれば、前記方法は、臨床的に利用可能なNIPT法に比べて異数性適用範囲を2倍程度増加させる。本明細書で提示された方法は、性染色体の倍数性を高正確度でコールする非侵襲的検査に過ぎない。以前のDNA混合実験および我々の実験的アッセイで解析された別の血漿試料は、前記方法により47,XXXを含むより大きな性染色体異常コホートを検出できることを示唆している。また、本明細書で提示の方法により、染色体13、18、および21の異数性を高感度および高特異性で検出でき、また、適切なプライマー設計を行えば、残りの染色体でも同様にコピー数を検出できることが期待される。
Expanded clinical scope Given its ability to accurately detect autosomal trisomies and sex chromosome aneuploidies, the method increases aneuploidy coverage by approximately 2-fold compared to clinically available NIPT methods. The method presented herein is the only non-invasive test that calls sex chromosome ploidy with high accuracy. Previous DNA mixing experiments and other plasma samples analyzed in our experimental assay suggest that the method can detect a larger cohort of sex chromosome abnormalities, including 47,XXX. It is also expected that the method presented herein can detect aneuploidy of chromosomes 13, 18, and 21 with high sensitivity and specificity, and with appropriate primer design, it can detect copy number of the remaining chromosomes as well.

試料特異的精度の計算
特に意味があるのは、前記方法がそれぞれの試料中のそれぞれの染色体の倍数性コールに関する試料特異的正確度を計算することである。前記方法で計算された正確度は、低い正確度の検定結果を生じる可能性のある悪い品質のDNAまたは低胎児画分を有する個別試料を特定し、印を付けることにより、間違ったコールの比率を大きく低減させることが期待される。対照的に、大規模ショットガンシークエンシング(MPSS)に基づく方法は、単一仮説棄却検定を使ったポジティブまたはネガティブコールを行い、それらの正確度推定は、個別試料の特徴ではなく、公表された調査コホートに基づいており、正確度がコホートと同じ正確度を有すると仮定されている。しかし、コホート分布の裾にあるパラメータを有する試料に対する個別の正確度は大きく異なる場合がある。早期妊娠期間の場合のような低胎児画分では、または低DNA品質の試料に対しては、この現象は悪化する。これらの試料は、通常、追跡観察用として特定およびタグ付けされず、この結果、コールが見逃される可能性がある。しかし、本発明は、胎児画分および多くのDNA品質尺度などの多くのパラメータを考慮に入れてそれぞれの染色体コピー数コールを行い、そのコールに対し試料特異的正確度を計算する。これにより、前記方法を使って、低い正確度を有する個別試料を追跡用として特定し、フラグ付加が可能となる。これにより、特に、胎児画分が通常少ない妊娠早期段階で、ほとんどのコールの見逃しがなくなることが期待される。この前提は、コールの無い場合には単に再採血と再分析をすればよいので、コールの見逃しよりもコールのない方がはるかに好ましいということである。
Calculation of sample-specific accuracy It is particularly meaningful that the method calculates a sample-specific accuracy for the ploidy call of each chromosome in each sample. The accuracy calculated by the method is expected to greatly reduce the rate of incorrect calls by identifying and marking individual samples with poor quality DNA or low fetal fraction that may produce low accuracy test results. In contrast, methods based on large-scale shotgun sequencing (MPSS) make positive or negative calls using single hypothesis rejection tests, and their accuracy estimates are based on published research cohorts rather than on the characteristics of individual samples, and are assumed to have the same accuracy as the cohort. However, individual accuracy for samples with parameters in the tail of the cohort distribution can be significantly different. This phenomenon is exacerbated with low fetal fractions, such as in the case of early gestational age, or for samples with low DNA quality. These samples are usually not identified and tagged for follow-up observation, which may result in missed calls. However, the present invention takes into account many parameters, such as fetal fraction and many DNA quality measures, to make each chromosome copy number call and calculates a sample-specific accuracy for that call. This allows the method to identify and flag individual samples with low accuracy for follow-up. This is expected to eliminate most missed calls, especially in the early stages of pregnancy when the fetal fraction is usually low. The premise is that no calls are far preferable to missed calls, since a missed call can simply be redrawn and reanalyzed.

計算された正確度の従来のリスクスコアへの変換
前記方法は、高リスク妊娠女性に対する異数性のリスクの調製済みリスクを提供でき、この場合、調製済みリスクには、事前リスクが考慮されている(BennP,Cuckle H,Pergament E.Non-invasive prenatal diagnosis for Down syndrome:the paradigm will shift,but slowly. Ultrasound Obstet Gynecol 2012;39:127-130。この文献は参照によりその全体が本明細書に組み込まれる)。前記方法は、それぞれの患者に合わせた計算正確度を提供するが、臨床用途に対しては、これらの正確度を従来のリスクスコアに変化できる。これは正倍数体妊娠のリスクも意味するが、割合として表される。従来のリスクスコアは、母体年齢関連性リスクおよび血清レベルの生化学マーカーなどの種々のパラメータを考慮してリスクスコアが提供され、その値を超えると母親は高リスクと見なされ、該当する母親に対して、追跡観察のための侵襲的診断手順が薦められる。前記方法は、このリスクスコアを大幅に正確化し、従って、擬陽性および偽陰性割合の両方を減らし、個別の母系リスクのより正確な評価を与える。本明細書で使われる計算正確度は、倍数性コールが正確である尤度であり、パーセントで表されるが、実験19で使われる計算正確度は、年齢関連リスクを含まない。リスクスコアの計算は、通常、年齢関連リスクを含むために、計算正確度および従来のリスクスコアは、互換性がなく、従来のリスクスコアに変換するためにそれらを組み合わせる必要がある。年齢関連リスクを計算正確度と組み合わせる式は:
であり、式中、Rは前記方法により計算したリスクスコアで、Rは第1期スクリーニング(first trimester screening)により計算したリスクスコアである。
Conversion of Calculated Accuracy to Traditional Risk Score The method can provide an adjusted risk of aneuploidy for high-risk pregnant women, where the adjusted risk takes into account the prior risk (Benn P, Cuckle H, Pergament E. Non-invasive prenatal diagnosis for Down syndrome: the paradigm will shift, but slowly. Ultrasound Obstet Gynecol 2012;39:127-130, which is incorporated herein by reference in its entirety). Although the method provides calculated accuracy tailored to each patient, for clinical use these accuracy can be converted to a traditional risk score, which also represents the risk of euploid pregnancy, but expressed as a percentage. Conventional risk scores take into account various parameters such as maternal age-related risk and serum levels of biochemical markers to provide a risk score above which a mother is considered at high risk and is recommended to undergo invasive diagnostic procedures for follow-up. The method significantly improves the accuracy of this risk score, thus reducing both false positive and false negative rates and providing a more accurate assessment of individual maternal risk. The calculation accuracy used herein is the likelihood that the ploidy call is correct, expressed as a percentage, but the calculation accuracy used in experiment 19 does not include age-related risk. Since risk score calculations usually include age-related risk, the calculation accuracy and conventional risk scores are not interchangeable and need to be combined to convert to conventional risk scores. The formula for combining age-related risk with calculation accuracy is:
where R1 is the risk score calculated by the method and R2 is the risk score calculated by first trimester screening.

SNPベースの方法は増幅変動に関する問題を解消する
他の一部の方法により使われる計数法の固有の欠点は、参照染色体にマッピングされるリード数に対する対象染色体(例えば、染色体21)にマッピングされるリード数の比率を測定することにより胎児の倍数性状態を決定することである。染色体13、X、およびYを含む高または低GC含量の染色体の増幅で大きな変動がある。これにより、胎児のcfDNA信号と同程度の大きさの信号変動を生ずる場合があり、この結果、参照染色体由来リードに対する対象染色体由来対立遺伝子リードの比率を変えることによるコピー数コールを間違える可能性がある。これが染色体13、X、およびYに対し低い正確度を生じる場合がある。重要なのは、この問題は、早期妊娠期間で起こりやすい低胎児cfDNA割合の場合に悪化することである。
SNP-based methods eliminate the problem of amplification variation An inherent drawback of the counting method used by some other methods is that the fetal ploidy status is determined by measuring the ratio of the number of reads mapped to the target chromosome (e.g., chromosome 21) to the number of reads mapped to the reference chromosome. There is a large variation in the amplification of chromosomes with high or low GC content, including chromosomes 13, X, and Y. This can cause signal variations as large as the fetal cfDNA signal, which can lead to misleading copy number calls by changing the ratio of allele reads from the target chromosome to the reads from the reference chromosome. This can result in low accuracy for chromosomes 13, X, and Y. Importantly, this problem is exacerbated in the case of low fetal cfDNA percentages, which are likely to occur in early gestational age.

対照的に、SNPベースの方法は、染色体間の一貫性のある増幅レベルに依存せず、従って、全染色体にわたり等しい精度の結果を与えることが期待される。前記方法は、定義によりただ一個のヌクレオチドが異なる多形遺伝子座にある別の対立遺伝子の相対数を検査するといった理由から、前記方法は参照染色体の使用を必要とせず、これにより、定量化リード数に依存する方法に固有の染色体間増幅変動に関する問題を防ぐ。正倍数体の参照染色体を必要とする定量的方法とは異なり、前記方法は、三倍体性、ならびに片親性ダイソミーのようなコピー数の変化を伴わない異常を検出できることが期待される。 In contrast, SNP-based methods do not rely on consistent amplification levels between chromosomes and are therefore expected to give results of equal accuracy across chromosomes. Because the methods examine the relative numbers of alternative alleles at polymorphic loci that by definition differ by only a single nucleotide, the methods do not require the use of a reference chromosome, thereby avoiding problems with inter-chromosomal amplification variation inherent in methods that rely on quantification read numbers. Unlike quantitative methods that require a euploid reference chromosome, the methods are expected to be able to detect abnormalities that do not involve copy number changes, such as triploidy, as well as uniparental disomy.

早期検出の重要性
重大なのは、性染色体異数性の複合出生有病率が、最も一般的な常染色体異数性の場合より高いことである(図32)。しかし、信頼性良く性染色体異常を検出できるルーチン非侵襲的選別法は現状存在しない。従って、性染色体異常は、通常、ダウン症候群または他の常染色体異数性用のルーチン検査の副次的効用として出生前に検出され、大部分の症例が全く見逃される。早期治療介入により臨床的転帰が改善されるこれら内の多くの障害にとって、早期の正確な検出が非常に重要である。例えば、ターナー症候群の全体複合出生有病率は、2,500人の女性に1人であるが、ターナー症候群は、青年期まで診断されない場合が多い。成長ホルモン療法は、その障害が原因の低身長を防ぐことが知られているが、4才前に開始すれば、治療は顕著に高い効果がある。さらに、エストロゲン補充療法は、ターナー症候群の患者の第二次性徴を刺激可能であるが、この場合も、症候群が通例の通り検出される前の思春期直前に治療を開始すべきである。これらは全て、早期のルーチン的で安全な性染色体異数性の検出の重要性を強調するものである。前記方法は、性染色体異常に対するルーチンスクリーニングとして役立つ可能性を秘めた最初の手法を提供する。
Importance of Early Detection Significantly, the combined birth prevalence of sex chromosome aneuploidies is higher than that of the most common autosomal aneuploidies (Figure 32). However, there are currently no routine non-invasive screening methods that can reliably detect sex chromosome abnormalities. Thus, sex chromosome abnormalities are usually detected prenatally as a by-product of routine testing for Down's syndrome or other autosomal aneuploidies, with the majority of cases being missed entirely. Early and accurate detection is crucial for many of these disorders, where early intervention improves clinical outcomes. For example, the overall combined birth prevalence of Turner syndrome is 1 in 2,500 females, but Turner syndrome is often not diagnosed until adolescence. Growth hormone therapy is known to prevent the short stature caused by the disorder, but treatment is significantly more effective if initiated before age 4. Additionally, estrogen replacement therapy can stimulate secondary sexual characteristics in patients with Turner syndrome, but again, treatment should be initiated just before puberty, before the syndrome is routinely detected. All these highlight the importance of early, routine and safe detection of sex chromosome aneuploidies. The method provides the first potentially useful approach for routine screening for sex chromosome abnormalities.

追加の用途
前記方法は、標的増幅を利用するために、超顕微鏡的異常、例えば、微小欠失および微細重複を独特な方法で検出する準備ができた状態である。MPSSのような非標的方法により、ディジョージ微小欠失症候群を検出できることが明らかにされているが、前記方法は、実行困難な手法を行うために、十分に高いレベルの遺伝子カバレッジを必要とする。
これが、非常に少ない比率のシークエンシングリードが情報価値のあると思われる場合に、超顕微鏡的領域に対して、非標的増幅で効率が数桁悪い理由である。さらに、最近利用可能な方法は、性染色体に対して倍数性状態を正確に特定することに関し問題があるという事実は、より小さい染色体セグメントに対して、それらの方法も同様に変動性増幅問題に直面していることを示唆している。
Additional Applications The method is uniquely poised to detect submicroscopic abnormalities, such as microdeletions and microduplications, due to the use of targeted amplification. Non-targeted methods such as MPSS have been shown to be able to detect DiGeorge microdeletion syndrome, but the method requires a sufficiently high level of gene coverage to make the procedure difficult to implement.
This is why untargeted amplification is several orders of magnitude less efficient for submicroscopic regions, where only a very small proportion of sequencing reads are likely to be informative. Furthermore, the fact that currently available methods have problems accurately identifying ploidy states for sex chromosomes suggests that for smaller chromosomal segments, they face variable amplification problems as well.

同様に、SNPベースの方法は、計数依存の現状の非侵襲的方法または羊水穿刺のような従来の侵襲的方法および細胞遺伝学的核型分析および/または蛍光インサイチューハイブリダイゼーションに依存するCVSでは検出できない、コピー数の変化を伴わない異常であるUPD障害を検出できる。これは、臨床的に利用可能なMPSSベースの標的化方法が非多形遺伝子座を増幅し、従って、例えば、対象染色体が同じ親由来であるかどうかを判定できない一方で、SNPベースの方法が個別ハプロタイプを特異的に識別できることが理由である。このことは、これらのプラダー・ウィリ、アンジェルマン、およびベックウィズ・ヴィーデマン症候群などの微小欠失/微細重複およびUPD症候群は、通常、出生前に診断されず、出生後の初期に誤診される場合が多いことを意味する。この結果、治療介入を著しく遅らせる。さらに、前記方法がSNPを標的とするために、前記方法はまた、親のハプロタイプの再構築を促進し、個別疾患連鎖遺伝子座の胎児遺伝の検出を可能とする(Kitzman JO,Snyder MW,Ventura M,et al.Noninvasive whole-genome sequencing of a human fetus.Sci Transl Med 2012;4:137ra76、この文献は、参照によりその全体が本明細書に組み込まれる)。 Similarly, SNP-based methods can detect UPD disorders, which are non-copy number alteration abnormalities that cannot be detected by current non-invasive methods that rely on counting or traditional invasive methods such as amniocentesis and CVS that rely on cytogenetic karyotyping and/or fluorescent in situ hybridization. This is because clinically available MPSS-based targeting methods amplify non-polymorphic loci and therefore cannot determine, for example, whether the target chromosomes are from the same parent, while SNP-based methods can specifically identify individual haplotypes. This means that these microdeletions/microduplications and UPD syndromes, such as Prader-Willi, Angelman, and Beckwith-Wiedemann syndromes, are usually not diagnosed prenatally and are often misdiagnosed early after birth. This results in significant delays in therapeutic intervention. Moreover, because the method targets SNPs, it also facilitates reconstruction of parental haplotypes and allows detection of fetal inheritance of individual disease-linked loci (Kitzman JO, Snyder MW, Ventura M, et al. Noninvasive whole-genome sequencing of a human fetus. Sci Transl Med 2012;4:137ra76, which is incorporated herein by reference in its entirety).

本明細書で提示の結果は、出生前異数性特定のために前記方法の範囲を拡大できることを立証している。具体的には、19,488個のSNPの増幅およびシークエンシングにより、前記方法は、染色体13、18、21、X、およびYのコピー数を決定でき、他の染色体異常、例えば、いずれか他の臨床的に利用可能な非侵襲的方法では検出されない三倍体性およびUPDを特異的に検出することが期待される。臨床的適用範囲の増加および強力な試料特異的計算正確度は、前記方法が、胎児の染色体異数性検出のために、侵襲的検査に対する有用な補助的手法を提供できることを示唆する。 The results presented herein demonstrate that the scope of the method can be expanded for prenatal aneuploidy identification. Specifically, by amplifying and sequencing 19,488 SNPs, the method can determine copy number of chromosomes 13, 18, 21, X, and Y, and is expected to specifically detect other chromosomal abnormalities, such as triploidy and UPD, that are not detected by any other clinically available non-invasive method. The increased clinical coverage and strong sample-specific computational accuracy suggest that the method can provide a useful adjunct to invasive testing for fetal chromosomal aneuploidy detection.

本明細書において引用されている全ての特許、特許出願および刊行参考文献は、その全体が参照により本明細書に組み込まれる。本開示の方法はその特定の実施形態とともに記載されているが、さらに改変することができることが理解されよう。さらに、本出願は、本開示の方法が関する当技術分野における公知または通例の実施の範囲内に入る、および添付の特許請求の範囲の範囲内に入る本開示からの逸脱を含めた、本開示の方法の任意の変動、使用または適応を包含するものとする。例えば、本明細書でDNA用に開示されたいずれの方法も、リバース転写ステップを導入してRNAをDNAに変換することにより容易にRNAに適合させることができる。例示のために多形遺伝子座を使用する実施例は、必要に応じ、容易に非多形遺伝子座の増幅に適合させることができる。 All patents, patent applications, and published references cited herein are incorporated herein by reference in their entirety. While the disclosed method has been described with certain embodiments thereof, it will be understood that it may be further modified. Furthermore, this application is intended to cover any variations, uses, or adaptations of the disclosed method, including departures from the present disclosure that are within known or customary practice in the art with respect to the disclosed method, and that are within the scope of the appended claims. For example, any of the methods disclosed herein for DNA can be readily adapted to RNA by introducing a reverse transcription step to convert the RNA to DNA. The examples using polymorphic loci for illustration can be readily adapted to the amplification of non-polymorphic loci, if desired.

Claims (12)

対象における癌のコピー数の多型及び変異を分析するのに有用なデオキシリボ核酸(DNA)画分を癌患者から調製するための方法であって、
(a)前記対象から採取された血液から無細胞DNAを抽出し、
)(i)前記抽出された無細胞DNAに対してアダプタタグ及び分子バーコードをライゲートすることによりバーコード付加DNAを生成し、ここで、同じ標的遺伝子座を含む無細胞DNA分子は、それぞれ異なる分子バーコードでタグ付けされ、前記分子バーコードの配列決定により互いに区別可能であり、
(ii)前記アダプタタグを用いてユニバーサル増幅を実施することにより、前記バーコード付加DNAから配列決定ライブラリーを生成し、
(iii)100~2,000の遺伝子座を含む複数の遺伝子座を標的化するハイブリッド捕捉プローブを用いて、前記配列決定ライブラリーから前記複数の遺伝子座を富化する
ことにより、前記()で抽出されたDNAから画分を生成し
)(i)前記富化された複数の遺伝子座に対して、大規模並行配列決定を実施することにより、前記複数の遺伝子座についての配列決定リードを取得し、
(ii)前記大規模並行配列決定により得られた前記配列決定リードに基づき、前記複数の遺伝子座の遺伝子状態を決定する
ことにより、前記()で生成された前記DNAの画分中の前記無細胞DNAを分析し、前記対象における前記癌のコピー数の多型及び変異を検出し、
ここで、前記遺伝子状態の可能な態様が、反復及び変異を含む
ことを含む方法。
1. A method for preparing a deoxyribonucleic acid (DNA) fraction from a cancer patient useful for analyzing copy number polymorphisms and mutations in cancer in a subject, comprising:
(a ) extracting cell-free DNA from blood collected from the subject ;
( b ) (i) generating barcoded DNA by ligating adapter tags and molecular barcodes to the extracted cell-free DNA, wherein cell-free DNA molecules containing the same target locus are each tagged with a different molecular barcode and are distinguishable from one another by sequencing of the molecular barcodes;
(ii) generating a sequencing library from the barcoded DNA by performing universal amplification using the adaptor tags;
(iii) generating a fraction from the DNA extracted in (a) by enriching the plurality of loci from the sequencing library using hybrid capture probes targeting the plurality of loci, the plurality of loci comprising 100-2,000 loci; and ( c ) ( i ) performing massively parallel sequencing on the enriched plurality of loci to obtain sequencing reads for the plurality of loci.
(ii) analyzing the cell-free DNA in the fraction of DNA generated in ( b ) by determining the genetic status of the plurality of loci based on the sequencing reads obtained by the massively parallel sequencing to detect copy number variations and mutations of the cancer in the subject;
wherein the possible forms of genetic status include repeats and mutations.
前記複数の遺伝子座が、100~1,000の遺伝子座を含む、請求項1に記載の方法。 The method of claim 1, wherein the plurality of loci includes 100 to 1,000 loci. 前記複数の遺伝子座が、300~2,000の遺伝子座を含む、請求項1に記載の方法。 The method of claim 1, wherein the plurality of loci includes 300 to 2,000 loci. 前記無細胞DNAが、前記癌由来のDNAと前記癌患者の健康組織由来のDNAの混合物を含む、請求項1に記載の方法。 The method of claim 1, wherein the cell-free DNA comprises a mixture of DNA from the cancer and DNA from healthy tissue of the cancer patient. 前記方法が更に、前記癌DNA及び前記癌患者の健康組織由来のDNAに由来する前記配列決定リードに基づき、癌由来のDNA画分を決定することを含む、請求項4に記載の方法。 The method of claim 4, further comprising determining a cancer-derived DNA fraction based on the sequencing reads derived from the cancer DNA and DNA derived from healthy tissue of the cancer patient. 対象における癌の倍数性状態を分析するのに有用なデオキシリボ核酸(DNA)画分を癌患者から調製するための方法であって、
(a)前記対象から採取された血液から無細胞DNAを抽出し、
)(i)前記抽出された無細胞DNAに対してアダプタタグ及び分子バーコードをライゲートすることによりバーコード付加DNAを生成し、ここで、同じ標的遺伝子座を含む無細胞DNA分子は、それぞれ異なる分子バーコードでタグ付けされ、前記分子バーコードの配列決定により互いに区別可能であり、
(ii)前記アダプタタグを用いてユニバーサル増幅を実施することにより、前記バーコード付加DNAから配列決定ライブラリーを生成し、
(iii)100~2,000の遺伝子座を含む複数の遺伝子座を標的化するハイブリッド捕捉プローブを用いて、前記配列決定ライブラリーから前記複数の遺伝子座を富化する
ことにより、前記()で抽出されたDNAから画分を生成し
)(i)前記富化された複数の遺伝子座に対して、大規模並行配列決定を実施することにより、前記複数の遺伝子座についての配列決定リードを取得し、
(ii)前記大規模並行配列決定により得られた前記配列決定リードに基づき、前記対象における前記癌の倍数性状態を決定する
ことを含み、
ここで前記複数の遺伝子座が、300~2,000の遺伝子座を含む方法。
1. A method for preparing a deoxyribonucleic acid (DNA) fraction from a cancer patient useful for analyzing the ploidy status of cancer in a subject, comprising:
(a ) extracting cell-free DNA from blood collected from the subject ;
( b ) (i) generating barcoded DNA by ligating adapter tags and molecular barcodes to the extracted cell-free DNA, wherein cell-free DNA molecules containing the same target locus are each tagged with a different molecular barcode and are distinguishable from one another by sequencing of the molecular barcodes;
(ii) generating a sequencing library from the barcoded DNA by performing universal amplification using the adaptor tags;
(iii) generating a fraction from the DNA extracted in (a) by enriching the plurality of loci from the sequencing library using hybrid capture probes targeting the plurality of loci, the plurality of loci comprising 100-2,000 loci; and ( c ) ( i ) performing massively parallel sequencing on the enriched plurality of loci to obtain sequencing reads for the plurality of loci.
(ii) determining a ploidy status of the cancer in the subject based on the sequencing reads obtained by the massively parallel sequencing;
wherein the plurality of loci comprises between 300 and 2,000 loci.
前記複数の遺伝子座が、300~1,000の遺伝子座を含む、請求項6に記載の方法。 The method of claim 6, wherein the plurality of loci includes 300 to 1,000 loci. 前記方法が更に、前記配列決定リードに基づき、前記複数の遺伝子座に於ける変異を決定することを含む、請求項6に記載の方法。 The method of claim 6, further comprising determining mutations at the plurality of loci based on the sequencing reads. 前記方法が更に、前記バーコード及び前記無細胞DNAからの配列決定リードに基づき、各遺伝子座について前記血液試料に含まれる独自の分子の数を決定することを含む、請求項8に記載の方法。 The method of claim 8, further comprising determining the number of unique molecules in the blood sample for each locus based on the barcodes and sequencing reads from the cell-free DNA. 前記無細胞DNAが、前記癌由来のDNAと前記癌患者の健康組織由来のDNAの混合物を含む、請求項6に記載の方法。 The method of claim 6, wherein the cell-free DNA comprises a mixture of DNA from the cancer and DNA from healthy tissue of the cancer patient. 前記方法が更に、前記癌DNA及び前記癌患者の健康組織由来のDNAに由来する前記配列決定リードに基づき、癌に由来するDNA画分を決定することを含む、請求項10に記載の方法。 The method of claim 10, further comprising determining a DNA fraction derived from the cancer based on the sequencing reads derived from the cancer DNA and DNA derived from healthy tissue of the cancer patient. 前記配列決定リードの少なくとも99.99%が標的遺伝子座にマップされる、請求項1又は6に記載の方法。 The method of claim 1 or 6, wherein at least 99.99% of the sequencing reads map to the target locus.
JP2021204979A 2012-07-24 2021-12-17 Highly multiplexed PCR methods and compositions Active JP7510913B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024101181A JP2024111282A (en) 2012-07-24 2024-06-24 High degree multiple pcr method and composition

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261675020P 2012-07-24 2012-07-24
US61/675,020 2012-07-24
US13/683,604 US20130123120A1 (en) 2010-05-18 2012-11-21 Highly Multiplex PCR Methods and Compositions
US13/683,604 2012-11-21
JP2020005470A JP6997813B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020005470A Division JP6997813B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024101181A Division JP2024111282A (en) 2012-07-24 2024-06-24 High degree multiple pcr method and composition

Publications (2)

Publication Number Publication Date
JP2022037145A JP2022037145A (en) 2022-03-08
JP7510913B2 true JP7510913B2 (en) 2024-07-04

Family

ID=49997695

Family Applications (12)

Application Number Title Priority Date Filing Date
JP2015524243A Active JP6392222B2 (en) 2012-07-24 2012-11-21 Advanced multiplex PCR methods and compositions
JP2018153048A Active JP6916153B2 (en) 2012-07-24 2018-08-16 Advanced multiplex PCR method and composition
JP2020005502A Active JP6997815B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2020005470A Active JP6997813B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2020005493A Active JP6997814B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2020005462A Active JP7027468B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2021204905A Active JP7343563B2 (en) 2012-07-24 2021-12-17 Advanced multiplex PCR method and composition
JP2021205050A Active JP7503043B2 (en) 2012-07-24 2021-12-17 Highly multiplexed PCR methods and compositions
JP2021204979A Active JP7510913B2 (en) 2012-07-24 2021-12-17 Highly multiplexed PCR methods and compositions
JP2022020146A Active JP7348330B2 (en) 2012-07-24 2022-02-14 Advanced multiplex PCR method and composition
JP2024093017A Pending JP2024113133A (en) 2012-07-24 2024-06-07 High degree multiple pcr method and composition
JP2024101181A Pending JP2024111282A (en) 2012-07-24 2024-06-24 High degree multiple pcr method and composition

Family Applications Before (8)

Application Number Title Priority Date Filing Date
JP2015524243A Active JP6392222B2 (en) 2012-07-24 2012-11-21 Advanced multiplex PCR methods and compositions
JP2018153048A Active JP6916153B2 (en) 2012-07-24 2018-08-16 Advanced multiplex PCR method and composition
JP2020005502A Active JP6997815B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2020005470A Active JP6997813B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2020005493A Active JP6997814B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2020005462A Active JP7027468B2 (en) 2012-07-24 2020-01-16 Highly multiplex PCR method and composition
JP2021204905A Active JP7343563B2 (en) 2012-07-24 2021-12-17 Advanced multiplex PCR method and composition
JP2021205050A Active JP7503043B2 (en) 2012-07-24 2021-12-17 Highly multiplexed PCR methods and compositions

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2022020146A Active JP7348330B2 (en) 2012-07-24 2022-02-14 Advanced multiplex PCR method and composition
JP2024093017A Pending JP2024113133A (en) 2012-07-24 2024-06-07 High degree multiple pcr method and composition
JP2024101181A Pending JP2024111282A (en) 2012-07-24 2024-06-24 High degree multiple pcr method and composition

Country Status (10)

Country Link
JP (12) JP6392222B2 (en)
KR (1) KR101890466B1 (en)
CN (1) CN104685064A (en)
AU (1) AU2012385961B9 (en)
CA (1) CA2877493C (en)
HK (1) HK1211058A1 (en)
IL (1) IL236435A0 (en)
RU (1) RU2650790C2 (en)
SG (1) SG11201408813VA (en)
WO (1) WO2014018080A1 (en)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
WO2010017214A1 (en) 2008-08-04 2010-02-11 Gene Security Network, Inc. Methods for allele calling and ploidy calling
US8825412B2 (en) 2010-05-18 2014-09-02 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2854056A3 (en) 2009-09-30 2015-06-03 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
WO2012088456A2 (en) 2010-12-22 2012-06-28 Natera, Inc. Methods for non-invasive prenatal paternity testing
CN103608818B (en) 2011-02-09 2017-12-08 纳特拉公司 The antenatal ploidy identification device of Noninvasive
CN103717751A (en) 2011-05-19 2014-04-09 塞昆纳姆股份有限公司 Products and processes for multiplex nucleic acid identification
SG11201408813VA (en) * 2012-07-24 2015-02-27 Natera Inc Highly multiplex pcr methods and compositions
US20140100126A1 (en) 2012-08-17 2014-04-10 Natera, Inc. Method for Non-Invasive Prenatal Testing Using Parental Mosaicism Data
WO2015048535A1 (en) 2013-09-27 2015-04-02 Natera, Inc. Prenatal diagnostic resting standards
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
WO2015164432A1 (en) * 2014-04-21 2015-10-29 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
CN109971852A (en) 2014-04-21 2019-07-05 纳特拉公司 Detect the mutation and ploidy in chromosome segment
KR102425438B1 (en) 2014-06-23 2022-07-27 더 제너럴 하스피탈 코포레이션 Genomewide unbiased identification of dsbs evaluated by sequencing (guide-seq)
PT3224376T (en) 2014-11-28 2019-10-25 Uniqure Ip Bv Dna impurities in a composition comprising a parvoviral virion
US20170349926A1 (en) * 2014-12-22 2017-12-07 DNAe Group Holdings LTD. Bubble primers
EP4001430A1 (en) 2015-04-24 2022-05-25 Agena Bioscience, Inc. Multiplexed method for the identification and quantitation of minor alleles and polymorphisms
WO2016183106A1 (en) * 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
GB2539675B (en) * 2015-06-23 2017-11-22 Cs Genetics Ltd Libraries of multimeric barcoding reagents and kits thereof for labelling nucleic acids for sequencing
WO2017044843A1 (en) 2015-09-11 2017-03-16 The General Hospital Corporation Full interrogation of nuclease dsbs and sequencing (find-seq)
JP6837073B2 (en) * 2016-02-25 2021-03-03 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft Elimination of primer-primer interactions during primer extension
CN109477138A (en) * 2016-04-15 2019-03-15 纳特拉公司 Lung cancer detection method
AU2017302013B2 (en) * 2016-07-29 2022-05-26 The Regents Of The University Of California Adeno-associated virus virions with variant capsid and methods of use thereof
CN109790587B (en) * 2016-09-30 2023-06-13 富士胶片株式会社 Method for discriminating origin of human genomic DNA of 100pg or less, method for identifying individual, and method for analyzing degree of engraftment of hematopoietic stem cells
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
EP3585889A1 (en) 2017-02-21 2020-01-01 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
US20210079470A1 (en) * 2017-07-07 2021-03-18 Chan Zuckerberg Biohub, Inc. Noninvasive prenatal diagnosis of single-gene disorders using droplet digital pcr
KR101977976B1 (en) * 2017-08-10 2019-05-14 주식회사 엔젠바이오 Method for increasing read data analysis accuracy in amplicon based NGS by using primer remover
BR112020003596A2 (en) 2017-08-23 2020-09-01 The General Hospital Corporation engineered crispr-cas9 nucleases with altered pam specificity
WO2019075197A1 (en) * 2017-10-11 2019-04-18 The General Hospital Corporation Methods for detecting site-specific and spurious genomic deamination induced by base editing technologies
JP2021506342A (en) 2017-12-14 2021-02-22 ティーエーアイ ダイアグノスティックス インコーポレイテッドTai Diagnostics,Inc. Evaluation of Graft Conformity for Transplantation
CN108334745B (en) * 2018-03-19 2022-02-08 青岛理工大学 Nonlinear hybrid system modeling method in polymerase chain reaction process
AU2019251504A1 (en) 2018-04-14 2020-08-13 Natera, Inc. Methods for cancer detection and monitoring by means of personalized detection of circulating tumor DNA
EP3781585A4 (en) 2018-04-17 2022-01-26 The General Hospital Corporation Sensitive in vitro assays for substrate preferences and sites of nucleic acid binding, modifying, and cleaving agents
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
WO2020031048A1 (en) * 2018-08-08 2020-02-13 Inivata Ltd. Method of sequencing using variable replicate multiplex pcr
CN112080558B (en) * 2019-06-13 2024-03-12 杭州贝瑞和康基因诊断技术有限公司 Kit and method for simultaneously detecting HBA1/2 and HBB gene mutation
EP4004927A4 (en) * 2019-07-22 2023-08-02 Mission Bio, Inc. Using machine learning to optimize assays for single cell targeted dna sequencing
EP4077719A1 (en) * 2019-12-16 2022-10-26 Agilent Technologies, Inc. Genomic scarring assays and related methods
JP7320468B2 (en) 2020-03-10 2023-08-03 Ntn株式会社 HUB UNIT WITH STEERING FUNCTION AND VEHICLE INCLUDING THE SAME
CN113979895B (en) * 2020-07-08 2023-03-24 中国科学技术大学 Self-degradable polymer with controllable precise sequence and preparation method and application thereof
WO2022076574A1 (en) * 2020-10-08 2022-04-14 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
WO2022196781A1 (en) 2021-03-18 2022-09-22 キヤノン株式会社 Liquid injection method, liquid injection device, and liquid cartridge
CN118613594A (en) 2021-09-01 2024-09-06 纳特拉公司 Method for non-invasive prenatal testing

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030108900A1 (en) 2001-07-12 2003-06-12 Arnold Oliphant Multiplex nucleic acid reactions
US20070231823A1 (en) 2006-03-23 2007-10-04 Mckernan Kevin J Directed enrichment of genomic DNA for high-throughput sequencing
US20090233802A1 (en) 2007-02-02 2009-09-17 Helen Bignell Methods for indexing samples and sequencing multiple polynucleotide templates
JP2010142233A (en) 2003-01-29 2010-07-01 454 コーポレーション Methods of amplifying and sequencing nucleic acids
US20110189677A1 (en) 2010-02-03 2011-08-04 Massachusetts Institute Of Technology Methods For Preparing Sequencing Libraries
US20120135872A1 (en) 2010-01-23 2012-05-31 Verinata Health, Inc. Methods of fetal abnormality detection
WO2012083189A2 (en) 2010-12-17 2012-06-21 Life Technologies Corporation Methods, compositions, systems, apparatuses and kits for nucleic acid amplification
WO2012092426A1 (en) 2010-12-30 2012-07-05 Foundation Medicine, Inc. Optimization of multigene analysis of tumor samples

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US300235A (en) 1884-06-10 Chaeles b
US6479235B1 (en) * 1994-09-30 2002-11-12 Promega Corporation Multiplex amplification of short tandem repeat loci
US6251604B1 (en) * 1999-08-13 2001-06-26 Genopsys, Inc. Random mutagenesis and amplification of nucleic acid
ATE411397T1 (en) 2000-02-07 2008-10-15 Illumina Inc NUCLEIC ACID DETECTION METHOD WITH UNIVERSAL PRIMING
EP1364046B1 (en) * 2000-05-23 2011-11-30 Variagenics, Inc. Methods for genetic analysis of dna to detect sequence variances
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
WO2004099439A1 (en) 2003-05-09 2004-11-18 Tsinghua University Methods and compositions for optimizing multiplex pcr primers
WO2005071078A1 (en) * 2004-01-12 2005-08-04 Nimblegen Systems Inc. Method of performing pcr amplification on a microarray
US7618777B2 (en) * 2005-03-16 2009-11-17 Agilent Technologies, Inc. Composition and method for array hybridization
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
SI2385143T1 (en) 2006-02-02 2016-11-30 The Board of Trustees of the Leland Stanford Junior University Office of the General Counsel Non-invasive fetal genetic screening by digital analysis
JP2008125471A (en) 2006-11-22 2008-06-05 Olympus Corp Multiplex method of nucleic acid amplification
EA015913B1 (en) * 2007-01-17 2011-12-30 Учреждение Российской Академии Наук Институт Молекулярной Биологии Им. В.А. Энгельгардта Ран (Имб Ран) Method for genetically identifying a person according to the analysis of the single nucleotide polymorphism of a human genome by means of a oligonucleotide biological microchip (biochip)
US20090023190A1 (en) 2007-06-20 2009-01-22 Kai Qin Lao Sequence amplification with loopable primers
WO2009032779A2 (en) * 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
EP2201143B2 (en) 2007-09-21 2016-08-24 Katholieke Universiteit Leuven Tools and methods for genetic tests using next generation sequencing
FR2925480B1 (en) 2007-12-21 2011-07-01 Gervais Danone Sa PROCESS FOR THE ENRICHMENT OF OXYGEN WATER BY ELECTROLYTIC, OXYGEN-ENRICHED WATER OR DRINK AND USES THEREOF
EP2077337A1 (en) 2007-12-26 2009-07-08 Eppendorf Array Technologies SA Amplification and detection composition, method and kit
WO2009105531A1 (en) 2008-02-19 2009-08-27 Gene Security Network, Inc. Methods for cell genotyping
WO2009146335A1 (en) 2008-05-27 2009-12-03 Gene Security Network, Inc. Methods for embryo characterization and comparison
WO2010017214A1 (en) 2008-08-04 2010-02-11 Gene Security Network, Inc. Methods for allele calling and ploidy calling
PL2334812T3 (en) 2008-09-20 2017-06-30 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
CA3018687C (en) 2009-04-02 2021-07-13 Fluidigm Corporation Multi-primer amplification method for barcoding of target nucleic acids
US8825412B2 (en) 2010-05-18 2014-09-02 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2854056A3 (en) 2009-09-30 2015-06-03 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
HUE052213T2 (en) * 2009-11-06 2021-04-28 Univ Leland Stanford Junior Non-invasive diagnosis of graft rejection in organ transplant patients
CA2786564A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
US10047397B2 (en) 2010-04-16 2018-08-14 Chronix Biomedical Breast cancer associated circulating nucleic acid biomarkers
WO2013052557A2 (en) 2011-10-03 2013-04-11 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing
WO2011146942A1 (en) 2010-05-21 2011-11-24 The Translational Genomics Research Institute Methods and kits to analyze microrna by nucleic acid sequencing
US20130143214A1 (en) 2010-06-04 2013-06-06 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
JP5449060B2 (en) 2010-06-30 2014-03-19 三菱重工業株式会社 Wind power generator
EP2426217A1 (en) * 2010-09-03 2012-03-07 Centre National de la Recherche Scientifique (CNRS) Analytical methods for cell free nucleic acids and applications
US8877442B2 (en) 2010-12-07 2014-11-04 The Board Of Trustees Of The Leland Stanford Junior University Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale
WO2012088456A2 (en) 2010-12-22 2012-06-28 Natera, Inc. Methods for non-invasive prenatal paternity testing
WO2012103031A2 (en) 2011-01-25 2012-08-02 Ariosa Diagnostics, Inc. Detection of genetic abnormalities
CN103608818B (en) 2011-02-09 2017-12-08 纳特拉公司 The antenatal ploidy identification device of Noninvasive
SG11201408813VA (en) * 2012-07-24 2015-02-27 Natera Inc Highly multiplex pcr methods and compositions

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030108900A1 (en) 2001-07-12 2003-06-12 Arnold Oliphant Multiplex nucleic acid reactions
JP2010142233A (en) 2003-01-29 2010-07-01 454 コーポレーション Methods of amplifying and sequencing nucleic acids
US20070231823A1 (en) 2006-03-23 2007-10-04 Mckernan Kevin J Directed enrichment of genomic DNA for high-throughput sequencing
US20090233802A1 (en) 2007-02-02 2009-09-17 Helen Bignell Methods for indexing samples and sequencing multiple polynucleotide templates
US20120135872A1 (en) 2010-01-23 2012-05-31 Verinata Health, Inc. Methods of fetal abnormality detection
US20110189677A1 (en) 2010-02-03 2011-08-04 Massachusetts Institute Of Technology Methods For Preparing Sequencing Libraries
WO2012083189A2 (en) 2010-12-17 2012-06-21 Life Technologies Corporation Methods, compositions, systems, apparatuses and kits for nucleic acid amplification
WO2012092426A1 (en) 2010-12-30 2012-07-05 Foundation Medicine, Inc. Optimization of multigene analysis of tumor samples

Also Published As

Publication number Publication date
JP2024113133A (en) 2024-08-21
HK1211058A1 (en) 2016-05-13
AU2012385961B9 (en) 2017-05-18
SG11201408813VA (en) 2015-02-27
JP7343563B2 (en) 2023-09-12
CA2877493A1 (en) 2014-01-30
JP2022027975A (en) 2022-02-14
JP6997813B2 (en) 2022-02-10
JP7503043B2 (en) 2024-06-19
JP2015526073A (en) 2015-09-10
JP2022027971A (en) 2022-02-14
JP2020054400A (en) 2020-04-09
IL236435A0 (en) 2015-02-26
AU2012385961A1 (en) 2015-02-12
CA2877493C (en) 2020-08-25
JP6997815B2 (en) 2022-02-10
CN104685064A (en) 2015-06-03
AU2012385961B2 (en) 2017-04-13
JP2022051949A (en) 2022-04-01
WO2014018080A1 (en) 2014-01-30
KR101890466B1 (en) 2018-08-21
JP6997814B2 (en) 2022-02-10
JP6392222B2 (en) 2018-09-19
JP6916153B2 (en) 2021-08-11
JP2018183189A (en) 2018-11-22
JP2020058388A (en) 2020-04-16
JP2020054401A (en) 2020-04-09
JP7027468B2 (en) 2022-03-01
JP2020054402A (en) 2020-04-09
RU2014152883A (en) 2016-09-10
JP2024111282A (en) 2024-08-16
KR20150038216A (en) 2015-04-08
JP7348330B2 (en) 2023-09-20
RU2650790C2 (en) 2018-04-17
JP2022037145A (en) 2022-03-08

Similar Documents

Publication Publication Date Title
JP7510913B2 (en) Highly multiplexed PCR methods and compositions
US20220073979A1 (en) Methods for non-invasive prenatal ploidy calling
US20210222230A1 (en) Methods for simultaneous amplification of target loci
US20200190573A1 (en) Methods for non-invasive prenatal ploidy calling
US20190323076A1 (en) Methods for non-invasive prenatal ploidy calling
US20190309358A1 (en) Methods for non-invasive prenatal ploidy calling
US20190284623A1 (en) Methods for non-invasive prenatal ploidy calling
US20170051355A1 (en) Highly multiplex pcr methods and compositions
EP2847347B1 (en) Highly multiplex pcr methods and compositions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211217

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240624

R150 Certificate of patent or registration of utility model

Ref document number: 7510913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150