JP2020505947A - 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム - Google Patents
不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム Download PDFInfo
- Publication number
- JP2020505947A JP2020505947A JP2019559268A JP2019559268A JP2020505947A JP 2020505947 A JP2020505947 A JP 2020505947A JP 2019559268 A JP2019559268 A JP 2019559268A JP 2019559268 A JP2019559268 A JP 2019559268A JP 2020505947 A JP2020505947 A JP 2020505947A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- vnrumi
- reads
- read
- umi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 353
- 238000012937 correction Methods 0.000 title description 17
- 239000012634 fragment Substances 0.000 claims abstract description 290
- 102000040430 polynucleotide Human genes 0.000 claims abstract description 86
- 108091033319 polynucleotide Proteins 0.000 claims abstract description 86
- 239000002157 polynucleotide Substances 0.000 claims abstract description 86
- 238000004590 computer program Methods 0.000 claims abstract description 17
- 108020004414 DNA Proteins 0.000 claims description 291
- 238000012163 sequencing technique Methods 0.000 claims description 232
- 108091034117 Oligonucleotide Proteins 0.000 claims description 186
- 125000003729 nucleotide group Chemical group 0.000 claims description 101
- 230000008569 process Effects 0.000 claims description 101
- 239000002773 nucleotide Substances 0.000 claims description 100
- 150000007523 nucleic acids Chemical class 0.000 claims description 90
- 102000039446 nucleic acids Human genes 0.000 claims description 71
- 108020004707 nucleic acids Proteins 0.000 claims description 71
- 238000003860 storage Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 29
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 24
- 230000036961 partial effect Effects 0.000 claims description 22
- 238000012217 deletion Methods 0.000 claims description 18
- 230000037430 deletion Effects 0.000 claims description 18
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 16
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 16
- 238000006467 substitution reaction Methods 0.000 claims description 16
- 238000007792 addition Methods 0.000 claims description 15
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 13
- 230000002829 reductive effect Effects 0.000 claims description 12
- 229940113082 thymine Drugs 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 229940104302 cytosine Drugs 0.000 claims description 8
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 108700028369 Alleles Proteins 0.000 abstract description 16
- 239000000523 sample Substances 0.000 description 179
- 102000053602 DNA Human genes 0.000 description 71
- 108091035707 Consensus sequence Proteins 0.000 description 62
- 239000000047 product Substances 0.000 description 57
- 210000004027 cell Anatomy 0.000 description 40
- 230000000295 complement effect Effects 0.000 description 38
- 238000013459 approach Methods 0.000 description 30
- 230000035772 mutation Effects 0.000 description 28
- 238000012360 testing method Methods 0.000 description 24
- 238000007481 next generation sequencing Methods 0.000 description 23
- 230000003321 amplification Effects 0.000 description 22
- 238000003199 nucleic acid amplification method Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 18
- 238000013467 fragmentation Methods 0.000 description 18
- 238000006062 fragmentation reaction Methods 0.000 description 18
- 238000002360 preparation method Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000003780 insertion Methods 0.000 description 15
- 230000037431 insertion Effects 0.000 description 15
- 239000002609 medium Substances 0.000 description 15
- 210000002381 plasma Anatomy 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 210000000349 chromosome Anatomy 0.000 description 14
- 238000013461 design Methods 0.000 description 14
- 206010028980 Neoplasm Diseases 0.000 description 13
- 210000004369 blood Anatomy 0.000 description 13
- 239000008280 blood Substances 0.000 description 13
- 210000001519 tissue Anatomy 0.000 description 12
- 230000009191 jumping Effects 0.000 description 11
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 10
- 238000013507 mapping Methods 0.000 description 10
- 230000002441 reversible effect Effects 0.000 description 10
- 230000009977 dual effect Effects 0.000 description 9
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 8
- 206010036790 Productive cough Diseases 0.000 description 8
- 239000002299 complementary DNA Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 239000012530 fluid Substances 0.000 description 8
- 210000002966 serum Anatomy 0.000 description 8
- 210000003802 sputum Anatomy 0.000 description 8
- 208000024794 sputum Diseases 0.000 description 8
- 239000013060 biological fluid Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000002203 pretreatment Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 206010069754 Acquired gene mutation Diseases 0.000 description 6
- 241000700605 Viruses Species 0.000 description 6
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 230000001605 fetal effect Effects 0.000 description 6
- 229920001519 homopolymer Polymers 0.000 description 6
- 238000009396 hybridization Methods 0.000 description 6
- 230000008774 maternal effect Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 230000037439 somatic mutation Effects 0.000 description 6
- 210000002700 urine Anatomy 0.000 description 6
- 108020004682 Single-Stranded DNA Proteins 0.000 description 5
- 239000012472 biological sample Substances 0.000 description 5
- 238000001574 biopsy Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 229960002685 biotin Drugs 0.000 description 5
- 235000020958 biotin Nutrition 0.000 description 5
- 239000011616 biotin Substances 0.000 description 5
- 230000002759 chromosomal effect Effects 0.000 description 5
- 239000000975 dye Substances 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000012408 PCR amplification Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 210000003296 saliva Anatomy 0.000 description 4
- 210000004243 sweat Anatomy 0.000 description 4
- 210000001138 tear Anatomy 0.000 description 4
- 206010003445 Ascites Diseases 0.000 description 3
- 229910019142 PO4 Inorganic materials 0.000 description 3
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 3
- 239000007795 chemical reaction product Substances 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 238000013412 genome amplification Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 210000003917 human chromosome Anatomy 0.000 description 3
- 210000004251 human milk Anatomy 0.000 description 3
- 235000020256 human milk Nutrition 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000005259 peripheral blood Anatomy 0.000 description 3
- 239000011886 peripheral blood Substances 0.000 description 3
- 239000010452 phosphate Substances 0.000 description 3
- 238000007841 sequencing by ligation Methods 0.000 description 3
- 238000010008 shearing Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 102100031780 Endonuclease Human genes 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 210000002593 Y chromosome Anatomy 0.000 description 2
- 230000006154 adenylylation Effects 0.000 description 2
- 210000004381 amniotic fluid Anatomy 0.000 description 2
- 238000000137 annealing Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 238000004630 atomic force microscopy Methods 0.000 description 2
- 238000000889 atomisation Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- -1 cell-free DNA Chemical class 0.000 description 2
- 230000002490 cerebral effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 210000000416 exudates and transudate Anatomy 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000000126 in silico method Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 239000000411 inducer Substances 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002663 nebulization Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 150000002972 pentoses Chemical class 0.000 description 2
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 2
- 238000000053 physical method Methods 0.000 description 2
- 238000003793 prenatal diagnosis Methods 0.000 description 2
- 230000037452 priming Effects 0.000 description 2
- 239000011541 reaction mixture Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 230000028327 secretion Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000000527 sonication Methods 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 239000006163 transport media Substances 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 210000001215 vagina Anatomy 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 102000004594 DNA Polymerase I Human genes 0.000 description 1
- 108010017826 DNA Polymerase I Proteins 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 1
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 1
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 108010010677 Phosphodiesterase I Proteins 0.000 description 1
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 1
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000010804 cDNA synthesis Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 108091092356 cellular DNA Proteins 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 238000005345 coagulation Methods 0.000 description 1
- 230000015271 coagulation Effects 0.000 description 1
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 1
- SUYVUBYJARFZHO-UHFFFAOYSA-N dATP Natural products C1=NC=2C(N)=NC=NC=2N1C1CC(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-UHFFFAOYSA-N 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940000406 drug candidate Drugs 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000001917 fluorescence detection Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 230000004077 genetic alteration Effects 0.000 description 1
- 231100000118 genetic alteration Toxicity 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000008241 heterogeneous mixture Substances 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 238000013188 needle biopsy Methods 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 229940124276 oligodeoxyribonucleotide Drugs 0.000 description 1
- 239000002751 oligonucleotide probe Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 239000012071 phase Substances 0.000 description 1
- 150000004713 phosphodiesters Chemical group 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 108020004418 ribosomal RNA Proteins 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 238000004627 transmission electron microscopy Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6853—Nucleic acid amplification reactions using modified primers or templates
- C12Q1/6855—Ligating adaptors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/191—Modifications characterised by incorporating an adaptor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/204—Modifications characterised by specific length of the oligonucleotides
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Complex Calculations (AREA)
Abstract
Description
本出願は、米国特許法第119条(e)の下、2017年1月18日に出願された表題:METHODS AND SYSTEMS FOR GENERATION AND ERROR-CORRECTION OF UNIQUE MOLECULAR INDEX SETS WITH HETEROGENEOUS MOLECULAR LENGTHSの米国仮特許出願第62/447,851号の恩典を主張するものであり、これは、全ての目的のために参照によってその全体が本明細書に組み入れられる。
次世代シーケンシング技術は、ますます高速化するシーケンシングを提供し、より大きなシーケンシング深度を可能にしている。しかしながら、シーケンシングの正確性および感度は様々な原因(例えば、サンプルの欠陥、ライブラリー調製中のPCR、濃縮、クラスタ化、およびシーケンシング)に由来するエラーおよびノイズによって影響を受けるので、シーケンシング深度を大きくするだけでは、母体血漿中の胎児セルフリーDNA(cfDNA)、循環腫瘍DNA(ctDNA)、および病原体におけるサブクローナル変異などにおける、対立遺伝子頻度が非常に低い配列を確実に検出することはできない。それ故、様々なエラー原因に起因するシーケンシングの不正確性を抑制しながら、少量かつ/または対立遺伝子頻度の低いDNA分子の配列を決定するための方法を開発することが望まれている。
本開示の実施態様は、ユニーク分子インデックス(unique molecular index)(UMI)を使用して核酸断片配列を決定するための、方法、装置、システム、およびコンピュータプログラム製品に関する。いくつかの実施態様において、UMIは、非ランダムUMI(NRUMI)または可変長の非ランダムユニーク分子インデックス(vNRUMI)を含む。
本明細書において言及される全ての特許、特許出願および他の刊行物は、これらの参考文献内で開示される全ての配列を含め、それぞれの個々の刊行物、特許または特許出願が参照によって組み入れられることを具体的かつ個々に示されているかのように、参照によって本明細書に明示的に組み入れられる。引用される全ての文書は、関係する部分において、本明細書におけるそれらの引用の文脈によって示される目的のために、参照によってそれらの全体が本明細書に組み入れられる。しかしながら、いかなる文書の引用も、それが本開示に対する先行技術であるという承認として解釈されるべきではない。
本開示は、核酸、とりわけ、母体血漿中の胎児cfDNAまたは癌患者の血液中の循環腫瘍DNA(ctDNA)などの限定された量または低い濃度を有する核酸をシーケンシングするための、方法、装置、システムおよびコンピュータプログラム製品に関する。
本明細書において使用される場合、単数形の用語「1つ(a)」、「1つ(an)」および「その(the)」は、文脈が明らかに他のことを示していない限り、複数の指示対象を含む。
次世代シーケンシング(NGS)技術は、急速に発展しており、先端研究および科学に新しいツールを提供すると同時に、遺伝情報および関連性のある生体情報に依拠した医療サービスも提供する。NGS法は、大規模並列的に行われ、生体分子の配列情報を決定するためにますますの高速化をもたらす。しかしながら、NGS法の多くおよび関連するサンプル操作技法は、エラーを導入し、その結果、得られた配列が数百塩基対に1エラー〜数千塩基対に1エラーに及ぶ比較的高いエラー率を有する。生殖細胞系列変異などの遺伝性の遺伝子情報を決定する際には、試験サンプルにおいて同じゲノムの多くのコピーを提供する大部分の体細胞全体でそのような情報が一致することから、そのようなエラー率は時に許容される。配列の1コピーを読み取ることから生じるエラーは、同じ配列の多くのコピーをエラーなしで読み取るときには、小さな影響または除去できるほどの影響しか有さない。例えば、配列の1コピー由来のエラーのあるリードを参照配列に適切にアラインさせることができない場合、それは簡単に分析から除かれ得る。同じ配列の他のコピー由来のエラーのないリードはなお、有効な分析に十分な情報を提供し得る。あるいは、同じ配列由来の他のリードと異なる塩基対を有するリードを除く代わりに、既知または未知のエラー原因から生じたものとしてその異なる塩基対を無視することができる。
・体細胞変異を検出するためのエラー抑制。例えば、対立遺伝子頻度が0.1%未満の変異の検出は、循環腫瘍DNAの液体生検において極めて肝要である。
・高品質の長いリード(例えば、1×1000bp)を得るための、プレフェージング、フェージング、および他のシーケンシングエラーの補正。
・固定されたリード長に対するサイクル時間の減少、ならびに本方法による増加したフェージングおよびプレフェージングの補正。
・仮想の長いペアエンドリードを作製するための断片の両側でのUMIの使用。例えば、二通りで500+50を行うことによって、2×500リードをステッチする。
・関心対象の配列に関係する核酸断片の定量またはカウント。
図1Aは、UMIを使用して核酸断片をシーケンシングするためのワークフロー例100を示すフローチャートである。ワークフロー100は、実施態様の一部の例にすぎない。いくつかの実施態様は、ここで示されていない追加の操作を伴うワークフローを利用してもよく、他の実施態様は、ここで示される操作のうちのいくつかを省略してもよいことが理解される。例えば、いくつかの実施態様は、操作102および/または操作104を必要としない。また、ワークフロー100は、全ゲノムシーケンシングに利用される。的をしぼったシーケンシングに係るいくつかの実施態様において、特定の領域にハイブリダイズしてそれを濃縮する操作工程が操作110と112の間に適用され得る。
いくつかの実施態様において、DNA断片をシーケンシングするためのアダプターにvNRUMIが組み込まれる。vNRUMIは、上記したものなどのワークフローにおいて起こる異なるタイプのエラーを抑制するためのメカニズムを提供する。エラーのいくつかは、サンプル処理段階において起こり得る(例えば、サンプル処理における欠失、付加、および置換)。他のエラーは、シーケンシング段階において起こり得る。いくつかのエラーは、DNA断片に由来する塩基に位置し得るが、他のエラーは、アダプター中のUMIに対応する塩基に位置し得る。
中の2つの参照配列と比較することができる方法の例を示す。クエリー配列Qはリード配列の最初の7ヌクレオチドを含み、リードはvNRUMIに由来すると予想されている。
を使用する。サンプル処理プロセスにおいて、S1を使用してDNA分子を標識する。この分子の配列は
である。シーケンシングの間、単一の挿入エラーが起こり、m0に配列GCAが挿入されて、
が生じる。このエラーを補正して、この配列の適切なUMIを回復させるために、プロセスは、最初の7つの塩基対をクエリー配列Q=TTGGCATと捉える。プロセスは、Qをγ中の各配列と比較する。
物理UMI
上記のアダプターのいくつかの実施態様において、アダプター中の物理UMIは、ランダムUMIを含む。いくつかの実施態様において、各ランダムUMIは、DNA断片に付加される他のランダムUMIのどれとも異なる。言い換えれば、ランダムUMIは、配列長が与えられた全ての可能な異なるUMIを含むUMIのセットから交換なしでランダムに選択される。他の実施態様では、ランダムUMIは、交換ありでランダムに選択される。これらの実施態様において、2つのアダプターは、偶然に起因して同じUMIを有し得る。
いくつかの実施態様において、vNRUMIを有するシーケンシングアダプターを、図1Dに図示されているグリーディアプローチによって調製することができる。当該プロセスは、(a)2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供する工程;および(b)オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択する工程であって、サブセット中のオリゴヌクレオチド配列間の全ての編集距離が閾値を満たす、工程を伴う。オリゴヌクレオチド配列のサブセットは、vNRUMIのセットを形成する。当該方法は、(c)図2Aに図示されている通りの二本鎖のハイブリダイズした領域、一本鎖の5'末端、一本鎖の3'末端、およびvNRUMIのセット中の少なくとも1つのvNRUMIを有する、複数のシーケンシングアダプターを合成する工程も伴う。
AACTTC
AACTTCA
AGCTTCG
CGCTTCG
CGCTTC
d(s,γ)=min(レーベンシュタイン(s,x)∀x∈γ)
に戻す。2つのvNRUMI配列が、上記の図1EにおけるS1およびS2と同じであること、そして、これらが、図1Eに関して記載されている通り、リードに関連して、リードのソースセグメントを決定することもできることに留意されたい。
仮想UMIに目を向けると、ソースDNA分子の末端位置でまたはその末端位置に関して定められる仮想UMIは、末端位置の位置が一部の断片化手順および天然に存在するcfDNAのように概ねランダムである場合、個々のソースDNA分子を一意またはほぼ一意に定めることができる。サンプルが比較的少ないソースDNA分子を含有する場合、仮想UMIはそれ自体で個々のソースDNA分子を一意に特定することができる。各々ソースDNA分子の異なる末端に関連する2つの仮想UMIの組み合わせを使用することで、仮想UMIのみでソースDNA分子を一意に特定することができる可能性が高まる。当然ながら、1つまたは2つの仮想UMIのみではソースDNA分子を一意に特定することができない場合であっても、そのような仮想UMIと1つまたは複数の物理UMIとの組み合わせは成功し得る。
上の図1Aに関してワークフロー例100に記載したアダプター設計に加えて、他のアダプター設計を、本明細書に開示の方法およびシステムの様々な実施態様において使用してもよい。図2Aは、様々な実施態様において採用され得る、UMIを有する5つの異なるアダプター設計の概略図を示している。
UMIを使用する様々な実施態様において、同じUMIを有する複数の配列リードを折りたたんで1つまたは複数のコンセンサス配列を得て、次いでこれを使用して、ソースDNA分子の配列を決定する。同じソースDNA分子の別個の事例から複数の別個のリードが生成され得、これらのリードを比較することで、本明細書に記載の通りにコンセンサス配列が生成され得る。この事例は、シーケンシング前にソースDNA分子を増幅することによって生成され得、その結果、各々がソースDNA分子の配列を共有する別個の増幅産物に対して別個のシーケンシング操作が行われる。当然ながら、増幅によって、別個の増幅産物の配列に差をもたらすエラーが導入され得る。Illumina社のシーケンシング・バイ・シンセシスなどのいくつかのシーケンシング技術の状況では、ソースDNA分子またはその増幅産物は、フローセルの領域に連結されたDNA分子のクラスタを形成する。クラスタの分子は集合体としてリードを提供する。典型的には、コンセンサス配列を提供するために少なくとも2つのリードが必要である。本開示の態様において、100、1000、および10,000のシーケンシング深度が、対立遺伝子頻度が低い(例えば、約1%以下)コンセンサスリードを生じさせるのに有用なシーケンシング深度の例である。
複数のUMIを含むリードを折りたたむために複数の技法を使用してもよい。いくつかの実施態様では、共通の物理UMIを共有するリードを折りたたんで、コンセンサス配列を得てもよい。いくつかの実施態様では、共通の物理UMIがランダムUMIである場合、ランダムUMIは、サンプル中のDNA断片の特定のソース分子を特定するのに十分にユニークであり得る。他の実施態様では、共通の物理UMIが非ランダムUMIである場合、UMIはそれ自体、特定のソース分子を特定するのに十分にユニークではない場合がある。いずれの場合も、物理UMIを仮想UMIと組み合わせてソース分子のインデックスを提供してもよい。
いくつかの実施態様において、リードを処理して参照配列にアラインさせ、参照配列におけるリードのアライメント位置を決定する(位置測定)。しかしながら、上で説明していないいくつかの実施態様において、位置測定は、k-mer類似度解析およびリード-リードアライメントによって達成される。この第二の実施態様は、2つの利点を有する:第一に、それは、ハロタイプの違いまたは転座に起因して参照にマッチしないリードを折りたたむことができる(エラー補正)、第二に、それは、アライナアルゴリズムに依存しないことにより、アライナが引き起こす人工物(アライナにおけるエラー)の可能性が取り除かれることである。いくつかの実施態様において、同じ位置測定情報を共有するリードを折りたたんで、ソースDNA断片の配列を決定するためのコンセンサス配列を得てよい。いくつかの状況においては、アライメントプロセスは、マッピングプロセスとも称される。配列リードは、アライメントプロセスを受けて、参照配列にマッピングされる。様々なアライメントツールおよびアルゴリズムを使用して、本開示の他の箇所に記載するように、リードを参照配列にアラインさせてよい。いつものように、アライメントアルゴリズムでは、いくつかのリードは、上手く参照配列にアラインされる一方で、他のものは、参照配列に上手くアラインされないことも参照配列に不完全にアラインされることもある。参照配列に上手くアラインされるリードは、参照配列上の部位に関連する。アラインされたリードおよびその関連部位は、配列タグとも称される。多数の繰り返しを含有するいくつかの配列リードは、参照配列にアラインさせることがより難しい傾向がある。特定の基準を超える数のミスマッチ塩基を有する参照配列にリードがアラインされるとき、リードは不完全にアラインされると見なされる。様々な態様において、リードが少なくとも約1、2、3、4、5、6、7、8、9または10のミスマッチでアラインされるとき、リードは、不完全にアラインされると見なされる。他の態様において、リードが少なくとも約5%のミスマッチでアラインされるとき、リードは、不完全にアラインされると見なされる。他の態様において、リードが少なくとも約10%、15%または20%のミスマッチ塩基でアラインされるとき、リードは、不完全にアラインされると見なされる。
様々な用途において、本明細書に開示のエラー補正戦略は、1つまたは複数の以下の恩恵を提供し得る:(i)対立遺伝子頻度が非常に低い体細胞変異を検出する、(ii)フェージング/プレフェージングエラーを軽減することによってサイクル時間を減少させる、および/または(iii)リードの後部におけるベースコールの品質を増強することによってリード長を増加させるなど。対立遺伝子頻度が低い体細胞変異の検出に関わる用途および論理的根拠は上で考察している。
DNA断片配列を決定するために使用されるサンプルは、関心対象の配列を決定しようとする、核酸を含めた、任意の細胞、流体、組織または臓器から採取されるサンプルを含むことができる。癌の診断を伴ういくつかの態様において、循環腫瘍DNAを対象の体液、例えば血液または血漿から得てよい。胎児の診断を伴ういくつかの態様において、母体体液からセルフリー核酸、例えば、セルフリーDNA(cfDNA)を得ることが有利である。セルフリーDNAを含むセルフリー核酸を、血漿、血清および尿を非限定的に含む生物学的サンプルから、当技術分野において公知の様々な方法によって得ることができる(例えば、Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]: Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000;およびSu et al., J Mol. Diagn. 6: 101-107 [2004] を参照されたい)。
様々な態様において、シーケンシングライブラリーの調製を必要とする様々なシーケンシングプラットフォームでシーケンシングを行ってよい。調製は、典型的には、DNAを断片化(超音波処理、噴霧化または剪断)とそれに続く、DNA修復および末端ポリッシング(平滑末端またはAオーバーハング)、ならびにプラットフォーム特異的アダプターライゲーションを伴う。一態様において、本明細書に記載の方法は、複数のサンプルをゲノム分子として(すなわち、一重シーケンシング)またはインデックスを付けたゲノム分子を含むプールされたサンプルとして(例えば、多重シーケンシング)単一シーケンシングランで個々にシーケンシングすることが可能である、次世代シーケンシング技術(NGS)を利用することができる。これらの方法は、最大数十億のDNA配列のリードを生成することができる。様々な態様において、ゲノム核酸および/またはインデックスを付けたゲノム核酸の配列を、例えば、本明細書に記載の次世代シーケンシング技術(NGS)を使用して決定することができる。様々な態様において、NGSを使用して得られた大量の配列データの解析を、本明細書に記載の通り1つまたは複数のプロセッサを使用して行うことができる。
本明細書に記載の方法および装置は、大規模並列シーケンシングを可能にする次世代シーケンシング技術(NGS)を利用してよい。特定の態様において、クローン増幅されたDNA鋳型または単一DNA分子がフローセル内で大規模並列的にシーケンシングされる(例えば、Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]に記載の通り)。NGSのシーケンシング技術は、パイロシーケンシング、可逆性ダイターミネーターを用いたシーケンシング・バイ・シンセシス、オリゴヌクレオチドプローブライゲーションによるシーケンシング、およびイオン半導体シーケンシングを含むが、それらに限定されない。個々のサンプル由来のDNAを個々にシーケンシング(すなわち、一重シーケンシング)するか、または、複数のサンプル由来のDNAをプールして、インデックス付きゲノム分子として単一シーケンシングランでシーケンシング(すなわち、多重シーケンシング)して、最大数億のDNA配列リードを生成することができる。本方法に従って配列情報を得るために使用することができるシーケンシング技術の例をここにさらに記載する。
明らかであるように、本発明の特定の態様は、1つまたは複数のコンピュータシステムに保存されるかまたはそれを通して転送される命令および/またはデータの制御下で作用するプロセスを利用する。特定の態様はまた、これらの操作を行うための装置に関する。この装置は、必要な目的のために特別に設計および/もしくは構築されてもよいし、1つまたは複数のコンピュータプログラムおよび/またはコンピュータに保存されているかそうでなければコンピュータが利用可能であるデータ構造によって選択的に構成される汎用コンピュータであってもよい。特に、様々な汎用機器を、本明細書の教示に従って書かれたプログラムで使用してもよいし、必要な方法工程を行うためにより特殊化された装置を構築することもより都合がよい場合がある。多種多様なこれらの機器の特定の構造が以下に示され、説明される。
試験サンプル中の核酸をシーケンシングすることによって得られるリード
リードを参照ゲノムまたは他の参照配列または配列にアラインすることによって得られるタグ
参照ゲノムまたは配列
試験サンプルを影響あり、影響なし、またはコールなしとコールするための閾値
関心対象の配列に関係する医学的状態についての実際のコール
診断(コールに関連する臨床状態)
コールおよび/または診断から導かれたさらなる試験の勧告
コールおよび/または診断から導かれた処置および/またはモニタリング計画。
サンプル収集
シーケンシングの準備としてのサンプル処理
シーケンシング
配列データの解析および医療コールの導出
診断
患者または医療供給者への診断および/またはコールの報告
さらなる処置、試験および/またはモニタリングのための計画の作成
計画の実行
カウンセリング。
実施例1
vNRUMI法と他のバーコード法の比較
表1は、いくつかの実施態様に係るvNRUMIの塩基対不均一性とNRUMIの塩基対不均一性の比較を示す。この120種のvNRUMIのセットは、50種の6merおよび70種の7merからなる。NRUMIのセットは、全体で218種の6merからなり、ここで任意の2つのNRUMI間の最小編集距離は閾値を上回る。表1は、218種のバーコードまたは128種のバーコードの各々が等量で存在した(例えば、各UMIが1000個ある)と仮定している。7番目の塩基について、新たなvNRUMIセットは、オリジナルのNRUMIセットよりもはるかに良好な不均一性を有し、1塩基当たり5%組成の推奨最小値を大きく上回る。したがって、vNRUMI設計が、特定のサイクルでの塩基対多様性の欠如という前述の課題に対処することが明らかである。6merのみからなる他のバーコードセットは、以下に示されているオリジナルのNRUMIセットと類似した1塩基当たりの不均一性を有する。
vNRUMIおよびNRUMIを使用したDNA断片の回復
別のインシリコ研究のセットにおいて、vNRUMIおよびNRUMIのリード回復能を試験する。この研究は、ランダムCOSMIC変異を選び出し、その変異を含有する単一DNA断片を生成する。断片サイズは、平均166、標準偏差40を有する。シミュレーションは、この断片の両端にランダムUMIを付加する。それは、ART(例えば、https://www.niehs.nih.gov/research/resources/software/biostatistics/art/を参照されたい)を使用して、このUMI-断片-UMI分子の10個のペアエンドリードをシミュレートし、そして、このリードをバローズ・ウィーラー・アライナー(BWA)を使用してアラインする。例えば、http://bio-bwa.sourceforge.net/を参照されたい。
[本発明1001]
サンプル由来の核酸分子をシーケンシングするための方法であって、以下の工程:
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、かつ可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程;
(d)該複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程;および
(e)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。
[本発明1002]
前記同じvNRUMIに関連するリードを特定する工程が、前記複数のリードの各リードについて、前記vNRUMIのセットに関するアライメントスコアを得ることを含み、各アライメントスコアが、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列が、該リードの、該vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、本発明1001の方法。
[本発明1003]
前記アライメントスコアが、前記リードの部分配列と前記vNRUMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、本発明1002の方法。
[本発明1004]
前記ヌクレオチドの編集が、ヌクレオチドの置換、付加、および欠失を含む、本発明1003の方法。
[本発明1005]
各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、本発明1003の方法。
[本発明1006]
リードとvNRUMIとの間のアライメントスコアを得ることが、
(a)該vNRUMIと、該リードの部分配列の全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;
(b)該リードの部分配列と、該vNRUMIの全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;ならびに
(c)(a)および(b)において算出されたアライメントスコアの中で最も大きなアライメントスコアを、該リードと該vNRUMIとの間のアライメントスコアとして得ること
を含む、本発明1005の方法。
[本発明1007]
前記部分配列の長さが、前記vNRUMIのセットの中で最も長いvNRUMIの長さと等しい、本発明1002の方法。
[本発明1008]
(d)における前記同じvNRUMIに関連するリードを特定する工程が、
前記複数のリードの各リードについて、前記アライメントスコアに基づいて、前記vNRUMIのセットから少なくとも1つのvNRUMIを選択すること;および
該複数のリードの各リードを、該リードについて選択された該少なくとも1つのvNRUMIと関連付けること
をさらに含む、本発明1002の方法。
[本発明1009]
前記vNRUMIのセットから前記少なくとも1つのvNRUMIを選択することが、該vNRUMIのセットの中で最も高いアライメントスコアを有するvNRUMIを選択することを含む、本発明1008の方法。
[本発明1010]
前記少なくとも1つのvNRUMIが、2つ以上のvNRUMIを含む、本発明1008の方法。
[本発明1011]
(d)および(e)の前記同じvNRUMIとして、前記2つ以上のvNRUMIのうちの1つを選択する工程をさらに含む、本発明1010の方法。
[本発明1012]
(a)において付加される前記アダプターが、
(i)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供すること;
(ii)該オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択することであって、該オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、該オリゴヌクレオチド配列のサブセットが前記vNRUMIのセットを形成する、こと;ならびに
(iii)二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、および該vNRUMIのセットの少なくとも1つのvNRUMIを各々が含む該アダプターを合成すること
によって得られる、本発明1001の方法。
[本発明1013]
前記閾値が3である、本発明1012の方法。
[本発明1014]
前記vNRUMIのセットが、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む、本発明1001の方法。
[本発明1015]
(e)が、前記同じvNRUMIに関連するリードを折りたたんでグループにして、前記サンプル中のDNA断片の配列についてのコンセンサスヌクレオチド配列を得ることを含む、本発明1001の方法。
[本発明1016]
前記コンセンサスヌクレオチド配列が、前記リードの品質スコアに一部基づいて得られる、本発明1015の方法。
[本発明1017]
(e)が、
前記同じvNRUMIに関連するリードの中で、参照配列における同じリード位置または類似のリード位置を有するリードを特定すること、ならびに
(i)該同じvNRUMIに関連するリードおよび(ii)該参照配列における該同じリード位置または類似のリード位置を有するリードを使用して、前記DNA断片の配列を決定すること
を含む、本発明1001の方法。
[本発明1018]
前記vNRUMIのセットが、約10,000種以下の異なるvNRUMIを含む、本発明1001の方法。
[本発明1019]
前記vNRUMIのセットが、約1,000種以下の異なるvNRUMIを含む、本発明1018の方法。
[本発明1020]
前記vNRUMIのセットが、約200種以下の異なるvNRUMIを含む、本発明1019の方法。
[本発明1021]
前記サンプル中のDNA断片にアダプターを付加する工程が、該サンプル中のDNA断片の両端にアダプターを付加することを含む、本発明1001の方法。
[本発明1022]
シーケンシングアダプターを調製するための方法であって、
(a)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供する工程;
(b)該オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択する工程であって、該オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、該オリゴヌクレオチド配列のサブセットが可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;ならびに
(c)複数のシーケンシングアダプターを合成する工程であって、各シーケンシングアダプターが、二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、および該vNRUMIのセットの少なくとも1つのvNRUMIを含む、工程
を含む、方法。
[本発明1023]
(b)が、
(i)前記オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列を選択すること;
(ii)該選択されたオリゴヌクレオチドをオリゴヌクレオチド配列の拡大セットに加えること、および該選択されたオリゴヌクレオチドを前記オリゴヌクレオチド配列のセットから除去して、オリゴヌクレオチド配列の低減されたセットを得ること;
(iii)該低減されたセットから、距離関数を最大化するインスタントオリゴヌクレオチド配列を選択することであって、該距離関数が、該インスタントオリゴヌクレオチド配列と該拡大セット中の任意のオリゴヌクレオチド配列との間の最小編集距離であり、かつ、該距離関数が前記閾値を満たす、こと;
(iv)該インスタントオリゴヌクレオチドを該拡大セットに加えること、および該インスタントオリゴヌクレオチドを該低減されたセットから除去すること;
(v)(iii)および(iv)を1または複数回繰り返すこと;ならびに
(vi)前記vNRUMIのセットを形成する前記オリゴヌクレオチド配列のサブセットとして該拡大セットを提供すること
を含む、本発明1022の方法。
[本発明1024]
(v)が、前記距離関数がもはや前記閾値を満たすことがなくなるまで(iii)および(iv)を繰り返すことを含む、本発明1023の方法。
[本発明1025]
(v)が、前記拡大セットが規定サイズに達するまで(iii)および(iv)を繰り返すことを含む、本発明1023の方法。
[本発明1026]
前記インスタントオリゴヌクレオチド配列または前記拡大セット中のオリゴヌクレオチド配列が、前記オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列よりも短く、前記方法が、(iii)の前に、(1)チミン塩基またはチミン塩基+4つの塩基のいずれかを該インスタントオリゴヌクレオチド配列または該拡大セット中のオリゴヌクレオチド配列に追加し、それによって、該オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列と同じ長さを有する延長された配列を生成すること、および(2)該延長された配列を使用して、前記最小編集距離を算出することをさらに含む、本発明1023の方法。
[本発明1027]
前記編集距離が、レーベンシュタイン距離である、本発明1022の方法。
[本発明1028]
前記閾値が3である、本発明1022の方法。
[本発明1029]
(b)の前に、前記オリゴヌクレオチド配列のセットから特定のオリゴヌクレオチド配列を除去して、オリゴヌクレオチド配列のフィルタリングされたセットを得る工程;および該オリゴヌクレオチド配列のフィルタリングされたセットを、前記オリゴヌクレオチド配列のセットとして提供する工程であって、該セットから前記サブセットが選択される、工程をさらに含む、本発明1022の方法。
[本発明1030]
前記特定のオリゴヌクレオチド配列が、3つ以上の連続する同一塩基を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1031]
前記特定のオリゴヌクレオチド配列が、グアニン塩基とシトシン塩基の合計数が2よりも少ないオリゴヌクレオチド配列、およびグアニン塩基とシトシン塩基の合計数が4よりも多いオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1032]
前記特定のオリゴヌクレオチド配列が、最後の2つの位置に同じ塩基を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1033]
前記特定のオリゴヌクレオチド配列が、1つまたは複数のシーケンシングプライマーの3'末端にマッチする部分配列を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1034]
前記特定のオリゴヌクレオチド配列が、該オリゴヌクレオチド配列の最後の位置にチミン塩基を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1035]
前記vNRUMIのセットが、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む、本発明1022の方法。
[本発明1036]
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vNRUMIのセットに関連する複数のリードを得る工程;および
(d)該複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程
を含む、方法。
[本発明1037]
前記同じvNRUMIに関連するリードのカウント数を得る工程をさらに含む、本発明1036の方法。
[本発明1038]
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、ユニーク分子インデックス(UMI)を含み、かつ
該アダプターのユニーク分子インデックス(UMI)が、少なくとも2つの異なる分子長を有し、可変長のユニーク分子インデックス(vUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vUMIのセットに関連する複数のリードを得る工程;および
(d)該複数のリードの中で、同じ可変長のユニーク分子インデックス(vUMI)に関連するリードを特定する工程
を含む、方法。
[本発明1039]
前記同じvUMIに関連するリードを使用して、前記サンプル中のDNA断片の配列を決定する工程をさらに含む、本発明1038の方法。
[本発明1040]
前記同じvUMIに関連するリードのカウント数を得る工程をさらに含む、本発明1038の方法。
[本発明1041]
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)のセット中のユニーク分子インデックス(UMI)を含む、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該UMIのセットに関連する複数のリードを得る工程;
(d)該複数のリードの各リードについて、該UMIのセットに関するアライメントスコアを得る工程であって、各アライメントスコアが該リードの部分配列とUMIとの間の類似度を示す、工程;
(e)該アライメントスコアを使用して、該複数のリードの中で、同じUMIに関連するリードを特定する工程;および
(e)該同じUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。
[本発明1042]
前記アライメントスコアが、前記リードの前記部分配列と前記UMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、本発明1041の方法。
[本発明1043]
各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、本発明1042の方法。
[本発明1044]
前記UMIのセットが、少なくとも2つの異なる分子長のUMIを含む、本発明1041の方法。
[本発明1045]
プログラムコードを記憶している非一時的機械可読媒体を含むコンピュータプログラム製品であって、該プログラムコードが、コンピュータシステムの1つまたは複数のプロセッサによって実行されると、サンプル由来の核酸分子をシーケンシングするための方法を該コンピュータシステムに実施させ、該プログラムコードが、以下のコード:
(a)複数の増幅されたポリヌクレオチドの複数のリードを得るためのコードであって、該複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、コード;
(b)該複数のリードの中で、同じvNRUMIに関連するリードを特定するためのコード;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定するためのコード
を含む、コンピュータプログラム製品。
[本発明1046]
コンピュータシステムであって、
1つまたは複数のプロセッサ;
システムメモリ;ならびに
サンプル中の関心対象の配列の配列情報を決定するための方法を該コンピュータシステムに実施させるコンピュータが実行可能な命令を記憶している1つまたは複数のコンピュータ可読記憶媒体であって、該命令が
(a)複数の増幅されたポリヌクレオチドの複数のリードを得る工程であって、複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該複数のリードの中で、同じvNRUMIに関連するリードを特定する工程;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、コンピュータ可読記憶媒体
を含む、コンピュータシステム。
Claims (46)
- サンプル由来の核酸分子をシーケンシングするための方法であって、以下の工程:
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、かつ可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程;
(d)該複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程;および
(e)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。 - 前記同じvNRUMIに関連するリードを特定する工程が、前記複数のリードの各リードについて、前記vNRUMIのセットに関するアライメントスコアを得ることを含み、各アライメントスコアが、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列が、該リードの、該vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、請求項1記載の方法。
- 前記アライメントスコアが、前記リードの部分配列と前記vNRUMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、請求項2記載の方法。
- 前記ヌクレオチドの編集が、ヌクレオチドの置換、付加、および欠失を含む、請求項3記載の方法。
- 各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、請求項3記載の方法。
- リードとvNRUMIとの間のアライメントスコアを得ることが、
(a)該vNRUMIと、該リードの部分配列の全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;
(b)該リードの部分配列と、該vNRUMIの全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;ならびに
(c)(a)および(b)において算出されたアライメントスコアの中で最も大きなアライメントスコアを、該リードと該vNRUMIとの間のアライメントスコアとして得ること
を含む、請求項5記載の方法。 - 前記部分配列の長さが、前記vNRUMIのセットの中で最も長いvNRUMIの長さと等しい、請求項2記載の方法。
- (d)における前記同じvNRUMIに関連するリードを特定する工程が、
前記複数のリードの各リードについて、前記アライメントスコアに基づいて、前記vNRUMIのセットから少なくとも1つのvNRUMIを選択すること;および
該複数のリードの各リードを、該リードについて選択された該少なくとも1つのvNRUMIと関連付けること
をさらに含む、請求項2記載の方法。 - 前記vNRUMIのセットから前記少なくとも1つのvNRUMIを選択することが、該vNRUMIのセットの中で最も高いアライメントスコアを有するvNRUMIを選択することを含む、請求項8記載の方法。
- 前記少なくとも1つのvNRUMIが、2つ以上のvNRUMIを含む、請求項8記載の方法。
- (d)および(e)の前記同じvNRUMIとして、前記2つ以上のvNRUMIのうちの1つを選択する工程をさらに含む、請求項10記載の方法。
- (a)において付加される前記アダプターが、
(i)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供すること;
(ii)該オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択することであって、該オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、該オリゴヌクレオチド配列のサブセットが前記vNRUMIのセットを形成する、こと;ならびに
(iii)二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、および該vNRUMIのセットの少なくとも1つのvNRUMIを各々が含む該アダプターを合成すること
によって得られる、請求項1記載の方法。 - 前記閾値が3である、請求項12記載の方法。
- 前記vNRUMIのセットが、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む、請求項1記載の方法。
- (e)が、前記同じvNRUMIに関連するリードを折りたたんでグループにして、前記サンプル中のDNA断片の配列についてのコンセンサスヌクレオチド配列を得ることを含む、請求項1記載の方法。
- 前記コンセンサスヌクレオチド配列が、前記リードの品質スコアに一部基づいて得られる、請求項15記載の方法。
- (e)が、
前記同じvNRUMIに関連するリードの中で、参照配列における同じリード位置または類似のリード位置を有するリードを特定すること、ならびに
(i)該同じvNRUMIに関連するリードおよび(ii)該参照配列における該同じリード位置または類似のリード位置を有するリードを使用して、前記DNA断片の配列を決定すること
を含む、請求項1記載の方法。 - 前記vNRUMIのセットが、約10,000種以下の異なるvNRUMIを含む、請求項1記載の方法。
- 前記vNRUMIのセットが、約1,000種以下の異なるvNRUMIを含む、請求項18記載の方法。
- 前記vNRUMIのセットが、約200種以下の異なるvNRUMIを含む、請求項19記載の方法。
- 前記サンプル中のDNA断片にアダプターを付加する工程が、該サンプル中のDNA断片の両端にアダプターを付加することを含む、請求項1記載の方法。
- シーケンシングアダプターを調製するための方法であって、
(a)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供する工程;
(b)該オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択する工程であって、該オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、該オリゴヌクレオチド配列のサブセットが可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;ならびに
(c)複数のシーケンシングアダプターを合成する工程であって、各シーケンシングアダプターが、二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、および該vNRUMIのセットの少なくとも1つのvNRUMIを含む、工程
を含む、方法。 - (b)が、
(i)前記オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列を選択すること;
(ii)該選択されたオリゴヌクレオチドをオリゴヌクレオチド配列の拡大セットに加えること、および該選択されたオリゴヌクレオチドを前記オリゴヌクレオチド配列のセットから除去して、オリゴヌクレオチド配列の低減されたセットを得ること;
(iii)該低減されたセットから、距離関数を最大化するインスタントオリゴヌクレオチド配列を選択することであって、該距離関数が、該インスタントオリゴヌクレオチド配列と該拡大セット中の任意のオリゴヌクレオチド配列との間の最小編集距離であり、かつ、該距離関数が前記閾値を満たす、こと;
(iv)該インスタントオリゴヌクレオチドを該拡大セットに加えること、および該インスタントオリゴヌクレオチドを該低減されたセットから除去すること;
(v)(iii)および(iv)を1または複数回繰り返すこと;ならびに
(vi)前記vNRUMIのセットを形成する前記オリゴヌクレオチド配列のサブセットとして該拡大セットを提供すること
を含む、請求項22記載の方法。 - (v)が、前記距離関数がもはや前記閾値を満たすことがなくなるまで(iii)および(iv)を繰り返すことを含む、請求項23記載の方法。
- (v)が、前記拡大セットが規定サイズに達するまで(iii)および(iv)を繰り返すことを含む、請求項23記載の方法。
- 前記インスタントオリゴヌクレオチド配列または前記拡大セット中のオリゴヌクレオチド配列が、前記オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列よりも短く、前記方法が、(iii)の前に、(1)チミン塩基またはチミン塩基+4つの塩基のいずれかを該インスタントオリゴヌクレオチド配列または該拡大セット中のオリゴヌクレオチド配列に追加し、それによって、該オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列と同じ長さを有する延長された配列を生成すること、および(2)該延長された配列を使用して、前記最小編集距離を算出することをさらに含む、請求項23記載の方法。
- 前記編集距離が、レーベンシュタイン距離である、請求項22記載の方法。
- 前記閾値が3である、請求項22記載の方法。
- (b)の前に、前記オリゴヌクレオチド配列のセットから特定のオリゴヌクレオチド配列を除去して、オリゴヌクレオチド配列のフィルタリングされたセットを得る工程;および該オリゴヌクレオチド配列のフィルタリングされたセットを、前記オリゴヌクレオチド配列のセットとして提供する工程であって、該セットから前記サブセットが選択される、工程をさらに含む、請求項22記載の方法。
- 前記特定のオリゴヌクレオチド配列が、3つ以上の連続する同一塩基を有するオリゴヌクレオチド配列を含む、請求項29記載の方法。
- 前記特定のオリゴヌクレオチド配列が、グアニン塩基とシトシン塩基の合計数が2よりも少ないオリゴヌクレオチド配列、およびグアニン塩基とシトシン塩基の合計数が4よりも多いオリゴヌクレオチド配列を含む、請求項29記載の方法。
- 前記特定のオリゴヌクレオチド配列が、最後の2つの位置に同じ塩基を有するオリゴヌクレオチド配列を含む、請求項29記載の方法。
- 前記特定のオリゴヌクレオチド配列が、1つまたは複数のシーケンシングプライマーの3'末端にマッチする部分配列を有するオリゴヌクレオチド配列を含む、請求項29記載の方法。
- 前記特定のオリゴヌクレオチド配列が、該オリゴヌクレオチド配列の最後の位置にチミン塩基を有するオリゴヌクレオチド配列を含む、請求項29記載の方法。
- 前記vNRUMIのセットが、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む、請求項22記載の方法。
- サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vNRUMIのセットに関連する複数のリードを得る工程;および
(d)該複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程
を含む、方法。 - 前記同じvNRUMIに関連するリードのカウント数を得る工程をさらに含む、請求項36記載の方法。
- サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、ユニーク分子インデックス(UMI)を含み、かつ
該アダプターのユニーク分子インデックス(UMI)が、少なくとも2つの異なる分子長を有し、可変長のユニーク分子インデックス(vUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vUMIのセットに関連する複数のリードを得る工程;および
(d)該複数のリードの中で、同じ可変長のユニーク分子インデックス(vUMI)に関連するリードを特定する工程
を含む、方法。 - 前記同じvUMIに関連するリードを使用して、前記サンプル中のDNA断片の配列を決定する工程をさらに含む、請求項38記載の方法。
- 前記同じvUMIに関連するリードのカウント数を得る工程をさらに含む、請求項38記載の方法。
- サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)のセット中のユニーク分子インデックス(UMI)を含む、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該UMIのセットに関連する複数のリードを得る工程;
(d)該複数のリードの各リードについて、該UMIのセットに関するアライメントスコアを得る工程であって、各アライメントスコアが該リードの部分配列とUMIとの間の類似度を示す、工程;
(e)該アライメントスコアを使用して、該複数のリードの中で、同じUMIに関連するリードを特定する工程;および
(e)該同じUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。 - 前記アライメントスコアが、前記リードの前記部分配列と前記UMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、請求項41記載の方法。
- 各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、請求項42記載の方法。
- 前記UMIのセットが、少なくとも2つの異なる分子長のUMIを含む、請求項41記載の方法。
- プログラムコードを記憶している非一時的機械可読媒体を含むコンピュータプログラム製品であって、該プログラムコードが、コンピュータシステムの1つまたは複数のプロセッサによって実行されると、サンプル由来の核酸分子をシーケンシングするための方法を該コンピュータシステムに実施させ、該プログラムコードが、以下のコード:
(a)複数の増幅されたポリヌクレオチドの複数のリードを得るためのコードであって、該複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、コード;
(b)該複数のリードの中で、同じvNRUMIに関連するリードを特定するためのコード;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定するためのコード
を含む、コンピュータプログラム製品。 - コンピュータシステムであって、
1つまたは複数のプロセッサ;
システムメモリ;ならびに
サンプル中の関心対象の配列の配列情報を決定するための方法を該コンピュータシステムに実施させるコンピュータが実行可能な命令を記憶している1つまたは複数のコンピュータ可読記憶媒体であって、該命令が
(a)複数の増幅されたポリヌクレオチドの複数のリードを得る工程であって、複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該複数のリードの中で、同じvNRUMIに関連するリードを特定する工程;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、コンピュータ可読記憶媒体
を含む、コンピュータシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022056208A JP7284849B2 (ja) | 2017-01-18 | 2022-03-30 | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762447851P | 2017-01-18 | 2017-01-18 | |
US62/447,851 | 2017-01-18 | ||
PCT/US2018/012669 WO2018136248A1 (en) | 2017-01-18 | 2018-01-05 | Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022056208A Division JP7284849B2 (ja) | 2017-01-18 | 2022-03-30 | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020505947A true JP2020505947A (ja) | 2020-02-27 |
JP7051900B2 JP7051900B2 (ja) | 2022-04-11 |
Family
ID=61054549
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019559268A Active JP7051900B2 (ja) | 2017-01-18 | 2018-01-05 | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム |
JP2022056208A Active JP7284849B2 (ja) | 2017-01-18 | 2022-03-30 | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム |
JP2023082653A Pending JP2023101017A (ja) | 2017-01-18 | 2023-05-19 | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022056208A Active JP7284849B2 (ja) | 2017-01-18 | 2022-03-30 | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム |
JP2023082653A Pending JP2023101017A (ja) | 2017-01-18 | 2023-05-19 | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム |
Country Status (11)
Country | Link |
---|---|
US (3) | US10844429B2 (ja) |
EP (2) | EP3889962A1 (ja) |
JP (3) | JP7051900B2 (ja) |
KR (2) | KR102701404B1 (ja) |
CN (2) | CN116497103A (ja) |
AU (1) | AU2018210188B2 (ja) |
BR (1) | BR112019014651A2 (ja) |
CA (1) | CA3050247A1 (ja) |
RU (1) | RU2022101605A (ja) |
SG (1) | SG11201906428SA (ja) |
WO (1) | WO2018136248A1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL2697397T3 (pl) | 2011-04-15 | 2017-08-31 | The Johns Hopkins University | System bezpiecznego sekwencjonowania |
EP3447495B2 (en) | 2012-10-29 | 2024-03-13 | The Johns Hopkins University | Papanicolaou test for ovarian and endometrial cancers |
US10844428B2 (en) | 2015-04-28 | 2020-11-24 | Illumina, Inc. | Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS) |
US11286531B2 (en) | 2015-08-11 | 2022-03-29 | The Johns Hopkins University | Assaying ovarian cyst fluid |
CN116497103A (zh) | 2017-01-18 | 2023-07-28 | 伊鲁米那股份有限公司 | 制备测序衔接子的方法和对核酸分子进行测序的方法 |
AU2018342007A1 (en) | 2017-08-07 | 2020-02-27 | Board Of Regents, The University Of Texas Systems | Methods and materials for assessing and treating cancer |
US11447818B2 (en) | 2017-09-15 | 2022-09-20 | Illumina, Inc. | Universal short adapters with variable length non-random unique molecular identifiers |
WO2019090251A2 (en) | 2017-11-06 | 2019-05-09 | Illumina, Inc. | Nucleic acid indexing techniques |
EP3844497A2 (en) | 2018-08-28 | 2021-07-07 | F. Hoffmann-La Roche AG | Nanopore sequencing device comprising ruthenium-containing electrodes |
CN113316585B (zh) | 2018-12-19 | 2024-06-04 | 豪夫迈·罗氏有限公司 | 3’保护的核苷酸 |
CN113228190B (zh) | 2018-12-23 | 2024-06-11 | 豪夫迈·罗氏有限公司 | 分类和/或鉴定癌症亚型的系统和方法 |
WO2020169830A1 (en) * | 2019-02-21 | 2020-08-27 | Keygene N.V. | Genotyping of polyploids |
CN113767438A (zh) * | 2019-02-28 | 2021-12-07 | 加利福尼亚太平洋生物科学股份有限公司 | 使用均聚物折叠测序读段改进对齐 |
US11347965B2 (en) | 2019-03-21 | 2022-05-31 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
US11423306B2 (en) | 2019-05-16 | 2022-08-23 | Illumina, Inc. | Systems and devices for characterization and performance analysis of pixel-based sequencing |
US10927409B1 (en) * | 2019-10-14 | 2021-02-23 | Pioneer Hi-Bred International, Inc. | Detection of sequences uniquely associated with a dna target region |
EP3836148A1 (en) | 2019-12-09 | 2021-06-16 | Lexogen GmbH | Index sequences for multiplex parallel sequencing |
CN110993024B (zh) * | 2019-12-20 | 2023-08-22 | 北京科迅生物技术有限公司 | 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置 |
US20230049048A1 (en) * | 2020-02-07 | 2023-02-16 | Lodo Therapeutics Corporation | Methods and apparatus for efficient and accurate assembly of long-read genomic sequences |
IL295560A (en) | 2020-02-20 | 2022-10-01 | Illumina Inc | Artificial intelligence-based many-to-many base calling |
WO2022010965A1 (en) | 2020-07-08 | 2022-01-13 | Illumina, Inc. | Beads as transposome carriers |
EP4192951A1 (en) | 2020-08-06 | 2023-06-14 | Illumina, Inc. | Preparation of rna and dna sequencing libraries using bead-linked transposomes |
CN111968706B (zh) * | 2020-10-20 | 2021-02-12 | 安诺优达基因科技(北京)有限公司 | 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法 |
EP4232600A2 (en) | 2020-10-21 | 2023-08-30 | Illumina, Inc. | Sequencing templates comprising multiple inserts and compositions and methods for improving sequencing throughput |
US20220135966A1 (en) * | 2020-11-03 | 2022-05-05 | Fluent Biosciences Inc. | Systems and methods for making sequencing libraries |
WO2022212269A1 (en) | 2021-03-29 | 2022-10-06 | Illumina, Inc. | Improved methods of library preparation |
IL307172A (en) | 2021-03-30 | 2023-11-01 | Illumina Inc | Improved methods of isothermal complementary DNA and library preparation |
MX2023011218A (es) | 2021-03-31 | 2023-10-02 | Illumina Inc | Métodos de preparación de genotecas de secuenciación de tagmentación direccional usando tecnología basada en transposón con identificadores moleculares únicos para la corrección de errores. |
US12217829B2 (en) | 2021-04-15 | 2025-02-04 | Illumina, Inc. | Artificial intelligence-based analysis of protein three-dimensional (3D) structures |
CN114550819B (zh) * | 2022-01-28 | 2024-08-27 | 赛纳生物科技(北京)有限公司 | 简并测序的索引序列集的设计方法 |
WO2024036475A1 (zh) * | 2022-08-16 | 2024-02-22 | 刘宗霖 | 共识碱基错误率评估方法及其系统 |
IT202200027138A1 (it) | 2022-12-29 | 2024-06-29 | Centro Di Riferimento Oncologico | Metodo per la correzione di errori nel sequenziamento di acidi nucleici |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140024541A1 (en) * | 2012-07-17 | 2014-01-23 | Counsyl, Inc. | Methods and compositions for high-throughput sequencing |
US20150275289A1 (en) * | 2012-05-31 | 2015-10-01 | Board Of Regents, The University Of Texas System | Method for Accurate Sequencing of DNA |
WO2016176091A1 (en) * | 2015-04-28 | 2016-11-03 | Illumina, Inc. | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4683202A (en) | 1985-03-28 | 1987-07-28 | Cetus Corporation | Process for amplifying nucleic acid sequences |
US4683195A (en) | 1986-01-30 | 1987-07-28 | Cetus Corporation | Process for amplifying, detecting, and/or-cloning nucleic acid sequences |
CA2044616A1 (en) | 1989-10-26 | 1991-04-27 | Roger Y. Tsien | Dna sequencing |
US5677170A (en) | 1994-03-02 | 1997-10-14 | The Johns Hopkins University | In vitro transposition of artificial transposons |
AU6846698A (en) | 1997-04-01 | 1998-10-22 | Glaxo Group Limited | Method of nucleic acid amplification |
US6159736A (en) | 1998-09-23 | 2000-12-12 | Wisconsin Alumni Research Foundation | Method for making insertional mutations using a Tn5 synaptic complex |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
US20030064366A1 (en) | 2000-07-07 | 2003-04-03 | Susan Hardin | Real-time sequence determination |
EP1354064A2 (en) | 2000-12-01 | 2003-10-22 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
US20040018520A1 (en) * | 2002-04-22 | 2004-01-29 | James Thompson | Trans-splicing enzymatic nucleic acid mediated biopharmaceutical and protein |
JP3630414B2 (ja) | 2002-05-21 | 2005-03-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム |
EP3002289B1 (en) | 2002-08-23 | 2018-02-28 | Illumina Cambridge Limited | Modified nucleotides for polynucleotide sequencing |
US20110059865A1 (en) | 2004-01-07 | 2011-03-10 | Mark Edward Brennan Smith | Modified Molecular Arrays |
AU2005296200B2 (en) | 2004-09-17 | 2011-07-14 | Pacific Biosciences Of California, Inc. | Apparatus and method for analysis of molecules |
EP1828412B2 (en) | 2004-12-13 | 2019-01-09 | Illumina Cambridge Limited | Improved method of nucleotide detection |
GB0514936D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Preparation of templates for nucleic acid sequencing |
US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
EP4105644A3 (en) | 2006-03-31 | 2022-12-28 | Illumina, Inc. | Systems and devices for sequence by synthesis analysis |
WO2008051530A2 (en) | 2006-10-23 | 2008-05-02 | Pacific Biosciences Of California, Inc. | Polymerase enzymes and reagents for enhanced nucleic acid sequencing |
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
WO2008093098A2 (en) | 2007-02-02 | 2008-08-07 | Illumina Cambridge Limited | Methods for indexing samples and sequencing multiple nucleotide templates |
JP2013514079A (ja) | 2009-12-17 | 2013-04-25 | キージーン・エン・フェー | 制限酵素に基づく全ゲノムシーケンシング |
US9260745B2 (en) | 2010-01-19 | 2016-02-16 | Verinata Health, Inc. | Detecting and classifying copy number variation |
WO2011090558A1 (en) | 2010-01-19 | 2011-07-28 | Verinata Health, Inc. | Simultaneous determination of aneuploidy and fetal fraction |
WO2011139797A2 (en) * | 2010-04-27 | 2011-11-10 | Spiral Genetics Inc. | Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples |
JP5516880B2 (ja) * | 2010-07-09 | 2014-06-11 | 独立行政法人産業技術総合研究所 | 配列解析装置、配列解析方法およびコンピュータプログラム |
EP2619327B1 (en) * | 2010-09-21 | 2014-10-22 | Population Genetics Technologies LTD. | Increasing confidence of allele calls with molecular counting |
EP2619329B1 (en) | 2010-09-24 | 2019-05-22 | The Board of Trustees of The Leland Stanford Junior University | Direct capture, amplification and sequencing of target dna using immobilized primers |
PL2697397T3 (pl) | 2011-04-15 | 2017-08-31 | The Johns Hopkins University | System bezpiecznego sekwencjonowania |
US9777322B2 (en) | 2011-07-08 | 2017-10-03 | Keygene N.V. | Sequence based genotyping based on oligonucleotide ligation assays |
AU2012327251A1 (en) | 2011-10-27 | 2013-05-23 | Verinata Health, Inc. | Set membership testers for aligning nucleic acid samples |
US20130267428A1 (en) | 2012-02-10 | 2013-10-10 | Washington University In St. Louis | High throughput digital karyotyping for biome characterization |
CA2867293C (en) | 2012-03-13 | 2020-09-01 | Abhijit Ajit PATEL | Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing |
EP2828218B9 (en) | 2012-03-20 | 2021-04-07 | University Of Washington Through Its Center For Commercialization | Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing |
WO2013173394A2 (en) | 2012-05-14 | 2013-11-21 | Cb Biotechnologies, Inc. | Method for increasing accuracy in quantitative detection of polynucleotides |
EP2852608A4 (en) | 2012-05-21 | 2016-05-04 | Distributed Bio Inc | EPITOPIC CROPPING BY VARIABLE EFFECTIVE ANTIGEN SURFACE CONCENTRATION |
EP3553175B1 (en) | 2013-03-13 | 2021-07-14 | Illumina, Inc. | Method of preparing a nucleic acid sequencing library |
EP2971152B1 (en) | 2013-03-15 | 2018-08-01 | The Board Of Trustees Of The Leland Stanford Junior University | Identification and use of circulating nucleic acid tumor markers |
US9328382B2 (en) * | 2013-03-15 | 2016-05-03 | Complete Genomics, Inc. | Multiple tagging of individual long DNA fragments |
CN105593683B (zh) * | 2013-10-01 | 2018-11-30 | 考利达基因组股份有限公司 | 鉴定基因组中的变异的定相和连接方法 |
US10655173B2 (en) | 2013-10-18 | 2020-05-19 | The Broad Institute, Inc. | Spatial and cellular mapping of biomolecules in situ by high-throughput sequencing |
EP3524694B1 (en) | 2013-12-28 | 2020-07-15 | Guardant Health, Inc. | Methods and systems for detecting genetic variants |
US9677132B2 (en) | 2014-01-16 | 2017-06-13 | Illumina, Inc. | Polynucleotide modification on solid support |
US20170233727A1 (en) | 2014-05-23 | 2017-08-17 | Centrillion Technology Holdings Corporation | Methods for generating and decoding barcodes |
ES2925014T3 (es) | 2014-09-12 | 2022-10-13 | Univ Leland Stanford Junior | Identificación y uso de ácidos nucleicos circulantes |
US11661597B2 (en) | 2015-04-15 | 2023-05-30 | The Board Of Trustees Of The Leland Stanford Junior University | Robust quantification of single molecules in next-generation sequencing using non-random combinatorial oligonucleotide barcodes |
EP3387152B1 (en) | 2015-12-08 | 2022-01-26 | Twinstrand Biosciences, Inc. | Improved adapters, methods, and compositions for duplex sequencing |
US11708574B2 (en) | 2016-06-10 | 2023-07-25 | Myriad Women's Health, Inc. | Nucleic acid sequencing adapters and uses thereof |
WO2018027048A1 (en) | 2016-08-05 | 2018-02-08 | Bio-Rad Laboratories, Inc. | Second strand direct |
CN116497103A (zh) | 2017-01-18 | 2023-07-28 | 伊鲁米那股份有限公司 | 制备测序衔接子的方法和对核酸分子进行测序的方法 |
WO2018148289A2 (en) | 2017-02-08 | 2018-08-16 | Integrated Dna Technologies, Inc. | Duplex adapters and duplex sequencing |
EP4450643A3 (en) | 2017-03-23 | 2024-11-20 | University of Washington | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing |
US11447818B2 (en) | 2017-09-15 | 2022-09-20 | Illumina, Inc. | Universal short adapters with variable length non-random unique molecular identifiers |
WO2019094651A1 (en) | 2017-11-08 | 2019-05-16 | Twinstrand Biosciences, Inc. | Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters |
EP3752639A4 (en) | 2018-02-13 | 2021-12-01 | Twinstrand Biosciences, Inc. | METHODS AND REAGENTS FOR DETECTION AND ASSESSMENT OF GENOTOXICITY |
WO2019178577A1 (en) | 2018-03-15 | 2019-09-19 | Twinstrand Biosciences, Inc. | Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations |
CN112218956A (zh) | 2018-05-16 | 2021-01-12 | 特温斯特兰德生物科学有限公司 | 用于解析核酸混合物和混合细胞群体的方法和试剂及相关应用 |
CA3105659A1 (en) | 2018-07-12 | 2020-01-16 | Twinstrand Biosciences, Inc. | Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications |
CA3115819A1 (en) | 2018-10-16 | 2020-04-23 | Twinstrand Biosciences, Inc. | Methods and reagents for efficient genotyping of large numbers of samples via pooling |
WO2021022237A1 (en) | 2019-08-01 | 2021-02-04 | Twinstrand Biosciences, Inc. | Methods and reagents for nucleic acid sequencing and associated applications |
-
2018
- 2018-01-05 CN CN202310563172.9A patent/CN116497103A/zh active Pending
- 2018-01-05 AU AU2018210188A patent/AU2018210188B2/en not_active Expired - Fee Related
- 2018-01-05 JP JP2019559268A patent/JP7051900B2/ja active Active
- 2018-01-05 SG SG11201906428SA patent/SG11201906428SA/en unknown
- 2018-01-05 WO PCT/US2018/012669 patent/WO2018136248A1/en active Application Filing
- 2018-01-05 KR KR1020197023747A patent/KR102701404B1/ko active IP Right Grant
- 2018-01-05 KR KR1020247028741A patent/KR20240135859A/ko active Application Filing
- 2018-01-05 EP EP21172159.2A patent/EP3889962A1/en active Pending
- 2018-01-05 EP EP18701865.0A patent/EP3571616B1/en active Active
- 2018-01-05 RU RU2022101605A patent/RU2022101605A/ru unknown
- 2018-01-05 US US15/863,737 patent/US10844429B2/en active Active
- 2018-01-05 BR BR112019014651-2A patent/BR112019014651A2/pt unknown
- 2018-01-05 CN CN201880012772.3A patent/CN110313034B/zh active Active
- 2018-01-05 CA CA3050247A patent/CA3050247A1/en active Pending
-
2020
- 2020-10-16 US US17/073,074 patent/US11761035B2/en active Active
-
2022
- 2022-03-30 JP JP2022056208A patent/JP7284849B2/ja active Active
-
2023
- 2023-05-19 JP JP2023082653A patent/JP2023101017A/ja active Pending
- 2023-08-03 US US18/230,114 patent/US20240011087A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150275289A1 (en) * | 2012-05-31 | 2015-10-01 | Board Of Regents, The University Of Texas System | Method for Accurate Sequencing of DNA |
US20140024541A1 (en) * | 2012-07-17 | 2014-01-23 | Counsyl, Inc. | Methods and compositions for high-throughput sequencing |
WO2016176091A1 (en) * | 2015-04-28 | 2016-11-03 | Illumina, Inc. | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) |
Non-Patent Citations (1)
Title |
---|
TEEMU KIVIOJA, NATURE METHODS, vol. 9, JPN6021044857, 2012, pages 72 - 74, ISSN: 0004638451 * |
Also Published As
Publication number | Publication date |
---|---|
JP7051900B2 (ja) | 2022-04-11 |
CN110313034A (zh) | 2019-10-08 |
US20240011087A1 (en) | 2024-01-11 |
JP2022088566A (ja) | 2022-06-14 |
EP3571616B1 (en) | 2021-05-19 |
KR102701404B1 (ko) | 2024-08-30 |
RU2019122349A (ru) | 2021-02-19 |
CN116497103A (zh) | 2023-07-28 |
KR20190117529A (ko) | 2019-10-16 |
SG11201906428SA (en) | 2019-08-27 |
BR112019014651A2 (pt) | 2020-07-21 |
CA3050247A1 (en) | 2018-07-26 |
US10844429B2 (en) | 2020-11-24 |
US20210079462A1 (en) | 2021-03-18 |
AU2018210188B2 (en) | 2023-11-09 |
KR20240135859A (ko) | 2024-09-12 |
EP3889962A1 (en) | 2021-10-06 |
JP7284849B2 (ja) | 2023-05-31 |
RU2766198C2 (ru) | 2022-02-09 |
RU2019122349A3 (ja) | 2021-06-02 |
US20180201992A1 (en) | 2018-07-19 |
JP2023101017A (ja) | 2023-07-19 |
AU2018210188A1 (en) | 2019-08-01 |
RU2022101605A (ru) | 2022-03-25 |
US11761035B2 (en) | 2023-09-19 |
WO2018136248A1 (en) | 2018-07-26 |
CN110313034B (zh) | 2023-06-06 |
EP3571616A1 (en) | 2019-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7284849B2 (ja) | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム | |
US11898198B2 (en) | Universal short adapters with variable length non-random unique molecular identifiers | |
US20240084376A1 (en) | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) | |
RU2766198C9 (ru) | Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок | |
NZ795518A (en) | Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191015 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7051900 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |