JP2018161148A - 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア - Google Patents
乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア Download PDFInfo
- Publication number
- JP2018161148A JP2018161148A JP2018133041A JP2018133041A JP2018161148A JP 2018161148 A JP2018161148 A JP 2018161148A JP 2018133041 A JP2018133041 A JP 2018133041A JP 2018133041 A JP2018133041 A JP 2018133041A JP 2018161148 A JP2018161148 A JP 2018161148A
- Authority
- JP
- Japan
- Prior art keywords
- model
- sequence
- activity
- protein
- terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title abstract description 490
- 239000012620 biological material Substances 0.000 title abstract description 5
- 230000000694 effects Effects 0.000 abstract description 512
- 108090000623 proteins and genes Proteins 0.000 abstract description 423
- 102000004169 proteins and genes Human genes 0.000 abstract description 361
- 230000003993 interaction Effects 0.000 abstract description 256
- 150000007523 nucleic acids Chemical group 0.000 abstract description 105
- 230000004952 protein activity Effects 0.000 abstract description 11
- 230000035772 mutation Effects 0.000 description 111
- 125000003729 nucleotide group Chemical group 0.000 description 101
- 239000002773 nucleotide Substances 0.000 description 96
- 238000012549 training Methods 0.000 description 95
- 230000008569 process Effects 0.000 description 84
- 239000000047 product Substances 0.000 description 77
- 150000001413 amino acids Chemical class 0.000 description 75
- 238000012163 sequencing technique Methods 0.000 description 75
- 108090000765 processed proteins & peptides Proteins 0.000 description 72
- 238000004422 calculation algorithm Methods 0.000 description 64
- 102000004196 processed proteins & peptides Human genes 0.000 description 59
- 108091034117 Oligonucleotide Proteins 0.000 description 53
- 108091028043 Nucleic acid sequence Proteins 0.000 description 51
- 230000006870 function Effects 0.000 description 50
- 230000001419 dependent effect Effects 0.000 description 47
- 229920001184 polypeptide Polymers 0.000 description 47
- 102000039446 nucleic acids Human genes 0.000 description 46
- 108020004707 nucleic acids Proteins 0.000 description 46
- 239000000654 additive Substances 0.000 description 44
- 230000000996 additive effect Effects 0.000 description 44
- 230000002068 genetic effect Effects 0.000 description 44
- 108020004414 DNA Proteins 0.000 description 43
- 239000012634 fragment Substances 0.000 description 41
- 238000013459 approach Methods 0.000 description 40
- 238000010238 partial least squares regression Methods 0.000 description 38
- 238000012628 principal component regression Methods 0.000 description 35
- 238000005215 recombination Methods 0.000 description 35
- 230000006798 recombination Effects 0.000 description 35
- 230000014509 gene expression Effects 0.000 description 33
- 108091033319 polynucleotide Proteins 0.000 description 31
- 102000040430 polynucleotide Human genes 0.000 description 31
- 239000002157 polynucleotide Substances 0.000 description 31
- 238000009826 distribution Methods 0.000 description 30
- 108020004705 Codon Proteins 0.000 description 29
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 29
- 210000000349 chromosome Anatomy 0.000 description 29
- 238000007792 addition Methods 0.000 description 27
- 125000000539 amino acid group Chemical group 0.000 description 25
- 238000002703 mutagenesis Methods 0.000 description 24
- 231100000350 mutagenesis Toxicity 0.000 description 24
- 239000013598 vector Substances 0.000 description 20
- 125000003275 alpha amino acid group Chemical group 0.000 description 19
- 210000004027 cell Anatomy 0.000 description 19
- 108010059892 Cellulase Proteins 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 16
- 238000010200 validation analysis Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000012417 linear regression Methods 0.000 description 15
- 238000007481 next generation sequencing Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 15
- 230000036961 partial effect Effects 0.000 description 14
- 238000007637 random forest analysis Methods 0.000 description 14
- 239000000523 sample Substances 0.000 description 14
- 230000009286 beneficial effect Effects 0.000 description 13
- 230000002452 interceptive effect Effects 0.000 description 13
- 102000004190 Enzymes Human genes 0.000 description 12
- 108090000790 Enzymes Proteins 0.000 description 12
- 238000003556 assay Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 12
- 238000002790 cross-validation Methods 0.000 description 12
- 229940088598 enzyme Drugs 0.000 description 12
- 230000000670 limiting effect Effects 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 11
- 229940106157 cellulase Drugs 0.000 description 11
- 238000013461 design Methods 0.000 description 11
- 230000006872 improvement Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000009897 systematic effect Effects 0.000 description 11
- 108010008885 Cellulose 1,4-beta-Cellobiosidase Proteins 0.000 description 10
- 238000013400 design of experiment Methods 0.000 description 10
- 238000000338 in vitro Methods 0.000 description 10
- 230000002441 reversible effect Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 238000006467 substitution reaction Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000000295 complement effect Effects 0.000 description 9
- 238000011161 development Methods 0.000 description 9
- 238000000126 in silico method Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 9
- -1 rRNA Proteins 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000013011 mating Effects 0.000 description 8
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 7
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 7
- 239000011324 bead Substances 0.000 description 7
- 230000027455 binding Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000001404 mediated effect Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000002360 preparation method Methods 0.000 description 7
- 238000000611 regression analysis Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 238000010187 selection method Methods 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 6
- 239000001913 cellulose Substances 0.000 description 6
- 229920002678 cellulose Polymers 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 150000002500 ions Chemical class 0.000 description 6
- 229920000642 polymer Polymers 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 102000004157 Hydrolases Human genes 0.000 description 5
- 108090000604 Hydrolases Proteins 0.000 description 5
- 102000004195 Isomerases Human genes 0.000 description 5
- 108090000769 Isomerases Proteins 0.000 description 5
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 5
- 239000007850 fluorescent dye Substances 0.000 description 5
- 238000010353 genetic engineering Methods 0.000 description 5
- 238000009396 hybridization Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 238000001727 in vivo Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 230000001939 inductive effect Effects 0.000 description 5
- 239000011148 porous material Substances 0.000 description 5
- 238000012175 pyrosequencing Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 239000007787 solid Substances 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000011410 subtraction method Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 4
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 4
- 108010029541 Laccase Proteins 0.000 description 4
- 101000907953 Myceliophthora thermophila (strain ATCC 42464 / BCRC 31852 / DSM 1799) Polysaccharide monooxygenase Cel61a Proteins 0.000 description 4
- 102000004316 Oxidoreductases Human genes 0.000 description 4
- 108090000854 Oxidoreductases Proteins 0.000 description 4
- 108091005804 Peptidases Proteins 0.000 description 4
- 108010093941 acetylxylan esterase Proteins 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 4
- 229910052782 aluminium Inorganic materials 0.000 description 4
- 238000000137 annealing Methods 0.000 description 4
- 108010047754 beta-Glucosidase Proteins 0.000 description 4
- 102000006995 beta-Glucosidase Human genes 0.000 description 4
- 230000004071 biological effect Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000003197 catalytic effect Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 238000010348 incorporation Methods 0.000 description 4
- 239000002609 medium Substances 0.000 description 4
- COLNVLDHVKWLRT-QMMMGPOBSA-N phenylalanine group Chemical group N[C@@H](CC1=CC=CC=C1)C(=O)O COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 4
- 238000006116 polymerization reaction Methods 0.000 description 4
- 229920001282 polysaccharide Polymers 0.000 description 4
- 239000005017 polysaccharide Substances 0.000 description 4
- 150000004804 polysaccharides Chemical class 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010188 recombinant method Methods 0.000 description 4
- 238000006722 reduction reaction Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000002195 synergetic effect Effects 0.000 description 4
- 101001065065 Aspergillus awamori Feruloyl esterase A Proteins 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 3
- 101710088194 Dehydrogenase Proteins 0.000 description 3
- 108010001817 Endo-1,4-beta Xylanases Proteins 0.000 description 3
- 108090000371 Esterases Proteins 0.000 description 3
- 102100022624 Glucoamylase Human genes 0.000 description 3
- 102000003960 Ligases Human genes 0.000 description 3
- 108090000364 Ligases Proteins 0.000 description 3
- 102000004317 Lyases Human genes 0.000 description 3
- 108090000856 Lyases Proteins 0.000 description 3
- 238000000342 Monte Carlo simulation Methods 0.000 description 3
- 108010059820 Polygalacturonase Proteins 0.000 description 3
- 239000004365 Protease Substances 0.000 description 3
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 108010061261 alpha-glucuronidase Proteins 0.000 description 3
- 108010005774 beta-Galactosidase Proteins 0.000 description 3
- 150000001720 carbohydrates Chemical class 0.000 description 3
- 235000014633 carbohydrates Nutrition 0.000 description 3
- 108010080434 cephalosporin-C deacetylase Proteins 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 238000000576 coating method Methods 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 239000005547 deoxyribonucleotide Substances 0.000 description 3
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 235000011180 diphosphates Nutrition 0.000 description 3
- 108010038658 exo-1,4-beta-D-xylosidase Proteins 0.000 description 3
- 230000002538 fungal effect Effects 0.000 description 3
- 102000054766 genetic haplotypes Human genes 0.000 description 3
- 239000001257 hydrogen Substances 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 150000002632 lipids Chemical class 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003752 polymerase chain reaction Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000013641 positive control Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001850 reproductive effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002741 site-directed mutagenesis Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 238000012176 true single molecule sequencing Methods 0.000 description 3
- JSNRRGGBADWTMC-UHFFFAOYSA-N (6E)-7,11-dimethyl-3-methylene-1,6,10-dodecatriene Chemical compound CC(C)=CCCC(C)=CCCC(=C)C=C JSNRRGGBADWTMC-UHFFFAOYSA-N 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 102000016912 Aldehyde Reductase Human genes 0.000 description 2
- 108010053754 Aldehyde reductase Proteins 0.000 description 2
- 108010065511 Amylases Proteins 0.000 description 2
- 102000013142 Amylases Human genes 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 108091035707 Consensus sequence Proteins 0.000 description 2
- GUBGYTABKSRVRQ-CUHNMECISA-N D-Cellobiose Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@H]1O[C@@H]1[C@@H](CO)OC(O)[C@H](O)[C@H]1O GUBGYTABKSRVRQ-CUHNMECISA-N 0.000 description 2
- 150000008574 D-amino acids Chemical class 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 102000004867 Hydro-Lyases Human genes 0.000 description 2
- 108090001042 Hydro-Lyases Proteins 0.000 description 2
- 150000008575 L-amino acids Chemical class 0.000 description 2
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 2
- 108010054320 Lignin peroxidase Proteins 0.000 description 2
- 102000004882 Lipase Human genes 0.000 description 2
- 108090001060 Lipase Proteins 0.000 description 2
- 239000004367 Lipase Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 108010029182 Pectin lyase Proteins 0.000 description 2
- 102000035195 Peptidases Human genes 0.000 description 2
- 108091093037 Peptide nucleic acid Proteins 0.000 description 2
- 108091000080 Phosphotransferase Proteins 0.000 description 2
- 102000004879 Racemases and epimerases Human genes 0.000 description 2
- 108090001066 Racemases and epimerases Proteins 0.000 description 2
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 102000003929 Transaminases Human genes 0.000 description 2
- 108090000340 Transaminases Proteins 0.000 description 2
- 102000004357 Transferases Human genes 0.000 description 2
- 108090000992 Transferases Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical group O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 108700040099 Xylose isomerases Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 108010030291 alpha-Galactosidase Proteins 0.000 description 2
- 108010084650 alpha-N-arabinofuranosidase Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 235000019418 amylase Nutrition 0.000 description 2
- PYMYPHUHKUWMLA-UHFFFAOYSA-N arabinose Natural products OCC(O)C(O)C(O)C=O PYMYPHUHKUWMLA-UHFFFAOYSA-N 0.000 description 2
- SRBFZHDQGSBBOR-UHFFFAOYSA-N beta-D-Pyranose-Lyxose Natural products OC1COC(O)C(O)C1O SRBFZHDQGSBBOR-UHFFFAOYSA-N 0.000 description 2
- 102000005936 beta-Galactosidase Human genes 0.000 description 2
- 108010055059 beta-Mannosidase Proteins 0.000 description 2
- 229920001222 biopolymer Polymers 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001461 cytolytic effect Effects 0.000 description 2
- 230000002939 deleterious effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000004925 denaturation Methods 0.000 description 2
- 230000036425 denaturation Effects 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000975 dye Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 108010093305 exopolygalacturonase Proteins 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 2
- 125000000404 glutamine group Chemical group N[C@@H](CCC(N)=O)C(=O)* 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 239000000543 intermediate Substances 0.000 description 2
- 235000019421 lipase Nutrition 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 229920001542 oligosaccharide Polymers 0.000 description 2
- 150000002482 oligosaccharides Chemical class 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 108010087558 pectate lyase Proteins 0.000 description 2
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 2
- 102000020233 phosphotransferase Human genes 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 235000019419 proteases Nutrition 0.000 description 2
- 238000002708 random mutagenesis Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000010206 sensitivity analysis Methods 0.000 description 2
- 238000007841 sequencing by ligation Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000007671 third-generation sequencing Methods 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 231100000765 toxin Toxicity 0.000 description 2
- 239000003053 toxin Substances 0.000 description 2
- 108700012359 toxins Proteins 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000004627 transmission electron microscopy Methods 0.000 description 2
- 239000001226 triphosphate Substances 0.000 description 2
- 235000011178 triphosphate Nutrition 0.000 description 2
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical compound OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 239000004474 valine Substances 0.000 description 2
- CXENHBSYCFFKJS-UHFFFAOYSA-N (3E,6E)-3,7,11-Trimethyl-1,3,6,10-dodecatetraene Natural products CC(C)=CCCC(C)=CCC=C(C)C=C CXENHBSYCFFKJS-UHFFFAOYSA-N 0.000 description 1
- WNQJZQMIEZWFIN-UHFFFAOYSA-N 1-(benzenesulfonyl)-4-(2-chlorobenzoyl)piperazine Chemical compound ClC1=CC=CC=C1C(=O)N1CCN(S(=O)(=O)C=2C=CC=CC=2)CC1 WNQJZQMIEZWFIN-UHFFFAOYSA-N 0.000 description 1
- VGONTNSXDCQUGY-RRKCRQDMSA-N 2'-deoxyinosine Chemical group C1[C@H](O)[C@@H](CO)O[C@H]1N1C(N=CNC2=O)=C2N=C1 VGONTNSXDCQUGY-RRKCRQDMSA-N 0.000 description 1
- ZIIUUSVHCHPIQD-UHFFFAOYSA-N 2,4,6-trimethyl-N-[3-(trifluoromethyl)phenyl]benzenesulfonamide Chemical compound CC1=CC(C)=CC(C)=C1S(=O)(=O)NC1=CC=CC(C(F)(F)F)=C1 ZIIUUSVHCHPIQD-UHFFFAOYSA-N 0.000 description 1
- 108010011619 6-Phytase Proteins 0.000 description 1
- 108091006112 ATPases Proteins 0.000 description 1
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 108010013043 Acetylesterase Proteins 0.000 description 1
- 108700016155 Acyl transferases Proteins 0.000 description 1
- 102000057234 Acyl transferases Human genes 0.000 description 1
- 102000002735 Acyl-CoA Dehydrogenase Human genes 0.000 description 1
- 108010001058 Acyl-CoA Dehydrogenase Proteins 0.000 description 1
- 102000057290 Adenosine Triphosphatases Human genes 0.000 description 1
- 102000005751 Alcohol Oxidoreductases Human genes 0.000 description 1
- 108010031132 Alcohol Oxidoreductases Proteins 0.000 description 1
- 108010021809 Alcohol dehydrogenase Proteins 0.000 description 1
- 102000007698 Alcohol dehydrogenase Human genes 0.000 description 1
- 102000005369 Aldehyde Dehydrogenase Human genes 0.000 description 1
- 108020002663 Aldehyde Dehydrogenase Proteins 0.000 description 1
- 102100026452 Aldo-keto reductase family 1 member B15 Human genes 0.000 description 1
- 108700023418 Amidases Proteins 0.000 description 1
- 239000004382 Amylase Substances 0.000 description 1
- 102100026189 Beta-galactosidase Human genes 0.000 description 1
- 102100032487 Beta-mannosidase Human genes 0.000 description 1
- 108090000209 Carbonic anhydrases Proteins 0.000 description 1
- 102000003846 Carbonic anhydrases Human genes 0.000 description 1
- 102000007132 Carboxyl and Carbamoyl Transferases Human genes 0.000 description 1
- 108010072957 Carboxyl and Carbamoyl Transferases Proteins 0.000 description 1
- 102100035882 Catalase Human genes 0.000 description 1
- 108010053835 Catalase Proteins 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 108010084185 Cellulases Proteins 0.000 description 1
- 102000005575 Cellulases Human genes 0.000 description 1
- 108010022172 Chitinases Proteins 0.000 description 1
- 102000012286 Chitinases Human genes 0.000 description 1
- IGXWBGJHJZYPQS-SSDOTTSWSA-N D-Luciferin Chemical compound OC(=O)[C@H]1CSC(C=2SC3=CC=C(O)C=C3N=2)=N1 IGXWBGJHJZYPQS-SSDOTTSWSA-N 0.000 description 1
- ZAQJHHRNXZUBTE-WUJLRWPWSA-N D-xylulose Chemical compound OC[C@@H](O)[C@H](O)C(=O)CO ZAQJHHRNXZUBTE-WUJLRWPWSA-N 0.000 description 1
- 102000004594 DNA Polymerase I Human genes 0.000 description 1
- 108010017826 DNA Polymerase I Proteins 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- CYCGRDQQIOGCKX-UHFFFAOYSA-N Dehydro-luciferin Natural products OC(=O)C1=CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 CYCGRDQQIOGCKX-UHFFFAOYSA-N 0.000 description 1
- 108020005199 Dehydrogenases Proteins 0.000 description 1
- 102000016680 Dioxygenases Human genes 0.000 description 1
- 108010028143 Dioxygenases Proteins 0.000 description 1
- 101000624644 Drosophila melanogaster M-phase inducer phosphatase Proteins 0.000 description 1
- 108700034637 EC 3.2.-.- Proteins 0.000 description 1
- 101710121765 Endo-1,4-beta-xylanase Proteins 0.000 description 1
- 241001074710 Eucalyptus populnea Species 0.000 description 1
- 101710112457 Exoglucanase Proteins 0.000 description 1
- 108010042891 Farnesol dehydrogenase Proteins 0.000 description 1
- BJGNCJDXODQBOB-UHFFFAOYSA-N Fivefly Luciferin Natural products OC(=O)C1CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 BJGNCJDXODQBOB-UHFFFAOYSA-N 0.000 description 1
- 229930091371 Fructose Natural products 0.000 description 1
- RFSUNEUAIZKAJO-ARQDHWQXSA-N Fructose Chemical compound OC[C@H]1O[C@](O)(CO)[C@@H](O)[C@@H]1O RFSUNEUAIZKAJO-ARQDHWQXSA-N 0.000 description 1
- 239000005715 Fructose Substances 0.000 description 1
- 102000001390 Fructose-Bisphosphate Aldolase Human genes 0.000 description 1
- 108010068561 Fructose-Bisphosphate Aldolase Proteins 0.000 description 1
- 108010015133 Galactose oxidase Proteins 0.000 description 1
- 108010093031 Galactosidases Proteins 0.000 description 1
- 102000002464 Galactosidases Human genes 0.000 description 1
- 229920001503 Glucan Polymers 0.000 description 1
- 108010073178 Glucan 1,4-alpha-Glucosidase Proteins 0.000 description 1
- 108050008938 Glucoamylases Proteins 0.000 description 1
- 108010050375 Glucose 1-Dehydrogenase Proteins 0.000 description 1
- 108010015776 Glucose oxidase Proteins 0.000 description 1
- 239000004366 Glucose oxidase Substances 0.000 description 1
- 108010056771 Glucosidases Proteins 0.000 description 1
- 102000004366 Glucosidases Human genes 0.000 description 1
- 108020000311 Glutamate Synthase Proteins 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 102000051366 Glycosyltransferases Human genes 0.000 description 1
- 108700023372 Glycosyltransferases Proteins 0.000 description 1
- 229920002488 Hemicellulose Polymers 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 102000005385 Intramolecular Transferases Human genes 0.000 description 1
- 108010031311 Intramolecular Transferases Proteins 0.000 description 1
- 102000003855 L-lactate dehydrogenase Human genes 0.000 description 1
- 108700023483 L-lactate dehydrogenases Proteins 0.000 description 1
- 108090000128 Lipoxygenases Proteins 0.000 description 1
- 102000003820 Lipoxygenases Human genes 0.000 description 1
- 108030004480 Long-chain acyl-[acyl-carrier-protein] reductases Proteins 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- DDWFXDSYGUXRAY-UHFFFAOYSA-N Luciferin Natural products CCc1c(C)c(CC2NC(=O)C(=C2C=C)C)[nH]c1Cc3[nH]c4C(=C5/NC(CC(=O)O)C(C)C5CC(=O)O)CC(=O)c4c3C DDWFXDSYGUXRAY-UHFFFAOYSA-N 0.000 description 1
- 108010059896 Manganese peroxidase Proteins 0.000 description 1
- 102000008109 Mixed Function Oxygenases Human genes 0.000 description 1
- 108010074633 Mixed Function Oxygenases Proteins 0.000 description 1
- 102000010909 Monoamine Oxidase Human genes 0.000 description 1
- 108010062431 Monoamine oxidase Proteins 0.000 description 1
- 241000226677 Myceliophthora Species 0.000 description 1
- 108010063372 N-Glycosyl Hydrolases Proteins 0.000 description 1
- 102000010722 N-Glycosyl Hydrolases Human genes 0.000 description 1
- 108090000913 Nitrate Reductases Proteins 0.000 description 1
- 108010033272 Nitrilase Proteins 0.000 description 1
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 1
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 1
- 101710163270 Nuclease Proteins 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 108091005461 Nucleic proteins Proteins 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 108010044725 Pectate disaccharide-lyase Proteins 0.000 description 1
- 102000003992 Peroxidases Human genes 0.000 description 1
- 102000015439 Phospholipases Human genes 0.000 description 1
- 108010064785 Phospholipases Proteins 0.000 description 1
- 108700019535 Phosphoprotein Phosphatases Proteins 0.000 description 1
- 102000045595 Phosphoprotein Phosphatases Human genes 0.000 description 1
- 102000003935 Phosphotransferases (Phosphomutases) Human genes 0.000 description 1
- 108090000337 Phosphotransferases (Phosphomutases) Proteins 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 102000055027 Protein Methyltransferases Human genes 0.000 description 1
- 108700040121 Protein Methyltransferases Proteins 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 108030006203 Rhamnogalacturonan endolyases Proteins 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 102000019259 Succinate Dehydrogenase Human genes 0.000 description 1
- 108010012901 Succinate Dehydrogenase Proteins 0.000 description 1
- 102000004523 Sulfate Adenylyltransferase Human genes 0.000 description 1
- 108010022348 Sulfate adenylyltransferase Proteins 0.000 description 1
- 108020004530 Transaldolase Proteins 0.000 description 1
- 102100028601 Transaldolase Human genes 0.000 description 1
- 108060008539 Transglutaminase Proteins 0.000 description 1
- 108010043652 Transketolase Proteins 0.000 description 1
- 102000014701 Transketolase Human genes 0.000 description 1
- 108091061763 Triple-stranded DNA Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 125000002252 acyl group Chemical group 0.000 description 1
- 108700014220 acyltransferase activity proteins Proteins 0.000 description 1
- 150000003838 adenosines Chemical class 0.000 description 1
- 238000012884 algebraic function Methods 0.000 description 1
- 102000005840 alpha-Galactosidase Human genes 0.000 description 1
- 108010044879 alpha-L-rhamnosidase Proteins 0.000 description 1
- 102000005922 amidase Human genes 0.000 description 1
- 102000006614 amidinotransferase Human genes 0.000 description 1
- 108020004134 amidinotransferase Proteins 0.000 description 1
- 230000006229 amino acid addition Effects 0.000 description 1
- 229940025131 amylases Drugs 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- PYMYPHUHKUWMLA-WDCZJNDASA-N arabinose Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)C=O PYMYPHUHKUWMLA-WDCZJNDASA-N 0.000 description 1
- 238000013476 bayesian approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 229910001423 beryllium ion Inorganic materials 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 108010052085 cellobiose-quinone oxidoreductase Proteins 0.000 description 1
- 238000002144 chemical decomposition reaction Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 150000002016 disaccharides Chemical class 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 239000000839 emulsion Substances 0.000 description 1
- 150000002148 esters Chemical class 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 108010092086 exo-poly-alpha-galacturonosidase Proteins 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 229930009668 farnesene Natural products 0.000 description 1
- 239000010408 film Substances 0.000 description 1
- LIYGYAHYXQDGEP-UHFFFAOYSA-N firefly oxyluciferin Natural products Oc1csc(n1)-c1nc2ccc(O)cc2s1 LIYGYAHYXQDGEP-UHFFFAOYSA-N 0.000 description 1
- 238000001917 fluorescence detection Methods 0.000 description 1
- 238000001506 fluorescence spectroscopy Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000003055 full factorial design Methods 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 229930182830 galactose Natural products 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 229940116332 glucose oxidase Drugs 0.000 description 1
- 235000019420 glucose oxidase Nutrition 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 108700014210 glycosyltransferase activity proteins Proteins 0.000 description 1
- 150000003944 halohydrins Chemical class 0.000 description 1
- 108010002430 hemicellulase Proteins 0.000 description 1
- 108010018734 hexose oxidase Proteins 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 230000007062 hydrolysis Effects 0.000 description 1
- 238000006460 hydrolysis reaction Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 108010075483 isoprene synthase Proteins 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 125000001909 leucine group Chemical group [H]N(*)C(C(*)=O)C([H])([H])C(C([H])([H])[H])C([H])([H])[H] 0.000 description 1
- 238000002898 library design Methods 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 125000005647 linker group Chemical group 0.000 description 1
- 230000029226 lipidation Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 235000019689 luncheon sausage Nutrition 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 108010003007 mannose isomerase Proteins 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 150000002772 monosaccharides Chemical class 0.000 description 1
- 231100000219 mutagenic Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 230000005257 nucleotidylation Effects 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- JJVOROULKOMTKG-UHFFFAOYSA-N oxidized Photinus luciferin Chemical compound S1C2=CC(O)=CC=C2N=C1C1=NC(=O)CS1 JJVOROULKOMTKG-UHFFFAOYSA-N 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 108010072638 pectinacetylesterase Proteins 0.000 description 1
- 102000004251 pectinacetylesterase Human genes 0.000 description 1
- 108020004410 pectinesterase Proteins 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 108040007629 peroxidase activity proteins Proteins 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- UEZVMMHDMIWARA-UHFFFAOYSA-M phosphonate Chemical compound [O-]P(=O)=O UEZVMMHDMIWARA-UHFFFAOYSA-M 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 235000019833 protease Nutrition 0.000 description 1
- 230000012846 protein folding Effects 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 108010035322 rhamnogalacturonan acetylesterase Proteins 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 108010092370 ribose isomerase Proteins 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000006918 subunit interaction Effects 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 102000003601 transglutaminase Human genes 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 239000006163 transport media Substances 0.000 description 1
- 230000034512 ubiquitination Effects 0.000 description 1
- 238000010798 ubiquitination Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 229920002554 vinyl polymer Polymers 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
- 150000008498 β-D-glucosides Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1058—Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biochemistry (AREA)
- Physiology (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Medicinal Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Zoology (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- Plant Pathology (AREA)
- Ecology (AREA)
- Pharmacology & Pharmacy (AREA)
- Cell Biology (AREA)
- Food Science & Technology (AREA)
- General Physics & Mathematics (AREA)
Abstract
【解決手段】本発明は、複雑な生体分子ライブラリーまたはこのようなライブラリーのセットから、所望の特性を有するまたはこのような特性の取得に最も適した生体分子を同定する方法を提供する。より具体的には、本発明の一部の実施形態は、乗法項を含む配列−活性モデルを構築し、該モデルを使用して定向進化を誘導する方法を提供する。一部の実施形態において、配列−活性モデルは、それらの各々が活性に対する2個以上の定義された残基の寄与を表す相互作用係数を含む、1つ以上の相互作用項を含む。一部の実施形態において、モデルは、タンパク質配列または核酸配列とタンパク質活性との間の関係を記載する。
【選択図】なし
Description
本願は、米国仮特許出願第61/759,276号(2013年1月31日出願、名称「METHODS,SYSTEMS,AND SOFTWARE FOR IDENTIFYING BIO−MOLECULES WITH INTERACTING COMPONENTS」)、米国仮特許出願第61/799,377号(2013年3月15日出願、名称「METHODS,SYSTEMS,AND SOFTWARE FOR IDENTIFYING BIO−MOLECULES USING MODELS OF
MULTIPLICATIVE FORM」)に対する米国特許法§ 119(e)に基づく利益を主張し、両出願は、それらの全体があらゆる目的のために参照により本明細書に引用される。
本明細書に開示されている一部の実施形態は、配列−活性モデルを構築する方法を提供する。このモデルの各々は、複数の乗法項の積を含む。乗法項のうちの少なくとも一部は、それぞれ目的の活性に対する定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む非相互作用乗法項である。定義されたアミノ酸またはヌクレオチドは、タンパク質配列または核酸配列における特定の位置における特定の残基型のものである。非相互作用乗法項の各々は、ダミー変数の形式をとることができる独立変数(典型的には、1つのみの独立変数)も含む。独立変数は、特定の配列の場所における特定の型の定義されたアミノ酸またはヌクレオチドの存在または非存在を表す。これらの乗法項は、そのそれぞれが、タンパク質配列または核酸配列における単一の位置における単一残基の寄与を表すため、非相互作用項と命名される。非相互作用項における独立変数は、2個以上の相互作用残基を表さない。加えて、配列−活性モデルの各々は、一部の実施形態において、タンパク質バリアントの活性を表す従属変数を含み、モデルは、タンパク質バリアントの活性と、複数の乗法項の積との間の関係性を記載する。
(a)複数の生物分子に対する配列データおよび活性データを得ることであって、各生物分子は、様々な型および配列位置のサブユニットを有する配列を含む、ことと、
(b)前記得られたデータから配列−活性モデルを構築することであって、前記配列−活性モデルは、サブユニットの前記型および配列位置に応じて活性を予測し、前記配列−活性モデルは、複数の非相互作用乗法項の積を含み、前記非相互作用乗法項の各々は、(1)特定の配列位置における特定の型の定義されたサブユニットの存在/非存在を表すダミー変数および(2)活性に対する前記定義されたサブユニットの寄与を表す係数を含む、ことと、
(c)前記配列−活性モデルを使用して、前記生物分子の所望の活性に影響を与えるバリエーションに対して、特定の位置における特定の型の1つ以上のサブユニットを同定すること。
上記の実施形態と一致する1つ以上の実施において、配列活性モデルを作製するための訓練セットは、タンパク質ライブラリーとして提供することのできる複数のタンパク質バリアントに由来する。タンパク質ライブラリーは、様々な供給源に由来するタンパク質を含むことができる。一例において、メンバーは、単一遺伝子ファミリーのメンバーにコードされるタンパク質等、天然起源のタンパク質を含む。別の一例において、配列は、組換えに基づく多様性作製機構を使用することにより得られるタンパク質を含む。この目的のため、例えば、DNA断片化媒介性の組換え、合成オリゴヌクレオチド媒介性の組換えまたはこれらの組合せを、1つ以上の天然起源の親タンパク質の全体または一部をコードする核酸において行うことができる。さらに別の一例において、実験計画法(DOE)プロトコールを実施して、系統的に変化させられる配列を同定することにより、メンバーが得られる。
ある特定の実施形態において、所望の活性のタンパク質バリアントは、定向進化により同定される。一部の実施形態は、作製された配列−活性モデルを使用してタンパク質バリアントの定向進化を誘導する方法を提供する。上記の方法に従って調製および精密化された様々な配列−活性モデルは、タンパク質または生物分子の定向進化の誘導に適している。プロセスの一環として、本方法は、新たなタンパク質バリアントライブラリーの作製に使用すべき配列を同定することができる。このような配列は、上で同定された定義された残基におけるバリエーションを含む、あるいはこのようなバリエーションのその後の導入に使用される前駆体である。配列は、変異誘発または組換えに基づく多様性作製機構を行うことにより改変して、タンパク質バリアントの新たなライブラリーを作製することができる。多様性作製のいずれか一方または両方の形式は、定向進化手順の一部を形成することができる。新たなライブラリーは、新たな配列−活性モデルの開発において使用することもできる。新たなタンパク質バリアントライブラリーを分析して、例えば、安定性、触媒活性、治療活性、病原体または毒素に対する抵抗性、毒性等、特定の活性における効果を評価する。
本明細書において他に定義されていなければ、本明細書に使用されているあらゆる技術および科学用語は、当業者によって一般的に理解されているものと同じ意義を有する。本明細書に含まれている用語を含む様々な科学辞書は、当業者に周知であり利用できる。本明細書に記載されているものと同様または同等な任意の方法および材料は、本明細書に開示されている実施形態の実施における使用を見出す。
yi=a+bxi+ei
(項yiは、従属変数の第iの値であり、xiは、独立変数の第iの値である)である。項eiは、「誤差」として知られ、独立変数によって説明されない従属変数の可変性を含む。
yi=β1xi1+...+βpxip+εi=xi Tβ+εi
式中、yiは従属変数であり、xiは独立変数であり、εiは誤差変数であり、Tは、ベクトルxiおよびβの内積である転置行列を表示する。
Pr(Xn+1=x|X1=x1,X2=x2,...,Xn=xn)=Pr(Xn+1=x|Xn=xn)。
Xiの可能な値は、鎖の状態空間と呼ばれる可算セットSを形成する。「マルコフ連鎖」システムは、有限または可算数の可能な状態間で、ある状態から別の状態への移行を行う数学的システムである。これは、無記憶として通常特徴付けられる、ランダムプロセスである:次の状態は、現状態のみに依存し、これに先行する一連の事象には依存しない。
タンパク質配列を探索するための誘導進化アプローチにおいて、配列−活性モデルを使用して、タンパク質バリアントの作製を誘導する。本開示の一態様は、タンパク質ライブラリーに基づき、新たな改善されたタンパク質ライブラリーの検索に使用することができる配列−活性モデルを調製するための様々な方法を提供する。本セクションは先ず、新たな改善されたタンパク質を検索するためのプロセスの概要を提供し、続いて、出発ライブラリーの選択、配列−活性モデルの構築および新たなタンパク質の探索を誘導するためのモデルの使用に関係する課題に関するさらなる詳細を提供する。
タンパク質バリアントライブラリーは、ライブラリーにおけるメンバー毎に様々である1つ以上の残基を有する複数のタンパク質の群である。これらのライブラリーは、本明細書に記載されている方法および/または当技術分野において公知の任意の適した手段を使用して作製することができる。これらのライブラリーは、本発明の様々な実施形態に従って配列−活性モデルの作製に使用される訓練セットのためのデータの提供における用途を見出す。タンパク質バリアントライブラリーに含まれるタンパク質の数は、多くの場合、その作製に関連する適用およびコストに依存する。本発明が、本発明の方法において使用されるタンパク質ライブラリーにおけるいずれか特定の数のタンパク質に限定されることは企図されない。本発明が、いずれか特定のタンパク質バリアントライブラリー(単数または複数)に限定されることはさらに企図されない。
Polypeptides having Desired Characteristics」、WO01/75767、「In Silico Cross−Over Site Selection」およびWO01/64864、「Single−Stranded Nucleic Acid Template−Mediated Recombination and Nucleic Acid Fragment Isolation」に見出すことができる。同定されたポリヌクレオチドバリアント配列は、in vitroまたはin vivoのいずれかにおいて転写および翻訳されて、タンパク質バリアント配列のセットまたはライブラリーを作製することができる。
Hunter and J. Stuart Hunter(1978年)John Wiley and Sons、New York、または例えば、ワールドワイドウェブ、itl.nist.gov/div898/handbook/に見出すことができる。Statistics Toolbox(MATLAB(登録商標))、JMP(登録商標)、STATISTICA(登録商標)およびSTAT−EASE(登録商標)DESIGN EXPERT(登録商標)を含む、関連する数学の実行に利用できるいくつかの計算パッケージが存在する。結果は、本発明の配列−活性モデルの構築に適した配列の、系統的に変化させられ直交性分散したデータセットである。DOEに基づくデータセットは、当技術分野において公知の通り、Plackett−Burmanまたは一部実施要因計画のいずれかを使用して、容易に作製することもできる。Diamond, W.J.(2001年)。
1)本明細書に記載されている原理(例えば、親配列に存在する、保存のレベル等)に基づきトグルするための位置を同定する。
2)要因の数(すなわち、可変位置)、レベルの数(すなわち、各位置における選択)および出力行列をもたらすために行う実験の数を定義することにより、一般的に利用できる統計学的ソフトウェアパッケージのうちの1つを使用してDOE実験を作製する。出力行列(典型的に、各位置における残基選択を表す1および0からなる)の情報内容は、行う実験の数に直接的に依存する(典型的に、多いほど良い)。
3)出力行列を使用して、各位置における特異的残基選択に戻り、1および0をコードするタンパク質アライメントを構築する。
4)タンパク質アライメントに表されるタンパク質をコードする遺伝子を合成する。
5)関連するアッセイ(複数可)において合成された遺伝子にコードされるタンパク質を検査する。
6)検査された遺伝子/タンパク質に基づきモデルを構築する。
7)本明細書に記載されているステップに従い、重要な位置を同定し、改善された適応度を有する1つ以上のその後のライブラリーを構築する。
歴史的に、シーケンシングは、大型の訓練セットと、結果的にますます頑健な配列−活性モデルの開発における制限ステップであった。バリアントのシーケンシングに要求される高コストおよび長時間は、観測の数を数十種のバリアントに制限した。次世代シーケンシングツールは、コストを大幅に低下させ、シーケンシングのスピードおよび量を増加させ、訓練セットに低および高活性バリアントの両方を含むことを可能にした。
National Academy of Sciences of the United States of America 74巻、560〜564頁(1977年)を参照されたい。別のバルクシーケンシング方法は、ハイブリダイゼーションによるシーケンシングであり、この方法において、試料の配列は、例えば、マイクロアレイまたは遺伝子チップにおける複数の配列へのそのハイブリダイゼーション特性に基づき推定される;例えば、Drmanacら、Nature Biotechnology 16巻、54〜58頁(1998年)を参照されたい。
the United States of America 100巻:3960〜3964頁。
299巻、682〜686頁(2003年)を参照)。アルミニウム表面は、ポリホスホネート化学、例えば、ポリビニルホスホネート化学によってDNAポリメラーゼの結合から保護される(例えば、Korlachら、Proceedings of the National Academy of Sciences of the United States of America 105巻、1176〜1181頁(2008年)を参照)。これは、アルミニウムコーティングの孔における露出したシリカへのDNAポリメラーゼ分子の優先的結合をもたらす。この仕組みは、エバネッセント波現象を使用して、蛍光バックグラウンドを低下させ、より高濃度の蛍光標識されたdNTPの使用を可能にする。dNTPの取り込みにより蛍光が放出されるが、フルオロフォアが新たに取り込まれたヌクレオチドに結合し続けないように、dNTPの末端リン酸にフルオロフォアを結合させる、このことは、複合体の、取り込みの別のラウンドの準備が直ちに整うことを意味する。この方法により、アルミニウムコーティングの孔に存在する個々のプライマー−鋳型複合体へのdNTPの取り込みを検出することができる。例えば、Eidら、Science 323巻、133〜138頁(2009年)を参照されたい。
上に示す通り、本明細書における実施形態により使用される配列−活性モデルは、タンパク質配列情報をタンパク質活性に関連付ける。モデルにより使用されるタンパク質配列情報は、多くの形態をとる。一部の実施形態において、これは、タンパク質におけるアミノ酸残基の完全配列である。しかし、一部の実施形態において、完全アミノ酸配列は不必要である。例えば、一部の実施形態において、特定の研究努力において変化させられるべき残基のみを提供すれば十分である。後の研究ステージを伴う一部の実施形態において、多くの残基が固定され、配列空間の限定された領域のみが探索されるために残る。このような状況の一部において、探索が続くタンパク質の領域における残基の同定のみを入力として要求する配列−活性モデルをもたらすことが簡便である。一部の追加の実施形態において、モデルは、残基位置における残基の正確な同一性が既知であることを要求しない。一部のこのような実施形態において、特定の残基位置におけるアミノ酸を特徴付ける、1つ以上の物理的または化学的特性が同定される。例証的な一例において、モデルは、バルク、疎水性、酸性度等による残基位置の特定を要求する。さらに、一部のモデルにおいて、このような特性の組合せが用いられる。実際には、モデルは、配列情報、活性情報および/または他の物理的特性(例えば、疎水性等)の様々な構成における使用を見出すため、本発明が、どんな特定のアプローチにも限定されることは企図されない。
Data Mining (Adaptive Computation and Machine Learning)、 Boston、MA、MIT Press、およびGeladiら(1986年)「Partial Least−Squares Regression: a Tutorial」、Analytica Chimica Acta、198巻:1〜17頁に記載されている。これらの参考文献は共に、全ての目的で参照により本明細書に組み込まれる。
Gunn(1998年)「Support Vector Machines for
Classification and Regressions」、Technical Report、Faculty of Engineering and Applied Science、Department of Electronics and Computer Science、University of Southamptonに記載されている。
1)訓練セットにおける件数がNの場合、ランダムに試料N個−しかし返還を伴い、オリジナルデータから。この試料は、ツリーを成長させるための訓練セットであろう。
2)M個の入力独立変数がある場合、数値m(m<<M)は、ツリーの各ノードでm個の変数がMの中からランダムに選択されるように、かつこれらmに対する最良の分割が、ノードを分割するために使用されるように指定される。mの値は、フォレスト成長中は一定に保たれる。
3)一部の実施において、各ツリーは、最大限可能な程度まで成長させられる。プールニングはない。
4)次いで多数のツリー、k=1、...、K(通常、K≧100)が生成される。
5)多数のツリーが生成された後、それらは全て、目的の変数の分類に票を投じる。例えばツリーは、活性の最終的な予測または特定の変異の寄与に各々が寄与し得る。
6)次いでランダムフォレストは、フォレスト内の全てのツリー予測因子から最も多く投票されたクラスを得ることにより、xを分類する(例えば、変異の配列またはその他の独立変数)。
本発明の一部の実施形態は、複数の乗法項の積を含む配列−活性モデルを構築し、定向進化を誘導するために該モデルを使用する方法を提供する。一部の実施形態において、配列−活性モデルは、配列の2個以上のサブユニットの存在または非存在の関数としてタンパク質バリアントの活性を予測する。一部の実施形態において、サブユニットは、タンパク質バリアントを構成するアミノ酸である。一部の実施形態において、サブユニットは、タンパク質バリアントをコードする核酸またはコドンである。
y=(1+C1x1)×(1+C2x2)×(1+C3x3)×…×(1+Cnxn)
相互作用項は、モデルに存在してもしなくてもよい。まさにその本質により、積は、相互作用残基間の相互作用を説明することが可能である。乗法モデルが本質的に、このような相互作用の完全な寄与を説明しない事象において、相互作用項は、乗法モデルにおける項として含まれ得る。このような事例において、2個以上の変異の存在を表す係数および2個の変異を表すダミー変数を含むことにより、1つ以上の相互作用項を取り込むことができる:
(1+C1,2x1x2)×(1+C2,3x2x3)×…×(1+Cm,nxmxn)
一部の実施形態において、相互作用項は、非相互作用項と乗算される。他の実施形態において、相互作用項は、非相互作用項との総和により組み合わせることができる。上述の実施形態において、相互作用項同士は、乗算により組み合わされる。代替的な実施形態において、相互作用項同士は、加算により組み合わせることができる。
yn=(1+C10AspX10Asp)*(1+C10LysX10Lys)*(1+C166SerX166Ser)*(1+C166LeuX166Leu)*(1+C166IleX166Ile)*(1+C175ValX175Val)*(1+C340AlaX340Ala)
次のモデルによりバリアント2の予測される活性を得ることができる:
y2=(1+C10Asp *1)*(1+C10Lys *0)*(1+C166Ser *0)*(1+C166Leu *0)*(1+C166Ile *0)*(1+C175Val *1)*(1+C340Ala *1)
=(1+C10Asp *1)*(1+C175Val *1)*(1+C340Ala *1)
ただし、モデル方程式は、次のように、可変位置にあらゆるアミノ酸を含むことができる:
yn=(1+C10AlaX10Ala)*(1+C10AspX10Asp)*(1+C10LysX10Lys)*(1+C166SerX166Ser)*(1+C166PheX166Phe)*(1+C166LeuX166Leu)*(1+C166IleX166Ile)*(1+C175GlyX175Gly)*(1+C175ValX175Val)*(1+C340PheX340Phe)*(1+C340AlaX340Ala)
バックボーンにおける項は、多くの場合方程式から除外される。多くの場合、本方法は、バリアントの倍数改善(FIOP)を使用してモデルを適合させ、よって、バックボーンアミノ酸係数が0である(バックボーンのy=1であるように)ため、このアプローチは許容できる。
一部の実施形態において、線形モデルは、非線形モデルを作製するための段階的プロセスにおいて、「ベース」モデルとして使用される。一般に、活性対配列の線形回帰モデルは、次の形式を有する:
y=c0+c11x11+c12x12+…c1Mx1M+c21x21+c22x22+…c2Mx2M+...+cNMxNM
示されるように、活性および配列情報の形態のデータは、初期タンパク質バリアントライブラリーから誘導され、モデルの回帰係数を決定するために使用される。ダミー変数は、まずタンパク質バリアント配列のアライメントから同定される。アミノ酸残基位置は、それらの位置でのアミノ酸残基が配列間で異なっている、タンパク質バリアント配列の中から同定される。これらの可変残基位置のいくつかまたは全てにおけるアミノ酸残基情報は、配列−活性モデル内に組み込まれ得る。
y=c0+c10Alax10Ala+c10Aspx10Asp+c10Lysx10Lys+c166Serx166Ser+c166Phex166Phe+c166Leux166Leu+c166Ilex166Ile+c175Glyx175Gly+c175Valx175Val+c340Phex340Phe+c340Alax340Ala(方程式2)
ビット値(xダミー変数)は、指定されたアミノ酸残基の存在または不在を反映する1または0のいずれかとして表すことができ、あるいは1または−1、またはいくつかのその他の代理表示とすることができる。例えば、1または0という表示を使用すると、x10Alaは、バリアント1に関しては「1」になり、バリアント2に関しては「0」になる。1または−1の表示を使用すると、x10Alaは、バリアント1に関しては「1」になり、バリアント2に関しては「−1」になる。したがって回帰係数は、ライブラリー内の全てのバリアントに関する配列活性情報に基づいて、回帰方程式から誘導することができる。バリアント1〜10に関するそのような方程式の例(xに関して1または0の表示を使用)は、下記の通りである:
y1=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
y2=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
y3=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(0)+c166Leu(1)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(0)+c340Ala(1)
y4=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(1)+c340Ala(0)
y5=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
y6=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
y7=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
y8=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
y9=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
y10=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(1)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
方程式の完全セットを、任意の適した回帰技法(例えば、PCR、PLSまたはMLR)を使用して容易に解き、目的の各残基および位置に対応する回帰係数の値を決定することができる。この例において、回帰係数の相対的規模は、活性に対する特定の位置における該特定の残基の寄与の相対的規模に相関する。続いて、回帰係数をランク付けしまたは他の仕方でカテゴリー化して、いずれの残基が、所望の活性に有利に寄与する可能性が高いか決定することができる。表IIIは、表IIに例証される系統的に変化させられるライブラリーに対応する例証的回帰係数値を提示する:
非線形モデリングは、タンパク質中の活性に寄与する残基−残基相互作用を説明するために用いられる。N−Kランドスケープは、この問題を記述する。パラメータNは、関連するポリペプチド配列の収集物における可変残基の数を指す。パラメータKは、これらポリペプチドの任意のものにおける個々の残基間の相互作用を表す。相互作用は、通常、ポリペプチドが1次、2次、または3次構造であろうとなかろうと、様々な残基同士が物理的に非常に近接していることの結果である。相互作用は、直接的相互作用、間接的相互作用、物理化学的相互作用、フォールディング中間体に起因した相互作用、および翻訳効果等に起因し得る。Kauffman, S.およびLevin, S.(1987年)、「Towards a general theory of adaptive walks on rugged landscapes」、Journal of Theoretical Biology 128巻(1号)11〜45頁を参照されたい。
y=c1x1+c2x2+c3x3…+cnxn+…+cNxN+c0(方程式3)
式中、yは、応答(活性)であり、cnは、n位における残基選択のための回帰係数であり、xは、n位における残基選択(+1/−1)をコードするダミー変数であり、c0は、応答の平均値である。モデルのこの形式は、可変残基間に相互作用がないことを仮定する(すなわち、各残基選択は、タンパク質の全体の適応度に独立的に寄与する)。
y=c1x1+c2x2+c3x3+…+cnxn+c1,2x1x2+c1,3x1x3+c2,3x2x3+…+c0(方程式4)
式中、変数は、方程式(3)と同じものであるが、この式には非線形項が存在し、例えば、c1,2は、変数の位置の1と2との間の相互作用の回帰係数である。
ベース配列活性モデルを作製した後に、プロセスは、モデルの項における係数の値を調整して、モデル予測と観測されたデータとの間の残余誤差を最小化することにより、モデルを精密化する。ブロック107を参照されたい。この種類の調整は、モデル適合とも称される。当技術分野において公知のモデル適合の様々な方法を使用することができる。例えば、遺伝的アルゴリズムを使用して、係数の値を調整することができる。加法モデルに関して、様々な回帰技法を使用して、モデルを適合させることができる。
本発明の一部の実施形態は、遺伝的アルゴリズムを使用して、配列−活性モデルの1つ以上の項を選択する方法を提供する。他の実施形態は、遺伝的アルゴリズムを使用して、得られたデータにモデルが適合するように係数の値を調整する方法を提供する。
yn=(1+C10AspX10Asp)*(1+C10LysX10Lys)*(1+C166SerX166Ser)*(1+C166LeuX166Leu)*(1+C166IleX166Ile)*(1+C175ValX175Val)*(1+C340AlaX340Ala)
染色体/モデル2に関し、予想される活性y=(1+1.15)*(1−0.001)*(1+1.0)。モデルのこの予想される活性を観測される配列活性に対して比較し、平均二乗誤差(MSE)から個体の適応度を計算する。
一部の実施形態において、段階的加算または減算方法を使用して、相互作用項を有するモデルを調製する。図1のブロック107に示す作業を実装することにより、相互作用項を含む高い予測検出力を有する最終モデルが、ベースモデルからの相互作用項の段階的加算または減算により提供される。
AIC=−2logeL+2k
として計算することができ、式中、Lは、データセットが与えられたモデルの尤度であり、kはモデル内の自由パラメータの数である。
SET Coeff=Interaction Terms to Test
Best=Baseline Model
count=1
WHILE count>0
count=0
BestFromRound=Best
BestCoefficient=NULL
FOR each Interaction Term in Coeff
TestModel=(best+Interaction Term)1
IF TestModel BETTER THAN BestFromRound THEN2
BestFromRound=TestModel
Count++
BestCoefficient=Interaction Term
ENDIF
ENDFOR
IF count>0 THEN
Best=BestFromRound
Remove BestCoefficient FROM Coeff3
ENDIF
ENDWHILE
項目1は、試験相互作用項を回帰モデルに加える
項目2は、モデルの比較を表し、赤池の情報量基準(AIC)、ベイズ情報量基準(BIC)、交差検証(平均誤差)、ANOVA、または係数寄与の1つまたは複数を表す。
項目3は、二重の相互作用項試験を回避するために提供される
図4Bは、図1のブロック107に示される操作の実施形態を示すフローチャートを提供する。このプロセスでは、最終的な最良モデルを生成するために、相互作用項が、項のプールからの全ての可能な相互作用項を含むベースモデルから差し引かれる。
上記アプローチに関する多数の追加のバリエーションが、本開示の範囲内にある。事実、本発明は、任意の適切なモデルには本発明での用途があるので、任意の特定のモデルに限定するものではない。1つの例証的な例として、xij変数は、アミノ酸の物理的または化学的性質を表すものであり−アミノ酸そのものの正確な識別情報を表すものではない(ロイシン対バリン対プロリン...)。そのような性質の例には、親油性、バルク、および電子的性質(例えば、形式電荷、部分電荷に関連するファンデルワールス表面積等)が含まれる。このアプローチを実装するために、アミノ酸残基を表すxij値を、それらの性質またはこれらの性質から構成された主成分に関して提示することができる。本発明は、任意の適切な性質には本発明の方法での用途があるので、アミノ酸、ペプチド、および/またはポリペプチドの任意の特定の性質に限定されるものではない。
ベクトル1=a1(残基位置1)+a2(残基位置2)+a3(残基位置3)
係数a1、a2、およびa3は、負荷である。これらは対応する残基位置の重要性をデータセット内のバリエーションに反映するので、上述のような「トグリング」決定の目的で個々の残基位置の重要性のランク付けに使用することができる。回帰係数のような負荷は、各トグルされる位置での残基をランク付けするために使用され得る。様々なパラメータは、これら負荷の重要性について記述する。一部の実施形態は、負荷行列を使用するために、投影における変数重要度(VIP)等の方法を利用する。この負荷行列は、訓練セットから得られた多数の潜在ベクトルに関する負荷から構成される。PLS投影法に関する変数重要度において、変数(例えば、残基位置)の重要性はVIPを計算することによって算出される。所与のPLS次元に対して、ある(VIN)ak 2は、そのPLS次元によるy(従属変数、例えば、ある特定の関数)のパーセント説明変動性を乗じた変数の平方PLS重み(wak)2に等しい。(VIN)ak 2を、全てのPLS次元(成分)上で合計する。次いでVIPを、PLSモデルにより説明されるyの全パーセント変動性で合計を割り、モデルの変数の数を乗じることによって計算する。1より大きいVIPを有する変数は、ある特定の関数(y)と相関させるのに最も関連あるものであり、したがって、トグリングの決定を行う目的で最も高いランク付けがなされる。
本発明の一部の実施形態において、ベイズ線形回帰は用途を見出す。この方法は、ベイズ推定の文脈において統計分析を行う線形回帰のためのアプローチである。回帰モデルが正規分布を有する誤差を有する場合、および特定の形の事前の分布が想定される場合、モデルのパラメータの事後確率分布を、ベイズ推定技法を使用して決定することができる。
一部の実施形態において、本発明は、アンサンブル回帰技法を利用して、配列−活性モデルを調製する。アンサンブル回帰モデルは、数種の回帰モデルに基づく。各モデルの予測は、特定の情報基準(IC)に基づき重み付けられ、アンサンブルの予測は、これが含む全モデルの予測の加重和である。一部の実施形態において、モデル開発は、全相互作用項を含むベースモデルから開始する。その後のモデルは、一部または全ての可能な組合せにおける相互作用係数を加算することにより構築される。一部の実施形態において、相互作用係数は、段階的プロセスで加算される。各モデルがデータに適合させられ、ICが作製される。各モデルに対する重みは、ICそれ自体または変換バージョン、例えば、対数値、ネゲート値等であり得るICに基づく。アンサンブルにおける各モデルの予測を作製し、各モデルからの予測の加重平均を採用することによりアンサンブル予測を決定することにより、予測を観測に対して行うことができる。完全アンサンブルは、あらゆる可能なモデルを含むが、これが含むモデルの数またはICに閾値をセットすることにより、成績の悪いモデルを除去するように調整されることができる。
所与の反復における考慮中のモデルの予測検出力を特徴付けるためのその他の技法は、本発明で用途を見出す。一部の実施形態において、これらの技法は交差検証またはブートストラップ技法を含む。一部の実施形態において、交差検証は、モデルを生成するために使用される一組の観測を用いるが、観測のいくつかはモデルの強度を評価するために除外する。一部の実施形態において、ブートストラップ技法は、返還を伴って試験される一組の試料を使用することを含む。一部の実施形態において、交差検証またはブートストラッピングにより生成されたモデルは、上述のようなアンサンブルモデルに組み合わせることができる。
本発明の目標の1つは、定向進化を通して最適化タンパク質バリアントライブラリーを生成することである。本発明の一部の実施形態は、生成された配列−活性モデルを使用して、タンパク質バリアントの定向進化を誘導する方法を提供する。上記の方法に従い調製され精密化された様々な配列−活性モデルは、タンパク質または生体分子の定向進化を誘導するために適している。プロセスの部分として、方法は、新しいタンパク質バリアントライブラリーを生成するために使用される配列を同定し得る。そのような配列は、上記同定された定義済み残基に対してバリエーションを含み、またはそれらは引き続きそのようなバリエーションを導入するために使用される前駆体である。配列は、タンパク質バリアントの新しいライブラリーを生成するために、変異誘発または組換えをベースにした多様性生成メカニズムを行うことによって、改変され得る。新しいライブラリーは、新しい配列−活性モデルを開発する際に使用され得る。
residue)の全てが固定されるように、かつ残りのより低いランキングの回帰係数残基がトグルされるように、設計される。この実施形態の理論的根拠は、「最良」予測タンパク質を取り囲む局所空間が探索されるべきであることである。トグルが導入される開始ポイントの「主鎖」は、モデルによって予測された最良のタンパク質、および/またはスクリーニングされたライブラリーからの既に検証された「最良」のタンパク質であり得ることに留意されたい。事実、開始ポイントの主鎖は任意の特定のタンパク質に限定するものではない。
measured function)を持つクローン)。方法は、このタンパク質からの各残基を、所望の活性の最高値を有する「最良予測」配列からの対応する残基と比較する。最高負荷または回帰係数を持つ残基が「最良」クローン内に存在しない場合、方法は、その位置を、後続のライブラリーのためのトグル位置として導入する。残基が最良クローン内に存在する場合、方法は、その位置をトグル位置として処理せず、連続して次の位置に移動させる。プロセスを、様々な残基に関して繰り返し、十分なサイズのライブラリーが生成されるまで、連続してより低い負荷値を移動する。
明らかなように、本明細書に記載される実施形態は、命令の制御下で動作するプロセス、および/または1つ以上のコンピュータシステムの内部に記憶されまたはそれを通して転送されるデータを用いる。本明細書に開示される実施形態は、これらの動作を行うための装置にも関する。一部の実施形態において、装置は、必要とされる目的のために特別に設計されかつ/または構成され、あるいは、コンピュータに記憶されたコンピュータプログラムおよび/またはデータ構造によって選択的に活性化されまたは再構成される汎用コンピュータであり得る。本発明により提供されるプロセスは、任意の特定のコンピュータまたはその他の特殊な装置に本来関係しない。特に、様々な汎用マシンには、本明細書の教示により書かれたプログラムで用途がある。しかし、一部の実施形態において、必要な方法操作を行うために専用の装置を構成する。様々なこれらのマシンの、特定の構造の一実施形態について、以下に記載する。
一部の実施形態において、本発明は、コンピュータシステムの1つ以上のプロセッサによって実行されると、コンピュータシステムに、所望の活性に影響を与える生物分子を同定する方法を実施させるコンピュータ実行可能命令を記憶した1つ以上のコンピュータ読み取り可能な記憶媒体を含むコンピュータプログラム製品に関する。そのような方法は、図および擬似コードにより包含されるような、本明細書に記載される任意の方法である。一部の実施形態において、方法は、複数の生体分子の配列データおよび活性データを受け取り、配列データおよび活性データからベースモデルおよび改善されたモデルを調製する。一部の実施形態において、モデルは、配列のサブユニットの存在または非存在の関数として活性を予測する。
次の実施例は、本発明の様々な実施形態を実装する定向進化のプロセスを示す。プロセスは、タンパク質バリアントライブラリーの作製、ライブラリーのバリアントに基づく様々な形式の配列−活性モデルの作製、および所望のレベルの目的のタンパク質活性を達成するためのタンパク質の定向進化の実施を含む。
y=β+C1AX1A+C1GX1G+C2AX2A+C2GX2G+C3AX3A+C4AX4A+C5AX5A+C6AX6A+C6GX6G+C7AX7A+C8AX8A式中、yは、モデルにより予測される活性であり、βは、線形方程式の「切片」である。
(a)データ行列におけるデータの行を、n行(179)回数返還を伴ってサンプリングした。
(b)通常の最小二乗回帰を使用して、サンプリングしたデータを適合させた。
(c)ステップ(a)および(b)を500回反復した。
(d)(c)の各々からの係数を平均して、最終モデル係数値を得た。
(e)(d)から得られたモデルを使用して、データ行列における配列データのFIOP値を予測した。図9Aにおいて、各観測に対して、観測および予測される値を一緒にプロットした。
y=β×(1−C1AX1A)×(1−C1GX1G)×(1−C2AX2A)×(1−C2GX2G)×(1−C3AX3A)×(1−C4AX4A)×(1−C5AX5A)×(1−C6AX6A)×(1−C6GX6G)×(1−C7AX7A)×(1−C8AX8A)
あるいは、係数値が、y値の計算に定数1を効果的に取り込むよう設定される場合、モデルは、次の形式をとることができる。例えば、上述のモデルの係数が、−0.9〜1.5の範囲に及ぶよう設定される場合、係数は、次の代替的モデルに対し0.1〜2.5の範囲に及ぶよう設定して、同様のモデル出力を達成することができる:
y=β×C1AX1A×C1GX1G×C2AX2A×C2GX2G×C3AX3A×C4AX4A×C5AX5A×C6AX6A×C6GX6G×C7AX7A×C8AX8A
ブートストラップおよび遺伝的アルゴリズム技法の両方を使用して係数値を調整することにより、モデルを精密化した。次の通り、観測に対する予測される活性(または適応度)の平均二乗誤差を最小化することにより、モデル適合を行った:
(a)行の配列/活性データをn行数返還を伴ってサンプリングして、ブートストラップデータを提供した。
(b)−0.9〜1.5の間となるよう係数値が制限される遺伝的アルゴリズムを使用して、モデルをサンプリングしたデータに適合させた。遺伝的アルゴリズムは、200の集団サイズを有し、100世代にわたり実行した。
(c)ステップ(a)および(b)を500回反復した。
(d)(c)の各々からの上位10種の染色体/個体を平均して、最終モデル係数を得る。
(e)各データ行列の行に対して、(d)を使用してFIOP値を予測する。図9Bにおいて、データ(観測)の各行に対して、観測および予測される値を一緒にプロットした。この乗法ベースモデルの係数値を、表VIの第3列に示す。
(b)あらゆる可能なペアワイズ相互作用係数を係数のプールに配置した(1A*2A、1A*3A、1A*4A、…、6G*8A、7A*8A)。
(c)先の例に記載されているものと同じパラメータを有する遺伝的アルゴリズムを使用して適合させられた、最良のモデルに各係数を加算した。
(d)AICを使用して(c)から各新たなモデルの適応度を得た。
(e)(d)から得た最低AICを有するモデル(すなわち、最適合モデル)を、現ラウンドのモデルの最良であるよう設定した。
(f)(e)から得たモデルが、最良のモデルよりも優れていた場合、最良のモデルをこのモデルに設定し、このモデルにおける係数を係数プールから除去し、アルゴリズムを(c)に進める − さもなければ、新たなモデルが存在せず、アルゴリズムを完了する。(g)先行する例に概要を述べるブートストラップ/適合方法を使用して、(f)から得た新たなモデルを適合させる。
例えば、本発明は以下の項目を提供する。
(項目1)
定向進化を行う方法であって、前記方法は、
(a)複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
(b)前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
(c)前記配列−活性モデルの前記項の前記係数を評価して、前記活性に寄与する前記定義された位置における前記定義されたアミノ酸またはヌクレオチドのうち1つ以上を同定することによって、定向進化のラウンドのための1つ以上の変異を選択することと、
(d)(c)において選択された前記1つ以上の変異を含むかまたはコードする複数のオリゴヌクレオチドを調製することと、
(e)(d)において調製された前記複数のオリゴヌクレオチドを使用して、定向進化のラウンドを実行することと
を含む、方法。
(項目2)
定向進化のラウンドのための変異を選択することは、前記係数の他のものよりも大きいと決定された1つ以上の係数を同定することと、そのように同定された前記1つ以上の係数によって表される定義された位置における前記定義されたアミノ酸またはヌクレオチドを選択することとを含む、項目1に記載の方法。
(項目3)
(c)において選択される前記変異を含むかまたはコードする前記複数のオリゴヌクレオチドを調製することは、核酸合成機を使用して前記オリゴヌクレオチドを合成することを含む、項目1〜2のいずれかに記載の方法。
(項目4)
定向進化のラウンドを実行することは、所望のレベルの活性を有すると前記モデルによって予測される前記タンパク質配列を断片化し組み換えることを含む、項目1〜3のいずれかに記載の方法。
(項目5)
定向進化のラウンドを実行することは、所望のレベルの活性を有すると前記モデルによって予測される前記タンパク質配列において飽和変異誘発を実行することを含む、項目1〜4のいずれかに記載の方法。
(項目6)
定向進化を行う方法であって、前記方法は、
(a)複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
(b)前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または前記タンパク質配列をコードする核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
(c)前記配列−活性モデルの前記項の前記係数を評価して、前記活性に寄与する前記定義された位置における前記定義されたアミノ酸またはヌクレオチドのうち1つ以上を同定することによって、1つ以上の変異を選択することと、
(d)(c)において選択された前記1つ以上の変異を含む新たなタンパク質配列または新たな核酸配列を同定することと、
(e)前記新たなタンパク質、または前記新たな核酸配列にコードされるタンパク質を調製しアッセイすることと
を含む、方法。
(項目7)
(d)において同定された前記新たなタンパク質配列または新たな核酸配列をさらなる定向進化の出発点として使用することをさらに含む、項目6に記載の方法。
(項目8)
(c)において選択される前記変異の1つ以上の位置において飽和変異誘発を行うことをさらに含む、項目6に記載の方法。
(項目9)
定向進化を行う方法であって、前記方法は、
(a)複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
(b)前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または前記タンパク質配列をコードする核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
(c)前記配列−活性モデルの前記項の前記係数を評価して、前記活性に寄与する前記定義された位置における前記定義されたアミノ酸またはヌクレオチドのうち1つ以上を同定することにより、前記タンパク質配列または核酸配列における1つ以上の位置を選択することと、
(d)(c)において同定された前記1つ以上の位置において飽和変異誘発を行うことと
を含む、方法。
(項目10)
定向進化を行う方法であって、前記方法は、
(a)複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
(b)前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または前記タンパク質配列をコードする核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
(c)前記配列−活性モデルに複数のタンパク質配列または複数のアミノ酸配列を適用し、前記複数のタンパク質配列または核酸配列の各々に対して、前記配列−活性モデルによって予測される活性値を決定することと、
(d)前記複数の配列に対して、前記配列−活性モデルによって予測される前記活性値を評価することによって、(c)において適用される前記複数のタンパク質配列または複数のアミノ酸配列の中から新たなタンパク質配列または新たな核酸配列を選択することと、(e)前記新たなタンパク質配列を有するタンパク質、または前記新たな核酸配列にコードされるタンパク質を調製しアッセイすることと
を含む、方法。
(項目11)
前記新たなタンパク質配列を有する前記タンパク質、または前記新たな核酸配列にコードされる前記タンパク質を調製することは、前記新たなタンパク質または前記新たな核酸配列を合成することを含む、項目10に記載の方法。
(項目12)
前記係数を含む前記項の各々は、係数と独立変数との積を含み、前記係数は、活性に対する定義された位置における前記定義されたアミノ酸またはヌクレオチドの寄与を表し、前記独立変数は、前記関連する係数の前記定義された位置における前記定義されたアミノ酸またはヌクレオチドの存在または非存在を表す、項目1〜11のいずれかに記載の方法。
(項目13)
前記係数を含む前記項の各々は、(1+係数×独立変数)の形式で提供される、項目12に記載の方法。
(項目14)
前記係数は、ルックアップテーブルにおいて提供される、項目1〜13のいずれかに記載の方法。
(項目15)
前記配列−活性モデルは、前記タンパク質バリアントの前記活性を表す前記従属変数と前記複数の項の前記積との間の関係性を含む、項目1〜14のいずれかに記載の方法。
(項目16)
定向進化のラウンドを実行することは、(c)において選択される前記変異を含むかまたはコードする複数のオリゴヌクレオチドをシャッフリングすることを含む、項目1〜15のいずれかに記載の方法。
(項目17)
定向進化のラウンドを実行することは、タンパク質バリアントライブラリーを形成することを含む、項目1〜16のいずれかに記載の方法。
(項目18)
活性をアッセイすることと、前記タンパク質バリアントライブラリーのメンバーをシーケンシングすることとをさらに含む、項目17に記載の方法。
(項目19)
前記タンパク質バリアントライブラリーに対する活性および配列情報に基づいて作業(b)〜(e)を実行することによって、前記タンパク質バリアントライブラリーに対する前記活性および配列情報を使用して、新たな配列−活性モデルを作製し使用することをさらに含む、項目18に記載の方法。
(項目20)
前記配列−活性モデルの前記複数の項のうち少なくとも1つは、(i)前記配列における第1の位置における第1のアミノ酸またはヌクレオチドと、(ii)前記配列における第2の位置における第2のアミノ酸またはヌクレオチドとの定義された組合せの活性に対する寄与を表す相互作用係数を含み、
前記相互作用係数は、前記活性に対する前記定義された組合せの寄与を表す、項目1〜19のいずれかに記載の方法。
(項目21)
前記配列−活性モデルを生成することは、相互作用係数を含む項の段階的加算または減算を実行することを含む、項目20に記載の方法。
(項目22)
前記配列−活性モデルを生成することは、遺伝的アルゴリズムを使用して、相互作用係数を含む1つ以上の項を選択することを含む、項目20に記載の方法。
(項目23)
前記配列−活性モデルを生成することは、遺伝的アルゴリズムを使用して、前記係数の値を精密化することを含む、項目1〜22のいずれかに記載の方法。
(項目24)
配列−活性モデルを生成することは、
(i)各々が(b)に規定される複数の項の積および従属変数を含むある世代のモデルを調製することと、
(ii)前記タンパク質バリアントの前記配列を使用して、前記複数のタンパク質バリアントのうち少なくとも一部の活性を予測するために、前記世代のモデルにおける前記モデルの各々を使用することと、
(iii)前記複数のタンパク質バリアントの活性を正確に予測する前記モデルの能力に基づいて、前記世代のモデルから1つ以上のモデルを選択することと、
(iv)前記選択された1つ以上のモデルを修正して、次世代のモデルを生成することと、
(v)前記次世代のモデルを用いて(ii)〜(iv)を複数回反復して、(b)の前記配列−活性モデルを生成することと
を含む、項目22または23に記載の方法。
(項目25)
前記配列−活性モデルを生成することは、事前情報を使用して、前記モデルの事後確率分布を決定することを含む、項目1〜24のいずれかに記載の方法。
(項目26)
各々が(b)に規定される形式を有する配列−活性モデルのアンサンブルを生成することをさらに含む、項目1〜25のいずれかに記載の方法。
(項目27)
2つ以上の配列−活性モデルからの項を含むアンサンブルモデルを生成することをさらに含み、前記アンサンブルモデルの前記項は、活性を予測する前記2つ以上のモデルの能力によって重み付けられる、項目26に記載の方法。
(項目28)
前記アンサンブルモデルを使用して、定向進化のラウンドのための変異を選択することをさらに含む、項目26に記載の方法。
(項目29)
生物分子の定向進化を行う方法であって、前記方法は、
(a)複数の生物分子に対する配列データおよび活性データを得ることであって、各生物分子は、様々な型および配列位置のサブユニットを有する配列を含む、ことと、
(b)前記得られたデータから配列−活性モデルを構築することであって、前記配列−活性モデルは、サブユニットの前記型および配列位置の関数として活性を予測し、前記配列−活性モデルは、複数のベース乗法項の積を含み、前記ベース乗法項の各々は、
(1)特定の配列位置における特定の型の定義されたサブユニットの存在/非存在を表すダミー変数、および(2)活性に対する前記定義されたサブユニットの寄与を表す係数を含む、ことと、
(c)前記配列−活性モデルを使用して、前記生物分子の所望の活性に影響を与えるバリエーションに対して、特定の位置における特定の型の1つ以上のサブユニットを同定することと
を含む、方法。
(項目30)
前記配列は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、タンパク質もしくは多糖またはこれらの任意の組合せである、項目29に記載の方法。
(項目31)
前記サブユニットは、染色体、染色体セグメント、ハプロタイプ、遺伝子、コドン、変異、ヌクレオチド、アミノ酸、単糖、脂質またはこれらの任意の組合せである、項目29に記載の方法。
(項目32)
コンピュータシステムであって、
1つ以上のプロセッサと、
システムメモリと、
コンピュータ実行可能命令を記憶した1つ以上のコンピュータ読み取り可能な記憶媒体と
を含み、
前記命令は、前記1つ以上のプロセッサによって実行されると、前記コンピュータシステムに生物分子の定向進化を行う方法を実装させ、前記方法は、
(a)複数の生物分子に対する配列データおよび活性データを得ることであって、各生物分子は、様々な型および配列位置のサブユニットを有する配列を含む、ことと、
(b)前記得られたデータから配列−活性モデルを構築することであって、前記配列−活性モデルは、サブユニットの前記型および配列位置の関数として活性を予測し、前記配列−活性モデルは、複数のベース乗法項の積を含み、前記ベース乗法項の各々は、
(1)特定の配列位置における特定の型の定義されたサブユニットの存在/非存在を表すダミー変数、および(2)活性に対する前記定義されたサブユニットの寄与を表す係数を含む、ことと、
(c)前記配列−活性モデルを使用して、前記生物分子の所望の活性に影響を与えるバリエーションに対して、特定の位置における特定の型の1つ以上のサブユニットを同定することと
を含む、コンピュータシステム。
Claims (1)
- 本明細書に記載の発明。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361759276P | 2013-01-31 | 2013-01-31 | |
US61/759,276 | 2013-01-31 | ||
US201361799377P | 2013-03-15 | 2013-03-15 | |
US61/799,377 | 2013-03-15 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015556114A Division JP6433028B2 (ja) | 2013-01-31 | 2014-01-29 | 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018161148A true JP2018161148A (ja) | 2018-10-18 |
JP2018161148A5 JP2018161148A5 (ja) | 2019-05-16 |
JP6655670B2 JP6655670B2 (ja) | 2020-02-26 |
Family
ID=51223867
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015556114A Active JP6433028B2 (ja) | 2013-01-31 | 2014-01-29 | 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア |
JP2015556112A Active JP6377078B2 (ja) | 2013-01-31 | 2014-01-29 | 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア |
JP2017140863A Withdrawn JP2017189176A (ja) | 2013-01-31 | 2017-07-20 | 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア |
JP2018133041A Active JP6655670B2 (ja) | 2013-01-31 | 2018-07-13 | 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015556114A Active JP6433028B2 (ja) | 2013-01-31 | 2014-01-29 | 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア |
JP2015556112A Active JP6377078B2 (ja) | 2013-01-31 | 2014-01-29 | 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア |
JP2017140863A Withdrawn JP2017189176A (ja) | 2013-01-31 | 2017-07-20 | 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア |
Country Status (18)
Country | Link |
---|---|
US (4) | US9665694B2 (ja) |
EP (4) | EP2951754B1 (ja) |
JP (4) | JP6433028B2 (ja) |
KR (3) | KR20150113166A (ja) |
CN (3) | CN105074463B (ja) |
AU (2) | AU2014212430B2 (ja) |
BR (2) | BR112015018449B1 (ja) |
CA (2) | CA2899859C (ja) |
DK (2) | DK2951579T3 (ja) |
ES (2) | ES2978795T3 (ja) |
FI (2) | FI2951754T3 (ja) |
HU (2) | HUE066735T2 (ja) |
IL (2) | IL240056A0 (ja) |
LT (2) | LT2951754T (ja) |
NZ (2) | NZ710299A (ja) |
RU (2) | RU2664695C2 (ja) |
SG (2) | SG11201505969XA (ja) |
WO (2) | WO2014120821A1 (ja) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2664695C2 (ru) | 2013-01-31 | 2018-08-21 | Кодексис, Инк. | Способы, системы и программное обеспечение для идентификации биомолекул с помощью моделей мультипликативной формы |
EP3597772A1 (en) | 2013-04-17 | 2020-01-22 | Agency For Science, Technology And Research | Method for generating extended sequence reads |
EP2911075A1 (de) * | 2014-02-25 | 2015-08-26 | LTS LOHMANN Therapie-Systeme AG | System zur Bestimmung einer Eignung eines Wirkstoffs für die transdermale oder transmukosale Applikation sowie entsprechendes Verfahren |
SG11201703258PA (en) | 2014-11-25 | 2017-05-30 | Codexis Inc | Engineered imine reductases and methods for the reductive amination of ketone and amine compounds |
FI3237621T3 (fi) | 2014-12-22 | 2023-06-01 | Codexis Inc | Ihmisen alfa-galaktosidaasivariantteja |
US20170372005A1 (en) * | 2014-12-22 | 2017-12-28 | Board Of Regents Of The University Of Texas System | Systems and methods for processing sequence data for variant detection and analysis |
CA2986810C (en) | 2015-05-22 | 2024-01-02 | Csts Health Care Inc. | Thermodynamic measures on protein-protein interaction networks for cancer therapy |
FR3047013A1 (fr) * | 2016-01-22 | 2017-07-28 | Univ Montpellier | Procede de classification d'un echantillon biologique. |
EP3452940A4 (en) | 2016-05-04 | 2020-01-01 | Deep Genomics Incorporated | METHODS AND SYSTEMS FOR THE PRODUCTION OF AN EXTENDED EXERCISE DATA SET FOR MACHINE LEARNING WITH BIOLOGICAL SEQUENCES |
SG11201809575TA (en) | 2016-06-09 | 2018-11-29 | Codexis Inc | Biocatalysts and methods for hydroxylation of chemical compounds |
MX2018015534A (es) | 2016-06-15 | 2019-03-14 | Codexis Inc | Beta-glucosidasas dise?adas y metodos de glucosilacion. |
EP4223766A3 (en) | 2016-08-26 | 2023-10-18 | Codexis, Inc. | Engineered imine reductases and methods for the reductive amination of ketone and amine compounds |
US10118610B2 (en) * | 2016-08-31 | 2018-11-06 | Ford Global Technologies, Llc | Autonomous vehicle using path prediction |
NZ755628A (en) | 2017-02-13 | 2023-09-29 | Codexis Inc | Engineered phenylalanine ammonia lyase polypeptides |
CN108693787A (zh) * | 2017-03-29 | 2018-10-23 | 株式会社东芝 | 模型构建系统以及模型构建方法 |
JP2020530266A (ja) | 2017-06-30 | 2020-10-22 | コデクシス, インコーポレイテッド | T7 rnaポリメラーゼバリアント |
KR20200023454A (ko) | 2017-06-30 | 2020-03-04 | 코덱시스, 인코포레이티드 | T7 rna 폴리머라제 변이체 |
CN107677997B (zh) * | 2017-09-28 | 2021-06-29 | 杭州电子科技大学 | 基于GLMB滤波和Gibbs采样的扩展目标跟踪方法 |
CN111164701A (zh) * | 2017-10-06 | 2020-05-15 | 格瑞尔公司 | 针对靶标定序的定点噪声模型 |
JP7258871B2 (ja) * | 2017-10-17 | 2023-04-17 | インビタエ コーポレイション | 遺伝子及びゲノムの検査並びに分析におけるバリアント解釈の、監査可能な継続的な最適化のための分子エビデンスプラットフォーム |
AU2018383752A1 (en) | 2017-12-13 | 2020-05-21 | Codexis, Inc. | Carboxyesterase polypeptides for amide coupling |
CN108281192B (zh) * | 2017-12-29 | 2022-03-22 | 一诺仪器(中国)有限公司 | 基于集成学习算法的人体成分预测方法及系统 |
MX2021001260A (es) | 2018-07-30 | 2021-04-12 | Tate & Lyle Solutions Usa Llc | Glucosiltransferasas modificadas con ingenieria genetica y metodos de glucosilacion de glucosido de esteviol. |
JP2022512637A (ja) * | 2018-10-11 | 2022-02-07 | バークレー ライツ,インコーポレイテッド | 最適化タンパク質生成の同定のためのシステム及び方法並びにそのためのキット |
US11398297B2 (en) * | 2018-10-11 | 2022-07-26 | Chun-Chieh Chang | Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences |
WO2020092216A1 (en) | 2018-10-29 | 2020-05-07 | Codexis, Inc. | Engineered dna polymerase variants |
US11473077B2 (en) | 2018-12-14 | 2022-10-18 | Codexis, Inc. | Engineered tyrosine ammonia lyase |
EP3898960A4 (en) | 2018-12-20 | 2022-11-30 | Codexis, Inc. | VARIANTS OF HUMAN ALPHA GALACTOSIDASE |
WO2020154386A1 (en) * | 2019-01-22 | 2020-07-30 | EMULATE, Inc. | High-content imaging of microfluidic devices |
US20220366313A1 (en) * | 2019-02-14 | 2022-11-17 | University Of Washington | Systems and methods for improved nanopore-based analysis of nucleic acids |
CN109902389B (zh) * | 2019-03-01 | 2021-01-01 | 厦门大学 | 基于改进通用似然估计的不确定性有限元模型修正方法 |
CN109979539B (zh) * | 2019-04-10 | 2020-10-02 | 电子科技大学 | 基因序列优化方法、装置及数据处理终端 |
CA3138861A1 (en) | 2019-05-02 | 2020-12-10 | Board Of Regents, The University Of Texas System | System and method for increasing synthesized protein stability |
JP7298284B2 (ja) * | 2019-05-09 | 2023-06-27 | 富士通株式会社 | 演算処理装置、演算処理プログラム、及び演算処理方法 |
JP7526210B2 (ja) * | 2019-06-07 | 2024-07-31 | ライカ マイクロシステムズ シーエムエス ゲゼルシャフト ミット ベシュレンクテル ハフツング | 生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡 |
CN115989545A (zh) * | 2019-06-12 | 2023-04-18 | 宽腾矽公司 | 使用机器学习和相关系统和方法进行蛋白质识别的技术 |
JP2022545718A (ja) | 2019-08-30 | 2022-10-28 | コデクシス, インコーポレイテッド | 操作されたリパーゼ改変体 |
JP7438693B2 (ja) * | 2019-09-02 | 2024-02-27 | キヤノンメディカルシステムズ株式会社 | 診療支援装置 |
US20210174909A1 (en) * | 2019-12-10 | 2021-06-10 | Homodeus, Inc. | Generative machine learning models for predicting functional protein sequences |
US11970722B2 (en) | 2019-12-20 | 2024-04-30 | Codexis, Inc. | Engineered acid alpha-glucosidase variants |
US11188778B1 (en) * | 2020-05-05 | 2021-11-30 | Illumina, Inc. | Equalization-based image processing and spatial crosstalk attenuator |
KR20230145027A (ko) | 2020-08-28 | 2023-10-17 | 코덱시스, 인코포레이티드 | 조작된 아밀라제 변이체 |
CA3191867A1 (en) | 2020-08-28 | 2022-03-03 | Codexis, Inc. | Engineered protease variants |
US11361194B2 (en) | 2020-10-27 | 2022-06-14 | Illumina, Inc. | Systems and methods for per-cluster intensity correction and base calling |
CA3204825A1 (en) | 2020-12-18 | 2022-06-23 | Codexis, Inc. | Engineered uridine phosphorylase variant enzymes |
JP7577002B2 (ja) | 2021-03-19 | 2024-11-01 | 日本放送協会 | 特徴抽出装置およびプログラム |
US11439159B2 (en) | 2021-03-22 | 2022-09-13 | Shiru, Inc. | System for identifying and developing individual naturally-occurring proteins as food ingredients by machine learning and database mining combined with empirical testing for a target food function |
EP4314261A1 (en) | 2021-04-02 | 2024-02-07 | Codexis, Inc. | Engineered acetate kinase variant enzymes |
WO2022212832A1 (en) | 2021-04-02 | 2022-10-06 | Codexis, Inc. | Engineered cyclic gmp-amp synthase (cgas) variant enzymes |
CN117120599A (zh) | 2021-04-02 | 2023-11-24 | 科德克希思公司 | 工程化鸟苷酸激酶变体酶 |
US11913037B2 (en) | 2021-04-02 | 2024-02-27 | Codexis, Inc. | Engineered adenylate kinase variant enzymes |
US12110521B2 (en) | 2021-05-21 | 2024-10-08 | Syntis Bio, Inc. | Engineered methionine gamma lyase variants |
US11455487B1 (en) | 2021-10-26 | 2022-09-27 | Illumina Software, Inc. | Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling |
EP4416278A1 (en) | 2021-10-15 | 2024-08-21 | Codexis, Inc. | Engineered dna polymerase variants |
CN114913939B (zh) * | 2022-07-19 | 2022-11-15 | 北京科技大学 | 高通量平台和机器学习优化的药物组合设计方法及装置 |
CN116884503B (zh) * | 2023-09-06 | 2023-12-26 | 北京齐碳科技有限公司 | 序列和后验矩阵的处理方法、装置和计算设备 |
CN117935934B (zh) * | 2024-03-25 | 2024-07-02 | 中国科学院天津工业生物技术研究所 | 一种基于机器学习预测磷酸酶最佳催化温度的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005519384A (ja) * | 2002-03-01 | 2005-06-30 | マキシジェン, インコーポレイテッド | 機能的生体分子を同定する方法、システム、およびソフトウェア |
JP2008503589A (ja) * | 2004-06-22 | 2008-02-07 | マキシジェン, インコーポレイテッド | 機能的生体分子を同定するための方法、システムおよびソフトウェア |
JP6433028B2 (ja) * | 2013-01-31 | 2018-12-05 | コデクシス, インコーポレイテッド | 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5834252A (en) | 1995-04-18 | 1998-11-10 | Glaxo Group Limited | End-complementary polymerase reaction |
US5837458A (en) | 1994-02-17 | 1998-11-17 | Maxygen, Inc. | Methods and compositions for cellular and metabolic engineering |
US20060257890A1 (en) | 1996-05-20 | 2006-11-16 | Maxygen, Inc. | Methods and compositions for cellular and metabolic engineering |
US5605793A (en) | 1994-02-17 | 1997-02-25 | Affymax Technologies N.V. | Methods for in vitro recombination |
US6335160B1 (en) | 1995-02-17 | 2002-01-01 | Maxygen, Inc. | Methods and compositions for polypeptide engineering |
US6117679A (en) | 1994-02-17 | 2000-09-12 | Maxygen, Inc. | Methods for generating polynucleotides having desired characteristics by iterative selection and recombination |
US6537776B1 (en) | 1999-06-14 | 2003-03-25 | Diversa Corporation | Synthetic ligation reassembly in directed evolution |
US6171820B1 (en) | 1995-12-07 | 2001-01-09 | Diversa Corporation | Saturation mutagenesis in directed evolution |
US6153410A (en) | 1997-03-25 | 2000-11-28 | California Institute Of Technology | Recombination of polynucleotide sequences using random or defined primers |
JP3712255B2 (ja) | 1997-12-08 | 2005-11-02 | カリフォルニア・インスティチュート・オブ・テクノロジー | ポリヌクレオチドおよびポリペプチド配列を生成するための方法 |
US7315786B2 (en) | 1998-10-16 | 2008-01-01 | Xencor | Protein design automation for protein libraries |
US20020048772A1 (en) | 2000-02-10 | 2002-04-25 | Dahiyat Bassil I. | Protein design automation for protein libraries |
US6917882B2 (en) | 1999-01-19 | 2005-07-12 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
US6376246B1 (en) | 1999-02-05 | 2002-04-23 | Maxygen, Inc. | Oligonucleotide mediated nucleic acid recombination |
US20070065838A1 (en) | 1999-01-19 | 2007-03-22 | Maxygen, Inc. | Oligonucleotide mediated nucleic acid recombination |
IL138002A0 (en) | 1999-01-19 | 2001-10-31 | Maxygen Inc | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
US7024312B1 (en) | 1999-01-19 | 2006-04-04 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
WO2001039098A2 (en) * | 1999-11-22 | 2001-05-31 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | System and method for searching a combinatorial space |
US20010051855A1 (en) * | 2000-02-17 | 2001-12-13 | California Institute Of Technology | Computationally targeted evolutionary design |
WO2001064864A2 (en) | 2000-02-28 | 2001-09-07 | Maxygen, Inc. | Single-stranded nucleic acid template-mediated recombination and nucleic acid fragment isolation |
WO2001075767A2 (en) | 2000-03-30 | 2001-10-11 | Maxygen, Inc. | In silico cross-over site selection |
EP1283877A2 (en) | 2000-05-23 | 2003-02-19 | California Institute Of Technology | Gene recombination and hybrid protein development |
US20030032059A1 (en) | 2000-05-23 | 2003-02-13 | Zhen-Gang Wang | Gene recombination and hybrid protein development |
AU2002211624A1 (en) | 2000-10-10 | 2002-04-22 | Genencor International, Inc. | Information rich libraries |
US6894033B2 (en) * | 2001-06-11 | 2005-05-17 | Transition Therapeutics Inc. | Combination therapies using vitamin B12 and therapeutic agents for treatment of viral, proliferative and inflammatory diseases |
US7747391B2 (en) * | 2002-03-01 | 2010-06-29 | Maxygen, Inc. | Methods, systems, and software for identifying functional biomolecules |
US20050159896A1 (en) | 2002-04-04 | 2005-07-21 | Toshio Ishikawa | Apparatus and method for analyzing data |
CN1672160B (zh) * | 2002-05-20 | 2010-06-09 | 埃博马可西斯公司 | 基于前导抗体的结构构建抗体文库的方法 |
JP4042492B2 (ja) * | 2002-08-07 | 2008-02-06 | トヨタ自動車株式会社 | エンジン制御パラメータの適合方法及び適合システム |
JP2004355174A (ja) * | 2003-05-28 | 2004-12-16 | Ishihara Sangyo Kaisha Ltd | データ解析方法及びそのシステム |
MXPA06003886A (es) * | 2003-10-08 | 2006-08-11 | Ebioscience | Reactivos de enlace de inmunoglobulina naturales y metodos de fabricacion y uso de los mismos. |
US7529714B2 (en) * | 2004-12-14 | 2009-05-05 | International Business Machines Corporation | Cost management of software application portfolio |
CN1763227A (zh) * | 2005-09-01 | 2006-04-26 | 南京工业大学 | 一种提高蛋白质生物学功能的方法 |
AU2008298603B2 (en) | 2007-09-14 | 2015-04-30 | Adimab, Llc | Rationally designed, synthetic antibody libraries and uses therefor |
CN101889074A (zh) | 2007-10-04 | 2010-11-17 | 哈尔西恩莫尔丘勒公司 | 采用电子显微镜对核酸聚合物测序 |
US8383346B2 (en) | 2008-06-13 | 2013-02-26 | Codexis, Inc. | Combined automated parallel synthesis of polynucleotide variants |
US20090312196A1 (en) | 2008-06-13 | 2009-12-17 | Codexis, Inc. | Method of synthesizing polynucleotide variants |
CN101353372A (zh) * | 2008-08-04 | 2009-01-28 | 林峻 | 一种新型蛋白质分子定向进化方法 |
AU2009325069B2 (en) * | 2008-12-11 | 2015-03-19 | Pacific Biosciences Of California, Inc. | Classification of nucleic acid templates |
US8551096B2 (en) * | 2009-05-13 | 2013-10-08 | Boston Scientific Scimed, Inc. | Directional delivery of energy and bioactives |
CN101792934A (zh) * | 2009-08-26 | 2010-08-04 | 青岛科技大学 | 一种基于组合原理和pcr建立超大容量基因文库的新方法 |
JP5649424B2 (ja) * | 2010-02-03 | 2015-01-07 | 大和ハウス工業株式会社 | 防水シート診断方法および診断装置 |
US20120115734A1 (en) | 2010-11-04 | 2012-05-10 | Laura Potter | In silico prediction of high expression gene combinations and other combinations of biological components |
WO2012093483A1 (ja) | 2011-01-06 | 2012-07-12 | アクアエンタープライズ株式会社 | 移動過程予測システム、移動過程予測方法、移動過程予測装置及びコンピュータプログラム |
US20120231447A1 (en) * | 2011-02-15 | 2012-09-13 | Howard Hughes Medical Institute | Surface Passivation Methods for Single Molecule Imaging of Biochemical Reactions |
CN102206625A (zh) * | 2011-03-04 | 2011-10-05 | 东华大学 | 易错pcr/卡那霉素筛选系统定向进化蛋白质内含子 |
US20130017540A1 (en) | 2011-06-07 | 2013-01-17 | Yun Yen | Identification of mutation types associated with acquired resistance and methods for using same |
-
2014
- 2014-01-29 RU RU2015136780A patent/RU2664695C2/ru active
- 2014-01-29 EP EP14746677.5A patent/EP2951754B1/en active Active
- 2014-01-29 FI FIEP14746677.5T patent/FI2951754T3/fi active
- 2014-01-29 KR KR1020157023727A patent/KR20150113166A/ko active Application Filing
- 2014-01-29 SG SG11201505969XA patent/SG11201505969XA/en unknown
- 2014-01-29 KR KR1020217000247A patent/KR102490720B1/ko active IP Right Grant
- 2014-01-29 CN CN201480019389.2A patent/CN105074463B/zh active Active
- 2014-01-29 CA CA2899859A patent/CA2899859C/en active Active
- 2014-01-29 FI FIEP14746406.9T patent/FI2951579T3/fi active
- 2014-01-29 LT LTEPPCT/US2014/013666T patent/LT2951754T/lt unknown
- 2014-01-29 ES ES14746677T patent/ES2978795T3/es active Active
- 2014-01-29 BR BR112015018449-9A patent/BR112015018449B1/pt active IP Right Grant
- 2014-01-29 JP JP2015556114A patent/JP6433028B2/ja active Active
- 2014-01-29 US US14/167,709 patent/US9665694B2/en active Active
- 2014-01-29 WO PCT/US2014/013668 patent/WO2014120821A1/en active Application Filing
- 2014-01-29 ES ES14746406T patent/ES2979018T3/es active Active
- 2014-01-29 AU AU2014212430A patent/AU2014212430B2/en active Active
- 2014-01-29 SG SG11201505977RA patent/SG11201505977RA/en unknown
- 2014-01-29 LT LTEPPCT/US2014/013668T patent/LT2951579T/lt unknown
- 2014-01-29 EP EP14746406.9A patent/EP2951579B1/en active Active
- 2014-01-29 WO PCT/US2014/013666 patent/WO2014120819A1/en active Application Filing
- 2014-01-29 NZ NZ710299A patent/NZ710299A/en unknown
- 2014-01-29 CN CN201811237910.6A patent/CN109360608B/zh active Active
- 2014-01-29 NZ NZ710323A patent/NZ710323A/en unknown
- 2014-01-29 US US14/167,713 patent/US9684771B2/en active Active
- 2014-01-29 CN CN201480018421.5A patent/CN105144190B/zh active Active
- 2014-01-29 KR KR1020157023739A patent/KR102215219B1/ko active IP Right Grant
- 2014-01-29 JP JP2015556112A patent/JP6377078B2/ja active Active
- 2014-01-29 HU HUE14746677A patent/HUE066735T2/hu unknown
- 2014-01-29 AU AU2014212432A patent/AU2014212432B2/en active Active
- 2014-01-29 EP EP24171707.3A patent/EP4414988A3/en active Pending
- 2014-01-29 CA CA2898777A patent/CA2898777C/en active Active
- 2014-01-29 HU HUE14746406A patent/HUE066974T2/hu unknown
- 2014-01-29 DK DK14746406.9T patent/DK2951579T3/da active
- 2014-01-29 EP EP24163788.3A patent/EP4398255A3/en active Pending
- 2014-01-29 BR BR112015018454-5A patent/BR112015018454B1/pt active IP Right Grant
- 2014-01-29 RU RU2015136776A patent/RU2695146C2/ru active
- 2014-01-29 DK DK14746677.5T patent/DK2951754T3/da active
-
2015
- 2015-07-21 IL IL240056A patent/IL240056A0/en active IP Right Grant
- 2015-07-21 IL IL240055A patent/IL240055A0/en active IP Right Grant
-
2017
- 2017-04-04 US US15/479,222 patent/US20170204405A1/en not_active Abandoned
- 2017-04-04 US US15/479,220 patent/US20170211206A1/en not_active Abandoned
- 2017-07-20 JP JP2017140863A patent/JP2017189176A/ja not_active Withdrawn
-
2018
- 2018-07-13 JP JP2018133041A patent/JP6655670B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005519384A (ja) * | 2002-03-01 | 2005-06-30 | マキシジェン, インコーポレイテッド | 機能的生体分子を同定する方法、システム、およびソフトウェア |
JP2008503589A (ja) * | 2004-06-22 | 2008-02-07 | マキシジェン, インコーポレイテッド | 機能的生体分子を同定するための方法、システムおよびソフトウェア |
JP6433028B2 (ja) * | 2013-01-31 | 2018-12-05 | コデクシス, インコーポレイテッド | 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6655670B2 (ja) | 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア | |
JP6309086B2 (ja) | 構造ベース予測モデリング | |
JP2008503589A (ja) | 機能的生体分子を同定するための方法、システムおよびソフトウェア |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A132 Effective date: 20190603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6655670 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |