JP2004501446A - Structure-based methods for assessing amino acid diversity - Google Patents
Structure-based methods for assessing amino acid diversity Download PDFInfo
- Publication number
- JP2004501446A JP2004501446A JP2002501137A JP2002501137A JP2004501446A JP 2004501446 A JP2004501446 A JP 2004501446A JP 2002501137 A JP2002501137 A JP 2002501137A JP 2002501137 A JP2002501137 A JP 2002501137A JP 2004501446 A JP2004501446 A JP 2004501446A
- Authority
- JP
- Japan
- Prior art keywords
- amino acid
- model
- acid residue
- protein
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001413 amino acids Chemical class 0.000 title claims abstract description 220
- 238000000034 method Methods 0.000 title claims abstract description 104
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 364
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 297
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 290
- 230000000694 effects Effects 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims description 58
- 230000009897 systematic effect Effects 0.000 claims description 45
- 102000003712 Complement factor B Human genes 0.000 claims description 43
- 108090000056 Complement factor B Proteins 0.000 claims description 43
- 239000002904 solvent Substances 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 32
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Natural products NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 claims description 29
- GUBGYTABKSRVRQ-QKKXKWKRSA-N Lactose Natural products OC[C@H]1O[C@@H](O[C@H]2[C@H](O)[C@@H](O)C(O)O[C@@H]2CO)[C@H](O)[C@@H](O)[C@H]1O GUBGYTABKSRVRQ-QKKXKWKRSA-N 0.000 claims description 20
- 239000008101 lactose Substances 0.000 claims description 20
- 239000004471 Glycine Substances 0.000 claims description 16
- 241000162682 Heterogen Species 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 14
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 claims description 13
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 claims description 13
- 238000007619 statistical method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 2
- 125000003630 glycyl group Chemical group [H]N([H])C([H])([H])C(*)=O 0.000 claims 3
- 101000925646 Enterobacteria phage T4 Endolysin Proteins 0.000 claims 1
- 238000007476 Maximum Likelihood Methods 0.000 claims 1
- 230000004071 biological effect Effects 0.000 abstract description 4
- 235000018102 proteins Nutrition 0.000 description 139
- 235000001014 amino acid Nutrition 0.000 description 128
- 230000006870 function Effects 0.000 description 44
- 102000054765 polymorphisms of proteins Human genes 0.000 description 40
- 125000004429 atom Chemical group 0.000 description 25
- 230000007613 environmental effect Effects 0.000 description 25
- 108090000765 processed proteins & peptides Proteins 0.000 description 17
- 229920001184 polypeptide Polymers 0.000 description 16
- 102000004196 processed proteins & peptides Human genes 0.000 description 16
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 10
- 230000001516 effect on protein Effects 0.000 description 10
- 238000013179 statistical model Methods 0.000 description 10
- 230000035772 mutation Effects 0.000 description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 230000027455 binding Effects 0.000 description 8
- 125000005842 heteroatom Chemical group 0.000 description 8
- 102000004190 Enzymes Human genes 0.000 description 7
- 108090000790 Enzymes Proteins 0.000 description 7
- 229940088598 enzyme Drugs 0.000 description 7
- 102000016943 Muramidase Human genes 0.000 description 6
- 108010014251 Muramidase Proteins 0.000 description 6
- 108010062010 N-Acetylmuramoyl-L-alanine Amidase Proteins 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000002068 genetic effect Effects 0.000 description 6
- 235000010335 lysozyme Nutrition 0.000 description 6
- 229960000274 lysozyme Drugs 0.000 description 6
- 239000004325 lysozyme Substances 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 4
- 101710173438 Late L2 mu core protein Proteins 0.000 description 4
- 101710188315 Protein X Proteins 0.000 description 4
- 229940127035 Relvar Drugs 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 235000013922 glutamic acid Nutrition 0.000 description 4
- 239000004220 glutamic acid Substances 0.000 description 4
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- CPYVQXAASIFAMD-KNIFDHDWSA-N (2s)-2-aminobutanedioic acid;(2s)-2,6-diaminohexanoic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O.NCCCC[C@H](N)C(O)=O CPYVQXAASIFAMD-KNIFDHDWSA-N 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 3
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000003334 potential effect Effects 0.000 description 3
- 230000004952 protein activity Effects 0.000 description 3
- ZEEYNQNRMIBLMK-DFWYDOINSA-N 2-aminoacetic acid;(2s)-2-aminopentanedioic acid Chemical compound NCC(O)=O.OC(=O)[C@@H](N)CCC(O)=O ZEEYNQNRMIBLMK-DFWYDOINSA-N 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 2
- 239000004472 Lysine Substances 0.000 description 2
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 2
- 102000002067 Protein Subunits Human genes 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 2
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 2
- 239000002253 acid Substances 0.000 description 2
- 150000007513 acids Chemical class 0.000 description 2
- 235000003704 aspartic acid Nutrition 0.000 description 2
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 2
- 230000003197 catalytic effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000032 diagnostic agent Substances 0.000 description 2
- 229940039227 diagnostic agent Drugs 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011990 functional testing Methods 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- 230000002209 hydrophobic effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 239000008177 pharmaceutical agent Substances 0.000 description 2
- 108010054442 polyalanine Proteins 0.000 description 2
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108020001580 protein domains Proteins 0.000 description 2
- 230000004853 protein function Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 1
- SYMHUEFSSMBHJA-UHFFFAOYSA-N 6-methylpurine Chemical compound CC1=NC=NC2=C1NC=N2 SYMHUEFSSMBHJA-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- JAPMJSVZDUYFKL-UHFFFAOYSA-N C1C2C1CCC2 Chemical compound C1C2C1CCC2 JAPMJSVZDUYFKL-UHFFFAOYSA-N 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 102000008169 Co-Repressor Proteins Human genes 0.000 description 1
- 108010060434 Co-Repressor Proteins Proteins 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 101710096438 DNA-binding protein Proteins 0.000 description 1
- 102100021519 Hemoglobin subunit beta Human genes 0.000 description 1
- 108091005904 Hemoglobin subunit beta Proteins 0.000 description 1
- 235000003332 Ilex aquifolium Nutrition 0.000 description 1
- 241000209027 Ilex aquifolium Species 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 101710090149 Lactose operon repressor Proteins 0.000 description 1
- 241001620634 Roger Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 102100030951 Tissue factor pathway inhibitor Human genes 0.000 description 1
- 101710139626 Tissue factor pathway inhibitor Proteins 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- -1 amino acid residues amino acids Chemical class 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 125000003636 chemical group Chemical group 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000012926 crystallographic analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 102000034238 globular proteins Human genes 0.000 description 1
- 108091005896 globular proteins Proteins 0.000 description 1
- 229930182470 glycoside Natural products 0.000 description 1
- 150000002338 glycosides Chemical class 0.000 description 1
- 239000000710 homodimer Substances 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 238000006317 isomerization reaction Methods 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000005257 nucleotidylation Effects 0.000 description 1
- 230000002974 pharmacogenomic effect Effects 0.000 description 1
- 238000013081 phylogenetic analysis Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 208000007056 sickle cell anemia Diseases 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
関心対象タンパク質の選択されたアミノ酸残基におけるアミノ酸変動がタンパク質に効果を有する(例えばタンパク質の生物学的活性を変更する)可能性が高い(または可能性が低い)かどうかを評価するために有用である多様性モデル化および予測法が記載される。その方法は、関心対象タンパク質の全部または一部の構造モデルまたは複数のモデルを生成し、構造モデルの品質を評価し、かつアミノ酸変動の潜在的な機能的な結果を評価するために使用されうる。方法は、特定のアミノ酸残基のある機能的、構造的、および系統的特徴を考慮することにより、これらの目的を達成する。Useful for assessing whether amino acid variations at selected amino acid residues of a protein of interest are likely (or unlikely) to have an effect on the protein (eg, alter the biological activity of the protein) A diversity modeling and prediction method is described. The method can be used to generate a structural model or models of all or part of a protein of interest, evaluate the quality of the structural model, and evaluate the potential functional consequences of amino acid variation. . The method achieves these objectives by considering certain functional, structural, and phylogenetic features of particular amino acid residues.
Description
【0001】
技術分野
本発明は遺伝的多様性モデル化および予測に関するコンピュータ的方法に関連するものである。
【0002】
関連する出願情報
この出願は2000年6月1日に申請された暫定的出願第60/208,628号からの優先権を主張する。
【0003】
発明の背景
ヒトゲノムは約60,000から100,000遺伝子を含む。これらの遺伝子の任意のものにおける多様性(すなわち変異または多型)は、変更されたまたは全くない活性を持つ遺伝子産物、通常はタンパク質の生産を結果として生じることが可能である。多様性は単一ヌクレオチドの付加、欠失または置換ほどに小さいことが可能である。そのような単一ヌクレオチド多様性は時々、「単一ヌクレオチド多型」またはSNPと称される。
【0004】
研究者は遺伝的成分を有すると信じられている6,700を超えるヒト疾患を同定している。さらに、ある種の遺伝的変化は、疾患の直接的原因ではないとしても、個人にある疾患の素因を与えるかもしれない。加えて、特定の遺伝子における多様性は、薬剤または他の治療介入への応答において個人間で観察される差異に関係している。比較的少ない数の個人が治療に重篤な副作用反応を有するために、さもなければ有効な治療が時々使用が許可されない、または使用が取り下げられるために、これは重要である、もし所定の治療に対する副作用を特定の遺伝的多様性の存在に帰することが可能であるならば、その治療を用いて治療されるべきではないそれらの個人を同定することが可能となるかもしれない。これは治療が個々の患者に対してテーラーメード化されることを可能にするであろうし、そして利用可能な治療の数を増加させるであろう。したがって、多様性を同定および特性化する多くの理由が存在する。
【0005】
もちろん、全ての遺伝的変化が医学的に重要であるわけではない。ある1つの研究においては、心血管系疾患、内分泌または神経精神医学に関連している106個の遺伝子の114個の独立したアレルにおけるSNPがスクリーニングされ、同義および非同義変化を引き起こすそれらにほぼ均等に分割されることが証明されている392個のコード領域SNPの同定につながった(Cargillら、(1999)Nat. Genet. 22:231)。
【0006】
多くの非同義変化が存在するので、選択された遺伝子における所定の多型が遺伝子産物の機能変化を引き起こす可能性が高いかを予測することは有用であろう。
【0007】
要約
本方法は、関心対象タンパク質の選択されたアミノ酸残基におけるアミノ酸多様性がタンパク質に効果を有する(例えばタンパク質の生物学的活性を変更する)可能性が高い(または可能性が低い)か、を評価するために有用である多様性モデル化および予測法を特徴とする。本発明の方法は、関心対象タンパク質の全部または一部の構造モデルまたは複数のモデルを生成し、構造モデルの品質を評価する、およびアミノ酸多様性の潜在的な機能的な結果を評価するために使用されうる。本発明の方法は、特定のアミノ酸残基のある機能的、構造的、および系統的特徴を考慮することにより、これらの目的を達成する。
【0008】
本発明の方法は、それらがアミノ酸多様性の効果を完全な精度を持って予測しない時でさえ、有用である。既知の多様性の数の増加は全ての重要な可能性のある多様性を調査することを極めて困難にしている。したがって、どの多様性が選択されたタンパク質の構造または活性に効果を有する可能性がより高いかを予測することを可能にする技術は(不完全であっても)、多様性に優先度を割りつけることを可能にするので、有用である。結果として、より有望な多用性の調査により多くの資源を、およびより有望でない多用性の調査により少ない資源を配分するように決定することが可能となる。
【0009】
その全てが好ましくはコンピュータプログラムを用いて実施される、本発明の方法の1つの実施態様は、関心対象タンパク質の関心対象多型アミノ酸残基(多様性)を表すモデルタンパク質のモデルアミノ酸残基を同定する、モデルアミノ酸残基の解析記録を生成する、モデル品質の評価を生成する、評価された機能的、構造的および系統的特徴の概要を生成する、ならびに評価された様々な特徴に関連する情報を用いてアノテーションされうるモデルタンパク質の全部または一部の図解表示を生成する。
【0010】
本発明の方法の別の実施態様は、関心対象タンパク質の多型アミノ酸残基におけるアミノ変化がタンパク質に効果を与えるであろう可能性に関する、確率論を基礎とする予測を生成する。
【0011】
本発明の方法は、関心対象タンパク質(「標的タンパク質」または「標的配列」)の選択された多型アミノ酸(「多型標的アミノ酸残基」または「標的多様性」)の構造モデルとして機能するタンパク質構造(「モデルタンパク質」)内のモデルアミノ酸残基(「モデルアミノ酸残基」または「モデル多様性」)を同定することを必要とする。多型標的アミノ酸残基は、関心対象タンパク質内の多型性を有する特定のアミノ酸残基である。したがって、標的タンパク質の第一の変異体においては、それは第一のアミノ酸(例えばグリシン)であり、および、標的タンパク質の第二の変異体においては、それは第二のアミノ酸(例えばリジン)である。もちろん、多型標的アミノ酸残基に存在するアミノ酸が、例えば、第三、第四、または第五のアミノ酸であることができる標的タンパク質の付加的な変異体が存在することが可能である。本発明の方法は、任意の数の多型標的アミノ酸残基に存在するアミノ酸変化、および標的タンパク質内の異なる多型アミノ酸残基を評価するために使用することが可能である。
【0012】
タンパク質構造に関する情報が本発明の方法には重要であり、かつモデルタンパク質は本方法の解析を実施するのに十分な構造情報を有さなければならない。構造情報は、X線結晶解析、NMRまたはアミノ酸または原子レベルでタンパク質構造を決定する他のいくつかの技術から導出することが可能である。モデルタンパク質は、少なくとも部分的に、標的タンパク質に対する配列類似性に基づく構造情報を有するタンパク質の中から選択される。したがって、モデルタンパク質は、標的タンパク質に対する全体的な配列類似性に基づいて、または多型標的アミノ酸残基を含む標的タンパク質の一部に配列類似性を有する部分の存在に基づいて選択されうる。
【0013】
モデルタンパク質内のモデルアミノ酸が同定されると、本発明の方法は、モデルアミノ酸のある機能的、構造的、および系統的特徴およびモデルタンパク質内のその環境を評価することを必要とする。モデルアミノ酸残基の特徴の値がその後、ある基準と比較することにより、多型標的アミノ酸残基におけるアミノ酸変化(または多様性)の効果に関する能力を決定するために使用される。いくつかの特徴はカテゴリ値を有する。これらの特徴に関しては、特徴に関する特定された基準を満たすか、または満たさないかのいずれか2個の値だけであってもよい。カテゴリ特徴の1つの例は「ヘリックス破壊」である。「ヘリックス破壊」の基準を満たすには、モデルアミノ酸残基はヘリックス二次構造の領域内に存在しなければならず、多型アミノ酸の1つはグリシンまたはプロリンのいずれかでなければならない。モデルアミノ酸残基の構造的、物理的および系統的配置を記載しているので「環境特徴」と呼ばれる他の特徴は連続値またはカテゴリ値のいずれかであることが可能である。例えば、モデルアミノ酸の溶媒接近可能性は連続値であることも、またはカットオフ値が定義されるならば、カテゴリ値であることも可能である。
【0014】
本発明の多様性モデル化および予測法の重要な特徴は、「構造近傍」の概念である。これは特定のアミノ酸残基の選択された原子の半径以内の領域である。あるアミノ酸残基の構造近傍内のアミノ酸残基および他の構造的特徴は、アミノ酸残基の位置に存在する実際のアミノ酸変化の効果に強く影響する。本発明の多様性モデル化および予測法の別の重要な特徴は、多様性の効果を予測するのに有用な機能的、構造的、および系統的特徴を選択することである。特徴の中で、溶媒暴露、ヘテロゲン(heterogen)原子への接近、モデルタンパク質の平均結晶学的B因子からの偏差が解析される。これらのおよびその他の特徴は下により詳しく記載される。
【0015】
標的タンパク質の配列、または多型標的アミノ酸残基を含む領域の標的タンパク質の配列を超えての標的タンパク質に関する構造情報を必要としないので、本発明の方法は非常に強力である。本発明の方法は公共の配列および構造データベースを使用することに依拠している。ますます多くの配列および構造が追加されるにしたがって、データベースはより強健になる。したがって、本発明の方法により作製されるモデルおよび予測の信頼性は連続的に増加するであろう。
【0016】
どの非同義多型がタンパク質機能に効果を有する可能性が高いかを予測するために、本発明の方法を使用することが可能であるが、しかしながら、それらはタンパク質科学の他の多くの領域で応用性を有する。例えば、多型が薬物と標的タンパク質の相互作用に影響を与えるだろうかを予測することに、その方法を適用することが可能である。本発明の方法はこの目的のために使用することが可能である。単一のタンパク質に2個またはそれ以上の多型が生じるとき、本発明の方法は各々別個の、および組み合わせた効果との両方を評価することを支援することが可能である。より一般的には、標的タンパク質および多型の選択は天然遺伝的多様性が生じることにより指令される必要はない。例えば、どの潜在的変異が酵素活性を変更するだろうかを評価するために本発明の方法が適用される、酵素設計の事例のように、選択は前向きであることが可能である。広範には、本発明の方法は、アミノ酸多様性およびタンパク質活性または構造の任意の局面間の関係を評価することが重要である時はどのような場合でも、使用することが可能である。
【0017】
本明細書において使用されているように、「多型アミノ酸残基」、「アミノ酸多型」、「多型」および「多様性」という用語は、1個の異なるアミノ酸または2個もしくはそれ以上の異なる他のアミノ酸でありうる、タンパク質内のあるアミノ酸位置を意味する。タンパク質の文脈においては、「構造」という用語はタンパク質内の原子の三次元配置を意味する。「機能」とは任意の測定可能なタンパク質の特性を意味する。タンパク質機能の例は、制限されないが、触媒、他のタンパク質への結合、非タンパク質分子(たとえば薬物)への結合、および2個またはそれ以上の構造型間の異性化を含む。「生物学的に重要なタンパク質」とは生物の生命においてある役割を果たす任意のタンパク質を意味する。「訓練データセット」とは、各々が1個またはそれ以上の多型または変異、および各多型のタンパク質構造または機能への効果に関する情報を有する、1個またはそれ以上のタンパク質の集合を意味する。
【0018】
詳細な説明
本発明は、多様性モデル化および予測法を特徴とする。本方法は興味のあるタンパク質(「標的タンパク質」)の任意の数のアミノ酸多様性の効果を評価するために使用することが可能である。したがって、この方法は、標的タンパク質における選択された多型アミノ酸残基におけるアミノ酸変化の効果を評価するために有用である。アミノ酸残基は、多型を示すことが知られているアミノ酸残基、すなわち集団の個人間で異なることが知られているアミノ酸残基であることが可能である。例えば、いくつかの個人はそのヘモグロビンβ鎖のアミノ酸6にグルタミン酸を有する。他の個人はこの位置にバリンを有し、そしてこの多型は鎌状赤血球性貧血の原因である。多くの例においては、アミノ酸残基が多型性であることは知られているであろうが、しかし多型が関心対象タンパク質になんらかの効果を有するかは知られていないであろう。本発明の多様性モデル化および予測法は、関心対象タンパク質(「標的タンパク質」)の多型アミノ酸残基(「多型標的アミノ酸残基」)を表すために使用されるモデルタンパク質内の残基(「モデルアミノ酸残基」)の解析を当てにしている。モデルアミノ酸残基およびモデルタンパク質は、標的タンパク質の全体または部分に対する配列類似性に基づいて選択される。モデルタンパク質は相当の構造情報が利用可能なものである(例えば、タンパク質構造が解明されている)。本発明の方法は、モデルアミノ酸残基の様々な物理的、構造的および系統的特徴を調査することを必要とする。調査される特徴は、モデルアミノ酸残基に存在するアミノ酸の変化がモデルタンパク質の活性に効果を有するかどうかを予測するために有用なものである。そのような特徴の例は、溶媒接近可能性、相対的結晶学的B因子およびヘテロ原子への近接性を含む。モデルアミノ酸残基およびモデルタンパク質は、多型標的アミノ酸残基および標的タンパク質にそれぞれ類似しているので、モデルアミノ酸残基およびモデルタンパク質に関して作製された予測は、多型標的アミノ酸残基および標的タンパク質に関して適切であろう。
【0019】
本発明の方法は任意の既知の多型の効果を評価するために使用することが可能である。本発明の方法はまた、多型性ではないことが知られているアミノ酸残基を含む、任意の選択されたアミノ酸残基における任意の潜在的な変化の効果を評価するためにもまた使用することが可能である。
【0020】
本発明の方法は、1)多型標的アミノ酸残基のアノテーションされたモデル(アノテーション様式);2)多型標的アミノ酸残基に存在するアミノ酸の変化が標的タンパク質の活性に効果を有する確率の予測(確率論的様式);または3)標的タンパク質の活性に効果を有する可能性が高いか、可能性が低いかのいずれであるとした、多型標的アミノ酸の分類(分類様式)を提供するために使用されうる。これら3つの様式の全てにおいて、モデルアミノ酸残基が、多型標的アミノ酸残基を表すために使用される。加えて、3つの様式の全ては、モデルアミノ酸残基の選択された物理的、構造的および系統的特徴の少なくとも1つの値を決定することを必要とする。
【0021】
アノテーション様式の1つの実施態様においては、選択された特徴の値を、標的タンパク質のアノテーションされモデルを提供するために使用することができる。多型標的アミノ酸残基に存在するアミノ酸の変化が標的タンパク質の活性に効果を有するであろう可能性を評価するために、当業者は選択された特徴の値を使用することが可能である。
【0022】
図1はアノテーション様式のある1つの実施態様におけるいくつかの段階の例を描写するフローチャートである。標的タンパク質のアミノ酸配列および標的タンパク質の中の多型標的アミノ酸残基の位置が同定される(段階102)。標的タンパク質に配列相同性を有するタンパク質が、相同性のあるタンパク質配列を同定するためのアルゴリズムを用いて同定される(段階104)。モデルタンパク質は標的タンパク質に配列相同性を有する選択されたタンパク質から選択され、かつモデルタンパク質内のモデルアミノ酸残基が同定される(段階106)。モデルアミノ酸の構造近傍が決定され(段階108)、かつモデルアミノ酸残基の選択された構造的、物理的および系統的特徴の値ならびにその構造近傍が決定される(段階110)。様々な決定の結果はそれらの出力である(段階112)。出力は、モデルタンパク質の全てまたは一部の値のリストまたはアノテーションされた図解描写であることが可能である。
【0023】
確率論的様式および分類様式は2つの要件を満たす多型データベース(「訓練データセット」)を活用する。第一に各多型のタンパク質活性に与える効果が知られなければならない。第二には、少なくとも1つの選択された構造的、物理的および系統的特徴を決定するために多型を含むタンパク質に関する十分な構造情報が存在しなければならない。この多型データベース(「訓練多型」)は、単一タンパク質の、例えばラクトースリプレッサーまたはリゾチームの多型、または2またはそれ以上のタンパク質多型を含むことが可能である。したがって、各訓練多型に関しては、少なくとも1つの構造的、物理的および系統的特徴値のように、活性に与える効果は既知である。
【0024】
確率論的様式のある一つの実施態様においては、訓練多型は、訓練多型が活性に効果を有するかを予測することに関して最も有用である全ての可能性のある構造的、物理的および系統的特徴のサブセットを同定するために統計学的に解析される。このサブセットはまた、モデルアミノ酸残基または多型標的アミノ酸残基におけるアミノ酸変化が活性に効果を有するかどうかを予測するためにも有用であろう。図2は予測に有用である特徴のサブセットを選択するいくつかの段階の例を描写するフローチャートである。第一に、活性に与える既知の効果を有する偏りのない訓練多型の訓練データセットが提供される(段階202)。データセットにおける各訓練多型に関して、選択された物理的、構造的および系統的特徴の値がその後決定される(段階204)。統計解析がその後、予測を実施するために有用である特徴のサブセットが選択されるために使用される(段階204)。
【0025】
特徴のサブセットが同定されると、確率論的様式は、特徴のサブセットの観点からモデルアミノ酸残基に類似している訓練多型を選択することを必要とする。活性に効果のある選択された訓練多型の比率が決定され、そしてこの情報が、モデルアミノ酸残基に存在するアミノ酸変化がモデルタンパク質に効果を有するかどうかを予測するために個の情報が使用される。モデルアミノ酸残基は多型標的アミノ酸残基を表すために選択されるので、この予測はまた多型標的アミノ酸残基および標的タンパク質に関しても適切である。確率論的様式は特定の例を考慮することにより、より容易に理解することが可能である。この例においては、多型標的アミノ酸残基は標的タンパク質Xのアミノ酸120である。タンパク質Xとの配列類似性に基づいて、タンパク質A(モデルタンパク質)のアミノ酸残基150がモデルアミノ酸残基として選択される。タンパク質Aの構造は解明されているので、モデルタンパク質Aのアミノ酸残基150の選択された特徴の値が決定されうる。次に、ラクトースリプレッサーの既知の多型(訓練多型)が、タンパク質Aのアミノ酸残基150の様々な特徴の解析されたサブセットに対する、これら特徴の選択された特徴のサブセットの類似性に基づいて、選択される。選択されたラクトースリプレッサー多型が、標的タンパク質Xのアミノ酸120におけるアミノ酸変化が、タンパク質Xに効果を有するであろうかを予測するために使用される。例えば、10個の選択されたラクトースリプレッサー多型のうちの8個が、ラクトースリプレッサーの活性に効果を有するならば、多型標的アミノ酸残基におけるアミノ酸変更が標的タンパク質の活性に効果を有する可能性が、10個の選択されたラクトースリプレッサー多型のうちの2個のみがラクトースリプレッサーの活性に効果を有する場合より、高い。
【0026】
図3は確率論的様式のいくつかの段階の例を描写するフローチャートである。標的タンパク質のアミノ酸配列および標的タンパク質の中の多型標的アミノ酸残基の位置が同定される(段階302)。標的タンパク質に配列相同性を有するタンパク質が、相同性のあるタンパク質配列を同定するためのアルゴリズムを用いて同定される(段階304)。モデルタンパク質は標的タンパク質に配列相同性を有する選択されたタンパク質の中から選択され、かつモデルタンパク質内のモデルアミノ酸残基が同定される(段階306)。モデルアミノ酸の構造近傍が決定され(段階308)、かつモデルアミノ酸残基の選択された構造的、物理的および系統的特徴の値ならびにその構造近傍が決定される(段階310)。モデルアミノ酸およびその構造近傍に類似している構造的、物理的および系統的特徴を有する偏りのない訓練データセットにおける訓練多型(段階312)。段階312で同定された、タンパク質活性に効果を有する、訓練多型の比率は、その後多型標的アミノ酸残基に存在するアミノ酸変化が標的タンパク質に効果を有するであろう可能性を評価するために使用される(段階314)。
【0027】
分類様式のある実施態様においては、多型の活性に対する効果および多型の様々な特徴の値に関する訓練多型および関連情報が、分類樹を構築するために使用される。分類樹はモデルアミノ酸残基を、活性に効果を有する可能性が高いもの、または活性に効果を有する可能性が低いもののいずれかに分類するために使用されうる。モデルアミノ酸残基は多型標的アミノ酸残基を表すために選択されるので、この分類はまた多型標的アミノ酸残基および標的タンパク質に関しても適切である。
【0028】
アノテーション様式、確率論的様式および分類様式は、本発明の方法がいかに使用されうるかの3つの例である。当業者は他の多くの実現方式が可能であることを認識すると思われる。例えば、多型の効果を予測するために使用されうる、物理的、構造的および系統的特徴全ての可能性のあるサブセットの間の数学的関係(例えば回帰関係)を導き出すことが可能であるかもしれない。
【0029】
モデルタンパク質およびモデルアミノ酸残基の選択および妥当性評価
本発明の方法における重要な段階は、標的タンパク質における多型標的アミノ酸残基を表すために使用されうるモデルタンパク質内のモデルアミノ酸残基を選択することである。これは、最初にモデルタンパク質を選択することにより達成される。モデルタンパク質は、配列において標的タンパク質に相同性を有する、およびそれに関して十分な構造情報が存在する、任意のタンパク質であることが可能である。通常、選択は、タンパク質データバンク(PDB)などの検認された構造データベースにおいて、配列において標的タンパク質に類似しているタンパク質を探索することを含む。
【0030】
配列類似性は、典型的には、2個の配列を整列させ、2個の品質スコア、E値(偶然による期待値の尺度)および2個の配列で同一な整列化した残基の数を用いてアライメントを報告および評価するBLASTプログラム(NCBI)により評価される。それは、スミスウォーターマンまたはFASTAアルゴリズムのようなの他の配列アライメント法を用いても評価されうる。BLASTを用いて、標的タンパク質配列およびモデルタンパク質配列に関するアライメントのE値が十分に小さいならば(例えばE値が10−4未満である)、PDBからのタンパク質構造が標的タンパク質構造の許容可能なモデルとして考えられる。これは比較的厳しい基準であり、そして、もし補強する構造的または生物学的情報が存在するならば、1またはそれより大きなE値を有するアライメントも使用することが可能である。例えば、構造的、機能的または生物学的に標的タンパク質に類似性を有するE値が10−4を超えるタンパク質も有用でありうる。標的タンパク質に相同性を有するPDB内のタンパク質の選択が存在する時、最小の可能性のあるE値を有する(すなわち標的タンパク質に最も相同性を有する)PDB配列が好ましくはモデルタンパク質として選択される。
【0031】
モデルタンパク質が選択された後、標的タンパク質中の残基およびモデルタンパク質中の残基間のアライメント(例えばBLAST整列)が、モデルアミノ酸残基とされる、モデルタンパク質中の残基を同定するために使用される。いくつかの事例においては、標的タンパク質自身に関する結晶(またはNMR)構造が既にPDB内に存在するが、これはもちろん可能性のある最良の事例である。ここにおいては整列のE値が本質的に0であり、そしてモデルの品質は結晶学的解析(またはNMR)処理の信頼性と同等である。他の事例においては、標的タンパク質または関連タンパク質の理論的相同性モデルは構築、発刊、およびPDBに寄託されていてもよい。相同性モデルの品質は、相同性モデル化処理を参照とすることにより、およびそのモデル記載する発刊物から、手動で評価されうる。本発明の他の実施態様は、個々の残基の機能を評価する前に、各標的タンパク質に関して完全に最適化された相同性モデルを構築するための明確な段階を組み入れることが可能である。
【0032】
モデルアミノ酸残基の近接におけるモデルタンパク質の構造は品質に関して評価されうる。これを行うためには、モデルアミノ酸残基の構造近傍が同定される。例えば、構造近傍は、モデルアミノ酸残基の少なくとも1個の原子からいくらかの距離または半径(例えば5Å)内に少なくとも1個の原子を有するモデルタンパク質構造における残基の集合であることが可能である。直観的に、構造近傍の残基は、モデル化多様性と最近接の接触を有する残基であり、そして半径に関して5Åの値はファンデルワールス相互作用に関する寛容な概算距離を表すために使用することが可能である。モデルアミノ酸残基の近傍のモデル品質は、標的タンパク質およびその構造がモデルのために使用されるタンパク質のBLASTアライメントにおいて同一に保存されている構造近傍の残基の割合として計算される。近傍類似性の統計学的尺度もまた品質を評価するためにも使用されると思われる(例えば、BLASTのE値に相当する構造近傍)。BLASTアライメント統計に反映されているモデル品質の全般的なまたは全体的な評価とは対照的に、構造近傍における保存の尺度は、モデルアミノ酸残基そのものの近くのモデル化の精度に関して非常に詳細な尺度を提供する。
【0033】
モデルアミノ酸残基の構造近傍は、多型標的アミノ酸残基の構造近傍を定義するために使用される。そのためには、モデルアミノ酸残基の構造近傍に相当するモデルタンパク質の領域の配列を標的タンパク質の配列とともに整列化し、そして整列化した標的タンパク質のアミノ酸を多型標的アミノ酸残基の構造近傍の一部として定義する。
【0034】
以下でより詳細に説明されているように、モデルアミノ酸残基のまわりの構造近傍はまた標的タンパク質に関するアミノ酸多様性の機能的結果を決定する際にもまた使用される。
【0035】
モデル品質が評価されると、多様性の潜在的な機能結果が、モデルアミノ酸残基および標的アミノ酸残基の両方に関連する様々な特徴を考慮することにより評価される。本明細書に記載されている多くの特徴の値はProteins(T.Creighton、W.H.FreemanおよびCo.,ニューヨーク、1992;これにより参照として本明細書に組み入れられる)に記載されている方法を用いて計算することが可能である。
【0036】
モデルアミノ酸残基およびある構造因子間の距離に関連する特徴
モデルアミノ酸残基および任意の構造モチーフまたは重要な機能残基、例えばモデルタンパク質における酵素活性部位、の間の距離;モデルアミノ酸残基およびモデルタンパク質に存在する任意のヘテロゲンの間の距離;およびモデルアミノ酸残基およびモデルタンパク質における任意のサブユニット表面の間の距離が、特徴の間でモデルタンパク質において検査される。
【0037】
重要な構造モチーフを同定するためには、標的タンパク質の配列およびモデルタンパク質の配列が、認識されるドメインの1またはそれ以上のデータベース、例えばPROSITE(プロサイト)データベースドメイン(Bairochら(1997)Nucl.Acids.Res.24:217)またはpfam HMMデータベース(Batemanら(2000)Nucl.Acids.Res.28:263)のエントリにマッチすることが試験される。プロサイトデータベースは、典型的には全タンパク質ドメインを表す配列署名プロファイルの編集物、および典型的にはタンパク質ドメインの最も高く保存された機能的または構造的局面のみを表すパターンの2つの種類の編集物である。標的タンパク質の配列およびモデルタンパク質の配列の両方とマッチするプロサイトプロファイルおよびパターンに関しては、モデルアミノ酸残基における原子およびプロサイトエントリにマッチするモデルの原子の間の最小距離が決定される。モデルアミノ酸残基およびプロサイトマッチの間の小さな最小距離(例えば5Å)は、標的タンパク質の構造および機能に関するアミノ酸多様性の潜在的な結果を示すと考えられる。
【0038】
別の重要な特徴は、モデルアミノ酸残基およびモデルタンパク質の中の任意のヘテロゲンの間の距離である。ヘテロゲンは、構造決定の間タンパク質と関連するタンパク質構造における小型の化学基(非タンパク質分子)である。しばしば、ヘテロゲンは酵素補因子、基質、配糖体、基質類似体、または薬物である。タンパク質構造におけるそれらの位置は酵素活性部位または重要な機能モチーフの位置を示唆する可能性がある。プロサイトパターンへのマッチに関しては、モデルアミノ酸残基における原子とモデル構造のヘテロゲンの原子との間の最初距離が計算および報告される。小さい場合(例えば5Å)、その距離は、モデルタンパク質の機能、および拡張することにより標的タンパク質の機能、に関するモデルアミノ酸残基の潜在的な効果を反映すると解釈される。例えば、酵素補因子の近くのモデルアミノ酸残基は多様性が酵素活性に効果を有することを示唆すると解釈される。
【0039】
距離基準はまた、標的タンパク質の四次構造の安定性に対する多様性の潜在的な効果を評価するためにも使用することができる。もしモデルアミノ酸残基がモデルタンパク質のサブユニット界面の比較的近くに(例えば5Å以内)存在するならば、これらの特徴は、タンパク質サブユニットが関連する方法に対する潜在的な効果を有すると報告および解釈される。
【0040】
最終的には、2個またはそれ以上のモデルアミノ酸残基(各々は同一のまたは異なる多型標的アミノ酸残基をモデル化する)の間の比較的小さな距離は(例えば5Å以内)、標的タンパク質の可変性残基間の潜在的な機能的相互作用を反映するとして解釈される。単一の標的タンパク質内の多数の多様性がそれらのハプロタイプに依存する生物学的特性を有する時、この最後の可能性は特に重要であるかもしれない。
【0041】
モデルアミノ酸残基の本質的な構造および系統的局面に関連する特徴
タンパク質の多型への忍容性を評価するために使用されうる特徴のある一つの重要なクラスは、モデルアミノ酸残基の本質的な構造的特性および系統的局面に関連する。構造特性は、モデルアミノ酸残基の溶媒への接近性、およびその二次構造分類、例えばヘリックスまたはシート、を含む。これらの特性の両方ともよく知られたアルゴリズムからモデルタンパク質構造の文脈において、モデルアミノ酸残基に関して計算される。ある構造的配置を有する残基におけるアミノ酸多型がタンパク質構造または機能に影響する可能性が高いという概念を実用化するために両方とも使用される。多型標的アミノ酸残基の系統的局面は、標的タンパク質を含むタンパク質関連配列ファミリー内の多型標的アミノ酸残基の系統可変性(または別には保存)の程度の定量的な尺度である。系統可変性を表すいくつかの方法、例えばカバトウー(Kabat−Wu)可変性尺度、系統的重量が存在し、これらの任意のものが十分であろう。一つの便利な尺度は系統的エントロピーである。この値は、標的タンパク質配列ファミリーの同時多数アライメントから計算することが可能である。例えば、少なくとも30%標的タンパク質に同一である、公共データベース内の全てのタンパク質配列は既知のアルゴリズム、例えばCLUSTALWを用いて採集され、そしてお互いに整列化することが可能である。同時に整列化した配列のこの集合は多数アライメントとして知られている。各配列の各残基および他の配列の各々の残基の一つ(またはアライメントにギャップが存在するならば0個)の間の関連が定義される。多数アライメントの各々の位置は、したがって、相同性を有するタンパク質組内の相同性を有する残基の組を表す。各部位のエントロピーは
として計算される。
式中:
fi=多数アライメントにおけるその部位におけるアミノ酸iの頻度、
N=多数アライメントにおけるその部位における異なるアミノ酸の数。
【0042】
モデルアミノ酸残基の本質的な構造的および系統的特徴を解析するために必要とされる構造的および系統学的情報は、PDBデータベース中の各タンパク質構造に関する連続的に更新されている構造的および系統学的情報を供給するHSSPデータベース(Sanderら、(1991)Proteins 9:56〜68)中に発見されうる。HSSPファイルにおいては、タンパク質構造の各残基の構造データは、その二次構造割り付け(例えばヘリックス、シートなど)および溶媒接近可能性の推測を含む。相当するPDB構造の各々の残基はまた、モデルタンパク質と少なくとも30%の配列同一性を共有するタンパク質の多数アライメントから計算される系統的エントロピーと関連している。もし標的タンパク質がモデルタンパク質配列ファミリーのHSSP多数アライメントに含まれているならば、この系統学的情報を標的タンパク質に類似したタンパク質に関する系統学的情報を近似するために使用することが可能である。モデルタンパク質に関連するタンパク質の全多数アライメント、およびしたがって各残基のアミノ酸プロファイルもまたデータベース中に提供される。全てのモデルアミノ酸残基のHSSP構造および系統的データは本発明の方法を用いて報告されうる。このデータは、多型標的アミノ酸残基に存在するアミノ酸における変化の標的タンパク質に対する予測される機能的結果が存在するかどうかを決定するための一連の試験においても使用されうる。以下の機能試験はHSSPデータベースの情報を使用することが可能である。
【0043】
1)埋込み電荷:モデルアミノ酸が接近不可能であり、そして多型標的アミノ酸残基が荷電残基を含む。
【0044】
2)保存された位置:モデルアミノ酸残基が多数アライメントプロファイルにおいて絶対的に保存されている。
【0045】
3)ヘリックス破壊:多型標的アミノ酸残基がグリシンまたはプロリンのいずれか、および他のいくつかのアミノ酸を含み、そしてモデルアミノ酸残基が構造解析に基づいてヘリックス二次構造の領域内に存在する。
【0046】
4)接近不可能性:モデルアミノ酸残基が溶媒に対して約10Å2(約1個の水分子)未満の暴露を有する。この特徴は、ポリアラニン鎖(またはいくつかの他の事前決定されたポリペプチド鎖)におけるモデルアミノ酸残基アミノ酸の最大溶媒暴露に対する観察された溶媒暴露の比である相対的接近可能性値を用いても評価することが可能である。約0.2未満の相対的接近可能性値はモデルアミノ酸残基が接近不可能であることを示唆し、一方約0.8超の値はモデルアミノ酸残基が接近可能であることを示唆する。
【0047】
5)低または高エントロピー:約0.5未満または約2.0以上のモデルアミノ酸残基のエントロピー値は、それぞれ多型に対する不認容性または認容性を示唆することができる。同様に、モデルアミノ酸残基のエントロピーは、モデルタンパク質中の他の残基のエントロピー値に対して相対的に計測することが可能であり、そして例えば平均エントロピーから約2.0標準偏差未満または超、の統計学的に有意な値は、それぞれ多型に対する不認容性または認容性を意味することができる。他の相対的尺度、例えば順位もまた使用されうる。
【0048】
6)稀なアミノ酸:多型標的アミノ酸残基は、モデルアミノ酸残基の多数アライメントプロファイルにおいて回数の10%超は見出されないあるアミノ酸を含む。
【0049】
7)ターン破壊:多型標的アミノ酸残基がグリシンまたはプロリンのいずれか、および他のいくつかのアミノ酸を含み、そしてモデルアミノ酸残基がターン二次構造の領域内に存在する。
【0050】
8)異常なアミノ酸:多型標的アミノ酸残基は、多型標的アミノ酸残基に関する多数アライメントプロファイルにおいて見出されないあるアミノ酸を含む。もし標的タンパク質およびモデルタンパク質が十分に類似しているならば、この特徴は、例えばHSSPファイルからモデルアミノ酸残基の多数アライメントプロファイルにより近似することが可能である。
【0051】
9)クラスによる異常なアミノ酸:多型標的アミノ酸残基は、標的またはモデルアミノ酸残基の系統的プロファイルにおける全てのアミノ酸を含むAdamsらの最小プロファイル(Protein Science 5:1240、1996)中に見出されない。この特徴は、多数アライメントが比較的少ない数の配列を含むとき使用される「異常なアミノ酸」特徴よりも好ましい。Adamsらにより提唱された以外の分類計画もまた使用することが可能である。
【0052】
10)疎水性適合性:モデルアミノ酸残基の平均疎水性が事前決定された範囲の外側であり(すなわち近傍が特に疎水性である、または特に親水性である)、そして第一のアミノ酸と第二のアミノ酸との間の疎水性の差異が事前決定された値を超える。
【0053】
11)埋込み容積の適合性:モデルアミノ酸残基が溶媒に接近不可能であり、そして第一または第二のアミノ酸のいずれかの最大溶媒接近可能性が、事前決定された量により、モデルアミノ酸残基の埋込み容積とは異なる。
【0054】
上述の特性に関しては、数字的なカットオフ値は単に示唆される適切な値である。他の値も有用であり、そして当業者により選択されうる。
【0055】
モデルアミノ酸残基の構造近傍に関連する系統的特徴
系統的データ(例えばHSSPデータベースからの)は、モデルアミノ酸残基が相対的に保存されているモデルタンパク質の領域内に存在するかを決定するために、モデルアミノ酸残基の構造近傍を解析するために使用することが可能である。例えば、構造近傍における各残基に関するHSSPデータベースからのエントロピー値が平均される。その平均エントロピー値が、各々、代表的PDB構造およびその相当する系統的特性から導き出される構造近傍に関する平均エントロピーよりも有意に小さいまたは有意に大きいならば、構造近傍は絶対的な基礎に基づいて異常に保存されているまたは異常に可変性であると判断される。PDB由来の代表的構造は折り畳みファミリーを基礎として他の人により定義されている(HolmおよびSander、Science 273:595を参照)、そしてEMBLのFSSPデータベースを通じて利用可能である。約600個の代表的な構造ファミリーに由来する構造近傍は、系統的エントロピーのために編集および解析される。
【0056】
モデルタンパク質内の他の構造近傍に対して相対的に保存されているかを決定するために、平均構造近傍エントロピー値が、モデルアミノ酸残基を含むモデルタンパク質ポリペプチド鎖における全ての残基に関するエントロピーの平均および標準偏差と、比較される。従来の有意統計は以下のものとして計算される。
相対的近傍エントロピー=(<En>−<Ec>)/(S.D.En)
式中:
N=構造近傍の残基数、
<En>=構造近傍中の残基の平均エントロピー、
<Ec>=モデルアミノ酸残基を含むポリペプチド鎖中の残基の平均エントロピー、
S.D.Ec=モデルアミノ酸残基を含むポリペプチド鎖中の残基のエントロピーの標準偏差、
S.D.En=
=モデルアミノ酸残基と同じ鎖から選択されるN残基のサンプルに関しての平均エントロピーの標準偏差。
【0057】
この値が報告される。モデルアミノ酸残基を含むポリペプチド鎖中の残基に関するエントロピー値と比較して、それぞれ、非常に良く保存されているか、または非常に可変である構造近傍中にそれらが生じるならば、多様性は可能性のある構造および機能的結果に帰されるか、または帰されない。他の相対的尺度、例えばt−分布値が使用されうる。
【0058】
系統的エントロピーを特徴として使用できる一方、当業者は、多型アミノ酸残基およびモデルアミノ酸残基の系統可変性の他の尺度を使用することが可能である。これらの尺度は、関連するタンパク質の選択された組における選択された位置に存在するアミノ酸の可変性に関連する。
【0059】
結晶学的 B 因子に関連する特徴
異常に剛直であり、そしてそれゆえ相対的にアミノ酸変動に認容性がないモデルタンパク質の部分を同定するために、結晶学的B因子(利用可能ならば)にも類似の処理が適用される。(もしB因子が利用可能でないならば、分子剛直性の別の尺度が代わりに使用されうる、例えば、NMRからの統計集合。)B因子はモデル構造内の各残基に関して、その原子B因子の平均として、計算され、そしてPDB構造の代表的組における構造近傍から計算される低および高B因子値(例えば、各々15.0Å2および45.0Å2と推定される)の絶対的標準と最初に比較される。引き続いて、モデル残基B因子の相対尺度が、モデルタンパク質中の残基に関する平均と標準偏差との比較により決定される。他の相対的尺度、例えば順位もまた使用されうる。上記のように、モデルタンパク質中の他の残基に対して相対的に有意に低いまたは高いB因子を有するモデルアミノ酸残基は、それぞれ、アミノ酸変動に対して相対的に不認容性または認容性と判断される。低および高値の類似した解釈を用いて、モデルアミノ酸残基の構造近傍の平均B因子が計算され、そして代表的PDB構造に関して編集された低および高B因子値の絶対基準と比較することが可能である。最終的には、モデルタンパク質自身に関して相対的に構造近傍B因子の尺度が、モデルアミノ酸残基のポリペプチド鎖における残基に関するB因子の平均および標準偏差に対して、モデルアミノ酸残基の構造近傍に関する残基B因子の平均を比較することにより決定される。構造近傍の平均B因子の有意度は以下のものとして計算される。
相対的近傍B因子=(<Bn>−<Bc>)/(S.D.Bn)
式中:
N=構造近傍中の残基数、
<Bn>=構造近傍中の残基の平均残基B因子、
<Bc>=構造近傍に関係するポリペプチド鎖中の残基の平均残基B因子、
S.D.Bc=構造近傍に関係するポリペプチド鎖中の残基の残基B因子における標準偏差、
S.D.Bn=
=モデルアミノ酸残基と同じ鎖から選択されるN残基のサンプルに関しての平均B因子の標準偏差。
【0060】
この値が報告される。有意に低い平均残基B因子(例えば2.0 S.D.Bn)の構造近傍におけるモデル化多様性は、それらが構造的および機能的結果を有しうる十分に強固な環境中に存在すると判断される。有意に高い平均残基B因子(例えば2.0 S.D.Bn)の構造近傍におけるモデル化多様性は、それらが構造的および機能的結果を有さない可能性がある、不十分に柔軟な環境中であると判断される。他の相対的尺度、例えばt−分布値などが使用されうる。
【0061】
B因子は、解析されるポリペプチドの領域の柔軟性に関連する。したがって、B因子は、本発明の方法においては、別の適切な柔軟性の尺度により置換することが可能である。例えば、NMRデータが利用可能であるところでは、B因子は、移動性の診断である原子の結合定数および緩和時間における構造集団または実験決定に関する残基位置のr.m.s.により置換されうる。
【0062】
結果の報告および提示
本発明の方法は、解析の過程において多様性の各々に関する品質および機能試験の出力を報告し、そして分子表現プログラム、例えばRasMolなどのスクリプトとして生成される、モデルタンパク質の図解表示を生産することが可能である。標準的な表示においては、タンパク質構造はリボンにより表示することができ、一方モデル化多様性、ヘテロゲン、および、モデル構造におけるプロサイトマッチに相当する残基は空間充填表示において提示される。残基標識がモデル化多様性に関して付加される。最終的には、図解表示を含む全出力はウェブブラウザー読取り可能形式に変換されうる。
【0063】
特徴に割り当てられた値
本発明の方法においては、様々な特徴が定量化される。以下のリストはカットオフ値に関する提案値を提供する。これらは単なる提案値である。当業者は特定の状況に適切である。他のカットオフ値を選択することが可能である。
【0064】
埋込み電荷:モデルアミノ酸が接近不可能であり、そして実際の多様性が荷電残基を含む。値はイエスまたはノーである。
【0065】
保存された位置:モデルアミノ酸残基が系統的解析において絶対的に保存されている。値はイエスまたはノーである。
【0066】
接近不可能性:モデルアミノ酸残基が溶媒に対して約10Å2(〜1個の水分子)未満の暴露を有する。値はÅ2における溶媒接近可能面積である。約1個の水分子/10Å2の溶媒接近可能表面が存在することが可能である。例えば、それが約0.2未満の、その相対的接近可能性値の低い値を有するならば、モデルアミノ酸残基をまた接近不可能であると定義することも可能である。
【0067】
界面:モデル化多様性は、座標において異なるポリペプチド鎖における少なくとも1個の残基の5.0Å以内である。値はイエスまたはノーである。
【0068】
保存されているものに近い:モデルアミノ酸残基が、系統的解析において絶対的に保存されている残基の5.0Å以内である。値はイエスまたはノーである。
【0069】
ヘテロゲン原子に近い:モデルアミノ酸残基が、ヘテロゲン原子の5.0Å以内である。値はÅの距離である。
【0070】
他の多様性に近い:モデルアミノ酸残基が、ある一つの他のモデルアミノ酸残基の5.0Å以内である。値はÅの距離である。
【0071】
プロサイト配列に近い:モデルアミノ酸残基が、標的タンパク質によってもマッチされるプロサイトエントリにマッチする座標における残基の5.0Å以内である。値はÅの距離である。
【0072】
プロサイト構造に近い:モデルアミノ酸残基が、標的タンパク質によってマッチされないプロサイトエントリにマッチするモデル構造における残基の5.0Å以内である。値はÅの距離である。
【0073】
稀なアミノ酸:多様性によりコードされる少なくとも1つの残基が、モデルアミノ酸残基の系統的プロファイルにおいて回数の10%超は見出されない。値はイエスまたはノーである。
【0074】
ヘリックス破壊:多型標的アミノ酸残基がグリシンまたはプロリンのいずれか、および他のいくつかのアミノ酸を含み、そしてモデルアミノ酸残基がヘリックス二次構造の領域内に存在する。値はイエスまたはノーである。
【0075】
ターン破壊:多型標的アミノ酸残基がグリシンまたはプロリンのいずれか、および他のいくつかのアミノ酸を含み、そしてモデルアミノ酸残基がターン二次構造の領域内に存在する。値はイエスまたはノーである。
【0076】
異常なアミノ酸:多型標的アミノ酸残基によりコードされる残基の少なくとも1つは、多型標的アミノ酸残基に関する系統的プロファイルにおいては見出されない。この変数はモデルアミノ酸残基の系統的プロファイルを用いて、例えばHSSPファイルから近似化されうる。値はイエスまたはノーである。この変数は上述のようにクラスを用いても評価することが可能である。
【0077】
低または高B因子:モデルアミノ酸残基に関する平均B因子は15.0未満または45.0超である。より低い値は結晶構造におけるその残基に関してより低い運動を意味する。
【0078】
低または高相対的B:モデルアミノ酸残基に関する平均B因子は、モデルアミノ酸残基のポリペプチド鎖における残基に関する平均B因子の少なくとも2標準偏差上または下である。値は標準偏差の数字である。
【0079】
低または高近傍B:モデルアミノ酸残基の構造近傍に関する平均B因子は15.0未満または45.0超である。
【0080】
低または高相対的近傍B:モデルアミノ酸残基の構造近傍に関する平均B因子は、モデルアミノ酸残基のポリペプチド鎖における残基に関する平均B因子の少なくとも2S.D.(上記に定義されるS.D.)上または下である。値は標準偏差の数字である。
【0081】
低または高系統的エントロピー:モデルアミノ酸残基のエントロピーは、0.5未満または2.0超である。値は、絶対的な保存を意味する0.0から、保存が全くないことを意味するln20〜3の範囲のエントロピー単位である。
【0082】
低または高相対的系統的エントロピー:モデルアミノ酸残基のエントロピーは、標的タンパク質の残基に関して、平均系統的エントロピーから2.0S.D.より小さいまたは大きい。
【0083】
低または高近傍エントロピー:モデルアミノ酸残基の構造近傍の平均エントロピーは、0.5未満または2.0超である。
【0084】
低または高相対的近傍エントロピー:モデルアミノ酸残基の構造近傍の平均エントロピーは、モデルアミノ酸残基のポリペプチド鎖における平均エントロピーより少なくとも2.0 S.D.(上記に定義されるS.D.)小さいまたは大きい。値はS.D.の数字である。
【0085】
予測変数としての特徴の使用
上述のモデルアミノ酸残基の様々な特徴は、多型がタンパク質構造または機能に効果を有するかどうかを評価するために定量的、統計学的モデルにおける予測変数として使用することが可能である。統計学的モデルは、タンパク質活性に対する効果の多様性に関する実際の実験データに依存する。予測モデルは、予測特徴の連続値(または連続値の離散近似、例えば高、中および低B因子)を活用することが可能である。モデル化多様性の特徴のいくつかまたは全部を評価することにより、多型標的アミノ酸残基がタンパク質構造または機能に効果を有するかどうかを予測する2個の統計学的モデルが下に記載される。予測法における特徴はそれらの上記の定義からわずかに適合される。多型標的アミノ酸残基の効果を予測する他の統計学的モデルは使用されることができ、そして本節の最後に参照として示される。これらの別法は、モデルアミノ酸残基の同一の予測特徴のいくつかまたは全てを使用することが可能である。
【0086】
予測のために使用される特徴は、環境特徴およびカテゴリ特徴の2個の大まかな分類に分けられる。カテゴリ特徴のクラスはさらに多型特異的分類特徴および特異事例分類特徴に分けられる。これらの異なる特徴の各々は、いかにこの特徴が評価されるかの例とともに簡単に下に記載される。
【0087】
環境特徴:
全ての環境特徴は、予測のために活用される統計学的方法に依存して、正規化して、またはせずに連続またはカテゴリ形式において使用することが可能である。
【0088】
溶媒接近可能性:これはモデルアミノ酸残基の溶媒に対する接近可能性の尺度である。それは以下に記載される確率論的モデルにおいては連続変数として使用される。それは、下記の分類樹モデルに関して各区分けに同数の訓練データ多型を有する、例えば2、3または4の区分けに分割することにより、カテゴリ変数に変換することが可能である。他の方法は、これらおよび他の統計学的モデルを用いて使用することが可能である。
【0089】
相対的接近可能性:これは、特定の組成のペプチド、典型的にはポリアラニンポリペプチドにおけるその残基の最大の接近可能性に対して相対的に、モデルアミノ酸残基の溶媒に対する接近性の尺度である。それは以下に記載される確率論的モデルにおける連続変数として使用される。それは、下記の分類樹モデルに関して各区分けに同数の訓練データ多型を有する、例えば2、3または4の区分けに分割することにより、カテゴリ変数に変換することが可能である。他の方法は、これらおよび他の統計学的モデルを用いて使用することが可能である。
【0090】
相対的B因子:これは、モデルタンパク質の同一のポリペプチド鎖における他の残基に関するB因子の平均および標準偏差に対して正規化されたモデルアミノ酸残基の結晶学的B因子の尺度である。下記の確率論的モデルにおいては連続変数として使用される。それは、下記の分類樹モデルに関して各区分けに同数の訓練データ多型を有する、例えば2、3または4の区分けに分割することにより、カテゴリ変数に変換することが可能である。他の方法は、これらおよび他の統計学的モデルを用いて使用することが可能である。
【0091】
相対的近傍B因子:この特徴は、モデルアミノ酸残基のポリペプチド鎖の平均B因子に対して相対的に、モデルアミノ酸残基の構造近傍の平均B因子の統計学的有意性(同じ特徴に関して上記で定義されている)の尺度である。それは、下記の確率論的モデルにおいては連続変数として使用される。それは、下記の分類樹モデルに関して各区分けに同数の訓練データ多型を有する、例えば2、3または4の区分けに分割することにより、カテゴリ変数に変換することが可能である。他の方法は、これらおよび他の統計学的モデルを用いて使用することが可能である。
【0092】
相対的近傍エントロピー:この特徴は、モデルアミノ酸残基のポリペプチド鎖の平均系統的エントロピーに対して相対的に、モデルアミノ酸残基の構造近傍の平均系統的エントロピーの統計学的有意性(同じ特徴に関して上記で定義されている)の尺度である。それは、下記の確率論的モデルにおいては連続変数として使用される。それは、下記の分類樹モデルに関して各区分けに同数の訓練データ多型を有する、例えば2、3または4の区分けに分割することにより、カテゴリ変数に変換することが可能である。他の方法は、これらおよび他の統計学的モデルを用いて使用することが可能である。
【0093】
多型特異的カテゴリ特徴:
それらは多型標的アミノ酸残基を含むアミノ酸の同一性に関連するので、これらの特徴は多様性特異的である。下記の統計学的モデル化法においては、これらの特徴は、多型が特定の基準を満たせば値1(すなわちイエス)、およびそうでなければ値0(すなわちノー)が与えられる。
【0094】
異常なアミノ酸:多型アミノ酸の1つが標的可変残基の系統的プロファイルにおいて見出されない。この特徴はモデルアミノ酸残基の系統的プロファイルの検査により例えばHSSPファイルから近似することが可能である。
【0095】
クラスによる異常なアミノ酸:多型アミノ酸の1つが、多型標的アミノ酸残基の系統的プロファイルにおいて全てのアミノ酸を含むAdamsらに由来する最小プロファイル(Protein Science 5:1240、1996)中に見出されない。この特徴はモデルアミノ酸残基の系統的プロファイル、例えばHSSPファイルから近似することが可能である。この特徴は、多数アライメントが比較的少ない数の配列を含むときに、好ましく使用される。Adamらにより提唱された以外の分類計画もまた使用することが可能である。
【0096】
保存位置:モデルアミノ酸残基は系統学において保存されている。
【0097】
埋め込み電荷:モデルアミノ酸が溶媒に接近不可能であり、そして多型標的アミノ酸残基のアミノ酸の1つが荷電されている。
【0098】
ターン破壊:モデルアミノ酸がターン二次構造を有し、そして多型アミノ酸の1つがグリシンまたはプロリンである。
【0099】
ヘリックス破壊:モデルアミノ酸がヘリックス二次構造割りつけを有し、そして多型アミノ酸の1つがグリシンまたはプロリンである。
【0100】
特例カテゴリ特徴:
これらの特徴は、多型特異的ではないモデル構造におけるモデルアミノ酸残基の位置に関する特例に関する。モデルアミノ酸残基が特定の基準を満たせば値1(すなわちイエス)、およびそうでなければ値0(すなわちノー)が与えられる。
【0101】
ヘテロ原子に近い:モデルアミノ酸残基が、モデルタンパク質のヘテロゲン原子(リガンド)の近くにある(例えば5Å)。
【0102】
プロサイト配列に近い:モデルアミノ酸残基が、標的タンパク質およびモデルタンパク質に共通のプロサイトマッチに近い(例えば5Å)。
【0103】
界面:モデルアミノ酸残基が、モデルタンパク質中の2またはそれ以上のサブユニット間の界面に近い(例えば5Å)。
【0104】
訓練データセット
1)少なくとも1つの選択された構造的、系統的および物理的特徴を評価するための十分な構造情報が存在するタンパク質における少なくとも1つのアミノ酸変動、および2)各アミノ酸変動のタンパク質機能に与える効果を記載した情報を含む。大腸菌ラクトースリプレッサー(Markiewiczら、(1994)J.Mol.Biol.240:421〜433)またはリゾチーム(Rennelら、(1991)J.Mol.Biol.222:67)の変異体が訓練データセットとして使用されうる。データセットが多くの異なるタンパク質を含んでいるとしても、活性および構造情報が利用可能な、好ましくは偏りのない、多型の任意の他の集合もまた使用されうる。
【0105】
確率論的様式
確率論的様式の方法は、それがタンパク質構造または機能に効果を有するだろう確率を有するものとして各多様性を見ることである。この見とおしは、暗に相同性モデルが一般的には大体の記述であるとの考えを反映する。モデルによって予期されない、構造または機能に対する多様性の効果に関係するいくつかの因子が存在していてもよい。しかしながら、偏りのない十分なデータを仮定して、変異およびタンパク質構造または機能への効果の間の関係を検査する実験データセットを通じて、そのような因子が確率論的条件において評価することが可能である。例えば、本発明の方法の実施において使用されているデータセットの1つは、大腸菌ラクトースリプレッサーの4000を超える偏りのない変異、およびリプレッサーの生物学的機能に関する分類を含む。
【0106】
予測に関する確率論的値は、標的タンパク質の構造および機能の本質的な認容性の尺度を、多型標的アミノ酸残基のアミノ酸変動、多様性により引き起こされる化学変化の性質、およびモデルタンパク質の構造の特に傷つきやすい位置における、多様性の特別な事例に関する付加的な分類と組み合わせる。多型標的アミノ酸残基が標的タンパク質構造または機能に影響する確率を計算するために、モデルアミノ酸残基の特徴値に類似した特徴値を有する訓練多型が訓練データセットから回収される。訓練多型およびモデルアミノ酸残基間の特徴値類似性を評価する正確な基準は、予測モデルの変数である。典型的には、しかし排他的ではないが、訓練セットの多型が、モデルアミノ酸残基の環境特徴値の、いくらかの認容性、例えば1標準偏差内の環境特徴値およびモデルアミノ酸残基のカテゴリ特徴値に同一であるカテゴリ特徴値を有するように、これらの基準が設定される。
【0107】
多型標的アミノ酸残基が標的タンパク質の構造または機能に効果を有する確率は、自分自身のタンパク質構造または機能に効果を有する選択された訓練多型のサブグループ中の残基の比率として定義される。このようにして確率を定義することで、訓練セットを用いて構造および機能に与える効果を検定した、環境特徴およびカテゴリ特徴が、多型標的アミノ酸残基および標的タンパク質に予測的な意義を有することが想定される。また、訓練多型が、特定の特徴値を有する多型のタンパク質構造に対する効果の偏りのないサンプリングを表すと仮定される。別の言い方をすれば、特徴は、タンパク質機能への効果を評価するのに有用な多型の一般的な特性を反映すると仮定しており、および訓練多型はアミノ酸変動の典型的な行動を反映していると仮定される。経験的には、この仮定は、少なくとも可溶性、球形タンパク質およびラクトースリプレッサーおよびリゾチーム訓練データセットに関しては妥当である。
【0108】
原則として、モデルアミノ酸残基をパラメータ化する、およびそれゆえ効果の可能性を推定するための訓練多型のサブセットを選択するために使用される特徴の数が大きくなればなるほど、確率論的モデルの精度がより大きくなる。より多くの特徴が使用されるとき、選択された訓練多型は、それ自身が配列類似性を基礎として多型標的アミノ酸残基に類似するように選択されたモデルアミノ酸残基により類似するであろう。しかしながら、モデルアミノ酸残基をパラメータ化するためにより多くの特徴が使用されるほど、現在の訓練データセットを用いて適切な統計学的な比較を実施するために十分な訓練多型を同定することがより困難になる。加えて、いくつかの特徴は他のものと強く関連し、およびモデルアミノ酸残基の特性化にはほとんど寄与しない、例えば接近可能性および相対的接近可能性と強く関連する。実際には現在のデータセットを用いて、これは、6個の現在の環境特徴のうち約3個が、そして約3または4個のカテゴリ特徴が使用されうることを意味する。それらが利用可能になる場合、より大きな訓練データセットでは各多型を特性化するためにより多くの特徴が使用されると思われる。
【0109】
確率論的モデルにおいて多型を選択するために使用される特徴の減少された組は、標準的な尤度統計学法を用いて選択される。正式には、これは、より一般的な仮説に基づいた予測と比較されるいくつかの環境特徴およびいくつかのカテゴリ特徴の各々の可能性のある組み合わせを用いた訓練データに関して実施された予測に関する可能性において増加を計算することが必要である。この事例においては、より一般的な仮説が、機能に効果を有する全訓練データセットにおける多型の比率として、機能に効果を与える多型の確率を定義する。変数の最適セットは尤獲得を与えるものである。この徹底的な処理は非常に計算的に集約されている。計算時間は、可能性計算に与える環境特徴の観察された強い効果を利用することにより減少させることが可能である。この観察は、最初に単独で可能性を最大化する環境特徴が同定され、そして第二に、選択された最適化環境特徴と関連して、カテゴリ特徴の最適セットが同定される、可能性を最大化するための近似的な、段階的処理につながる。2個の訓練データセットにこの近似化処理を適用することは、最適な環境特徴は典型的には、期待されうる、2個の接近可能性特徴のうちの1個、2個のB因子特徴のうちの1個、および2個の系統的エントロピーのうちの1個を含むことが示された。他の統計学的方法、例えば識別関数解析もまた優性特徴を選択するために使用することが可能である。
【0110】
別法として、使用される変数の数は、主成分解析の標準的統計学的方法により、減少させることが可能である。例えば、訓練セットにおける全ての多型残基に関する6個の環境特徴の完全なセットがその主成分に変換され、そしてその後、(より大きな固有値を有する、元来の環境特徴と再整列化された、またはされない、)より強い主成分のわずか1または数個が環境特徴全ての代わりに使用される。タンパク質構造および機能に効果を有する標的多型の確率は、上述のように、計算において環境特徴を置換する選択された主成分を用いて決定される。
【0111】
分類様式
カテゴリ結果に予測変数を関連付けることの問題は、分類樹を構築する統計学的方法により詳細に記載されている(Breimanら(1984)「分類および回帰樹(Classification and Regression Trees」(Wadsworth:Belmont))。これらの方法を通じて、結果に対する各連続的またはカテゴリ予測の影響が統計学的に評価され、順位付けされ、そして訓練データセットにおけるカテゴリ結果を最適に分類する樹を構築するために使用される。この事例においては、構造モデルからの環境特徴および多型のカテゴリ特徴が予測変数であり、そしてカテゴリ結果は多型がタンパク質構造もしくは機能に効果を与えるか、または与えないかである。QUEST分類樹法およびプログラムプログラム(Lohら(1997)Stastica Sinica 7:815)が、構造および機能に対するモデル化多型の効果を予測することにおいて分類樹解析を試験するために使用される。
【0112】
これらの予測のためにQUESTを実行することは簡単である。QUESTは予測変数として、連続値環境特徴およびカテゴリ特徴の両方を直接的に許容するであろう。確率論的モデルに関しては、制限された大きさの訓練データセットを収納するためには、変数の数を3個の環境特徴(または主成分を使用すること)および他のカテゴリ特徴の選択されたものに制限することが有用であると証明される。QUESTは、最適な分類のために変数を選択し、かつ各連続変数において、「分断値」を定義するためにANOVA F−統計を使用する。樹がその後選択された変数および「分断」基準を用いて構築され、そしてその後節点サイズ基準および交差妥当性評価に供され余計なものが除去される。最適な樹が図示されると、標的多型は、それらがタンパク質構造または機能に効果を有するか予測されるかどうかに関して評価されうる。QUESTの典型的な適用は、精度の重大な損失なしに分類樹を単純化するために、例えば約4の換算係数により、最小節点サイズがしばしば増加されるという例外を用いて、省略値様式においてそれを実行することを含む。
【0113】
連続予測変数を用いて分類樹を構築する指導原理は、予測に関する「分断」値が、基礎となる科学的問題をよく知っている使用者に意味をなすべきことである。しかし、実際的には、自動化QUEST法において連続変数として環境特徴を適用することは、過剰に分岐し、そして解釈が困難な分類樹につながりうる。方法を実行する別の方法は、各環境特徴の値を理にかなう数の群にカテゴリ化することを含む。例えば、各環境特徴は高、中または低値にカテゴリ化することが可能である。カテゴリ化環境特徴はその後、QUESTにより、単純化され、かつ強健な分類樹を構築するために他のカテゴリ特徴とともに使用することが可能である。
【0114】
他の統計学的モデル
他の統計学的方法は、環境およびカテゴリ特徴の解析において、および標的多型がタンパク質構造または機能に効果を有するかどうかを予測するための適用において、使用することが可能である。これらは、カテゴリ特徴の各組み合わせに関する環境特徴の選択に関する識別関数解析(例えば、StatSoft Inc.、電子テキストブック、http://www.statsoft.com、識別解析に関する章を参照)、およびカテゴリ特徴の各組み合わせに関する環境特徴の論理計算回帰(例えば、MontgomeryおよびPeck(1992)線型回帰解析への導入(Introduction to Linear Regression Analysis、Wiley、ニューヨーク州、第6章を参照)、を含むが、しかしそれらに制限されない。いくつかの実行は、多型標的アミノ酸残基により引き起こされる構造または機能に対する効果を予測するための訓練データを理解するために、ニューラルネットまたは関連モデルを使用する可能性がある。
【0115】
実施
自動化構造モデル化および機能解析のコンピュータプログラムは、例えばPython 1.4.等の任意の適切な言語を用いて記載されうる。解析に組み入れられるプログラムおよび支援ファイル(例えば、データベース)が利用可能である。プログラムは、例えばIRIXv6.5下で実施されるシリコングラフィックスO2ワークステーションなどの、当業者に既知である適切なコンピュータシステム上で実施される。有用なデータベースは、高分子構造および構造に相当する配列のタンパク質データバンク(PDB);相同性が導出するタンパク質の二次構造(HSSP;EMBL)データベース;プロファイルおよびパターンのプロサイトデータベース(EXPASY;現在はリリース15を使用)を含む。方法のある特徴を実施するための有用なソフトウェアは、BLAST2.0.6配列アライメントおよびデータベース検索ソフトウェア(NCBI);相同性モデルの可視化(表現)およびアノテーション付けのためのRasMol2.6.4(Roger Sayle)プログラム;ウェブブラウザー中でモデルを可視化するためのChime(MDL社)httpプラグインモジュール;およびプロサイトプロファイルにアミノ酸配列を比較するためのPfscan1.0ソフトウェア(フィリップブッチャー;実験ガン研究スイス研究所(Philipp Bucher;Swiss Institute for Experimental Cancer Institute)を含む。
【0116】
本発明の方法は、任意の特定のハードウェア/ソフトウェアの機器構成の使用には制限されない。それらは、任意の計算または処理環境への適応可能性を見出すかもしれない。本発明の方法は、プロセッサー、プロセッサーにより読取り可能な記憶媒体(揮発性メモリおよび非揮発性メモリおよび/または記憶素子を含む)少なくとも1つの入力装置、および1またはそれ以上の出力装置を各々含むプログラム方式コンピュータ上で実行されるコンピュータプログラムにおいて実施されてもよい。プログラムコードは、方法を実施し、かつ出力情報を表示に生成するために、入力装置を用いて入力されるデータに適用されていてもよい。
【0117】
そのような各々のプログラムは、コンピュータシステムと通信するために、高水準手続き的または目的指向プログラム言語において実施されてもよい。しかしながら、プログラムはアセンブラ言語または機械言語において実施されてもよい。言語は翻訳処理または解釈された言語であってもよい。
【0118】
各コンピュータプログラムは、記憶媒体または装置がこの方法を実施するためにコンピュータにより読み取られるとき、コンピュータを機器構成および実行するために、一般的なまたは特別の目的のプログラム方式コンピュータにより読取り可能な記憶媒体または装置(例えば、CD−ROM、ハードディスク、または磁気ディスク)上に保存されてもよい。方法はまた、実行時に、コンピュータプログラムにおける指示がコンピュータに本方法にしたがって実行させる、コンピュータプログラムを用いて機器構成される、コンピュータ読取り可能な記憶媒体として実施されてもよい。
【0119】
適用
本発明の方法は、単に既知のまたは理論的な多型の効果に関して予測を行うことを超えて多くの領域で有用である。例えば、本発明の方法は、製薬または診断薬剤の作用に直接または間接的に関与するタンパク質の構造または機能に影響するアミノ酸多型の同定および解析のために使用されうる。方法は、関心対象タンパク質における2つまたはそれ以上のアミノ酸多型間の構造的または機能的相互作用の同定および解析において使用することが可能である(例えばハプロタイプ解析において)。
【0120】
本発明の方法は、関心対象タンパク質の触媒活性または関心対象タンパク質の非触媒活性に効果を有する多型を同定および解析するために使用することが可能である(例えば、構造、安定性、第二のタンパク質またはポリペプチド鎖への結合、核酸分子への結合、低分子への結合、およびタンパク質または核酸のいずれでもない高分子への結合)。
【0121】
本発明の方法は、製薬または診断薬剤による多型特異的標的化のため、薬理ゲノム学的応用のための候補多型の同定および解析のため、およびアミノ酸多型を示す製薬標的の実験生化学的および構造解析のために、候補多型の同定または解析においてもまた使用することが可能である。
【0122】
加えて、本発明の方法は、関心対象タンパク質の構造または機能を設計するために、作製されうるアミノ酸置換を同定するために使用することが可能である(例えば、選択された活性を増加または減少させるため、または選択的活性を付加または除去するため)。
【0123】
その方法はまた、多型に関連する生物学的特性における前向きまたは後ろ向き同定および解析変更のためにも使用することが可能でもある。
【0124】
実施例
実施例 1 :アノテーション様式
本発明の方法は、ラクトースリプレッサーにおける多数の多型アミノ酸残基を解析するために使用された。この実施例においては、アノテーション様式が使用され、そしてプリンリプレッサーがモデルタンパク質として選択された。本発明の方法のある一つの実施態様を実施するために使用されるコンピュータプログラムの出力の一部が以下に複製される。順に、出力は、解析された多型アミノ酸残基のリスト、モデルタンパク質の相当する領域と多型残基を含むラクトースリプレッサーの各領域のアライメント、各整列化された領域内において同一であるアミノ酸残基の数の概要、解析において使用されるプリンリプレッサーに関するPDBファイル情報の概要、モデルタンパク質に関するプロサイト報告、各モデルアミノ酸残基の近傍におけるアミノ酸残基を相当する多型アミノ酸残基の近傍におけるアミノ酸残基へ整列化することの概要、各モデルアミノ酸残基に関して作製された決定の概要(保存されたモチーフへの距離、ヘテロゲンへの距離、モデルアミノ酸残基間の距離、エントロピー、二次構造、近傍エントロピー、B因子、相対的B因子、近傍B因子および相対的近傍B因子を含む)、決定がなされうる特徴のリスト、および各モデルアミノ酸残基に関して実施された決定のリストを提供する。
【0125】
出力:
記述:ラクトースオペロンリプレッサー
2pua_A 3e−34 # 多様性:4
mol:タンパク質長:340 プリンリプレッサー
アライメント 1
同一アミノ酸:96 全アミノ酸:307
BLAST報告から選択されたモデルに関するアライメント概要
2pua_Aに基づくモデルはp値:3e−34を有する。マッチした多様性の数は4である。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
P03023に関するモデル化多様性の概要
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
このモデルはBLASTエントリ2pua_AおよびPDB座標2pua_Aを使用する。
多様性56
アライメント # 1
アライメント品質(同一アミノ酸/全アミノ酸)96/307
マッチング品質(同一アミノ酸/全アミノ酸)3/9
照会配列
モデル配列
多様性172
アライメント # 1
アライメント品質(同一アミノ酸/全アミノ酸)96/307
マッチング品質(同一アミノ酸/全アミノ酸)1/9
照会配列
モデル配列
多様性247
アライメント # 1
アライメント品質(同一アミノ酸/全アミノ酸)96/307
マッチング品質(同一アミノ酸/全アミノ酸)3/9
照会配列
モデル配列
多様性298
アライメント # 1
アライメント品質(同一アミノ酸/全アミノ酸)96/307
マッチング品質(同一アミノ酸/全アミノ酸)3/9
照会配列
モデル配列
座標のチェック
/pdb/pdb/2pua.pdbを非圧縮する。
PDB座標は2puaに関して既に存在する。
HSSPファイルは2puaに関して存在する。
/pdb/pdb/2pua.pdbを圧縮する。
****************************
モデルで使用される座標の特徴
****************************
PDB見出し:
複合体(DNA−結合タンパク質/DNA) 1997年10月4日 2PUA
PDB標題:
DNAに結合するLACIファミリーメンバーであるPURRの結晶構造:αヘリックスによるマイナー溝結合。
PDB化合物:
Mol_ID:1;
分子:プリンリプレッサー;
鎖:A;
設計された:イエス;
変異:R190A;
生物学的単位:ホモ二量体;
他の詳細:メチルプリン−PUR−オペレーター;
Mol_ID:2;
分子:DNA;
鎖:B;
設計された:イエス;
他の詳細:コリプレッサーおよび完全回文配列PURFオペレーターとして6−メチルプリンに結合するプリンリプレッサー
**************************
座標に関するプロサイト報告
**************************
鎖「A」に関するプロサイト報告
スキャニング概要
−−−−−−−−−−−−−−−−
***プロサイトスキャニングでマッチするものなし***
検索概要
−−−−−−−−
座標/pdb/pdb/2pua.pdbを用いたP03023_2pua.rsmlのモデル作成
**********
モデル品質
**********
−−−−−−−−−−−−−−−−−−
2puaに基づくモデル
−−−−−−−−−−−−−−−−−−
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
第一における多様性は56である。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル中の多様性リストは[(’A’、54、0)]である。
モデル化多様性(’A’、54、0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性56に関してアライメント0で整列化される近傍物
近傍残基 アライメント残基 第一およびモデルで同一?
多様性56に関してアライメント0で整列化されない近傍物
(’B’、707)
(’B’、708)
このアライメントに関する近傍の概要
半径5.0Aの近傍内の残基の数は11個である。
これらのうち、9残基がアライメントによりカバーされる
これらのうち、3残基が同一である
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
第一における多様性は172である。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル中の多様性リストは[(’A’、171、0)]である。
モデル化多様性(’A’、171、0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性172に関してアライメント0で整列化される近傍物
近傍残基 アライメント残基 第一およびモデルで同一?
多様性172に関してアライメント0で整列化されない近傍物
(’A’、340)
このアライメントに関する近傍の概要
半径5.0Aの近傍内の残基の数は12個である。
これらのうち、11残基がアライメントによりカバーされる
これらのうち、1残基が同一である
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
第一における多様性は247である。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル中の多様性リストは[(’A’、248、0)]である。
モデル化多様性(’A’、248、0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性247に関してアライメント0で整列化される近傍物
近傍残基 アライメント残基 第一およびモデルで同一?
このアライメントに関する近傍の概要
半径5.0Aの近傍内の残基の数は18個である。
これらのうち、18残基がアライメントによりカバーされる
これらのうち、8残基が同一である
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
第一における多様性は298である。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル中の多様性リストは[(’A’、299、0)]である。
モデル化多様性(’A’、299、0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性298に関してアライメント0で整列化される近傍物
近傍残基 アライメント残基 第一およびモデルで同一?
このアライメントに関する近傍の概要
半径5.0Aの近傍内の残基の数は11個である。
これらのうち、11残基がアライメントによりカバーされる
これらのうち、3残基が同一である
HSSPファイルは既に存在する。
HSSPファイルからの座標に関するエントロピー統計学の概要。
********************
モデル化多様性の機能
********************
==>モデル2puaに関する機能1:プロサイトへの近接性、ヘテロ原子および他の多様性
−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性56:ロイシン セリン
−−−−−−−−−−−−−−−−−−−−−−−−−−
プロサイト特徴への近接性
−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基54
鎖Aに関して
プロサイトスキャニング:
***プロサイトスキャニングでマッチするものなし***
プロサイト検索:
PS00356
4〜22 19 12.7
最近接へテロ原子
−−−−−−−−−−−−−−−−
モデル化多様性(’A’、54、0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性172:グルタミン酸 グリシン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
プロサイト特徴への近接性
−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基171
鎖Aに関して
プロサイトスキャニング:
***プロサイトスキャニングでマッチするものなし***
プロサイト検索:
PS00356
4〜22 21 60.3
最近接へテロ原子
−−−−−−−−−−−−−−−−
モデル化多様性(’A’、171、0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性247:アスパラギン酸 リジン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
プロサイト特徴への近接性
−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基248
鎖Aに関して
プロサイトスキャニング:
***プロサイトスキャニングでマッチするものなし***
プロサイト検索:
PS00356
4〜22 21 48.6
最近接へテロ原子
−−−−−−−−−−−−−−−−
モデル化多様性(’A’、248、0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性298:グルタミン アラニン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
プロサイト特徴への近接性
−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基299
鎖Aに関して
プロサイトスキャニング:
***プロサイトスキャニングでマッチするものなし***
プロサイト検索:
PS00356
4〜22 19 30.8
最近接へテロ原子
−−−−−−−−−−−−−−−−
モデル化多様性(’A’、299、0)
モデル化多様性間のオングストローム距離
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
==>モデル2puaに関する機能II:変異体位置の本質的特徴
−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性56:ロイシン セリン
−−−−−−−−−−−−−−−−−−−−−−−−−−
BLASTアライメント1由来のPDB鎖「A」における残基54によりモデル化された多様性に関して:
系統学
−−−−−−
保存
エントロピー:0.734
相対的エントロピー:24
重み:1.34
この残基のアミノ酸プロファイル
構造
−−−−
二次構造:αヘリックス
接近可能性:144A∧2(水の数x10)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性172:グルタミン酸 グリシン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
BLASTアライメント1由来のPDB鎖「A」における残基171によりモデル化された多様性に関して:
系統学
−−−−−−
保存
エントロピー:2.035
相対的エントロピー:68
重み:0.86
この残基のアミノ酸プロファイル
構造
−−−−
二次構造:αヘリックス
接近可能性:58A∧2(水の数x10)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性247:アスパラギン酸 リジン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
BLASTアライメント1由来のPDB鎖「A」における残基248によりモデル化された多様性に関して:
系統学
−−−−−−
保存
エントロピー:0.347
相対的エントロピー:12
重み:1.49
この残基のアミノ酸プロファイル
構造
−−−−
二次構造:αヘリックス
接近可能性:0A∧2(水の数x10)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性298:グルタミン アラニン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
BLASTアライメント1由来のPDB鎖「A」における残基299によりモデル化された多様性に関して:
系統学
−−−−−−
保存
エントロピー:1.995
相対的エントロピー:67
重み:0.84
この残基のアミノ酸プロファイル
構造
−−−−
二次構造:αヘリックス
接近可能性:91A∧2(水の数x10)
==>モデル2puaに関する機能III:多様性構造近傍の特徴
−−−−−−−−
多様性56
−−−−−−−−
モデル化された多様性:BLASTアライメント1由来のPDB鎖「A」における残基54
近傍の総数 11
hsspファイルに見出される近傍の総数 9
[(’A’、51)]における0.259の近傍最小エントロピー
[(’A’、56)]における1.985の近傍最大エントロピー
平均近傍エントロピー 1.428
鎖’A’における残基の総数は339
鎖の平均エントロピー 1.612
鎖のエントロピーの標準偏差 0.626
鎖のエントロピーの十分位数は[0.0、0.692、1.028、1.308、1.531、1.787、1.922、2.064、2.169、2.312、2.649]である。
[(’A’、8)、(’A’、18)、(’A’19)]他における0.000の鎖の最小エントロピー
[(’A’、190)]における2.649の鎖の最大エントロピー
近傍の平均エントロピーは、鎖のモデル化多様性の平均エントロピーから−0.878標準偏差のものである。
−−−−−−−−−
多様性172
−−−−−−−−−
モデル化された多様性:BLASTアライメント1由来のPDB鎖「A」における残基171
近傍の総数 12
hsspファイルに見出される近傍の総数 12
[(’A’、173)]における0.701の近傍最小エントロピー
[(’A’、176)]における2.399の近傍最大エントロピー
平均近傍エントロピー 1.584
鎖’A’における残基の総数は339
鎖の平均エントロピー 1.612
鎖のエントロピーの標準偏差 0.626
鎖のエントロピーの十分位数は[0.0、0.692、1.028、1.308、1.531.1.787、1.922、2.064、2.169、2.312、2.649]である。
[(’A’、8)、(’A’、18)、(’A’19)]他における0.000の鎖の最小エントロピー
[(’A’、190)]における2.649の鎖の最大エントロピー
近傍の平均エントロピーは、鎖のモデル化多様性の平均エントロピーから−0.153標準偏差のものである。
−−−−−−−−−
多様性247
−−−−−−−−−
Bモデル化された多様性:LASTアライメント1由来のPDB鎖「A」における残基248
近傍の総数 18
hsspファイルに見出される近傍の総数 18
[(’A’、248)]における0.347の近傍最小エントロピー
[(’A’、249)]における2.368の近傍最大エントロピー
平均近傍エントロピー 1.257
鎖’A’における残基の総数は339
鎖の平均エントロピー 1.612
鎖のエントロピーの標準偏差 0.626
鎖のエントロピーの十分位数は[0.0、0.692、1.028、1.308、1.531.1.787、1.922、2.064、2.169、2.312、2.649]である。
[(’A’、8)、(’A’、18)、(’A’19)]他における0.000の鎖の最小エントロピー
[(’A’、190)]における2.649の鎖の最大エントロピー
近傍の平均エントロピーは、鎖のモデル化多様性の平均エントロピーから−2.402標準偏差のものである。
−−−−−−−−−
多様性298
−−−−−−−−−
モデル化された多様性:BLASTアライメント1由来のPDB鎖「A」における残基299
近傍の総数 11
hsspファイルに見出される近傍の総数 11
[(’A’、298)]における0.691の近傍最小エントロピー
[(’A’、84)]における2.327の近傍最大エントロピー
平均近傍エントロピー 1.666
鎖’A’における残基の総数は339
鎖の平均エントロピー 1.612
鎖のエントロピーの標準偏差 0.626
鎖のエントロピーの十分位数は[0.0、0.692、1.028、1.308、1.531.1.787、1.922、2.064、2.169、2.312、2.649]である。
[(’A’、8)、(’A’、18)、(’A’19)]他における0.000の鎖の最小エントロピー
[(’A’、190)]における2.649の鎖の最大エントロピー
近傍の平均エントロピーは、鎖のモデル化多様性の平均エントロピーから0.287標準偏差のものである。
==>モデル2puaに関する機能IV:結晶学的B因子の解析
−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性56 ロイシン セリン
−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基54
残基統計
−−−−−−−−
残基統計
残基における原子の平均B因子:50.9
残基の鎖における残基の平均B因子:43.6
残基の鎖における残基のB因子の標準偏差:15.8
残基の鎖の最小および最大残基B因子:14.9 93.6
残基の鎖の残基のB因子の十分位数:14.9、25.9、30.2、33.5、36.2、40.0、43.8、48.8、58.9、67.4、93.6
残基B因子は8番目の十分位数中にある
残基B因子は鎖に関する平均B因子から0.5標準偏差のものである。
近傍統計学
−−−−−−−−−−
残基近傍における原子の平均B因子は:42.4
残基近傍の鎖における原子の平均B因子は:44.0
近傍B因子は近傍における鎖に関する平均B因子から−0.3標準偏差のものである。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性172 グルタミン酸 グリシン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基171
残基統計
−−−−−−−−
残基統計
残基における原子の平均B因子:33.4
残基の鎖における残基の平均B因子:43.6
残基の鎖における残基のB因子の標準偏差:15.8
残基の鎖の最小および最大残基B因子:14.9 93.6
残基の鎖の残基のB因子の十分位数:14.9、25.9、30.2、33.5、36.2、40.0、43.8、48.8、58.9、67.4、93.6
残基B因子は3番目の十分位数中にある
残基B因子は鎖に関する平均残基B因子から−0.6標準偏差のものである。
近傍統計学
−−−−−−−−−−
残基近傍における原子の平均B因子は:35.0
残基近傍の鎖における原子の平均B因子は:43.6
近傍B因子は近傍における鎖に関する平均B因子から−1.9標準偏差のものである。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性247:アスパラギン酸 リジン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基248
残基統計
−−−−−−−−
残基統計
残基における原子の平均B因子:29.2
残基の鎖における残基の平均B因子:43.6
残基の鎖における残基のB因子の標準偏差:15.8
残基の鎖の最小および最大残基B因子:14.9 93.6
残基の鎖の残基のB因子の十分位数:14.9、25.9、30.2、33.5、36.2、40.0、43.8、48.8、58.9、67.4、93.6
残基B因子は2番目の十分位数中にある
残基B因子は鎖に関する平均残基B因子から−0.9標準偏差のものである。
近傍統計学
−−−−−−−−−−
残基近傍における原子の平均B因子は:28.4
残基近傍の鎖における原子の平均B因子は:43.6
近傍B因子は近傍における鎖に関する平均B因子から−4.1標準偏差のものである。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
多様性298:グルタミン アラニン
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性:BLASTアライメント1由来のPDB鎖「A」における残基299
残基統計
−−−−−−−−
残基統計
残基における原子の平均B因子:51.1
残基の鎖における残基の平均B因子:43.6
残基の鎖における残基のB因子の標準偏差:15.8
残基の鎖の最小および最大残基B因子:14.9 93.6
残基の鎖の残基のB因子の十分位数:14.9、25.9、30.2、33.5、36.2、40.0、43.8、48.8、58.9、67.4、93.6
残基B因子は8番目の十分位数中にある
残基B因子は鎖に関する平均残基B因子から0.5標準偏差のものである。
近傍統計学
−−−−−−−−−−
残基近傍における原子の平均B因子は:46.1
残基近傍の鎖における原子の平均B因子は:43.6
近傍B因子は近傍における鎖に関する平均B因子から0.5標準偏差のものである。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
モデル化多様性の可能性のある特徴
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
buried_charge
モデル化多様性が接近不可能であり、および実際の多様性は荷電残基を含む。唯一の値はイエス。
conserved_position
モデル化多様性はHSSPプロファイルにおいて絶対的に保存されている。唯一の値はイエス。
helix_breaking
実際の多様性はグリシンまたはプロリンのいずれかおよびいくつかの他のアミノ酸を含む、およびモデル化多様性はHSSP解析によるヘリックス二次構造領域中である。唯一の値はイエス。
hi_b
モデル化多様性結晶学的B因子は45.0A∧2未満である。
hi_decile_b
モデル化多様性結晶学的B因子は、PDFファイルにおけるモデル化多様性鎖に関してB因子の10番目の十分位数中である。
hi_decile_var
モデル化多様性系統的変動は、PDFファイルにおけるモデル化多様性鎖に関して多様性の10番目の十分位数中である。
hi_nbhd_b
モデル化多様性近傍に関する平均結晶学的B因子は45.0A∧2より大きい。
hi_nbhd_rel_b
モデル化多様性近傍に関する平均結晶学的B因子は、残基鎖の他の近傍に関する平均B因子を少なくとも2.0標準偏差上回る。
hi_nbhd_rel_var
モデル化多様性近傍に関する平均系統的変動は、残基鎖の他の近傍に関する平均変動を少なくとも2.0標準偏差上回る。
hi_nbhd_var
モデル化多様性近傍に関する平均系統的変動は、2.0e.u.を超える(同じ重さの8個の残基)。
hi_rel_b
モデル化多様性結晶学的B因子は、PDFファイルにおけるモデル化多様性鎖に関する平均B因子を少なくとも2.0標準偏差上回る。
hi_rel_var
モデル化多様性系統的変動は、PDFファイルにおけるモデル化多様性鎖に関する平均変動を少なくとも2.0標準偏差上回る。
hi_var
モデル化多様性系統的変動は、2.0e.u.を超える(同じ重さの8個の残基)。
接触不可能性
HSSPファイルは、モデル化多様性が溶媒に対して10A∧2(〜1個の水分子)未満の暴露を有することを示す。値は、A∧2における溶媒接近可能な面積。10A∧2の溶媒接近可能表面当り約1個の水分子が存在することが可能である。
界面
モデル化多様性は座標において異なる鎖の少なくとも1個の残基の5.0A以内である。唯一の値はイエスである。
lo_b
モデル化多様性結晶学的B因子は、15.0A∧2未満である。
lo_decile_b
モデル化多様性結晶学的B因子は、PDFファイルにおけるモデル化多様性鎖に関するB因子の第一の十分位数中である。
lo_decile_var
モデル化多様性系統的変動は、PDFファイルにおけるモデル化多様性鎖に関する変動の第一の十分位数中である。
lo_nbhd_b
モデル化多様性近傍に関する平均結晶学的B因子は、15.0A∧2未満である。
lo_nbhd_rel_b
モデル化多様性近傍に関する平均結晶学的B因子は、残基鎖の他の近傍に関する平均B因子を少なくとも2.0標準偏差未満である。
lo_nbhd_rel_var
モデル化多様性近傍に関する平均系統的変動は、残基鎖の他の近傍に関する平均変動の少なくとも2.0標準偏差未満である。
lo_nbhd_var
モデル化多様性近傍に関する平均系統的変動は、0.69e.u.未満である(同じ重さの2個の残基)。
lo_rel_b
モデル化多様性結晶学的B因子は、PDFファイルにおけるモデル化多様性鎖に関する平均B因子の少なくとも2.0標準偏差未満である。
lo_rel_var
モデル化多様性系統的変動は、PDFファイルにおけるモデル化多様性鎖に関する平均変動の少なくとも2.0標準偏差未満である。
lo_var
モデル化多様性系統的変動は、0.69e.u.未満である(同じ重さの2個の残基)。
near_conserved
モデル化多様性は、HSSPプロファイルにおいて絶対的に保存されている残基の5.0A以内である。唯一の値はイエス。
near_het_atom
モデル化多様性は、座標においてヘテロ原子の5.0A以内である。値はオングストロームでの距離である。
near_other_variances
モデル化多様性は、少なくとも1個の他のモデル化多様性の5.0A以内である。値はオングストロームでの距離である。
near_seq_prosite
第一配列によってもまたマッチされるプロサイトエントリにマッチする、座標中の残基の5.0A以内である。near_struct_prositeを参照。値はオングストロームでの距離である。
near_struct_prosite
第一配列によってマッチされないプロサイトエントリにマッチする、座標中の残基の5.0A以内である。near_seq_prositeを参照。値はオングストロームでの距離である。
rare_aa
多様性によりコードされる少なくとも1つの残基が、モデル化多様性に関するHSSPプロファイルにおいて回数の10%を超えることなく見出される。唯一の値はイエス。
turn_breaking
実際の多様性はグリシンまたはプロリンのいずれかおよびいくつかの他のアミノ酸を含む、およびモデル化多様性はHSSP解析によるターン中である。唯一の値はイエス。
unusual_aa
多様性によりコードされる少なくとも1つの残基が、モデル化多様性に関するHSSPプロファイルにおいて見出されない。唯一の値はイエス。
開始概要
********************************
第一P03023に関して同定された特徴
********************************
モデル座標:2pua BLAST アライメント:2pua_A
多様性:56、アミノ酸:ロイシンまたはセリン
BLASTアライメント1由来のPDB鎖’A’における残基54に関して:ロイシン
品質
−−−−
アライメントのE値 3e−34
アライメントにおいて同一の残基の割合:0.31(96/307)
多様性の局所アライメントにおいて同一の残基の割合:0.33(3/9)
モデル化多様性の構造近傍において同一の残基の割合:0.33(3/9)
構造近傍における残基の総数:11
系統的エントロピー解析における残基の数:37
モデルソース:X線
機能
−−−−
多様性:172、アミノ酸:グルタミン酸またはグリシン
BLASTアライメント1由来のPDB鎖’A’における残基171に関して:アルギニン
品質
アライメントのE値 3e−34
アライメントにおいて同一の残基の割合:0.31(96/307)
多様性の局所アライメントにおいて同一の残基の割合:0.11(1/9)
モデル化多様性の構造近傍において同一の残基の割合:0.09(1/11)
構造近傍における残基の総数:12
系統的エントロピー解析における残基の数:32
モデルソース:X線
機能
−−−−
多様性:247、アミノ酸:アスパラギン酸またはリジン
BLASTアライメント1由来のPDB鎖’A’における残基248に関して:アスパラギン酸品質
−−−−
アライメントのE値 3e−34
アライメントにおいて同一の残基の割合:0.31(96/307)
多様性の局所アライメントにおいて同一の残基の割合:0.33(3/9)
モデル化多様性の構造近傍において同一の残基の割合:0.44(8/18)
構造近傍における残基の総数:18
系統的エントロピー解析における残基の数:35
モデルソース:X線
機能
−−−−
多様性:298、アミノ酸:グルタミンまたはアラニン
BLASTアライメント1由来のPDB鎖’A’における残基299に関して:グルタミン酸
品質
−−−−
アライメントのE値 3e−34
アライメントにおいて同一の残基の割合:0.31(96/307)
多様性の局所アライメントにおいて同一の残基の割合:0.33(3/9)
モデル化多様性の構造近傍において同一の残基の割合:0.27(3/11)
構造近傍における残基の総数:11
系統的エントロピー解析における残基の数:35
モデルソース:X線
機能
−−−−
********************************
指定された特徴の総数は17である。
********************************
【0126】
実施例 2 :確率論的モデル
2番目の実施例においては、確率論的様式が3245個の既知のラクトースリプレッサー多型の各々に存在するアミノ酸における変化がラクトースリプレッサーの活性を変更するであろう確率を評価するために使用された。この実施例においては、1468個のリゾチーム多型セットが訓練データセットとして使用され、そして尤度解析がモデルアミノ残基を解析するために使用されるであろう特徴を(上述の物理的、構造的および多様性特徴の中から)選択するために使用された。この解析は、多型の効果を予測する最も有用な特性として、3個の連続値変数(相対的接近可能性、相対的近傍B因子、および相対的近傍エントロピー)および3個のカテゴリ特徴(異常なアミノ酸、クラスにより異常なアミノ酸、および保存された位置)を選択する結果となった。したがって、これらの特性はモデルタンパク質を解析するために使用された。ラクトースリプレッサーの主要な部分の構造は解明されているので、ラクトースリプレッサー自身が(標的タンパク質ならびに)モデルタンパク質として使用される。したがって、モデルアミノ酸残基は多型標的アミノ酸残基に同一である。標的タンパク質に関する十分な構造情報が存在しない事例においては、モデルタンパク質は配列類似性に基づいて選択され、そしてモデルアミノ酸残基に関して予測がなされると思われる。
【0127】
各モデルアミノ酸残基に関して、選択された3個の連続値特徴(相対的接近可能性、相対的近傍B因子、および相対的近傍エントロピー)の各々および選択された3個のカテゴリ特徴(異常なアミノ酸、クラスにより異常なアミノ酸、および保存された位置)の各々に関して決定がなされた。これらの決定が一度なされると、モデルアミノ酸残基の各々と類似している訓練データセット内の多型アミノ酸が選択された。以下の基準:各選択された連続値変数の値がモデルアミノ酸残基に関する変数値の1標準偏差内であることと、各選択されたカテゴリ特徴の値がモデルアミノ酸残基の特徴値と同一であることとが満たされるならば、訓練多型はモデルアミノ酸残基に十分に類似していると考えられる。
【0128】
各モデルアミノ酸残基に関して、選択された訓練多型はその後、多型標的アミノ酸残基に存在するアミノ酸における変化が標的タンパク質の活性に効果を有する確率を評価するために使用された。評価は、訓練タンパク質、リゾチームの活性に効果を有する選択された訓練多型の比率に基づいた。いくつかのモデルアミノ酸残基に関しては、予測が実施されなかった。これは、選択された訓練多型の数が統計学的に有意な予測を行うには小さすぎたためであった。予測はその後ラクトースリプレッサー多型の既知の効果と比較され、そして予測の精度が解析された。この解析の結果が下記の表1に提示されている。
【0129】
【表1】
【0130】
表1においては、予測は信頼度レベルにより並べ替えされている。したがって、「0.70」見出しの下の列の値は、0.7またはそれを超える機能に効果を有する確率を有する変異が機能に効果を有するであろう、および0.3(1−0.7)の確率を有する変異が機能に影響を与えないであろう、との予測の精度を要約したものである。予測の各クラスの精度は、真の陽性、偽陽性、真の陰性および偽陰性の実際の数により、および予測に関する機能、選択性および感度に効果を有する多型のごくわずかの割合が既知であるようにされ、予測の帰無仮説と比較された相関係数、カイ二乗値により評価された。各列の最後の値は、誤分類率である(誤って予測された変異の割合)。この実施例は、確率論的様式が、多型の可能性のある効果に関して予測を実施するために使用されうることを証明する。
【0131】
実施例 3 :分類様式
この実施例においては、既知の3245個のラクトースリプレッサー多型の各々を、活性を変更する可能性が高い多型、または、活性を変更する可能性が低い多型のいずれかとして分類するために使用された。この実施例においては、1468個のリゾチーム多型が訓練データセットとして、QUESTを用いた分類樹を構築するために使用された。この実施例においては、3個の選択された連続値特徴(相対的接近可能性、相対的近傍B因子、および相対的近傍エントロピー)および3個の選択されたカテゴリ特徴(異常なアミノ酸、クラスにより異常なアミノ酸、および保存された位置)が分類樹を構築するために使用された。ラクトースリプレッサー多型の各々に関して実施された3245個の予測が、多型の既知の効果と比較された。この解析は704個の真の陽性、491個の偽陽性、1500個の真の陰性、および550個の偽陰性が、全体の誤分類率わずか0.32に関して明らかにされた(相関:0.32、カイ二乗:327.73、感度:0.56;特異性:0.59)。この実施例は、分類様式が、多型の可能性のある効果に関して予測を実施するために使用されうることを証明する。
【図面の簡単な説明】
【図1】図1はアノテーション様式のいくつかの段階の例を描写するフローチャートである。
【図2】図2は訓練データセットを用いた予測特徴を選択するいくつかの段階の例を描写するフローチャートである。
【図3】図3は確率論的様式のいくつかの段階の例を描写するフローチャートである。[0001]
Technical field
The present invention relates to a computational method for genetic diversity modeling and prediction.
[0002]
Related application information
This application claims priority from provisional application No. 60 / 208,628 filed on June 1, 2000.
[0003]
Background of the Invention
The human genome contains about 60,000 to 100,000 genes. Diversity (ie, mutation or polymorphism) in any of these genes can result in the production of a gene product, usually a protein, with altered or no activity. The diversity can be as small as a single nucleotide addition, deletion or substitution. Such single nucleotide diversity is sometimes referred to as "single nucleotide polymorphism" or SNP.
[0004]
Researchers have identified over 6,700 human diseases believed to have a genetic component. In addition, certain genetic changes may predispose an individual to a disease, if not directly attributable to the disease. In addition, diversity in particular genes has been associated with differences observed between individuals in response to drugs or other therapeutic interventions. This is important because a relatively small number of individuals have severe side effects reactions to treatment, otherwise otherwise effective treatments are sometimes not used or are withdrawn. If it is possible to attribute the side effects to the specific genetic diversity, it may be possible to identify those individuals who should not be treated with the treatment. This will allow the treatment to be tailored to the individual patient and will increase the number of treatments available. Therefore, there are many reasons to identify and characterize diversity.
[0005]
Of course, not all genetic changes are medically significant. In one study, SNPs in 114 independent alleles of 106 genes associated with cardiovascular disease, endocrine or neuropsychiatry were screened and approximately equivalent to those causing synonymous and non-synonymous changes. (Cargill et al., (1999) Nat. Genet. 22: 231).
[0006]
As there are many non-synonymous changes, it will be useful to predict whether a given polymorphism in the selected gene is likely to cause a change in the function of the gene product.
[0007]
wrap up
The method determines whether the amino acid diversity at selected amino acid residues of the protein of interest is likely (or unlikely) to have an effect on the protein (eg, alter the biological activity of the protein). Features diversity modeling and prediction methods that are useful for evaluating. The methods of the present invention are used to generate a structural model or models of all or a portion of a protein of interest, to assess the quality of the structural model, and to assess potential functional consequences of amino acid diversity. Can be used. The method of the present invention achieves these objectives by considering certain functional, structural, and systematic characteristics of particular amino acid residues.
[0008]
The methods of the present invention are useful even when they do not predict the effects of amino acid diversity with full precision. The increasing number of known diversity makes it extremely difficult to investigate all the important potential diversity. Therefore, techniques that allow one to predict which diversity is more likely to have an effect on the structure or activity of a selected protein (even if imperfect) will prioritize diversity. It is useful because it allows you to turn it on. As a result, it may be possible to determine to allocate more resources to more promising versatility studies and less resources to less promising versatility studies.
[0009]
One embodiment of the method of the present invention, all of which is preferably carried out using a computer program, comprises the step of determining a model amino acid residue of a model protein that represents a polymorphic amino acid residue of interest (diversity) of a protein of interest. Identify, generate analytical records of model amino acid residues, generate estimates of model quality, generate summaries of evaluated functional, structural and phylogenetic features, and relate to the various features evaluated The information is used to generate a graphical representation of all or some of the model proteins that can be annotated.
[0010]
Another embodiment of the method of the present invention generates a probabilistic-based prediction of the likelihood that an amino change at a polymorphic amino acid residue of a protein of interest will have an effect on the protein.
[0011]
The method of the present invention provides a protein that functions as a structural model of a selected polymorphic amino acid (“polymorphic target amino acid residue” or “target diversity”) of a protein of interest (“target protein” or “target sequence”). It requires identifying a model amino acid residue ("model amino acid residue" or "model diversity") within the structure ("model protein"). A polymorphic target amino acid residue is a particular amino acid residue having a polymorphism in a protein of interest. Thus, in a first variant of the target protein, it is a first amino acid (eg, glycine), and in a second variant of the target protein, it is a second amino acid (eg, lysine). Of course, there can be additional variants of the target protein where the amino acid present at the polymorphic target amino acid residue can be, for example, a third, fourth, or fifth amino acid. The method of the present invention can be used to evaluate amino acid changes present in any number of polymorphic target amino acid residues, and different polymorphic amino acid residues in the target protein.
[0012]
Information about the protein structure is important for the method of the present invention, and the model protein must have sufficient structural information to perform the analysis of the method. Structural information can be derived from X-ray crystallography, NMR or some other technique for determining protein structure at the amino acid or atomic level. The model protein is selected at least in part from proteins having structural information based on sequence similarity to the target protein. Accordingly, model proteins can be selected based on overall sequence similarity to the target protein or based on the presence of a portion having sequence similarity to a portion of the target protein that includes polymorphic target amino acid residues.
[0013]
Once a model amino acid in a model protein has been identified, the methods of the invention require assessing certain functional, structural, and phylogenetic characteristics of the model amino acid and its environment within the model protein. The values of the characteristics of the model amino acid residues are then used to determine the ability to effect an amino acid change (or diversity) at the polymorphic target amino acid residue by comparing to certain criteria. Some features have categorical values. For these features, there may only be two values that either meet or do not meet the specified criteria for the feature. One example of a category feature is "helix breaking". To meet the criteria for "helix disruption", the model amino acid residue must be within the region of the helical secondary structure and one of the polymorphic amino acids must be either glycine or proline. Other features, referred to as "environmental features," because they describe the structural, physical, and systematic arrangement of model amino acid residues, can be either continuous values or categorical values. For example, the solvent accessibility of a model amino acid can be a continuous value or, if a cutoff value is defined, a categorical value.
[0014]
An important feature of the diversity modeling and prediction method of the present invention is the concept of “structural neighborhood”. This is the region within the radius of a selected atom of a particular amino acid residue. Amino acid residues within the vicinity of the structure of an amino acid residue and other structural features strongly influence the effect of the actual amino acid change present at the amino acid residue position. Another important feature of the diversity modeling and prediction method of the present invention is to select functional, structural, and systematic features that are useful in predicting the effects of diversity. Among the features are analyzed solvent exposure, access to heterogen atoms, and deviations from the average crystallographic B-factor of the model protein. These and other features are described in more detail below.
[0015]
The method of the present invention is very powerful because it does not require structural information about the target protein beyond the sequence of the target protein or the region of the target protein in the region containing the polymorphic target amino acid residue. The method of the present invention relies on using public sequence and structure databases. As more and more sequences and structures are added, the database becomes more robust. Thus, the reliability of the models and predictions made by the method of the present invention will increase continuously.
[0016]
It is possible to use the methods of the present invention to predict which non-synonymous polymorphisms are likely to have an effect on protein function; however, they are useful in many other areas of protein science. Has applicability. For example, the method can be applied to predicting whether a polymorphism will affect the interaction of a drug with a target protein. The method of the invention can be used for this purpose. When two or more polymorphisms occur in a single protein, the methods of the invention can assist in assessing both separate and combined effects. More generally, the choice of target protein and polymorphism need not be dictated by the occurrence of natural genetic diversity. For example, the selection can be forward-looking, as in the case of enzyme design where the methods of the invention are applied to assess which potential mutations will alter enzyme activity. Broadly, the methods of the invention can be used whenever it is important to assess the relationship between amino acid diversity and any aspect of protein activity or structure.
[0017]
As used herein, the terms “polymorphic amino acid residue”, “amino acid polymorphism”, “polymorphism” and “diversity” refer to one different amino acid or two or more amino acids. A certain amino acid position in a protein can be another different amino acid. In the context of proteins, the term "structure" refers to the three-dimensional arrangement of atoms within a protein. "Function" means any measurable protein property. Examples of protein functions include, but are not limited to, catalysts, binding to other proteins, binding to non-protein molecules (eg, drugs), and isomerization between two or more structural types. “Biologically important protein” means any protein that plays a role in the life of an organism. By "training dataset" is meant a collection of one or more proteins, each having information about one or more polymorphisms or mutations and the effect of each polymorphism on protein structure or function. .
[0018]
Detailed description
The invention features diversity modeling and prediction methods. The method can be used to assess the effect of any number of amino acid diversity on a protein of interest ("target protein"). Thus, this method is useful for assessing the effect of amino acid changes on selected polymorphic amino acid residues in a target protein. The amino acid residue can be an amino acid residue known to exhibit a polymorphism, ie, an amino acid residue known to differ between individuals in a population. For example, some individuals have glutamic acid at amino acid 6 of their hemoglobin beta chain. Other individuals have valine at this location, and this polymorphism is responsible for sickle cell anemia. In many instances, it will be known that the amino acid residue is polymorphic, but it will not be known if the polymorphism has any effect on the protein of interest. The diversity modeling and prediction methods of the present invention are directed to residues within a model protein used to represent polymorphic amino acid residues ("polymorphic target amino acid residues") of a protein of interest ("target protein"). (“Model amino acid residues”). Model amino acid residues and model proteins are selected based on sequence similarity to all or part of the target protein. For a model protein, considerable structural information is available (eg, the protein structure has been elucidated). The method of the present invention requires investigating various physical, structural and phylogenetic characteristics of model amino acid residues. The characteristics investigated are useful for predicting whether a change in the amino acid present at the model amino acid residue has an effect on the activity of the model protein. Examples of such features include solvent accessibility, relative crystallographic B-factor and proximity to heteroatoms. Since the model amino acid residues and the model protein are similar to the polymorphic target amino acid residues and the target protein, respectively, the predictions made for the model amino acid residues and the model protein are Would be appropriate.
[0019]
The method of the present invention can be used to assess the effect of any known polymorphism. The method of the present invention is also used to assess the effect of any potential change at any selected amino acid residue, including amino acid residues that are not known to be polymorphic. It is possible.
[0020]
The method of the present invention comprises: 1) an annotated model of the polymorphic target amino acid residue (annotation mode); 2) prediction of the probability that a change in the amino acid present in the polymorphic target amino acid residue will have an effect on the activity of the target protein. (Probabilistic mode); or 3) to provide a classification (classification mode) of polymorphic target amino acids that are either more or less likely to have an effect on the activity of the target protein. Can be used. In all three modes, model amino acid residues are used to represent polymorphic target amino acid residues. In addition, all three modes require determining the value of at least one of the selected physical, structural and phylogenetic characteristics of the model amino acid residue.
[0021]
In one embodiment of the annotation format, the values of the selected features can be used to provide an annotated model of the target protein. One of skill in the art can use the value of the selected characteristic to assess the likelihood that an amino acid change present at the polymorphic target amino acid residue will have an effect on the activity of the target protein.
[0022]
FIG. 1 is a flowchart depicting an example of some steps in one embodiment of an annotation style. The amino acid sequence of the target protein and the position of the polymorphic target amino acid residue in the target protein are identified (step 102). Proteins having sequence homology to the target protein are identified using an algorithm to identify homologous protein sequences (step 104). The model protein is selected from selected proteins having sequence homology to the target protein, and model amino acid residues in the model protein are identified (step 106). The structural neighborhood of the model amino acid is determined (step 108), and the values of the selected structural, physical and phylogenetic characteristics of the model amino acid residue and its structural neighborhood are determined (step 110). The result of the various decisions is their output (step 112). The output can be a list of all or some values of the model protein or an annotated graphical depiction.
[0023]
The probabilistic and classification modalities utilize a polymorphic database ("training dataset") that meets two requirements. First, the effect of each polymorphism on the protein activity must be known. Second, there must be sufficient structural information about the protein containing the polymorphism to determine at least one selected structural, physical and phylogenetic feature. The polymorphism database ("trained polymorphism") can include a single protein, eg, a lactose repressor or lysozyme polymorphism, or two or more protein polymorphisms. Thus, for each training polymorphism, the effect on activity, such as at least one structural, physical and systematic feature value, is known.
[0024]
In one embodiment of the probabilistic modality, the training polymorphism is all possible structural, physical and phylogenetic that is most useful in predicting whether the training polymorphism has an effect on activity. Is statistically analyzed to identify a subset of the statistical features. This subset will also be useful for predicting whether amino acid changes at model or polymorphic target amino acid residues will have an effect on activity. FIG. 2 is a flowchart depicting an example of some steps in selecting a subset of features that are useful for prediction. First, an unbiased training polymorphism training data set having a known effect on activity is provided (step 202). For each training polymorphism in the dataset, the values of the selected physical, structural and systematic features are then determined (step 204). Statistical analysis is then used to select a subset of features that are useful for performing the prediction (step 204).
[0025]
Once a subset of features has been identified, the probabilistic mode requires selecting training polymorphisms that are similar to the model amino acid residues in terms of the subset of features. The proportion of selected training polymorphisms that have an effect on activity is determined, and this information is used to predict whether amino acid changes present at model amino acid residues have an effect on the model protein. Is done. This prediction is also relevant for polymorphic target amino acid residues and target proteins, as the model amino acid residues are selected to represent the polymorphic target amino acid residue. Probabilistic styles can be more easily understood by considering certain examples. In this example, the polymorphic target amino acid residue is amino acid 120 of target protein X. Based on the sequence similarity to protein X, amino acid residue 150 of protein A (model protein) is selected as the model amino acid residue. Since the structure of protein A has been elucidated, the value of the selected feature of amino acid residue 150 of model protein A can be determined. The known polymorphism of the lactose repressor (training polymorphism) is then determined based on the similarity of selected subsets of these features to the analyzed subset of various features of amino acid residue 150 of protein A. And selected. The selected lactose repressor polymorphism is used to predict whether an amino acid change at amino acid 120 of target protein X will have an effect on protein X. For example, if eight of the ten selected lactose repressor polymorphisms have an effect on the activity of the lactose repressor, an amino acid change at the polymorphic target amino acid residue will have an effect on the activity of the target protein The likelihood is higher than if only two of the ten selected lactose repressor polymorphisms had an effect on the activity of the lactose repressor.
[0026]
FIG. 3 is a flowchart depicting an example of some stages of the stochastic mode. The amino acid sequence of the target protein and the position of the polymorphic target amino acid residue in the target protein are identified (step 302). Proteins having sequence homology to the target protein are identified using an algorithm for identifying homologous protein sequences (step 304). The model protein is selected from selected proteins having sequence homology to the target protein, and model amino acid residues in the model protein are identified (step 306). The structural neighborhood of the model amino acid is determined (step 308), and the values of the selected structural, physical and phylogenetic features of the model amino acid residue and its structural neighborhood are determined (step 310). Training polymorphism in an unbiased training dataset with structural, physical and phylogenetic features similar to the model amino acids and their structural neighborhoods (step 312). The ratio of training polymorphisms that have an effect on protein activity, identified in step 312, can be used to assess the likelihood that amino acid changes present at polymorphic target amino acid residues will have an effect on the target protein. Used (step 314).
[0027]
In some embodiments of the classification modality, training polymorphisms and related information regarding the effect of the polymorphism on the activity and values of various characteristics of the polymorphism are used to construct a classification tree. Classification trees can be used to classify model amino acid residues into those that are likely to have an effect on activity or those that are unlikely to have an effect on activity. This classification is also relevant for polymorphic target amino acid residues and target proteins, as the model amino acid residues are chosen to represent the polymorphic target amino acid residue.
[0028]
Annotation styles, stochastic styles and classification styles are three examples of how the methods of the present invention can be used. One skilled in the art will recognize that many other implementations are possible. For example, it may be possible to derive mathematical relationships (eg, regression relationships) between possible subsets of all physical, structural, and systematic features that can be used to predict the effects of polymorphisms. unknown.
[0029]
Selection and validation of model protein and model amino acid residues
An important step in the method of the invention is to select model amino acid residues in the model protein that can be used to represent polymorphic target amino acid residues in the target protein. This is achieved by first selecting a model protein. The model protein can be any protein that has homology to the target protein in sequence and for which there is sufficient structural information. Typically, the selection involves searching a verified structural database, such as the Protein Data Bank (PDB), for proteins that are similar in sequence to the target protein.
[0030]
Sequence similarity typically involves aligning two sequences and determining the two quality scores, E values (a measure of expectation by chance), and the number of aligned residues that are identical in the two sequences. Is evaluated by the BLAST program (NCBI), which reports and evaluates alignments. It can also be assessed using other sequence alignment methods such as the Smithwaterman or FASTA algorithm. Using BLAST, if the E value of the alignment for the target protein sequence and the model protein sequence is sufficiently small (eg, if the E value is 10-4), The protein structure from the PDB is considered as an acceptable model of the target protein structure. This is a relatively stringent criterion, and it is also possible to use alignments with E values of 1 or greater if there is reinforcing structural or biological information. For example, an E value that is structurally, functionally or biologically similar to the target protein is 10-4More than two proteins may be useful. When there is a selection of proteins in the PDB that have homology to the target protein, the PDB sequence with the lowest possible E value (ie, having the highest homology to the target protein) is preferably selected as the model protein .
[0031]
After the model protein has been selected, an alignment between the residues in the target protein and the residues in the model protein (eg, BLAST alignment) can be used to identify residues in the model protein that are model amino acid residues. used. In some cases, the crystal (or NMR) structure for the target protein itself already exists in the PDB, which is of course the best possible case. Here, the E value of the alignment is essentially zero, and the quality of the model is comparable to the reliability of a crystallographic analysis (or NMR) process. In other cases, a theoretical homology model of the target or related protein may be constructed, published, and deposited with the PDB. The quality of the homology model can be assessed manually by reference to the homology modeling process and from publications describing the model. Other embodiments of the present invention can incorporate explicit steps to build a fully optimized homology model for each target protein before assessing the function of individual residues.
[0032]
The structure of the model protein in the vicinity of the model amino acid residues can be assessed for quality. To do this, the vicinity of the structure of the model amino acid residue is identified. For example, a structural neighborhood can be a set of residues in a model protein structure having at least one atom within some distance or radius (eg, 5 °) from at least one atom of the model amino acid residue. . Intuitively, residues near the structure are those that have the closest contacts with the modeling diversity, and a value of 5 ° for radius is used to represent a tolerable approximate distance for van der Waals interactions It is possible. Model quality near model amino acid residues is calculated as the percentage of residues near the structure where the target protein and its structure are identically conserved in a BLAST alignment of the protein used for the model. Statistical measures of neighborhood similarity may also be used to assess quality (eg, structural neighborhoods corresponding to BLAST E-values). In contrast to the general or global assessment of model quality as reflected in BLAST alignment statistics, measures of conservation near the structure are very detailed with respect to the accuracy of modeling near the model amino acid residues themselves. Provide a measure.
[0033]
The structural neighborhood of the model amino acid residue is used to define the structural neighborhood of the polymorphic target amino acid residue. To do so, the sequence of the region of the model protein corresponding to the vicinity of the structure of the model amino acid residue is aligned with the sequence of the target protein, and the aligned amino acids of the target protein are partly located near the structure of the polymorphic target amino acid residue. Is defined as
[0034]
As described in more detail below, structural proximity around model amino acid residues is also used in determining the functional consequences of amino acid diversity on a target protein.
[0035]
Once model quality is assessed, potential functional consequences of diversity are assessed by considering various features associated with both the model amino acid residue and the target amino acid residue. The values of many features described herein are based on the methods described in Proteins (T. Creighton, WH Freeman and Co., New York, 1992; hereby incorporated by reference herein). It is possible to calculate using.
[0036]
Features related to the distance between model amino acid residues and certain structural factors
Distance between the model amino acid residues and any structural motifs or important functional residues, such as the enzyme active site in the model protein; distance between the model amino acid residues and any heterogens present in the model protein; The distance between residues and any subunit surfaces in the model protein is examined in the model protein between features.
[0037]
To identify important structural motifs, the sequence of the target protein and the sequence of the model protein may be identified in one or more databases of recognized domains, such as the PROSITE (Prosite) database domain (Bairoch et al. (1997) Nucl. Acids.Res. 24: 217) or a entry in the pfam @ HMM database (Bateman et al. (2000) Nucl. Acids. Res. 28: 263). Prosite databases are typically two types of compilations, compilations of sequence signature profiles representing the entire protein domain, and patterns typically representing only the most conserved functional or structural aspects of the protein domain. Things. For prosite profiles and patterns that match both the sequence of the target protein and the sequence of the model protein, the minimum distance between the atom at the model amino acid residue and the model atom that matches the prosite entry is determined. A small minimum distance between the model amino acid residues and the prosite match (eg, 5 °) is likely to indicate potential consequences of amino acid diversity on the structure and function of the target protein.
[0038]
Another important feature is the distance between the model amino acid residues and any heterogens in the model protein. Heterogens are small chemical groups (non-protein molecules) in the protein structure that are associated with the protein during structure determination. Often, the heterogen is an enzyme cofactor, substrate, glycoside, substrate analog, or drug. Their location in the protein structure may indicate the location of an enzyme active site or a key functional motif. For a match to the prosite pattern, the initial distance between the atom at the model amino acid residue and the heterogen atom of the model structure is calculated and reported. If small (eg, 5 °), the distance is interpreted as reflecting the potential effect of the model amino acid residues on the function of the model protein and, by extension, the function of the target protein. For example, model amino acid residues near an enzyme cofactor are interpreted as suggesting that diversity has an effect on enzyme activity.
[0039]
Distance criteria can also be used to assess the potential effect of diversity on the quaternary structure stability of the target protein. If the model amino acid residues are relatively close (eg, within 5 °) of the model protein subunit interface, these features are reported and interpreted as having a potential effect on the method in which the protein subunit is involved. Is done.
[0040]
Ultimately, the relatively small distance between two or more model amino acid residues (each modeling the same or different polymorphic target amino acid residue) (e.g., within 5%) of the target protein Interpreted as reflecting potential functional interactions between the variable residues. This last possibility may be particularly important when multiple diversity within a single target protein has biological properties that depend on their haplotype.
[0041]
Features related to the essential structure and phylogenetic aspects of model amino acid residues
One important class of characteristics that can be used to assess the tolerance of a protein to a polymorphism relates to the essential structural properties and phylogenetic aspects of model amino acid residues. Structural properties include the accessibility of model amino acid residues to solvents, and their secondary structural classification, eg, helix or sheet. Both of these properties are calculated for model amino acid residues in the context of model protein structure from well-known algorithms. Both are used to implement the concept that amino acid polymorphisms at residues having a certain structural arrangement are likely to affect protein structure or function. A phylogenetic aspect of a polymorphic target amino acid residue is a quantitative measure of the degree of phylogenetic variability (or otherwise conserved) of a polymorphic target amino acid residue within a family of protein-related sequences, including the target protein. There are several ways of expressing phylogenetic variability, such as the Kabat-Wu variability scale, systematic weight, any of which will be sufficient. One convenient measure is systematic entropy. This value can be calculated from a simultaneous multiple alignment of the target protein sequence family. For example, all protein sequences in a public database that are at least 30% identical to the target protein can be collected using known algorithms, such as CLUSTALW, and aligned with each other. This set of simultaneously aligned sequences is known as a multiple alignment. An association is defined between each residue of each sequence and one (or zero if there are gaps in the alignment) of each residue of the other sequence. Each position in the multiple alignment thus represents a set of homologous residues within the set of homologous proteins. The entropy of each part is
Is calculated as
Where:
fi = frequency of amino acid i at that site in a multiple alignment;
N = number of different amino acids at that site in a multiple alignment.
[0042]
The structural and phylogenetic information required to analyze the essential structural and phylogenetic features of the model amino acid residues is based on the continuously updated structural and phylogenetic information for each protein structure in the PDB database. It can be found in the HSSP database that provides phylogenetic information (Sander et al., (1991) Proteins $ 9: 56-68). In the HSSP file, the structural data for each residue in the protein structure includes its secondary structure assignment (eg, helix, sheet, etc.) and inference of solvent accessibility. Each residue in the corresponding PDB structure is also associated with a systematic entropy calculated from multiple alignments of proteins that share at least 30% sequence identity with the model protein. If the target protein is included in the HSSP multiple alignment of the model protein sequence family, this phylogenetic information can be used to approximate phylogenetic information for proteins similar to the target protein. A complete majority alignment of the proteins related to the model protein, and thus the amino acid profile of each residue, is also provided in the database. The HSSP structure and systematic data of all model amino acid residues can be reported using the method of the present invention. This data can also be used in a series of tests to determine if there is a predicted functional result for the target protein of a change in the amino acid present at the polymorphic target amino acid residue. The following functional tests can use information from the HSSP database.
[0043]
1) Embedded charge: the model amino acid is inaccessible and the polymorphic target amino acid residue contains a charged residue.
[0044]
2) Conserved position: Many model amino acid residues are absolutely conserved in the alignment profile.
[0045]
3) Helix disruption: the polymorphic target amino acid residue contains either glycine or proline, and some other amino acids, and the model amino acid residue is within the region of the helix secondary structure based on structural analysis .
[0046]
4) Inaccessibility: the model amino acid residue is about 10 °2(Less than about one water molecule). This feature uses a relative accessibility value, which is the ratio of the observed solvent exposure to the maximum solvent exposure of the model amino acid residues amino acids in the polyalanine chain (or some other predetermined polypeptide chain). It is also possible to evaluate. A relative accessibility value of less than about 0.2 indicates that the model amino acid residue is inaccessible, while a value of greater than about 0.8 indicates that the model amino acid residue is accessible .
[0047]
5) Low or high entropy: Entropy values of model amino acid residues of less than about 0.5 or about 2.0 or more can indicate intolerance or tolerability to the polymorphism, respectively. Similarly, the entropy of a model amino acid residue can be measured relative to the entropy value of other residues in the model protein, and can be, for example, less than or greater than about 2.0 standard deviations from the average entropy. , Can mean tolerability or tolerability to the polymorphism, respectively. Other relative measures, such as ranking, may also be used.
[0048]
6) Rare amino acids: polymorphic target amino acid residues include certain amino acids that are not found in more than 10% of the times in a multiple alignment profile of model amino acid residues.
[0049]
7) Turn disruption: the polymorphic target amino acid residue contains either glycine or proline, and some other amino acids, and the model amino acid residue is in the region of the turn secondary structure.
[0050]
8) Unusual amino acids: Polymorphic target amino acid residues include certain amino acids that are not found in multiple alignment profiles for polymorphic target amino acid residues. If the target protein and the model protein are sufficiently similar, this feature can be approximated by a multiple alignment profile of the model amino acid residues from, for example, an HSSP file.
[0051]
9) Unusual amino acids by class: polymorphic target amino acid residues are found in the minimum profile of Adams et al. (Protein Science 5: 1240, 1996) that includes all amino acids in the systematic profile of target or model amino acid residues. Not done. This feature is preferred over the "unusual amino acid" feature used when the multiple alignment includes a relatively small number of sequences. Classification schemes other than those proposed by Adams et al. Can also be used.
[0052]
10) Hydrophobic compatibility: the average hydrophobicity of the model amino acid residues is outside a predetermined range (ie, the neighborhood is particularly hydrophobic or particularly hydrophilic), and the first amino acid and the second amino acid The difference in hydrophobicity between the two amino acids exceeds a predetermined value.
[0053]
11) Implant volume compatibility: the model amino acid residues are inaccessible to the solvent, and the maximum solvent accessibility of either the first or second amino acid is determined by a predetermined amount by the model amino acid residue. It is different from the base implantation volume.
[0054]
With respect to the above characteristics, the numerical cutoff value is simply a suggested value. Other values are also useful and can be selected by those skilled in the art.
[0055]
Systematic features related to the structure vicinity of model amino acid residues
Systematic data (eg, from the HSSP database) can be used to analyze the model amino acid residues near their structure in order to determine if the model amino acid residues are present in a relatively conserved region of the model protein. It can be used for For example, the entropy values from the HSSP database for each residue near the structure are averaged. A structural neighborhood is abnormal on an absolute basis if its average entropy value is significantly less or significantly greater than the average entropy for the structural neighborhood derived from the representative PDB structure and its corresponding systematic properties, respectively. Or is determined to be abnormally variable. Representative structures from the PDB have been defined by others on the basis of the folding family (see Holm and Sander, Science 273: 595) and are available through the EMBL FSSP database. Structural neighborhoods from about 600 representative structural families are compiled and analyzed for systematic entropy.
[0056]
To determine whether it is relatively conserved relative to other structural neighbors in the model protein, the average near-structural entropy value is calculated as the entropy of all residues in the model protein polypeptide chain, including the model amino acid residues. Compared to the mean and standard deviation. Conventional significance statistics are calculated as:
Relative neighborhood entropy = (<En> − <Ec>) / (SD En)
Where:
N = number of residues near the structure,
<En> = average entropy of residues in the vicinity of the structure,
<Ec> = average entropy of residues in the polypeptide chain including the model amino acid residues,
S. D. Ec = standard deviation of the entropy of the residues in the polypeptide chain including the model amino acid residues,
S. D. En =
= Standard deviation of the average entropy for a sample of N residues selected from the same chain as the model amino acid residues.
[0057]
This value is reported. Diversity is high if they occur in the vicinity of structures that are very well conserved or highly variable, respectively, as compared to entropy values for residues in the polypeptide chain that include the model amino acid residues. Attributable or not attributable to possible structural and functional consequences. Other relative measures, such as t-distribution values, may be used.
[0058]
While phylogenetic entropy can be used as a feature, one skilled in the art can use other measures of phylogenetic variability of polymorphic amino acid residues and model amino acid residues. These measures relate to the variability of amino acids present at selected positions in a selected set of related proteins.
[0059]
Crystallographic B Factor related features
A similar treatment is applied to crystallographic factor B (if available) to identify those parts of the model protein that are abnormally rigid and therefore relatively insensitive to amino acid variations. (If B-factor is not available, another measure of molecular rigidity can be used instead, eg, a statistical set from NMR.) B-factor is, for each residue in the model structure, its atomic B-factor. And the low and high B-factor values (eg, 15.0 ° each) calculated from the structure neighborhoods in a representative set of PDB structures2And 45.0Å2Is estimated first) with the absolute standard. Subsequently, a relative measure of the model residue factor B is determined by comparing the mean and standard deviation for the residues in the model protein. Other relative measures, such as ranking, may also be used. As described above, model amino acid residues having a factor B that is significantly lower or higher relative to other residues in the model protein are relatively less tolerable or tolerant to amino acid variation, respectively. Is determined. Using similar interpretations of low and high values, the average B-factor near the structure of the model amino acid residue can be calculated and compared to the absolute standards of low and high B-factor values compiled for representative PDB structures It is. Eventually, a measure of the near-structural B factor relative to the model protein itself, relative to the mean and standard deviation of the B-factor for the residue in the polypeptide chain of the model amino acid residue, It is determined by comparing the average of residue B factors for The significance of the mean B factor near the structure is calculated as:
Relative neighborhood B factor = (<Bn> − <Bc>) / (SDBn)
Where:
N = number of residues in the vicinity of the structure,
<Bn> = average residue B factor of residues in the vicinity of the structure,
<Bc> = average residue B factor of residues in the polypeptide chain involved in the vicinity of the structure,
S. D. Bc = standard deviation in residue factor B of residues in the polypeptide chain involved in the vicinity of the structure;
S. D. Bn =
= Standard deviation of the mean factor B for a sample of N residues selected from the same chain as the model amino acid residues.
[0060]
This value is reported. Modeling diversity near the structure of significantly lower average residue factor B (eg, 2.0 SDBn) indicates that they exist in a sufficiently robust environment that they may have structural and functional consequences. Is determined. Modeling diversity near the structure of significantly higher average residue factor B (eg, 2.0 SDBn) is poorly flexible, they may not have structural and functional consequences It is determined that the environment is a safe environment. Other relative measures, such as t-distribution values, can be used.
[0061]
Factor B is associated with the flexibility of the region of the polypeptide being analyzed. Thus, factor B can be replaced in the method of the invention by another suitable measure of flexibility. For example, where NMR data is available, factor B may be the r.m. of residue positions for structural populations or experimental determinations in atomic binding constants and relaxation times that are diagnostics of mobility. m. s. Can be replaced by
[0062]
Reporting and presenting results
The method of the present invention reports the output of quality and functional tests for each of the diversity in the course of the analysis and produces a graphical representation of the model protein, generated as a script such as a molecular expression program, eg, RasMol. It is possible. In the standard representation, the protein structure can be represented by a ribbon, while the modeling diversity, heterogen, and residues corresponding to prosite matches in the model structure are presented in a space-filled representation. Residue tags are added for modeling diversity. Ultimately, all output, including graphical displays, can be converted to a web browser readable format.
[0063]
The value assigned to the feature
In the method of the invention, various features are quantified. The following list provides suggested values for cutoff values. These are only suggested values. One skilled in the art is appropriate for the particular situation. Other cutoff values can be selected.
[0064]
Embedded charge: Model amino acids are inaccessible and the actual diversity includes charged residues. Values are yes or no.
[0065]
Conserved position: model amino acid residues are absolutely conserved in systematic analysis. Values are yes or no.
[0066]
Inaccessibility: The model amino acid residue is about 10% of the solvent.2(〜1 water molecule). Value is Å2Is the area accessible to the solvent. About one water molecule / 10Å2It is possible that there is a solvent accessible surface of For example, a model amino acid residue can also be defined as inaccessible if it has a low value for its relative accessibility value of less than about 0.2.
[0067]
Interface: Modeled diversity is within 5.0 ° of at least one residue in a polypeptide chain that differs in coordinates. Values are yes or no.
[0068]
Close to conserved: model amino acid residues are within 5.0% of the absolutely conserved residues in phylogenetic analysis. Values are yes or no.
[0069]
Close to heterogen atom: the model amino acid residue is within 5.0 ° of the heterogen atom. The value is the distance of Å.
[0070]
Close to other diversity: model amino acid residues are within 5.0% of one other model amino acid residue. The value is the distance of Å.
[0071]
Close to the prosite sequence: the model amino acid residue is within 5.0 ° of the residue at the coordinate that matches the prosite entry also matched by the target protein. The value is the distance of Å.
[0072]
Close to prosite structure: the model amino acid residues are within 5.0% of the residues in the model structure that match prosite entries that are not matched by the target protein. The value is the distance of Å.
[0073]
Rare amino acids: at least one residue encoded by diversity is not found more than 10% of times in the systematic profile of model amino acid residues. Values are yes or no.
[0074]
Helix Disruption: Polymorphic target amino acid residues include either glycine or proline, and some other amino acids, and model amino acid residues are present in the region of the helix secondary structure. Values are yes or no.
[0075]
Turn disruption: polymorphic target amino acid residues include either glycine or proline, and some other amino acids, and model amino acid residues are present in regions of the turn secondary structure. Values are yes or no.
[0076]
Unusual amino acids: At least one of the residues encoded by the polymorphic target amino acid residue is not found in the systematic profile for the polymorphic target amino acid residue. This variable can be approximated using a systematic profile of model amino acid residues, for example, from an HSSP file. Values are yes or no. This variable can also be evaluated using a class as described above.
[0077]
Low or high B factor: The average B factor for the model amino acid residues is less than 15.0 or greater than 45.0. A lower value means lower motion for that residue in the crystal structure.
[0078]
Low or high relative B: The average B factor for the model amino acid residue is at least 2 standard deviations above or below the average B factor for the residue in the polypeptide chain of the model amino acid residue. Values are standard deviation figures.
[0079]
Low or high neighborhood B: The average B factor for the structure neighborhood of the model amino acid residue is less than 15.0 or greater than 45.0.
[0080]
Low or high relative neighborhood B: The average B-factor for the structural neighborhood of the model amino acid residue is at least 2S. Of the average B-factor for the residue in the polypeptide chain of the model amino acid residue. D. (SD defined above) above or below. Values are standard deviation figures.
[0081]
Low or high systematic entropy: the entropy of model amino acid residues is less than 0.5 or greater than 2.0. Values are entropy units ranging from 0.0, which means absolute conservation, to ln20-3, which means no conservation.
[0082]
Low or high relative systematic entropy: The entropy of model amino acid residues is 2.0 S.M. D. Smaller or larger.
[0083]
Low or High Near Entropy: The average entropy near the structure of a model amino acid residue is less than 0.5 or greater than 2.0.
[0084]
Low or high relative neighborhood entropy: The average entropy of the model amino acid residues near the structure is at least 2.0 S.M. D. (SD defined above) Small or large. Values are S.P. D. Is the number.
[0085]
Using features as predictors
The various features of the model amino acid residues described above can be used as predictors in quantitative and statistical models to assess whether a polymorphism has an effect on protein structure or function. Statistical models rely on actual experimental data on the diversity of effects on protein activity. The prediction model can exploit continuous values of the predicted features (or discrete approximations of the continuous values, eg, high, medium and low B factors). Two statistical models are described below that predict whether a polymorphic target amino acid residue will have an effect on protein structure or function by evaluating some or all of the characteristics of the modeling diversity. . The features in the prediction method are slightly adapted from their above definitions. Other statistical models that predict the effects of polymorphic target amino acid residues can be used and are provided as a reference at the end of this section. These alternatives can use some or all of the same predictive characteristics of the model amino acid residues.
[0086]
The features used for prediction are divided into two broad categories: environmental features and categorical features. The class of categorical features is further divided into polymorphism-specific classification features and singular case classification features. Each of these different features is briefly described below with an example of how this feature is evaluated.
[0087]
Environmental features:
All environmental features can be used in a continuous or categorical format, with or without normalization, depending on the statistical method utilized for prediction.
[0088]
Solvent accessibility: This is a measure of the accessibility of the model amino acid residue to the solvent. It is used as a continuous variable in the stochastic model described below. It can be converted to a categorical variable by splitting it into, for example, 2, 3 or 4 bins with the same number of training data polymorphisms in each bin for the classification tree model below. Other methods can be used with these and other statistical models.
[0089]
Relative accessibility: This refers to the accessibility of the model amino acid residue to the solvent, relative to the maximum accessibility of that residue in the peptide of a particular composition, typically a polyalanine polypeptide. It is a measure. It is used as a continuous variable in the stochastic model described below. It can be converted to a categorical variable by splitting it into, for example, 2, 3 or 4 bins with the same number of training data polymorphisms in each bin for the classification tree model below. Other methods can be used with these and other statistical models.
[0090]
Relative B-factor: This is a measure of the crystallographic B-factor of a model amino acid residue normalized to the mean and standard deviation of the B-factor for other residues in the same polypeptide chain of the model protein. . It is used as a continuous variable in the following stochastic model. It can be converted to a categorical variable by splitting it into, for example, 2, 3 or 4 bins with the same number of training data polymorphisms in each bin for the classification tree model below. Other methods can be used with these and other statistical models.
[0091]
Relative neighborhood factor B: This feature is based on the statistical significance of the average factor B near the structure of the model amino acid residue relative to the average factor B of the polypeptide chain of the model amino acid residue (for the same feature (As defined above). It is used as a continuous variable in the stochastic model described below. It can be converted to a categorical variable by splitting it into, for example, 2, 3 or 4 bins with the same number of training data polymorphisms in each bin for the classification tree model below. Other methods can be used with these and other statistical models.
[0092]
Relative neighborhood entropy: This feature is the statistical significance of the average systematic entropy near the structure of the model amino acid residue relative to the average systematic entropy of the polypeptide chain of the model amino acid residue (same feature (Defined above with respect to). It is used as a continuous variable in the stochastic model described below. It can be converted to a categorical variable by splitting it into, for example, 2, 3 or 4 bins with the same number of training data polymorphisms in each bin for the classification tree model below. Other methods can be used with these and other statistical models.
[0093]
Polymorphism-specific category features:
These features are diversity-specific, as they relate to the identity of the amino acids including the polymorphic target amino acid residue. In the statistical modeling methods described below, these features are given a value of 1 (ie, yes) if the polymorphism meets certain criteria, and a value of 0 (ie, no) otherwise.
[0094]
Unusual amino acids: one of the polymorphic amino acids is not found in the systematic profile of the target variable residue. This feature can be approximated, for example, from an HSSP file by examining the systematic profile of the model amino acid residues.
[0095]
Unusual amino acids by class: one of the polymorphic amino acids is not found in the minimal profile from Adams et al. (Protein Science 5: 1240, 1996) that includes all amino acids in the systematic profile of polymorphic target amino acid residues . This feature can be approximated from a systematic profile of model amino acid residues, eg, an HSSP file. This feature is preferably used when the multiple alignment includes a relatively small number of sequences. Classification schemes other than those proposed by Adam et al. Can also be used.
[0096]
Conserved position: Model amino acid residues are conserved in phylogeny.
[0097]
Embedded charge: The model amino acid is inaccessible to the solvent and one of the amino acids of the polymorphic target amino acid residue is charged.
[0098]
Turn disruption: the model amino acid has a turn secondary structure, and one of the polymorphic amino acids is glycine or proline.
[0099]
Helix disruption: the model amino acid has a helical secondary structure assignment, and one of the polymorphic amino acids is glycine or proline.
[0100]
Special category features:
These features relate to special cases relating to the position of model amino acid residues in model structures that are not polymorphism specific. A value of 1 (ie, yes) is given if the model amino acid residue meets certain criteria, and a value of 0 (ie, no) otherwise.
[0101]
Close to heteroatom: the model amino acid residue is near the heterogen atom (ligand) of the model protein (eg, 5 °).
[0102]
Close to prosite sequence: the model amino acid residue is close to a prosite match common to the target and model proteins (eg, 5 °).
[0103]
Interface: The model amino acid residue is close to the interface between two or more subunits in the model protein (eg, 5 °).
[0104]
Training dataset
1) at least one amino acid variation in the protein for which there is sufficient structural information to assess at least one selected structural, phylogenetic, and physical characteristic; and 2) the effect of each amino acid variation on protein function. Includes the described information. Mutants of E. coli lactose repressor (Markiewicz et al., (1994) J. Mol. Biol. 240: 421-433) or lysozyme (Rennel et al., (1991) J. Mol. Biol. 222: 67) were used as training data sets. Can be used. Although the dataset contains many different proteins, any other collection of polymorphisms, for which activity and structural information is available, preferably unbiased, may also be used.
[0105]
Stochastic style
A method in a stochastic manner is to view each diversity as having a probability that it will have an effect on protein structure or function. This look implicitly reflects the idea that homology models are generally approximate descriptions. There may be several factors related to the effect of diversity on structure or function that are not expected by the model. However, assuming sufficient unbiased data, such factors can be evaluated in probabilistic conditions through an experimental dataset that examines the relationship between mutations and effects on protein structure or function. is there. For example, one of the datasets used in the practice of the methods of the present invention includes more than 4000 unbiased mutations of the E. coli lactose repressor and a classification for the biological function of the repressor.
[0106]
The probabilistic value for prediction is a measure of the intrinsic tolerability of the structure and function of the target protein, the amino acid variation of the polymorphic target amino acid residue, the nature of the chemical changes caused by the diversity, and the structure of the model protein. Combined with additional classification of special cases of diversity, especially in vulnerable locations. To calculate the probability that a polymorphic target amino acid residue affects the target protein structure or function, training polymorphisms having feature values similar to those of the model amino acid residue are collected from the training dataset. The exact criterion for evaluating the feature value similarity between the training polymorphism and the model amino acid residues is the predictor model variables. Typically, but not exclusively, the polymorphisms in the training set indicate some tolerance of the environmental features of the model amino acid residues, such as environmental features within one standard deviation and the category of the model amino acid residues. These criteria are set so that they have the same category feature value as the feature value.
[0107]
The probability that a polymorphic target amino acid residue has an effect on the structure or function of a target protein is defined as the proportion of residues in a selected subgroup of training polymorphisms that has an effect on their own protein structure or function. . By defining probabilities in this way, the environmental and categorical features tested for their effects on structure and function using the training set have predictive significance for polymorphic target amino acid residues and target proteins. Is assumed. It is also assumed that the training polymorphism represents an unbiased sampling of the effect on the protein structure of the polymorphism having a particular feature value. Stated another way, it is assumed that the features reflect the general characteristics of polymorphisms that are useful in assessing the effect on protein function, and that the training polymorphism describes the typical behavior of amino acid variation. It is assumed to reflect. Empirically, this assumption is valid, at least for the soluble, globular protein and lactose repressor and lysozyme training datasets.
[0108]
In principle, the larger the number of features used to parameterize the model amino acid residues and therefore select a subset of the training polymorphism to estimate the likelihood of effect, the more the probabilistic model Is more accurate. When more features are used, the selected training polymorphism is more similar to the model amino acid residue that was itself selected to be similar to the polymorphic target amino acid residue on the basis of sequence similarity. Would. However, as more features are used to parameterize model amino acid residues, identifying enough training polymorphisms to perform an appropriate statistical comparison using the current training data set Becomes more difficult. In addition, some features are strongly related to others and make little contribution to the characterization of model amino acid residues, eg, are strongly related to accessibility and relative accessibility. In practice, using the current data set, this means that about 3 out of 6 current environmental features and about 3 or 4 categorical features can be used. As they become available, a larger training data set will likely use more features to characterize each polymorphism.
[0109]
The reduced set of features used to select polymorphisms in the probabilistic model is selected using standard likelihood statistics methods. Formally, this relates to predictions made on training data with each possible combination of some environmental features and some categorical features compared to more general hypothesis-based predictions. It is necessary to calculate the increase in probability. In this case, a more general hypothesis defines the probability of a polymorphism affecting a function as the ratio of the polymorphism in the entire training dataset that affects the function. The optimal set of variables gives the likelihood acquisition. This exhaustive processing is very computationally intensive. Computation time can be reduced by taking advantage of the observed strong effects of environmental features on probability calculations. This observation suggests that, first, the environmental features that maximize the potential alone are identified, and second, the optimal set of categorical features is identified in relation to the selected optimized environmental features. It leads to an approximate, step-by-step process to maximize. Applying this approximation process to the two training data sets is such that the optimal environmental features can typically be expected, one of two accessibility features, two B-factor features. , And one of the two systematic entropies. Other statistical methods, such as discriminant function analysis, can also be used to select dominant features.
[0110]
Alternatively, the number of variables used can be reduced by standard statistical methods of principal component analysis. For example, a complete set of six environmental features for all polymorphic residues in the training set was converted to its principal components, and then (reordered with the original environmental features with larger eigenvalues) Only one or a few of the stronger principal components are used instead of all environmental features. The probability of a target polymorphism having an effect on protein structure and function is determined using selected principal components that replace environmental features in the computation, as described above.
[0111]
Classification style
The problem of associating predictive variables with categorical results has been described in more detail by statistical methods for constructing classification trees (Breiman et al. (1984) "Classification and Regression Trees" (Wadworth: Belmont). Through these methods, the effect of each successive or categorical prediction on the results is statistically evaluated, ranked, and used to construct a tree that optimally classifies the categorical results in the training dataset. In this case, the environmental features from the structural model and the categorical features of the polymorphism are predictors, and the categorical result is whether the polymorphism has or does not affect the protein structure or function. Tree methods and programs Program (Loh et al. (1997) Stastica Sinica 7: 815) is used to test the classification tree analysis in predicting the effects of modeling polymorphism on the structure and function.
[0112]
Performing a QUEST for these predictions is straightforward. QUEST will directly accept both continuous value environment features and categorical features as predictors. For stochastic models, in order to accommodate a training dataset of limited size, the number of variables was reduced to three environmental features (or using principal components) and other categorical features selected. Limiting to those proves useful. QUEST selects variables for optimal classification and uses ANOVA F-statistics to define "fractions" for each continuous variable. The tree is then built using the selected variables and the "split" criterion, and then subjected to node size criterion and cross-validation to remove excess. Once the optimal trees are illustrated, target polymorphisms can be evaluated as to whether they have or are expected to have an effect on protein structure or function. A typical application of QUEST is in a default format, with the exception that the minimum node size is often increased, eg, by a scaling factor of about 4, to simplify the classification tree without significant loss of accuracy. Including performing it.
[0113]
The guiding principle of building a classification tree using continuous predictors is that the "fraction" value of the prediction should make sense to users who are familiar with the underlying scientific problem. However, in practice, applying environmental features as continuous variables in an automated QUEST method can lead to over-branching and difficult to interpret classification trees. Another way of performing the method involves categorizing the values of each environmental feature into a reasonable number of groups. For example, each environmental feature can be categorized into high, medium or low values. The categorized environment features can then be used by QUEST in conjunction with other categorical features to build a simplified and robust classification tree.
[0114]
Other statistical models
Other statistical methods can be used in the analysis of environmental and categorical characteristics, and in applications to predict whether a target polymorphism has an effect on protein structure or function. These include discriminant function analysis for the selection of environmental features for each combination of category features (eg, StatSoft Inc., electronic textbook, http://www.statsoft.com, see chapter on discriminant analysis), and category features. Includes logical computational regression of environmental features for each combination (see, for example, Montgomery and Peck (1992) Linear Regression Analysis (see Chapter 6 of Introduction to Linear Regression Analysis, Wiley, NY)). Without limitation, some implementations may use neural networks or related networks to understand training data to predict effects on structure or function caused by polymorphic target amino acid residues. There is a possibility of using the model.
[0115]
Implementation
Computer programs for automated structural modeling and functional analysis include, for example, Python 1.4. Etc. can be described using any suitable language. Programs and supporting files (eg, databases) are available that are incorporated into the analysis. The program is, for example, a silicon graphics O implemented under IRIXv6.5.2Implemented on a suitable computer system known to those skilled in the art, such as a workstation. Useful databases are the Protein Data Bank (PDB) of macromolecular structures and sequences corresponding to the structures; Secondary Structure of Proteins (HSSP; EMBL) from which homology is derived; Prosite Database of Profiles and Patterns (EXPASY; Uses release 15). Useful software for performing certain aspects of the method are BLAST 2.0.6 sequence alignment and database search software (NCBI); RasMol 2.6.4 (Roger) for visualization (expression) and annotation of homology models. Program (Sayle); a Chime (MDL) http plug-in module for visualizing models in a web browser; and Pfscan 1.0 software for comparing amino acid sequences to prosite profiles (Philip Butcher; Experimental Cancer Research Switzerland Institute) (Philipp Buffer; Swiss Institute for Experimental Cancer Institute).
[0116]
The method of the present invention is not limited to the use of any particular hardware / software configuration. They may find applicability to any computing or processing environment. The method of the present invention is a program including a processor, a storage medium readable by the processor (including volatile memory and nonvolatile memory and / or storage element), at least one input device, and one or more output devices. It may be implemented in a computer program executed on a computer. The program code may be applied to data input using an input device to perform the method and generate output information on a display.
[0117]
Each such program may be implemented in a high-level procedural or object-oriented programming language for communicating with a computer system. However, the programs may be implemented in assembler or machine language. The language may be a translated or interpreted language.
[0118]
Each computer program is a general or special purpose computer readable storage medium for configuring and executing a computer when the storage medium or device is read by a computer to perform the method. Alternatively, it may be stored on a device (for example, a CD-ROM, a hard disk, or a magnetic disk). The method may also be embodied as a computer-readable storage medium configured with a computer program, wherein when executed, the instructions in the computer program cause a computer to perform according to the method.
[0119]
Application
The methods of the invention are useful in many areas beyond simply making predictions about the effects of known or theoretical polymorphisms. For example, the methods of the invention can be used for the identification and analysis of amino acid polymorphisms that affect the structure or function of a protein that is directly or indirectly involved in the action of a pharmaceutical or diagnostic agent. The method can be used in the identification and analysis of structural or functional interactions between two or more amino acid polymorphisms in a protein of interest (eg, in haplotype analysis).
[0120]
The methods of the invention can be used to identify and analyze polymorphisms that have an effect on the catalytic activity of the protein of interest or the non-catalytic activity of the protein of interest (eg, structure, stability, secondary Binding to protein or polypeptide chains, binding to nucleic acid molecules, binding to small molecules, and binding to macromolecules that are not proteins or nucleic acids).
[0121]
The methods of the present invention are useful for polymorphism-specific targeting by pharmaceutical or diagnostic agents, for the identification and analysis of candidate polymorphisms for pharmacogenomic applications, and for the experimental biochemistry of pharmaceutical targets that exhibit amino acid polymorphisms. For target and structural analysis, it can also be used in the identification or analysis of candidate polymorphisms.
[0122]
In addition, the methods of the present invention can be used to identify amino acid substitutions that can be made to design the structure or function of a protein of interest (eg, to increase or decrease a selected activity). Or to add or remove selective activity).
[0123]
The method can also be used for forward or backward identification and analysis changes in biological properties associated with the polymorphism.
[0124]
Example
Example 1 : Annotation style
The method of the present invention has been used to analyze a large number of polymorphic amino acid residues in a lactose repressor. In this example, an annotation format was used and a purine repressor was selected as the model protein. A portion of the output of a computer program used to implement one embodiment of the method of the present invention is reproduced below. In order, the output is a list of the analyzed polymorphic amino acid residues, an alignment of the corresponding region of the model protein with each region of the lactose repressor containing the polymorphic residue, and the amino acids that are identical within each aligned region. Summary of number of residues, summary of PDB file information on purine repressor used in analysis, Prosite report on model protein, neighborhood of polymorphic amino acid residue corresponding to amino acid residue near each model amino acid residue Summary of alignment to amino acid residues in, summary of decisions made for each model amino acid residue (distance to conserved motif, distance to heterogen, distance between model amino acid residues, entropy, secondary Includes structure, neighborhood entropy, factor B, relative B factor, neighborhood B factor and relative neighborhood B factor ), A list of features decisions may be made, and provides a list of decisions that are performed for each model amino acid residues.
[0125]
output:
Description: Lactose operon repressor
2pua_A {3e-34} # Diversity: 4
mol: protein length: 340 purine repressor
Alignment # 1
Same amino acid: 96 : Total amino acid: 307
Outline of alignment for models selected from BLAST reports
The model based on 2pua_A has a p-value: 3e-34. The number of diversity matches is 4.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Overview of modeling diversity on P03023
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
This model uses BLAST entry 2pua_A and PDB coordinates 2pua_A.
Diversity 56
Alignment # 1
Alignment quality (identical amino acids / all amino acids) 96/307
Matching quality (identical amino acids / all amino acids) 3/9
Query array
Model array
Diversity 172
Alignment # 1
Alignment quality (identical amino acids / all amino acids) 96/307
Matching quality (identical amino acids / all amino acids) 1/9
Query array
Model array
Diversity 247
Alignment # 1
Alignment quality (identical amino acids / all amino acids) 96/307
Matching quality (identical amino acids / all amino acids) 3/9
Query array
Model array
Diversity 298
Alignment # 1
Alignment quality (identical amino acids / all amino acids) 96/307
Matching quality (identical amino acids / all amino acids) 3/9
Query array
Model array
Check coordinates
/ Pdb / pdb / 2pua. Decompress pdb.
PDB coordinates already exist for 2pua.
The HSSP file exists for 2pua.
/ Pdb / pdb / 2pua. Compress pdb.
****************************
Characteristics of coordinates used in the model
****************************
PDB headings:
Complex (DNA-binding protein / DNA) {October 4, 1997} 2PUA
PDB title:
Crystal structure of PURR, a LACI family member that binds to DNA: minor groove binding by α-helix.
PDB compound:
Mol_ID: 1;
Molecule: purine repressor;
Chain: A;
Designed: yes;
Mutation: R190A;
Biological unit: homodimer;
Other details: methyl purine-PUR-operator;
Mol_ID: 2;
Molecule: DNA;
Chain: B;
Designed: yes;
Other details: Purine repressor that binds 6-methylpurine as corepressor and complete palindrome PURF operator
************************
Prosite report on coordinates
************************
Pro site report on chain "A"
Scanning overview
−−−−−−−−−−−−−−−−−−−−
*** No match in Prosite scanning ***
Search summary
−−−−−−−−−
Coordinates / pdb / pdb / 2pua. P03023_2pua.pdb using pdb. rsml model creation
************
Model quality
************
−−−−−−−−−−−−−−−−−−−−−
Model based on 2pua
−−−−−−−−−−−−−−−−−−−−−
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity in the first is 56.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
The diversity list in the model is [('A', 54,0)].
Modeling diversity ('A', 54,0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Neighbors aligned at alignment 0 with respect to diversity 56
Neighboring residue alignment residue Is the same in the first and model?
Neighbors not aligned at alignment 0 for diversity 56
('B', 707)
('B', 708)
Neighborhood overview for this alignment
The number of residues in the vicinity of a radius of 5.0 A is 11.
Of these, 9 residues are covered by the alignment
Of these, three residues are identical
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
The diversity in the first is 172.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
The diversity list in the model is [('A', 171,0)].
Modeling diversity ('A', 171, 0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Neighbors aligned at alignment 0 with respect to diversity 172
Neighboring residue alignment residue Is the same in the first and model?
Neighbors not aligned at alignment 0 for diversity 172
('A', 340)
Neighborhood overview for this alignment
The number of residues in the vicinity of a radius of 5.0 A is 12.
Of these, 11 residues are covered by the alignment
Of these, one residue is the same
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
The diversity in the first is 247.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
The diversity list in the model is [('A', 248,0)].
Modeling diversity ('A', 248, 0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Neighbors aligned at alignment 0 with respect to diversity 247
Neighboring residue alignment residue Is the same in the first and model?
Neighborhood overview for this alignment
The number of residues in the vicinity of a radius of 5.0 A is 18.
Of these, 18 residues are covered by the alignment
Of these, eight residues are identical
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity in the first is 298.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
The diversity list in the model is [('A', 299, 0)].
Modeling diversity ('A', 299, 0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Neighbors aligned at alignment 0 with respect to diversity 298
Neighboring residue alignment residue Is the same in the first and model?
Neighborhood overview for this alignment
The number of residues in the vicinity of a radius of 5.0 A is 11.
Of these, 11 residues are covered by the alignment
Of these, three residues are identical
The HSSP file already exists.
Summary of entropy statistics on coordinates from HSSP files.
********************
Modeling diversity features
********************
==> Function 1 for model 2pua 1: Proximity to prosites, heteroatoms and other diversity
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 56: Leucine-Serine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Proximity to ProSite features
−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeling diversity: residue 54 in PDB chain “A” from BLAST alignment 1
About chain A
Prosite scanning:
*** No match in Prosite scanning ***
Pro Site Search:
PS00356
4-22 19 12.7
Closest heteroatom
−−−−−−−−−−−−−−−−−−−−
Modeling diversity ('A', 54,0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 172: glycine glutamate
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Proximity to ProSite features
−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeling diversity: residue 171 in PDB chain “A” from BLAST alignment 1
About chain A
Prosite scanning:
*** No match in Prosite scanning ***
Pro Site Search:
PS00356
4-22 21 60.3
Closest heteroatom
−−−−−−−−−−−−−−−−−−−−
Modeling diversity ('A', 171, 0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 247: Aspartic acid lysine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Proximity to ProSite features
−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeling diversity: residue 248 in PDB chain “A” from BLAST alignment 1
About chain A
Prosite scanning:
*** No match in Prosite scanning ***
Pro Site Search:
PS00356
4-22 21 48.6
Closest heteroatom
−−−−−−−−−−−−−−−−−−−−
Modeling diversity ('A', 248, 0)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 298: Glutamine @ alanine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Proximity to ProSite features
−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeled diversity: residue 299 in PDB chain “A” from BLAST alignment 1
About chain A
Prosite scanning:
*** No match in Prosite scanning ***
Pro Site Search:
PS00356
4-22 19 30.8
Closest heteroatom
−−−−−−−−−−−−−−−−−−−−
Modeling diversity ('A', 299, 0)
Angstrom distance between modeled diversity
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
==> Function II for Model 2pua: Essential Features of Mutant Location
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 56: Leucine-Serine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
For the diversity modeled by residue 54 in PDB chain “A” from BLAST alignment 1:
Phylogeny
−−−−−−−
Save
Entropy: 0.734
Relative entropy: 24
Weight: 1.34
Amino acid profile of this residue
Construction
−−−−−
Secondary structure: α helix
Accessibility: 144A∧2 (number of water x 10)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 172: glycine glutamate
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
For the diversity modeled by residue 171 in PDB chain “A” from BLAST alignment 1:
Phylogeny
−−−−−−−
Save
Entropy: 2.035
Relative entropy: 68
Weight: 0.86
Amino acid profile of this residue
Construction
−−−−−
Secondary structure: α helix
Accessibility: 58A∧2 (number of water x 10)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 247: Aspartic acid lysine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
For the diversity modeled by residue 248 in PDB chain “A” from BLAST alignment 1:
Phylogeny
−−−−−−−
Save
Entropy: 0.347
Relative entropy: 12
Weight: 1.49
Amino acid profile of this residue
Construction
−−−−−
Secondary structure: α helix
Accessibility: 0A∧2 (number of water x 10)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 298: Glutamine @ alanine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
For the diversity modeled by residue 299 in PDB chain “A” from BLAST alignment 1:
Phylogeny
−−−−−−−
Save
Entropy: 1.995
Relative entropy: 67
Weight: 0.84
Amino acid profile of this residue
Construction
−−−−−
Secondary structure: α helix
Accessibility: 91A∧2 (number of water x 10)
==> Function III related to model 2pua: Features near diversity structure
−−−−−−−−−
Diversity 56
−−−−−−−−−
Modeled diversity: residue 54 in PDB chain “A” from BLAST alignment 1
Total number of neighbors 11
Total number of neighbors found in the hssp file 9
Neighborhood minimum entropy of 0.259 in [('A', 51)]
Nearest maximum entropy of 1.985 in [('A', 56)]
Mean neighborhood entropy 1.428
The total number of residues in chain 'A' is 339
Average entropy of the chain 1.612
Standard deviation of chain entropy 0.626
The decile of the entropy of the chain is [0.0, 0.692, 1.028, 1.308, 1.531, 1.787, 1.922, 2.064, 2.169, 2.312, 2 .649].
The minimum entropy of the chain at 0.000 in [('A', 8), ('A', 18), ('A'19)], etc.
Maximum entropy of the 2.649 chain in [('A', 190)]
The mean entropy of the neighborhood is -0.878 standard deviation from the mean entropy of the modeling diversity of the chain.
−−−−−−−−−−−
Diversity 172
−−−−−−−−−−−
Modeled diversity: residue 171 in PDB chain “A” from BLAST alignment 1
Total number of neighbors 12
total number of neighbors found in the hssp file 12
A neighborhood minimum entropy of 0.701 in [('A', 173)]
A neighborhood maximum entropy of 2.399 in [('A', 176)]
Mean neighborhood entropy 1.584
The total number of residues in chain 'A' is 339
Average entropy of the chain 1.612
Standard deviation of chain entropy 0.626
The decile of the entropy of the chain is [0.0, 0.692, 1.028, 1.308, 1.531.1.787, 1.922, 2.064, 2.169, 2.312, 2 .649].
The minimum entropy of the chain at 0.000 in [('A', 8), ('A', 18), ('A'19)], etc.
Maximum entropy of the 2.649 chain in [('A', 190)]
The average entropy of the neighborhood is -0.153 standard deviation from the average entropy of the modeling diversity of the chain.
−−−−−−−−−−−
Diversity 247
−−−−−−−−−−−
B modeled diversity: residue 248 in PDB chain “A” from LAST alignment 1
Total number of neighbors 18
total number of neighbors found in the hssp file 18
A neighborhood minimum entropy of 0.347 in [('A', 248)]
A neighborhood maximum entropy of 2.368 in [('A', 249)]
Mean neighborhood entropy 1.257
The total number of residues in chain 'A' is 339
Average entropy of the chain 1.612
Standard deviation of chain entropy 0.626
The decile of the entropy of the chain is [0.0, 0.692, 1.028, 1.308, 1.531.1.787, 1.922, 2.064, 2.169, 2.312, 2 .649].
The minimum entropy of the chain at 0.000 in [('A', 8), ('A', 18), ('A'19)], etc.
Maximum entropy of the 2.649 chain in [('A', 190)]
The average entropy of the neighborhood is -2.402 standard deviations from the average entropy of the modeling diversity of the chain.
−−−−−−−−−−−
Diversity 298
−−−−−−−−−−−
Modeled diversity: residue 299 in PDB chain “A” from BLAST alignment 1
Total number of neighbors 11
total number of neighbors found in the hssp file 11
A neighborhood minimum entropy of 0.691 in [('A', 298)]
A neighborhood maximum entropy of 2.327 in [('A', 84)]
Mean neighborhood entropy 1.666
The total number of residues in chain 'A' is 339
Average entropy of the chain 1.612
Standard deviation of chain entropy 0.626
The decile of the entropy of the chain is [0.0, 0.692, 1.028, 1.308, 1.531.1.787, 1.922, 2.064, 2.169, 2.312, 2 .649].
The minimum entropy of the chain at 0.000 in [('A', 8), ('A', 18), ('A'19)], etc.
Maximum entropy of the 2.649 chain in [('A', 190)]
The mean entropy of the neighborhood is 0.287 standard deviations from the mean entropy of the modeling diversity of the chain.
==> Function IV for Model 2pua: Analysis of Crystallographic B Factor
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 56 leucine serine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeling diversity: residue 54 in PDB chain “A” from BLAST alignment 1
Residue statistics
−−−−−−−−−
Residue statistics
Average B-factor of atoms at residues: 50.9
Average residue B factor in the chain of residues: 43.6
Standard deviation of factor B of residues in the chain of residues: 15.8
Residue chain minimum and maximum residue B factor: 14.9 93.6
Residue factor B decile of the residue chain: 14.9, 25.9, 30.2, 33.5, 36.2, 40.0, 43.8, 48.8, 58.9. , 67.4, 93.6
Residue B factor is in the eighth decile
Residue factor B is 0.5 standard deviation from the average factor B for the chain.
Neighborhood statistics
−−−−−−−−−−−−
The average B factor of the atom near the residue is: 42.4
The average B-factor of the atoms in the chain near the residue is: 44.0
The neighborhood B factor is -0.3 standard deviation from the average B factor for the strand in the neighborhood.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 172 Glutamic acid Glycine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeling diversity: residue 171 in PDB chain “A” from BLAST alignment 1
Residue statistics
−−−−−−−−−
Residue statistics
Average factor B of atoms at residues: 33.4
Average residue B factor in the chain of residues: 43.6
Standard deviation of factor B of residues in the chain of residues: 15.8
Residue chain minimum and maximum residue B factor: 14.9 93.6
Residue factor B decile of the residue chain: 14.9, 25.9, 30.2, 33.5, 36.2, 40.0, 43.8, 48.8, 58.9. , 67.4, 93.6
Residue factor B is in the third decile
Residue factor B is -0.6 standard deviation from the average residue factor B for the chain.
Neighborhood statistics
−−−−−−−−−−−−
The average B factor of the atom near the residue is: 35.0
The average B factor of the atoms in the chain near the residue is: 43.6
The neighbor B factor is -1.9 standard deviation from the average B factor for the strand in the neighborhood.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 247: Aspartic acid lysine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeling diversity: residue 248 in PDB chain “A” from BLAST alignment 1
Residue statistics
−−−−−−−−−
Residue statistics
Average B-factor of atoms at residues: 29.2
Average residue B factor in the chain of residues: 43.6
Standard deviation of factor B of residues in the chain of residues: 15.8
Residue chain minimum and maximum residue B factor: 14.9 93.6
Residue factor B decile of the residue chain: 14.9, 25.9, 30.2, 33.5, 36.2, 40.0, 43.8, 48.8, 58.9. , 67.4, 93.6
Residue B factor is in the second decile
Residue factor B is -0.9 standard deviations from the average residue factor B for the chain.
Neighborhood statistics
−−−−−−−−−−−−
The average B factor of the atom near the residue is: 28.4
The average B factor of the atoms in the chain near the residue is: 43.6
Neighboring factor B is of -4.1 standard deviations from the average factor B for chains in the neighborhood.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Diversity 298: Glutamine @ alanine
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Modeled diversity: residue 299 in PDB chain “A” from BLAST alignment 1
Residue statistics
−−−−−−−−−
Residue statistics
Average B-factor of atoms at residues: 51.1
Average residue B factor in the chain of residues: 43.6
Standard deviation of factor B of residues in the chain of residues: 15.8
Residue chain minimum and maximum residue B factor: 14.9 93.6
Residue factor B decile of the residue chain: 14.9, 25.9, 30.2, 33.5, 36.2, 40.0, 43.8, 48.8, 58.9. , 67.4, 93.6
Residue B factor is in the eighth decile
Residue factor B is 0.5 standard deviation from the average residue factor B for the chain.
Neighborhood statistics
−−−−−−−−−−−−
The average B factor of the atom near the residue is: 46.1
The average B factor of the atoms in the chain near the residue is: 43.6
The neighbor B factor is 0.5 standard deviation from the average B factor for the chain in the neighborhood.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Potential features of modeling diversity
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
buried_charge
Modeling diversity is inaccessible, and actual diversity involves charged residues. The only value is yes.
conserved_position
Modeling diversity is absolutely preserved in the HSSP profile. The only value is yes.
helix_breaking
The actual diversity includes either glycine or proline and some other amino acids, and the modeled diversity is in the helix secondary structure region by HSSP analysis. The only value is yes.
hi_b
Modeled diversity crystallographic B factor is 45.0A∧Less than 2.
hi_decile_b
The modeled diversity crystallographic B-factor is in the tenth decile of the B-factor for the modeled diversity chain in the PDF file.
hi_decile_var
Modeled diversity systematic variation is in the tenth decile of diversity for the modeled diversity chain in the PDF file.
hi_nbhd_b
The average crystallographic B factor for the modeled diversity neighborhood is 45.0A∧Greater than 2.
hi_nbd_rel_b
The average crystallographic B factor for the modeled diversity neighborhood is at least 2.0 standard deviations above the average B factor for the other neighborhoods of the residue chain.
hi_nbhd_rel_var
The average systematic variation for the modeled diversity neighborhood is at least 2.0 standard deviations above the average variation for the other neighborhoods of the residue chain.
hi_nbhd_var
The average systematic variation for the modeled diversity neighborhood is 2.0 e. u. (8 residues of the same weight).
hi_rel_b
The modeled diversity crystallographic B-factor is at least 2.0 standard deviations above the average B-factor for the modeled diversity chain in the PDF file.
hi_rel_var
The modeled diversity systematic variation exceeds the average variation for the modeled diversity chain in the PDF file by at least 2.0 standard deviations.
hi_var
The modeled diversity systematic variation is 2.0 e. u. (8 residues of the same weight).
Inaccessibility
The HSSP file has a modeling diversity of 10A for the solvent.∧Indicates having less than 2 (~ 1 water molecule) exposure. The value is A∧Solvent accessible area in 2. 10A∧There can be about one water molecule per two solvent accessible surfaces.
interface
Modeled diversity is within 5.0 A of at least one residue of the different chains in coordinates. The only value is yes.
lo_b
The modeled diversity crystallographic B factor is 15.0 A∧Less than 2.
lo_decile_b
The modeled diversity crystallographic B-factor is in the first decile of the B-factor for the modeled diversity chain in the PDF file.
lo_decile_var
Modeled diversity systematic variation is among the first decile of variation for the modeled diversity chain in the PDF file.
lo_nbhd_b
The average crystallographic B factor for the modeled diversity neighborhood is 15.0 A∧Less than 2.
lo_nbhd_rel_b
The average crystallographic B-factor for the modeled diversity neighborhood is at least 2.0 standard deviations below the average B-factor for other neighborhoods of the residue chain.
lo_nbhd_rel_var
The average systematic variation for the modeled diversity neighborhood is at least less than 2.0 standard deviations of the average variation for other neighborhoods of the residue chain.
lo_nbhd_var
The average systematic variation for the modeled diversity neighborhood is 0.69 e. u. Less than (2 residues of the same weight).
lo_rel_b
The modeled diversity crystallographic B-factor is at least less than 2.0 standard deviations of the average B-factor for the modeled diversity chain in the PDF file.
lo_rel_var
The modeled diversity systematic variation is at least less than 2.0 standard deviations of the average variation for the modeled diversity strand in the PDF file.
lo_var
The modeled diversity systematic variation is 0.69 e. u. Less than (2 residues of the same weight).
near_conserved
Modeling diversity is within 5.0 A of residues that are absolutely conserved in the HSSP profile. The only value is yes.
near_het_atom
The modeling diversity is within 5.0 A of the heteroatom in coordinates. The value is the distance in Angstroms.
near_other_variances
The modeling diversity is within 5.0A of at least one other modeling diversity. The value is the distance in Angstroms.
near_seq_prosite
Within 5.0A of the residue in the coordinates, which matches the prosite entry also matched by the first sequence. See near_struct_prosite. The value is the distance in Angstroms.
near_struct_prosite
Within 5.0A of the residue in the coordinates that matches the prosite entry not matched by the first sequence. See near_seq_prosite. The value is the distance in Angstroms.
rare_aa
At least one residue encoded by the diversity is found in the HSSP profile for the modeled diversity without more than 10% of the times. The only value is yes.
turn_breaking
The actual diversity includes either glycine or proline and some other amino acids, and the modeled diversity is in turn by HSSP analysis. The only value is yes.
unusual_aa
At least one residue encoded by the diversity is not found in the HSSP profile for modeled diversity. The only value is yes.
Start overview
********************************
Features identified for the first P03023
********************************
Model coordinates: 2pua {BLAST} Alignment: 2pua_A
Diversity: 56, amino acid: leucine or serine
For residue 54 in PDB chain 'A' from BLAST alignment 1: leucine
quality
−−−−−
E value of alignment 3e-34
Ratio of identical residues in alignment: 0.31 (96/307)
Proportion of identical residues in local alignment of diversity: 0.33 (3/9)
Proportion of identical residues near the structure of modeling diversity: 0.33 (3/9)
Total number of residues near the structure: 11
Number of residues in systematic entropy analysis: 37
Model source: X-ray
function
−−−−−
Diversity: 172, amino acid: glutamic acid or glycine
Regarding residue 171 in PDB chain 'A' from BLAST alignment 1: Arginine
quality
E value of alignment 3e-34
Ratio of identical residues in alignment: 0.31 (96/307)
Proportion of identical residues in local alignment of diversity: 0.11 (1/9)
Proportion of identical residues near the structure of modeling diversity: 0.09 (1/11)
Total number of residues near the structure: 12
Number of residues in systematic entropy analysis: 32
Model source: X-ray
function
−−−−−
Diversity: 247, amino acid: aspartic acid or lysine
Regarding residue 248 in PDB chain 'A' from BLAST alignment 1: aspartic acid quality
−−−−−
E value of alignment 3e-34
Ratio of identical residues in alignment: 0.31 (96/307)
Proportion of identical residues in local alignment of diversity: 0.33 (3/9)
Proportion of identical residues near the structure of the modeling diversity: 0.44 (8/18)
Total number of residues near the structure: 18
Number of residues in systematic entropy analysis: 35
Model source: X-ray
function
−−−−−
Diversity: 298, Amino acid: Glutamine or Alanine
Regarding residue 299 in PDB chain 'A' from BLAST alignment 1: glutamic acid
quality
−−−−−
E value of alignment 3e-34
Ratio of identical residues in alignment: 0.31 (96/307)
Proportion of identical residues in local alignment of diversity: 0.33 (3/9)
Proportion of identical residues near the structure of modeling diversity: 0.27 (3/11)
Total number of residues near the structure: 11
Number of residues in systematic entropy analysis: 35
Model source: X-ray
function
−−−−−
********************************
The total number of designated features is 17.
********************************
[0126]
Example 2 : Stochastic model
In a second example, a stochastic format was used to assess the probability that a change in the amino acid present in each of the 3245 known lactose repressor polymorphisms would alter the activity of the lactose repressor. Was done. In this example, a set of 1468 lysozyme polymorphisms was used as a training data set, and likelihood analysis was used to analyze the features that would be used to analyze model amino residues (physical, structural, as described above). Target and diversity characteristics). This analysis shows that three continuous value variables (relative accessibility, relative neighborhood B factor, and relative neighborhood entropy) and three categorical features (abnormal Amino acids, abnormal amino acids by class, and conserved positions). Therefore, these properties were used to analyze the model protein. Since the structure of the main part of the lactose repressor has been elucidated, the lactose repressor itself is used as the target protein (as well as the model protein). Therefore, the model amino acid residue is identical to the polymorphic target amino acid residue. In cases where there is not enough structural information about the target protein, model proteins will be selected based on sequence similarity and predictions will be made regarding model amino acid residues.
[0127]
For each model amino acid residue, each of the selected three continuous value features (relative accessibility, relative neighborhood B factor, and relative neighborhood entropy) and the selected three categorical features (abnormal amino acid , Amino acids that are abnormal by class, and conserved positions). Once these determinations were made, polymorphic amino acids in the training dataset that were similar to each of the model amino acid residues were selected. The following criteria: that the value of each selected continuous variable is within one standard deviation of the variable value for the model amino acid residue, and that the value of each selected category feature is the same as the feature value of the model amino acid residue If certain things are met, the training polymorphism is considered sufficiently similar to the model amino acid residue.
[0128]
For each model amino acid residue, the selected training polymorphism was then used to assess the probability that a change in the amino acid present at the polymorphic target amino acid residue would have an effect on the activity of the target protein. The evaluation was based on the proportion of selected training polymorphisms that had an effect on the activity of the training protein, lysozyme. For some model amino acid residues, no prediction was performed. This was because the number of selected training polymorphisms was too small to make a statistically significant prediction. The prediction was then compared to the known effects of the lactose repressor polymorphism, and the accuracy of the prediction was analyzed. The results of this analysis are presented in Table 1 below.
[0129]
[Table 1]
[0130]
In Table 1, the predictions are sorted by confidence level. Thus, the values in the column under the “0.70” heading indicate that mutations with a probability of having an effect on 0.7 or greater will have an effect on function, and 0.3 (1-0) 7 summarizes the accuracy of the prediction that mutations with a probability of 7) will not affect function. The accuracy of each class of prediction depends on the actual number of true positives, false positives, true negatives and false negatives, and only a small percentage of polymorphisms that have an effect on predictive function, selectivity and sensitivity. The correlation coefficient, as compared to the null hypothesis of the prediction, was evaluated by the chi-square value. The last value in each column is the misclassification rate (the percentage of mispredicted mutations). This example demonstrates that stochastic modes can be used to make predictions about possible effects of polymorphism.
[0131]
Example 3 : Classification style
In this example, to classify each of the known 3245 lactose repressor polymorphisms as either a polymorphism that is likely to alter activity or a polymorphism that is less likely to alter activity Used for In this example, 1468 lysozyme polymorphisms were used as training datasets to build a classification tree using QUEST. In this example, three selected continuous value features (relative accessibility, relative neighborhood B factor, and relative neighborhood entropy) and three selected categorical features (abnormal amino acids, class Unusual amino acids, and conserved positions) were used to build the classification tree. The 3245 predictions performed for each of the lactose repressor polymorphisms were compared to the known effects of the polymorphism. The analysis revealed 704 true positives, 491 false positives, 1500 true negatives, and 550 false negatives for an overall misclassification rate of only 0.32 (correlation: 0. 32, chi-square: 327.73, sensitivity: 0.56; specificity: 0.59). This example demonstrates that the classification modality can be used to make predictions about the possible effects of a polymorphism.
[Brief description of the drawings]
FIG. 1 is a flowchart depicting an example of some stages of an annotation style.
FIG. 2 is a flowchart depicting an example of some steps in selecting a predictive feature using a training data set.
FIG. 3 is a flowchart depicting an example of some steps in a stochastic mode.
Claims (26)
(b)標的タンパク質とモデルタンパク質との間の全体の配列相同性に基づいて標的タンパク質における多型標的アミノ酸残基を表すモデルタンパク質内のモデルアミノ酸残基を、プロセッサーを用いて選択する段階;
(c)少なくとも1つのモデルアミノ酸残基の物理的、構造的または系統的特徴に基づいて、多型標的アミノ酸残基に存在するアミノ酸の同一性を、第一のアミノ酸から第二のアミノ酸へと変化することが標的タンパク質に効果を有するかどうかを予測するために有用である少なくとも1つの決定を、プロセッサーを用いて実施する段階;ならびに
(d)出力装置に、少なくとも1つの決定の結果を出力する段階;
を含む、プロセッサー、入力装置、および出力装置を含むプログラム化コンピュータを用いる、コンピュータを利用した方法。(A) via an input device, a programmed computer can be configured to allow the amino acid residue present in the polymorphic target amino acid residue to be at least a first amino acid or a second amino acid, and Inputting data comprising at least a portion of the amino acid sequence of a target protein having a group;
(B) using a processor to select model amino acid residues in the model protein that represent polymorphic target amino acid residues in the target protein based on overall sequence homology between the target protein and the model protein;
(C) determining the identity of the amino acid present at the polymorphic target amino acid residue from the first amino acid to the second amino acid based on the physical, structural or phylogenetic characteristics of at least one model amino acid residue; Performing, using a processor, at least one determination useful for predicting whether the change has an effect on the target protein; and (d) outputting the result of the at least one determination to an output device. To do;
A computer-based method using a programmed computer that includes a processor, an input device, and an output device.
モデルアミノ酸残基に存在するアミノ酸が溶媒に接近不可能であり、かつ第一のアミノ酸または第二のアミノ酸のいずれかが荷電されているものであるかどうか;
第一のアミノ酸または第二のアミノ酸のいずれかが、モデルタンパク質または標的タンパク質のいずれかに事前決定された程度の同一性を有するタンパク質において絶対的に保存されているかどうか;
モデルアミノ酸残基が溶媒に対して事前決定された暴露未満かまたはそれを超えるものであるかどうか;
モデルアミノ酸残基が事前決定された値未満かまたはそれを超える相対的溶媒接近可能性値を有するかどうか;
モデルアミノ酸残基が溶媒に接近不可能であり、かつ第一のアミノ酸または第二のアミノ酸のいずれかの最大溶媒接近可能性が、事前決定された量だけ、モデルアミノ酸残基の埋め込まれた容積と異なるかどうか;
モデルアミノ酸残基のB因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の構造近傍の平均B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の構造近傍の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基のいずれかの系統可変性が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の相対的系統可変性が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の構造近傍の平均系統可変性が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の構造近傍の相対的系統可変性が事前決定された範囲の外側であるかどうか;
標的アミノ酸残基におけるアミノ酸がグリシンまたはプロリン、およびヘリックス二次構造またはターンの領域中に存在するモデルアミノ酸残基であるかどうか;
モデルアミノ酸残基の構造近傍の平均疎水性が事前決定された範囲の外側であるかどうか、および第一のアミノ酸の疎水性と第二のアミノ酸の疎水性との間の差異が事前決定された値より大きいかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つが異常なアミノ酸であるかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つがクラスにより異常なアミノ酸であるかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つが稀なアミノ酸であるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各ヘテロゲンとの間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各サブユニット界面との間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各保存されたモチーフとの間の距離が、事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルアミノ酸残基と、標的タンパク質中の標的多型アミノ酸残基または二番目の多型標的アミノ酸残基のいずれかを表すために使用される二番目のモデルアミノ酸残基との間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;ならびに
標的またはモデルタンパク質中に存在するモデルアミノ酸残基と保存されたアミノ酸残基との間の距離が、事前決定された値未満かまたはそれを超えるものであるかどうか;
からなる群より選択される少なくとも1つの決定を行う段階をさらに含む、請求項2記載の方法。Step (c)
Whether the amino acids present in the model amino acid residues are inaccessible to the solvent and either the first amino acid or the second amino acid is charged;
Whether either the first amino acid or the second amino acid is absolutely conserved in the protein having a predetermined degree of identity to either the model protein or the target protein;
Whether the model amino acid residue is below or above a predetermined exposure to the solvent;
Whether the model amino acid residue has a relative solvent accessibility value less than or greater than a predetermined value;
The model amino acid residues are inaccessible to the solvent and the maximum solvent accessibility of either the first amino acid or the second amino acid is determined by the predetermined volume of the embedded volume of the model amino acid residues. Whether it is different from
Whether the factor B of the model amino acid residue is outside a predetermined range;
Whether the relative B factor of the model amino acid residue is outside the predetermined range;
Whether the average factor B near the structure of the model amino acid residue is outside a predetermined range;
Whether the relative factor B near the structure of the model amino acid residue is outside the predetermined range;
Whether the phylogenetic variability of either the model amino acid residue or the polymorphic target amino acid residue is outside a predetermined range;
Whether the relative phylogeny of the model amino acid residues or polymorphic target amino acid residues is outside a predetermined range;
Whether the average phylogenetic variability near the structure of the model amino acid residue or the polymorphic target amino acid residue is outside a predetermined range;
Whether the relative phylogenetic variability near the structure of the model amino acid residue or polymorphic target amino acid residue is outside a predetermined range;
Whether the amino acid at the target amino acid residue is glycine or proline, and a model amino acid residue present in the region of the helical secondary structure or turn;
Whether the average hydrophobicity near the structure of the model amino acid residue is outside the predetermined range, and the difference between the hydrophobicity of the first amino acid and the second amino acid is predetermined Is greater than value;
Whether at least one of the first amino acid residue and the second amino acid is an unusual amino acid;
Whether at least one of the first amino acid residue and the second amino acid is a class-unusual amino acid;
Whether at least one of the first amino acid residue and the second amino acid is a rare amino acid;
Whether the distance between the model amino acid residue present in the model protein and each heterogen is less than or greater than a predetermined value;
Whether the distance between the model amino acid residue present in the model protein and each subunit interface is less than or greater than a predetermined value;
Whether the distance between the model amino acid residues present in the model protein and each conserved motif is less than or greater than a predetermined value;
The distance between the model amino acid residue and the second model amino acid residue used to represent either the target polymorphic amino acid residue or the second polymorphic target amino acid residue in the target protein is predetermined. Whether it is less than or greater than a determined value; and whether the distance between a model amino acid residue and a conserved amino acid residue present in a target or model protein is less than a predetermined value. Or more than that;
3. The method of claim 2, further comprising the step of making at least one decision selected from the group consisting of:
モデルアミノ酸残基が溶媒に対して事前決定された暴露未満かまたはそれを超えるものであるかどうか;
モデルアミノ酸残基が事前決定された値未満かまたはそれを超える相対的溶媒接近可能性値を有するかどうか;
モデルアミノ酸残基の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の構造近傍の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の相対的系統可変性が事前決定された範囲の外側であるかどうか;ならびに
モデルアミノ酸残基または多型標的アミノ酸残基の構造近傍の相対的系統可変性が事前決定された範囲の外側であるかどうか;
からなる群より選択される少なくとも3つの決定を行うことを含む、請求項4記載の方法。Step (c)
Whether the model amino acid residue is below or above a predetermined exposure to the solvent;
Whether the model amino acid residue has a relative solvent accessibility value less than or greater than a predetermined value;
Whether the relative B factor of the model amino acid residue is outside the predetermined range;
Whether the relative factor B near the structure of the model amino acid residue is outside the predetermined range;
Whether the relative phylogeny of the model or polymorphic target amino acid residue is outside a predetermined range; and the relative phylogeny of the model or polymorphic target amino acid residue near the structure Whether the gender is outside the predetermined range;
5. The method of claim 4, comprising making at least three decisions selected from the group consisting of:
(i)モデルアミノ酸残基が溶媒に対して事前決定された暴露未満かまたはそれを超えるものであるかどうか;
モデルアミノ酸残基が事前決定された値未満かまたはそれを超える相対的溶媒接近可能性値を有するかどうか;
からなる群より選択される少なくとも1つの決定を行う段階、
(ii)モデルアミノ酸残基の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の構造近傍の相対的B因子が事前決定された範囲の外側であるかどうか;
からなる群より選択される少なくとも1つの決定を行う段階、
(iii)モデルアミノ酸残基または多型標的アミノ酸残基の相対的系統可変性が事前決定された範囲の外側であるかどうか;および
モデルアミノ酸残基または多型標的アミノ酸残基の構造近傍の相対的系統可変性が事前決定された範囲の外側であるかどうか;
からなる群より選択される少なくとも1つの決定を行う段階、
(iv)モデルアミノ酸残基におけるアミノ酸がグリシンまたはプロリン、およびヘリックス二次構造またはターンの領域中に存在するモデルアミノ酸残基であるかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つが異常なアミノ酸であるかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つがクラスにより異常なアミノ酸であるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各ヘテロゲンとの間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各サブユニット界面との間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;および
モデルアミノ酸残基に存在するアミノ酸が溶媒に接近不可能であり、そして、第一のアミノ酸または第二のアミノ酸のいずれかが荷電されているものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各保存されたモチーフとの間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
標的アミノ酸残基に存在するアミノ酸が、モデルタンパク質または標的タンパク質のいずれかに事前決定された程度の同一性を有するタンパク質において絶対的に保存されているかどうか;
からなる群より選択される少なくとも1つの決定を行う段階、
を含む、請求項4記載の方法。Step (c)
(I) whether the model amino acid residue is below or above a predetermined exposure to the solvent;
Whether the model amino acid residue has a relative solvent accessibility value less than or greater than a predetermined value;
Making at least one decision selected from the group consisting of:
(Ii) whether the relative B factor of the model amino acid residue is outside a predetermined range;
Whether the relative factor B near the structure of the model amino acid residue is outside the predetermined range;
Making at least one decision selected from the group consisting of:
(Iii) whether the relative phylogeny of the model amino acid residue or the polymorphic target amino acid residue is outside a predetermined range; and the relative proximity of the model amino acid residue or the polymorphic target amino acid residue to the structure. Whether statistical phylogeny is outside the predetermined range;
Making at least one decision selected from the group consisting of:
(Iv) whether the amino acids in the model amino acid residues are glycine or proline, and model amino acid residues present in the region of the helical secondary structure or turn;
Whether at least one of the first amino acid residue and the second amino acid is an unusual amino acid;
Whether at least one of the first amino acid residue and the second amino acid is a class-unusual amino acid;
Whether the distance between the model amino acid residue present in the model protein and each heterogen is less than or greater than a predetermined value;
Whether the distance between the model amino acid residue present in the model protein and each subunit interface is less than or greater than a predetermined value; and if the amino acid present in the model amino acid residue Inaccessible and whether either the first amino acid or the second amino acid is charged;
Whether the distance between the model amino acid residues present in the model protein and each conserved motif is less than or greater than a predetermined value;
Whether the amino acid present at the target amino acid residue is absolutely conserved in the protein having a predetermined degree of identity to either the model protein or the target protein;
Making at least one decision selected from the group consisting of:
5. The method of claim 4, comprising:
モデルアミノ酸残基が溶媒に対して事前決定された暴露未満かまたはそれを超えるものであるかどうか;
モデルアミノ酸残基が事前決定された値未満かまたはそれを超える相対的溶媒接近可能性値を有するかどうか;
モデルアミノ酸残基の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の構造近傍の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の相対的系統可変性が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の構造近傍の相対的系統可変性が事前決定された範囲の外側であるかどうか;
標的アミノ酸残基におけるアミノ酸がグリシンまたはプロリン、およびヘリックス二次構造またはターンの領域中に存在するモデルアミノ酸残基であるかどうか;
第一のアミノ酸および第二のアミノ酸の少なくとも1つが異常なアミノ酸であるかどうか;
第一のアミノ酸および第二のアミノ酸の少なくとも1つがクラスにより異常なアミノ酸であるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各ヘテロゲンとの間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各サブユニット界面との間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルアミノ酸残基に存在するアミノ酸が溶媒に接近不可能であり、そして、第一のアミノ酸または第二のアミノ酸のいずれかが荷電されているものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各保存されたモチーフとの間の距離が、事前決定された値未満かまたはそれを超えるものであるかどうか;ならびに
標的アミノ酸残基に存在するアミノ酸が、モデルタンパク質または標的タンパク質のいずれかに事前決定された程度の同一性を有するタンパク質において絶対的に保存されているかどうか;
からなる群より選択される少なくとも7つの決定を行う段階を含む、請求項4記載の方法。Step (c)
Whether the model amino acid residue is below or above a predetermined exposure to the solvent;
Whether the model amino acid residue has a relative solvent accessibility value less than or greater than a predetermined value;
Whether the relative B factor of the model amino acid residue is outside the predetermined range;
Whether the relative factor B near the structure of the model amino acid residue is outside the predetermined range;
Whether the relative phylogeny of the model amino acid residues or polymorphic target amino acid residues is outside a predetermined range;
Whether the relative phylogenetic variability near the structure of the model amino acid residue or polymorphic target amino acid residue is outside a predetermined range;
Whether the amino acid at the target amino acid residue is glycine or proline, and a model amino acid residue present in the region of the helical secondary structure or turn;
Whether at least one of the first amino acid and the second amino acid is an unusual amino acid;
Whether at least one of the first amino acid and the second amino acid is a class-unusual amino acid;
Whether the distance between the model amino acid residue present in the model protein and each heterogen is less than or greater than a predetermined value;
Whether the distance between the model amino acid residue present in the model protein and each subunit interface is less than or greater than a predetermined value;
Whether the amino acids present in the model amino acid residues are inaccessible to the solvent and whether either the first amino acid or the second amino acid is charged;
Whether the distance between the model amino acid residue present in the model protein and each conserved motif is less than or greater than a predetermined value; and whether the amino acid present at the target amino acid residue is Is absolutely conserved in proteins having a predetermined degree of identity to either the model protein or the target protein;
5. The method of claim 4, comprising making at least seven decisions selected from the group consisting of:
(b)多型標的アミノ酸残基に存在するアミノ酸が少なくとも第一のアミノ酸または第二のアミノ酸であることが可能であって、標的タンパク質とモデルタンパク質との間の全体の配列相同性に基づいて標的タンパク質における多型標的アミノ酸残基を表すモデルタンパク質内のモデルアミノ酸残基を、プロセッサーを用いて選択する段階;
(c)多型標的アミノ酸残基に存在するアミノ酸の同一性を第一のアミノ酸から第二のアミノ酸へと変化することが標的タンパク質に効果を有するかどうかを、モデルアミノ酸残基の物理的、構造的または系統的特徴の少なくとも1つの決定に基づいて、プロセッサーを用いて予測する段階;
(d)出力装置に、予測の結果を出力する段階;
を含む、プロセッサー、入力装置、および出力装置を含むプログラム化コンピュータを用いる、コンピュータを利用した方法。(A) inputting data including an amino acid sequence of a target protein to a programmed computer via an input device;
(B) the amino acid present in the polymorphic target amino acid residue can be at least a first amino acid or a second amino acid, based on the overall sequence homology between the target protein and the model protein Selecting a model amino acid residue in the model protein representing the polymorphic target amino acid residue in the target protein using a processor;
(C) determining whether changing the identity of the amino acid present in the polymorphic target amino acid residue from the first amino acid to the second amino acid has an effect on the target protein, Predicting with a processor based on at least one determination of a structural or systematic characteristic;
(D) outputting a result of the prediction to an output device;
A computer-based method using a programmed computer that includes a processor, an input device, and an output device.
モデルアミノ酸残基に存在するアミノ酸が溶媒に接近不可能であり、かつ第一のアミノ酸または第二のアミノ酸のいずれかが荷電されているものであるかどうか;
第一のアミノ酸または第二のアミノ酸のいずれかが、モデルタンパク質または標的タンパク質のいずれかに事前決定された程度の同一性を有するタンパク質において絶対的に保存されているかどうか;
モデルアミノ酸残基が溶媒に対して事前決定された暴露未満かまたはそれを超えるものであるかどうか;
モデルアミノ酸残基が事前決定された値未満かまたはそれを超える相対的溶媒接近可能性値を有するかどうか;
モデルアミノ酸残基が溶媒に接近不可能であり、かつ第一のアミノ酸残基または第二のアミノ酸残基のいずれかの最大溶媒接近可能性が、事前決定された量だけ、モデルアミノ酸残基の埋め込まれた容積と異なるかどうか;
モデルアミノ酸残基のB因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の構造近傍の平均B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基の構造近傍の相対的B因子が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基のいずれかの系統可変性が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の相対的系統可変性が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の構造近傍の平均系統可変性が事前決定された範囲の外側であるかどうか;
モデルアミノ酸残基または多型標的アミノ酸残基の構造近傍の相対的系統可変性が事前決定された範囲の外側であるかどうか;
標的アミノ酸残基におけるアミノ酸がグリシンまたはプロリン、およびヘリックス二次構造またはターンの領域中に存在するモデルアミノ酸残基であるかどうか;
モデルアミノ酸残基の構造近傍の平均疎水性が事前決定された範囲の外側であるかどうか、および第一のアミノ酸の疎水性と第二のアミノ酸の疎水性との間の差異が事前決定された値より大きいかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つが異常なアミノ酸であるかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つがクラスにより異常なアミノ酸であるかどうか;
第一のアミノ酸残基および第二のアミノ酸の少なくとも1つが稀なアミノ酸であるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各ヘテロゲンとの間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各サブユニット界面との間の距離が事前決定された値未満かまたはそれを超えるものであるかどうか;
モデルタンパク質中に存在するモデルアミノ酸残基と各保存されたモチーフとの間の距離が、事前決定された値未満かまたはそれを超えるものであるかどうか;
標的タンパク質中の標的多型アミノ酸残基または二番目の多型標的アミノ酸残基のいずれかを表すために使用されるモデルアミノ酸残基と二番目のモデルアミノ酸残基との間の距離が、事前決定された値未満かまたはそれを超えるものであるかどうか;ならびに
標的またはモデルタンパク質中に存在するモデルアミノ酸残基と保存されたアミノ酸残基との間の距離が、事前決定された値未満かまたはそれを超えるものであるかどうか;
からなる群より選択される少なくとも1つの決定を行う段階をさらに含む、請求項20記載の方法。Step (c)
Whether the amino acids present in the model amino acid residues are inaccessible to the solvent and either the first amino acid or the second amino acid is charged;
Whether either the first amino acid or the second amino acid is absolutely conserved in the protein having a predetermined degree of identity to either the model protein or the target protein;
Whether the model amino acid residue is below or above a predetermined exposure to the solvent;
Whether the model amino acid residue has a relative solvent accessibility value less than or greater than a predetermined value;
The model amino acid residue is inaccessible to the solvent and the maximum solvent accessibility of either the first amino acid residue or the second amino acid residue is reduced by a predetermined amount of the model amino acid residue. Whether it differs from the implanted volume;
Whether the factor B of the model amino acid residue is outside a predetermined range;
Whether the relative B factor of the model amino acid residue is outside the predetermined range;
Whether the average factor B near the structure of the model amino acid residue is outside a predetermined range;
Whether the relative factor B near the structure of the model amino acid residue is outside the predetermined range;
Whether the phylogenetic variability of either the model amino acid residue or the polymorphic target amino acid residue is outside a predetermined range;
Whether the relative phylogeny of the model amino acid residues or polymorphic target amino acid residues is outside a predetermined range;
Whether the average phylogenetic variability near the structure of the model amino acid residue or the polymorphic target amino acid residue is outside a predetermined range;
Whether the relative phylogenetic variability near the structure of the model amino acid residue or polymorphic target amino acid residue is outside a predetermined range;
Whether the amino acid at the target amino acid residue is glycine or proline, and a model amino acid residue present in the region of the helical secondary structure or turn;
Whether the average hydrophobicity near the structure of the model amino acid residue is outside the predetermined range, and the difference between the hydrophobicity of the first amino acid and the second amino acid is predetermined Is greater than value;
Whether at least one of the first amino acid residue and the second amino acid is an unusual amino acid;
Whether at least one of the first amino acid residue and the second amino acid is a class-unusual amino acid;
Whether at least one of the first amino acid residue and the second amino acid is a rare amino acid;
Whether the distance between the model amino acid residue present in the model protein and each heterogen is less than or greater than a predetermined value;
Whether the distance between the model amino acid residue present in the model protein and each subunit interface is less than or greater than a predetermined value;
Whether the distance between the model amino acid residues present in the model protein and each conserved motif is less than or greater than a predetermined value;
The distance between the model amino acid residue and the second model amino acid residue used to represent either the target polymorphic amino acid residue or the second polymorphic target amino acid residue in the target protein is determined in advance. Whether it is less than or greater than a determined value; and whether the distance between a model amino acid residue and a conserved amino acid residue present in a target or model protein is less than a predetermined value. Or more than that;
21. The method of claim 20, further comprising making at least one decision selected from the group consisting of:
(b)多型標的アミノ酸残基に存在するアミノ酸が少なくとも第一のアミノ酸または第二のアミノ酸であることが可能であって、標的タンパク質とモデルタンパク質との間の全体の配列相同性に基づいて標的タンパク質における多型標的アミノ酸残基を表すモデルタンパク質内のモデルアミノ酸残基を選択し;
(c)多型標的アミノ酸残基に存在するアミノ酸の同一性を第一のアミノ酸から第二のアミノ酸へと変化することが標的タンパク質に効果を有するかどうかを、モデルアミノ酸残基の物理的、構造的または系統的特徴の少なくとも1つに基づいて予測するために有用である少なくとも1つの決定を行い;ならびに
(d)少なくとも1つの決定の結果を出力するように、コンピュータを動かす指示が含まれる、コンピュータ読取り可能媒体に存在するコンピュータプログラム。(A) receiving data containing the amino acid sequence of the target protein;
(B) the amino acid present in the polymorphic target amino acid residue can be at least a first amino acid or a second amino acid, based on the overall sequence homology between the target protein and the model protein Selecting a model amino acid residue in the model protein that represents the polymorphic target amino acid residue in the target protein;
(C) determining whether changing the identity of the amino acid present in the polymorphic target amino acid residue from the first amino acid to the second amino acid has an effect on the target protein, Making at least one decision that is useful for making predictions based on at least one of the structural or systematic features; and (d) instructions for operating the computer to output a result of the at least one decision. A computer program residing on a computer readable medium.
(b)多型標的アミノ酸残基に存在するアミノ酸が少なくとも第一のアミノ酸または第二のアミノ酸であることが可能であって、標的タンパク質とモデルタンパク質との間の全体の配列相同性に基づいて標的タンパク質における多型標的アミノ酸残基を表すモデルタンパク質内のモデルアミノ酸残基を選択し;
(c)多型標的アミノ酸残基に存在するアミノ酸の同一性を第一のアミノ酸から第二のアミノ酸へと変化することが標的タンパク質に効果を有するかどうかを、モデルアミノ酸残基の物理的、構造的または系統的特徴の少なくとも1つに基づいて予測し;ならびに
(d)予測の結果を出力するように、コンピュータを動かす指示が含まれる、コンピュータ読取り可能媒体に存在するコンピュータプログラム。(A) receiving data containing the amino acid sequence of the target protein;
(B) the amino acid present in the polymorphic target amino acid residue can be at least a first amino acid or a second amino acid, based on the overall sequence homology between the target protein and the model protein Selecting a model amino acid residue in the model protein that represents the polymorphic target amino acid residue in the target protein;
(C) determining whether changing the identity of the amino acid present in the polymorphic target amino acid residue from the first amino acid to the second amino acid has an effect on the target protein, A computer program residing on a computer readable medium, comprising: a prediction based on at least one of a structural or systematic feature; and (d) instructions for operating the computer to output a result of the prediction.
(a)標的タンパク質のアミノ酸配列を提供する段階;
(b)多型標的アミノ酸残基に存在するアミノ酸が少なくとも第一のアミノ酸または第二のアミノ酸であることが可能であって、標的タンパク質とモデルタンパク質との間の全体の配列相同性に基づいて標的タンパク質における多型標的アミノ酸残基を表すモデルタンパク質内のモデルアミノ酸残基を選択する段階;および
(c)多型標的アミノ酸残基に存在するアミノ酸の同一性を第一のアミノ酸から第二のアミノ酸へと変化することが標的タンパク質に効果を有するかどうかを、モデルアミノ酸残基の物理的、構造的または系統的特徴の少なくとも1つに基づいて予測するために有用である少なくとも1つの決定を行う段階;
を含む方法。The way
(A) providing an amino acid sequence of a target protein;
(B) the amino acid present in the polymorphic target amino acid residue can be at least a first amino acid or a second amino acid, based on the overall sequence homology between the target protein and the model protein Selecting a model amino acid residue in the model protein representing the polymorphic target amino acid residue in the target protein; and (c) determining the identity of the amino acid present in the polymorphic target amino acid residue from the first amino acid to the second At least one determination that is useful for predicting whether changing to an amino acid has an effect on a target protein based on at least one of the physical, structural or phylogenetic characteristics of the model amino acid residues. Performing;
A method that includes
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US20862800P | 2000-06-01 | 2000-06-01 | |
US61473500A | 2000-07-12 | 2000-07-12 | |
PCT/US2001/017351 WO2001092990A2 (en) | 2000-06-01 | 2001-05-30 | Structure-based methods for assessing amino acid variances |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004501446A true JP2004501446A (en) | 2004-01-15 |
Family
ID=26903348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002501137A Pending JP2004501446A (en) | 2000-06-01 | 2001-05-30 | Structure-based methods for assessing amino acid diversity |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1350115A2 (en) |
JP (1) | JP2004501446A (en) |
AU (1) | AU2001265131A1 (en) |
CA (1) | CA2410726A1 (en) |
WO (1) | WO2001092990A2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2012124520A1 (en) * | 2011-03-16 | 2014-07-17 | 天野エンザイム株式会社 | Modified α-glucosidase and use thereof |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223730B (en) * | 2019-06-06 | 2022-09-27 | 河南师范大学 | Prediction method and prediction device for protein and small molecule binding site |
CN111128300B (en) * | 2019-12-26 | 2023-03-24 | 上海市精神卫生中心(上海市心理咨询培训中心) | Protein interaction influence judgment method based on mutation information |
CN112257917B (en) * | 2020-10-19 | 2023-05-12 | 北京工商大学 | Time sequence abnormal mode detection method based on entropy characteristics and neural network |
-
2001
- 2001-05-30 JP JP2002501137A patent/JP2004501446A/en active Pending
- 2001-05-30 WO PCT/US2001/017351 patent/WO2001092990A2/en not_active Application Discontinuation
- 2001-05-30 CA CA002410726A patent/CA2410726A1/en not_active Abandoned
- 2001-05-30 EP EP01939635A patent/EP1350115A2/en not_active Withdrawn
- 2001-05-30 AU AU2001265131A patent/AU2001265131A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2012124520A1 (en) * | 2011-03-16 | 2014-07-17 | 天野エンザイム株式会社 | Modified α-glucosidase and use thereof |
JP5992902B2 (en) * | 2011-03-16 | 2016-09-14 | 天野エンザイム株式会社 | Modified α-glucosidase and use thereof |
US9493753B2 (en) | 2011-03-16 | 2016-11-15 | Amano Enzyme Inc. | Modified α-glucosidase and applications of same |
US9650619B2 (en) | 2011-03-16 | 2017-05-16 | Amano Enzyme Inc. | Modified alpha-glucosidase and applications of same |
Also Published As
Publication number | Publication date |
---|---|
WO2001092990A3 (en) | 2003-07-31 |
EP1350115A2 (en) | 2003-10-08 |
AU2001265131A1 (en) | 2001-12-11 |
CA2410726A1 (en) | 2001-12-06 |
WO2001092990A2 (en) | 2001-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gerstein | How representative are the known structures of the proteins in a complete genome? A comprehensive structural census | |
Wang et al. | Peptide binding predictions for HLA DR, DP and DQ molecules | |
Tang et al. | Tools for predicting the functional impact of nonsynonymous genetic variation | |
Zhou et al. | Distance‐scaled, finite ideal‐gas reference state improves structure‐derived potentials of mean force for structure selection and stability prediction | |
Teng et al. | Sequence feature-based prediction of protein stability changes upon amino acid substitutions | |
Neuvirth et al. | ProMate: a structure based prediction program to identify the location of protein–protein binding sites | |
Venkatraman et al. | Protein-protein docking using region-based 3D Zernike descriptors | |
Contreras-Torres | Predicting structural classes of proteins by incorporating their global and local physicochemical and conformational properties into general Chou's PseAAC | |
Jordan et al. | Predicting protein-protein interface residues using local surface structural similarity | |
Barukab et al. | DBP-CNN: Deep learning-based prediction of DNA-binding proteins by coupling discrete cosine transform with two-dimensional convolutional neural network | |
Li et al. | Prediction of protein-protein binding site by using core interface residue and support vector machine | |
Mardia | Statistical approaches to three key challenges in protein structural bioinformatics | |
Zimmermann et al. | Support vector machines for prediction of dihedral angle regions | |
Peng et al. | APOD: accurate sequence-based predictor of disordered flexible linkers | |
Kmiecik et al. | Towards the high-resolution protein structure prediction. Fast refinement of reduced models with all-atom force field | |
Kleinman et al. | Statistical potentials for improved structurally constrained evolutionary models | |
Xu et al. | OPUS-Rota2: an improved fast and accurate side-chain modeling method | |
Li et al. | Identifying protein–protein interfacial residues in heterocomplexes using residue conservation scores | |
Han et al. | Large-scale prediction of long disordered regions in proteins using random forests | |
Otaki et al. | Secondary structure characterization based on amino acid composition and availability in proteins | |
Endres et al. | Toward an atomistic model for predicting transcription‐factor binding sites | |
Zimmermann et al. | LOCUSTRA: accurate prediction of local protein structure using a two-layer support vector machine approach | |
Robertson et al. | MELD× MD folds Nonthreadables, giving native structures and populations | |
Rata et al. | Backbone statistical potential from local sequence-structure interactions in protein loops | |
JP2004501446A (en) | Structure-based methods for assessing amino acid diversity |