[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2005069188A1 - 化合物および蛋白質間の相互作用を予測するシステム - Google Patents

化合物および蛋白質間の相互作用を予測するシステム Download PDF

Info

Publication number
WO2005069188A1
WO2005069188A1 PCT/JP2004/019404 JP2004019404W WO2005069188A1 WO 2005069188 A1 WO2005069188 A1 WO 2005069188A1 JP 2004019404 W JP2004019404 W JP 2004019404W WO 2005069188 A1 WO2005069188 A1 WO 2005069188A1
Authority
WO
WIPO (PCT)
Prior art keywords
protein
class
information
compound
proteins
Prior art date
Application number
PCT/JP2004/019404
Other languages
English (en)
French (fr)
Inventor
Kazuto Yamazaki
Reiji Teramoto
Original Assignee
Dainippon Sumitomo Pharma Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dainippon Sumitomo Pharma Co., Ltd. filed Critical Dainippon Sumitomo Pharma Co., Ltd.
Priority to JP2005516985A priority Critical patent/JPWO2005069188A1/ja
Publication of WO2005069188A1 publication Critical patent/WO2005069188A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Definitions

  • the present invention relates to a system for analyzing and Z or predicting an interaction between a compound and a protein, a system for predicting a similar protein or a similar compound, and a method thereof. More specifically, based on data in which amino acid sequence information of a protein, structural information of a compound, etc., and information of an interaction between a compound and a protein are correlated, an arbitrary compound, an interaction between a protein, a similar protein or a similar compound, It is a method of analyzing and predicting Z or Z.
  • a docking study for analyzing the complementarity between a compound and a protein, and a method for analyzing the complementarity between a compound and a protein, are currently known as methods for analyzing and predicting the interaction between a protein that is an in vivo factor and a chemical substance.
  • Informatics technology that performs analysis based on information science using both structural descriptors as explanatory variables is known.
  • the most advanced is the docking study technology. This is a method to search for a model in which any compound binds well near the active site of a protein.
  • this method requires a large amount of time because it is necessary to search for the optimal solution in addition to the assumption that the three-dimensional structure coordinates of the protein are known. Computing speed is not suitable for exhaustive analysis, and its accuracy is sufficient, but it is difficult and difficult.
  • Non-Patent Document 1 As a method for improving the calculation accuracy, annotations for four main classes of ligands are available. And a technique for applying it to in silico screening and library design (Non-Patent Document 1). The annotation method in this document is based on stratification based on ligand function and existing classification. Then, based on the annotation, a search is performed on the ligand database.
  • Non-Patent Document 2 a method of searching for binding of a ligand to a similar target as well as the same target as a ligand serving as a reference has been proposed (Non-Patent Document 2).
  • the search method described in this document uses the description of a molecule that reflects the ability of the molecule to interact with the target protein and the molecular structure.
  • Non-patent literature l Ansgar Schuffenhauer et al., "Ontology for drug ligands and application of ontology to in silico screening and library design (An
  • Non-patent document 2 Ansgar Schuffenhauer et al., "Similarity Metrics for Ligands Reflecting tne Similarity of the Target Proteins" J J. Chem. Inf. Comput. Sci. 2003 Volume 43 pages 391-405.
  • the problems of the present invention are roughly classified into two problems. One is to build a database, and the other is to establish an informatics method. Specifically, the construction of a database that integrates information on chemical substances and biotechnology for the interaction of multiple compounds and multiple proteins, and a comprehensive system that uses them to provide both calculation speed and accuracy The establishment of a method for analyzing a typical compound-protein interaction. It was developed by multiplying the means to solve the problems. As a result of intensive studies, the present inventors have found that one of the features of the apparatus and method of the present invention is that data in which amino acid sequence information of a protein, structural information of a compound, and interaction information of a protein compound are correlated with each other.
  • the present invention includes the following features.
  • the method according to the present invention provides amino acid sequence information of proteins, amino acid sequence information of proteins systematically classified according to function and similarity of Z or structure, structural information of compounds, and interaction between proteins and compounds. This is a method of predicting the interaction between a given protein and a compound based on data on which action information is correlated.
  • the method for predicting the interaction between an arbitrary protein and an arbitrary compound according to the present invention comprises the steps of: (a) treating the protein and a group of proteins having a similar function or Z or structure to the protein; And a structure-activity relationship model that can discriminate a compound group interacting with an arbitrary compound group, and (b) an interaction between the protein and a group of proteins that are functionally and Z or structurally similar to the protein.
  • This is a method for predicting a combination of a compound and a structure-activity relationship model capable of identifying a compound group that interacts with the protein from the compound group.
  • the method for predicting the interaction between an arbitrary protein and an arbitrary compound according to the present invention is based on a systematic classification based on the function of amino acid sequence information and the similarity of Z or structure.
  • the compound group that interacts with the protein group that belongs to the classification item to which the protein belongs is compared with the protein group that belongs to the child classification item that has a common parent classification item with the protein.
  • Interact This is a method of predicting by combining a compound group with a structure-activity model that can be identified.
  • the system according to the present invention is a prediction system for predicting a protein having a similar function and Z or structure, wherein (a) a first classification showing a classification of a functional characteristic and a Z or structural characteristic of a protein.
  • a first recording means for recording information on a first-class protein belonging to the first category and information on a non-first-class protein not belonging to the first category; (b) a first-class protein recorded on the first recording means;
  • Information of a second class protein belonging to the second class indicating the classification of functional features and Z or structural features that are smaller concepts than the first class, and belonging to the first class but not belonging to the first class.
  • Second recording means for recording a non-secondary class protein which does not belong to the two classes, (c) acquisition means for acquiring the information to be predicted indicating the functional characteristics and Z or structural characteristics of the protein to be predicted, (d) the acquisition Means for prediction and information recorded in the first recording means.
  • First analyzing means for analyzing the similarity between the protein to be predicted and the first class protein in comparison with the non-first class protein based on the obtained information, and (e) the first analyzing means. If it is analyzed that the protein to be predicted is similar to the protein of the first class by the above, the non-second class protein is further analyzed based on the information to be predicted and the information recorded in the second recording means.
  • Second analysis means for analyzing the similarity between the protein to be predicted and the second class of proteins in comparison with (f), based on the analysis results by the first analysis means and the second analysis means,
  • An output means for outputting information on a protein having similar functional characteristics and Z or structural characteristics to the target protein
  • the prediction system further comprises: (g) information on a compound interacting with the protein, and information similar to the protein to be predicted analyzed by (d) the first analysis means and Z or (e) the second analysis means. And interaction information analyzing means for analyzing information of a compound predicted to interact with the protein to be predicted, based on the information of the protein to be predicted, and (f) the output means, Information on proteins having similar functional and Z or structural characteristics to the target protein, and analyzed by Z or the interaction information analyzing means And outputs information on the compound.
  • the (f) output means of the present invention may further include information on the protein and Z or a compound interacting with the protein as an analysis result by the second analysis means, and Is also a large concept, and outputs information on the protein and Z or a compound interacting with the protein as an analysis result by the first analysis means.
  • the system according to the present invention is a prediction system for predicting a protein (or compound) having a similar function and Z or structure, and (a) a function characteristic of the protein (or compound) and Z Or, information on Class 1 proteins (or Class 1 conjugates) belonging to Class 1 indicating the classification of structural characteristics, and non-Class 1 proteins (or non-Class 1 compounds) not belonging to Class 1
  • a non-second class protein (or a non-second class protein) (C) acquisition means for acquiring prediction target information indicating functional characteristics and Z or structural characteristics of the prediction target protein (or prediction target compound); (d) prediction target information acquired by the acquisition means and the first recording means Based on the information recorded in the above, the protein to be predicted (or the compound to be predicted) and the protein to be classified into the first class (in the comparison with the non-class 1 protein (or the non-class 1 conjugate)).
  • the protein to be predicted is converted into the first class protein (or the first class compound) by the first analysis means. If it is analyzed as similar to the non-second-class protein (or the non-second-class protein) based on the information to be predicted and the information recorded in the second recording means.
  • a second analysis means for analyzing the similarity between white matter (or the compound to be predicted) and the second class protein (or the second class conjugate);
  • the first analysis means and the second analysis means Output means for outputting information on a protein (or compound) having similar functional characteristics and Z or structural characteristics to the target protein (or target compound) based on the analysis result; It is a prediction system provided with.
  • FIG. 1 is a flowchart showing a procedure of a process according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing the concept of a category hierarchy when proteins are hierarchically classified in the embodiment.
  • FIG. 3 is an example of a configuration of a screen displaying an analysis result according to the embodiment.
  • Fig. 4 shows a global model of "Phosphodiesterase (hereinafter, referred to as" PDE ”) among the models obtained for the active group data set in Example 1.
  • PDE Phosphodiesterase
  • Fig. 5 shows that among the models obtained for the inactive group data set used in the global model in Example 1, “PDE global model + local model of each subtype” and “ This is a graph showing the difference in discrimination ability when the “global model of each subtype” is applied. The vertical axis of the graph indicates “rate recognized as activity”.
  • FIG. 6 shows the “PDE global model + local model of each subtype” and “each subtype” among the models obtained for the inactive group data set used in the local model in Example 1. This is a graph showing the difference in discrimination ability when the “global model of type” is applied. The vertical axis of the graph indicates “rate recognized as activity”.
  • Fig. 7 shows the discriminability and the Bayesian net analysis that also obtained the CART method (prior equal probability) for the active group data set using the global model of PDE and the local model of each subtype. It is a graph which showed the result of comparison. The vertical axis of the graph indicates the “rate recognized as activity”.
  • Fig. 8 shows the discriminability and Bayesian net obtained by the CART method (prior equal probability) using the global model of PDE and the local model of each subtype for the inactive group data set. It is the graph which showed the result of having compared with analysis. The vertical axis of the graph is Rate ".
  • Figure 9 shows the results of comparing the CART method (equi-established) with Bayesian net analysis using the PDE global model and the local model of each subtype for the active group data set. It is a graph. The vertical axis of the graph indicates “rate recognized as activity”.
  • Fig.10 shows the results of comparison between the CART method (equivalent establishment) and Bayesian net analysis using the global model of PDE and the local model of each subtype for the inactive group data set. It is a graph. The vertical axis of the graph indicates “rate recognized as activity”.
  • Figure 11A shows the combination of the global model of PDE and the local model of the subtype (PDE1), and three types of data: an active group, an inactive group used in the global model, and an inactive group used in the local model. It is a distribution graph applied to the set. The vertical axis of the graph indicates the “rate recognized as activity”.
  • Fig.11B shows the combination of the global model of PDE and the local model of subtype (PDE2), and the three types of active group, inactive group used for global model, and inactive group used for local model. It is a distribution graph applied to the data set.
  • Fig. 11C shows the combination of the global model of PDE and the local model of subtype (PDE3) to generate three types of groups: an active group, an inactive group used for the global model, and an inactive group used for the local model. It is a distribution graph applied to the data set.
  • Fig.11D shows the combination of the global model of PDE and the local model of subtype (PDE4) to generate three types of groups: an active group, an inactive group used for the global model, and an inactive group used for the local model. It is a distribution graph applied to the data set.
  • Fig. 11E shows the combination of the PDE global model and the subtype (PDE5) local model to generate three types: an active group, an inactive group used for the global model, and an inactive group used for the local model. It is a distribution graph applied to the data set.
  • FIG. 12 is a functional block diagram of the interaction analysis device.
  • FIG. 13 is an example of a hardware configuration of an analyzer.
  • FIG. 14 is a conceptual diagram of an interaction analysis process as an embodiment of the present invention.
  • FIG. 15 is a diagram showing an example of the structure of a protein database in the embodiment.
  • FIG. 16 is a diagram showing a structural example of a compound database in the embodiment.
  • FIG. 17 is a diagram showing an example of the structure of an interaction database in the embodiment.
  • FIG. 18 is a diagram showing a structural example of a systematic classification database in the embodiment.
  • FIG. 19 is a schematic diagram illustrating an evaluation function according to the embodiment.
  • FIG. 20 is a flowchart of an interaction analysis processing program according to the first embodiment.
  • FIG. 21 is a flowchart of an interaction analysis processing program according to the second embodiment.
  • FIG. 22A and FIG. 22B are screen display examples output according to the second embodiment.
  • the "amino acid information of a protein” in the present invention includes, for example, a sequence, a function, or a three-dimensional structure.
  • sequence and function there are known information, information on which the informatics power is estimated, plural kinds of annotation information, and ontology information oriented to systematic function classification.
  • known information includes a public database such as a PDB (Protein Data Bank) and a commercial or in-house database constructed by homology modeling.
  • Commercial homology modeling databases include FAMSBASE sold by SGI.
  • “Structural information of a compound” of the present invention includes, for example, information describing a structural formula, drug information, and the like. For example, the presence or absence and pharmacological activity of a compound and the Z or strength, or Launched from Biological Testing And development stage information leading up to. For example, MDDR (MDL Drug Data Report) of MDL and the like can be mentioned.
  • MDDR MDL Drug Data Report
  • the "protein amino acid information" used in the present invention may be a database obtained by combining and integrating the amino acid information portions of the protein, or a database containing all of the amino acid information of the protein as described above.
  • a database containing all of the amino acid information of the protein there is no limitation on the source of data such as commercial or in-house data as long as the information is provided.
  • information classified systematically according to function and similarity of Z or structure is mentioned, for example, information of Gene Ontology (registered trademark) and the like. "Gene Ontology (registered trademark) Has been published on the website of the Consortium (http://www.geneontology.org).
  • reaction refers to the relationship between a protein and a compound having activity against the protein, or the relationship between the compound and a protein having complementarity to the compound.
  • interaction includes the interaction of multiple compounds with multiple proteins or the interaction of multiple proteins with multiple compounds.
  • the "structure-activity relationship model" of the present invention uses, for example, a protein (or compound) belonging to a predetermined classification and structural characteristic information of an arbitrary protein (or compound) as a data set, and uses them as explanatory variables. And an evaluation function (Global Model) obtained by a predetermined analysis method, and as a data set, the structural characteristics of proteins (or compounds) belonging to a predetermined classification and proteins (or compounds) related thereto. It uses information and gives them explanatory variables, and includes an evaluation function (hereinafter referred to as a local model) obtained by a predetermined analysis method.
  • a local model an evaluation function obtained by a predetermined analysis method.
  • an explanatory variable for example, a pharmacophore descriptor used as an explanatory variable in a quantitative structure-activity relationship analysis, a topological index used for similarity search, or an ADMET-related index can be used.
  • an analysis method for example, a multiple regression analysis, a linear 'non-linear discriminant analysis, a logistic regression analysis, a neural network, a decision tree analysis, a Bayesian network, a support vector machine, or the like can be used.
  • the functions of the device according to the embodiment of the present invention can be divided into “search”, “browsing”, and “analysis”, and the existing environment can be used as it is for “search” and “analysis”.
  • Existing environments include systems that have a compound and protein list input / output function and can be viewed in a format in which compound information and bioinformation are linked.For example, a client server type system, a Web-based system, etc. No.
  • the system of the present invention can access a plurality of databases, display the input list in a reflected form, and individually specify output targets.
  • Program description languages include C, C ++, JAVA (registered trademark), HTML, XML, and the like. It is also possible to use an existing program such as rChimej, which is provided free of charge by MDL for browsing the structural formula on the Web base.
  • FIG. 1 is a flowchart showing the concept of one embodiment of the present invention.
  • 101 shows a database of information on the protein side.
  • the information on the protein side to be integrated includes “amino acid sequence” and “three-dimensional structure (including modeled one)”, and includes, for example, information obtained by SwissProt or the like.
  • Reference numeral 102 denotes a database of information on the compound side.
  • the information on the compound to be integrated includes “structural formula” and “conformation”, and includes, for example, information obtained from CAS or the like.
  • 103 shows amino acid sequence information of proteins systematically classified according to function and Z or structural similarity.
  • a category when proteins are hierarchically classified such as ontology information including a GO number of a gene ontology, and the like, may be mentioned.
  • Information on 101 proteins is related to systematic classification information by 103 information.
  • Reference numeral 104 denotes an interaction database associated with information on proteins and compounds. Examples of the information include a sales database such as MDDR (MDL Drug Data Report) of MDL, pharmacological activity test data, and information such as reverse proteomics.
  • 105 shows a function of analyzing a structure-activity relationship.
  • the amino acid sequence information of the protein (101 and 103 in FIG. 1), the structural information of the compound (102 in FIG. 1), and the information of the interaction between the protein and the compound are associated with each other, Based on the data in the integrated database (104 in Fig. 1), comprehensive interaction analysis is performed taking into account both the commonalities and differences of the functional features and Z or structural features to be analyzed. Specifically, it is systematically separated by 103 functions and similarity in Z or structure. Utilizing amino acid information of classified proteins, for example, Gene Ontology (registered trademark)
  • a node indicates a category when proteins are hierarchically classified, and includes, for example, a GO number of a gene ontology.
  • Figure 2 shows an image of the node hierarchy.
  • the analysis model at each node is a combination (203) of the “global model at the node one level higher” (201) and the “local model between peer nodes” (202). It is a combination of the global model (204) of the top node and the local model (205) of each node.
  • Model construction at each node is performed by informatics analysis using various structural descriptors as explanatory variables.
  • various structure descriptors a pharmacophore descriptor used as an explanatory variable in a quantitative structure-activity relationship analysis, a topological index used for similarity search, an index related to ADMET, and the like can be used.
  • the “global model of the top node” in FIG. 1 represents a model that can significantly distinguish a compound group belonging to the top node from any other compound group.
  • the “local model of each node” refers to a model in which a group of compounds belonging to a certain node can be distinguished from a group of compounds belonging to other nodes having a common parent node.
  • FIG. 3 shows a screen display image of the interaction analysis system according to the embodiment. The details of the interaction analysis process will be described later.
  • Numeral 301 in FIG. 3 shows a ⁇ diagram of the functional classification of amino acid sequence information (eg, gene ontology) of proteins systematically classified based on the similarity of function and Z or structure. 301 is associated with the corresponding compound number.
  • the tree is expanded only for the node containing the specified amino acid sequence information number (for example, the GO number in Gene Ontology) or the compound number, and the others are displayed in a folded state.
  • the tree on the right side of FIG. 3 shows the expanded state. For example, the GO number corresponding to the analysis result is displayed in a different character color.
  • Each node displays the lower amino acid sequence information number (for example, "GO number”; the same applies hereinafter), the number of amino acids, and the total number of compounds, and changes as the display format changes. Click any compound number By clicking, the corresponding structural formula and its accompanying data are displayed.
  • buttons with list input / output functions are arranged (302 to 305 in Fig. 3). The input assumes the amino acid sequence information number and the compound number, and the output assumes the protein sequence information, the protein coordinate data (PDB format), and the compound number.
  • a check box is set for each of the amino acid sequence information number corresponding to the terminal node and the compound number, and a list is output for each checked item.
  • a plurality of amino acid sequence information numbers of 301 can be designated by clicking a node or inputting a list of amino acid sequence information numbers.
  • the Run button of 304 By pressing the Run button of 304, the number of the specified amino acid sequence information X
  • the score of the structural formula is calculated Is done. If you specify the number of the specific amino acid sequence information in 301 or one of the compounds displayed in 306, the score is displayed in the other.
  • the Filter button (305) after specifying the threshold records (nodes) that are equal to or greater than the threshold are extracted.
  • the filter operation in 305 can be executed multiple times with and / or / not specified, and the result can be output to a delimited text file such as CSV (Comma Separated Values) format.
  • CSV Common Separated Values
  • Verification of the analysis processing method used by the interaction analysis system as the embodiment will be described.
  • verification results of a plurality of analysis processing methods using examples of mutual analysis information of a predetermined compound and a protein will be described.
  • the interaction analysis processing by the interaction analysis system uses the CART method in which a pharmacophore descriptor or the like for identifying the presence or absence of pharmacological activity of the compound is used as an explanatory variable.
  • a “global model (global model)” using various compound sets including “inactive group” as a compound group that does not interact with the target protein (or “small interaction”; the same applies to the following).
  • the “local model (local model)” that uses a compound set near the active group to realize the interaction analysis processing. The contents of global model and local model It will be described later.
  • Table 1 shows the one-level tree structure, which is the basic unit of the Gene Ontology, between the "global noremodel of each node” and the "global noremodel of the upper node and the locale model of each node".
  • 3 shows a comparison of the discriminating power of each lower node in FIG.
  • five subtypes PDE1 to PDE5 having, as an example, phosphodiesterase (Phosphodiesterase (hereinafter, “PDE”);) as an upper node were used.
  • PDE is a general term for an enzyme that hydrolyzes a phosphoric diester into a phosphoric monoester.
  • the upper node, PDE has 2871 compounds.
  • the variation in the number of compounds belonging to each lower node is large with a minimum of 29 compounds (PDE2) and a maximum of 1699 compounds (PDE4).
  • PDE2 29 compounds
  • PDE4 maximum of 1699 compounds
  • Table 1 shows the discriminating power of the global model, and the lower part shows the discriminating power of the local model.
  • Each column has two numerical values.
  • the left side is the discriminating ability for the data set (learning data) used to construct the model (for example, the evaluation function for identifying the compound), and the right side is the construction. It shows the discrimination ability for the data set (verification data) used for verification of the model.
  • An overview of the results shows that a favorable model is generally obtained when the prior probabilities are equal, so the following study used a model with the prior probabilities equal.
  • FIGS. 4 and 6 show (l) a group of compounds interacting with PDE (active group), (2) an inactive group (compound group not interacting with PDE) used in the global model, and (3) )
  • the inactive group used for the local model, and the three models obtained above "(a) Global model of PDE + local model of each subtype (" GlobaLPDE & This is a graph showing the difference in discriminability between the case where “Local_PDEx ⁇ ” and “(b) Global model of each subtype (shown as“ Global_PDEx ”in the figure)” are applied. As shown in Figs.
  • the Naive Bayes method, the Markov Blanket method, and the Augmented Markov Blanket method which complete calculations in a short time, have similar tendencies. Their discrimination ability is hardly sufficient. Was something.
  • the Sons & Spouses method requires a relatively long calculation time as compared with the previous three methods, but shows discrimination ability close to that of the CART method. However, when the number of active groups is extremely small, the discrimination ability is greatly reduced.
  • the Augmented Naive Bayes method requires almost the same calculation time, but shows high discrimination even when the number of active groups is small.
  • the Sons & Spouses method showed the same discrimination power as the CART method, but clearly overtrained. Therefore, the Augmented Naive Bayes method and the Sons & Spouses method have advantages and disadvantages.
  • the discrimination rate for the active group was improved, and the false recognition rate for the inactive group was higher. Especially for PDE-1 and PDE-2 with a small number of data, a significant improvement in the discrimination rate was observed.
  • the Augmented Naive Bayes method was overtrained, there was no difference in the results even when the prior probabilities were considered.
  • the distribution threshold of the score value may be used to determine the classification threshold.
  • the Sons & Spouses method can be adopted in consideration of the balance between discrimination ability and overtraining. The results are shown in Figs.
  • the classification is determined by the binary, but here it is expressed as the probability of matching at each node.
  • the probability is expressed as a conditional probability with the upper node as an example, and the classification threshold is determined from the distribution of the probability values.
  • Figures 11A, B, C, D, and E show the probability distributions of the three data sets for each subtype (PDE-1-5). In the figure, “1” represents an active group, “0” represents an inactive group used in a local model, and “11” represents an inactive group used in a global model.
  • the horizontal axis represents the conditional probability when the global model of PDE and the local model of each subtype are applied.
  • the vertical axis of the graph indicates “rate recognized as activity”. As shown in Fig. 11, as in the case of the CART method, both the inactive group in the global model and the inactive group in the local model are well separated from the active group. In addition, since it is represented by conditional probabilities, some values take an intermediate value between 0 and 1.
  • an analysis model may be constructed in which inactivity information is treated as a missing value and only data with known pharmacological activity is used as a data set. Therefore, the activity model of the inhibitor for PDE and the subtype of PDE is referred to as “Support Vector Machine” below, which is referred to as “SVM”. ), A prediction model was constructed, and 4-fold cross validation was performed. The parameters in the SVM were fixed, and the standardization of the explanatory variables and the Gaussian 'kernel were used. The software used is LIBSVM. The concept of SVM is described, for example, in “Vapnik, Statistical Learning Theory, Wiley, 1998”. Crossing Tables 4 and 5 show the test results.
  • OCSVM One-Class SVM
  • a model of OCSVM was constructed for PDE1-5 inhibitors, cross-validation was performed within the active group, and discrimination ability for 3000 randomly sampled compounds was verified.
  • the parameters in the SVM were fixed, and explanatory variables were standardized and the RBF kernel (Gaussian 'kernel) was used.
  • the software used was LIBSVM.
  • the concept of OCSVM is described in, for example, “B. Scholkopf.et.al. Estimating the support of a high-dimensional distribution. Neural Computation, 1 ⁇ , 2001, 1443-1471”.
  • the results of verification of the analysis processing method have been described using a plurality of general statistical processes as examples.
  • the analysis processing according to the present invention can be realized by any of the above methods, a modification of each method, a combination of each method, or a method known to those skilled in the art.
  • an apparatus that implements the above-described analysis processing method as an embodiment of the present invention and details of the analysis processing method will be mainly described.
  • FIG. 12 shows a functional block diagram of an interaction analyzer 500 as an embodiment of the system or method of the present invention.
  • the interaction analyzer 500 includes (a) first recording means 72, (b) second recording means 74, (c) acquisition means 70, (d) first analysis means 76, (e) second analysis means 78, (F) output means 82; and (g) interaction information analysis means 80.
  • FIG. 13 shows an example of a node configuration in which the interaction analysis device 500 shown in FIG. 12 is realized using a CPU.
  • the interaction analysis device 500 includes a CPU 10, a memory 12, a speaker 14, a communication circuit 16, a keyboard Z mouse 18, a display (display device) 20, and a hard disk 22.
  • the CPU 10 executes an interaction analysis process described later and controls the entire interaction analysis device 500.
  • the hard disk 22 records a program (for example, an interaction analysis processing program) that controls the protein database 600, the compound database 700, the interaction database 800, the systematic classification database 900, and the interaction analyzer 500.
  • the memory 12 is used as a work area of the CPU 10 and a storage area for acquired data. Information entered by operating the keyboard / mouse 18 is processed by the CPU 10. It is.
  • OS operating system
  • NT NT
  • 2000 or the like
  • the computer program of the embodiment implements each function shown in FIG. 12 in cooperation with the OS, but is not limited thereto, and may implement each function by the computer program alone.
  • FIG. 14 is a conceptual diagram of the interaction analysis processing as an embodiment of the present invention.
  • the interaction analyzer 500 as an embodiment includes a protein database 600, a compound database 700, an interaction database 800, and a systematic classification database 900.
  • the device 500 has, for example, a function of predicting a protein that interacts with a compound to be analyzed and a function of predicting a compound that interacts with a protein to be analyzed.
  • the protein database 600 information on a plurality of proteins is recorded.
  • the compound database 700 records information on a plurality of compounds.
  • the interaction database records information about the interactions between proteins and compounds (Symbol 1000). Therefore, the interacting objects of the protein recorded in the protein database 600 and the compounds recorded in the compound database 700 are associated with each other.
  • the protein information recorded in the protein database 600 is systematically classified according to the information in the systematic classification database 900.
  • the systematic classification database 900 may systematically classify the compound information recorded in the compound database 700.
  • the systematic classification database 900 may systematically classify information combining proteins (included in database 600) and compounds that interact with the protein (included in database 700).
  • the systematic classification database 900 according to the embodiment includes information obtained by systematically classifying information related to a protein based on protein function and similarity of Z or structure, more specifically, a gene ontology database. Hierarchically classify proteins by ontology information including GO numbers Contains similar information.
  • the information of the interaction between the protein and the compound is systematically classified based on the information of the database 900. Becomes (symbol 1002).
  • the systematic classification of proteins and Zs or compounds is not limited to those described in the embodiment, and may include, for example, physical properties, molecular structures, structural formulas, amino acid sequences, structural annotation information, ligand functions, or functional annotation information. And the similarity of information about Z or structure can be used.
  • the tree structure 1004 shown in FIG. 14 shows the relationship between proteins and Z or compounds that are systematically classified by the systematic classification database 900.
  • the upper classification node 1008 includes a plurality of proteins and Zs or compounds.
  • each of the lower classification nodes 1006 and 1010 includes those having predetermined functional characteristics and Z or structural characteristics selected from proteins and Z or compounds belonging to the higher classification node 1008.
  • Figure 14 shows a total of three classification nodes divided into two layers for convenience of explanation. Any number of layers in the systematic classification and the number of classification nodes included in each layer can be adopted according to the contents of the systematic classification to be used.
  • the interaction analyzer 500 uses the tree structure 1004 to systematically classify each node of the protein and the Z or the compound. Use information from Specifically, the device 500 analyzes whether or not the analysis target belongs to a higher-level classification node (step S101). Next, the device 500 analyzes whether or not the analysis target belongs to the lower classification node (S103). As described above, the device 500 analyzes whether or not the analysis target belongs to each classification node, that is, a protein and a Z or a compound having a similar function and Z or a structure (the interaction information contained in the database is known. ) And output information about the proteins and Zs or compounds that interact with the target of analysis.
  • each component of the interaction analysis apparatus 500 shown in FIG. 12 and the corresponding functions in the embodiment include the following, for example.
  • the first recording means 72 includes a node recorded in the systematic classification database 900 (see Fig. 18). Corresponds to information about A (see Table 66 in Figure 19).
  • the second recording means 74 corresponds to the information on the node A-1 (or A-2) recorded in the systematic classification database 900 (see Table 62 or 68 in FIG. 19).
  • the obtaining means 70 corresponds to the CPU 10 of the device 500 that executes the processing of step S201 in FIG.
  • the first analysis means 76 corresponds to the CPU 10 executing the process of step S203 in FIG.
  • the second analysis means 78 corresponds to the CPU 10 executing the processing of step S205 in FIG.
  • the output unit 82 corresponds to the CPU 10 that executes the processing of step S211 in FIG. 20 or step S307 in FIG.
  • the interaction information analysis means 80 corresponds to the CPU 10 executing the processing of step S305 in FIG.
  • FIG. 15 shows the recorded contents of the protein database 600 as the embodiment.
  • the protein database 600 records information on a plurality of proteins. More specifically, the protein database 600 includes information on “protein ID (Protein ID)” for identifying the protein, and “Structure Index” as an example of the structural characteristics and Z or functional characteristics of the protein. Columns included. Information on each protein contained in the protein database 600 is based on information in a general public database.
  • the “structural index” is, for example, a value obtained by numerically converting the amino acid sequence and the three-dimensional structural information of Z or protein by means known to those skilled in the art.
  • FIG. 16 shows the recorded contents of the compound database 700 as the embodiment.
  • the compound database 700 records information on a plurality of compounds.
  • the compound database 700 includes a column for recording “compound ID” for identifying a compound, and information indicating the structural characteristics and Z or functional characteristics of the compound.
  • the information indicating the structural characteristics and the Z or functional characteristics of the compound includes, for example, the structural characteristics of the compound (including physical properties) and the structural characteristics based on the structural formula of Z or the compound.
  • Figure 16 shows examples of structural characteristic information such as LogP (oil-water partition coefficient, n—particular tanol Z-water partition coefficient)), hydrogen bond acceptor (HBA), and hydrogen bond Includes donor (Hydrogen bond donor (HBD)) and molecular weight (Molecular weight (MW)).
  • LogP oil-water partition coefficient, n—particular tanol Z-water partition coefficient
  • HBA hydrogen bond acceptor
  • HBD hydrogen bond Includes donor
  • MW molecular weight
  • FIG. 17 shows the recorded contents of the interaction database 800 as the embodiment.
  • the interaction database 800 contains the proteins contained in the protein database 600 (identified by “Protein ID”) and the compounds contained in the compound database 700 (compounds identified by “Compound ID”).
  • Activity which is information on the interaction with the compound (e.g., information on conjugates that exhibit pharmacological activity on proteins).
  • activity information for example, information of MDL (MDL Drug Data Report) of MDL, information of general public database and information of Z or experimentally confirmed can be used.
  • information on this interaction can also be created based on the correspondence between the names of proteins and compounds showing pharmacological activity (including synonyms).
  • a numerical value (including a score value indicating a probability) that is an index of the interaction can be recorded.
  • information on the interaction between the protein and the compound is recorded in the interaction database 800.
  • the information on the interaction is recorded in the protein database 600 and Z or the compound database 700, so that the combination of the interacting protein and the compound can be associated.
  • the device 500 can analyze the interaction between proteins.
  • the protein databases 600 and Z or the interaction database 800 record combinations of interacting proteins.
  • FIG. 18 shows the recorded contents of the systematic classification database 900 as the embodiment.
  • the systematic classification database 900 includes information for systematically classifying a plurality of proteins recorded in the protein database 600 according to function and Z or structural similarity.
  • proteins are hierarchically classified according to functional classification information of amino acid sequence information (for example, GO number of Gene Ontology).
  • the systematic classification database 900 records the systematic classification information of proteins according to function and Z or structural similarity, for example, in an XML (Extensible Markup Language) tree structure 50.
  • XML Extensible Markup Language
  • Each node of the XML tree structure 50 is associated with a node number based on the GO number of the gene ontology and an evaluation function.
  • the table data 52 recorded in the systematic classification database 900 records the correspondence between the protein ID included in the XML node and the node number.
  • the table data 54 recorded in the systematic classification database 900 records a correspondence between a node number and an evaluation function for determining belonging to the node.
  • FIG. 19 is a schematic diagram illustrating an evaluation function according to the embodiment.
  • the evaluation function global model and local model
  • the function and the Z or structural characteristic information of the protein (or compound) to be analyzed can be obtained.
  • Acting compounds (or proteins) can be analyzed.
  • the analysis target is a protein
  • an evaluation function using the function information of the protein and Z or structural characteristic information as explanatory variables is used.
  • an evaluation function using the function and Z or structural characteristic information of the compound as explanatory variables is used.
  • FIG. 19 illustrates, as an example, an evaluation function that uses structural characteristic information of a protein as an explanatory variable.
  • the tree structure 60 is the systematic classification information of proteins recorded in the systematic classification database 900 shown in FIG.
  • the table 66 includes a protein belonging to the node A, which is an upper node (“P001” -006 shown by the symbol 67) and an arbitrary protein (“P007” -one).
  • the tables 62 and 68 show the proteins belonging to node A (" P001 ”-“ P006 ”).
  • the evaluation function can be obtained by using a predetermined analysis method based on information on a protein (or compound) whose structural characteristic information is known, which is included in the protein database 600 (or the compound database 700). Can be.
  • the function of the apparatus 500 generating the evaluation function is referred to as a “learning function”.
  • the evaluation function of the classification node A distinguishes between a protein belonging to the classification node A and an arbitrary protein not belonging to the classification A when the structural characteristic information of the protein is given as the explanatory variable X. This is the function that makes it possible.
  • the evaluation function indicated by the symbol 69 and the evaluation functions indicated by the symbols 64 and 65 are different in a data set used to obtain the evaluation function.
  • an evaluation function is obtained using information of a protein belonging to a predetermined upper classification (node A) and information of an arbitrary protein as a data set.
  • the lower node (node A-1) information on proteins belonging to the lower classification (node A-1) and information on related proteins (belonging to node A but not belonging to node A-1) to obtain an evaluation function.
  • the evaluation function included in the symbol 69 is expressed as a global model
  • the evaluation functions included in the symbols 64 and 65 are expressed as a local model.
  • One feature of the interaction analysis processing described below is that a global model in an upper node and a local model in a lower node are executed in combination. More specifically, the global model and the local model use different data sets. Therefore, it is possible to narrow down the classification nodes to be analyzed in a wide comparison target range by the global model, and to compare nearby nodes by the local model.
  • the classification node to be analyzed can be specified after the difference from the object can be significantly identified.
  • the analysis considering the “commonality” of the functional feature and the Z or structural feature of the analysis target, and the “difference” of the functional feature and the Z or structural feature of the analysis target are performed.
  • One feature is that comprehensive interaction analysis is performed using both the analysis (local model) that is considered.
  • the results of verifying the effectiveness of the analysis processing by combining the global model at the upper node and the local model at the lower node are as described in the item “2. Verification of the analysis processing method” above, for example.
  • FIG. 20 is a flowchart of an interaction analysis processing program according to the first embodiment, which is executed by the CPU 10 of the interaction analysis apparatus 500.
  • the device 500 performs the following processes: (1) prediction of a protein interacting with a compound, (2) prediction of a compound interacting with a protein, and (3) prediction of an interaction between a compound and a protein. It is possible.
  • (2) prediction of a compound interacting with a protein will be described as an example.
  • Other (1) prediction of the protein interacting with the compound and (3) prediction of the interaction between the compound and the protein can be executed by the same processing.
  • the CPU 10 of the device 500 is operated by operating the keyboard Z mouse 18 by the user of the device.
  • step S201 in FIG. 20 input of data on the functional characteristics and the Z or structural characteristics of the protein to be analyzed is received (step S201 in FIG. 20).
  • structural feature data obtained by numerically converting an amino acid sequence is input.
  • the evaluation function is, for example, the evaluation function (global model) of the node A shown in FIGS. 18 and 19 (see a symbol 69 in FIG. 19). If the analysis target does not belong to the higher classification node, the CPU 10 ends the processing.
  • the CPU 10 It is analyzed whether or not the analysis target belongs to each of the +1 classification nodes (S205). Specifically, the CPU 10 calculates the presence / absence (Y) of belonging to the node using the input structural feature data as the explanatory variable (X) for the evaluation function of the lower classification node.
  • the evaluation function is, for example, an evaluation function (local model) of the nodes A-1, A-2, ⁇ N shown in FIGS. 18 and 19 (see symbols 64 and 65 in FIG. 19).
  • the CPU 10 determines whether or not the hierarchy ⁇ + 1 is the lowest hierarchy (lowest classification node).
  • step S207 If it is determined that the class is not the lowest hierarchy, the CPU 10 sets N to N + 1 (S209), and executes the processing from step S205 on the classification node further lower than the classification node analyzed as belonging to the analysis target. repeat. If it is determined in the processing of step S207 that the hierarchical layer is the lowest hierarchical level, the CPU 10 outputs the analysis result of the classification node to the display 20, and ends the processing (S211).
  • the CPU 10 applies the structural characteristic data to be analyzed to the global model of the upper node, and further applies it to the local model of the lower node in order. As a result, the CPU 10 outputs a classification node to which the analysis target belongs, that is, a protein (or a protein group) having similar structural characteristics and Z or functional characteristics to the protein to be analyzed.
  • a classification node to which the analysis target belongs that is, a protein (or a protein group) having similar structural characteristics and Z or functional characteristics to the protein to be analyzed.
  • the analysis result of the attribution to the classification node is expressed by a binary value of 0 or 1 (see FIG. 19).
  • the analysis result of the attribution to the classification node may be represented by a score value.
  • score values for example, not only the score value of the lowest classification node to which the analysis target belongs but also all (or part) classification nodes from the higher classification node to which the analysis target belongs to the lower classification node
  • Information reflecting the score value may be output. For example, as an analysis result, the average value of the score values of all the belonging classification nodes can be displayed, or the value obtained by multiplying the score value of all the classification nodes can be displayed.
  • the CPU 10 can also extract and output a record (a classification node or a corresponding tree) having a predetermined threshold (for example, 0.5) or more.
  • FIG. 3 shows an example of the screen configuration of the analysis result output by the process of step 211. The contents of Fig. 3 were explained in the item of "1 2. Interface" above. As shown in Fig.
  • the analysis result of the classification node is a tree structure that includes not only the lowest classification node predicted to belong to the analysis target but also the higher classification nodes including that classification node. indicate. Therefore, the user of the device can grasp the analysis result indicating to which classification node the analysis target belongs as the position in the entire tree structure (or a part thereof). For example, the difference is that one branch has the lowest classification node that belongs to the third lowest from the bottom of the systematic classification database 900, and another branch has the lowest classification node that belongs to the second lowest from the bottom. In some cases, by displaying the tree structure, it is possible to easily grasp the difference in the hierarchy of the plurality of classification nodes. In another embodiment, the CPU 10 can assign and display the above-described score values to the plurality of classification nodes (not shown).
  • the CPU 10 can output information on compounds that interact with the protein (or protein group) based on information on the protein (or protein group) having similar structural characteristics and Z or functional characteristics. In the following description, an example of outputting such interaction information will be described as a second embodiment.
  • FIG. 21 is a flowchart of an interaction analysis processing program according to the second embodiment, which is executed by the CPU 10 of the interaction analysis apparatus 500.
  • the second embodiment and the first embodiment are common up to the processing of step S211 in FIG.
  • the CPU 10 analyzes the information of the classification node of each hierarchy to which the analysis target belongs, and records it as the “classification node analysis result” in the memory 12 or the like (step S301). ).
  • the analysis of the information of the classification nodes includes, for example, the above-described assignment of the score values, extraction of the classification nodes by using a threshold value, and the like.
  • the CPU 10 records the ID of the protein belonging to the classification node corresponding to the lowest layer of the branch determined to belong to the analysis target in the memory 12 or the like as a “candidate ID” (S303). .
  • CP U10 refers to the systematic classification database 900 illustrated in FIG.
  • the CPU 10 refers to the protein database 600, the interaction database 800, and the compound database 700 to obtain information on compounds that interact with the protein identified by the “candidate ID” as “interaction candidate information”.
  • the candidate ID is “P001”
  • the CPU 10 acquires the compound “C005” interacting with “P001” based on the interaction database 800 (see FIG. 17), and obtains the compound database 700 (see FIG. 16). ),
  • the information on “C005” is acquired as “interaction candidate information”.
  • the CPU 10 outputs the interaction candidate information to the display 20, and ends the processing (S307).
  • FIG. 22A and FIG. 22B are screen display examples output according to the second embodiment.
  • FIG. 22A is an example of a screen displaying information on a protein predicted to interact with the compound when information on the compound is input as an analysis target.
  • FIG. 22B is an example of a screen displaying information on a compound predicted to interact with a compound when information on the protein is input as an analysis target.
  • the CPU 10 executes the output process at step S307 in FIG. 21 (see 22 as an output example) in addition to the output process at step S211 in FIG. 20 (see FIG. 3 as an output example). I do.
  • the output processing in step S211 in FIG. 20 can be omitted.
  • the display of the interaction candidate information associated with the tree structure illustrated in FIG. 3 described above can be adopted. Specifically, a compound (or protein) that interacts with a protein (or compound) belonging to the classification node is also displayed near the classification node in the tree structure illustrated in FIG.
  • the interaction analysis device 500 is illustrated as an embodiment of the system or the method of the present invention.
  • the method of the present invention can also be used as a stand-alone ordinary application software.
  • Other embodiments include the following examples. [0096] (1) Client-server type
  • a server device that executes the same process as the interaction analysis device 500, a process of transmitting data relating to an analysis target, and a process of receiving an analysis result (step S201 in FIG. 20, (See S 211), a combination with a client computer (client-server type) may be adopted.
  • client-server type includes, for example, a system connected by a local area network (LAN) and a system by an ASP (Application Service Provider) service.
  • the system or method of the present invention can be adopted as a module for adding functions to amino acid sequence analysis software and chemical structure analysis software.
  • the system or method of the present invention is applied as a module for adding functions to a protein database (for example, PDB, FAMSBASE) or a structural database (for example, ISISBase (trademark) or Accord for Excel (trademark)). You can also.
  • the interaction analysis device 500 is illustrated as an embodiment of the system or method of the present invention.
  • other devices such as a Personal Digital Assistant (PDA) may be used.
  • PDA Personal Digital Assistant
  • a program for operating the CPU 10 is stored in the node disk 22, but this program may be read from a CD-ROM in which the program is stored and installed on a hard disk or the like.
  • a program such as a DVD-ROM, a flexible disk (FD), or an IC card may be installed from a computer-readable recording medium.
  • the program can be downloaded using a communication line.
  • the program stored in the CD-ROM is not indirectly executed by the computer, but the program stored in the CD-ROM is directly executed. It may be executed.
  • programs that can be executed by a computer include those that can be directly executed by simply installing the program as it is, and those that need to be converted into another form once ( For example, decompressing data that has been compressed), and also includes those that can be executed in combination with other module parts.
  • each function of FIG. 12 is realized by a CPU and a program. A part or all of each function may be configured by hardware logic (logic circuit).
  • the series of operations can be automated, and as the database is expanded ( ⁇ sales DB, in-house pharmacology evaluation results, reverse proteomics information, etc.), the model is updated as needed, and the quality of the fine copy database and the accuracy of prediction are measured.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

 複数の化合物および複数の蛋白質の相互作用に対して、化学物質および生命工学の各情報を統合したデータベースの構築およびそれらを使用し、計算速度と精度を兼ね備えた網羅的な相互作用の解析方法の確立。  蛋白質のアミノ酸配列情報、化合物の構造情報および蛋白質と化合物の相互作用情報が相互に関連づけられているデータに基づき、任意で該当させた蛋白質およびその類縁情報を持った蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、該蛋白質およびその類縁蛋白質群に対して相互作用する化合物群の中から、該蛋白質に相互作用する化合物群を識別し得る構造活性相関モデルとを組み合わせて予測する方法。

Description

HR -ita 全 化合物および蛋白質間の相互作用を予測するシステム
関連出願の相互参照
[0001] 曰本国特許出願 2003— 435659号(2003年 12月 26曰出願)の明細書、請求の 範囲、図面および要約を含む全開示内容は、これら全開示内容を参照することによ つて本出願に合体される。
技術分野
[0002] 本発明は、化合物と蛋白質との間の相互作用を解析および Zまたは予測するシス テム、類似蛋白質または類似化合物を予測するシステム、およびそれらの方法に関 する。詳しくは、蛋白質のアミノ酸配列情報等、化合物の構造情報等、および化合物 蛋白質間の相互作用情報とが相互に関連づけられているデータに基づき、任意の 化合物 蛋白質間の相互作用、類似蛋白質または類似化合物の解析および Zまた は予測を行う方法である。
背景技術
[0003] 化学の創薬分野では、ゲノム時代に先んじて、特定の蛋白質を対象とした多数の 化合物の相互作用解析をおこなう高処理スクリーニング系(high-throughput screening,以下 HTS)、複数の化合物を一度に合成するコンビナトリアル合成技術( combinatorial chemistry)が確立されたことにより、大量の情報を取り扱う化学物質の 生物作用に関する情報科学技術 (ケモインフォマテイクス)が進展し、一定の成功を 納めてきた。一方、生物学の創薬分野では、多数の生体内因子を同時に測定するマ イクロアレイ解析やプロテオーム技術が発展してきた。また、特定の薬物を対象とした 多数の生体内因子の相互作用解析を行うリバースプロテオミクス技術も確立されてい る。これらの実験手法と共に、塩基配列やアミノ酸配列間の比較や、生体内因子間 の相互作用ネットワーク解析等のバイオインフォマティクス技術が進展してきた。
[0004] しカゝしながら、ケモインフォマテイクスとバイオインフォマティクスは、それぞれ独立に 発展してきた経緯があり、両者が十分に統合されて 、るとは言 ヽ難 、状況にある。 [0005] 一方、創薬プロセスの一つに「ゲノム創薬」と言う新たなパラダイムに基づく研究力 世界中で精力的に進められている。いうまでもなく「ゲノム」とは、「生体内にあるすベ ての遺伝子」を意味する。一方の「薬物」は複数の生体内因子と直接的 ·間接的に相 互作用することにより、目的とする薬理作用のみならず副作用や毒性を発現する。よ つて、「ゲノム創薬」のパラダイムとは、「薬物と生体内にあるすベての因子との相互作 用を考慮すること」が意味される。
[0006] 創薬研究では多数の化合物の中から最適な化合物を探索する為、多数の化合物 とすべての生体内因子との網羅的な相互作用解析 (インタラタトーム)が必須である。 しかし、化合物の種類は無限に近いためその解析対象は膨大な数にのぼる。よって
、多数の化合物とすべての生体内因子との網羅的な相互作用解析および Zあるい は予測を高精度かつ迅速に実現する方法が望まれる。
[0007] 現在、生体内因子である蛋白質と化学物質の相互作用を解析および Zまたは予測 する方法として知られているものに、化合物—蛋白質間の相補性を解析するドッキン グスタディー、化合物 -蛋白質の両構造記述子を説明変数とし情報科学に基づいた 解析をおこなうインフォマテイクス技術等が知られている。現在、最も発展しているも のとしてドッキングスタディー技術が挙げられる力 これは、蛋白質の活性部位近傍 において、任意の化合物が良好に結合するモデルを探索する手法である。しかしな 力 Sらこの手法は、蛋白質の立体構造座標が既知であることを前提とすることに加え、 最適解を探索する必要がある為に多大な時間を要する。計算速度の観点力 網羅 的な解析には不適であり、その精度も十分とは言 、難 、状況である。
[0008] ドッキングスタディーの問題点に対して、立体構造情報を用いずに任意の化合物と 蛋白質間の相互作用を推定する方法が近年報告されている。つまり、化合物の構造 式および蛋白質の配列情報をそれぞれ構造記述子に変換し、両者を入力変数とし たインフォマテイクス解析である。
[0009] 上記解析方法は、立体構造を必要としないことから適用範囲が広がることに加え、 多大な計算時間を必要とする最適解探索を回避できるが、計算精度の観点から実用 レベルには未だ至って!/、な!/、。
[0010] この計算精度を高める方法として、 4つの主要クラスのリガンドのためのァノテーショ ン手法と、それをインシリコスクリーニングおよびライブラリーデザインに適用する技術 が提案されている (非特許文献 1)。同文献のァノテーシヨン手法は、リガンド機能と既 存分類による階層化を基礎にしている。そして、そのァノテーシヨンを基礎にしてリガ ンド ·データベースに対する検索を実行する。
[0011] また、これを発展させた方法として、リファレンスとなるリガンドと同一のターゲットだ けではなぐ類似のターゲットへのリガンドの結合を検索する手法が提案されている( 非特許文献 2)。同文献の検索手法は、ターゲットとなる蛋白質に対する分子の相互 作用能力、分子構造等を反映させた分子の記述を利用する。
[0012] 非特許文献 l :Ansgar Schuffenhauerら, 「薬剤リガンドのためのオントロジーおよびィ ンシリコスクリーニングおよびライブラリーデザインに対するオントロジ一の適用(An
Ontology ror Pharmaceutical Ligands and Its Application for in bilico Screening and Library Design) J J. Chem. Inf. Comput. Sci. 2002年第 42卷 947— 955頁。
[0013] 非特許文献 2: Ansgar Schuffenhauerら, 「標的蛋白質の類似性を反映させたリガンド の類似性測定 (Similarity Metrics for Ligands Reflecting tne Similarity of the Target Proteins) J J. Chem. Inf. Comput. Sci. 2003年第 43卷 391—405頁。
発明の開示
発明が解決しょうとする課題
[0014] 生体内因子間の網羅的な相互作用解析 (インタラタトーム)は、マイクロアレイゃプ ロテオーム、バイオインフォマティクス等の技術で膨大な対象の中から有用な情報を 抽出する目的において、強力なツールとして位置付けられている。しかし、前記のマ イクロアレイやプロテオーム解析を含むノ ィオインフォマテイクス等の各技術は、得ら れた情報の中に数多くの擬陽性が含まれており、その中から真に有益な情報を抽出 することが重要な課題となって 、る。
[0015] 本発明の課題には大別してふたつの課題が挙げられる。ひとつは、データベース の構築であり、他方はインフォマテイクス手法の確立である。具体的には、複数の化 合物および複数の蛋白質の相互作用に対して化学物質および生命工学の各情報を 統合したデータベースの構築、および、それらを使用した計算速度と精度を兼ね備 えた網羅的な化合物 -蛋白質の相互作用の解析方法の確立である。 課題を解決するための手段 を掛け合わせ発展させたものである。本発明者らは鋭意検討の結果、本発明の装置 および方法の一つの特徴として、蛋白質のアミノ酸配列情報と、化合物の構造情報と 、蛋白質 化合物の相互作用情報とが相互に関連づけられているデータを利用に基 づき、 (i)蛋白質とその類縁蛋白質とを含む蛋白質群に対して相互作用する化合物 群を、他の任意の化合物群と識別可能にする構造活性相関モデルと、(ii)その蛋白 質群に対して相互作用する化合物群の中から、特定の蛋白質 (または蛋白質群)に 相互作用する化合物 (または化合物群)を識別可能にする構造活性相関モデルとを 組み合わせて予測する方法を確立した。
[0017] 本発明は、以下のような複数の特徴を含んでいる。
[0018] (1)本発明にかかる方法は、蛋白質のアミノ酸配列情報、機能および Zまたは構造 の類似性により体系的に分類された蛋白質のアミノ酸配列情報、化合物の構造情報 および蛋白質と化合物の相互作用情報が相互に関連づけられているデータに基づ き、任意の蛋白質と化合物間の相互作用を予測する方法である。
[0019] (2)本発明にかかる任意の蛋白質と任意の化合物間の相互作用を予測する方法は 、(a)該蛋白質および、該蛋白質と機能および Zまたは構造的に類似した蛋白質群 に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性 相関モデルと、(b)該蛋白質および、該蛋白質と機能および Zまたは構造的に類似 した蛋白質群に対して相互作用する化合物群の中から、該蛋白質に相互作用する 化合物群を識別し得る構造活性相関モデルとを組み合わせて予測する方法である。
[0020] (3)本発明にかかる任意の蛋白質と任意の化合物間の相互作用を予測する方法は 、アミノ酸配列情報の機能および Zまたは構造の類似性による体系的な分類に基づ き、(a)該蛋白質が属する最上位の分類項目に属する蛋白質群に対して相互作用 する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、 (b) 該蛋白質が属する最上位の分類項目より下位の各分類項目において、該蛋白質が 属する分類項目に属する蛋白質群に対して相互作用する化合物群を、該蛋白質と 共通の親分類項目を有する子分類項目に属する蛋白質群に対して相互作用する化 合物群に対して識別し得る構造活性モデルとを組み合わせて予測する方法である。
[0021] (8)本発明にかかるシステムは、機能および Zまたは構造が類似する蛋白質を予測 する予測システムであって、 (a)蛋白質の機能特徴および Zまたは構造特徴の分類 を示す第 1分類に属する第 1分類蛋白質の情報と、当該第 1分類に属さない非第 1分 類蛋白質の情報とを記録する第 1記録手段、(b)前記第 1記録手段に記録される第 1 分類蛋白質の中から選択される、前記第 1分類よりも小概念である機能特徴および Zまたは構造特徴の分類を示す第 2分類に属する第 2分類蛋白質の情報と、前記第 1分類に属するが当該第 2分類に属さない非第 2分類蛋白質とを記録する第 2記録 手段、 (c)予測対象蛋白質の機能特徴および Zまたは構造特徴を示す予測対象情 報を取得する取得手段、 (d)前記取得手段が取得した予測対象情報と前記第 1記録 手段に記録された情報とに基づいて、前記非第 1分類蛋白質との比較における、前 記予測対象蛋白質と前記第 1分類蛋白質との類似性を解析する第 1解析手段、 (e) 前記第 1解析手段によって前記予測対象蛋白質が前記第 1分類蛋白質に類似する と解析された場合には、さらに、前記予測対象情報と前記第 2記録手段に記録され た情報とに基づいて、前記非第 2分類蛋白質との比較における、前記予測対象蛋白 質と前記第 2分類蛋白質との類似性を解析する第 2解析手段、 (f)前記第 1解析手段 および第 2解析手段による解析結果に基づいて、前記予測対象蛋白質と機能特徴 および Zまたは構造特徴が類似する蛋白質の情報を出力する出力手段、
を備えた予測システムである。
[0022] (9)本発明の前記予測システムの前記 (a)第 1記録手段に記録される蛋白質の情報 および Zまたは (b)第 2記録手段に記録される蛋白質の情報は、当該蛋白質と相互 作用する化合物の情報と対応づけられており、
前記予測システムは、さらに、(g)前記蛋白質と相互作用する化合物の情報と、前 記 (d)第 1解析手段および Zまたは (e)第 2解析手段によって解析された前記予測 対象蛋白質に類似する蛋白質の情報とに基づ!/、て、当該予測対象蛋白質と相互作 用すると予測される化合物の情報を解析する相互作用情報解析手段、を備えており 、前記 (f)出力手段は、前記予測対象蛋白質と機能特徴および Zまたは構造特徴が 類似する蛋白質の情報、および Zまたは前記相互作用情報解析手段によって解析 された化合物の情報を出力する。
[0023] (10)本発明の前記 (f)出力手段は、前記第 2解析手段による解析結果としての前記 蛋白質および Zまたは当該蛋白質と相互作用する化合物の情報に加えて、当該第 2分類よりも大概念である、前記第 1解析手段による解析結果としての前記蛋白質お よび Zまたは当該蛋白質と相互作用する化合物の情報を併せて出力する。
[0024] (13)本発明にかかるシステムは、機能および Zまたは構造が類似する蛋白質 (また は化合物)を予測する予測システムであって、 (a)蛋白質 (または化合物)の機能特 徴および Zまたは構造特徴の分類を示す第 1分類に属する第 1分類蛋白質 (または 第 1分類ィ匕合物)の情報と、当該第 1分類に属さない非第 1分類蛋白質 (または非第 1分類化合物)の情報とを記録する第 1記録手段、(b)前記第 1記録手段に記録され る第 1分類蛋白質 (または第 1分類化合物)の中から選択される、前記第 1分類よりも 小概念である機能特徴および Zまたは構造特徴の分類を示す第 2分類に属する第 2 分類蛋白質 (または第 2分類ィ匕合物)の情報と、前記第 1分類に属するが当該第 2分 類に属さな 、非第 2分類蛋白質 (または非第 2分類ィ匕合物)とを記録する第 2記録手 段、(c)予測対象蛋白質 (または予測対象化合物)の機能特徴および Zまたは構造 特徴を示す予測対象情報を取得する取得手段、 (d)前記取得手段が取得した予測 対象情報と前記第 1記録手段に記録された情報とに基づいて、前記非第 1分類蛋白 質 (または非第 1分類ィ匕合物)との比較における、前記予測対象蛋白質 (または予測 対象化合物)と前記第 1分類蛋白質 (または第 1分類化合物)との類似性を解析する 第 1解析手段、(e)前記第 1解析手段によって前記予測対象蛋白質 (または予測対 象化合物)が前記第 1分類蛋白質 (または第 1分類化合物)に類似すると解析された 場合には、さらに、前記予測対象情報と前記第 2記録手段に記録された情報とに基 づいて、前記非第 2分類蛋白質 (または非第 2分類ィ匕合物)との比較における、前記 予測対象蛋白質 (または予測対象化合物)と前記第 2分類蛋白質 (または第 2分類ィ匕 合物)との類似性を解析する第 2解析手段、 (f)前記第 1解析手段および第 2解析手 段による解析結果に基づいて、前記予測対象蛋白質 (または予測対象化合物)と機 能特徴および Zまたは構造特徴が類似する蛋白質 (または化合物)の情報を出力す る出力手段、 を備えた予測システムである。
[0025] 本発明の特徴、他の目的、用途、効果等は、図面を考慮に入れた上で以下の開示 によりさらに明らかになるであろう。
図面の簡単な説明
[0026] [図 1]図 1は、本発明の実施形態による処理の手順を示したフローチャートである。
[図 2]図 2は、実施形態における蛋白質を階層的に分類した時のカテゴリー階層の概 念を示した図である。
[図 3]図 3は、実施形態による解析結果を表示した画面の構成の一例である。
[図 4]図 4は、実施例 1で、活性群のデータセットに対して得られたモデルのうち、「ホ スホジエステラーゼ(Phosphodiesterase (以下、「PDE」とする。;))のグローバルモデル (Global Model) +各サブタイプのローカルモデル(Local Model)」と「各サブタイプの グローバルモデル」を適用した場合の識別能の違 、を示したグラフである。グラフの 縦軸は、「活性と認識される率」を示す。
[図 5]図 5は、実施例 1で、グローバルモデルに用いた不活性群のデータセットに対し て得られたモデルのうち、「PDEのグローバルモデル +各サブタイプのローカルモデ ル」と「各サブタイプのグローバルモデル」を適用した場合の識別能の違 ヽを示したグ ラフである。グラフの縦軸は、「活性と認識される率」を示す。
[図 6]図 6は、実施例 1でローカルモデルに用いた不活性群のデータセットに対して 得られたモデルのうち、「PDEのグローバルモデル +各サブタイプのローカルモデル 」と「各サブタイプのグローバルモデル」を適用した場合の識別能の違 、を示したダラ フである。グラフの縦軸は、「活性と認識される率」を示す。
[図 7]図 7は、活性群のデータセットに対して PDEのグローバルモデルと各サブタイプ のローカルモデルにっ 、て CART法 (事前等確率)力も得られた識別能とベイジアン ネット解析とを比較した結果を示したグラフである。グラフの縦軸は、「活性と認識され る率」を示す。
[図 8]図 8は、不活性群のデータセットに対して PDEのグローバルモデルと各サブタイ プのローカルモデルにっ 、て CART法 (事前等確率)カゝら得られた識別能とベイジァ ンネット解析とを比較した結果を示したグラフである。グラフの縦軸は、「活性と認識さ れる率」を示す。
[図 9]図 9は、活性群のデータセットに対して PDEのグローバルモデルと各サブタイプ のローカルモデルにっ 、て CART法(等確立)とベイジアンネット解析とを比較した結 果を示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。
[図 10]図 10は不活性群のデータセットに対して PDEのグローバルモデルと各サブタ イブのローカルモデルにっ 、て CART法(等確立)とベイジアンネット解析とを比較し た結果を示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。
[図 11A]図 11Aは、 PDEのグローバルモデルとサブタイプ(PDE1)のローカルモデル を組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに 用いた不活性群の 3種類のデータセットに適用した分布グラフである。グラフの縦軸 は、「活性と認識される率」を示す。
[図 11B]図 11Bは、 PDEのグローバルモデルとサブタイプ(PDE2)のローカルモデル を組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに 用 ヽた不活性群の 3種類のデータセットに適用した分布グラフである。
[図 11C]図 11Cは、 PDEのグローバルモデルとサブタイプ(PDE3)のローカルモデル を組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに 用 ヽた不活性群の 3種類のデータセットに適用した分布グラフである。
[図 11D]図 11Dは、 PDEのグローバルモデルとサブタイプ(PDE4)のローカルモデル を組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに 用 ヽた不活性群の 3種類のデータセットに適用した分布グラフである。
[図 11E]図 11Eは、 PDEのグローバルモデルとサブタイプ(PDE5)のローカルモデル を組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに 用 ヽた不活性群の 3種類のデータセットに適用した分布グラフである。
[図 12]図 12は、相互作用解析装置の機能ブロック図である。
[図 13]図 13は、解析装置のハードウェア構成例である。
[図 14]図 14は、本発明の実施形態としての相互作用解析処理の概念図である。
[図 15]図 15は、実施形態における蛋白質データベースの構造例を示す図である。
[図 16]図 16は、実施形態における化合物データベースの構造例を示す図である。 [図 17]図 17は、実施形態における相互作用データベースの構造例を示す図である。
[図 18]図 18は、実施形態における体系的分類データベースの構造例を示す図であ る。
[図 19]図 19は、実施形態における評価関数を説明する模式図である。
[図 20]図 20は、第 1実施形態による相互作用解析処理プログラムのフローチャートで ある。
[図 21]図 21は、第 2実施形態による相互作用解析処理プログラムのフローチャートで ある。
[図 22]図 22Aおよび図 22Bは、第 2実施形態によって出力される画面表示例である
発明を実施するための最良の形態
[0027] 本発明における「蛋白質のアミノ酸情報」は、例えば、配列、機能、または立体構造 などが含れる。配列、機能については、既知情報、ノ ィォインフォマテイクス力も推定 された情報、複数種類のァノテーシヨン情報、または体系的な機能分類を指向したォ ントロジー情報等が挙げられる。立体構造については、既知情報として、公共のデー タベースとして PDB (Protein Data Bank)、ホモロジ一モデリングにより構築された商 用もしくはインハウスのデータベース等が挙げられる。商用のホモロジ一モデリングデ ータベースには、 SGI社から販売されて!、る FAMSBASE等が挙げられる。
[0028] 本発明の「化合物の構造情報」は、例えば構造式を記述化した情報、または薬物 情報等があげられ、例えば化合物に対する薬理活性の有無および Zまたは強度、ま たは Biological Testingから Launchedに至るまでの開発ステージ情報などが含まれる。 例えば、 MDL社の MDDR(MDL Drug Data Report)等が挙げられる。
[0029] 本発明で用いる「蛋白質のアミノ酸情報」は、前記の蛋白質のアミノ酸情報の部分 を組み合わせて統合させたデータベース、または、前記の蛋白質のアミノ酸情報の 全てを包含したデーターベース力も取得し分類された情報であればよぐ商用または インノヽウス等のデータの取得先は限定しない。好ましくは、機能および Zまたは構造 の類似性により体系的に分類された情報が挙げられ、例えば、 Gene Ontology (ジー ンオントロジー)(登録商標)の情報等が挙げられる。「ジーンオントロジー (登録商標) 」はジ ~~ン才ントロジ ~~ Consortiumの Webサイト (http://www.geneontology.org)にお いて公開されている。
[0030] 本発明の「相互作用」とは、蛋白質と、その蛋白質に対して活性を示す化合物との 関係、または、化合物と、その化合物に対して相補性を有する蛋白質との関係を示 す。「相互作用」は、複数の蛋白質に対する複数の化合物の相互作用、または、複数 の化合物に対する複数の蛋白質の相互作用を含む。
[0031] 本発明の「構造活性相関モデル」は、例えば、データセットとして、所定の分類に属 する蛋白質 (または化合物)および任意の蛋白質 (または化合物)の構造特徴情報を 用い、それらに説明変数を与え、所定の解析手法によって得られる評価関数 (以下 グローバルモデル(Global Model) )と、データセットとして、所定の分類に属する蛋白 質 (または化合物)およびその類縁の蛋白質 (または化合物)の構造特徴情報を用い 、それらに説明変数を与え、所定の解析手法によって得られる評価関数 (以下ロー力 ルモデル (ローカルモデル))とを含む。説明変数としては、例えば、定量的構造活性 相関解析における説明変数に用いられるファーマコフォア記述子や、類似性検索に 用いられるトポロジカルインデックス、または ADMET関連の指標等を用いることができ る。解析手法としては例えば、重回帰分析、線型 '非線形判別分析、ロジスティック回 帰分析、ニューラルネットワーク、決定木解析、ベイジアンネットワーク、またはサポー トベクトルマシン等を用いることができる。
[0032] 本発明の実施形態による装置の機能は、「検索」、「閲覧」および「解析」に分けるこ とができ、「検索」と「解析」については既設環境をそのまま用いることができる。既設 環境としては、化合物および蛋白質リストの入出力機能をもち、化合物情報およびバ ィォ情報が関連付けられた形式で閲覧できるシステムがよぐ例えば、クライアントサ ーバ型システム、 Webベースのシステムなどが挙げられる。本発明のシステムは、複 数のデータベースにアクセスして、入力リストを反映した形での表示や、出力対象を 個別に指定することが可能である。プログラムの記述言語は、 C、 C++、 JAVA (登録商 標)、 HTML、 XML等が挙げられる。 Webベースにおける構造式の閲覧には、 MDL社 から無償で提供されて 、る rChimej等の既存プログラムを用いることも可能である。
[0033] 以下、本発明の実施形態等について説明する。 [0034] 目次
1.実施形態の概要
2.解析処理方法の検証
3.相互作用解析装置および解析方法の概要
4.データベース
5.相互作用解析処理
6.その他の実施形態
1.実施形態の概要
1-1.データベースおよび相互作用解析処理
図 1は、本発明の一つの実施形態の概念を示したフローチャートである。 101は、 蛋白質側の情報のデータベースを示す。統合される蛋白質側の情報には「アミノ酸 配列」と「3次元構造 (モデリングされたものも含む)」が含まれ、例えば、 SwissProt等 力 得られた情報が挙げられる。 102は、化合物側の情報のデータベースを表す。 統合される化合物側の情報には、「構造式」と「配座」とが含まれ、例えば、 CAS等か ら得られた情報が挙げられる。 103は、機能および Zまたは構造の類似性により体系 的に分類された蛋白質のアミノ酸配列情報等を示す。例えば、ジーンオントロジ一の GO番号等を含むオントロジー情報等の、蛋白質を階層的に分類した時のカテゴリー が挙げられる。 101の蛋白質の情報は 103の情報により、体系的な分類情報と関連 付けられる。 104は蛋白質と化合物との情報により関連付けられた相互作用データ ベースを示す。情報は例えば、 MDL社の MDDR(MDL Drug Data Report)等の巿販 データベース、薬理活性性試験データ、リバースプロテオミクス等の情報が挙げられ る。 105は構造活性相関の解析機能を示す。
[0035] 実施形態では、蛋白質のアミノ酸配列情報(図 1の 101および 103)、化合物の構 造情報(図 1の 102)、および、蛋白質と化合物との相互作用情報が相互に関連づけ られて 、る統合化データベース(図 1の 104)のデータに基づき、解析対象の機能特 徴および Zまたは構造特徴の共通性と差異の両方を考慮した網羅的な相互作用解 析を行う。具体的には、 103の機能および Zまたは構造の類似性により体系的に分 類された蛋白質のアミノ酸情報等を利用して、例えば、ジーンオントロジー (登録商標
)における共通の親ノードをもつ子ノード間の選択的構造活性相関 (SAR)モデルを すべての階層で構築する。そして、それらのモデルに対する解析対象の適合性 (例 えば相互作用の有無)を評価する。ノードとは、蛋白質を階層的に分類した時のカテ ゴリーを示し、例えば、ジーンオントロジ一の GO番号等が挙げられる。図 2にノード階 層のイメージを表す。各ノードにおける解析モデルは「1段階上位のノードにおけるグ ローバルモデル」(201)と「同位ノード間におけるローカルモデル」(202)とを組み合 わせたもの(203)であり、ツリー全体では、「最上位ノードのグローバルモデル(204) および各ノードのローカルモデル (205)」の組み合わせとなる。各ノードにおけるモ デル構築は、各種構造記述子を説明変数とするインフォマテイクス解析により行う。 各種構造記述子としては、定量的構造活性相関解析における説明変数に用いられ るファーマコフォア記述子や、類似性検索に用いられるトポロジカルインデックス、ま たは ADMET関連の指標等を用いることができる。図 1における「最上位ノードのグロ 一バルモデル」とは、最上位ノードに属する化合物群を、その他の任意の化合物群 に対して有意に識別できるモデルを表す。「各ノードのローカルモデル」とは、あるノ ードに属する化合物群を、共通の親ノードを有するその他のノードに属する化合物群 に対して優位に識別できるモデルを表す。
1-2.インターフェイス
図 3は、実施形態による相互作用解析システムの画面表示イメージを示す。相互作 用解析処理の内容は後述する。図 3の 301は、機能および Zまたは構造の類似性に より体系的に分類された蛋白質のアミノ酸配列情報 (例えば、ジーンオントロジー)の 機能分類の榭形図を示す。 301に、対応する化合物番号が関連付けられる。デフォ ルト表示は、指定されたアミノ酸配列情報番号 (例えば、ジーンオントロジ一の GO番 号)または化合物番号を含むノードだけツリーが展開され、それ以外は折り畳まれた 状態で表示される。図 3の右側のツリーは展開された状態を示す。例えば、解析結果 に相当する GO番号は他と違う文字色で表される。各ノードには、下位のアミノ酸配列 情報の番号 (例えば「GO番号」。以下同様。)、アミノ酸数、および化合物数の集計結 果が表示され、表示形式の変更に伴い随時変更される。いずれかの化合物番号をク リックすることにより、対応する構造式およびそれに付随するデータが表示される。リス トの入出力機能を有したボタンを 4つ配置する(図 3の 302から 305)。入力はアミノ酸 配列情報の番号と化合物番号を、出力は蛋白質の配列情報、蛋白質の座標データ (PDB形式)およびィ匕合物番号を想定している。ターミナルノードにあたるアミノ酸配 列情報の番号およびィ匕合物番号には、それぞれチェックボックスを設定し、チェックさ れたものについてそれぞれリストが出力される。
[0037] 次に各表示ボタンの機能を図 3の符号を用いて説明する。 301のアミノ酸配列情報 の番号は、ノードのクリック、またはアミノ酸配列情報の番号リストの入力により、複数 指定することができる。 303の構造式クエリー(Query)は、複数指定することができ、 エディタで入力するか SDファイルを指定する 304の Runボタンを押すことにより、指定 したアミノ酸配列情報の番号 X構造式のスコアが計算される。 301の特定のアミノ酸 配列情報の番号、または 306に表示される化合物の一方を指定すると、他方にスコ ァが表示される。閾値を指定した上で Filterボタン(305)を押すと、閾値以上のレコ ード(ノード)が抽出される。 305のフィルター操作は and/or/notの指定と共に複数回 実行でき、結果は CSV (Comma Separated Values)形式等の区切りつきテキストフアイ ルに出力することが可能である。
[0038] 2.解析処理方法の検証
実施形態としての相互作用解析システムが利用する解析処理方法の検証につい て説明する。以下、所定の化合物および蛋白質の相互解析情報の例を用いた複数 の解析処理方法の検証結果を示す。
[0039] 2-1.ホスホジエステラーゼ(Phosphodiesterase)に関する CART法による解析
実施形態としての相互作用解析システムによる相互作用解析処理は、化合物の構 造式情報力 薬理活性の有無を識別するファーマコフォア記述子等を説明変数とし た CART法を利用する。実施形態では、例示として、対象蛋白質と相互作用しない( または「相互作用が小さい」。以下同じ。)化合物群としての「不活性群」を含む多様 な化合物セットを用いる「グローバルモデル(グローバルモデル)」と、活性群近傍の 化合物セットを用いる「ローカルモデル(ローカルモデル)」との組み合わせによって 相互作用解析処理を実現する。グローバルモデルおよびローカルモデルの内容は 後述する。
[0040] 表 1は、ジーンオントロジ一の基本単位である 1段階のツリー構造について、「各ノ 一ドのグローバノレモデノレ」と「上位ノードのグローバノレモデノレと各ノードのローカノレモ デル」との間における各下位ノードの識別能の比較を示す。実験例は、例示としてホ スホジエステラーゼ(Phosphodiesterase (以下、「PDE」とする。;))を上位ノードとする 5 つのサブタイプ(PDE1— PDE5)を用いた。 PDEは、リン酸ジエステルを加水分解して 、リン酸モノエステルにする酵素の総称である。
[0041] 上位ノードである PDEには 2871化合物が帰属されている。各下位ノードに属する化 合物数のばらつきは大きぐ最少が 29化合物(PDE2)、最大が 1699化合物(PDE4)に なる。「グローバルモデル」に含まれる不活性群の中に分子サイズ等による分布差が でないように、分子量 200以上 800未満の化合物だけを採用した。「グローバルモデル 」の不活性群には、数多くのベンダーから収集した約 50万件の巿販 HTS化合物の中 力もランダムに抽出した 3000化合物を用いた。「ローカルモデル」の作成において、 上位ノードに属する 2871化合物の中で薬理活性が既知のもの以外は不活性と見な した。表 1に例示する比較結果においては、いずれの解析も共通のパラメーター(最 大階層 = 10Z親ノード =5Z子ノード = 1)を用い、事前確率のみ「データセット依存」 (「cart_data」 )と「等確率」 (「cart_even」 )の双方にっ 、て検討した。 PDE (上位ノード) および PDEの各サブタイプ(下位ノード)の CART法による解析結果を表 1、図 4一 6に 示す。
[0042] [表 1]
PDE PDE-1 PDE-2 PDE-3 P0E-4 PDE-5
Global- num_comp Active 2,871 81 29 460 1,689 546 Model Randam 3,000 3,000 3,000 3,000 3,000 3.000 cart_data Acti e 89% m 23K 25K OK OK 66K 48K 79K 73X 77X 68¾
Randam 14S 19¾ OX OK OK OX 7K 16X 2K 29X c&rt一 even Active U 79X 74K 71K 94K 75)4 96K 80K 89K 82S 88ϋ 84K
Randam 14¾ 19X 15S 15X 9K 8X 12X 14¾ 16K 23X 13X 13X
LocaL num一 comp Active 81 29 460 1,689 546 Model Inactive *** *** 2,790 2,842 2,411 1,182 2,325 cart— data Active *** *** 37X 33K 71X 88X 52K 43K 94K 89ϋ 64X 44K
Randam **# OK n n OK H 22K 17S 28X 3S 5«
C3「t— even Active *** *** 89K 79X 観濯 94K 79X 9U 93X 74X
Randam *** *** 27X 26¾ 15X 22X 15X 27X 12X 16X [0043] 表 1の上段にはグローバルモデルの識別能を、下段にはローカルモデルの識別能 を示している。各カラムには 2つの数値が併記されている力 左側がモデル (例えば 化合物を識別するための評価関数等)を構築するために用いたデータセット (学習デ ータ)に対する識別能、右側が構築したモデルの検証用に用いたデータセット (検証 データ)に対する識別能を示している。結果を概観すると、事前確率を等確率にした 場合に総じて好ましいモデルが得られていることから、以下の検討には、事前確率を 等角率にしたモデルを用いた。
[0044] 図 4一図 6は、(l) PDEと相互作用する化合物群 (活性群)、(2)グローバルモデル に用いた不活性群 (PDEと相互作用しな 、化合物群)、 (3)ローカルモデルに用いた 不活性群、の 3種類のデータセットに対して、上記で得られたモデルのうち「(a) PDE のグローバルモデル +各サブタイプのローカルモデル(図中、 "GlobaLPDE & Local _PDEx〃として表示)」と「(b)各サブタイプのグローバルモデル(図中、〃Global_PDEx" として表示)」を適用した場合の識別能の違いをグラフである。図 4および図 5に示す ように、(1)活性群、および(2)グローバルモデルに用いた不活性群のデータセット に対しては、(a)および (b)両者において識別能にほとんど差がみられな力つた。し 力しながら、図 6に示すように、(3)ローカルモデルに用いた不活性群のデータセット に対しては、「(b)各サブタイプのグローバルモデル」を用いた場合に極めて乏し!/ヽ 識別能しか示さな力つた。つまり、グローバルモデルでは類縁蛋白質間の違いを解 祈できないことを意味する。これらの考察から、任意の化合物が各ノードに属する蛋 白質に対して相互作用する力否かを判定するには、「1段階上位のノードにおけるグ ローバルモデル」と「下位ノード間におけるローカルモデル」とを組み合わせる必要性 が示唆された。
[0045] 2-2.ベイジアンネットワークによる解析
任意の化合物についての評価する際には、上位ノードから下位ノードへ向けて段 階的に評価する。し力しながら、上記 CART法のように分類をバイナリで判定する手 法では、一旦上位ノードで偽判定された化合物はそれ以下のノードで評価されな!ヽ 。この点に対処するために、例えば、ノイナリで分類を判定する手法ではなぐスコア 値として判定する手法を採用することもできる。 [0046] 上記「2— 1」と同様の解析を、特定の目的変数を設定するベイジアンネット解析 (
Belief Network)により実行した。まず、 PDEのグローバルモデルと各サブタイプのロー カルモデルについて、 CART法 (事前等確率)から得られた識別能と比較した。一般 的な解析ソフトウェア BayesiaLab2.0では 5種類の解析方法を利用できる為、これらの 比較検討も合わせて行った (表 2参照)。
[0047] 表に示すように、短時間で計算が完了する Naive Bayes法、 Markov Blanket法およ び Augmented Markov Blanket法の 3つは類似の傾向を示した力 その識別能は十分 とは言い難いものであった。一方、 Sons&Spouses法は先の 3つに較べると比較的長 い計算時間を必要とされるが、 CART法に近い識別能を示す。しカゝしながら、活性群 の数が極端に少ない場合に、識別能が大きく低下してしまう。それに対し Augmented Naive Bayes法は、ほぼ同等の計算時間を要するものの、活性群の数が少ない場合 にも高い識別能を示した。しかしながら逆に、サンプル数が多いグローバルモデルに ついては、 Sons&Spouses法が CART法と同等の識別能を示したのに対し、明らかに 過学習に陥っている。よって、 Augmented Naive Bayes法と Sons&Spouses法は一長一 短であると言える。
[0048] [表 2]
Figure imgf000018_0001
ここで、「2— 1.」の項で説明した CART法では、事前確率を等確率に設定すること で識別能の改善が見られた。これは、不活性群に較べて活性群のデータ量が極めて 少ない場合に顕著であった。そこで、事前確率を等確率にしたベイジアンネット解析 を検討した。 BayesiaLabには事前確率を設定する機能はない為、確率として出力さ れる結果に対して外部的に考慮した。具体的には、通常は目的変数が 2クラスならば 確率が 0. 5を境として、いずれのクラスに属するかが決められる。仮に、 2クラスの事 前確率が 1Z10と 9Z10とすれば、属するクラスの境界値を 0. 1にすることで、 CART 法における事前等確率と同等の効果が期待できることになる。ベイジアンネット解析 による結果を表 3に示す。
[0050] [表 3]
Figure imgf000019_0001
[0051] 当然ながら、活性群に対する識別率は向上し、不活性群に対する誤認識率は高く なった。特にデータ数の少ない PDE-1および PDE-2において、大幅な識別率の向上 が見られた。 Augmented Naive Bayes法は過学習になっていた為、事前確率を考慮 しても結果に差が見られな力つた。これらの結果は、各モデルごとに分類の閾値を決 めることにより、良好な分類結果が得られることを示唆する。例えば、データセットを学 習用とテスト用に分け、学習用データ力もモデル (例えばィ匕合物を識別するための評 価関数等)を構築し、そのモデルによりテスト用データを評価して得られたスコア値の 分布カゝら分類閾値を決めるようにしてもよい。解析手法の例示として、識別能と過学 習のバランスを考慮して Sons&Spouses法を採用することができる。結果を図 7—図 10 に示す。
[0052] 次に、上記検討で得られた PDEのグローバルモデルと各サブタイプのローカルモデ ルとを組み合わせて、(1)活性群、(2)グローバルモデルに用いた不活性群、(3)口 一カルモデルに用いた不活性群の 3種類のデータセットに適用した。 CART法は、バ イナリーで分類が決まるが、ここでは各ノードにおいて適合する確率として表した。確 率は、例示として上位ノードとの条件付確率として表し、確率値の分布から分類閾値 を決めることとした。図 11A、 B、 C、 D、 Eのそれぞれは、各サブタイプ(PDE-1— 5) における 3種類のデータセットの確率分布を示す。図中の「1」は活性群、「0」はロー カルモデルに用いた不活性群、「一 1」はグローバルモデルに用いた不活性群を表す 。横軸は、 PDEのグローバルモデルと各サブタイプのローカルモデルとを適用したと きの条件付確率を表す。グラフの縦軸は、「活性と認識される率」を示す。図 11に示 すように、 CART法の結果と同様、グローバルモデルおよびローカルモデルの不活性 群共に、活性群と良好に分離される。また、条件付確率で表されるため、 0— 1の中 間値を取るものがみられる。
2-3.サポートベクトルマシンによる解析
次に、ローカルモデルを構築する際における不活性情報の取り扱いを検討した。通 常、薬理活性が既知のもののみデータベースに格納される。したがって、薬理活性 の情報がないものについては、実際に不活性なのか、それとも調べられていないの かを知りえない。グローバルモデルの構築については、実施形態では、データセット として不活性情報としての多様な化合物セットを与える為、確率的に問題とならない。 一方、ローカルモデルの構築については、実施形態では、データセットとして類縁ィ匕 合物を与える。したがって、薬理活性を有するにも関わらず試験されていない為にデ ータとして抜け落ちているものが無視できない割合で存在する。この問題を回避する ために、例えば、不活性情報を欠損値として扱い、薬理活性既知のデータのみをデ ータセットとして利用する解析モデルを構築してもよい。そこで、 PDE及び PDEのサブ タイプに対する阻害剤の活性モデルをサポートベクトルマシン(Support Vector Machine) o以下、「SVM」とする。)により予測モデルを構築し、交差検証 (4-fold cross validation)を実施した。 SVMにおけるパラメータは固定し、説明変数の標準化とガウ シアン'カーネルを用いた。使用したソフトウェアは LIBSVMである。 SVMの概念は、例 えば「Vapnik, Statistical Learning Theory , Wiley, 1998」に記載されている。交差検 証の結果を表 4、表 5示す。
[0054] [表 4]
Figure imgf000021_0001
[0055] [表 5]
Figure imgf000021_0002
[0056] OCSVM(One-Class SVM)は、活性群の特徴量(記述子)のみで、薬物の活性 ·不 活性を識別する学習アルゴリズムである。 PDE1-5の阻害剤に対して OCSVMのモデ ルを構築し、活性群内での交差検証、及び、ランダムにサンプリングした 3000個の 化合物に対する識別能力を検証した。 SVMにおけるパラメータは固定し、説明変数 の標準化と RBFカーネル (ガウシアン 'カーネル)により実施した。使用したソフトゥェ ァは LIBSVMである。 OCSVMの概念は、例えば「B. Scholkopf.et.al. Estimating the support of a high— dimensional distribution. Neural Computation, 1ό, 2001 , 1443-1471」に記載されている。
[0057] 計算機実験は、以下の手順で実施した。
[0058] ( 1) OCSVMによる各 PDEサブタイプの交差検証法による識別能力の検証
(2)訓練データと同一データによる各 PDEサブタイプの識別能力の検証
(3)ランダムにサンプリングしたィ匕合物に対する識別能力の検証
計算機実験の結果を、表 6に示す。
[0059] [表 6]
Figure imgf000022_0001
[0060] 以上、複数の一般的な統計処理を例示として、解析処理方法の検証の結果にっ 、 て説明した。本発明に係る解析処理は、上記の各手法のいずれか、各手法の変形、 各手法の組合せ、または、いわゆる当業者に周知の手法によって実現可能である。 以下の説明では、本発明の実施形態として上述の解析処理方法を実現する装置、 および、解析処理方法の詳細を中心に説明する。
[0061] 3.相互作用解析装置および解析方法の概要
3-1.機能ブロック
図 12は、本発明のシステムまたは方法の実施形態としての相互作用解析装置 500 の機能ブロック図を示す。相互作用解析装置 500は、(a)第 1記録手段 72、 (b)第 2 記録手段 74、 (c)取得手段 70、 (d)第 1解析手段 76、 (e)第 2解析手段 78、 (f)出力 手段 82、 (g)相互作用情報解析手段 80を備える。
[0062] 3-2.ハードウ ア構成
図 13は、図 12に示す相互作用解析装置 500を CPUを用いて実現したノヽードゥエ ァ構成の例を示す。相互作用解析装置 500は、 CPU10、メモリ 12、スピーカ 14、通 信回路 16、キーボード Zマウス 18、ディスプレイ(表示装置) 20、ハードディスク 22を 備えている。
[0063] CPU10は、後述する相互作用解析処理を実行するほか、相互作用解析装置 500 全体を制御する。ハードディスク 22は、蛋白質データベース 600、化合物データべ ース 700、相互作用データベース 800、体系的分類データベース 900、相互作用解 析装置 500を制御するプログラム (例えば、相互作用解析処理プログラム)を記録す る。メモリ 12は、 CPU10のワーク領域、取得したデータの保存領域として利用される 。キーボード/マウス 18の操作によって入力された情報は、 CPU10によって処理さ れる。
[0064] 実施形態では、相互作用解析装置 500のオペレーティングシステム (OS)の例とし て、マイクロソフト社の Windows (登録商標) XP、 NT、 2000等を用いることとする。 実施形態のコンピュータプログラムは、 OSと共働して図 12に示す各機能を実現して いるが、これに限らず、コンピュータプログラム単独で各機能を実現するようにしてもよ い。
[0065] 3-3.解析方法
図 14は、本発明の実施形態としての相互作用解析処理の概念図である。実施形 態としての相互作用解析装置 500は、蛋白質データベース 600、化合物データべ一 ス 700、相互作用データベース 800、体系的分類データベース 900を備えている。 装置 500は、例示として、解析対象となる化合物と相互作用する蛋白質を予測する 機能、および、解析対象となる蛋白質と相互作用する化合物を予測する機能を備え る。
[0066] 蛋白質データベース 600には、複数の蛋白質に関する情報が記録される。化合物 データベース 700には、複数の化合物に関する情報が記録されている。相互作用デ ータベースには、蛋白質と化合物との間の相互作用に関する情報が記録される(記 号 1000)。したがって、蛋白質データベース 600に記録される蛋白質と、化合物デ ータベース 700に記録される化合物とは、相互作用する対象同士が互いに関連付け られる。
[0067] 実施形態では、蛋白質データベース 600に記録される蛋白質情報は、体系的分類 データベース 900の情報によって体系的に分類される。その他の実施形態として体 系的分類データベース 900は、化合物データベース 700に記録される化合物情報を 体系的に分類してもよい。あるいは、体系的分類データベース 900は、蛋白質 (デー タベース 600に含まれる)と、その蛋白質と相互作用する化合物(データベース 700 に含まれる)とを組み合わせた情報を体系的に分類してもよい。実施形態としての体 系的分類データベース 900は、例示として、蛋白質に関連する情報を、蛋白質の機 能および Zまたは構造の類似性により体系的に分類した情報、より具体的には、ジ ーンオントロジ一の GO番号等を含むオントロジー情報によって蛋白質を階層的に分 類した情報を含む。上述のように、相互作用データベース 800によって相互作用する 蛋白質と化合物とが関連づけられているのであるから、データベース 900の情報によ つて蛋白質と化合物との相互作用情報が体系的に分類されることになる (記号 1002 )。蛋白質および Zまたは化合物の体系的分類は、実施形態で説明するものに限ら ず、例えば、物性、分子構造、構造式、アミノ酸配列、構造ァノテーシヨン情報、リガ ンド機能、または機能ァノテーシヨン情報を含む、機能および Zまたは構造に関する 情報の類似性を利用することができる。
[0068] 図 14に示すツリー構造 1004は、体系的分類データベース 900によって体系的に 分類される蛋白質および Zまたは化合物の関係を示す。上位分類ノード 1008は、 複数の蛋白質および Zまたは化合物を含む。一方、下位分類ノード 1006、 1010の それぞれは、上位分類ノード 1008に帰属する蛋白質および Zまたは化合物の中か ら選択された、所定の機能特徴および Zまたは構造特徴を有するものを含む。図 14 には、説明の便宜上、 2階層に分けられた合計 3つの分類ノードを示した。体系的分 類における階層の数、各階層に含まれる分類ノードの数は、利用する体系的分類の 内容にしたがって任意の数を採用することができる。
[0069] 解析対象の蛋白質および Zまたは化合物と相互作用する化合物および Zまたは 蛋白質を解析する際、相互作用解析装置 500は、ツリー構造 1004によって体系的 に分類された蛋白質および Zまたは化合物の各ノードの情報を利用する。具体的に は、装置 500は、解析対象が上位分類ノードに帰属するカゝ否かを解析する (ステップ S101)。次に装置 500は、解析対象が下位分類ノードに帰属するか否かを解析する (S103)。以上のように、装置 500は、解析対象についての各分類ノードへの帰属の 有無を解析、すなわち、機能および Zまたは構造が類似する蛋白質および Zまたは 化合物 (データベースに含まれる相互作用情報が既知のもの)を特定し、その解析対 象と相互作用する蛋白質および Zまたは化合物に関する情報を出力する。
[0070] 3-4.装置機能の説明
図 12に示す相互作用解析装置 500の各構成が有する機能の一部と、実施形態に おける各機能との対応として、例えば以下の内容を挙げることができる。
[0071] 第 1記録手段 72は、体系的分類データベース 900 (図 18参照)に記録されるノード Aに関する情報に対応する(図 19のテーブル 66参照)。第 2記録手段 74は、体系的 分類データベース 900に記録されるノード A— 1 (または A— 2)に関する情報に対応す る(図 19のテーブル 62または 68参照)。取得手段 70は、図 20のステップ S201の処 理を実行する装置 500の CPU10に対応する。第 1解析手段 76は、図 20のステップ S203の処理を実行する CPU10に対応する。第 2解析手段 78は、図 20のステップ S 205の処理を実行する CPU10に対応する。出力手段 82は、図 20のステップ S211 または図 21のステップ S307の処理を実行する CPU10に対応する。相互作用情報 解析手段 80は、図 21のステップ S 305の処理を実行する CPU 10に対応する。
[0072] 4.データベース
4-1.蛋白質データベース
相互作用解析装置 500のハードディスク 22に記録される各データベースの記録内 容について説明する。図 15は、実施形態としての蛋白質データベース 600の記録内 容である。蛋白質データベース 600には、複数の蛋白質の情報が記録される。具体 的には、蛋白質データベース 600には、蛋白質を特定する「蛋白質 ID (Protein ID)」 、蛋白質の構造特徴および Zまたは機能特徴の例示としての「構造指標 (Structure Index)」の各情報を示すカラムが含まれる。蛋白質データベース 600に含まれる各蛋 白質の情報は、一般的な公開データベースの情報等に基づく。「構造指標」は、例え ばアミノ酸配列および Zまたは蛋白質の三次元構造情報を、当業者に周知の手段 によって数値ィ匕したものである。
[0073] 4-2.化合物データベース
図 16は、実施形態としての化合物データベース 700の記録内容である。化合物デ ータベース 700には、複数の化合物の情報が記録される。具体的には、化合物デー タベース 700には、化合物を特定する「化合物 ID (Compound ID)」、化合物の構造 特徴および Zまたは機能特徴を示す情報を記録するカラムが含まれる。化合物の構 造特徴および Zまたは機能特徴を示す情報は、例えばィ匕合物の機能 (物性を含む) および Zまたは化合物の構造式に基づく構造特徴を数値化した構造特徴情報が含 まれる。図 16には、構造特徴情報の例示として LogP (油水分配係数、 n—才クタノー ル Z水分配係数))、水素結合受容体(Hydrogen bond acceptor (HBA) )、水素結合 供与体(Hydrogen bond donor (HBD) )、分子量(Molecular weight (MW) )が含まれ る。化合物データベース 700に含まれる各化合物の情報は、一般的な公開データべ ースの情報等にもとづく。
[0074] 4-3.相互作用データベース
図 17は、実施形態としての相互作用データベース 800の記録内容である。相互作 用データベース 800には、蛋白質データベース 600に含まれる蛋白質(「蛋白質 ID ( Protein ID)」で特定される)と、化合物データベース 700に含まれる化合物(「化合物 ID (Compound ID)」で特定される)との相互作用(例えば、蛋白質に対して薬理活性 を示すィ匕合物に関する情報)に関する情報である「活性 (Activity)」が記録される。こ の活性情報として、例えば MDL社の MDDR (MDL Drug Data Report)の情報のほ 力 一般的な公開データベースの情報および Zまたは実験的に確証された情報を 利用することができる。その他、この相互作用の情報は、蛋白質および薬理活性を示 す化合物の各名称(同義語を含む)の対応関係に基づ ヽて作成することも可能であ る。図では、例えば ID「P001」と「C005」は相互作用し(「Activity=l」)、「P002」と「 C123Jは相互作用しな ヽ(「Activity=2」 )。「活性」のカラムに記録する情報のその他 の実施形態として、相互作用の指標となる数値 (確率を示すスコア値を含む)を記録 することができる。
[0075] 実施形態では、蛋白質と化合物との間の相互作用に関する情報を相互作用データ ベース 800に記録している。その他の実施形態では、相互作用に関する情報を、蛋 白質データベース 600および Zまたは化合物データベース 700に記録することによ つて、相互作用する蛋白質と化合物との組み合わせを対応づけることができる。その 他の実施形態として、装置 500は、蛋白質同士の相互作用を解析することもできる。 この場合、蛋白質データベース 600および Zまたは相互作用データベース 800は、 相互作用する蛋白質同士の組み合わせを記録する。
[0076] 4-4.体系的分類データベース 900
図 18は、実施形態としての体系的分類データベース 900の記録内容である。体系 的分類データベース 900は、蛋白質データベース 600に記録された複数の蛋白質 を機能および Zまたは構造の類似性によって体系的分類するための情報を含む。実 施形態では、機能および Zまたは構造の類似性による体系的分類の例示として、ァ ミノ酸配列情報の機能分類情報 (例えばジーンオントロジ一の GO番号)にしたがって 蛋白質を階層的に分類している。体系的分類データベース 900は、機能および Zま たは構造の類似性による蛋白質の体系的分類情報を、例えば XML (Extensible Markup Language)ツリー構造 50で記録する。
[0077] XMLツリー構造 50の各ノードには、ジーンオントロジ一の GO番号に基づくノード 番号と評価関数とが関連づけられる。体系的分類データベース 900に記録されるテ 一ブルデータ 52は、 XMLノードに含まれる蛋白質 IDとノード番号との対応を記録す る。体系的分類データベース 900に記録されるテーブルデータ 54は、ノード番号と、 そのノードへの帰属を判定するための評価関数との対応を記録する。図 18に示す例 では、蛋白質 ID「P001」「P002」「P003」はノード番号「A— 1」に含まれる。そして、 任意の蛋白質のノード「A— 1」への帰属の有無は、評価関数 y=fA-l (X)で判定され る。
[0078] 図 19は、実施形態における評価関数を説明する模式図である。本発明の「構造活 性相関モデル」の実施形態としての評価関数 (グローバルモデルおよびローカルモ デル)を利用することにより、解析対象としての蛋白質 (または化合物)の機能および Zまたは構造の特徴情報に基づき、蛋白質データベース 600および Zまたは化合 物データベース 700の中からその蛋白質 (または化合物)と類似の機能および Zまた は構造の特徴を有するものを識別すること、および、その蛋白質 (または化合物)と相 互作用する化合物 (または蛋白質)を解析することができる。解析対象が蛋白質であ る場合には、蛋白質の機能および Zまたは構造の特徴情報を説明変数とする評価 関数を利用する。一方、解析対象が化合物である場合には、化合物の機能および Z または構造の特徴情報を説明変数とする評価関数を利用する。
[0079] 図 19は、例示として蛋白質の構造特徴情報を説明変数とする評価関数について 説明するものである。ツリー構造 60は、図 18に示す体系的分類データベース 900に 記録される蛋白質の体系的分類情報である。テーブル 66には、上位ノードであるノ ード Aに属する蛋白質 (記号 67に示す「P001」一 ΓΡ006] )および任意の蛋白質(「P 007」一)が含まれる。一方、テーブル 62および 68には、ノード Aに属する蛋白質(「 P001」一「P006」)が含まれる。
[0080] 評価関数は、蛋白質データベース 600 (または化合物データベース 700)に含まれ る、構造特徴の情報が既知である蛋白質 (または化合物)の情報に基づいて、所定 の解析手法を用いることによって得ることができる。実施形態では、装置 500が評価 関数を作成する機能を「学習機能」と表現する。記号 69に示すように、分類ノード A の評価関数は、蛋白質の構造特徴情報を説明変数 Xとして与えた場合に、分類ノー ド Aに属する蛋白質と、分類 Aに属さない任意の蛋白質とを識別可能にする関数で ある。ノードへの帰属の有無を Yとした場合には、評価関数: Y=fA(X)で表される。 記号 64は、分類ノード Aに属する蛋白質の中で、下位ノードであるノード A— 1に属す る蛋白質(「P001」「P002」「13005」)とノード八ー1に属さなぃ蛋白質(「13003」「POO 4」「P006」)とを有意に識別可能にする評価関数を示す (評価関数: Y=fA-l (X) ) 。記号 65は、分類ノード Aに属する蛋白質の中で、下位ノードであるノード A— 2に属 する蛋白質とノード A— 2に属さない蛋白質とを有意に識別可能にする評価関数を示 す (評価関数: Y=fA-2 (X) )。分類の性格上、ノード A— 1および A— 2の両方に帰属 する蛋白質が存在する場合もある。
[0081] 以上のように、記号 69に示す評価関数と、記号 64および 65に示す評価関数とは、 評価関数を得るために利用するデータセットが相違する。上位ノード (ノード A)では、 データセットとして、所定の上位分類 (ノード A)に属する蛋白質の情報と、任意の蛋 白質の情報とを用いて評価関数を得る。一方、下位ノード (ノード A-1)においては、 下位分類 (ノード A— 1)に属する蛋白質の情報と、その類縁の蛋白質 (ノード Aに属 するが、ノード A— 1に属さない)の情報とを用いて評価関数を得る。実施形態では、 記号 69に含まれる評価関数をグローバルモデル、記号 64および 65に含まれる評価 関数をローカルモデルと表現する。
[0082] 以下に説明する相互作用解析処理は、上位ノードにおけるグローバルモデルと下 位ノードにおけるローカルモデルとを組み合わせて実行する点を一つの特徴として いる。より具体的には、グローバルモデルとローカルモデルとは、利用するデータセッ トが異なる。したがって、グローバルモデルによって広い比較対象範囲における解析 対象の分類ノードを絞り込むことができ、かつ、ローカルモデルによって近傍の比較 対象との差異を有意に識別可能にしたうえで解析対象の分類ノードを特定することが できる。言い換えると本実施形態は、解析対象の機能特徴および Zまたは構造特徴 の「共通性」を考慮した解析 (グローバルモデル)、および、解析対象の機能特徴およ び Zまたは構造特徴の「差異」を考慮した解析 (ローカルモデル)の両方による網羅 的な相互作用解析を行う点を一つの特徴として 、る。上位ノードにおけるグロ一ノ レ モデルと下位ノードにおけるローカルモデルとの組み合わせによる解析処理の有効 性の検証結果は、例えば上記「2.解析処理方法の検証」の項目において説明したと おりである。
[0083] 5.相互作用解析処理
5-1.第 1実施形態
図 20は、相互作用解析装置 500の CPU10が実行する、第 1実施形態としての相 互作用解析処理プログラムのフローチャートである。装置 500は、(1)化合物に相互 作用する蛋白質の予測、(2)蛋白質に相互作用する化合物の予測、(3)化合物と蛋 白質との間の相互作用に関する予測、のそれぞれの処理を実行可能である。以下、 例示として(2)蛋白質に相互作用する化合物の予測、を説明する。その他の(1)ィ匕 合物に相互作用する蛋白質の予測、および (3)化合物と蛋白質との間の相互作用 に関する予測も同様の処理によって実行可能である。
[0084] 装置 500の CPU10は、装置のユーザによるキーボード Zマウス 18の操作を介して
、解析対象である蛋白質の機能特徴および Zまたは構造特徴に関するデータの入 力を受け付ける(図 20のステップ S201)。実施形態では入力データの例示として、ァ ミノ酸配列を数値ィ匕した構造特徴データが入力される。 CPU10は、階層 N (初期値 = 1)の分類ノードにおける評価関数によって分類ノードに対する解析対象の帰属の 有無を解析する(S203)。具体的には CPU10は、上位分類ノードの評価関数に対 して、入力された構造特徴データを説明変数 (X)としてノードへの帰属の有無 (Y)を 演算する。評価関数は、例えば図 18、 19に示すノード Aの評価関数 (グローバルモ デル)である(図 19の記号 69参照)。解析対象が上位分類ノードに帰属しなければ、 CPU10は処理を終了する。
[0085] 解析対象が上位分類ノードに帰属すると解析された場合には、 CPU10は、階層 N + 1の各分類ノードに対する解析対象の帰属の有無を解析する(S205)。具体的に は CPU10は、下位分類ノードの評価関数に対して、入力された構造特徴データを 説明変数 (X)としてノードへの帰属の有無 (Y)を演算する。評価関数は、例えば図 1 8、 19に示すノード A— 1、 A— 2、 · ' ·Α— Nの評価関数(ローカルモデル)である(図 1 9の記号 64、 65参照)。
[0086] CPU10は、階層 Ν+ 1が最下位階層(最下位分類ノード)である力否かを判断する
(S207)。最下位階層でないと判断した場合には、 CPU10は、 Nを N+ 1として(S2 09)、解析対象が帰属すると解析された分類ノードよりもさらに下位の分類ノードに対 してステップ S205からの処理を繰り返す。ステップ S 207の処理において最下位階 層であると判断した場合には、 CPU10は、分類ノードの解析結果をディスプレイ 20 に出力して処理を終了する(S211)。
[0087] 以上のように、 CPU10は、解析対象の構造特徴データを上位ノードのグローバル モデルに適用し、さらに下位ノードのローカルモデルに順番に適用していく。この結 果、 CPU10は、解析対象が帰属する分類ノード、すなわち、解析対象としての蛋白 質と構造特徴および Zまたは機能特徴が類似する蛋白質 (または蛋白質群)を出力 する。
[0088] 実施形態では、分類ノードへの帰属の解析結果を 0または 1のバイナリ値で表現す る例を示した(図 19参照)。その他の実施形態では、分類ノードへの帰属の解析結果 をスコア値で表現してもよい。スコア値で表現する場合、例えば解析対象が帰属する 最下位の分類ノードのスコア値だけではなぐ解析対象が帰属する上位分類ノードか ら下位分類ノードまでの全て (または一部)の分類ノードでのスコア値を反映させた情 報を出力してもよい。例えば、解析結果として、帰属する全ての分類ノードでのスコア 値の平均値を表示したり、全ての分類ノードでのスコア値を乗じた値を表示することも できる。全ての分類ノードでのスコア値を乗じた値とは、例えば上位分類ノードでのス コア値「0. 8」、下位分類ノードでのスコア値「0. 7」の場合には、解析対象がその下 位分類ノードに帰属するスコア値として「0. 56」( = 0. 8 X 0. 7)を表示する。スコア 値で表現する場合、 CPU10は、所定の閾値 (例えば 0. 5)以上のレコード (分類ノー ド、または該当ツリー)を抽出して出力することもできる。 [0089] 図 3は、ステップ 211の処理によって出力される解析結果の画面構成の一例を示す 。図 3の内容は、上記「1 2.インターフェイス」の項目で説明した。図 3に例示するよ うに、分類ノードの解析結果は、解析対象が帰属すると予測された最下層の分類ノー ドだけでなぐその分類ノードを含む上位の分類ノードも併せたうえでツリー構造とし て表示する。したがって、装置のユーザは、解析対象がどの分類ノードに帰属するか という解析結果を、ツリー構造全体 (または一部)の中での位置づけとして把握するこ とができる。例えば、ある枝では帰属する最下位の分類ノードが体系的分類データべ ース 900の最下層から 3番目であり、別の枝では帰属する最下位の分類ノードが最 下層から 2番目という相違がある場合等には、ツリー構造の表示によってそれら複数 の分類ノードの階層の違い等を容易に把握することできる。その他の実施形態として 、 CPU10は、上述のスコア値をそれら複数の分類ノードに割り当てて表示することが できる(図示せず)。
[0090] 5-2.第 2実施形態
第 1実施形態では、解析対象としての蛋白質と構造特徴および Zまたは機能特徴 が類似する蛋白質 (または蛋白質群)を出力する例、およびその出力方法を説明した 。 CPU10は、構造特徴および Zまたは機能特徴が類似する蛋白質 (または蛋白質 群)の情報に基づ 、て、その蛋白質 (または蛋白質群)と相互作用する化合物の情報 を出力することができる。以下の説明では、そのような相互作用情報を出力する例を 第 2実施形態として説明する。
[0091] 図 21は、相互作用解析装置 500の CPU10が実行する、第 2実施形態としての相 互作用解析処理プログラムのフローチャートである。第 2実施形態と第 1実施形態と は、図 20のステップ S211の処理までが共通する。
[0092] CPU10は、図 20のステップ S211の処理の後、解析対象が帰属する各階層の分 類ノードの情報を解析し、「分類ノード解析結果」としてメモリ 12等に記録する (ステツ プ S301)。分類ノードの情報の解析には、例えば上述したスコア値の割り当て、また は閾値による分類ノードの抽出等も含まれる。 CPU10は、分類ノード解析結果に基 づいて、解析対象が帰属すると判定された枝の最下層に相当する分類ノードに帰属 する蛋白質の IDを「候補 ID」としてメモリ 12等に記録する(S303)。具体的には、 CP U10は、図 18に例示する体系的分類データベース 900を参照し、分類ノード解析結 果に含まれる「ノード番号」に対応する「蛋白質 ID」を「候補 ID」として取得する。 CP U10は、蛋白質データベース 600、相互作用データベース 800、化合物データべ一 ス 700のそれぞれを参照することにより、「候補 ID」によって特定される蛋白質と相互 作用する化合物の情報を「相互作用候補情報」としてメモリ 12等に記録する(S305) 。例えば候補 IDが「P001」であった場合、 CPU10は、相互作用データベース 800 ( 図 17参照)に基づいて「P001」と相互作用する化合物「C005」を取得し、化合物デ ータベース 700 (図 16参照)に基づいてその「C005」に関する情報を「相互作用候 補情報」として取得する。 CPU10は、相互作用候補情報をディスプレイ 20に出力し て処理を終了する(S307)。
[0093] 図 22Aおよび図 22Bは、第 2実施形態によって出力される画面表示例である。図 2 2Aは、解析対象として化合物の情報が入力された場合に、その化合物と相互作用 すると予測される蛋白質の情報が表示された画面例である。図 22Bは、解析対象とし て蛋白質の情報が入力された場合に、その化合物と相互作用すると予測される化合 物の情報が表示された画面例である。
[0094] 第 2実施形態では、 CPU10は、図 20のステップ S211の出力処理(出力例として 図 3参照)に加えて、図 21のステップ S307の出力処理(出力例として 22参照)を実 行する。その他の実施形態として、図 20のステップ S211の出力処理を省略すること ができる。また、第 2実施形態による解析結果の出力として、上述した図 3に例示する ツリー構造と対応づけた相互作用候補情報の表示を採用することができる。具体的 には、図 3に例示するツリー構造の分類ノード付近に、その分類ノードに帰属する蛋 白質 (または化合物)に相互作用する化合物 (または蛋白質)を併せて表示する。
[0095] 6.その他の実施形態
6-1.システム構成
実施形態では、本発明のシステムまたは方法の実施形態として、相互作用解析装 置 500を例示した。本発明の方法は、スタンドアローン型の通常のアプリケーションソ フトウェアとして使用することもできる。その他の実施形態として、以下の例が挙げら れる。 [0096] (1)クライアント 'サーバ型
本発明のシステムまたは方法の実施形態として、相互作用解析装置 500と同様の 処理を実行するサーバ装置と、解析対象に関するデータを送信する処理および解析 結果を受信する処理(図 20のステップ S 201、 S 211参照)を実行するクライアントコン ピュータとの組み合わせ (クライアント ·サーバ型)を採用してもょ 、。クライアント ·サー バ型として、例えばローカルエリアネットワーク(LAN)によって接続したシステム、 AS P (Application Service Provider)サービスによるシステムが含まれる。
[0097] (2)モジュール型
本発明のシステムまたは方法を、アミノ酸配列解析ソフトウェア、化学構造解析ソフ トウエアに機能をアドオンするモジュールとして採用することもできる。その他、本発明 のシステムまたは方法を、蛋白質データベース(例えば、 PDB、 FAMSBASE)、ィ匕 学構造式データベース(例えば、 ISISBase (商標)や Accord for Excel (商標)) に機能をアドオンするモジュールとして適用することもできる。
[0098] 実施形態では、本発明のシステムまたは方法の実施形態として、相互作用解析装 置 500を例示した。その他の実施形態として、 Personal Digital Assistant (PDA )等のその他の機器を利用してもょ 、。
[0099] 6-2.プログラム実行方法
本実施形態では、 CPU10の動作のためのプログラムをノヽードディスク 22に記憶さ せているが、このプログラムは、プログラムが記憶された CD— ROMから読み出してハ ードディスク等にインストールすればよい。また、 CD— ROM以外に、 DVD— ROM、 フレキシブルディスク(FD)、 ICカード等のプログラムをコンピュータ可読の記録媒体 からインストールするようにしてもよい。さらに、通信回線を用いてプログラムをダウン ロードさせることもできる。また、 CD— ROMからプログラムをインストールすることによ り、 CD— ROMに記憶させたプログラムを間接的にコンピュータに実行させるようにす るのではなぐ CD— ROMに記憶させたプログラムを直接的に実行するようにしてもよ い。
[0100] なお、コンピュータによって、実行可能なプログラムとしては、そのままインストール するだけで直接実行可能なものはもちろん、一旦他の形態等に変換が必要なもの( 例えば、データ圧縮されているものを解凍する等)、さらには、他のモジュール部分と 組合して実行可能なものも含む。
[0101] 上記各実施形態では、図 12の各機能を CPUおよびプログラムによって実現するこ ととしている力 各機能の一部または全部をノヽードウエアロジック (論理回路)によって 構成してちょい。
[0102] 以上、本発明の概要および本発明の好適な実施形態を説明したが、各用語は、限 定のために用いたのではなく説明のために用いたのであって、本発明に関連する技 術分野の当業者は、本発明の説明の範囲内でのシステム、装置、及び方法のその 他の変形を認め実行することができる。したがって、そのような変形は、本発明の範囲 内に入るものとみなされる。
産業上の利用可能性
[0103] 任意の蛋白質 (群)に対する Target Libraryデザイン、任意の蛋白質群に対するマ ルチまたは選択的ドラッグデザイン、任意の化合物 (群)に対するリバースプロテオミ タス支援、任意の化合物 (群)に対する毒性および Zまたは副作用予測、任意の蛋 白質および化合物間の相互作用予測、各種ネットワークモデル (疾患、副作用、毒性 等)に対する入力情報の提供に有用である。一連の操作は自動化させることができ、 データベースの拡充に伴い(巿販 DB、自社薬理評価結果、リバースプロテオミクス情 報等)、随時モデルは更新され精本データベースの質および予測の精度の向上が 測られる。一方、 DNAチップ解析やプロテオーム研究およびそれらの情報を統合した ネットワークモデル等による疾患と生体内因子との関係情報と組み合わせることにより 、化合物と疾患との関係付けにまで発展させることを指向する。

Claims

請求の範囲
[1] 蛋白質のアミノ酸配列情報、機能および Zまたは構造の類似性により体系的に分 類された蛋白質のアミノ酸配列情報、化合物の構造情報および蛋白質と化合物の相 互作用情報が相互に関連づけられているデータに基づき、任意の蛋白質と化合物 間の相互作用を予測する方法。
[2] 任意の蛋白質と任意の化合物間の相互作用を予測する方法において、
(a)該蛋白質および、該蛋白質と機能および Zまたは構造的に類似した蛋白質群に 対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相 関モデルと、
(b)該蛋白質および、該蛋白質と機能および Zまたは構造的に類似した蛋白質群に 対して相互作用する化合物群の中から、該蛋白質に相互作用する化合物群を識別 し得る構造活性相関モデルとを組み合わせて予測する方法。
[3] 任意の蛋白質と任意の化合物間の相互作用を予測する方法において、アミノ酸配 列情報の機能および Zまたは構造の類似性による体系的な分類に基づき、
(a)該蛋白質が属する最上位の分類項目に属する蛋白質群に対して相互作用する 化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、
(b)該蛋白質が属する最上位の分類項目より下位の各分類項目において、該蛋白 質が属する分類項目に属する蛋白質群に対して相互作用する化合物群を、該蛋白 質と共通の親分類項目を有する子分類項目に属する蛋白質群に対して相互作用す る化合物群に対して識別し得る構造活性モデルとを組み合わせて予測する方法。
[4] 請求項 1一 3に記載された方法をコンピュータに実行させることを特徴とするコンビ ユータ読み取り可能なプログラム。
[5] 蛋白質のアミノ酸配列情報、機能および Zまたは構造の類似性により体系的に分 類された蛋白質のアミノ酸配列情報、化合物の構造情報および蛋白質と化合物の相 互作用情報が相互に関連づけられているデータに基づき、任意の蛋白質と化合物 間の相互作用を予測するシステム。
[6] 任意の蛋白質と任意の化合物間の相互作用を予測するシステムにおいて、
(a)該蛋白質および、該蛋白質と機能および Zまたは構造的に類似した蛋白質群に 対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相 関モデルと、
(b)該蛋白質および、該蛋白質と機能および Zまたは構造的に類似した蛋白質群に 対して相互作用する化合物群の中から、該蛋白質に相互作用する化合物群を識別 し得る構造活性相関モデルとを組み合わせて予測するシステム。
[7] 任意の蛋白質と任意の化合物間の相互作用を予測するシステムにおいて、ァミノ 酸配列情報の機能および Zまたは構造の類似性による体系的な分類に基づき、
(a)該蛋白質が属する最上位の分類項目に属する蛋白質群に対して相互作用する 化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、
(b)該蛋白質が属する最上位の分類項目より下位の各分類項目において、該蛋白 質が属する分類項目に属する蛋白質群に対して相互作用する化合物群を、該蛋白 質と共通の親分類項目を有する子分類項目に属する蛋白質群に対して相互作用す る化合物群に対して識別し得る構造活性モデルとを組み合わせて予測するシステム
[8] 機能および Zまたは構造が類似する蛋白質を予測する予測システムであって、 前記予測システムは、
(a)蛋白質の機能特徴および Zまたは構造特徴の分類を示す第 1分類に属する第 1 分類蛋白質の情報と、当該第 1分類に属さない非第 1分類蛋白質の情報とを記録す る第 1記録手段、
(b)前記第 1記録手段に記録される第 1分類蛋白質の中から選択される、前記第 1分 類よりも小概念である機能特徴および Zまたは構造特徴の分類を示す第 2分類に属 する第 2分類蛋白質の情報と、前記第 1分類に属するが当該第 2分類に属さない非 第 2分類蛋白質とを記録する第 2記録手段、
(c)予測対象蛋白質の機能特徴および Zまたは構造特徴を示す予測対象情報を取 得する取得手段、
(d)前記取得手段が取得した予測対象情報と前記第 1記録手段に記録された情報と に基づいて、前記非第 1分類蛋白質との比較における、前記予測対象蛋白質と前記 第 1分類蛋白質との類似性を解析する第 1解析手段、 (e)前記第 1解析手段によって前記予測対象蛋白質が前記第 1分類蛋白質に類似 すると解析された場合には、さらに、前記予測対象情報と前記第 2記録手段に記録さ れた情報とに基づいて、前記非第 2分類蛋白質との比較における、前記予測対象蛋 白質と前記第 2分類蛋白質との類似性を解析する第 2解析手段、
(f)前記第 1解析手段および第 2解析手段による解析結果に基づいて、前記予測対 象蛋白質と機能特徴および Zまたは構造特徴が類似する蛋白質の情報を出力する 出力手段、
を備えた予測システム。
[9] 前記予測システムの前記 (a)第 1記録手段に記録される蛋白質の情報および Zま たは (b)第 2記録手段に記録される蛋白質の情報は、当該蛋白質と相互作用する化 合物の情報と対応づけられており、
前記予測システムは、さらに、
(g)前記蛋白質と相互作用する化合物の情報と、前記 (d)第 1解析手段および Zま たは (e)第 2解析手段によって解析された前記予測対象蛋白質に類似する蛋白質の 情報とに基づいて、当該予測対象蛋白質と相互作用すると予測される化合物の情報 を解析する相互作用情報解析手段、
を備えており、
前記 (f)出力手段は、
前記予測対象蛋白質と機能特徴および Zまたは構造特徴が類似する蛋白質の情 報、および Zまたは前記相互作用情報解析手段によって解析された化合物の情報 を出力する、
請求項 8の予測システム。
[10] 前記 (f)出力手段は、
前記第 2解析手段による解析結果としての前記蛋白質および Zまたは当該蛋白質 と相互作用する化合物の情報に加えて、当該第 2分類よりも大概念である、前記第 1 解析手段による解析結果としての前記蛋白質および Zまたは当該蛋白質と相互作 用する化合物の情報を併せて出力する、
請求項 8または 9の予測システム。 [ill 機能および Zまたは構造が類似する蛋白質を予測する予測システムであって、 前記予測システムは、
(a)蛋白質の機能特徴および Zまたは構造特徴の分類を示す第 1分類に属する第 1 分類蛋白質の情報と、当該第 1分類に属さない非第 1分類蛋白質の情報とを記録す る第 1記録装置、
(b)前記第 1記憶装置に記録される第 1分類蛋白質の中から選択される、前記第 1分 類よりも小概念である機能特徴および Zまたは構造特徴の分類を示す第 2分類に属 する第 2分類蛋白質の情報と、前記第 1分類に属するが当該第 2分類に属さない非 第 2分類蛋白質とを記録する第 2記録装置、
を備え、
前記予測システムの Central Processing Unit (CPU)は、
(c)予測対象蛋白質の機能特徴および Zまたは構造特徴を示す予測対象情報を取 得し、
(d)前記取得した予測対象情報と前記第 1記録装置に記録された情報とに基づ!/、て 、前記非第 1分類蛋白質との比較における、前記予測対象蛋白質と前記第 1分類蛋 白質との類似性を解析し、
(e)前記予測対象蛋白質が前記第 1分類蛋白質に類似すると解析された場合には、 さらに、前記予測対象情報と前記第 2記録装置に記録された情報とに基づいて、前 記非第 2分類蛋白質との比較における、前記予測対象蛋白質と前記第 2分類蛋白質 との類似性を解析し、
(f)前記解析結果に基づいて、前記予測対象蛋白質と機能特徴および Zまたは構 造特徴が類似する蛋白質の情報を表示装置に出力すること、
を特徴とする予測システム。
[12] コンピュータを、機能および Zまたは構造が類似する蛋白質を予測する予測システ ムとして機能させるための、コンピュータ読取可能なプログラムであって、
前記プログラムは、前記コンピュータを以下の、
(a)蛋白質の機能特徴および Zまたは構造特徴の分類を示す第 1分類に属する第 1 分類蛋白質の情報と、当該第 1分類に属さない非第 1分類蛋白質の情報とを記録す る第 1記録手段、
(b)前記第 1記録手段に記録される第 1分類蛋白質の中から選択される、前記第 1分 類よりも小概念である機能特徴および Zまたは構造特徴の分類を示す第 2分類に属 する第 2分類蛋白質の情報と、前記第 1分類に属するが当該第 2分類に属さない非 第 2分類蛋白質とを記録する第 2記録手段、
(c)予測対象蛋白質の機能特徴および Zまたは構造特徴を示す予測対象情報を取 得する取得手段、
(d)前記取得手段が取得した予測対象情報と前記第 1記録手段に記録された情報と に基づいて、前記非第 1分類蛋白質との比較における、前記予測対象蛋白質と前記 第 1分類蛋白質との類似性を解析する第 1解析手段、
(e)前記第 1解析手段によって前記予測対象蛋白質が前記第 1分類蛋白質に類似 すると解析された場合には、さらに、前記予測対象情報と前記第 2記録手段に記録さ れた情報とに基づいて、前記非第 2分類蛋白質との比較における、前記予測対象蛋 白質と前記第 2分類蛋白質との類似性を解析する第 2解析手段、
(f)前記第 1解析手段および第 2解析手段による解析結果に基づいて、前記予測対 象蛋白質と機能特徴および Zまたは構造特徴が類似する蛋白質の情報を出力する 出力手段、
を備えた予測システムとして機能させるためのプログラム。
機能および Zまたは構造が類似する蛋白質 (または化合物)を予測する予測システ ムであって、
前記予測システムは、
(a)蛋白質 (または化合物)の機能特徴および Zまたは構造特徴の分類を示す第 1 分類に属する第 1分類蛋白質 (または第 1分類化合物)の情報と、当該第 1分類に属 さない非第 1分類蛋白質 (または非第 1分類ィ匕合物)の情報とを記録する第 1記録手 段、
(b)前記第 1記録手段に記録される第 1分類蛋白質 (または第 1分類ィ匕合物)の中か ら選択される、前記第 1分類よりも小概念である機能特徴および Zまたは構造特徴の 分類を示す第 2分類に属する第 2分類蛋白質 (または第 2分類化合物)の情報と、前 記第 1分類に属するが当該第 2分類に属さない非第 2分類蛋白質 (または非第 2分類 化合物)とを記録する第 2記録手段、
(c)予測対象蛋白質 (または予測対象化合物)の機能特徴および Zまたは構造特徴 を示す予測対象情報を取得する取得手段、
(d)前記取得手段が取得した予測対象情報と前記第 1記録手段に記録された情報と に基づいて、前記非第 1分類蛋白質 (または非第 1分類ィ匕合物)との比較における、 前記予測対象蛋白質 (または予測対象化合物)と前記第 1分類蛋白質 (または第 1分 類化合物)との類似性を解析する第 1解析手段、
(e)前記第 1解析手段によって前記予測対象蛋白質 (または予測対象化合物)が前 記第 1分類蛋白質 (または第 1分類化合物)に類似すると解析された場合には、さら に、前記予測対象情報と前記第 2記録手段に記録された情報とに基づいて、前記非 第 2分類蛋白質 (または非第 2分類化合物)との比較における、前記予測対象蛋白質 (または予測対象化合物)と前記第 2分類蛋白質 (または第 2分類ィ匕合物)との類似 性を解析する第 2解析手段、
(f)前記第 1解析手段および第 2解析手段による解析結果に基づいて、前記予測対 象蛋白質 (または予測対象化合物)と機能特徴および Zまたは構造特徴が類似する 蛋白質 (または化合物)の情報を出力する出力手段、
を備えた予測システム。
機能および Zまたは構造が類似する蛋白質を予測する予測方法であって、 前記予測方法は、
(a)蛋白質の機能特徴および Zまたは構造特徴の分類を示す第 1分類に属する第 1 分類蛋白質の情報と、当該第 1分類に属さない非第 1分類蛋白質の情報とを第 1記 録手段に記録し、
(b)前記第 1記録手段に記録される第 1分類蛋白質の中から選択される、前記第 1分 類よりも小概念である機能特徴および Zまたは構造特徴の分類を示す第 2分類に属 する第 2分類蛋白質の情報と、前記第 1分類に属するが当該第 2分類に属さない非 第 2分類蛋白質とを第 2記録手段に記録し、
(c)予測対象蛋白質の機能特徴および Zまたは構造特徴を示す予測対象情報を取 得し、
(d)前記取得手段が取得した予測対象情報と前記第 1記録手段に記録された情報と に基づいて、前記非第 1分類蛋白質との比較における、前記予測対象蛋白質と前記 第 1分類蛋白質との類似性を解析し、
(e)前記予測対象蛋白質と前記第 1分類蛋白質との類似性の解析によって前記予測 対象蛋白質が前記第 1分類蛋白質に類似すると解析された場合には、さらに、前記 予測対象情報と前記第 2記録手段に記録された情報とに基づ ヽて、前記非第 2分類 蛋白質との比較における、前記予測対象蛋白質と前記第 2分類蛋白質との類似性を 解析し、
(f)前記解析結果に基づいて、前記予測対象蛋白質と機能特徴および Zまたは構 造特徴が類似する蛋白質の情報を出力する、
予測方法。
PCT/JP2004/019404 2003-12-26 2004-12-24 化合物および蛋白質間の相互作用を予測するシステム WO2005069188A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005516985A JPWO2005069188A1 (ja) 2003-12-26 2004-12-24 化合物および蛋白質間の相互作用を予測するシステム、類似蛋白質または類似化合物を予測するシステム、およびそれらの方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-435659 2003-12-26
JP2003435659 2003-12-26

Publications (1)

Publication Number Publication Date
WO2005069188A1 true WO2005069188A1 (ja) 2005-07-28

Family

ID=34791758

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/019404 WO2005069188A1 (ja) 2003-12-26 2004-12-24 化合物および蛋白質間の相互作用を予測するシステム

Country Status (2)

Country Link
JP (1) JPWO2005069188A1 (ja)
WO (1) WO2005069188A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007105794A1 (ja) * 2006-03-15 2007-09-20 Nec Corporation 分子構造予測システム、方法及びプログラム
JP5448447B2 (ja) * 2006-05-26 2014-03-19 国立大学法人京都大学 ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計
WO2014054526A1 (ja) * 2012-10-01 2014-04-10 独立行政法人科学技術振興機構 承認予測装置、承認予測方法、および、プログラム
CN107977548A (zh) * 2017-12-05 2018-05-01 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN113851195A (zh) * 2020-06-28 2021-12-28 中国中医科学院中医临床基础医学研究所 一种化合物-靶蛋白绑定预测方法
US12099003B2 (en) 2018-01-26 2024-09-24 Viavi Solutions Inc. Reduced false positive identification for spectroscopic classification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002033596A2 (en) * 2000-10-17 2002-04-25 Applied Research Systems Ars Holding N.V. Method of operating a computer system to perform a discrete substructural analysis
WO2003058499A1 (fr) * 2001-12-28 2003-07-17 Celestar Lexico-Sciences, Inc. Appareil et procede de recherche de connaissance, programme et support d'enregistrement associes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002033596A2 (en) * 2000-10-17 2002-04-25 Applied Research Systems Ars Holding N.V. Method of operating a computer system to perform a discrete substructural analysis
WO2003058499A1 (fr) * 2001-12-28 2003-07-17 Celestar Lexico-Sciences, Inc. Appareil et procede de recherche de connaissance, programme et support d'enregistrement associes

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROCHE O. ET AL: "Ligand-Protein DataBase: Linking Protein-Ligand Complex Structures to Binding Data", J.MED. CHEM., vol. 44, no. 22, 2001, pages 3592 - 3598, XP002987717 *
XUE L. ET AL: "Molecular Descriptors for Effective Classification of Biologically Active Compounds Based on Principal Component Analysis Identified by a Genetic Algorithm", J. CHEM. INF. COMPUT. SCI., vol. 40, no. 3, 2000, pages 801 - 809, XP002987718 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007105794A1 (ja) * 2006-03-15 2007-09-20 Nec Corporation 分子構造予測システム、方法及びプログラム
JP5448447B2 (ja) * 2006-05-26 2014-03-19 国立大学法人京都大学 ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計
WO2014054526A1 (ja) * 2012-10-01 2014-04-10 独立行政法人科学技術振興機構 承認予測装置、承認予測方法、および、プログラム
JP2014071836A (ja) * 2012-10-01 2014-04-21 Japan Science & Technology Agency 承認予測装置、承認予測方法、および、プログラム
CN107977548A (zh) * 2017-12-05 2018-05-01 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN107977548B (zh) * 2017-12-05 2020-04-07 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
US12099003B2 (en) 2018-01-26 2024-09-24 Viavi Solutions Inc. Reduced false positive identification for spectroscopic classification
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN110070909B (zh) * 2019-03-21 2022-12-09 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN113851195A (zh) * 2020-06-28 2021-12-28 中国中医科学院中医临床基础医学研究所 一种化合物-靶蛋白绑定预测方法

Also Published As

Publication number Publication date
JPWO2005069188A1 (ja) 2007-07-26

Similar Documents

Publication Publication Date Title
Muzio et al. Biological network analysis with deep learning
Ehrlich et al. Maximum common subgraph isomorphism algorithms and their applications in molecular science: a review
Vanhaelen et al. Design of efficient computational workflows for in silico drug repurposing
Jónsdóttir et al. Prediction methods and databases within chemoinformatics: emphasis on drugs and drug candidates
Aittokallio et al. Graph-based methods for analysing networks in cell biology
Sarkar et al. CAOS software for use in character‐based DNA barcoding
Boulesteix et al. Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics
Trevino et al. GALGO: an R package for multivariate variable selection using genetic algorithms
US8949157B2 (en) Estimation of protein-compound interaction and rational design of compound library based on chemical genomic information
Priya et al. Machine learning approaches and their applications in drug discovery and design
EP2600269A2 (en) Microarray sampling and network modeling for drug toxicity prediction
Lin et al. Clustering methods in protein-protein interaction network
JP2009520278A (ja) 科学情報知識管理のためのシステムおよび方法
JP2006323846A (ja) 高スループットデータ分析を利用して有意な分子を特定するための、ネットワークを利用した方法
Srinivasan et al. Current progress in network research: toward reference networks for key model organisms
Cannataro et al. Data management of protein interaction networks
Bender Bayesian methods in virtual screening and chemical biology
Chen et al. PubChem BioAssays as a data source for predictive models
R Andersson et al. Quantitative chemogenomics: machine-learning models of protein-ligand interaction
Rapicavoli et al. Computational methods for drug repurposing
Rodin et al. Systems biology data analysis methodology in pharmacogenomics
Juan et al. Bioinformatics: microarray data clustering and functional classification
WO2005069188A1 (ja) 化合物および蛋白質間の相互作用を予測するシステム
Guo et al. TRScore: a 3D RepVGG-based scoring method for ranking protein docking models
Wang et al. Multitask CapsNet: an imbalanced data deep learning method for predicting toxicants

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005516985

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase