WO2010060746A2 - Method and device for the automatic analysis of models - Google Patents
Method and device for the automatic analysis of models Download PDFInfo
- Publication number
- WO2010060746A2 WO2010060746A2 PCT/EP2009/064476 EP2009064476W WO2010060746A2 WO 2010060746 A2 WO2010060746 A2 WO 2010060746A2 EP 2009064476 W EP2009064476 W EP 2009064476W WO 2010060746 A2 WO2010060746 A2 WO 2010060746A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- model
- training
- linear model
- automatically
- kernel
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
Definitions
- nonlinear models of real data are used to make predictions. These models are so complex that they can hardly be investigated by analytical methods. This means that a user of a non-linear model is confronted with a kind of black-box, where he does not know the factors that are essential for a prediction in a particular case and that have found their way into the model.
- Fig. 2 is a schematic representation of training and model generation and analysis
- Fig. 3 is an illustration of the effect of reducing the core width on the ability to generalize
- Fig. 4 is an illustration of an example of toxic and non-toxic compounds
- Fig. 6 shows an example of the use of the method
- Fig. 7 shows an example of a use of the method in connection with two test molecules
- Tab. 1 shows an example calculation of the percentage that each training molecule contributes to the prediction for test molecule 1;
- Tab. 2 shows an example calculation for the percentage that each training molecule contributes to the prediction for test molecule 2.
- machine learning is understood to mean the basically known supervised machine learning.
- an automated machine learning process recognizes laws and correlations in a training set that allow statements about properties of a new object.
- One possible example, discussed below, is the automatic generation and analysis of a non-linear model for predicting the toxicity of chemical molecules.
- a prediction is meant an estimate indicating for each chemical molecule its toxicity in the form of a number. If this number exceeds a threshold determined in the training process, the prediction can be interpreted as “toxic”, otherwise the prediction is "non-toxic”. Gauss's processes can be trained to interpret the output directly as a probability, e.g. "72 of a hundred molecules with these characteristics are toxic”.
- a descriptive quantity e.g. calculated from the structural formula of a molecule, e.g. its size, weight, surface, the number of certain functional groups in the molecule, etc. understood in chemical computer science, these features are synonymously referred to as descriptors.
- nonlinear model is not only created and used for prediction, but it is also automatically analyzed to determine at least one major influential factor (eg, the main reason why the model predicts toxicity) and further use of that data enable.
- the methods and apparatus are also suitable for other data, models, and articles, such as the model-based control of a chemical plant. Also examples are given.
- the resulting models have the special feature of providing additional information that facilitates the user's understanding at an interface, so that they can subsequently be visualized, for example, in the form of a ranking list or in the form of a graphic.
- model When reference is made to a model below, this may be e.g. a computer program, i. a formalized sequence of logical commands.
- a model can also be represented by mathematical relationships and / or tables of values.
- Fig. 1 shows a basic form of a method by which a non-linear model (e.g., a computer program, a look-up table, a mathematical model, etc.) can be created and automatically analyzed.
- the model may e.g. as a non-linear model or as part of a machine learning procedure. For the example according to FIG. 1, the latter case is assumed.
- the aim is to obtain a model with which properties (for example toxicity, control behavior) of an a priori uncharacterized object (eg molecule, chemical plant) can be predicted and at the same time the influencing variables of the model are determined.
- Properties will hereinafter be understood as meaning in each case a measured or measurable property of a chemical compound, e.g. their water solubility or toxicity, understood.
- the non-linear model is automatically formed by a machine learning method from a multiplicity of known training objects in such a way that at least one article has at least one statement for at least one article a property allowed.
- the automatically determined non-linear model allows a binary statement, toxic - non-toxic.
- this statement can be made e.g. adhering to or disobeying a determine metric or quality characteristic.
- An analysis means is used in the second method step 200 to automatically determine at least one measure that indicates which exercise item or items of training that have become part of the non-linear model have the greatest impact on the non-linear model.
- Influence is understood here as the size of the normalized coefficient of a training object in the linear combination with which the prediction can be calculated.
- a quantitative example is given in connection with FIG. 7 and Tables 1 and 2.
- the analysis means uses a special property of the automatically determined non-linear model to measure this measure.
- This measure can be determined, for example, with the aid of the representer theorem (or a mathematically equivalent formulation of the prediction function) whose core message is that the prediction of core-based models can be formulated mathematically as a linear combination, which will be explained in more detail below.
- the validity of the representative theorem is a well-known property of a kernel-based non-linear model, which is determined by a machine learning method.
- a ranking data record is then automatically created, in which the measures are arranged according to a predetermined condition.
- the following describes a concrete embodiment, namely the automatic analysis of a model for the prediction of the toxicity of chemical molecules.
- Those skilled in the art will recognize that other properties of chemical molecules, such as water solubility, metabolic stability, binding to certain receptors, etc., can be similarly analyzed.
- a special feature of the resulting models is that the predictions are comprehensible in terms of content due to the automatic quantitative evaluation of influencing variables.
- additional information is provided at an interface, so that these can be visualized in the following or used in the context of a model reduction. Optimization aids can be used for model reduction, which will be explained in more detail below.
- the relationship between the structure of the molecules and their toxicity is determined from a training set of data.
- a training set for a supervised method of machine learning the features (here the number of different functional groups or other molecular constituents) and the measured toxicity for a set of chemical molecules function.
- Toxicity is the property of a substance to harm an organism. The damage can affect the whole organism or one of its substructures such as organs, cells or DNA.
- genotoxicity measured as Arnes mutagenicity.
- the method is by no means limited to this measure. Alternatively, measurements such as the micronucleus test or chromosome abberation can also be used.
- the training is performed on a program called "ToxTrain" in the described embodiment This program involves an implementation of a supervised machine learning method, namely a Gaussian process known per se.
- the result of the training is a program "ToxExplain", which contains the learned context as a model and thus can generate predictions about its toxicity for new molecules.
- the embodiment also determines so-called explanatory components and optimization aids, which can be used over an interface eg
- the model can also be a stand-alone program, which can also be output as a module or plug-in for existing software in a company, or implemented in hardware form, ie on a chip.
- the procedure which will be described in detail below, automatically provides explanatory components that characterize the non-linear model, which is also generated automatically.
- the presentation remains clear and it is understandable how the prediction of the model comes to pass.
- the automatic Determining the explanatory components ie the parts of the model that have a great influence on the predictions, it is possible to easily automatically obtain a reduction of the complexity of the non-linear model.
- explanatory A model that can automatically identify such explanatory components is called explanatory.
- an ordered list (i.e., the list elements are each given a measure of the feature) is understood to mean those features of a molecule on which the prediction of the model most depends.
- an ordered list i.e., the list elements are each given a measure of the feature
- variations of the molecule e.g. less toxic than the parent molecule.
- FIG. 2 describes the training in which a training amount is examined with the aid of the program ToxTrain. This automatically generates the program ToxExplain, which not only makes predictions possible, but also has explanatory components. This is shown in the lower part of Fig. 2.
- the models of type ToxExplain explain their predictions and provide optimization aids and can then be further processed, e.g. for model reduction or visualization of the ranking of influencing factors.
- kernel function in kernel-based learning has the task of implicitly transforming the features of two objects (e.g., chemical molecules) into a very high dimensional feature space and calculating the scalar product there. Since the core function can perform non-linear transformation, by using a suitable kernel function, any linear learning methods in which the features of objects (here: molecules) appear exclusively in the form of scalar products, can be generalized such that they are used for learning non-linear relationships can be used.
- core functions are the RBF core (synonyms: Radial Basisfunction Kernel, Gauss Kernel, graphkern, treekern, Squared exponential Kernel) and the polynomial kernel.
- An example of a machine learning method is a Gaussian process that can be used to generate models that, in addition to predictions, also output the variance of the respective prediction.
- Gauss's processes were originally developed for regression of data, but can also be used for classifications.
- the support vector machine is a machine learning method that was originally developed for the classification of data, but can also be used to regression data.
- Classification is the construction of a model for properties that can be expressed by categories or membership of groups.
- Molecules are eg "mutagenic” or “not mutagenic”. This is contrasted with the regression, in which a model is constructed whose properties can be expressed by real numbers, eg the strength of the binding of a molecule to a receptor protein. Also, the toxicity can be given in the form of real numbers.
- the models resulting from the kernel-based learning process can, based on various features of new molecules, generate predictions for previously unobserved or measured properties of these new molecules, i. e.g. predict their toxicity.
- the more observed / measured data from the past is available as a training set, the better a given relationship can be modeled and the more accurate the predictions for previously unseen molecules become.
- Due to their high performance, statistical learning methods of this kind are already used in many fields. However, they have a decisive disadvantage: For the user of such a model, it is generally not comprehensible how the prediction comes about in a specific individual case.
- series is meant a group of chemical compounds having the same basic body but differing in which functional group is present at a particular position, how long a particular side chain is, etc.
- the method and the device allow to identify a few molecules relevant to the respective prediction from the training amount. These are referred to below as explanatory components.
- explanatory components In the past, attempts have been made by various research groups to estimate the reliability of predictions taking into account the amount of training. However, the previous strategies are independent of the learning algorithm and therefore not adapted to its specifics. Only the close coupling or integration of the determination of the explanatory components to the learning algorithm makes it possible to identify the molecules on which the prediction really depends.
- the most important characteristics for the respective prediction are automatically identified with the help of the method and serve as optimization aids. This automatically determines the characteristics of each molecule whose toxicity depends the most. The most important features are determined locally, which will be explained in more detail later. Thus, the local gradients are determined, which are then used as optimization aids.
- a gradient is a differential operator that can be applied to a scalar field.
- the term is used synonymously for the vector whose elements are the partial derivatives of a function after all of their Variables are.
- the gradient is understood to mean a vector with the partial derivatives of the prediction of a model for a specific molecule according to its characteristics.
- the gradients can be calculated directly analytically.
- the gradients are calculated using a differentiable density estimator (eg, Parzen Window) that is closely matched to the prediction function so that the gradients of the density estimator can be considered a predicted prediction function ,
- Generalization ability is understood here as the ability of a model to produce accurate predictions for molecules that are not included in its training set.
- the number of explanatory components is plotted as a function of the core width.
- Many core functions, including the RBF core have a hyper-parameter called core-width.
- the kernel width controls whether predictions of a model depend in each case only on the properties of molecules which are closely adjacent to the new molecule in the feature space or whether more distant molecules are also taken into account.
- the core width becomes smaller from left to right, and the number of explanatory components decreases. That is the Prediction for a new molecule relies on fewer and fewer molecules from the training set. If a prediction relies on very few (eg five) molecules, they can be visualized in a clear way. Visualization enables human experts to understand predictions and assess their reliability. A model that can provide the necessary information via an interface is called explanatory. The quantitative treatment of the explanatory ability will be described in connection with FIG.
- a novelty is that the kernel width learned from the Gaussian process (left vertical line) is subsequently reduced (see FIG. 5).
- a slightly increased mean error i.e., degradation of the model
- the different crosses in the curves represent different measures for the number of explanatory components or the error (median, mean etc.) and show uniform trends.
- Fig. 3 shows the relationship between the generalizability of the model and its core width.
- the core width is plotted with the same scale as in the upper part, ie it decreases from left to right.
- Generalisability is measured by the mean error the model makes in predicting new molecules. This was determined for various core widths with a test set of molecules that were not considered in the training of the model. In the left half (relatively large core width), the mean error for new molecules is small. If you reduce the core width, the mean error increases (right half).
- test set for a supervised machine learning process
- the optimization of the core width is part of the normal training process for Gauss' processes. However, this optimization is basically carried out with the aim of achieving the lowest possible mean errors for new molecules. This optimum is symbolized in Fig. 3 by the left vertical line.
- the kernel width is automatically reduced (see FIG. 5) to obtain a clear number of explanatory components.
- the ability to generalize deteriorates measurably, but not severely. This means that a compromise between the ability to generalize and the ability to explain can be achieved, ie the user can use ToxTrain to generate models from his own datasets which can be explained and nevertheless generalize relatively well.
- the present embodiment allows the influence of certain features to be determined locally.
- Fig. 4 illustrates this relationship.
- steroids circles
- non-steroids squares
- the steroids are located in the lower left corner of the quadrant, the non-steroids in the upper right corner.
- Epoxy-group non-steroids are usually toxic (hatched circles and squares), while steroid-containing steroids may be both toxic and non-toxic (non-hatched circles and squares).
- the epoxy group is an important feature in terms of the toxicity of the particular compound. In the local neighborhood of steroids, however, this globally obtained information is misleading. This example shows that considering the local environment can be essential for generating optimization tools.
- optimization aids would not include the epoxy group as a criterion for toxic steroids but would instead name relevant characteristics for the particular molecule. However, for toxic non-steroids, the optimizers would in any case include the epoxy group as a toxicity-relevant feature.
- the problem can be solved better with a program ToxTrain. All available data can be used as training amount.
- the resulting model ToxExplain always generates its optimization aids for each new molecule from the local gradient of the prediction according to the characteristics of the molecule. In this way, the user receives a targeted optimization help, which can be extracted from the entire available data.
- the prediction f new for a new molecule is calculated as follows:
- K-i, j k (x, Xj) for the complete kernel matrix of the training set
- k ( x new> x ,) denotes the core function between the features Xn eur of the new molecule and the characteristics of the respective molecule i from the training set.
- kernel-based methods differ in how elements CC 1 of the weight vector are determined.
- the above expression for the weight vector relates to a Gaussian process, and in principle other core-based methods are also possible for implementing the method.
- X 1 and Xn eu are vectors, whereby a partial derivative to the j-th component is formed.
- the partial derivatives together then form the local gradient of f neu according to the characteristics of the new molecule and form the basis for the calculation of the optimization aids by the program ToxExplain. It will be understood by those skilled in the art that the same approach can be used for other features to determine other properties than toxicity.
- the determination of the partial derivatives also allows the automatic determination of optimization aids for other features and thus a possibility for better model reduction.
- In order to carry out the model reduction one calculates for all molecules in the respective training amount their optimization aids, ie one receives for each molecule the sensitivity after each characteristic (measured in per cent). Then, for each feature, one calculates the average amount that the sensitivity for this feature reaches on average across all molecules. After this average amount, the list of characteristics can now be sorted and thus converted into a ranking list.
- the features can now (exclusively) be used at the head of the feature list generated in this way.
- FIG. 1 A flowchart for a run of the program ToxTrain is shown in FIG.
- a data set specified by the user is first loaded.
- a Gaussian process is then trained in method step 2, ie, using a per se known machine learning algorithm, the relationship between the molecular structure of the chemical compounds contained in the data record and their toxicity is learned.
- Part of this training process is the internal optimization of the evidence. This is a mathematical function that is used as a criterion in various methods of machine learning to optimize parameters. In Gauss' see processes In this way, the fit of predictions and predicted variances is considered equally.
- the goodness of the Fit describes how closely a model is adapted to its training amount.
- Unterfitten means not adapting a model closely enough, e.g. too complex to make, such as when trying to represent a nonlinear relationship through a straight line.
- Overfit means too tight an adaptation of the function to the training set, so that exact predictions are obtained for all molecules from the training set, but for new molecules only very inaccurate predictions are achieved (poor generalization ability).
- GP gen a value for the core width is automatically determined, which is optimal with regard to the expected generalization capability. This model is referred to below as GP gen .
- a model is subsequently trained on the entire input data record (method step 10).
- the second model is called GPfj. t denotes.
- Both models, GP gen , and GP flt are stored (step 11). Together they form an explanatory overall model of the type ToxExplain.
- the function is generally less smooth than that of the GP gen model, and the local gradients are less useful in terms of use as optimizers. So both models are saved in order to be able to determine both good predictions and helpful optimization aids with the program ToxExplain.
- Process step 2 A data record is loaded. This contains the following information for a number of chemical compounds:
- Process Step 3 Using the entire data set from process step 2, a Gaussian process model is trained. In the process, all model parameters are automatically adjusted using the gradients of the evidence function so that the evidence is maximized.
- This parameter estimation or model selection strategy is state of the art in machine learning and generally leads to models that generalize well.
- Process Step 4 The molecules from the data set obtained in method step 2 are randomly separated t-times independently into non-overlapping sub-data sets, which are referred to later as a training or test set. It makes sense to use at this point the known per se cross-validation strategy with at least 10 repetitions.
- a 5-fold repeated 3-fold cross validation means that the molecules in the dataset are randomly distributed in three equal parts (folds). Subsequently, two of these folds are used as a training set, ie on their basis a model is trained. This model is used to generate predictions for the third FoId. In the same way FoId 1 + 3, as well as 2 + 3 combined are used as training sets and the resulting models are used to generate 2 or 1 predictions for each remaining folds. Now predictions have been made for the entire dataset, using a model for each prediction that did not have the molecule in its training set.
- Process Step 5 With each of the training sets generated in method step 4, a Gaussian process is trained. However, unlike usual, no internal optimization of all parameters is made, but the core width is excluded from this optimization. Instead, the determined in step 3 (or from the 2nd run of the loop determined in step 10 reduced) core width is adopted and not further adapted.
- Method Step 6 The models trained in method step 5 are now used to generate predictions for the test sets belonging to the respective training set from method step 4. That For all molecules in the respective test set, the toxicity is predicted and the mean error of these predictions is determined.
- Method Step 7 For all predictions made in method step 6, the explanatory components are determined. That is, those molecules i from the respective training set are determined, which together contribute more than 80% of the respective prediction f (x new ).
- the prediction is formed by means of the representer theorem, which applies to all kernel-based methods:
- the running index i runs over all molecules in the training amount.
- the quantities a, b ⁇ , and C 1 are (depending on Learning algorithm) various local and global parameters.
- k (Xj_, x n ) is the core function between the features of one molecule each of the training set X 1 and the features of the new molecule x n .
- the contributions to the sum in equation (4) are sorted by size, and additional contributions are added by the head of the list until the subtotal of the contributions reaches 80%.
- a measure is calculated, on the basis of which a ranking data record is automatically created.
- the measures of the influencing factors can then be arranged according to a predetermined condition.
- Step 8 If more than 50% of the predictions from step 6 can be explained by five or less explanatory components (i.e., five or fewer tracer objects together provide 80% of the contribution to the prediction in step 7), then step 10 is followed. Otherwise, step 9, i. a return to step 5.
- Method step 9 Since too many explanatory components were required, the core width is now reduced and proceeding with method step 5 and the new reduced core width.
- Step 10 Since more than 50% of the chemical compounds require only less than five explanatory components, the current core width is retained and with exactly this core width (without further internal optimization) a Gaussian process model on the entire data set from method step 2 trained.
- Process Step 11 The models from process step 10 (GP flt ) and process step 3 (GP gen ) are both, together with the data set from process step 3 in a file stored and form the record-specific part of the program ToxExplain.
- program code which is not record specific
- the average errors and explanatory capabilities determined in method steps 5 to 9 are stored in a log file.
- Process step 12 proper end.
- the ToxTrain program ( Figure 5) generates a program called ToxExplain from a record. This allows the automatically determined models to be used for new data.
- Explanatory models of the type ToxExplain can be generated in the manner described in connection with FIG. 5 for any data records. These are each a program that (unlike previously available models) not only produces a prediction of the toxicity of chemical compounds, but also provides the following information at an interface:
- step 6 A list of exactly the connections in the training set on which the above prediction mainly relies (explanatory components). As described above, in step 6, the contributions to the sum are sorted by size according to equation (4), and then the connections are selected at the head of the list. The influence of these training compounds is quantified in percent.
- the information generated is useful when presented to him without context switching within his normal working environment.
- existing programs for editing and visualizing molecules in the respective company are connected via interfaces and, if necessary, extended by plug-ins.
- At least the explanatory components (and their measured toxicity), the optimization aids, their respective proportions in percent, the structural formula of the new molecule and the prediction for the new molecule should be displayed simultaneously.
- An example of such a graph is found in FIG. 6.
- a prediction is shown, wherein the prediction for the new molecule is based primarily on two compounds from the training set. If the observing chemist considers these explanatory components to be plausible, the prediction makes his decision easier.
- the molecule A from the training set has an influence of 51% on the prediction, the molecule B has an influence of only 43%. This automatically confused finding is also automatically applied to the new molecule C, which is considered non-toxic.
- Fig. 6 In the lower part of Fig. 6, another example is shown.
- the molecule D should be changed so that it is no longer toxic.
- To the right of it are shown the structural features E, F of the molecule, which in the concrete case lead to the prediction being "toxic". These optimization aids make it easier for the chemist to specifically vary the new molecule so that it is no longer toxic i st.
- a training dataset with active and inactive molecules as well as two test molecules is used.
- the main aim is to show, by means of an example, how the explanatory components for kernel-based models are calculated and used.
- Fig. 7 shows a training data set with active and inactive molecules and two test molecules with unknown activity.
- the activity may be any property, such as binding to a receptor.
- molecules Above a certain bond strength, molecules are called active, below they are called inactive.
- the molecules are represented by two numerical descriptors each, which are plotted on the X and Y axes. It should be noted that in real applications usually several hundred descriptors are used. The approach described here works the same way and is demonstrated here for the sake of clarity with two descriptors.
- the coordinates and sequence numbers of the training molecules can be found in Tables 1 and 2 in columns A, B and C.
- Table 1 in columns D and E contains the coordinates of test molecule 1 (identical for simplicity in all rows).
- Table 2 contains the analog information, but for test molecule 2.
- Equation (1) leads to the following expression for the prediction f (x new ):
- the columns F contain the value of the selected RBF core function between the training molecule listed in the respective row and test molecule 1 (Table 1) and test molecule 2 (Table 2).
- the value 2 is assumed in this example calculation.
- the columns G of Tables 1 and 2 contain, for each training molecule, the label-corrected entry of this weighting vector OC. It should be noted that there are two different definitions of OC, one of which
- the correct definition can be ensured by a simple amount formation.
- the weight vector for kernel-based models has to be defined so that it has only positive entries, and the continuous labels are saved separately.
- n stands for all training items that have become part of the model.
- this can be the entire training set (eg in the Gaussian process) or a subset of the training set. For support vector machines, this subset is called the support vectors.
- test molecule 1 is about 86% based on the number 5 training molecule, while all other training molecules contribute little to the prediction.
- test molecule 2 is approximately 87% based on the training molecule number 5, while all other training molecules (again) contribute little to the prediction.
- Sorting for ⁇ gives us a list of the training molecules in order of relevance for the prediction of the respective test molecule.
- ⁇ represents a measure with which a ranking data record is automatically created, in which the measures of the influencing factors are arranged according to a predetermined condition.
- the method is thus to be understood as a kind of automatic measuring method for influencing factors, whereby this determination of the influencing factors enables further applications.
- a model of a building could be used to determine the parameters that require particularly energy-efficient air conditioning. From a model of a production plant could e.g. automatically determine the parts of a production chain that represent a particular bottleneck or on which the quality of certain product elements is particularly sensitive.
- models of technical systems e.g. electronic circuits or machines, automatically determining factors which may take the form of a reduced model e.g. are to be used for regulatory purposes.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
Verfahren und Vorrichtung zur automatischen Analyse von ModellenMethod and device for automatic analysis of models
Im Folgenden werden ein Verfahren mit den Merkmalen des Anspruchs 1 und eine Vorrichtung mit den Merkmalen des Anspruchs 14 beansprucht.In the following, a method having the features of claim 1 and a device having the features of claim 14 are claimed.
In vielen Bereichen der Technik und der Wirtschaft werden nicht-lineare Modelle realer Daten dazu verwendet, Vorhersagen zu machen. Diese Modelle sind so komplex, dass sie mit analytischen Methoden kaum untersucht werden können. Dies bedeutet, dass ein Verwender eines nicht-linearen Modells mit einer Art black-box konfrontiert wird, wobei er die für eine Vorhersage im Einzelfall wesentlichen Einflussgrößen, die in das Modell Eingang gefunden haben nicht kennt.In many areas of technology and business, nonlinear models of real data are used to make predictions. These models are so complex that they can hardly be investigated by analytical methods. This means that a user of a non-linear model is confronted with a kind of black-box, where he does not know the factors that are essential for a prediction in a particular case and that have found their way into the model.
Es besteht daher die Aufgabe, Verfahren und Vorrichtungen zu entwickeln, mit denen eine automatische Analyse solcher Modelle ermöglicht wird und die Ergebnisse dieser Analyse einer weiteren Verwendung zugeführt werden.It is therefore an object to develop methods and devices which enable an automatic analysis of such models and the results of this analysis for further use.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 und eine Vorrichtung mit den Merkmalen des Anspruchs 14 gelöst.This object is achieved by a method having the features of claim 1 and an apparatus having the features of claim 14.
Im Folgenden werden Ausführungsformen von Verfahren und Vorrichtungen im Zusammenhang mit Figuren beschrieben. Dabei zeigenIn the following, embodiments of methods and devices will be described in connection with figures. Show
Fig. 1 ein Ablaufdiagramm einer Ausführungsform eines Verfahren;1 is a flowchart of an embodiment of a method;
Fig. 2 eine schematische Darstellung des Trainings und der Modellerzeugung und Analyse; Fig. 3 eine Darstellung des Effektes der Reduktion der Kernweite auf die Generalisierungsfähigkeit ;Fig. 2 is a schematic representation of training and model generation and analysis; Fig. 3 is an illustration of the effect of reducing the core width on the ability to generalize;
Fig. 4 eine Darstellung eines Beispiels von toxischen und nicht-toxischen Verbindungen;Fig. 4 is an illustration of an example of toxic and non-toxic compounds;
Fig. 5 ein Flussdiagramm einer Ausführungsform des5 is a flow chart of an embodiment of the invention
Verfahrens zur automatischen Bestimmung eines erklärungsfähigen Modells;Method for automatic determination of an explanatory model;
Fig. 6 ein Beispiel für die Verwendung des Verfahrens;Fig. 6 shows an example of the use of the method;
Fig. 7 ein Beispiel einer Verwendung des Verfahrens im Zusammenhang mit zwei Testmolekülen;Fig. 7 shows an example of a use of the method in connection with two test molecules;
Tab. 1 eine Beispielrechnung für den Prozentsatz, den jedes Trainingsmolekül zur Vorhersage für Testmolekül 1 beiträgt;Tab. 1 shows an example calculation of the percentage that each training molecule contributes to the prediction for test molecule 1;
Tab. 2 eine Beispielrechnung für den Prozentsatz, den jedes Trainingsmolekül zur Vorhersage für Testmolekül 2 beiträgt.Tab. 2 shows an example calculation for the percentage that each training molecule contributes to the prediction for test molecule 2.
Die Verfahren und Vorrichtungen, die im Folgenden beschrieben werden verwenden nicht-lineare Modelle, die mit Hilfe maschineller Lernverfahren automatisch aus Daten gewonnen werden .The methods and apparatus described below use nonlinear models that are automatically extracted from data using machine learning techniques.
Im Rahmen dieser Beschreibung wird unter maschinellen Lernverfahren das grundsätzlich bekannte überwachte maschinelle Lernens verstanden. Dabei erkennt ein automatisiertes maschinelles Lernverfahren in einer Trainingsmenge Gesetzmäßigkeiten und Zusammenhänge, die Aussagen über Eigenschaften eines neuen Gegenstandes erlauben . Ein mögliches Beispiel, auf das im Folgenden eingegangen wird, ist die automatische Erstellung und Analyse eines nicht-linearen Modells zur Vorhersage der Toxizität von chemischen Molekülen.In the context of this description, machine learning is understood to mean the basically known supervised machine learning. In this case, an automated machine learning process recognizes laws and correlations in a training set that allow statements about properties of a new object. One possible example, discussed below, is the automatic generation and analysis of a non-linear model for predicting the toxicity of chemical molecules.
Unter einer Vorhersage ist hier eine Schätzung zu verstehen, die für jeweils ein chemisches Molekül dessen Toxizität in Form einer Zahl angibt. Überschreitet diese Zahl eine im Trainingsprozess ermittelte Schwelle, kann die Vorhersage als "toxisch" interpretiert werden, andernfalls lautet die Vorhersage "nicht toxisch". Gauss 'sehe Prozesse können so trainiert werden, dass sich die Ausgabe direkt als Wahrscheinlichkeit interpretieren lässt, z.B. "72 von hundert Molekülen mit diesen Merkmalen sind toxisch".By a prediction is meant an estimate indicating for each chemical molecule its toxicity in the form of a number. If this number exceeds a threshold determined in the training process, the prediction can be interpreted as "toxic", otherwise the prediction is "non-toxic". Gauss's processes can be trained to interpret the output directly as a probability, e.g. "72 of a hundred molecules with these characteristics are toxic".
Im Folgenden wird unter Merkmal eine beschreibende Größe, die sich z.B. ausgehend von der Strukturformel eines Moleküls berechnet lässt, wie z.B. dessen Größe, Gewicht, Oberfläche, die Zahl bestimmter funktioneller Gruppen im Molekül usw. verstanden In der chemischem Informatik werden diese Merkmale synonym als Deskriptoren bezeichnet.Hereinafter, under feature, a descriptive quantity, e.g. calculated from the structural formula of a molecule, e.g. its size, weight, surface, the number of certain functional groups in the molecule, etc. understood in chemical computer science, these features are synonymously referred to as descriptors.
Wie später noch beschrieben wird, wird ein solches nichtlineares Modell nicht nur erstellt und zur Vorhersage verwendet, sondern es wird auch automatisch analysiert, um mindestens einen Haupteinflussfaktor (z.B. den Hauptgrund, warum das Modell Toxizität vorhersagt) zu bestimmen und eine weitere Verwendung dieser Daten zu ermöglichen.As will be described later, such a nonlinear model is not only created and used for prediction, but it is also automatically analyzed to determine at least one major influential factor (eg, the main reason why the model predicts toxicity) and further use of that data enable.
Auch wenn im Folgenden wiederholt auf die Vorhersage und Analyse der Toxizität Bezug genommen wird, so erkennt der Fachmann, dass die Verfahren und Vorrichtungen auch für andere Daten, Modelle und Gegenstände geeignet sind, wie z.B. die modellbasierte Regelung einer Chemieanlage. Auch dazu werden Beispiele angegeben. In jedem Fall haben die resultierenden Modelle die besondere Eigenschaft, zusätzliche Informationen, die dem Benutzer das Verständnis erleichtern, an einer Schnittstelle bereit zu stellen, so dass diese im Anschluss z.B. in Form einer Rangliste oder in Form einer Graphik visualisiert werden können .Although reference is repeatedly made below to the prediction and analysis of toxicity, those skilled in the art will recognize that the methods and apparatus are also suitable for other data, models, and articles, such as the model-based control of a chemical plant. Also examples are given. In any case, the resulting models have the special feature of providing additional information that facilitates the user's understanding at an interface, so that they can subsequently be visualized, for example, in the form of a ranking list or in the form of a graphic.
Wenn im Folgenden auf ein Modell Bezug genommen wird, so kann dies z.B. ein Computerprogramm sein, d.h. eine formalisierte Abfolge von logischen Befehlen. Ein Modell kann aber auch durch mathematische Beziehungen und / oder Wertetabellen repräsentiert werden.When reference is made to a model below, this may be e.g. a computer program, i. a formalized sequence of logical commands. A model can also be represented by mathematical relationships and / or tables of values.
In Fig. 1 ist eine Grundform eines Verfahrens dargestellt, mit dem ein nicht-lineares Modell (z.B. ein Computerprogramm, eine Wertetabelle, ein mathematisches Modell etc.) erstellt und automatisch analysiert werden kann. Das Modell kann dabei z.B. als nicht-lineares Modell vorliegen oder im Zuge eines maschinellen Lernverfahrens ermittelt werden. Für das Beispiel gemäß Fig. 1 wird der letztere Fall angenommen.Fig. 1 shows a basic form of a method by which a non-linear model (e.g., a computer program, a look-up table, a mathematical model, etc.) can be created and automatically analyzed. The model may e.g. as a non-linear model or as part of a machine learning procedure. For the example according to FIG. 1, the latter case is assumed.
Ziel ist es, ein Modell zu erhalten, mit dem Eigenschaften (z.B. Toxizität, Regelverhalten) eines ä-priori nicht charakterisierten Gegenstandes (z. B. Molekül, Chemieanlage) vorhersagbar sind und gleichzeitig die Einflussgrößen des Modells ermittelt werden. Mit Eigenschaft wird im Folgenden jeweils eine gemessene oder messbare Eigenschaft einer chemischen Verbindung, wie z.B. ihre Wasserlöslichkeit oder Toxizität, verstanden.The aim is to obtain a model with which properties (for example toxicity, control behavior) of an a priori uncharacterized object (eg molecule, chemical plant) can be predicted and at the same time the influencing variables of the model are determined. Property will hereinafter be understood as meaning in each case a measured or measurable property of a chemical compound, e.g. their water solubility or toxicity, understood.
Im ersten Verfahrensschritt 100 wird das nicht-lineare Modell automatisch durch ein maschinelles Lernverfahren aus einer Vielzahl bekannter Trainingsgegenstände so gebildet, dass es für mindestens einen Gegenstand eine Aussage über mindestens eine Eigenschaft erlaubt.In the first method step 100, the non-linear model is automatically formed by a machine learning method from a multiplicity of known training objects in such a way that at least one article has at least one statement for at least one article a property allowed.
Für den Fall der Toxizität erlaubt das automatisch ermittelte nicht-lineare Modell eine binäre Aussage, toxisch - nichttoxisch. Für den Anwendungsfall Regelungsverhalten kann diese Aussage z.B. das Einhalten oder das Nicht-Einhalten eines Bestimmen Messwerts oder eines Qualitätsmerkmals sein.In case of toxicity, the automatically determined non-linear model allows a binary statement, toxic - non-toxic. For the application case control behavior, this statement can be made e.g. adhering to or disobeying a determine metric or quality characteristic.
Ein Analysemittel wird im zweiten Verfahrensschritt 200 dazu verwendet, automatisch mindestens eine Maßzahl zu bestimmen, die angibt welcher Trainingsgegenstand oder welche Trainingsgegenstände, die Teil des nicht-linearen Modells geworden sind, den größten Einfluss auf das nicht-lineare Modell haben. Einfluss versteht sich hierbei als die Größe des normierten Koeffizienten eines Trainingsgegenstands in der Linearkombination, mit Hilfe derer die Vorhersage berechnet werden kann. Ein quantitatives Beispiel wird in Zusammenhang mit Fig. 7 und den Tabellen 1 und 2 gegeben.An analysis means is used in the second method step 200 to automatically determine at least one measure that indicates which exercise item or items of training that have become part of the non-linear model have the greatest impact on the non-linear model. Influence is understood here as the size of the normalized coefficient of a training object in the linear combination with which the prediction can be calculated. A quantitative example is given in connection with FIG. 7 and Tables 1 and 2.
Das Analysemittel verwendet dabei eine besondere Eigenschaft des automatisch ermittelten nicht-linearen Modells, um diese Maßzahl zu messen. Diese Maßzahl lässt sich beispielsweise mit Hilfe des Representer-Theorems (oder einer mathematisch äquivalenten Formulierung der Vorhersagefunkion) bestimmen, dessen Kernaussage ist, dass sich die Vorhersage kernbasierter Modelle mathematisch als Linearkombination formulieren lässt, was im Folgenden noch ausführlicher erläutert wird. Die Gültigkeit des Representer-Theorems ist eine grundsätzlich bekannte Eigenschaft eines kernbasierten nicht-linearen Modells, das mit einem maschinellen Lernverfahren ermittelt wird.The analysis means uses a special property of the automatically determined non-linear model to measure this measure. This measure can be determined, for example, with the aid of the representer theorem (or a mathematically equivalent formulation of the prediction function) whose core message is that the prediction of core-based models can be formulated mathematically as a linear combination, which will be explained in more detail below. The validity of the representative theorem is a well-known property of a kernel-based non-linear model, which is determined by a machine learning method.
Im dritten Verfahrensschritt 300 wird dann automatisch ein Rangdatensatz erstellt, in dem die Maßzahlen nach einer vorgegebenen Bedingung angeordnet sind. Im Folgenden wird anhand einer konkreten Ausführungsform, nämlich der automatischen Analyse eines Modells für die Vorhersage der Toxizität von chemischen Molekülen beschrieben. Der Fachmann wird erkennen, dass sich auch andere Eigenschaften von chemischen Molekülen, wie z.B. Wasserlöslichkeit, metabolische Stabilität, Bindung an bestimmte Rezeptoren usw. in ähnlicher Weise analysieren lassen .In the third method step 300, a ranking data record is then automatically created, in which the measures are arranged according to a predetermined condition. The following describes a concrete embodiment, namely the automatic analysis of a model for the prediction of the toxicity of chemical molecules. Those skilled in the art will recognize that other properties of chemical molecules, such as water solubility, metabolic stability, binding to certain receptors, etc., can be similarly analyzed.
Eine Besonderheit an den resultierenden Modellen ist, dass auf Grund der automatischen quantitativen Bewertung von Einflussgrößen die Vorhersagen inhaltlich nachvollziehbar sind. Dazu werden zusätzliche Informationen an einer Schnittstelle bereitgestellt, so dass diese im Folgenden visualisiert oder im Rahmen einer Modellreduktion verwendet werden können. Optimierungshilfen können dabei zur Modellreduktion verwendet werden, was unten noch näher erläutert wird.A special feature of the resulting models is that the predictions are comprehensible in terms of content due to the automatic quantitative evaluation of influencing variables. For this purpose, additional information is provided at an interface, so that these can be visualized in the following or used in the context of a model reduction. Optimization aids can be used for model reduction, which will be explained in more detail below.
In einer Ausführungsform wird mittels eines maschinellen Lernverfahrens aus einer Trainingsmenge von Daten der Zusammenhang zwischen der Struktur der Moleküle und ihrer Toxizität ermittelt. Als Trainingsmenge für ein überwachtes Verfahren des Maschinellen Lernens fungieren die Merkmale (hier die Zahl verschiedener funktioneller Gruppen oder andere Molekülbestandteile) und die gemessene Toxizität für eine Menge chemischer Moleküle. Toxizität bezeichnet die Eigenschaft eines Stoffes, einen Organismus zu schädigen. Die Schädigung kann auf den ganzen Organismus oder eine seiner Substrukturen wie Organe, Zellen oder DNA wirken. Im Folgenden Ausführungsbeispiel beziehen wir uns auf Genotoxizität, gemessen als Arnes Mutagenität. Die Methode ist aber keinesfalls auf dieses Maß beschränkt. Alternativ können auch Maße, wie der Mikrokerntest oder die Chromosomenabberation verwendet werden. Das Training wird mit einem Programm durchgeführt, dass in der beschriebenen Ausführungsform „ToxTrain" genannt wird. Dieses Programm beinhaltet eine Implementierung eines überwachten maschinellen Lernverfahrens, nämlich eines an sich bekannten Gauss 'sehen Prozesses.In one embodiment, by means of a machine learning method, the relationship between the structure of the molecules and their toxicity is determined from a training set of data. As a training set for a supervised method of machine learning, the features (here the number of different functional groups or other molecular constituents) and the measured toxicity for a set of chemical molecules function. Toxicity is the property of a substance to harm an organism. The damage can affect the whole organism or one of its substructures such as organs, cells or DNA. In the following embodiment we refer to genotoxicity, measured as Arnes mutagenicity. The method is by no means limited to this measure. Alternatively, measurements such as the micronucleus test or chromosome abberation can also be used. The training is performed on a program called "ToxTrain" in the described embodiment This program involves an implementation of a supervised machine learning method, namely a Gaussian process known per se.
Das Ergebnis des Trainings ist ein Programm „ToxExplain", das den gelernten Zusammenhang als Modell beinhaltet und somit für neue Moleküle Vorhersagen über deren Toxizität erzeugen kann. Zusätzlich zur reinen Vorhersage werden durch die Ausführungsform so genannte Erklärungskomponenten und Optimierungshilfen ermittelt, die über eine Schnittstelle z.B. einem Visualisierungstool zugeführt werden können. Das Modell kann ein eigenständiges Programm sein. Das Modell kann auch als Modul oder Plugin für eine in einem Unternehmen bereits bestehende Software ausgegeben werden oder in Hardwareform, d.h. auf einem Chip implementiert sein.The result of the training is a program "ToxExplain", which contains the learned context as a model and thus can generate predictions about its toxicity for new molecules.In addition to the pure prediction, the embodiment also determines so-called explanatory components and optimization aids, which can be used over an interface eg The model can also be a stand-alone program, which can also be output as a module or plug-in for existing software in a company, or implemented in hardware form, ie on a chip.
Das Verfahren, dass im Folgenden noch im Detail beschrieben wird, stellt automatisch Erklärungskomponenten bereit, die das ebenfalls automatisch generierte nicht-lineare Modell charakterisieren. Dies bedeutet dass sich die Vorhersage eines Modells für ein neues Molekül (z.B. die Toxizität) maßgeblich auf eine bestimmte kleine Zahl von Molekülen (oder auch Teilen davon, wie funktionellen Gruppen) in der Trainingsmenge stützt. In diesem Fall kann man diese wenigen wichtigen Moleküle z.B. visualisieren oder als Grundlage für ein automatisch generiertes vereinfachtes Modell verwenden. Die Darstellung bleibt übersichtlich und es ist nachvollziehbar, wie die Vorhersage des Modells zu Stande kommt. Bei bekannten Verfahren kann nur mit den komplexen nicht-linearen Modellen gearbeitet werden, da nicht klar ist, welche Teile des Modells einen besonderen Einfluss auf die Vorhersagen des Modells haben. Durch die automatische Ermittlung der Erklärungskomponenten, d.h. der Teile des Modells, die großen Einfluss auf die Vorhersagen haben, ist es möglich, auf einfache Weise automatisch eine Reduktion der Komplexität des nicht-linearen Modells zu erhalten.The procedure, which will be described in detail below, automatically provides explanatory components that characterize the non-linear model, which is also generated automatically. This means that the prediction of a model for a new molecule (eg, toxicity) is largely based on a certain small number of molecules (or even parts of it, such as functional groups) in the training set. In this case, one can, for example, visualize these few important molecules or use them as the basis for an automatically generated simplified model. The presentation remains clear and it is understandable how the prediction of the model comes to pass. In known methods, it is only possible to work with the complex non-linear models, since it is not clear which parts of the model have a special influence on the predictions of the model. By the automatic Determining the explanatory components, ie the parts of the model that have a great influence on the predictions, it is possible to easily automatically obtain a reduction of the complexity of the non-linear model.
Ein Modell, das solche Erklärungskomponenten automatisch identifizieren kann, wird erklärungsfähig genannt.A model that can automatically identify such explanatory components is called explanatory.
Unter einer Optimierungshilfe wird eine geordnete Liste (d.h. die Listenelemente sind jeweils mit einer Maßzahl für das Merkmal versehen) derjenigen Merkmale eines Moleküls verstanden, von denen die Vorhersage des Modells am stärksten abhängt. Damit können z.B. automatisch Variationen des Moleküls ermittelt werden, die z.B. weniger toxisch sind als das Ursprungsmolekül.By an optimization aid, an ordered list (i.e., the list elements are each given a measure of the feature) is understood to mean those features of a molecule on which the prediction of the model most depends. Thus, e.g. automatically determining variations of the molecule, e.g. less toxic than the parent molecule.
In Fig. 2 werden diese Zusammenhänge dargestellt. Im oberen Teil der Fig. 2 wird das Training beschrieben, bei der eine Trainingsmenge mit Hilfe des Programms ToxTrain untersucht wird. Damit wird automatisch das Programm ToxExplain erzeugt, mit dem nicht nur Vorhersagen möglich sind, sondern das auch über Erklärungskomponenten verfügt. Dies ist im unteren Teil der Fig. 2 dargestellt. Die Modelle vom Typ ToxExplain erklären ihre Vorhersagen und liefern Optimierungshilfen und können dann weiter verarbeitet werden, z.B. zur Modellreduktion oder Visualisierung der Rangfolge der Einflussfaktoren.In Fig. 2, these relationships are shown. The upper part of FIG. 2 describes the training in which a training amount is examined with the aid of the program ToxTrain. This automatically generates the program ToxExplain, which not only makes predictions possible, but also has explanatory components. This is shown in the lower part of Fig. 2. The models of type ToxExplain explain their predictions and provide optimization aids and can then be further processed, e.g. for model reduction or visualization of the ranking of influencing factors.
Viele Eigenschaften chemischer Verbindungen (Toxizität, Wasserlöslichkeit, metabolische Stabilität, Bindung an bestimmte Rezeptoren usw.) hängen nicht-linear mit bestimmten Merkmalen ihrer Moleküle zusammen. Solche Zusammenhänge lassen sich mit einfachen linearen Modellen nur unzureichend beschreiben. Mit Hilfe maschineller Lernverfahren (z.B. Gauss 'sehe Prozesse, Support Vector Machines) lassen sich auch komplexe nichtlineare Zusammenhänge modellieren.Many properties of chemical compounds (toxicity, water solubility, metabolic stability, binding to certain receptors, etc.) are non-linearly related to certain features of their molecules. Such relationships can not be adequately described with simple linear models. With the help of machine learning methods (eg Gauss' processes, support vector machines) can be also model complex nonlinear relationships.
Im Folgenden werden insbesondere maschinelle Lernverfahren betrachtet, dies auf Kernfunktionen (synonym Kovarianzfunktion) basieren. Die Kernfunktion hat in kernbasierten Lernverfahren die Aufgabe, die Merkmale von jeweils zwei Gegenständen (z.B. chemischen Molekülen) implizit in einen sehr hoch dimensionalen Merkmalsraum zu überführen und dort das Skalarprodukt zu berechnen. Da die Kernfunktion nicht-lineare Transformation vornehmen kann, lassen sich durch Einsatz einer geeigneten Kernfunktion beliebige lineare Lernverfahren, in denen die Merkmale von Objekten (hier: Molekülen) ausschließlich in Form von Skalarprodukten auftauchen, derart verallgemeinern, dass sie zum Lernen nicht-linearer Zusammenhänge verwendet werden können .In the following, in particular machine learning methods are considered, which are based on core functions (synonym covariance function). The kernel function in kernel-based learning has the task of implicitly transforming the features of two objects (e.g., chemical molecules) into a very high dimensional feature space and calculating the scalar product there. Since the core function can perform non-linear transformation, by using a suitable kernel function, any linear learning methods in which the features of objects (here: molecules) appear exclusively in the form of scalar products, can be generalized such that they are used for learning non-linear relationships can be used.
Beispiele für Kernfunktionen sind der RBF-Kern (Synonyme: Radial Basisfunction Kern, Gauss Kern, graphkern, treekern, Squared exponential Kern) und der polynominelle Kern.Examples of core functions are the RBF core (synonyms: Radial Basisfunction Kernel, Gauss Kernel, graphkern, treekern, Squared exponential Kernel) and the polynomial kernel.
Ein Beispiel für ein maschinelles Lernverfahren ist ein Gauss 'scher Prozess, mit dem Modelle erzeugt werden können, die neben Vorhersagen auch die Varianz der jeweiligen Vorhersage ausgeben. Gauss 'sehe Prozesse wurden ursprünglich für Regression von Daten entwickelt, lassen sich jedoch auch zur Klassifikationen verwenden.An example of a machine learning method is a Gaussian process that can be used to generate models that, in addition to predictions, also output the variance of the respective prediction. Gauss's processes were originally developed for regression of data, but can also be used for classifications.
Demgegenüber ist Die Support Vector Machine ist ein maschinelles Lernverfahren, das ursprünglich für die Klassifikation von Daten entwickelt, jedoch auch zur Regression von Daten verwendet werden kann.In contrast, the support vector machine is a machine learning method that was originally developed for the classification of data, but can also be used to regression data.
Unter Klassifikation versteht man das Konstruieren eines Modells für Eigenschaften, die sich durch Kategorien oder Zugehörigkeit zu Gruppen ausdrücken lassen. Moleküle sind z.B. "mutagen" oder "nicht mutagen". Dem steht die Regression gegenüber, bei der ein Modell konstruiert wird, dessen Eigenschaften sich durch reelle Zahlen ausdrücken lassen, z.B. die Stärke der Bindung eines Moleküls an ein Rezeptor Protein. Auch kann die Toxizität in Form reeller Zahlen angegeben werden.Classification is the construction of a model for properties that can be expressed by categories or membership of groups. Molecules are eg "mutagenic" or "not mutagenic". This is contrasted with the regression, in which a model is constructed whose properties can be expressed by real numbers, eg the strength of the binding of a molecule to a receptor protein. Also, the toxicity can be given in the form of real numbers.
Eine der zentralen Ideen ist, dass sich eine zuverlässige Klassifikationen ausgehend von wenigen für die Entscheidung wichtigen Gegenständen (hier: Molekülen) in der Trainingsmenge bewerkstelligen lässt.One of the central ideas is that reliable classifications can be accomplished in the training volume starting from a few objects that are important for the decision (here: molecules).
Die aus dem kernbasierten Lernverfahren resultierenden Modelle können, ausgehend von verschiedenen Merkmalen neuer Moleküle, Vorhersagen für zuvor nicht beobachtete bzw. gemessene Eigenschaften dieser neuen Moleküle erzeugen, d.h. z.B. deren Toxizität vorhersagen. Je mehr beobachtete/gemessene Daten aus der Vergangenheit als Trainingsmenge vorliegen, desto besser lässt sich ein gegebener Zusammenhang modellieren und desto zutreffender werden die Vorhersagen für zuvor ungesehene Moleküle. Aufgrund ihrer großen Leistungsfähigkeit werden statistische Lernverfahren dieser Art bereits in vielen Bereichen angewendet. Sie haben jedoch einen entscheidenden Nachteil: Für den Benutzer eines solchen Modells ist in der Regel nicht nachvollziehbar, wie im konkreten Einzelfall die Vorhersage zustande kommt.The models resulting from the kernel-based learning process can, based on various features of new molecules, generate predictions for previously unobserved or measured properties of these new molecules, i. e.g. predict their toxicity. The more observed / measured data from the past is available as a training set, the better a given relationship can be modeled and the more accurate the predictions for previously unseen molecules become. Due to their high performance, statistical learning methods of this kind are already used in many fields. However, they have a decisive disadvantage: For the user of such a model, it is generally not comprehensible how the prediction comes about in a specific individual case.
Dieser Nachteil fällt, abhängig von der genauen Art der Anwendung, unterschiedlich stark ins Gewicht. In der Entwicklung neuer Medikamente lassen sich verschiedene Phasen unterscheiden. In der Phase der "Leitstruktur-Optimierung" entscheiden Experten im konkreten Einzelfall, welche chemischen Verbindungen jeweils als nächstes synthetisiert und getestet werden. Sie fällen diese Entscheidung auf der Basis der bisher im Projekt erzeugten experimentellen Ergebnisse, relevanter experimenteller Ergebnisse, ihrer allgemeinen Erfahrung und Intuition und den Vorhersagen von Modellen. In verfügbare Modelle können u.U. Informationen eingeflossen sein, die dem jeweiligen Experten nicht bekannt sind. Komplexe Modelle, die dem Stand der Technik entsprechen, würden in diesem Fall korrekte Vorhersagen liefern, die für den Experten jedoch nicht nachvollziehbar sind. Sie können sogar im scheinbaren Widerspruch zu experimentellen Daten stehen, die dem Experten vorliegen. In einem solchen Fall wird der Experte sich nicht auf die Vorhersage des Modells verlassen und möglicherweise eine ungünstige Entscheidung fällen.This disadvantage is, depending on the exact nature of the application, different in importance. In the development of new drugs, different phases can be distinguished. In the "lead optimization" phase, experts decide in a specific case which chemical compounds are next synthesized and tested. They make this decision on the basis of the experimental data generated so far in the project Results, relevant experimental results, their general experience and intuition and the predictions of models. Available models may contain information that is unknown to the respective expert. Complex models that are state-of-the-art would provide correct predictions in this case, but they are incomprehensible to the expert. They may even be in apparent contradiction to experimental data available to the expert. In such a case, the expert will not rely on the prediction of the model and may make an unfavorable decision.
Typische Fragen, die in dieser Phase gestellt werden, lauten:Typical questions asked at this stage are:
1. Wie kommt diese konkrete Vorhersage zu Stande? Von welchen Molekülen in der Trainingsmenge hängt diese Vorhersage ab?1. How does this concrete prediction come about? Which of the molecules in the training set does this prediction depend on?
2. Was muss an einem toxischen Molekül verändert werden, um ein nicht toxisches Molekül zu erhalten?2. What needs to be changed on a toxic molecule to get a non-toxic molecule?
Da die ansonsten sehr leistungsfähigen statistischen Lernverfahren keine Antworten auf diese Fragen liefern können, kommen hier meist weniger leistungsfähige lineare Modelle zum Einsatz. Diese werden oft mit kleinen Trainingsmengen (weniger als hundert chemischen Verbindungen einer Serie) von Hand trainiert. Unter Serie wird hier eine Gruppe von chemischen Verbindungen verstanden, die den gleichen Grundkörper haben, sich aber darin unterschieden, welche funktionelle Gruppe an einer bestimmten Position vorhanden ist, wie lang eine bestimmte Seitenkette ist, etc.Since the otherwise very powerful statistical learning methods can not provide answers to these questions, less powerful linear models are usually used here. These are often trained by hand with small amounts of training (less than a hundred chemical compounds in a series). By series is meant a group of chemical compounds having the same basic body but differing in which functional group is present at a particular position, how long a particular side chain is, etc.
Nützliche Information über etliche (möglicherweise Tausende] chemische Verbindungen aus anderen Serien kann auf diese Weise nicht einfließen und nicht die Genauigkeit der Vorhersage steigern. Mit diesem Nachteil erkauft man sich jedoch die Möglichkeit, die beiden o.g. Fragen wenigstens teilweise zu beantworten.Useful information about several (possibly thousands) chemical compounds from other series can be found on this Do not infiltrate and increase the accuracy of the prediction. With this disadvantage, however, one buys the possibility of at least partially answering the two above-mentioned questions.
Die im Folgenden beschriebene Ausführungsform erlaubt es, leistungsfähige statistische Lernverfahren mit der bisher fehlenden Nachvollziehbarkeit auszustatten und die oben genannten zwei Fragen wie folgt zu beantworten:The embodiment described below makes it possible to provide powerful statistical learning methods with the hitherto lacking traceability and to answer the above two questions as follows:
1. Das Verfahren und die Vorrichtung erlauben, wenige für die jeweilige Vorhersage wichtige Moleküle aus der Trainingsmenge zu identifizieren. Diese werden im Folgenden als Erklärungskomponenten bezeichnet. In der Vergangenheit wurden von verschiedenen Forschergruppen Versuche unternommen, die Zuverlässigkeit von Vorhersagen unter Berücksichtigung der Trainingsmenge abzuschätzen. Die bisherigen Strategien sind jedoch unabhängig vom Lernalgorithmus und folglich auch nicht auf dessen Besonderheiten angepasst. Erst die enge Kopplung oder Integration der Ermittlung der Erklärungskomponenten an den Lernalgorithmus ermöglicht es, die Moleküle zu identifizieren, von denen die Vorhersage wirklich abhängt.1. The method and the device allow to identify a few molecules relevant to the respective prediction from the training amount. These are referred to below as explanatory components. In the past, attempts have been made by various research groups to estimate the reliability of predictions taking into account the amount of training. However, the previous strategies are independent of the learning algorithm and therefore not adapted to its specifics. Only the close coupling or integration of the determination of the explanatory components to the learning algorithm makes it possible to identify the molecules on which the prediction really depends.
2. Die für die jeweilige Vorhersage wichtigsten Merkmale werden mit Hilfe des Verfahrens automatisch identifiziert und dienen als Optimierungshilfen. Damit wird automatisch ermittelt, von welchen Merkmalen des jeweiligen Moleküls dessen Toxizität am stärksten abhängt. Dabei werden die die wichtigsten Merkmale lokal ermittelt, was später noch ausführlicher erläutert wird. Somit werden die lokalen Gradienten bestimmt, die dann als Optimierungshilfen eingesetzt werden.2. The most important characteristics for the respective prediction are automatically identified with the help of the method and serve as optimization aids. This automatically determines the characteristics of each molecule whose toxicity depends the most. The most important features are determined locally, which will be explained in more detail later. Thus, the local gradients are determined, which are then used as optimization aids.
Allgemein ist ein Gradient ein Differentialoperator, der auf ein skalares Feld angewendet werden kann. Synonym wird der Begriff für den Vektor verwendet, dessen Elemente die partiellen Ableitungen einer Funktion nach allen ihren Variablen sind. Im Kontext der vorliegenden Ausführungsform wird unter dem Gradienten ein Vektor mit den partiellen Ableitungen der Vorhersage eines Modells für ein konkretes Molekül nach dessen Merkmalen verstanden. Für manche kernbasierte Lernverfahren (z.B. für Gauss 'sehe Prozesse) lassen sich die Gradienten direkt analytisch berechnen. Für Lernverfahren, deren Vorhersage-Funktionen keine analytische Berechnung des Gradienten erlaubt, werden die Gradienten mit Hilfe eines differenzierbaren Dichteschätzers (z.B. Parzen Window) berechnet, den man eng an die Vorhersagefunktion anpasst, so dass die Gradienten des Dichteschätzers als geschätze Gradienten Vorhersagefunktion betrachtet werden können .Generally, a gradient is a differential operator that can be applied to a scalar field. The term is used synonymously for the vector whose elements are the partial derivatives of a function after all of their Variables are. In the context of the present embodiment, the gradient is understood to mean a vector with the partial derivatives of the prediction of a model for a specific molecule according to its characteristics. For some kernel-based learning methods (eg for Gaussian processes), the gradients can be calculated directly analytically. For learning methods whose prediction functions do not permit analytical calculation of the gradient, the gradients are calculated using a differentiable density estimator (eg, Parzen Window) that is closely matched to the prediction function so that the gradients of the density estimator can be considered a predicted prediction function ,
Im Zusammenhang mit Fig. 3 wird der grundlegende Zusammenhang zwischen der Erklärungsfähigkeit undIn connection with Fig. 3, the fundamental relationship between the explanatory ability and
Generalisierungsfähigkeit von kernbasierten Modellen, d.h. insbesondere von Gauss 'sehe Prozessen beschrieben.Generalisability of core-based models, i. especially described by Gauss's processes.
Unter der Generalisierungsfähigkeit wird hier die Fähigkeit eines Modells verstanden, für Moleküle, die nicht in seiner Trainingsmenge enthalten sind, genaue Vorhersagen zu produzieren .Generalization ability is understood here as the ability of a model to produce accurate predictions for molecules that are not included in its training set.
Im oberen Teil der Fig. 3 ist die Zahl der Erklärungskomponenten in Abhängigkeit von der Kernweite aufgetragen. Viele Kernfunktionen, so auch der RBF-Kern, besitzen einen Hyperparameter namens Kernweite. Im vorliegenden Ausführungsbeispiel kontrolliert die Kernweite, ob Vorhersagen eines Modells jeweils nur von den Eigenschaften von Molekülen abhängen, die dem neuen Molekül im Merkmalsraum eng benachbart sind oder ob auch weiter entfernte Moleküle berücksichtigt werden.In the upper part of FIG. 3, the number of explanatory components is plotted as a function of the core width. Many core functions, including the RBF core, have a hyper-parameter called core-width. In the present exemplary embodiment, the kernel width controls whether predictions of a model depend in each case only on the properties of molecules which are closely adjacent to the new molecule in the feature space or whether more distant molecules are also taken into account.
In Fig. 3 wird die Kernweite von links nach rechts kleiner und die Zahl der Erklärungskomponenten sinkt. D.h. die Vorhersage für ein neues Molekül stützt sich auf immer weniger Moleküle aus der Trainingsmenge. Wenn sich eine Vorhersage auf sehr wenige (also z.B. fünf) Moleküle stützt, lassen sich diese auf übersichtliche Art visualisieren . Eine Visualisierung versetzt menschliche Experten in die Lage, Vorhersagen zu verstehen und deren Zuverlässigkeit einzuschätzen. Ein Modell, dass die dafür notwendige Information über eine Schnittstelle bereitstellen kann, wird erklärungsfähig genannt. Die quantitative Behandlung der Erklärungsfähigkeit wird im Zusammenhang mit Fig. 5 beschrieben .In Fig. 3, the core width becomes smaller from left to right, and the number of explanatory components decreases. That is the Prediction for a new molecule relies on fewer and fewer molecules from the training set. If a prediction relies on very few (eg five) molecules, they can be visualized in a clear way. Visualization enables human experts to understand predictions and assess their reliability. A model that can provide the necessary information via an interface is called explanatory. The quantitative treatment of the explanatory ability will be described in connection with FIG.
Mit sinkender Anzahl der Erklärungskomponenten ist auch eine Reduktion der Komplexität des Modells möglich. Ist der spätere Anwendungsbereich des Modells bekannt, oder weiss man sogar während der Erstellung des Modells, für welche bisher nicht charakterisierten Gegenstände man später Vorhersagen erzeugen will (sog. Halb-Überwachtes Maschinelles Lernen), dann kann man die Trainingsmenge auf eben diese Erklärungskomponenten reduzieren. Dadurch reduzieren sich die Komplexität des Modells sowie der Rechenaufwand für die Erstellung und Anwendung des Modells.As the number of explanatory components decreases, it is possible to reduce the complexity of the model. If the later scope of application of the model is known, or if one knows even during the creation of the model for which previously uncharacterized objects one wants to generate predictions later (so-called semi-supervised machine learning), then one can reduce the training set to just these explanatory components. This reduces the complexity of the model as well as the computational effort for creating and applying the model.
In der vorliegenden Ausführungsform besteht eine Neuheit darin, dass die vom Gauss 'sehen Prozess gelernte Kernweite (linke vertikale Linie) nachträglich reduziert wird (siehe Fig. 5) . Ein leicht erhöhter mittlerer Fehler (d.h. eine Verschlechterung des Modells) wird dabei in Kauf genommen, um die Zahl der Erklärungskomponenten auf ein übersichtliches Maß zu reduzieren (rechte vertikale Linie) . Die verschiedene Kreuze in den Kurven stehen für verschiedene Maße für die Zahl der Erklärungskomponenten bzw. des Fehlers (Median, Mittelwert etc.) und zeigen einheitliche Trends.In the present embodiment, a novelty is that the kernel width learned from the Gaussian process (left vertical line) is subsequently reduced (see FIG. 5). A slightly increased mean error (i.e., degradation of the model) is accepted in order to reduce the number of explanatory components to a clear level (right vertical line). The different crosses in the curves represent different measures for the number of explanatory components or the error (median, mean etc.) and show uniform trends.
Der untere Teil der Fig. 3 zeigt den Zusammenhang zwischen der Generalisierungsfähigkeit des Modells und seiner Kernweite. Die Kernweite ist mit der gleichen Skala aufgetragen wie im oberen Teil, d.h. sie sinkt von links nach rechts. Die Generalisierungsfähigkeit wird gemessen durch den mittleren Fehler, den das Modell bei Vorhersagen für neue Moleküle macht. Dieser wurde für verschiedene Kernweiten ermittelt, und zwar mit einem Testsatz aus Molekülen, die nicht im Training des Modells berücksichtigt wurden. In der linken Hälfte (relativ große Kernweite) ist der mittlere Fehler für neue Moleküle klein. Reduziert man die Kernweite, so steigt der mittlere Fehler an (rechte Hälfte) .The lower part of Fig. 3 shows the relationship between the generalizability of the model and its core width. The core width is plotted with the same scale as in the upper part, ie it decreases from left to right. Generalisability is measured by the mean error the model makes in predicting new molecules. This was determined for various core widths with a test set of molecules that were not considered in the training of the model. In the left half (relatively large core width), the mean error for new molecules is small. If you reduce the core width, the mean error increases (right half).
Als Testsatz (oder auch Testmenge) für ein überwachtes Verfahren des Maschinellen Lernens fungiert eine Menge chemischer Moleküle, die durch geeignete Merkmale repräsentiert werden. Soll die Generalisierungsfähigkeit eines Modells ermittelt werden, ist es sinnvoll, als Testmenge nur Moleküle zu verwenden, die nicht in der Trainingsmenge des Modells enthalten sind.As a test set (or test set) for a supervised machine learning process, there are a number of chemical molecules represented by appropriate features. If the generalization capability of a model is to be determined, it makes sense to use only molecules that are not contained in the training set of the model as a test set.
Die Optimierung der Kernweite ist Bestandteil des normalen Trainingsprozesses für Gauss' sehe Prozesse. Diese Optimierung wird allerdings grundsätzlich mit dem Ziel durchgeführt, möglichst geringe mittlere Fehler für neue Moleküle zu erzielen. Dieses Optimum wird in Fig. 3 durch die linke vertikale Linie symbolisiert.The optimization of the core width is part of the normal training process for Gauss' processes. However, this optimization is basically carried out with the aim of achieving the lowest possible mean errors for new molecules. This optimum is symbolized in Fig. 3 by the left vertical line.
In der vorliegenden Ausführungsform wird im Anschluss an die Optimierung die Kernweite automatisch reduziert (siehe Fig. 5) , um eine übersichtlich keine Zahl von Erklärungskomponenten zu erhalten. Wie die Abbildung zeigt, verschlechtert sich die Generalisierungsfähigkeit messbar, jedoch nicht gravierend. D.h. es kann ein Kompromiss zwischen Generalisierungsfähigkeit und Erklärungsfähigkeit erzielt werden, d.h. der Benutzer kann mit ToxTrain ausgehend von seinen eigenen Datensätzen Modelle erzeugen, die erklärungsfähig sind und dennoch relativ gut generalisieren.In the present embodiment, following the optimization, the kernel width is automatically reduced (see FIG. 5) to obtain a clear number of explanatory components. As the figure shows, the ability to generalize deteriorates measurably, but not severely. This means that a compromise between the ability to generalize and the ability to explain can be achieved, ie the user can use ToxTrain to generate models from his own datasets which can be explained and nevertheless generalize relatively well.
Durch die automatische Reduktion der Kernweite besteht eine Möglichkeit, im Anschluss eine Modellbildung automatisch eine Modellreduktion zu erstellen. Die automatische Kernweitenreduktion wird im Zusammenhang mit Fig. 5 noch näher erläutert.Due to the automatic reduction of the kernel width, there is a possibility to automatically create a model reduction following a model formation. The automatic Kernweitenreduktion will be explained in more detail in connection with FIG.
Wie oben bereits erwähnt, erlaubt die vorliegende Ausführungsform, den Einfluss bestimmter Merkmale lokal zu bestimmen .As mentioned above, the present embodiment allows the influence of certain features to be determined locally.
Zur Illustration führen wir ein jüngeres Beispiel aus der WirkstoffSuchforschung an. Chemische Verbindungen, deren Moleküle eine oder mehrere Epoxy-Gruppen enthalten, sind in der Regel toxisch. Auf Steroide trifft dies jedoch nicht zu. Steroide können Epoxy-Gruppen enthalten und dennoch nicht toxisch sein.To illustrate this, let us introduce a recent example from the drug search research. Chemical compounds whose molecules contain one or more epoxy groups are usually toxic. However, steroids are not. Steroids can contain epoxy groups and yet be non-toxic.
Fig. 4 verdeutlicht diesen Zusammenhang. In dieser 2- dimensionalen Projektion des Raums, der durch die Merkmale der Moleküle aufgespannt wird, bilden Steroide (Kreise) und nicht-Steroide (Quadrate) jeweils eine lokale Nachbarschaft. Die Steroide sind in der linken unteren Ecke des Quadranten angeordnet, die Nicht-Steroide im der rechten oberen Ecke.Fig. 4 illustrates this relationship. In this 2-dimensional projection of the space spanned by the features of the molecules, steroids (circles) and non-steroids (squares) each form a local neighborhood. The steroids are located in the lower left corner of the quadrant, the non-steroids in the upper right corner.
Nicht-Steroide mit Epoxy-Gruppe sind in der Regel toxisch (schraffierte Kreise und Quadrate) , während Steroide mit Epoxy-Gruppe sowohl toxisch, als auch nicht-toxisch (nicht- schraffierte Kreise und Quadrate) sein können.Epoxy-group non-steroids are usually toxic (hatched circles and squares), while steroid-containing steroids may be both toxic and non-toxic (non-hatched circles and squares).
Global betrachtet ist die Epoxy-Gruppe ein wichtiges Merkmal im Hinblick auf die Toxizität der jeweiligen Verbindung. In der lokalen Nachbarschaft der Steroide ist diese global gewonnene Information jedoch irreführend. Dieses Beispiel zeigt, dass die Berücksichtigung der lokalen Umgebung für das Erzeugen von Optimierungshilfen essentiell sein kann.Globally, the epoxy group is an important feature in terms of the toxicity of the particular compound. In the local neighborhood of steroids, however, this globally obtained information is misleading. This example shows that considering the local environment can be essential for generating optimization tools.
Mit den aus dem Stand der Technik bekannten Methoden, die global (also auf der gesamten Trainingsmenge) operieren, würde man zu dem Schluss kommen, dass zur Vermeidung der Toxizität selbst bei Steroiden die Vermeidung von Epoxy Gruppen hilfreich sei, obwohl es eine ganze Reihe von nichttoxischen Steroiden mit Epoxy-Gruppen gibt.With the methods known from the prior art, operating globally (ie, on the total exercise volume), one would conclude that to avoid toxicity even with steroids, the avoidance of epoxy groups would be helpful, although there are quite a few non-toxic steroids with epoxy groups.
Der global korrekt erkannte Trend würde aufgrund des lokal anderen Verhaltens der Steroide daher irreführende Optimierungshilfen zur Folge haben. Erst die Berücksichtigung des lokalen Einflusses verschiedener Merkmale (hier: Vorhandensein einer Epoxy-Gruppe) erlaubt das automatische Generieren zielführender Optimierungshilfen mittels der vorliegenden Ausführungsform.The globally correctly recognized trend would therefore lead to misleading optimization aids due to the locally different behavior of the steroids. Only the consideration of the local influence of various features (here: presence of an epoxy group) allows the automatic generation of targeted optimization aids by means of the present embodiment.
Diese Optimierungshilfen würden für toxische Steroide die Epoxy-Gruppe als Kriterium nicht beinhalten, sondern stattdessen für das jeweilige Molekül tatsächlich relevante Merkmale nennen. Für toxische nicht-Steroide würden die Optimierungshilfen die Epoxy-Gruppe jedoch in jedem Fall als für die Toxizität relevantes Merkmal beinhalten.These optimization aids would not include the epoxy group as a criterion for toxic steroids but would instead name relevant characteristics for the particular molecule. However, for toxic non-steroids, the optimizers would in any case include the epoxy group as a toxicity-relevant feature.
Somit ist es mit der vorliegenden Ausführungsform automatisch möglich, den Einfluss bestimmter Merkmale auf das Vorhersageergebnis zu messen.Thus, with the present embodiment, it is automatically possible to measure the influence of certain features on the prediction result.
Oben wurde erwähnt, dass in der WirkstoffSuchforschung ggf. lineare Modelle mit kleinen Trainingsmengen verwendet werden. Für den konkreten Fall der Toxizität von Steroiden wären die globalen Gradienten aus einem linearen Modell genau dann sinnvoll, wenn sie den lokalen Gradienten eines komplexen Modells entsprechen würden. Diese Entsprechung kann man erzielen, indem man die Trainingsmenge von vornherein sehr lokal macht. D.h. wenn man Vorhersagen für Steroide erzeugen möchte, darf man nur Steroide als Trainingsmenge verwenden. Der Experte muss also schon vorher über das lokal verschiedene Verhalten verschiedener Verbindungsklassen Bescheid wissen und gezielt verschiedene lokale Modelle erzeugen. Schließlich muss er für jedes neue Molekül das jeweils zutreffendste Modell verwenden.It was mentioned above that in the drug search research possibly linear models are used with small training amounts. For the specific case of steroid toxicity, the global gradient from a linear model would be meaningful if and only if it compensates for the local gradient of a complex model Model would correspond. This correspondence can be achieved by making the training amount very local from the outset. That is, if you want to make predictions for steroids, you can only use steroids as a training amount. Thus, the expert must already know in advance about the locally different behavior of different compound classes and specifically generate different local models. After all, he has to use the most appropriate model for each new molecule.
Demgegenüber lässt sich das Problem mit einem Programm ToxTrain besser lösen. Alle verfügbaren Daten können als Trainingsmenge verwendet werden. Das resultierende Modell ToxExplain erzeugt seine Optimierungshilfen für jedes neue Molekül immer aus den lokalen Gradienten der Vorhersage nach den Merkmalen des Moleküls. Auf diese Weise erhält der Anwender eine zielführende Optimierungshilfe, die sich aus den gesamten verfügbaren Daten extrahieren lassen.In contrast, the problem can be solved better with a program ToxTrain. All available data can be used as training amount. The resulting model ToxExplain always generates its optimization aids for each new molecule from the local gradient of the prediction according to the characteristics of the molecule. In this way, the user receives a targeted optimization help, which can be extracted from the entire available data.
Im Folgenden wird gezeigt, wie die lokalen Gradienten der Vorhersagen von Gauss' sehen Prozess Modellen für neue Moleküle nach den Merkmalen eben dieser Moleküle ermittelt werden. Die Vorhersage fneu für ein neues Molekül errechnet sich wie folgt: In the following it is shown how the local gradients of the predictions of Gauss' process see models for new molecules according to the characteristics of these same molecules. The prediction f new for a new molecule is calculated as follows:
II
Die Summe läuft über alle N Moleküle in der Trainingsmenge. CC1 ist das Element i des Vektors a = (K +σ2l)~ι ■ y . Darin stehen:The sum runs over all N molecules in the training amount. CC 1 is the element i of the vector a = (K + σ 2 l) ~ ι ■ y. In it are:
K-i,j = k(x,,Xj) für die vollständige Kernmatrix der Trainingsmenge,K-i, j = k (x, Xj) for the complete kernel matrix of the training set,
σ für das gelernte Rauschlevel, I für die Identitätsmatrix undσ for the learned noise level, I for the identity matrix and
y∑ für die gemessene Toxizität jedes Moleküls.y Σ for the measured toxicity of each molecule.
k(xneu>x,) bezeichnet die Kernfunktion zwischen den Merkmalen Xneur des neuen Moleküls und den Merkmalen des jeweiligen Moleküls i aus der Trainingsmenge.k ( x new> x ,) denotes the core function between the features Xn eur of the new molecule and the characteristics of the respective molecule i from the training set.
Verschiedene kernbasierte Verfahren unterscheiden sich unter anderem darin, wie die Elemente CC1 des Gewichtsvektors ermittelt werden. Der oben angegebene Ausdruck für den Gewichtsvektor betrifft einen Gauss' sehen Prozess, wobei grundsätzlich auch andere kernbasierte Verfahren für die Realisierung des Verfahrens möglich sind.Among other things, different kernel-based methods differ in how elements CC 1 of the weight vector are determined. The above expression for the weight vector relates to a Gaussian process, and in principle other core-based methods are also possible for implementing the method.
Wir wählen die RBF-Kernfunktion (mit der Kernweite w)We choose the RBF core function (with the kernel width w)
k(xneu,Xl) = e-^-X')2-W (2)k (x new , Xl ) = e - ^ - X ' ) 2 - W (2)
und setzen diese in die Gleichung (1) ein. Durch Ableiten des resultierenden Ausdrucks nach dem Merkmal j im Merkmalsvektor xrieu des neuen Moleküls erhalten wir die lokale partielle Ableitung:and insert them into equation (1). By deriving the resulting expression according to the characteristic j in the feature vector x rieu of the new molecule, we obtain the local partial derivative:
2w∑ar yt ■ (xneuj-X1 })-er&neu-*,)2-™ o:2wΣa r y t ■ (x newj -X 1} ) -er & new- *,) 2 - ™ o:
X1 und Xneu sind dabei Vektoren, wobei eine partielle Ableitung nach der j-ten Komponente gebildet wird.X 1 and Xn eu are vectors, whereby a partial derivative to the j-th component is formed.
Die partiellen Ableitungen bilden dann gemeinsam den lokalen Gradienten von fneu nach den Merkmalen des neuen Moleküls und sind die Grundlage zur Berechnung der Optimierungshilfen durch das Programm ToxExplain. Für den Fachmann ist klar, dass die gleiche Vorgehensweise auch für andere Merkmale einsetzbar ist, um andere Eigenschaften als die Toxizität zu bestimmen. Die Bestimmung der partiellen Ableitungen erlaubt auch für andere Merkmale die automatische Bestimmung von Optimierungshilfen und damit eine Möglichkeit zur besseren Modellreduktion. Um die Modellreduktion durchzuführen, berechnet man für alle Moleküle in der jeweiligen Trainingsmenge deren Optimierungshilfen, d.h. man erhält für jedes Molekül die Sensitivität nach jedem Merkmal (gemessen in Prozent) . Anschließend berechnet man für jedes Merkmal den durchschnittlichen Betrag, den die Sensitivität nach diesem Merkmal im Mittel über alle Moleküle erreicht. Nach diesem durchschnittlichen Betrag lässt sich die Liste der Merkmale nun sortieren und damit in eine Rangliste überführen. Im Sinne einer Modellreduktion können nun (ausschließlich) die Merkmale am Kopf der so erzeugten Merkmalsliste verwendet werden .The partial derivatives together then form the local gradient of f neu according to the characteristics of the new molecule and form the basis for the calculation of the optimization aids by the program ToxExplain. It will be understood by those skilled in the art that the same approach can be used for other features to determine other properties than toxicity. The determination of the partial derivatives also allows the automatic determination of optimization aids for other features and thus a possibility for better model reduction. In order to carry out the model reduction, one calculates for all molecules in the respective training amount their optimization aids, ie one receives for each molecule the sensitivity after each characteristic (measured in per cent). Then, for each feature, one calculates the average amount that the sensitivity for this feature reaches on average across all molecules. After this average amount, the list of characteristics can now be sorted and thus converted into a ranking list. In the sense of a model reduction, the features can now (exclusively) be used at the head of the feature list generated in this way.
Ein Flussdiagramm für einen Lauf des Programms ToxTrain ist in Fig. 5 dargestellt.A flowchart for a run of the program ToxTrain is shown in FIG.
Nach dem Start des Programms (Verfahrensschritt 1) wird zunächst ein vom Benutzer angegebener Datensatz geladen. Unter Verwendung dieses Datensatzes wird dann in Verfahrensschritt 2 ein Gauss 'scher Prozess trainiert, d.h. unter Verwendung eines an sich bekannten Algorithmus des maschinellen Lernens wird der Zusammenhang zwischen der Molekülstruktur der im Datensatz enthaltenen chemischen Verbindungen und ihrer Toxizität gelernt. Teil dieses Trainingsprozesses ist die interne Optimierung der Evidenz. Dies ist eine mathematische Funktion, die in verschiedenen Verfahren des Maschinellen Lernens als Kriterium eingesetzt wird, um Parameter zu optimieren. Bei Gauss 'sehen Prozessen wird auf diese Weise der Fit von Vorhersagen und vorhergesagten Varianzen gleichermaßen berücksichtigt.After the start of the program (method step 1), a data set specified by the user is first loaded. Using this data set, a Gaussian process is then trained in method step 2, ie, using a per se known machine learning algorithm, the relationship between the molecular structure of the chemical compounds contained in the data record and their toxicity is learned. Part of this training process is the internal optimization of the evidence. This is a mathematical function that is used as a criterion in various methods of machine learning to optimize parameters. In Gauss' see processes In this way, the fit of predictions and predicted variances is considered equally.
Die Güte des Fit bezeichnet, wie eng ein Modell an seine Trainingsmenge angepasst ist. Unterfitten bedeutet, ein Modell nicht eng genug anzupassen, also z.B. zu wenig komplex zu gestalten, wie etwa, wenn man versucht, einen nichtlinearen Zusammenhang durch eine Gerade darzustellen. Überfitten bedeutet zu enges Anpassen der Funktion an die Trainingsmenge, so dass zwar für alle Moleküle aus der Trainingsmenge exakte Vorhersagen erzielt werden, aber für neue Moleküle nur sehr ungenaue Vorhersagen erzielt werden (schlechte Generalisierungsfähigkeit) .The goodness of the Fit describes how closely a model is adapted to its training amount. Unterfitten means not adapting a model closely enough, e.g. too complex to make, such as when trying to represent a nonlinear relationship through a straight line. Overfit means too tight an adaptation of the function to the training set, so that exact predictions are obtained for all molecules from the training set, but for new molecules only very inaccurate predictions are achieved (poor generalization ability).
Wie oben erläutert, wird dabei unter anderem automatisch ein Wert für die Kernweite ermittelt, der im Hinblick auf die zu erwartende Generalisierungsfähigkeit optimal ist. Dieses Modell wird im Folgenden als GPgen bezeichnet.As explained above, among other things, a value for the core width is automatically determined, which is optimal with regard to the expected generalization capability. This model is referred to below as GP gen .
In den folgenden Verfahrensschritten 4 bis 9 wird nun die Kernweite schrittweise automatisch reduziert bis das Modell erklärungsfähig ist (siehe Verfahrensschritt 7) .In the following process steps 4 to 9, the core width is now gradually reduced automatically until the model can be explained (see method step 7).
Mit dieser neu berechneten, reduzierten Kernweite wird anschließend ein Modell auf dem gesamten Eingabedatensatz trainiert (Verfahrensschritt 10) . Das zweite Modell wird als GPfj.t bezeichnet . Beide Modelle, GPgen, und GPflt werden gespeichert (Verfahrensschritt 11) . Zusammen bilden sie ein erklärungsfähiges Gesamtmodell vom Typ ToxExplain.With this newly calculated, reduced kernel width, a model is subsequently trained on the entire input data record (method step 10). The second model is called GPfj. t denotes. Both models, GP gen , and GP flt are stored (step 11). Together they form an explanatory overall model of the type ToxExplain.
Es erhebt sich die Frage, warum zwei Gauss' sehe Prozess Modelle mit verschiedenen Kernweiten erzeugt werden. Wie oben erläutert, ist eine hinreichend kleine Kernweite Vorraussetzung dafür, dass das Modell erklärungsfähig ist. Dieser Zusammenhang ist in Fig. 3 dargestellt. Ein weiterer wichtiger Teilaspekt in der Anwendung der resultierenden Modelle ist die Identifikation der jeweils lokal wichtigsten Merkmale. Diese erleichtern die Optimierung von Verbindungen, d.h. z.B. die Senkung der Toxizität eines Wirkstoffs durch gezielte Änderung seiner Molekülstruktur. Diese Optimierungshilfen werden aus lokalen Gradienten der Kernfunktion des Gauss' sehen Prozess Modells generiert. Die Reduktion der Kernweite zum Training des Modells Gflt (mit dem Ziel der Erklärungsfähigkeit) führt zu einem engen Fit der gelernten Funktion an die Trainingsdaten. Dadurch ist die Funktion im Allgemeinen weniger glatt als die des Modells GPgen, und die lokalen Gradienten sind im Hinblick auf die Verwendung als Optimierungshilfen weniger nützlich. Es werden also beide Modelle gespeichert, um mit dem Programm ToxExplain sowohl gute Vorhersagen, als auch hilfreiche Optimierungshilfen ermitteln zu können.The question arises as to why two Gaussian process models are being produced with different core widths. As explained above, a sufficiently small kernel size is a prerequisite for the model to be able to explain. This relationship is shown in FIG. Another important aspect in the application of the resulting models is the identification of the locally most important features. These facilitate the optimization of compounds, ie, for example, the reduction of the toxicity of an active substance by targeted modification of its molecular structure. These optimization tools are generated from local gradients of the core function of the Gauss' process model. The reduction of the kernel width to the training of the model G flt (with the goal of the explanatory ability ) leads to a close fit of the learned function to the training data . As a result, the function is generally less smooth than that of the GP gen model, and the local gradients are less useful in terms of use as optimizers. So both models are saved in order to be able to determine both good predictions and helpful optimization aids with the program ToxExplain.
Im Folgenden werden die einzelnen Verfahrensschritte im Flussdiagramm des Programms ToxTrain (Fig. 5) im Detail erläutert .In the following, the individual method steps in the flowchart of the program ToxTrain (FIG. 5) are explained in detail.
Verfahrensschritt 1: ToxTrain wird gestartetProcess step 1: ToxTrain is started
Verfahrensschritt 2: Es wird ein Datensatz geladen. Dieser enthält für eine Reihe von chemischen Verbindungen jeweils die folgenden Informationen:Process step 2: A data record is loaded. This contains the following information for a number of chemical compounds:
• Einen Messwert für die Eigenschaft Toxizität• A reading for the Toxicity property
• Die Strukturformel des Moleküls• The structural formula of the molecule
• Eine Reihe aus der Strukturformel berechneter Merkmale• A series of features calculated from the structural formula
(chemische oder molekulare Deskriptoren) des Moleküls, d.h. z.B. dessen Masse, Oberfläche, die Zahl bestimmter funktioneller Gruppen (wie etwa die in Zusammenhang mit Fig. 4 beschriebene Epoxy-Gruppe) etc.. Verfahrensschritt 3: Unter Verwendung des gesamten Datensatzes aus Verfahrensschritt 2 wird ein Gauss' sches Prozess Modell trainiert. Dabei werden vollautomatisch alle Modellparameter unter Verwendung der Gradienten der Evidenz- Funktion so eingestellt, dass die Evidenz maximiert wird. Diese Strategie zur Parameterschätzung bzw. Modellselektion ist Stand der Technik im maschinellen Lernen und führt im Allgemeinen zu Modellen, die gut generalisieren.(Chemical or molecular descriptors) of the molecule, ie, for example, its mass, surface area, the number of certain functional groups (such as the described in connection with FIG. 4 epoxy group) etc .. Process Step 3: Using the entire data set from process step 2, a Gaussian process model is trained. In the process, all model parameters are automatically adjusted using the gradients of the evidence function so that the evidence is maximized. This parameter estimation or model selection strategy is state of the art in machine learning and generally leads to models that generalize well.
Verfahrensschritt 4: Die Moleküle aus dem im Verfahrensschritt 2 erhaltenen Datensatz werden t-mal unabhängig voneinander zufällig in nicht überlappende Teildatensätze aufgeteilt, die später als Trainings- bzw. Testsatz bezeichnet werden. Es bietet sich an, an dieser Stelle die an sich bekannte Kreuz-Validation-Strategie zu verwenden und zwar mit wenigstens 10 Wiederholungen.Process Step 4: The molecules from the data set obtained in method step 2 are randomly separated t-times independently into non-overlapping sub-data sets, which are referred to later as a training or test set. It makes sense to use at this point the known per se cross-validation strategy with at least 10 repetitions.
Kreuz-Validation-Verfahren werden häufig verwendet, um ausgehend von einem (kleinen) Datensatz dieCross-validation methods are often used to calculate the
Generalisierungsfähigkeit eines bestimmten Typs von Modell zu schätzen, der sich mit Hilfe maschineller Lernverfahren erzeugen lässt. Eine 5-fach wiederholte 3-Fold Kreuz- Validation bedeutet, dass die Moleküle im Datensatz auf zufällige Art und Weise auf drei gleich große Teile (Folds) verteilt werden. Anschließend werden zwei dieser Folds als Trainingsmenge verwendet, d.h. auf ihrer Basis wird ein Modell trainiert. Dieses Modell wird verwendet, um Vorhersagen für den dritten FoId zu erzeugen. Auf die gleiche Art und Weise werden anschließend FoId 1 + 3, sowie 2 + 3 kombiniert als Trainingsmengen verwendet und die resultierenden Modelle verwendet, um für die jeweils verbleibenden Folds 2 bzw. 1 Vorhersagen zu erzeugen. Nun wurden für den gesamten Datensatz Vorhersagen erzeugt, wobei für jede einzelne Vorhersage jeweils ein Modell verwendet wurde, das das betreffende Molekül nicht in seiner Trainingsmenge hatte. Da die konkrete zufällig vorgenommene anfängliche Verteilung der Moleküle im Datensatz auf drei Folds die Modellierung erleichtern oder auch erschweren kann, wird das gesamte Verfahren ausgehend von diesem zufälligen Verteilungsschritt fünf mal wiederholt. Die Verallgemeinerung von 5-fach wiederholter 3-Fold Kreuz- Validation (sog 5x3 CV) auf n x m CV lässt sich entsprechend vornehmen, indem eine größere Zahl von Folds verwendet und entsprechend öfter wiederholt wird.To estimate the generalization capability of a particular type of model that can be generated using machine learning techniques. A 5-fold repeated 3-fold cross validation means that the molecules in the dataset are randomly distributed in three equal parts (folds). Subsequently, two of these folds are used as a training set, ie on their basis a model is trained. This model is used to generate predictions for the third FoId. In the same way FoId 1 + 3, as well as 2 + 3 combined are used as training sets and the resulting models are used to generate 2 or 1 predictions for each remaining folds. Now predictions have been made for the entire dataset, using a model for each prediction that did not have the molecule in its training set. Because the concrete randomly made initial distribution of the molecules in the data set to three folds that may facilitate or complicate modeling, the entire procedure is repeated five times starting from this random distribution step. The generalization of 5-fold repeated 3-fold cross-validation (so-called 5x3 CV) to nxm CV can be done by using a larger number of folds and repeating them more often.
Verfahrensschritt 5: Mit jedem der in Verfahrensschritt 4 erzeugten Trainingssätze wird ein Gauss 'scher Prozess trainiert. Dabei wird jedoch, anders als üblich, keine interne Optimierung aller Parameter vorgenommen, sondern die Kernweite von dieser Optimierung ausgenommen. Stattdessen wird die in Verfahrensschritt 3 ermittelte (bzw. ab dem 2ten Durchlauf der Schleife die im Verfahrensschritt 10 ermittelte reduzierte) Kernweite übernommen und nicht weiter angepasst.Process Step 5: With each of the training sets generated in method step 4, a Gaussian process is trained. However, unlike usual, no internal optimization of all parameters is made, but the core width is excluded from this optimization. Instead, the determined in step 3 (or from the 2nd run of the loop determined in step 10 reduced) core width is adopted and not further adapted.
Verfahrensschritt 6: Die in Verfahrensschritt 5 trainierten Modelle werden nun verwendet, um für die zum jeweiligen Trainingssatz gehörenden Testsätze aus Verfahrensschritt 4 Vorhersagen zu generieren. D.h. für alle Moleküle im jeweiligen Testsatz wird die Toxizität vorhergesagt und der mittlere Fehler dieser Vorhersagen ermittelt.Method Step 6: The models trained in method step 5 are now used to generate predictions for the test sets belonging to the respective training set from method step 4. That For all molecules in the respective test set, the toxicity is predicted and the mean error of these predictions is determined.
Verfahrensschritt 7: Zu allen in Verfahrensschritt 6 gemachten Vorhersagen werden die Erklärungskomponenten ermittelt. D.h. es werden diejenigen Moleküle i aus dem jeweiligen Trainingssatz ermittelt, die zusammen mehr als 80% Beitrag zur jeweiligen Vorhersage f (xneu) liefern. Die Vorhersage wird mittels des Representer-Theorems, das für alle kernbasierten Verfahren gilt, gebildet:Method Step 7: For all predictions made in method step 6, the explanatory components are determined. That is, those molecules i from the respective training set are determined, which together contribute more than 80% of the respective prediction f (x new ). The prediction is formed by means of the representer theorem, which applies to all kernel-based methods:
f(xneu) = a+∑b1cJlk(x1,xn) A)f (x new) = a + 1 c .sigma..sub.B Jl k (x 1, x n) A)
Der Laufindex i läuft über alle Moleküle in der Trainingsmenge. Die Größen a, b±, und C1 sind (je nach Lernalgorithmus) verschiedene lokale und globale Parameter. k(Xj_, xn) ist die Kernfunktion zwischen den Merkmalen jeweils eines Moleküls aus der Trainingsmenge X1 und den Merkmalen des neuen Moleküls xn. Die Beiträge zur Summe in Gleichung (4) werden nach Größe sortiert und vom Kopf der Liste weitere Beiträge addiert, bis die Teilsumme der Beiträge 80 % erreicht .The running index i runs over all molecules in the training amount. The quantities a, b ± , and C 1 are (depending on Learning algorithm) various local and global parameters. k (Xj_, x n ) is the core function between the features of one molecule each of the training set X 1 and the features of the new molecule x n . The contributions to the sum in equation (4) are sorted by size, and additional contributions are added by the head of the list until the subtotal of the contributions reaches 80%.
In diesem Verfahrensschritt wird somit eine Maßzahl berechnet, auf Grund derer automatisch ein Rangdatensatz erstellbar ist. Die Maßzahlen der Einflussfaktoren können dann nach einer vorgegebenen Bedingung angeordnet werden.In this method step, a measure is calculated, on the basis of which a ranking data record is automatically created. The measures of the influencing factors can then be arranged according to a predetermined condition.
Verfahrensschritt 8: Falls mehr als 50 % der Vorhersagen aus Verfahrensschritt 6 durch jeweils fünf oder weniger Erklärungskomponenten erklärt werden können (d.h. fünf oder weniger Traingsgegenstände zusammen 80 % des Beitrags zur Vorhersage im Sinne von Verfahrensschritt 7 liefern) , wird mit Verfahrensschritt 10 fortgefahren. Andernfalls folgt Verfahrensschritt 9, d.h. ein Rücksprung zu Verfahrensschritt 5.Step 8: If more than 50% of the predictions from step 6 can be explained by five or less explanatory components (i.e., five or fewer tracer objects together provide 80% of the contribution to the prediction in step 7), then step 10 is followed. Otherwise, step 9, i. a return to step 5.
Verfahrensschritt 9: Da noch zu viele Erklärungskomponenten benötigt wurden, wird nun die Kernweite reduziert und mit Verfahrensschritt 5 und der neuen reduzierten Kernweite fortgefahren .Method step 9: Since too many explanatory components were required, the core width is now reduced and proceeding with method step 5 and the new reduced core width.
Verfahrensschritt 10: Da für mehr als 50 % der chemischen Verbindungen nur noch weniger als fünf Erklärungskomponenten benötigt werden, wird die aktuelle Kernweite beibehalten und mit genau dieser Kernweite (ohne weitere interne Optimierung) ein Gauss 'scher Prozess Modell auf dem gesamten Datensatz aus Verfahrensschritt 2 trainiert.Step 10: Since more than 50% of the chemical compounds require only less than five explanatory components, the current core width is retained and with exactly this core width (without further internal optimization) a Gaussian process model on the entire data set from method step 2 trained.
Verfahrensschritt 11: Die Modelle aus Verfahrensschritt 10 (GPflt) und Verfahrensschritt 3 (GPgen) werden beide, zusammen mit dem Datensatz aus Verfahrensschritt 3 in einer Datei gespeichert und bilden den Datensatz-spezifischen Teil des Programms ToxExplain. Durch hinzufügen von Programmcode (der nicht Datensatz spezifisch ist) , der diese Information an geeigneten Schnittstellen für Visualisierung und Modellreduktion zur Verfügung stellt, entsteht das Programm ToxExplain. Die in den Verfahrensschritten 5 bis 9 ermittelten mittleren Fehler und Erklärungsfähigkeiten werden in einer Protokolldatei gespeichert.Process Step 11: The models from process step 10 (GP flt ) and process step 3 (GP gen ) are both, together with the data set from process step 3 in a file stored and form the record-specific part of the program ToxExplain. By adding program code (which is not record specific) that provides this information at appropriate interfaces for visualization and model reduction, the program ToxExplain is created. The average errors and explanatory capabilities determined in method steps 5 to 9 are stored in a log file.
Verfahrensschritt 12: Ordnungsgemäßes Ende.Process step 12: proper end.
Das Programm ToxTrain (Fig. 5) erzeugt, ausgehend von einem Datensatz, ein Programm namens ToxExplain. Damit können die automatisch ermittelten Modelle für neue Daten verwendet werden .The ToxTrain program (Figure 5) generates a program called ToxExplain from a record. This allows the automatically determined models to be used for new data.
Erklärungsfähige Modelle vom Typ ToxExplain können auf die im Zusammenhang mit Fig. 5 beschriebene Art und Weise für beliebige Datensätze erzeugt werden. Es handelt sich dabei um jeweils ein Programm, das (anders als zuvor verfügbare Modelle) nicht nur eine Vorhersage für die Toxizität chemischer Verbindungen produziert, sondern zusätzlich folgende Informationen an einer Schnittstelle zur Verfügung stellt:Explanatory models of the type ToxExplain can be generated in the manner described in connection with FIG. 5 for any data records. These are each a program that (unlike previously available models) not only produces a prediction of the toxicity of chemical compounds, but also provides the following information at an interface:
• Eine Liste mit genau den Verbindungen in der Trainingsmenge, auf die sich die oben genannte Vorhersage hauptsächlich stützt (Erklärungskomponenten) . Wie oben beschrieben, werden in Verfahrensschritt 6 die Beiträge zur Summe gemäß Gleichung (4) nach Größe sortiert und dann die Verbindungen am Kopf der Liste ausgewählt. Der Einfluss dieser Trainingsverbindungen wird dabei in Prozent quantifiziert .• A list of exactly the connections in the training set on which the above prediction mainly relies (explanatory components). As described above, in step 6, the contributions to the sum are sorted by size according to equation (4), and then the connections are selected at the head of the list. The influence of these training compounds is quantified in percent.
• Eine Liste mit den Merkmalen des neuen Moleküls, die den größten Einfluss auf die Vorhersage haben. Die lokalen Gradienten der Kernfunktion nach allen Merkmalen werden für das jeweilige neue Molekül berechnet, normiert und sortiert. Die Merkmale am Kopf der Liste dienen als Optimierungshilfen. Ihr Einfluss wird in Prozent quantifiziert.• A list of the features of the new molecule that have the greatest impact on the prediction. The local Gradients of the core function for all features are calculated, normalized and sorted for the respective new molecule. The characteristics at the top of the list serve as optimization aids. Their influence is quantified in percent.
Für den anwendenden Chemiker ist die generierte Information nützlich, wenn sie ihm ohne Kontextwechsel innerhalb seiner normalen Arbeitsumgebung präsentiert wird. Zur Visualisierung werden also im jeweiligen Unternehmen vorhandene Programme zum Editieren und Visualisieren von Molekülen über Schnittstellen angebunden und ggf. durch Plugins erweitert. Dabei sollten mindestens die Erklärungskomponenten (und deren gemessene Toxizität) , die Optimierungshilfen, deren jeweilige Anteile in Prozent, die Strukturformel des neuen Moleküls und die Vorhersage für das neue Molekül gleichzeitig angezeigt werden. Ein Beispiel einer solchen graphischen Darstellung findet sich in Fig. 6.For the applying chemist, the information generated is useful when presented to him without context switching within his normal working environment. For visualization, existing programs for editing and visualizing molecules in the respective company are connected via interfaces and, if necessary, extended by plug-ins. At least the explanatory components (and their measured toxicity), the optimization aids, their respective proportions in percent, the structural formula of the new molecule and the prediction for the new molecule should be displayed simultaneously. An example of such a graph is found in FIG. 6.
Im oberen Teil der Fig. 6 ist eine Vorhersage dargestellt, wobei sich die Vorhersage für das neue Molekül vor allem auf zwei Verbindungen aus dem Trainingssatz stützt. Wenn der betrachtende Chemiker diese Erklärungskomponenten für plausibel hält, erleichtert ihm die Vorhersage seine Entscheidung. Das Molekül A aus der Trainingsmenge hat einen Einfluss von 51% auf die Vorhersage, das Molekül B hat einen Einfluss von nur 43%. Diese automatisch genierte Erkenntnis wird ebenso automatisch auf das neue Molekül C angewandt, das als nicht-toxisch bewertet wird.In the upper part of FIG. 6, a prediction is shown, wherein the prediction for the new molecule is based primarily on two compounds from the training set. If the observing chemist considers these explanatory components to be plausible, the prediction makes his decision easier. The molecule A from the training set has an influence of 51% on the prediction, the molecule B has an influence of only 43%. This automatically confused finding is also automatically applied to the new molecule C, which is considered non-toxic.
Im unteren Teil der Fig. 6 ist ein weiteres Beispiel dargestellt. Das Molekül D soll so verändert werden, das es nicht mehr toxisch ist. Rechts davon sind die strukturellen Merkmale E, F des Moleküls gezeigt, die im konkreten Fall dazu führen, dass die Vorhersage "toxisch" lautet. Diese Optimierungshilfen erleichtern es dem Chemiker, das neue Molekül gezielt so zu variieren, dass es nicht mehr toxisch i st .In the lower part of Fig. 6, another example is shown. The molecule D should be changed so that it is no longer toxic. To the right of it are shown the structural features E, F of the molecule, which in the concrete case lead to the prediction being "toxic". These optimization aids make it easier for the chemist to specifically vary the new molecule so that it is no longer toxic i st.
Im Folgenden wird ein weiteres Ausführungsbeispiel beschrieben, das zu Illustrationszwecken sehr einfach gehalten ist. Dabei wird ein Trainingsdatensatz mit aktiven und inaktiven Molekülen sowie zwei Testmoleküle verwendet. Dabei geht es vor allem darum, anhand eines Beispiels zu zeigen, wie die Erklärungskomponenten für kernbasierte Modelle berechnet und verwendet werden.In the following, another embodiment will be described, which is kept very simple for illustrative purposes. A training dataset with active and inactive molecules as well as two test molecules is used. The main aim is to show, by means of an example, how the explanatory components for kernel-based models are calculated and used.
Fig. 7 zeigt einen Trainingsdatensatz mit aktiven und inaktiven Molekülen sowie zwei Testmoleküle mit unbekannter Aktivität. Im Sinne des Beispiels kann es sich bei der Aktivität um eine beliebige Eigenschaft handeln, wie etwa die Bindung an einen Rezeptor. Oberhalb einer gewissen Bindungsstärke werden Moleküle als aktiv bezeichnet, unterhalb nennt man sie inaktiv. Die Moleküle werden durch jeweils zwei numerische Deskriptoren repräsentiert, die auf X- und Y-Achse aufgetragen sind. Es sei darauf hingewiesen, dass in realen Anwendungen meist mehrere hundert Deskriptoren verwendet werden. Der hier beschriebene Ansatz funktioniert dann ebenso und wird hier nur der Übersichtlichkeit halber mit zwei Deskriptoren demonstriert.Fig. 7 shows a training data set with active and inactive molecules and two test molecules with unknown activity. For the purposes of the example, the activity may be any property, such as binding to a receptor. Above a certain bond strength, molecules are called active, below they are called inactive. The molecules are represented by two numerical descriptors each, which are plotted on the X and Y axes. It should be noted that in real applications usually several hundred descriptors are used. The approach described here works the same way and is demonstrated here for the sake of clarity with two descriptors.
Die Koordinaten und laufenden Nummern der Trainingsmoleküle finden sich in den Tabellen 1 und 2 in Spalten A, B und C.The coordinates and sequence numbers of the training molecules can be found in Tables 1 and 2 in columns A, B and C.
Tabelle 1 enthält in den Spalten D und E die Koordinaten von Testmolekül 1 (der Einfachheit halber in alle Zeilen identisch) . Tabelle 2 enthält die analoge Information, jedoch für Testmolekül 2.Table 1 in columns D and E contains the coordinates of test molecule 1 (identical for simplicity in all rows). Table 2 contains the analog information, but for test molecule 2.
Im Folgenden wird die Berechnung der Spalten F bis I erläutert .In the following, the calculation of columns F to I will be explained.
Für dieses Beispiel wählen wir die RBF-Kernfunktion, die oben bereits als Gleichung (2) eingeführt worden war. Einsetzen inFor this example, we'll choose the RBF core function above already introduced as equation (2). Use in
Gleichung (1) führt zu dem folgenden Ausdruck für die Vorhersage f (xneu) : Equation (1) leads to the following expression for the prediction f (x new ):
Die Klassen „Aktiv" und „Inaktiv" werden durch die Labels J = IW-IJ repräsentiert. Vorhersagen größer oder unter Null entsprechen einer Klassifikation als „Aktiv" bzw. „Inaktiv".The classes "Active" and "Inactive" are represented by the labels J = IW-IJ. Forecasts greater than or less than zero correspond to a classification as "Active" or "Inactive".
Obwohl die Vorhersage nicht das eigentliche Thema dieser Diskussion ist, sei erwähnt, dass beide Testmoleküle Werte über Null erhalten, also als „Aktiv" klassifiziert werden.Although the prediction is not the actual topic of this discussion, it should be noted that both test molecules are given values above zero, thus classified as "active".
In den Tabellen 1 und 2 enthalten die Spalten F den Wert der gewählten RBF Kernfunktion zwischen dem in der jeweiligen Zeile aufgelisteten Trainingsmolekül und Testmolekül 1 (Tabelle 1) bzw. Testmolekül 2 (Tabelle 2) .In Tables 1 and 2, the columns F contain the value of the selected RBF core function between the training molecule listed in the respective row and test molecule 1 (Table 1) and test molecule 2 (Table 2).
Für die im Trainingsprozess ermittelte Kernweite w wird in dieser Beispielrechnung der Wert 2 angenommen.For the core width w determined in the training process, the value 2 is assumed in this example calculation.
Wie oben bereits erwähnt gehen wir in diesem Beispiel davon aus, dass ein fertig trainiertes kernbasiertes Modell mit einem Gewichtsvektor OC bereits vorliegt.As already mentioned above, in this example we assume that a fully trained kernel-based model with a weight vector OC already exists.
Die Spalten G der Tabellen 1 und 2 enthalten für jedes Trainingsmolekül den um das Label bereinigten Eintrag dieses Gewichtsvektors OC . Es sei angemerkt, dass es zwei verschiedene Definitionen von OC gibt, von denen eineThe columns G of Tables 1 and 2 contain, for each training molecule, the label-corrected entry of this weighting vector OC. It should be noted that there are two different definitions of OC, one of which
von grundsätzlich positiven Komponenten des Vektors OC ausgeht, während die andere das Label J = IW-Ij a]_s Vorzeichen der jeweiligen Komponente von 0t mitführt. Die hier verwendete Definition geht von grundsätzlich positiven O* aus .assumes fundamentally positive components of the vector OC, while the other carries the label J = IW-Ij a ] _ s sign of the respective component of 0t. The The definition used here assumes fundamentally positive O *.
Im vorliegenden Klassifikationsbeispiel lässt sich die korrekte Definition durch eine einfache Betragsbildung sicherstellen. Im Regressionsfall ist der Gewichtsvektor für kernbasierte Modelle so zu definieren, dass er nur positive Einträge besitzt, und die kontinuierlichen Labels separat gespeichert werden.In the present classification example, the correct definition can be ensured by a simple amount formation. In the regression case, the weight vector for kernel-based models has to be defined so that it has only positive entries, and the continuous labels are saved separately.
Generell errechnet sich der Beitrag jedes Trainingsmoleküls wie folgt:In general, the contribution of each training molecule is calculated as follows:
ß = k(xneu,Xι)-a (5)ß = k (x new , Xι ) -a (5)
In den Tabellen 1 und 2 findet sich dieser Wert in den Spalten H.In Tables 1 and 2, this value is found in columns H.
Der normierte Beitrag jedes Trainingsmoleküls:The standardized contribution of each training molecule:
bezeichnet den Anteil / Prozentsatz, den jedes Trainingsmolekül an der Vorhersage für das konkrete Testmolekül xneu hat . In den Tabellen 1 und 2 findet sich dieser Wert in Spalte I. Darin steht n für alle Trainingsgegenstände, die Teil des Modells geworden sind. Je nach Lernalgorithmus kann es sich dabei um die gesamte Trainingsmenge handeln (z.B. beim Gauss 'sehen Prozess) oder auch um eine Untermenge der Trainingsmenge. Bei Support Vector Machines nennt man diese Untermenge die Support Vektoren .denotes the proportion / percentage that each training molecule has new in the prediction for the specific test molecule x. In Tables 1 and 2, this value is found in column I. where n stands for all training items that have become part of the model. Depending on the learning algorithm, this can be the entire training set (eg in the Gaussian process) or a subset of the training set. For support vector machines, this subset is called the support vectors.
Für verschiedene Testmoleküle, deren Repräsentation (in Form von Deskriptoren) sich unterscheidet, ergeben sich verschiedene Werte für die Komponenten ß .For different test molecules whose representation (in form of descriptors), different values result for the components β.
Im vorliegenden Beispiel beobachten wir, dass sich die Vorhersage von Testmolekül 1 zu ca. 86 % auf das Trainingsmolekül Nummer 5 stützt, während alle weiteren Trainingsmoleküle nur wenig zur Vorhersage beitragen.In the present example we observe that the prediction of test molecule 1 is about 86% based on the number 5 training molecule, while all other training molecules contribute little to the prediction.
Demgegenüber stützt sich die Vorhersage für Testmolekül 2 zu ca. 87 % auf das Trainingsmolekül Nummer 5, während alle weiteren Trainingsmoleküle (wiederum) nur wenig zur Vorhersage beitragen.In contrast, the prediction for test molecule 2 is approximately 87% based on the training molecule number 5, while all other training molecules (again) contribute little to the prediction.
Durch Sortieren nach ß erhalten wir eine Liste der Trainingsmoleküle in der Reihenfolge der Relevanz für die Vorhersage des jeweiligen Testmoleküls.Sorting for β gives us a list of the training molecules in order of relevance for the prediction of the respective test molecule.
ß stellt somit eine Maßzahl dar, mit der automatisch ein Rangdatensatz erstellt wird, in dem die Maßzahlen der Einflussfaktoren nach einer vorgegebenen Bedingung angeordnet sind. Das Verfahren ist somit als eine Art automatisches Messverfahren für Einflussfaktoren zu verstehen, wobei diese Bestimmung der Einflussfaktoren weitere Anwendungen ermöglicht .Thus, β represents a measure with which a ranking data record is automatically created, in which the measures of the influencing factors are arranged according to a predetermined condition. The method is thus to be understood as a kind of automatic measuring method for influencing factors, whereby this determination of the influencing factors enables further applications.
Dies ist ansonsten nur möglich, wenn gewisse Strukturen des Modells bekannt sind. Mit der beschriebenen Ausführungsform wird jedoch ein reduziertes Modell erzeugt, dass dann weiter verwendbar ist, z.B. zu Steuerung und Regelung einer Anlage.This is otherwise possible only if certain structures of the model are known. With the described embodiment, however, a reduced model is generated, which is then further usable, e.g. for control and regulation of a plant.
Der Fachmann erkennt, dass dieses Vorgehen bei anderen Eigenschaften analog angewandt werden kann.The person skilled in the art recognizes that this procedure can be used analogously for other properties.
Ein weiteres Anwendungsbeispiel ergibt sich aus der Regelungstechnik, z.B. der Regelung von Destillationskolonnen. Wenn hohe Reinheiten gefordert sind, verhält sich eine Destillationskolonnen in vielen Fällen sehr nicht-linear. Wenn nun das Verhalten von Destillationskolonnen ausgehend von einer großen Trainingsmenge an gemessenen Daten analysiert wird (analog der Prozedur ToxTrain in Fig. 5), so wird ein Modell erhalten, dass Erklärungskomponenten und Optimierungshilfen aufweist. Damit ist es möglich, ein sehr komplexes nichtlineares Modell für bestimmte Zwecke automatisch zu vereinfachen. Unter Verwendung zuvor unter Verwendung von Optimierungshilfen beschriebenen Modellreduktionstechnik lässt sich die (in einer echten Anlage möglicherweise große) Zahl der Merkmale (z.B. Regelgrößen und Stellgrößen) automatisch reduzieren, was zu einem vereinfachten Modell führt. Dies ist besonders sinnvoll wenn eine große Menge von Trainingsdaten aus der Vergangenheit vorliegt, die auf diese Weise automatisch so reduziert werden kann, um z.B. ein modellbasiertes Regelungssystem aufzubauen.Another application example results from the control engineering, eg the control of distillation columns. When high purities are required, In many cases, a distillation column behaves very non-linearly. Now, if the behavior of distillation columns is analyzed starting from a large training set of measured data (analogous to the procedure ToxTrain in Fig. 5), then a model is obtained which has explanatory components and optimization aids. This makes it possible to automatically simplify a very complex nonlinear model for specific purposes. Using the model reduction technique previously described using optimization tools, the number of features (perhaps large in a real plant) (eg, controlled variables and manipulated variables) can be automatically reduced, resulting in a simplified model. This is particularly useful when there is a large amount of training data from the past, which can be automatically reduced in this way, for example, to build a model-based control system.
Grundsätzlich können auch andere technische Systeme mittels des beschriebenen Verfahrens untersucht werde, um bestimmte Einflussgrößen automatisch zu ermitteln. So könnten aus einem Modell eines Gebäudes die Einflussgrößen ermittelt werden, die eine besonders energieeffiziente Klimatisierung erfordern. Aus einem Modell einer Produktionsanlage könnten z.B. automatisch die Teile einer Produktionskette ermittelt werden, die einen besonderen Engpass darstellen oder von denen die Qualität bestimmter Produktelemente besonders empfindlich abhängt.. In analoger Weise können auch aus anderen Modellen technischer Systeme, z.B. elektronische Schaltungen oder Maschinen, automatisch Einflussgrößen ermittelt werden, die in Form eines reduzierten Modells z.B. zu Regelungszwecken zu verwenden sind. In principle, other technical systems can also be examined by means of the described method in order to automatically determine specific influencing variables. For example, a model of a building could be used to determine the parameters that require particularly energy-efficient air conditioning. From a model of a production plant could e.g. automatically determine the parts of a production chain that represent a particular bottleneck or on which the quality of certain product elements is particularly sensitive. Similarly, other models of technical systems, e.g. electronic circuits or machines, automatically determining factors which may take the form of a reduced model e.g. are to be used for regulatory purposes.
Claims
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE112009002693T DE112009002693A5 (en) | 2008-11-26 | 2009-11-02 | Method and device for automatic analysis of models |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102008059045 | 2008-11-26 | ||
DE102008059045.2 | 2008-11-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2010060746A2 true WO2010060746A2 (en) | 2010-06-03 |
WO2010060746A3 WO2010060746A3 (en) | 2010-11-18 |
Family
ID=42133384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/EP2009/064476 WO2010060746A2 (en) | 2008-11-26 | 2009-11-02 | Method and device for the automatic analysis of models |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE112009002693A5 (en) |
WO (1) | WO2010060746A2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10036219B1 (en) | 2017-02-01 | 2018-07-31 | Chevron U.S.A. Inc. | Systems and methods for well control using pressure prediction |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001031580A2 (en) * | 1999-10-27 | 2001-05-03 | Biowulf Technologies, Llc | Methods and devices for identifying patterns in biological systems |
GB0518665D0 (en) * | 2005-09-13 | 2005-10-19 | Imp College Innovations Ltd | Support vector inductive logic programming |
-
2009
- 2009-11-02 DE DE112009002693T patent/DE112009002693A5/en not_active Ceased
- 2009-11-02 WO PCT/EP2009/064476 patent/WO2010060746A2/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10036219B1 (en) | 2017-02-01 | 2018-07-31 | Chevron U.S.A. Inc. | Systems and methods for well control using pressure prediction |
Also Published As
Publication number | Publication date |
---|---|
DE112009002693A5 (en) | 2013-01-10 |
WO2010060746A3 (en) | 2010-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69704438T2 (en) | METHOD, DEVICE AND PROGRAM FOR SYNTHESIS-BASED SIMULATION OF CHEMICALS WITH BIOLOGICAL FUNCTIONS | |
DE112014003591T5 (en) | Detection unit, detection method and program | |
WO2020187788A1 (en) | Method for generating a composition for dyes, paints, printing inks, grind resins, pigment concentrates or other coating substances | |
DE102021124445A1 (en) | META-FEATURE TRAINING MODELS FOR MACHINE LEARNING ALGORITHMS | |
EP3959660A1 (en) | Training trainable modules with learning data, the labels of which are subject to noise | |
WO2009053137A2 (en) | Method for the computer-aided ascertainment of at least one property of a hair colouration | |
DE102004025876B4 (en) | Apparatus and method for batch property estimation | |
DE69811088T2 (en) | CLASSIFICATION SYSTEM AND CLASSIFICATION METHOD USING A COMBINATION OF WARMABILITY METHODS AND NEURONAL NETWORKS | |
EP2433185B1 (en) | Apparatus and method for editing a process simulation database for a process | |
WO2010060746A2 (en) | Method and device for the automatic analysis of models | |
EP1264253B1 (en) | Method and arrangement for modelling a system | |
DE69432316T2 (en) | AUTOMATIC HERITAGE DETERMINATION | |
EP3716058A1 (en) | Method for operating a device with a new program code | |
EP1157317B1 (en) | Method and device for reducing a number of measured values of a technical system | |
DE112022001967T5 (en) | CLASSIFICATION OF CELL NUCLEARS WITH AVOIDANCE OF ARTIFACTS | |
EP1280090A1 (en) | Method for the configuration of parallel analysis of nucleic acids | |
DE102022201853A1 (en) | Detection of critical traffic situations with Petri nets | |
DE4331018A1 (en) | Automatic disease evaluation from protein fraction data - obtd. from electrophoretic analysis of blood and comparison of characteristic parameters with those in intelligent tables | |
EP1071999B1 (en) | Method and arrangement for computer-assisted determination of a representation specification | |
DE102007044380A1 (en) | Computer-aided studying of probabilistic network from data record of measured, experimentally determined and/or empirical values, comprises studying structure of non-directed graphs having nodes and non-directed edges from the data record | |
EP1157311B1 (en) | Method and device for designing a technical system | |
DE60027911T2 (en) | METHOD AND DEVICE FOR NETWORK CONCLUSION | |
DE102006031979A1 (en) | Method for determining the behavior of a biological system after a reversible disorder | |
EP3651121A1 (en) | Assistance system for analysis of a trained causal network | |
WO2025108801A1 (en) | Method for determining, by means of an electronic computing device, a component parts list for producing a product, computer program product, computer-readable storage medium, and electronic computing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09796643 Country of ref document: EP Kind code of ref document: A2 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 1120090026931 Country of ref document: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09796643 Country of ref document: EP Kind code of ref document: A2 |
|
REG | Reference to national code |
Ref country code: DE Ref legal event code: R225 Ref document number: 112009002693 Country of ref document: DE Effective date: 20130110 |