[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2024210013A1 - コンピュータプログラム、情報処理装置、及び情報処理方法 - Google Patents

コンピュータプログラム、情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
WO2024210013A1
WO2024210013A1 PCT/JP2024/012199 JP2024012199W WO2024210013A1 WO 2024210013 A1 WO2024210013 A1 WO 2024210013A1 JP 2024012199 W JP2024012199 W JP 2024012199W WO 2024210013 A1 WO2024210013 A1 WO 2024210013A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
data
extraction model
feature amount
modality
Prior art date
Application number
PCT/JP2024/012199
Other languages
English (en)
French (fr)
Inventor
累輝 小林
大 小林
隆央 中村
Original Assignee
東京エレクトロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 東京エレクトロン株式会社 filed Critical 東京エレクトロン株式会社
Publication of WO2024210013A1 publication Critical patent/WO2024210013A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L21/00Processes or apparatus adapted for the manufacture or treatment of semiconductor or solid state devices or of parts thereof
    • H01L21/02Manufacture or treatment of semiconductor devices or of parts thereof

Definitions

  • the present invention relates to a computer program, an information processing device, and an information processing method.
  • the present disclosure provides a computer program, an information processing device, and an information processing method that can perform analysis that takes into account the interrelationships between multiple modalities.
  • the computer program of the present disclosure is a computer program for causing a computer to execute a process of acquiring a first feature from a first feature extraction model configured to output a first feature when data of a first modality related to substrate processing is input, acquiring a second feature from a second feature extraction model configured to output a second feature when data of a second modality different from the first modality is input, and learning at least one of the first feature extraction model and the second feature extraction model according to the similarity between the acquired first feature and second feature.
  • FIG. 1 is an explanatory diagram illustrating a configuration of an information processing system according to an embodiment.
  • 1 is a block diagram showing an internal configuration of an information processing device;
  • 11 is a flowchart illustrating a procedure for learning a correlation between a first modality and a second modality.
  • 11 is a flowchart illustrating an execution procedure of an abnormality detection process.
  • 10 is an explanatory diagram illustrating a method for setting a required similarity between a first feature amount and a second feature amount;
  • FIG. 13 is a flowchart showing a learning procedure in the second embodiment.
  • FIG. 11 is an explanatory diagram for explaining an outline of a cause analysis process.
  • 13 is a flowchart illustrating a procedure of a process executed by an information processing device according to a third embodiment.
  • FIG. 11 is an explanatory diagram illustrating an overview of a data extension process.
  • 13 is a flowchart illustrating a procedure of a process executed by an information processing device according to a fourth embodiment.
  • FIG. 1 is an explanatory diagram illustrating an overview of a prediction process.
  • 13 is a flowchart illustrating a procedure of a process executed by an information processing device according to a fifth embodiment.
  • FIG. 1 is an explanatory diagram illustrating an overview of a noise removal process.
  • 13 is a flowchart illustrating a procedure of a process executed by an information processing device according to a sixth embodiment.
  • (Embodiment 1) 1 is a diagram illustrating a configuration of an information processing system according to an embodiment of the present invention, which includes an information processing apparatus 100 and a substrate processing apparatus 200 that are communicatively connected to each other.
  • the substrate processing apparatus 200 is, for example, a semiconductor manufacturing apparatus including at least one of an exposure apparatus, an etching apparatus, a film forming apparatus, an ion implantation apparatus, an ashing apparatus, a sputtering apparatus, etc.
  • the substrate processing apparatus 200 may be a display manufacturing apparatus that manufactures FDPs (Flat Display Panels) such as liquid crystal display panels and organic EL (Electro-Luminescence) panels.
  • various set values are set in the substrate processing apparatus 200, such as the substrate temperature, the pressure and gas flow rate in the chamber, and the voltage applied from the high-frequency power source.
  • the set values are given, for example, by a process recipe.
  • the substrate processing apparatus 200 is provided with various sensors and devices that measure the substrate temperature, the pressure and gas flow rate in the chamber, the voltage applied to the upper and lower electrodes, the plasma emission intensity, and the like, and various measurement values are measured during the process.
  • the substrate processing apparatus 200 also collects data such as image data of the substrate (wafer) before and after the process and process logs at any time.
  • the substrate processing apparatus 200 outputs data of various modalities (formats) such as measurement values, image data, and process logs measured during the process to the information processing apparatus 100.
  • the information processing device 100 acquires data of various modalities from the substrate processing device 200.
  • the information processing device 100 performs various analytical processes based on the data acquired from the substrate processing device 200.
  • Analysis methods using data from various modalities have been known for some time. For example, analysis processes are performed in which features are extracted from data from a specific modality, and then the features of that modality are used to solve a task.
  • a method is proposed in which the interrelationships between multiple modalities are learned and features appearing in one modality (first modality) are utilized in another modality (second modality) for analytical processing.
  • first modality features appearing in one modality
  • second modality modality
  • a configuration for performing anomaly detection using a first feature extraction model MD1, a second feature extraction model MD2, and anomaly detection model MD10 is described.
  • the first feature extraction model MD1 is configured to output features of data of the first modality when the data is input.
  • the data of the first modality is, for example, measurement data of plasma emission intensity measured by an OES (Optical Emission Spectrometer).
  • the data of the first modality may be data related to substrate processing, and is not limited to measurement data of plasma emission intensity.
  • the data of the first modality may be, for example, measurement data of the substrate temperature, the pressure and gas flow rate in the chamber, the voltage applied to the upper electrode and the lower electrode, image data of an observation image taken by a scanning electron microscope (SEM), or data such as a process log.
  • SEM scanning electron microscope
  • a machine learning learning model including deep learning can be used as the first feature extraction model MD1.
  • learning models based on CNN Convolutional Neural Network
  • Transformer Recurrent Neural Networks
  • LSTM Long Short Term Memory
  • MLP Multi-Layer Perceptrons
  • learning models other than deep learning such as an autoregressive model, a moving average model, or an autoregressive moving average model, may be used.
  • the learning model used for the first feature extraction model MD1 is set appropriately depending on the input data of the first modality, the content to be analyzed, etc.
  • the first feature extraction model MD1 for example, comprises an input layer, one or more intermediate layers, and an output layer, and is trained to output features from the output layer in response to data input to the input layer. Alternatively, a value output from one of the intermediate layers may be extracted as a feature.
  • the first feature extraction model MD1 may be configured to include only an input layer and an output layer without including an intermediate layer.
  • data of the first modality is also referred to as first modal data
  • features extracted by the first feature extraction model MD1 are also referred to as first features.
  • the second feature extraction model MD2 is configured to output features of data of the second modality when the data is input.
  • the data of the second modality is, for example, image data relating to a color image of the substrate surface captured by a wafer optical inspection system (also called WIS).
  • the data of the second modality may be data related to substrate processing, and is not limited to image data from a wafer optical inspection system.
  • the data of the second modality may be, for example, measurement data such as the substrate temperature, the pressure and gas flow rate in the chamber, and the voltage applied to the upper and lower electrodes, image data of an observation image by an SEM, or data such as a process log.
  • the second modality may be a modality different from the first modality.
  • any model can be used for the second feature extraction model MD2, such as a learning model of machine learning including deep learning or a learning model other than deep learning.
  • the learning model used for the second feature extraction model MD2 is set appropriately depending on the input data of the second modality and the content to be analyzed.
  • the data of the second modality is also referred to as second modal data
  • the features extracted by the second feature extraction model MD2 are also referred to as second features.
  • the anomaly detection model MD10 is a model configured to output information regarding the presence or absence of an anomaly in substrate processing in response to the input of the first feature amount or the second feature amount.
  • a machine learning learning model including deep learning can be used for the anomaly detection model MD10.
  • a learning model based on CNN, Transformer, RNN, LSTM, MLP, etc. can be used.
  • a learning model other than deep learning such as an autoregressive model, a moving average model, or an autoregressive moving average model, can be used.
  • the interrelationship between modalities is learned by learning at least one of the first feature extraction model MD1 and the second feature extraction model MD2 according to the similarity between the first feature and the second feature.
  • the information processing device 100 extracts the first feature from the first modal data using the first feature extraction model MD1 in which the interrelationship between modalities has been learned, and inputs the extracted first feature into the anomaly detection model MD10 to perform anomaly detection.
  • the first modal data is measurement data obtained by OES and the second modal data is image data obtained by WIS
  • anomaly detection that takes into account spatial information (features obtained from image data) is possible using only the measurement data obtained by OES.
  • FIG. 2 is a block diagram showing the internal configuration of the information processing device 100.
  • the information processing device 100 is, for example, a dedicated or general-purpose computer including a control unit 101, a storage unit 102, a communication unit 103, an operation unit 104, and a display unit 105.
  • the control unit 101 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), etc.
  • the ROM included in the control unit 101 stores control programs and the like that control the operation of each piece of hardware included in the information processing device 100.
  • the CPU in the control unit 101 reads and executes the control programs stored in the ROM and computer programs (described below) stored in the memory unit 102, and controls the operation of each piece of hardware, causing the entire device to function as the information processing device of the present disclosure.
  • the RAM included in the control unit 101 temporarily stores data used during the execution of calculations.
  • control unit 101 is configured to include a CPU, ROM, and RAM, but the configuration of the control unit 101 is not limited to the above.
  • the control unit 101 may be, for example, one or more control circuits or arithmetic circuits including a GPU (Graphics Processing Unit), an FPGA (Field Programmable Gate Array), a DSP (Digital Signal Processor), a quantum processor, volatile or non-volatile memory, etc.
  • the control unit 101 may have functions such as a clock that outputs date and time information, a timer that measures the elapsed time from when an instruction to start measurement is given to when an instruction to end measurement is given, and a counter that counts numbers.
  • the memory unit 102 includes a storage device such as a hard disk drive (HDD), a solid state drive (SSD), or an electronically erasable programmable read only memory (EEPROM).
  • the memory unit 102 stores various computer programs executed by the control unit 101 and various data used by the control unit 101.
  • the computer programs (program products) stored in the storage unit 102 include a model generation program PG1 for causing a computer to execute a process for generating a model including the first feature extraction model MD1, an analysis processing program PG2 for causing a computer to execute an analysis process, and the like.
  • These computer programs may be a single computer program, or may be a program group consisting of multiple computer programs.
  • the above computer programs may be executed by multiple computers in cooperation.
  • the above computer programs may partially use existing libraries.
  • Computer programs such as the model generation program PG1 and the analysis processing program PG2 are provided by a non-transitory recording medium RM on which the computer programs are recorded in a readable manner.
  • the recording medium RM is a portable memory such as a CD-ROM, a USB memory, a Secure Digital (SD) card, or a micro SD card.
  • the control unit 101 reads various computer programs from the recording medium RM using a reading device not shown in the figure, and stores the various computer programs that have been read in the memory unit 102.
  • the computer programs stored in the memory unit 102 may also be provided by communication. In this case, the control unit 101 downloads the computer programs by communication via the communication unit 103, and stores the downloaded computer programs in the memory unit 102.
  • the storage unit 102 also stores models such as a first feature extraction model MD1, a second feature extraction model MD2, and anomaly detection model MD10. These models may be stored in an external device.
  • the control unit 101 of the information processing device 100 may access the external device via a communication network, transmit data acquired from the substrate processing device 200 to the external device, and acquire the analysis results executed by the external device via the communication network.
  • the communication unit 103 has a communication interface for transmitting and receiving various data to and from an external device.
  • a communication interface conforming to a communication standard such as LAN (Local Area Network) can be used as the communication interface of the communication unit 103.
  • An example of an external device is the substrate processing apparatus 200 described above. Alternatively, the external device may be a user terminal or an external server.
  • the communication unit 103 transmits the data to the destination external device, and when data transmitted from an external device is received, the communication unit 103 outputs the received data to the control unit 101.
  • the operation unit 104 includes operation devices such as a touch panel, a keyboard, and switches, and accepts various operations and settings by the user.
  • the control unit 101 performs appropriate control based on various operation information provided by the operation unit 104, and stores setting information in the storage unit 102 as necessary.
  • the display unit 105 includes a display device such as a liquid crystal monitor or an organic EL (Electro-Luminescence) monitor, and displays information to be notified to the user, etc., in response to instructions from the control unit 101.
  • a display device such as a liquid crystal monitor or an organic EL (Electro-Luminescence) monitor, and displays information to be notified to the user, etc., in response to instructions from the control unit 101.
  • the information processing device 100 may be a single computer, or may be a computer system composed of multiple computers and peripheral devices.
  • the information processing device 100 may be a virtual machine whose entity has been virtualized, or may be a cloud.
  • the information processing device 100 and the substrate processing device 200 are described as separate entities, but the information processing device 100 may be provided inside the substrate processing device 200.
  • the operation of the information processing device 100 will be described below.
  • the information processing apparatus 100 learns the interrelationship between the first modality and the second modality in a learning phase before the start of actual operation in the substrate processing apparatus 200 .
  • FIG. 3 is a flowchart explaining the procedure for learning the interrelationship between the first modality and the second modality.
  • the first feature extraction model MD1 and the second feature extraction model MD2 each have internal parameters set, and are prepared as extractors that extract the first feature and the second feature, respectively, when the first modal data and the second modal data, respectively, are input.
  • the internal parameters of the first feature extraction model MD1 and the second feature extraction model MD2 are parameters such as the weights and biases between nodes included in the input layer, intermediate layer, and output layer of each model.
  • the control unit 101 performs the following processing by reading and executing the model generation program PG1 from the memory unit 102.
  • the control unit 101 acquires a set of first modal data and second modal data from the substrate processing apparatus 200 (step S101).
  • step S101 for example, the first modal data and second modal data observed in the same step of the same recipe may be acquired as a set of data.
  • the control unit 101 inputs the acquired first modal data into the first feature extraction model MD1 and executes calculations using the first feature extraction model MD1 to extract the first feature (step S102). Similarly, the control unit 101 inputs the acquired second modal data into the second feature extraction model MD2 and executes calculations using the second feature extraction model MD2 to extract the second feature (step S103). In this flowchart, the first feature is extracted followed by the second feature, but these steps may be performed in reverse or simultaneously.
  • the control unit 101 calculates the similarity between the feature extracted in step S102 and the feature extracted in step S103 (step S104).
  • the similarity is an index of how close or distant the features extracted from each modal data are.
  • the similarity is calculated using known methods such as mean squared error (MSE) and cosine similarity. For example, if the first feature is represented as x and the second feature is represented as y (x and y are vectors), the mean squared error is calculated by Equation 1, and the cosine similarity is calculated by Equation 2.
  • the control unit 101 determines whether the calculated similarity is less than a threshold value (step S105).
  • the threshold value is set in advance and stored in the memory unit 102.
  • the control unit 101 compares the similarity calculated in step S104 with the threshold value stored in the memory unit 102, and determines whether the calculated similarity is less than the threshold value.
  • control unit 101 updates the internal parameters (weights and biases between nodes) of the first feature extraction model MD1 and the second feature extraction model MD2 (step S106), returns the process to step S101, and continues learning.
  • the control unit 101 can proceed with learning by using an error backpropagation method that sequentially updates the weights and biases between nodes from the output layer to the input layer of each model.
  • the control unit 101 determines that learning is complete. At this time, a first feature extraction model MD1 and a second feature extraction model MD2 that have learned the interrelationship between the first modality and the second modality are obtained, and the control unit 101 stores these in the storage unit 102 as trained models (step S107). Note that the control unit 101 may incorporate techniques such as cross-validation and early termination to end learning at an appropriate time in order to avoid the problem of over-learning.
  • both the first feature extraction model MD1 and the second feature extraction model MD2 are trained, but one of the first feature extraction model MD1 and the second feature extraction model MD2 may be fixed and the other trained.
  • the second feature extraction model MD2 may be trained in advance using a known method, and the first feature extraction model MD1 may be trained (with the internal parameters of the second feature extraction model MD2 fixed) according to the similarity between the second feature extracted from the second feature extraction model MD2 and the first feature extracted from the first feature extraction model MD1.
  • the first feature extraction model MD1 may be trained in advance, and the second feature extraction model MD2 may be trained (with the first feature extraction model MD1 fixed) according to the similarity between the features.
  • the information processing device 100 performs anomaly detection in the operation phase after the learning of the first feature extraction model MD1 and the second feature extraction model MD2 is completed.
  • FIG. 4 is a flowchart explaining the procedure for executing the anomaly detection process.
  • the control unit 101 reads out the analysis process program PG2 from the storage unit 102 and executes it to perform the following processes.
  • the control unit 101 acquires first modal data observed in the substrate processing apparatus 200 during substrate processing (step S121).
  • the control unit 101 inputs the acquired first modal data to the first feature extraction model MD1 and executes a calculation using the first feature extraction model MD1 to extract the first feature (step S122).
  • the control unit 101 determines whether or not there is an abnormality in the substrate processing based on the extracted first characteristic amount (step S123).
  • the control unit 101 determines whether or not there is an abnormality, for example, by determining whether or not the first characteristic amount falls outside a set value or a set range.
  • the control unit 101 may store the first characteristic amount when the first modal data is normal in the storage unit 102, compare the first characteristic amount extracted in step S122 with the first characteristic amount in the normal state stored in the storage unit 102, and determine that there is an abnormality if the difference is equal to or greater than the set value or amount.
  • the control unit 101 may detect an abnormality using any method, not limited to these methods.
  • control unit 101 determines in step S123 that there is an abnormality (S123: YES), it outputs information that there is an abnormality in the substrate processing (step S124), and if it determines in step S123 that there is no abnormality (S123: NO), it outputs information that there is no abnormality in the substrate processing (step S125). Specifically, the control unit 101 causes the display unit 105 to display information that there is an abnormality (or that there is no abnormality). Alternatively, the information that there is an abnormality (or that there is no abnormality) may be notified to the user terminal via the communication unit 103.
  • the presence or absence of anomalies in substrate processing is determined using only the first modal data.
  • the interrelationship between the first modality and the second modality is learned in the learning phase, so even if anomaly detection is performed using only the first modal data, anomaly detection that takes into account information from the second modality is possible. For example, if the interrelationship between OES (first modality) and WIS (second modality) has been learned, anomaly detection that takes into account spatial information obtained from WIS is possible even if only OES measurement data is used.
  • FIG. 5 is an explanatory diagram explaining a method for setting the similarity required between the first feature amount and the second feature amount.
  • the information processing device 100 sets the similarity required between the first feature amount and the second feature amount using reference data related to substrate processing.
  • reference data for example, a setting value in a recipe that defines an experimental procedure can be used.
  • the required degree of similarity between the first feature obtained from the first feature extraction model MD1 and the second feature obtained from the second feature extraction model MD2 is indicated by black and white shading.
  • parameters for gas A flow velocity, flow rate, pressure, etc. specified in the recipe are used as reference data. If the absolute value of the difference between the parameters for gas A when the first modal data is obtained and the parameters for gas A when the second modal data is obtained is relatively small (or relatively large), the required degree of similarity between the first feature and the second feature is set high (or low).
  • the control unit 101 of the information processing device 100 learns at least one of the first feature extraction model MD1 and the second feature extraction model MD2 depending on the level of similarity required between the first feature and the second feature. In other words, if the difference between the two parameters is small, the control unit 101 learns at least one of the first feature extraction model MD1 and the second feature extraction model MD2 so that the similarity between the first feature and the second feature is high. Also, if the difference between the two parameters is small, the control unit 101 learns at least one of the first feature extraction model MD1 and the second feature extraction model MD2 so that the similarity between the first feature and the second feature is low.
  • the similarity required between the first feature and the second feature is expressed by black and white shading, but in practice it may be given by a table or a function.
  • the control unit 101 compares the similarity calculated using the first feature and the second feature with the similarity set based on the reference data (the similarity required between the first feature and the second feature), and learns at least one of the first feature extraction model MD1 and the second feature extraction model MD2 so as to satisfy the required similarity.
  • FIG. 6 is a flowchart showing the learning procedure in the second embodiment.
  • the control unit 101 acquires a set of first modal data and second modal data in the same procedure as in the first embodiment (step S201), and extracts a first feature amount and a second feature amount from each (steps S202, S203).
  • the control unit 101 calculates the similarity between the first feature amount extracted in step S202 and the second feature amount extracted in step S203 (step S204).
  • the similarity amount is calculated using a known method such as mean squared error or cosine similarity.
  • control unit 101 acquires reference data from the substrate processing apparatus 200 (step S205).
  • the control unit 101 sets a desired similarity between the first characteristic amount and the second characteristic amount based on the acquired reference data (step S206). For example, the control unit 101 may compare the reference data when the first modal data was obtained with the reference data when the second modal data was obtained, and set a desired similarity between the first characteristic amount and the second characteristic amount based on the difference therebetween.
  • the control unit 101 compares the similarity calculated in step S204 with the similarity set in step S206, and determines whether the calculated similarity satisfies the requirements (step S207). If it is determined that the requirements are not satisfied (S207: NO), the control unit 101 updates the internal parameters (weights and biases between nodes) of the first feature extraction model MD1 and the second feature extraction model MD2 (step S208), returns the process to step S201, and continues learning.
  • the control unit 101 can proceed with learning using an error backpropagation method that sequentially updates the weights and biases between nodes from the output layer to the input layer of each model.
  • control unit 101 determines that the requirements are met (S207: YES), it determines that learning is complete. At this time, a first feature extraction model MD1 and a second feature extraction model MD2 that have learned the interrelationship between the first modality and the second modality are obtained, and the control unit 101 stores these in the storage unit 102 as trained models (step S209). Note that the control unit 101 may incorporate techniques such as cross-validation and early termination to end learning at an appropriate time in order to avoid the problem of over-learning.
  • FIG. 7 is an explanatory diagram outlining the factor analysis process.
  • the information processing device 100 according to the third embodiment includes a factor analyzer MD11 in addition to the first feature extraction model MD1, the second feature extraction model MD2, and the anomaly detection model MD10 described above.
  • the factor analyzer MD11 detects an anomaly in substrate processing using the anomaly detection model MD10, it identifies the specific location of the anomaly from the abnormal feature. For example, the factor analyzer MD11 calculates the contribution of the first feature or the second feature to the anomaly, and identifies the location of the anomaly in the first modal data or the second modal data based on the calculated contribution.
  • Publicly known methods such as Lime (Local Interpretable Model-Agnostic Explanations), SHAP (Shapley Additive exPlanations), and CAM (Class Activation Mapping) are used to calculate the importance.
  • Lime and SHAP are methods that identify how much the output has changed when the input is reduced, and determine that the greater the change in output, the higher the importance.
  • CAM is a method that calculates the importance by using error backpropagation during learning.
  • FIG. 8 is a flowchart explaining the procedure of the process executed by the information processing device 100 according to the third embodiment.
  • the control unit 101 executes an anomaly detection process in the same procedure as in the first embodiment, and determines whether or not an anomaly has been detected (step S301). If no anomaly is detected (S301: NO), the control unit 101 ends the process according to this flowchart without executing the following process.
  • control unit 101 calculates the contribution of the first feature amount or the second feature amount to the abnormality (step S302).
  • the control unit 101 can calculate the contribution of the first feature amount or the second feature amount to the abnormality using a known method such as Lime, SHAP, or CAM.
  • the control unit 101 identifies the portion of the first modal data or the second modal data that has a high contribution to the abnormality based on the calculated contribution degree (step S303).
  • the control unit 101 outputs information about the identified abnormal location (step S304). Specifically, the control unit 101 causes the display unit 105 to display the information about the identified abnormal location. Alternatively, the communication unit 103 may notify the user terminal of the information about the identified abnormal location.
  • the cause of the anomaly can be analyzed.
  • FIG. 9 is an explanatory diagram outlining the data expansion process.
  • the information processing device 100 according to the fourth embodiment includes a data generation model MD20 in addition to the first feature extraction model MD1 and the second feature extraction model MD2 described above.
  • the data generation model MD20 in the fourth embodiment is trained to generate reproduction data of the second modal data in response to the input of the second feature.
  • a known model such as a VAE (Variable Auto-Encoder) can be used for the data generation model MD20.
  • VAE is an auto-encoder that compresses input data into features and then restores the features to the original data, and is a model that makes it possible to generate unknown data probabilistically by introducing a probability distribution into the features.
  • the process of compressing the input data into features can be performed by the second feature extraction model MD2.
  • the data generation model MD20 is generated using a known method.
  • the data generation model MD20 is generated by repeatedly comparing the input data to the second feature extraction model MD2 with the output data from the data generation model MD20 and updating the internal parameters of the model according to the comparison results.
  • the data generation model MD20 is not limited to VAE, but may also be a model that uses GAN (Generative Adversarial Network), SegNet, FCN (Fully Convolutional Network), U-Net (U-Shaped Network), PSPNet (Pyramid Scene Parsing Network), etc.
  • GAN Geneative Adversarial Network
  • SegNet SegNet
  • FCN Full Convolutional Network
  • U-Net User-Shaped Network
  • PSPNet Pulid Scene Parsing Network
  • the first feature extraction model MD1 and the second feature extraction model MD2 are trained to include common features. Specifically, using a method similar to that of the first embodiment, the interrelationship between the first modality and the second modality is trained, so that the first feature extracted from the first feature extraction model MD1 and the second feature extracted from the second feature extraction model MD2 are trained to include common features.
  • the first feature amount and the second feature amount include a common feature amount, even if the first feature amount is input to the data generation model MD20, reproduction data of the second modal data can be generated.
  • the first modal data is measurement data of plasma emission intensity by OES and the second modal data is image data by WIS, image data by WIS can be generated from the measurement data of plasma emission intensity.
  • FIG. 10 is a flowchart explaining the procedure of processing executed by the information processing device 100 according to the fourth embodiment.
  • the storage unit 102 of the information processing device 100 stores a first feature extraction model MD1 and a second feature extraction model MD2 obtained by learning the interrelationship between the first modality and the second modality.
  • the storage unit 102 also stores a data generation model MD20 that has been trained to output reproduction data of the second modality when the first feature or the second feature is input.
  • the control unit 101 acquires first modal data from the substrate processing apparatus 200 (step S401).
  • the control unit 101 inputs the acquired first modal data into the first feature extraction model MD1, and extracts the first feature by performing a calculation using the first feature extraction model MD1 (step S402).
  • the control unit 101 inputs the first feature extracted using the first feature extraction model MD1 to the data generation model MD20, executes a calculation using the data generation model MD20, and generates reproduction data of the second modal (step S403).
  • second modal reproduction data can be generated from first modal data.
  • data that is relatively difficult to obtain e.g., data showing the finish, such as an SEM image
  • modal data that is easy to obtain e.g., data on plasma emission intensity by OES.
  • OES plasma emission intensity
  • FIG. 11 is an explanatory diagram outlining the prediction process.
  • the information processing device 100 according to the fifth embodiment includes a prediction model MD30 in addition to the first feature extraction model MD1 and the second feature extraction model MD2 described above.
  • the first feature extraction model MD1 and the second feature extraction model are trained so that the first feature and the second feature include a common feature, as in the fourth embodiment.
  • the first modal data in the fifth embodiment is, for example, measurement data of plasma emission intensity by OES
  • the second modal data is, for example, SEM image data that indicates the outcome of the substrate processing.
  • the prediction model MD30 is trained to output reproduced data of an SEM image when second modal data (SEM image data) is input.
  • the prediction model MD30 is a model that uses VAE, GAN, SegNet, FCN, U-Net, PSPNet, etc.
  • the prediction model MD30 is generated using a known method. For example, the prediction model MD30 is generated by repeatedly comparing the input data to the second feature extraction model MD2 with the output data from the prediction model MD30 and updating the internal parameters of the model according to the comparison results.
  • the first feature amount and the second feature amount include a common feature amount, when the first feature amount is input to the prediction model MD30, reproduction data of the second modal can be generated.
  • the end product can be predicted by using modal data that is easy to obtain, such as plasma emission intensity.
  • the predicted performance can be compared with the desired performance (ideal shape data), and the parameters in the substrate processing can be adjusted according to the comparison results.
  • the parameters in the substrate processing are the device parameters such as the temperature in the chamber, gas pressure, gas flow rate, and the voltage value of the high frequency voltage applied to the upper electrode and lower electrode, or the recipe setting values.
  • a rule-based adjustment method is used to adjust the parameters. For example, the pattern shape estimated from the predicted reproduction data is compared with the ideal shape, and if the difference between the predicted pattern shape and the ideal shape is X%, the parameters are adjusted according to a rule such as changing the setting value of the high-frequency voltage, etc., by Y% (Y is a function of X).
  • the parameter adjustment method is not limited to being rule-based, and any method such as a machine learning model or a statistical model may be used.
  • FIG. 12 is a flowchart explaining the procedure of processing executed by the information processing device 100 according to embodiment 5.
  • the storage unit 102 of the information processing device 100 stores a first feature extraction model MD1 and a second feature extraction model MD2 obtained by learning the interrelationship between the first modality and the second modality.
  • the storage unit 102 also stores a prediction model MD30 that has been trained to output information on the outcome of substrate processing (reproduced data of the second modal) when the first feature or the second feature is input.
  • the control unit 101 acquires first modal data from the substrate processing apparatus 200 (step S501).
  • the first modal data is, for example, measurement data of plasma emission intensity by OES.
  • the control unit 101 inputs the acquired first modal data to the first feature extraction model MD1, and extracts the first feature by performing a calculation using the first feature extraction model MD1 (step S502).
  • the control unit 101 inputs the first feature extracted using the first feature extraction model MD1 into the prediction model MD30, and generates second modal reproduction data by executing a calculation using the prediction model MD30 (step S503).
  • the second modal reproduction data is, for example, SEM image data, and represents the performance of the substrate processing.
  • the control unit 101 compares the pattern shape estimated from the predicted reproduction data with the ideal shape (step S504), and adjusts the parameters for substrate processing according to the comparison results (step S505).
  • the end result can be predicted using modal data that is relatively easy to obtain, such as OES, without using SEM images, which are relatively difficult to obtain. Furthermore, in the fifth embodiment, the parameters in the substrate processing can be adjusted so that the end result approaches the desired end result.
  • FIG. 13 is an explanatory diagram outlining the noise removal process.
  • the information processing device 100 according to the sixth embodiment includes a noise removal model MD40 in addition to the first feature extraction model MD1 and the second feature extraction model MD2 described above.
  • the first feature extraction model MD1 and the second feature extraction model are trained so that the first feature and the second feature include a common feature, as in the fourth embodiment.
  • the first modal data in the sixth embodiment is, for example, measurement data of plasma emission intensity by OES
  • the second modal data is, for example, image data by WIS.
  • the noise removal model MD40 is trained to output noise-free second modal reproduction data when second modal data is input. Noise may be missing values in the data, outliers, additive white Gaussian noise (AWGN), etc.
  • the noise removal model MD40 is a model that uses VAE, GAN, SegNet, FCN, U-Net, PSPNet, etc.
  • the noise removal model MD40 is generated using a known method. For example, the noise removal model MD40 is generated by repeatedly comparing noise-free input data (second modal data without missing data, etc.) with output data from the noise removal model MD40 and updating the internal parameters of the model according to the comparison results.
  • the first feature and the second feature include a common feature, when the first feature (or a combination of the first feature and the second feature) is input to the noise removal model MD40, noise-free reproduction data of the second modal can be generated.
  • FIG. 14 is a flowchart explaining the procedure of processing executed by the information processing device 100 according to the sixth embodiment.
  • the storage unit 102 of the information processing device 100 stores a first feature extraction model MD1 and a second feature extraction model MD2 obtained by learning the interrelationship between the first modality and the second modality.
  • the storage unit 102 also stores a noise removal model MD40 that has been trained to output noise-free reproduction data of the second modal when at least one of the first feature or the second feature is input.
  • the control unit 101 acquires first modal data from the substrate processing apparatus 200 (step S601).
  • the first modal data is, for example, measurement data of plasma emission intensity by OES.
  • the control unit 101 inputs the acquired first modal data to the first feature extraction model MD1, and extracts the first feature by performing a calculation using the first feature extraction model MD1 (step S602).
  • the control unit 101 inputs the first feature extracted using the first feature extraction model MD1 to the noise reduction model MD40, and generates noise-free second modal reproduction data by performing calculations using the noise reduction model MD40 (step S603).
  • the second modal reproduction data is, for example, image data obtained by WIS.
  • a feature extraction model that learns the interrelationships between two types of modalities is generated, but a feature extraction model that learns the interrelationships between three or more types of modalities may also be generated.
  • REFERENCE SIGNS LIST 100 Information processing device 101 Control unit 102 Storage unit 103 Communication unit 104 Operation unit 105 Display unit 200 Substrate processing device PG1 Model generation program PG2 Analysis processing program MD1 First feature extraction model MD2 Second feature extraction model MD10 Abnormality detection model RM Recording medium

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Power Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Manufacturing & Machinery (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Image Analysis (AREA)

Abstract

コンピュータプログラム、情報処理装置、及び情報処理方法の提供。 基板処理に関する第1モダリティのデータを入力した場合に第1特徴量を出力するよう構成される第1特徴量抽出モデルから、第1特徴量を取得し、第1モダリティとは異なる第2モダリティのデータを入力した場合に第2特徴量を出力するよう構成される第2特徴量抽出モデルから、第2特徴量を取得し、取得した第1特徴量と第2特徴量との間の類似度に応じて、第1特徴量抽出モデル及び第2特徴量抽出モデルの少なくとも一方を学習する処理をコンピュータに実行させる。

Description

コンピュータプログラム、情報処理装置、及び情報処理方法
 本発明は、コンピュータプログラム、情報処理装置、及び情報処理方法に関する。
 近年、ニューラルネットワーク等を用いた人工知能が画像認識、音声認識、言語処理等の様々な分野に利用されている。また、特定様式のデータ(例えば画像データ)のみを扱う人工知能に限らず、画像データ、音声データ、テキストデータ等、一つの対象に対する複数の様式(モダリティ)を取り扱う人工知能の開発も進められている(例えば、特許文献1を参照)。
特表2019-535063号公報
 本開示は、複数のモダリティ間の相互関係を考慮した解析を行えるコンピュータプログラム、情報処理装置、及び情報処理方法を提供する。
 本開示に係るコンピュータプログラムは、基板処理に関する第1モダリティのデータを入力した場合に第1特徴量を出力するよう構成される第1特徴量抽出モデルから、第1特徴量を取得し、前記第1モダリティとは異なる第2モダリティのデータを入力した場合に第2特徴量を出力するよう構成される第2特徴量抽出モデルから、第2特徴量を取得し、取得した第1特徴量と第2特徴量との間の類似度に応じて、前記第1特徴量抽出モデル及び前記第2特徴量抽出モデルの少なくとも一方を学習する処理をコンピュータに実行させるためのコンピュータプログラムである。
 本開示によれば、複数のモダリティ間の相互関係を考慮した解析を行うことができる。
実施の形態に係る情報処理システムの構成を説明する説明図である。 情報処理装置の内部構成を示すブロック図である。 第1モダリティ及び第2モダリティ間の相互関係を学習する手順について説明するフローチャートである。 異常検知処理の実行手順を説明するフローチャートである。 第1特徴量と第2特徴量との間に要求する類似度の設定手法を説明する説明図である。 実施の形態2における学習手順を示すフローチャートである。 要因分析処理の概要を説明する説明図である。 実施の形態3に係る情報処理装置が実行する処理の手順を説明するフローチャートである。 データ拡張処理の概要を説明する説明図である。 実施の形態4に係る情報処理装置が実行する処理の手順を説明するフローチャートである。 予測処理の概要を説明する説明図である。 実施の形態5に係る情報処理装置が実行する処理の手順を説明するフローチャートである。 ノイズ除去処理の概要を説明する説明図である。 実施の形態6に係る情報処理装置が実行する処理の手順を説明するフローチャートである。
 以下、図面を参照して一実施形態について説明する。説明において、同一要素又は同一機能を有する要素には同一の符号を付し、重複する説明を省略する。
(実施の形態1)
 図1は実施の形態に係る情報処理システムの構成を説明する説明図である。実施の形態に係る情報処理システムは、互いに通信可能に接続された情報処理装置100及び基板処理装置200を備える。
 基板処理装置200は、例えば、露光装置、エッチング装置、成膜装置、イオン注入装置、アッシング装置、スパッタリング装置などを少なくとも1つ含む半導体製造装置である。代替的に、基板処理装置200は、液晶ディスプレイパネル、有機EL(Electro-Luminescence)パネルなどのFDP(Flat Display Panel)を製造するディスプレイ製造装置であってもよい。
 基板処理装置200には、プロセスの開始時に、基板の温度、チャンバ内の圧力やガス流量、高周波電源より印加する電圧などの各種の設定値が設定される。設定値は例えばプロセスレシピによって与えられる。基板処理装置200には、基板の温度、チャンバ内の圧力やガス流量、上部電極や下部電極に印加される電圧、プラズマ発光強度等を計測する各種のセンサや機器が設けられており、プロセスの実行中に各種の計測値が計測される。また、基板処理装置200では、上述した計測値に限らず、プロセス前後の基板(ウェハ)の画像データやプロセスログなどのデータが随時収集される。基板処理装置200は、プロセスの実行中に計測される計測値、画像データ、プロセスログ等の様々なモダリティ(様式)のデータを情報処理装置100へ出力する。
 情報処理装置100は、基板処理装置200から様々なモダリティのデータを取得する。情報処理装置100は、基板処理装置200から取得したデータに基づき、各種の解析処理を行う。
 従来より、様々なモダリティのデータを用いた解析手法が知られている。例えば、特定のモダリティのデータから特徴量を抽出した上で、当該モダリティの特徴量を利用してタスクを解く解析処理が行われている。
 しかしながら、個々のモダリティの特徴量を利用してタスクを解く従来の手法では、特定のモダリティに依存した解析しか行えず、複数のモダリティがあっても、複数のモダリティ間の相互関係を考慮した解析は行えない。例えば、出来栄えを表すモダリティのデータ(例えば基板の画像データ)を用いて異常検知を行った場合、出来栄えに影響する異常を検知できるが、要因を特定することはできない。また、要因を特定しやすいモダリティ(例えばプロセスログ)で異常を検知した場合、異常の要因を特定できるが、出来栄えに影響する異常を検知することはできない。
 そこで、本実施の形態では、複数のモダリティ間の相互関係を学習し、一のモダリティ(第1モダリティ)に表れる特徴を別のモダリティ(第2モダリティ)で活用して解析処理を行う手法を提案する。実施の形態1では、一例として、第1特徴量抽出モデルMD1、第2特徴量抽出モデルMD2、及び異常検知モデルMD10を用いて、異常検知を行う構成について説明する。
 第1特徴量抽出モデルMD1は、第1モダリティのデータを入力した場合、当該データの特徴量を出力するよう構成される。第1モダリティのデータは、例えば、OES(Optical Emission Spectrometer)により計測されるプラズマ発光強度の計測データである。第1モダリティのデータは、基板処理に関するデータであればよく、プラズマ発光強度の計測データに限定されない。第1モダリティのデータは、例えば、基板の温度、チャンバ内の圧力やガス流量、上部電極や下部電極に印加される電圧等の計測データや走査電子顕微鏡(SEM : Scanning Electron Microscope)等による観察画像の画像データであってもよく、プロセスログなどのデータであってもよい。
 第1特徴量抽出モデルMD1として、深層学習を含む機械学習の学習モデルを用いることができる。例えば、CNN(Convolutional Neural Network)、Transformer、RNN(Recurrent Neural Networks)、LSTM(Long Short Term Memory)、MLP(Multi-Layer Perceptrons)などに基づく学習モデルを用いることができる。代替的に、自己回帰モデル、移動平均モデル、自己回帰移動平均モデルなど、深層学習以外の学習モデルを用いてもよい。第1特徴量抽出モデルMD1に用いる学習モデルは、入力される第1モダリティのデータや解析すべき内容などに応じて適宜設定される。
 第1特徴量抽出モデルMD1は、例えば、入力層、1又は複数の中間層、及び出力層を備え、入力層へのデータの入力に応じて、出力層から特徴量を出力するよう学習される。代替的に、中間層の何れか1つから出力される値を特徴量として抽出してもよい。第1特徴量抽出モデルMD1は、中間層を備えずに、入力層及び出力層のみを備える構成であってもよい。以下では、第1モダリティのデータを第1モーダルデータ、第1特徴量抽出モデルMD1より抽出される特徴量を第1特徴量ともいう。
 第2特徴量抽出モデルMD2は、第2モダリティのデータを入力した場合、当該データの特徴量を出力するよう構成される。第2モダリティのデータは、例えば、ウェハ光学検査システム(WISとも呼ばれる)により撮像される基板表面のカラー画像に係る画像データである。第2モダリティのデータは、基板処理に関するデータであればよく、ウェハ光学検査システムによる画像データに限定されない。第2モダリティのデータは、例えば、基板の温度、チャンバ内の圧力やガス流量、上部電極や下部電極に印加される電圧等の計測データやSEM等による観察画像の画像データであってもよく、プロセスログなどのデータであってもよい。第2モダリティは、第1モダリティとは異なるモダリティであればよい。
 第2特徴量抽出モデルMD2には、第1特徴量抽出モデルMD1と同様に、深層学習を含む機械学習の学習モデルや深層学習以外の学習モデルなど、任意のモデルが用いられる。第2特徴量抽出モデルMD2に用いる学習モデルは、入力される第2モダリティのデータや解析すべき内容などに応じて適宜設定される。以下では、第2モダリティのデータを第2モーダルデータ、第2特徴量抽出モデルMD2より抽出される特徴量を第2特徴量ともいう。
 異常検知モデルMD10は、第1特徴量又は第2特徴量の入力に応じて、基板処理における異常の有無に関する情報を出力するよう構成されるモデルである。異常検知モデルMD10には、深層学習を含む機械学習の学習モデルを用いることができる。例えば、CNN、Transformer、RNN、LSTM、MLPなどに基づく学習モデルを用いることができる。代替的に、自己回帰モデル、移動平均モデル、自己回帰移動平均モデルなど、深層学習以外の学習モデルを用いてもよい。
 本実施の形態では、第1特徴量と第2特徴量との間の類似度に応じて、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の少なくとも一方を学習することにより、モダリティ間の相互関係を学習する。情報処理装置100は、例えば、モダリティ間の相互関係が学習された第1特徴量抽出モデルMD1を用いて、第1モーダルデータから第1特徴量を抽出し、抽出した第1特徴量を異常検知モデルMD10に入力して異常検知を行う。この結果、例えば、第1モーダルデータをOESによる計測データ、第2モーダルデータをWISによる画像データとした場合、OESの計測データのみを用いて、空間情報(画像データより得られる特徴)を加味した異常検知が可能となる。
 図2は情報処理装置100の内部構成を示すブロック図である。情報処理装置100は、例えば、制御部101、記憶部102、通信部103、操作部104、及び表示部105を備える専用又は汎用のコンピュータである。
 制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備える。制御部101が備えるROMには、情報処理装置100が備えるハードウェア各部の動作を制御する制御プログラム等が記憶される。制御部101内のCPUは、ROMに記憶されている制御プログラムや記憶部102に記憶されている後述のコンピュータプログラムを読み込んで実行し、ハードウェア各部の動作を制御することにより、装置全体を本開示の情報処理装置として機能させる。制御部101が備えるRAMには、演算の実行中に利用されるデータが一時的に記憶される。
 実施の形態では、制御部101がCPU、ROM、及びRAMを備える構成としたが、制御部101の構成は上記のものに限定されない。制御部101は、例えば、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、DSP(Digital Signal Processor)、量子プロセッサ、揮発性又は不揮発性のメモリ等を備える1又は複数の制御回路又は演算回路であってもよい。また、制御部101は、日時情報を出力するクロック、計測開始指示を与えてから計測終了指示を与えるまでの経過時間を計測するタイマ、数をカウントするカウンタ等の機能を備えてもよい。
 記憶部102は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(Electronically Erasable Programmable Read Only Memory)などの記憶装置を備える。記憶部102には、制御部101によって実行される各種のコンピュータプログラムや制御部101によって利用される各種のデータが記憶される。
 記憶部102に記憶されるコンピュータプログラム(プログラム製品)は、第1特徴量抽出モデルMD1を含むモデルを生成する処理をコンピュータに実行させるためのモデル生成プログラムPG1、解析処理をコンピュータに実行させるための解析処理プログラムPG2などを含む。これらのコンピュータプログラムは、単一のコンピュータプログラムであってもよく、複数のコンピュータプログラムにより構成されるプログラム群であってもよい。また、上記コンピュータプログラムは、複数のコンピュータにより協働して実行されるものであってもよい。更に、上記コンピュータプログラムは、既存のライブラリを部分的に用いるものであってもよい。
 モデル生成プログラムPG1や解析処理プログラムPG2などのコンピュータプログラムは、当該コンピュータプログラムを読み取り可能に記録した非一時的な記録媒体RMにより提供される。記録媒体RMは、CD-ROM、USBメモリ、SD(Secure Digital)カード、マイクロSDカードなどの可搬型メモリである。制御部101は、図に示していない読取装置を用いて、記録媒体RMから各種コンピュータプログラムを読み取り、読み取った各種コンピュータプログラムを記憶部102に記憶させる。また、記憶部102に記憶されるコンピュータプログラムは、通信により提供されてもよい。この場合、制御部101は、通信部103を介した通信によりコンピュータプログラムをダウンロードし、ダウンロードしたコンピュータプログラムを記憶部102に記憶させる。
 また、記憶部102には、第1特徴量抽出モデルMD1,第2特徴量抽出モデルMD2,異常検知モデルMD10などのモデルが記憶される。これらのモデルは、外部装置に格納されてもよい。この場合、情報処理装置100の制御部101は、通信ネットワーク経由で外部装置にアクセスし、基板処理装置200から取得したデータを外部装置へ送信し、外部装置に実行させた解析結果を通信ネットワーク経由で取得してもよい。
 通信部103は、外部装置との間で各種のデータを送受信するための通信インタフェースを備える。通信部103の通信インタフェースとして、LAN(Local Area Network)などの通信規格に準拠した通信インタフェースを用いることができる。外部装置の一例は、上述した基板処理装置200である。代替的に、外部装置は、ユーザ端末や外部サーバであってもよい。通信部103は、送信すべきデータが制御部101から入力された場合、宛先の外部装置へデータを送信し、外部装置から送信されたデータを受信した場合、受信したデータを制御部101へ出力する。
 操作部104は、タッチパネル、キーボード、スイッチなどの操作デバイスを備え、ユーザ等による各種の操作及び設定を受付ける。制御部101は、操作部104より与えられる各種の操作情報に基づき適宜の制御を行い、必要に応じて設定情報を記憶部102に記憶させる。
 表示部105は、液晶モニタや有機EL(Electro-Luminescence)モニタなどの表示デバイスを備え、制御部101からの指示に応じてユーザ等に報知すべき情報を表示する。
 本実施の形態における情報処理装置100は、単一のコンピュータであってもよく、複数のコンピュータや周辺機器などにより構成されるコンピュータシステムであってもよい。また、情報処理装置100は、実体が仮想化された仮想マシンであってもよく、クラウドであってもよい。更に、本実施の形態では、情報処理装置100と基板処理装置200とを別体として記載したが、情報処理装置100は基板処理装置200の内部に設けられてもよい。
 以下、情報処理装置100の動作について説明する。
 本実施の形態に係る情報処理装置100は、基板処理装置200での実運用が開始される前の学習フェーズにおいて、第1モダリティ及び第2モダリティ間の相互関係を学習する。
 図3は第1モダリティ及び第2モダリティ間の相互関係を学習する手順について説明するフローチャートである。相互関係を学習する前の時点において、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2は、それぞれ内部パラメータが設定され、第1モーダルデータ及び第2モーダルデータをそれぞれ入力した場合、第1特徴量及び第2特徴量をそれぞれ抽出する抽出器として用意されているものとする。ここで、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の内部パラメータとは、各モデルの入力層、中間層及び出力層に含まれるノード間の重みやバイアスなどのパラメータである。
 制御部101は、記憶部102からモデル生成プログラムPG1を読み出して実行することにより、以下の処理を行う。
 制御部101は、基板処理装置200から一組の第1モーダルデータ及び第2モーダルデータを取得する(ステップS101)。ステップS101では、例えば、同じレシピの同じステップで観測される第1モーダルデータ及び第2モーダルデータを一組のデータとして取得すればよい。
 制御部101は、取得した第1モーダルデータを第1特徴量抽出モデルMD1に入力し、第1特徴量抽出モデルMD1による演算を実行して第1特徴量を抽出する(ステップS102)。同様に、制御部101は、取得した第2モーダルデータを第2特徴量抽出モデルMD2に入力し、第2特徴量抽出モデルMD2による演算を実行して第2特徴量を抽出する(ステップS103)。本フローチャートでは、第1特徴量を抽出した後に第2特徴量を抽出する手順としたが、これらの手順は前後してもよく、同時並行的に実施されてもよい。
 制御部101は、ステップS102で抽出した特徴量と、ステップS103で抽出した特徴量との間の類似度を算出する(ステップS104)。類似度は、各モーダルデータから抽出した特徴量同士がどれほど近しいか又は遠いかの指標である。具体的には、類似度は、平均二乗誤差(MSE : Mean Squared Error)やコサイン類似度といった公知の手法を用いて算出される。例えば、第1特徴量をx、第2特徴量をyと表した場合(x,yはベクトル)、平均二乗誤差は数1によって算出され、コサイン類似度は数2によって算出される。
 制御部101は、算出した類似度が閾値未満であるか否かを判断する(ステップS105)。閾値は事前に設定され、記憶部102に記憶されているものとする。制御部101は、ステップS104で算出した類似度と、記憶部102に記憶されている閾値とを比較し、算出した類似度が閾値未満であるか否かを判断する。
 算出した類似度が閾値以上であると判断した場合(S105:NO)、制御部101は、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の内部パラメータ(ノード間の重み及びバイアス)を更新し(ステップS106)、処理をステップS101へ戻し、学習を継続する。制御部101は、各モデルの出力層から入力層に向かって、ノード間の重み及びバイアスを順次更新する誤差逆伝搬法を用いて、学習を進めることができる。
 制御部101は、最急降下法などの勾配効果法により誤差関数(類似度)を最小化する過程で、誤差関数(類似度)が閾値未満となった場合(S105:YES)、学習が完了したと判断する。このとき、第1モダリティ及び第2モダリティ間の相互関係を学習した第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2が得られるので、制御部101は、これらを学習済みのモデルとして記憶部102に記憶させる(ステップS107)。なお、制御部101は、過学習の問題を避けるために、交差検定、早期打ち切りなどの手法を取り入れ、適切なタイミングにて学習を終了させてもよい。
 図3に示すフローチャートでは、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の双方を学習する手順としたが、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の何れか一方を固定し、他方を学習する手順としてもよい。例えば、第2特徴量抽出モデルMD2を公知の手法を用いて事前に学習しておき、第2特徴量抽出モデルMD2から抽出される第2特徴量と、第1特徴量抽出モデルMD1から抽出される第1特徴量との類似度に応じて、第1特徴量抽出モデルMD1を学習(第2特徴量抽出モデルMD2の内部パラメータについては固定)してもよい。同様に、第1特徴量抽出モデルMD1を事前学習しておき、特徴量同士の類似度に応じて、第2特徴量抽出モデルMD2を学習(第1特徴量抽出モデルMD1については固定)してもよい。
 実施の形態1に係る情報処理装置100は、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の学習が完了した後の運用フェーズにおいて、異常検知を行う。
 図4は異常検知処理の実行手順を説明するフローチャートである。制御部101は、記憶部102から解析処理プログラムPG2を読み出して実行することにより、以下の処理を行う。
 制御部101は、基板処理の実行中に基板処理装置200にて観測される第1モーダルデータを取得する(ステップS121)。制御部101は、取得した第1モーダルデータを第1特徴量抽出モデルMD1に入力し、第1特徴量抽出モデルMD1による演算を実行して第1特徴量を抽出する(ステップS122)。
 制御部101は、抽出した第1特徴量に基づき、基板処理における異常の有無を判断する(ステップS123)。制御部101は、例えば、第1特徴量が設定値や設定範囲から外れるか否かを判断することによって異常の有無を判断する。代替的に、第1モーダルデータが正常である場合の第1特徴量を記憶部102に記憶させておき、ステップS122で抽出した第1特徴量と、記憶部102に記憶させておいた正常時の第1特徴量とを比較し、差分が設定値又は設定量以上であれば異常と判断してもよい。制御部101は、これらの手法に限らず、任意の手法を用いて異常を検知すればよい。
 制御部101は、ステップS123で異常ありと判断した場合(S123:YES)、基板処理に異常がある旨の情報を出力し(ステップS124)、ステップS123で異常なしと判断した場合(S123:NO)、基板処理に異常がない旨の情報を出力する(ステップS125)。具体的には、制御部101は、異常がある旨(若しくは異常がない旨)の情報を表示部105に表示させる。代替的に、異常がある旨(若しくは異常がない旨)の情報を通信部103よりユーザ端末に通知してもよい。
 図4のフローチャートでは、第1モーダルデータのみを用いて基板処理における異常の有無を判断している。本実施の形態では、学習フェーズにおいて第1モダリティと第2モダリティとの間の相互関係を学習してあるので、第1モーダルデータのみを用いて異常検知を行ったとしても、第2モダリティの情報を加味した異常検知が可能となる。例えば、OES(第1モダリティ)とWIS(第2モダリティ)との間の相互関係を学習してある場合、例えば、OESの計測データのみを用いた場合であっても、WISより得られる空間情報を加味した異常検知が可能となる。
(実施の形態2)
 実施の形態2では、基板処理に関する複数の実験を通じて、複数のモダリティ間の相互関係を学習する構成について説明する。
 図5は第1特徴量と第2特徴量との間に要求する類似度の設定手法を説明する説明図である。本実施の形態2に係る情報処理装置100は、基板処理に関する参照データを用いて、第1特徴量と第2特徴量との間に要求する類似度を設定する。参照データとして、例えば、実験手順を定めるレシピ内の設定値を用いることができる。
 図5の例は、第1特徴量抽出モデルMD1から得られる第1特徴量と、第2特徴量抽出モデルMD2から得られる第2特徴量との間に要求する類似度の高低を白黒の濃淡により示している。この例では、レシピ内に規定されているガスAに関するパラーメタ(流速、流量、圧力等)が参照データとして用いられている。第1モーダルデータが得られたときのガスAに関するパラメータと、第2モーダルデータが得られたときのガスAに関するパラメータとの差の絶対値が相対的に小さい(若しくは相対的に大きい)場合、第1特徴量と第2特徴量との間に要求する類似度は、高く(若しくは低く)設定される。
 本実施の形態では、参照データとしてレシピを用いた例について説明するが、レシピに限らず、計測された出来栄えデータ、他のモーダルデータ、ログデータなどを用いることが可能である。
 情報処理装置100の制御部101は、第1特徴量と第2特徴量との間に要求する類似度の高低に応じて、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の少なくとも一方を学習する。すなわち、2つのパラメータの差が小さければ、制御部101は、第1特徴量と第2特徴量との間の類似度が高くなるように、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の少なくとも一方を学習する。また、2つのパラメータの差が小さければ、制御部101は、第1特徴量と第2特徴量との間の類似度が低くなるように、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の少なくとも一方を学習する。
 説明のために、図5の例では、第1特徴量と第2特徴量との間に要求する類似度を白黒の濃淡により表現したが、実際にはテーブルや関数によって与えられるとよい。制御部101は、第1特徴量及び第2特徴量を用いて計算される類似度と、参照データを基に設定される類似度(第1特徴量及び第2特徴量間に要求する類似度)とを比較し、要求する類似度を満たすように、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の少なくとも一方を学習する。
 図6は実施の形態2における学習手順を示すフローチャートである。制御部101は、実施の形態1と同様の手順にて、一組の第1モーダルデータ及び第2モーダルデータを取得し(ステップS201)、それぞれから第1特徴量及び第2特徴量を抽出する(ステップS202,S203)。制御部101は、ステップS202で抽出した第1特徴量と、ステップS203で抽出した第2特徴量との間の類似度を算出する(ステップS204)。類似度は、平均二乗誤差やコサイン類似度などの公知の手法を用いて算出される。
 次いで、制御部101は、基板処理装置200から参照データを取得する(ステップS205)。制御部101は、取得した参照データに基づき、第1特徴量及び第2特徴量間に要求する類似度を設定する(ステップS206)。制御部101は、例えば第1モーダルデータが得られた際の参照データと、第2モーダルデータが得られた際の参照データとを比較し、それらの差に基づいて第1特徴量及び第2特徴量間に要求する類似度を設定すればよい。
 制御部101は、ステップS204で算出した類似度と、ステップS206で設定した類似度とを比較し、算出した類似度が要求を満たすか否かを判断する(ステップS207)。要求を満たさないと判断した場合(S207:NO)、制御部101は、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2の内部パラメータ(ノード間の重み及びバイアス)を更新し(ステップS208)、処理をステップS201へ戻し、学習を継続する。制御部101は、各モデルの出力層から入力層に向かって、ノード間の重み及びバイアスを順次更新する誤差逆伝搬法を用いて、学習を進めることができる。
 制御部101は、要求を満たすと判断した場合(S207:YES)、学習が完了したと判断する。このとき、第1モダリティ及び第2モダリティ間の相互関係を学習した第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2が得られるので、制御部101は、これらを学習済みのモデルとして記憶部102に記憶させる(ステップS209)。なお、制御部101は、過学習の問題を避けるために、交差検定、早期打ち切りなどの手法を取り入れ、適切なタイミングにて学習を終了させてもよい。
 以上のように、実施の形態2では、基板処理における参照データの類似度を考慮した特徴量抽出が可能となり、複数の実験結果を利用して学習を進めることができる。
(実施の形態3)
 実施の形態3では、異常検知モデルMD10により異常を検知した場合、その要因分析を行う構成について説明する。
 図7は要因分析処理の概要を説明する説明図である。実施の形態3に係る情報処理装置100は、上述した第1特徴量抽出モデルMD1、第2特徴量抽出モデルMD2、異常検知モデルMD10に加え、要因分析器MD11を備える。
 要因分析器MD11は、異常検知モデルMD10を用いて基板処理における異常を検知した場合、異常な特徴量から具体的な異常箇所を特定する。例えば、要因分析器MD11は、異常に対する第1特徴量又は第2特徴量の寄与度を算出し、算出した寄与度に基づき、第1モーダルデータ又は第2モーダルデータの異常箇所を特定する。重要度の算出には、Lime(Local Interpretable Model-Agnostic Explanations)、SHAP(SHapley Additive exPlanations)、CAM(Class Activation Mapping)などの公知の手法が用いられる。LimeやSHAPは、入力を減らした際に、出力がどれほど変化したのかを特定し、出力が大きく変化したものほど重要度が高いと判断する手法である。CAMは、学習時の誤差逆伝搬を利用して重要度を算出する手法である。
 図8は実施の形態3に係る情報処理装置100が実行する処理の手順を説明するフローチャートである。制御部101は、実施の形態1と同様の手順にて、異常検知処理を実行し、異常を検知したか否かを判断する(ステップS301)。異常を検知しない場合(S301:NO)、制御部101は、以下の処理を実行することなく本フローチャートによる処理を終了する。
 異常を検知したと判断した場合(S301:YES)、制御部101は、異常に対する第1特徴量又は第2特徴量の寄与度を算出する(ステップS302)。制御部101は、Lime,SHAP,CAMなどの公知の手法を用いて、異常に対する第1特徴量又は第2特徴量の寄与度を算出することができる。
 制御部101は、算出した寄与度に基づき、異常への寄与度が高い第1モーダルデータ又は第2モーダルデータの箇所を特定する(ステップS303)。
 制御部101は、特定した異常箇所の情報を出力する(ステップS304)。具体的には、制御部101は、特定した異常箇所の情報を表示部105に表示させる。代替的に、特定した異常箇所の情報を通信部103よりユーザ端末に通知してもよい。
 以上のように、実施の形態3では、異常検知モデルMD10により異常を検知した場合、その要因分析が行える。
(実施の形態4)
 実施の形態4では、データ拡張処理について説明する。
 図9はデータ拡張処理の概要を説明する説明図である。実施の形態4に係る情報処理装置100は、上述した第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2に加え、データ生成モデルMD20を備える。
 実施の形態4におけるデータ生成モデルMD20は、第2特徴量の入力に応じて、第2モーダルデータの再現データを生成するように学習される。データ生成モデルMD20には、VAE(Variable Auto-Encoder)などの公知のモデルを利用することができる。VAEは、入力データを特徴量に圧縮し、その特徴量を元のデータに戻すという仕組みのオートエンコーダであり、特徴量に対して確率分布を導入することにより未知のデータを確率的に生成できるようにしたモデルである。本実施の形態では、入力データを特徴量に圧縮する処理を第2特徴量抽出モデルMD2により実行すればよい。
 なお、データ生成モデルMD20は公知の手法を用いて生成される。例えば、データ生成モデルMD20は、第2特徴量抽出モデルMD2への入力データと、データ生成モデルMD20からの出力データとを比較し、その比較結果に応じて、モデルの内部パラメータを更新する処理を繰り返し実行することにより生成される。
 データ生成モデルMD20は、VAEに限らず、GAN(Generative Adversarial Network)、SegNet、FCN(Fully Convolutional Network)、U-Net(U-Shaped Network)、PSPNet(Pyramid Scene Parsing Network)などを利用したモデルであってもよい。
 実施の形態4では、第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2は共通の特徴量を含むように学習される。具体的には、実施の形態1と同様の手法を用いて、第1モダリティ及び第2モダリティ間の相互関係が学習されることにより、第1特徴量抽出モデルMD1から抽出される第1特徴量と、第2特徴量抽出モデルMD2から抽出される第2特徴量とが共通の特徴量を含むように学習される。
 実施の形態4では、第1特徴量及び第2特徴量が共通の特徴量を含むため、第1特徴量をデータ生成モデルMD20に入力した場合であっても、第2モーダルデータの再現データを生成することができる。すなわち、第1モーダルデータをOESによるプラズマ発光強度の計測データ、第2モーダルデータをWISによる画像データとすると、プラズマ発光強度の計測データからWISによる画像データを生成することができる。
 図10は実施の形態4に係る情報処理装置100が実行する処理の手順を説明するフローチャートである。情報処理装置100の記憶部102には、第1モダリティ及び第2モダリティ間の相互関係を学習することにより得られる第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2が記憶されているものとする。また、記憶部102には、第1特徴量又は第2特徴量を入力した場合、第2モーダルの再現データを出力するよう学習されたデータ生成モデルMD20が記憶されているものとする。
 制御部101は、基板処理装置200から第1モーダルデータを取得する(ステップS401)。制御部101は、取得した第1モーダルデータを第1特徴量抽出モデルMD1に入力し、第1特徴量抽出モデルMD1による演算を実行することにより、第1特徴量を抽出する(ステップS402)。
 制御部101は、第1特徴量抽出モデルMD1を用いて抽出した第1特徴量をデータ生成モデルMD20に入力して、データ生成モデルMD20による演算を実行し、第2モーダルの再現データを生成する(ステップS403)。
 以上のように、実施の形態4では、第1モーダルデータから、第2モーダルの再現データを生成することができる。実施の形態4では、取得が容易なモーダルのデータ(例えばOESによるプラズマ発光強度のデータ)から、相対的に取得が困難なデータ(例えばSEM画像のような出来栄えを表すデータ)を生成することができる。また、相対的に取得が困難なデータを生成させることができるので、これらのデータを訓練データに用いることにより、任意の機械学習モデルの汎化・精度向上が望める。
(実施の形態5)
 実施の形態5では、出来栄えの予測処理について説明する。
 図11は予測処理の概要を説明する説明図である。実施の形態5に係る情報処理装置100は、上述した第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2に加え、予測モデルMD30を備える。
 第1特徴量抽出モデルMD1及び第2特徴量抽出モデルは、実施の形態4と同様に、第1特徴量及び第2特徴量が共通の特徴量を含むように学習される。実施の形態5における第1モーダルデータは、例えばOESによるプラズマ発光強度の計測データであり、第2モーダルデータは、例えば基板処理の出来栄えを表すSEM画像データである。
 予測モデルMD30は、第2モーダルデータ(SEM画像データ)を入力した場合、SEM画像の再現データを出力するように学習される。予測モデルMD30には、実施の形態4と同様に、VAE、GAN、SegNet、FCN、U-Net、PSPNetなどを利用したモデルである。予測モデルMD30は公知の手法を用いて生成される。例えば、予測モデルMD30は、第2特徴量抽出モデルMD2への入力データと、予測モデルMD30からの出力データとを比較し、その比較結果に応じて、モデルの内部パラメータを更新する処理を繰り返し実行することにより生成される。
 実施の形態5では、第1特徴量と第2特徴量とが共通の特徴量を含むため、第1特徴量を予測モデルMD30に入力した場合、第2モーダルの再現データを生成することができる。実施の形態5では、SEM画像のような相対的に取得が困難なモーダルデータが得られない場合であっても、プラズマ発光強度のような取得が容易なモーダルデータを用いることによって、出来栄えを予測することができる。
 また、実施の形態5では、出来栄えを予測できるので、予測した出来栄え(再現データ)と、所望の出来栄え(理想形状のデータ)とを比較し、その比較結果に応じて、基板処理におけるパラメータを調整してもよい。ここで、基板処理におけるパラメータとは、チャンバ内の温度、ガス圧、ガス流量、上部電極や下部電極に印加する高周波電圧の電圧値などの装置パラメータ若しくはレシピの設定値である。
 パラメータの調整にはルールベースの調整手法を用いられる。例えば、予測した再現データから推定されるパターン形状と理想形状とを比較し、予測したパターン形状と理想形状との差がX%である場合、高周波電圧の電圧値などの設定値をY%(YはXの関数)だけ変化させるといった規則に従って、パラメータを調整する。パラメータの調整手法は、ルールベースに限らず、機械学習モデルや統計モデルなどの任意の手法を用いてもよい。
 図12は実施の形態5に係る情報処理装置100が実行する処理の手順を説明するフローチャートである。情報処理装置100の記憶部102には、第1モダリティ及び第2モダリティ間の相互関係を学習することにより得られる第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2が記憶されているものとする。また、記憶部102には、第1特徴量又は第2特徴量を入力した場合、基板処理における出来栄えの情報(第2モーダルの再現データ)を出力するよう学習された予測モデルMD30が記憶されているものとする。
 制御部101は、基板処理装置200から第1モーダルデータを取得する(ステップS501)。第1モーダルデータは、例えばOESによるプラズマ発光強度の計測データである。制御部101は、取得した第1モーダルデータを第1特徴量抽出モデルMD1に入力し、第1特徴量抽出モデルMD1による演算を実行することにより、第1特徴量を抽出する(ステップS502)。
 制御部101は、第1特徴量抽出モデルMD1を用いて抽出した第1特徴量を予測モデルMD30に入力し、予測モデルMD30による演算を実行することにより、第2モーダルの再現データを生成する(ステップS503)。第2モーダルの再現データは、例えばSEM画像データであり、基板処理における出来栄えを表す。
 制御部101は、予測した再現データから推定されるパターン形状と理想形状とを比較し(ステップS504)、比較結果に応じて、基板処理におけるパラメータを調整する(ステップS505)。
 以上のように、実施の形態5では、相対的に取得が困難なSEM画像を用いずとも、OESのような比較的取得が容易なモーダルデータを用いて、出来栄えを予測することができる。また、実施の形態5では、出来栄えが所望の出来栄えに近づくように基板処理におけるパラメータを調整することができる。
(実施の形態6)
 実施の形態6では、ノイズ除去処理について説明する。
 図13はノイズ除去処理の概要を説明する説明図である。実施の形態6に係る情報処理装置100は、上述した第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2に加え、ノイズ除去モデルMD40を備える。
 第1特徴量抽出モデルMD1及び第2特徴量抽出モデルは、実施の形態4と同様に、第1特徴量及び第2特徴量が共通の特徴量を含むように学習される。実施の形態6における第1モーダルデータは、例えばOESによるプラズマ発光強度の計測データであり、第2モーダルデータは、例えばWISによる画像データである。
 ノイズ除去モデルMD40は、第2モーダルデータを入力した場合、ノイズのない第2モーダルの再現データを出力するように学習される。ノイズは、データにおける欠損値、外れ値、加算性白色ガウスノイズ(AWGN : Additive White Gaussian Noise)などである。ノイズ除去モデルMD40は、実施の形態4と同様に、VAE、GAN、SegNet、FCN、U-Net、PSPNetなどを利用したモデルである。ノイズ除去モデルMD40は公知の手法を用いて生成される。例えば、ノイズ除去モデルMD40は、ノイズのない入力データ(欠損等のない第2モーダルデータ)と、ノイズ除去モデルMD40からの出力データとを比較し、その比較結果に応じて、モデルの内部パラメータを更新する処理を繰り返し実行することにより生成される。
 実施の形態6では、第1特徴量と第2特徴量とが共通の特徴量を含むため、第1特徴量(若しくは第1特徴量及び第2特徴量の組み合わせ)をノイズ除去モデルMD40に入力した場合、ノイズのない第2モーダルの再現データを生成することができる。
 図14は実施の形態6に係る情報処理装置100が実行する処理の手順を説明するフローチャートである。情報処理装置100の記憶部102には、第1モダリティ及び第2モダリティ間の相互関係を学習することにより得られる第1特徴量抽出モデルMD1及び第2特徴量抽出モデルMD2が記憶されているものとする。また、記憶部102には、第1特徴量又は第2特徴量の少なくとも一方を入力した場合、ノイズのない第2モーダルの再現データを出力するよう学習されたノイズ除去モデルMD40が記憶されているものとする。
 制御部101は、基板処理装置200から第1モーダルデータを取得する(ステップS601)。第1モーダルデータは、例えばOESによるプラズマ発光強度の計測データである。制御部101は、取得した第1モーダルデータを第1特徴量抽出モデルMD1に入力し、第1特徴量抽出モデルMD1による演算を実行することにより、第1特徴量を抽出する(ステップS602)。
 制御部101は、第1特徴量抽出モデルMD1を用いて抽出した第1特徴量をノイズ除去モデルMD40に入力し、ノイズ除去モデルMD40による演算を実行することにより、ノイズのない第2モーダルの再現データを生成する(ステップS603)。第2モーダルの再現データは、例えばWISによる画像データである。
 以上のように、実施の形態6では、入力(第1モーダルデータ)にノイズが含まれている場合であっても、ノイズのない第2モーダルデータを再現できる。
 今回開示された実施形態は、全ての点において例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
 例えば、実施の形態1~6では、2種類のモダリティ間の相互関係を学習した特徴量抽出モデルを生成する構成としたが、3種類以上のモダリティ間の相互関係を学習した特徴量抽出モデルを生成する構成としてもよい。
 各実施形態に記載した事項は相互に組み合わせることが可能である。また、請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、請求の範囲には他の2以上のクレームを引用するクレームを記載する形式(マルチクレーム形式)を用いているが、これに限るものではない。マルチクレームを少なくとも一つ引用するマルチクレーム(マルチマルチクレーム)を記載する形式を用いて記載してもよい。
 100 情報処理装置
 101 制御部
 102 記憶部
 103 通信部
 104 操作部
 105 表示部
 200 基板処理装置
 PG1 モデル生成プログラム
 PG2 解析処理プログラム
 MD1 第1特徴量抽出モデル
 MD2 第2特徴量抽出モデル
 MD10 異常検知モデル
 RM 記録媒体
 

Claims (11)

  1.  基板処理に関する第1モダリティのデータを入力した場合に第1特徴量を出力するよう構成される第1特徴量抽出モデルから、第1特徴量を取得し、
     前記第1モダリティとは異なる第2モダリティのデータを入力した場合に第2特徴量を出力するよう構成される第2特徴量抽出モデルから、第2特徴量を取得し、
     取得した第1特徴量と第2特徴量との間の類似度に応じて、前記第1特徴量抽出モデル及び前記第2特徴量抽出モデルの少なくとも一方を学習する
     処理をコンピュータに実行させるためのコンピュータプログラム。
  2.  前記第1特徴量抽出モデル及び前記第2特徴量抽出モデルの一方を固定し、他方を前記類似度が高くなるように学習する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  3.  前記基板処理に関する参照データを取得し、
     取得した参照データに基づき、前記第1特徴量と前記第2特徴量との間に要求する類似度を設定する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  4.  前記第1特徴量又は前記第2特徴量の入力に応じて前記基板処理における異常の有無に関する情報を出力するよう構成される異常検知モデルを用いて、前記基板処理における異常を検知する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  5.  前記異常に対する前記第1特徴量又は前記第2特徴量の寄与度を算出し、
     算出した寄与度に基づき、前記第1モダリティのデータ又は前記第2モダリティのデータにおける異常箇所を特定する
     処理を前記コンピュータに実行させるための請求項4記載のコンピュータプログラム。
  6.  前記第1特徴量抽出モデル及び前記第2特徴量抽出モデルは、前記第1特徴量と前記第2特徴量とが共通の特徴量を含むように学習されており、
     前記第1特徴量の入力に応じて前記第1モダリティの再現データを出力するよう構成されるデータ生成モデルに、前記第2特徴量を入力して、前記第1モダリティの再現データを生成する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  7.  前記第1特徴量又は前記第2特徴量の入力に応じて前記基板処理における出来栄えに関する情報を出力するよう構成される予測モデルを用いて、前記基板処理における出来栄えを予測する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  8.  前記予測モデルを用いて予測した出来栄えと所望の出来栄えとを比較し、
     比較結果に基づき、基板処理におけるパラメータを調整する
     処理を前記コンピュータに実行させるための請求項7記載のコンピュータプログラム。
  9.  前記第1特徴量又は前記第2特徴量の入力に応じてノイズを除去した第2モダリティのデータを出力するよう構成されるノイズ除去モデルを用いて、ノイズを除去した第2モダリティのデータを生成する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  10.  記憶部と、
     演算部と
     を備え、
     前記記憶部は、基板処理に関する第1モダリティのデータを入力した場合に第1特徴量を出力するよう構成される第1特徴量抽出モデルと、前記第1モダリティとは異なる第2モダリティのデータを入力した場合に第2特徴量を出力するよう構成される第2特徴量抽出モデルとを記憶してあり、
     前記演算部は、前記第1特徴量抽出モデルより得られる第1特徴量と、前記第2特徴量抽出モデルより得られる第2特徴量との類似度に応じて、前記第1特徴量抽出モデル及び前記第2特徴量抽出モデルの少なくとも一方を学習する
     情報処理装置。
  11.  基板処理に関する第1モダリティのデータを入力した場合に第1特徴量を出力するよう構成される第1特徴量抽出モデルから、第1特徴量を取得し、
     前記第1モダリティとは異なる第2モダリティのデータを入力した場合に第2特徴量を出力するよう構成される第2特徴量抽出モデルから、第2特徴量を取得し、
     取得した第1特徴量と第2特徴量との間の類似度に応じて、前記第1特徴量抽出モデル及び前記第2特徴量抽出モデルの少なくとも一方を学習する
     処理をコンピュータにより実行する情報処理方法。
     
PCT/JP2024/012199 2023-04-06 2024-03-27 コンピュータプログラム、情報処理装置、及び情報処理方法 WO2024210013A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023062215 2023-04-06
JP2023-062215 2023-04-06

Publications (1)

Publication Number Publication Date
WO2024210013A1 true WO2024210013A1 (ja) 2024-10-10

Family

ID=92971697

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/012199 WO2024210013A1 (ja) 2023-04-06 2024-03-27 コンピュータプログラム、情報処理装置、及び情報処理方法

Country Status (1)

Country Link
WO (1) WO2024210013A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111512324A (zh) * 2018-02-07 2020-08-07 应用材料以色列公司 半导体样品的基于深度学习的检查的方法及其系统
JP2021189247A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
WO2022009258A1 (ja) * 2020-07-06 2022-01-13 日本電気株式会社 学習装置、特徴量計算プログラム生成方法、類似度計算機、類似度計算方法、学習プログラム記録媒体、及び類似度計算プログラム記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111512324A (zh) * 2018-02-07 2020-08-07 应用材料以色列公司 半导体样品的基于深度学习的检查的方法及其系统
JP2021189247A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
WO2022009258A1 (ja) * 2020-07-06 2022-01-13 日本電気株式会社 学習装置、特徴量計算プログラム生成方法、類似度計算機、類似度計算方法、学習プログラム記録媒体、及び類似度計算プログラム記録媒体

Similar Documents

Publication Publication Date Title
US11948061B2 (en) Deep auto-encoder for equipment health monitoring and fault detection in semiconductor and display process equipment tools
TWI822939B (zh) 在半導體設備工具中以類神經網路進行腔室匹配
JP7408653B2 (ja) 非定常性機械性能の自動分析
TWI672599B (zh) 探索裝置及探索方法
US12051232B2 (en) Anomaly detection apparatus, anomaly detection method, and program
US11227193B2 (en) Automated image measurement for process development and optimization
TWI783147B (zh) 決定處理流程之系統及處理條件之決定方法
US11625811B2 (en) Adaptive non-rigid targeted deformation of images for synthetic image generation
JP6718500B2 (ja) 生産システムにおける出力効率の最適化
WO2019215904A1 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
WO2024210013A1 (ja) コンピュータプログラム、情報処理装置、及び情報処理方法
KR102554791B1 (ko) 데이터 세트로부터의 피쳐의 추출
US20220076058A1 (en) Estimation device, estimation method, and computer program product
WO2018198298A1 (ja) パラメータ推定装置、パラメータ推定方法、及びコンピュータ読み取り可能な記録媒体
WO2022190301A1 (ja) 学習装置、学習方法、及びコンピュータ可読媒体
WO2024203739A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
WO2024195506A1 (ja) 状態判定方法、データ生成方法、状態判定装置、およびデータ生成装置
WO2024203791A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
US20240177286A1 (en) Modeling for indexing and semiconductor defect image retrieval
US20230367302A1 (en) Holistic analysis of multidimensional sensor data for substrate processing equipment
KR20220165617A (ko) 이미지 분석 방법 및 이를 수행하는 이미지 분석 장치
JP2007156954A (ja) 信頼度テーブル作成方法、オプティカルフロー推定方法、信頼度テーブル作成装置、オプティカルフロー推定装置、及びプログラム
CN118891594A (zh) 制程控制旋钮估计
KR20200137130A (ko) 영 과잉 데이터의 모델을 생성하는 방법 및 그 장치