[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20240149554A - Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors - Google Patents

Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors Download PDF

Info

Publication number
KR20240149554A
KR20240149554A KR1020230045224A KR20230045224A KR20240149554A KR 20240149554 A KR20240149554 A KR 20240149554A KR 1020230045224 A KR1020230045224 A KR 1020230045224A KR 20230045224 A KR20230045224 A KR 20230045224A KR 20240149554 A KR20240149554 A KR 20240149554A
Authority
KR
South Korea
Prior art keywords
time series
data
feature
abnormal
feature variable
Prior art date
Application number
KR1020230045224A
Other languages
Korean (ko)
Inventor
김명호
서민지
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020230045224A priority Critical patent/KR20240149554A/en
Priority to PCT/KR2024/004152 priority patent/WO2024210424A1/en
Publication of KR20240149554A publication Critical patent/KR20240149554A/en

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0243Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0275Fault isolation and identification, e.g. classify fault; estimate cause or root of failure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치가 제공된다. 상기 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치는, 잔차 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분하되, 상기 정상 데이터로 구분된 다수의 데이터 중에서 상기 이상 탐지 모델이 기 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 비교 기준 데이터로 설정하는 데이터 이상 여부 탐지부; 상기 이상 데이터 또는 정상 데이터를 구성하는 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 조건을 만족하는 제2 특징 변수를 선별하는 특징 변수 선별부; 및 상기 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI)를 적용할 제3 특징 변수를 추출하고, 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 이상장치 판별부를 포함할 수 있다.An abnormal device determination device based on distance calculation between time series vectors is provided. The abnormal device determination device based on distance calculation between time series vectors may include a data abnormality detection unit which detects whether time series data collected from at least one device used in a manufacturing process is abnormal through a residual-based abnormality detection model, and distinguishes the time series data into abnormal data and normal data, and sets data having a relatively lowest error rate with respect to standard normal data learned by the abnormality detection model among a plurality of data distinguished as normal data as a comparison reference data; a feature variable selection unit which selects a second feature variable satisfying a condition set in advance for abnormal device determination from among first feature variables constituting the abnormal data or normal data; and an abnormal device determination unit which extracts a third feature variable to which XAI (explainable AI) is applied from a list composed of the selected second feature variables, and distinguishes the abnormal device through abnormality detection of the XAI for a list composed of the extracted third feature variables.

Description

시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치 및 방법{Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors}{Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors}

본 발명은 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치 및 방법에 관련된 것으로, 보다 구체적으로는, 이상 감지 시 이상이 의심되는 장치들을 효율적으로 판별할 수 있음은 물론, 이상장치 판별에 대한 신뢰성을 확보할 수 있는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치 및 방법에 관련된 것이다.The present invention relates to a device and method for determining an abnormal device based on distance calculation between time series vectors, and more specifically, to a device and method for determining an abnormal device based on distance calculation between time series vectors, which can efficiently determine devices suspected of having an abnormality when an abnormality is detected, and also ensure reliability in determining an abnormal device.

4차 산업혁명의 발달로 제조 공정이 스마트화되면서, 각종 제조 공정 데이터를 실시간으로 수집할 수 있게 되었다. 이에 따라, 설비의 이상을 자동으로 탐지할 수 있는 분야에 대한 연구도 적극적으로 진행되고 있다.As the manufacturing process becomes smarter due to the development of the 4th industrial revolution, various manufacturing process data can be collected in real time. Accordingly, research is also actively being conducted in areas where abnormalities in equipment can be automatically detected.

XGBoost(Extreme Gradient Boosting), OCSVM(One-class Support Vector Machine) 등의 머신러닝 알고리즘이나, 오토인코더, GAN 등의 신경망 알고리즘을 활용한 연구들이 진행되고 있으며, 높은 정확도로 설비의 이상을 탐지할 수 있어, 다양한 분야의 제조 공정에서 인공지능 기반 이상 탐지 모델이 활용되고 있다.Research is being conducted using machine learning algorithms such as XGBoost (Extreme Gradient Boosting) and OCSVM (One-class Support Vector Machine), as well as neural network algorithms such as autoencoders and GANs. Since they can detect equipment abnormalities with high accuracy, AI-based abnormality detection models are being utilized in manufacturing processes in various fields.

최근에는 인공지능 기반의 이상 탐지의 성능이 향상되면서, 인공지능 모델이 결과를 도출하는 과정을 분석하고자 하는 연구가 진행되고 있다. 특히, 의료, 제조와 같은 특정 분야에서는 질병 및 고장 여부의 예측뿐만 아니라, 질병의 원인이나 이상 장비의 종류 등 모델이 해당 결과를 판단하게 된 원인이 되는 특징 변수들을 판단하는 것 또한 중요하기 때문에, 모델이 내린 결정과 그 작동 원리를 사람이 이해하기 위한 XAI(explainable AI)에 대한 연구가 적극적으로 진행되고 있다. 이에 따라, 다양한 분야에서 문제를 해결하고 있는 모델을 설명하기 위하여 다양한 방법의 XAI 연구가 적용되고 있다.Recently, as the performance of AI-based anomaly detection has improved, research is being conducted to analyze the process by which AI models derive results. In particular, in certain fields such as medicine and manufacturing, it is important not only to predict disease and malfunction, but also to determine the characteristic variables that cause the model to determine the results, such as the cause of the disease or the type of abnormal equipment. Therefore, research on XAI (Explainable AI) is being actively conducted so that people can understand the decisions made by the model and its operating principles. Accordingly, various methods of XAI research are being applied to explain models that solve problems in various fields.

하지만, 제조 분야에서 수집한 데이터는 비정상 데이터의 수가 정상 데이터보다 현저히 적은 클래스 불균형(Class Imbalance) 현상을 가지기 때문에, 주로 XAI가 설명하는 예측이나 분류 모델이 아닌, 오토인코더, 변분 오토인코더(Variational Autoencoder), GAN 등의 잔차(Residual Error) 기반 모델을 사용하고 있어, 다른 전처리 과정 없이 기존에 연구된 XAI를 활용하여 이상의 원인을 찾기 어렵다는 문제점을 가진다.However, since data collected in the manufacturing field has a class imbalance phenomenon in which the number of abnormal data is significantly less than that of normal data, it mainly uses residual error-based models such as autoencoders, variational autoencoders, and GANs, rather than prediction or classification models explained by XAI, which has the problem that it is difficult to find the cause of the abnormality by utilizing existing XAI without another preprocessing process.

이상 탐지 분야에서 주로 사용되는 잔차 기반 모델이란, 정상 데이터들의 특성을 학습하여 압축시키고, 이를 다시 입력 데이터로 복원하여 모델에 입력된 데이터의 특징을 학습하는 인공지능 모델을 의미한다. 잔차 기반 모델은, 모델에 입력된 데이터와 모델에서 출력된 데이터와의 차이가 일정 크기 이상이면, 이상(Abnormal), 일정 크기 이하이면 정상(Normal)으로 판별한다.The residual-based model, which is mainly used in the field of anomaly detection, refers to an artificial intelligence model that learns the characteristics of normal data, compresses them, and then restores them as input data to learn the characteristics of the data input to the model. The residual-based model determines that if the difference between the data input to the model and the data output from the model is greater than a certain size, it is abnormal, and if it is less than a certain size, it is normal.

이와 같은 잔차 기반 이상 탐지 모델들은 입력 데이터로 복원하는 것이 목적이므로, 예측, 분류와 같이 모델의 출력이 명확하지 않다는 특징을 가진다. 따라서, 모델이 내린 명확한 결론을 설명하기 위하여 기존에 연구된 XAI를 활용하기에는 정확도 및 신뢰도 상의 문제를 가진다.Since these residual-based anomaly detection models aim to restore input data, they have the characteristic that the output of the model, such as prediction and classification, is not clear. Therefore, there are problems in terms of accuracy and reliability when utilizing XAI, which has been studied previously, to explain the clear conclusions made by the model.

본 발명이 해결하고자 하는 일 기술적 과제는, 이상 감지 시 이상이 의심되는 장치들을 효율적으로 판별할 수 있음은 물론, 이상장치 판별에 대한 신뢰성을 확보할 수 있는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치 및 방법을 제공하는 데 있다.The technical problem to be solved by the present invention is to provide a device and method for determining an abnormal device based on distance calculation between time series vectors, which can efficiently determine devices suspected of having an abnormality when an abnormality is detected, and also ensure reliability in determining the abnormal device.

본 발명이 해결하고자 하는 기술적 과제는 상술된 것에 제한되지 않는다.The technical problems to be solved by the present invention are not limited to those described above.

상기 일 기술적 과제를 해결하기 위해, 본 발명은 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치를 제공한다.In order to solve the above technical problem, the present invention provides an abnormality determination device based on distance calculation between time series vectors.

일 실시 예에 따르면, 상기 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치는, 잔차(Residual Error) 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분하되, 상기 정상 데이터로 구분된 다수의 데이터 중에서 상기 이상 탐지 모델이 기 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 비교 기준 데이터로 설정하는 데이터 이상 여부 탐지부; 상기 이상 데이터 또는 정상 데이터를 구성하는 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 조건을 만족하는 제2 특징 변수를 선별하는 특징 변수 선별부; 및 상기 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI)를 적용할 제3 특징 변수를 추출하고, 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 이상장치 판별부를 포함할 수 있다.According to one embodiment, the device for determining an abnormal device based on distance calculation between time series vectors may include a data abnormality detection unit which detects an abnormality in time series data collected from at least one device used in a manufacturing process through a residual error-based anomaly detection model, and divides the time series data into abnormal data and normal data, and sets data having a relatively lowest error rate with respect to standard normal data learned by the anomaly detection model among a plurality of data divided into normal data as a comparison reference data; a feature variable selection unit which selects a second feature variable satisfying a condition set in advance for determining an abnormal device from among first feature variables constituting the abnormal data or normal data; and an abnormal device determination unit which extracts a third feature variable to which an XAI (explainable AI) is to be applied from a list composed of the selected second feature variables, and determines an abnormal device through abnormality detection of the XAI for a list composed of the extracted third feature variables.

일 실시 예에 따르면, 상기 특징 변수 선별부는, 군집화 알고리즘을 통하여 상기 제1 특징 변수를 그룹화하여 특징 변수 그룹을 생성하는 특징 변수 그룹 생성 모듈; 상기 구분된 이상 데이터 또는 정상 데이터 각각에서, 전체 시계열 데이터를 이루는 특징 변수들 중에서, 상기 특징 변수 그룹을 이루는 특정한 특징 변수를 제외한 시계열 데이터에 대한 임베딩을 통하여 제1 시계열 벡터를 생성하고, 상기 비교 기준 데이터에 대한 임베딩을 통하여 제2 시계열 벡터를 생성하는 시계열 벡터 생성 모듈; 및 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 이용하여 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 계산하는 연산 모듈을 포함할 수 있다.According to one embodiment, the feature variable selection unit may include a feature variable group generation module that groups the first feature variable through a clustering algorithm to generate a feature variable group; a time series vector generation module that generates a first time series vector through embedding for time series data excluding a specific feature variable forming the feature variable group from among feature variables forming the entire time series data in each of the separated abnormal data or normal data, and generates a second time series vector through embedding for the comparison reference data; and a calculation module that calculates a similarity between the first time series vector and the second time series vector by using a distance between the first time series vector and the second time series vector.

일 실시 예에 따르면, 상기 특징 변수 그룹은 상기 적어도 하나의 장치로부터 수집한 데이터에 기반하여 생성된 특징 변수 그룹 및 특징 변수 간의 상관 관계에 기반하여 생성된 특징 변수 그룹으로 구분될 수 있다.According to one embodiment, the feature variable groups may be divided into feature variable groups generated based on data collected from the at least one device and feature variable groups generated based on correlations between feature variables.

일 실시 예에 따르면, 상기 특징 변수 선별부는, 상기 정상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 선택하고, 상기 이상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 선택하되, 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터 및 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 보관할 수 있다.According to one embodiment, the feature variable selection unit selects a first time series vector having a long relative distance from the second time series vector from among a plurality of first time series vectors generated based on the normal data, and selects a first time series vector having a short relative distance from the second time series vector from among a plurality of first time series vectors generated based on the abnormal data, and may store first feature variables that were excluded when generating the first time series vector having a long relative distance from the second time series vector and the first time series vector having a short relative distance from the second time series vector.

일 실시 예에 따르면, 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 작은 제2 특징 변수로 선별되고, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 큰 제2 특징 변수로 선별될 수 있다.According to one embodiment, when generating a first time series vector having a long relative distance from the second time series vector, a first feature variable that was excluded may be selected as a second feature variable having the least influence on data anomalies, and when generating a first time series vector having a short relative distance from the second time series vector, a first feature variable that was excluded may be selected as a second feature variable having the greatest influence on data anomalies.

일 실시 예에 따르면, 상기 제3 특징 변수는 상기 제2 특징 변수 중에서 데이터 이상에 미치는 영향력을 기준으로 선별된 변수이며, 상기 이상장치 판별부는 데이터 이상에 미치는 영향력이 큰 순으로, 상기 제2 특징 변수 중에서 상기 제3 특징 변수를 추출할 수 있다.According to one embodiment, the third feature variable is a variable selected from the second feature variables based on its influence on data anomalies, and the abnormality device determining unit can extract the third feature variable from the second feature variables in order of greatest influence on data anomalies.

일 실시 예에 따르면, 상기 제1 특징 변수는 센서의 종류, 제조 공정 설정 값 및 현재 장치의 처리 속도를 포함할 수 있다.In one embodiment, the first characteristic variable may include the type of sensor, the manufacturing process settings, and the processing speed of the current device.

일 실시 예에 따르면, 데이터 전처리부를 더 포함하되, 상기 데이터 전처리부는 상기 시계열 데이터에 결측치가 있는 경우, 단순 이동 평균 방법을 통하여 상기 시계열 데이터를 보간하고, 데이터 정규화 과정을 통하여 상기 시계열 데이터 값을 표준화하되, 상기 시계열 데이터의 길이가 긴 경우 슬라이딩 윈도우 기법을 통하여 특정 기간 단위로 상기 시계열 데이터를 잘라 서브 셋 집합으로 만들 수 있다.According to one embodiment, the method further comprises a data preprocessing unit, wherein, if there is a missing value in the time series data, the data preprocessing unit interpolates the time series data through a simple moving average method, standardizes the time series data values through a data normalization process, and, if the length of the time series data is long, cuts the time series data into subsets by a specific period unit through a sliding window technique.

한편, 본 발명은, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 방법을 제공한다.Meanwhile, the present invention provides a method for determining an abnormal device based on calculating the distance between time series vectors.

일 실시 예에 따르면, 상기 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 방법은, 잔차 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분하되, 상기 정상 데이터로 구분된 다수의 데이터 중에서 상기 이상 탐지 모델이 기 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 비교 기준 데이터로 설정하는 단계; 상기 이상 데이터 또는 정상 데이터를 구성하는 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 조건을 만족하는 제2 특징 변수를 선별하는 단계; 및 상기 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI)를 적용할 제3 특징 변수를 추출하고, 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 단계를 포함할 수 있다.According to one embodiment, the method for determining an abnormal device based on distance calculation between time series vectors may include the steps of: detecting whether there is an abnormality in time series data collected from at least one device used in a manufacturing process through a residual-based anomaly detection model, and distinguishing the time series data into abnormal data and normal data, and setting data having a relatively lowest error rate with respect to standard normal data learned by the anomaly detection model among a plurality of data distinguished as normal data as comparison reference data; selecting a second feature variable satisfying a condition set in advance for determining an abnormal device from among first feature variables constituting the abnormal data or normal data; and extracting a third feature variable to which an XAI (explainable AI) is to be applied from a list composed of the selected second feature variables, and distinguishing an abnormal device through anomaly detection of the XAI for a list composed of the extracted third feature variables.

일 실시 예에 따르면, 상기 제2 특징 변수를 선별하는 단계는, 군집화 알고리즘을 통하여 상기 제1 특징 변수를 그룹화하여 특징 변수 그룹을 생성하는 제1 과정; 상기 구분된 이상 데이터 또는 정상 데이터 각각에서 상기 특징 변수 그룹을 이루는 제1 특징 변수를 제외한 시계열 데이터에 대한 임베딩을 통하여 제1 시계열 벡터를 생성하고, 상기 비교 기준 데이터에 대한 임베딩을 통하여 제2 시계열 벡터를 생성하는 제2 과정; 및 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 이용하여 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 계산하는 제3 과정을 포함할 수 있다.According to one embodiment, the step of selecting the second feature variable may include a first process of generating a feature variable group by grouping the first feature variables through a clustering algorithm; a second process of generating a first time series vector through embedding for time series data excluding the first feature variables forming the feature variable group from each of the separated abnormal data or normal data, and generating a second time series vector through embedding for the comparison reference data; and a third process of calculating a similarity between the first time series vector and the second time series vector by using a distance between the first time series vector and the second time series vector.

일 실시 예에 따르면, 상기 제2 특징 변수를 선별하는 단계는, 상기 정상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 선택하고, 상기 이상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 선택하되, 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터 및 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 보관할 수 있다.According to one embodiment, the step of selecting the second feature variable may include: selecting a first time series vector having a long relative distance from the second time series vector from among a plurality of first time series vectors generated based on the normal data; and selecting a first time series vector having a short relative distance from the second time series vector from among a plurality of first time series vectors generated based on the abnormal data; and, when generating the first time series vector having a long relative distance from the second time series vector and the first time series vector having a short relative distance from the second time series vector, the first feature variable that was excluded may be stored.

일 실시 예에 따르면, 상기 제2 특징 변수를 선별하는 단계에서는 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 작은 제2 특징 변수로 선별하고, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 큰 제2 특징 변수로 선별하되, 상기 제3 특징 변수는 상기 제2 특징 변수 중에서 데이터 이상에 미치는 영향력을 기준으로 선별된 변수이며, 상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 단계에서는 데이터 이상에 미치는 영향력이 큰 순으로, 상기 제2 특징 변수 중에서 상기 제3 특징 변수를 추출할 수 있다.According to one embodiment, in the step of selecting the second feature variable, a first feature variable that was excluded when generating a first time series vector with a long relative distance from the second time series vector is selected as a second feature variable with the smallest influence on data anomalies, and a first feature variable that was excluded when generating a first time series vector with a short relative distance from the second time series vector is selected as a second feature variable with the largest influence on data anomalies, and the third feature variable is a variable selected from among the second feature variables based on its influence on data anomalies, and in the step of determining an abnormal device through abnormality detection of the XAI, the third feature variable can be extracted from the second feature variables in the order of greatest influence on data anomalies.

본 발명의 실시 예에 따르면, 잔차 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분하되, 상기 정상 데이터로 구분된 다수의 데이터 중에서 상기 이상 탐지 모델이 기 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 비교 기준 데이터로 설정하는 데이터 이상 여부 탐지부; 상기 이상 데이터 또는 정상 데이터를 구성하는 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 조건을 만족하는 제2 특징 변수를 선별하는 특징 변수 선별부; 및 상기 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI)를 적용할 제3 특징 변수를 추출하고, 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 이상장치 판별부를 포함할 수 있다.According to an embodiment of the present invention, a data abnormality detection unit detects whether there is an abnormality in time series data collected from at least one device used in a manufacturing process through a residual-based anomaly detection model, and divides the time series data into abnormal data and normal data, and sets data having a relatively lowest error rate with respect to standard normal data learned by the anomaly detection model among a plurality of data divided into normal data as a comparison reference data; a feature variable selection unit selects a second feature variable satisfying a condition set in advance for determining an abnormal device from among first feature variables constituting the abnormal data or normal data; and an abnormal device determination unit extracts a third feature variable to which an XAI (explainable AI) is to be applied from a list composed of the selected second feature variables, and determines the abnormal device through abnormality detection of the XAI for a list composed of the extracted third feature variables.

이와 같이, 이상장치 판별을 위하여 공정 과정에서 수집된 전체 데이터를 사용하지 않고, 상기 수집된 전체 데이터에서 사용될 데이터의 종류를 선별함으로써, 이상 감지 시 이상이 의심되는 장치들을 효율적으로 판별할 수 있음은 물론, 이상장치 판별에 대한 신뢰성을 확보할 수 있는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치 및 방법이 제공될 수 있으며, 이를 통하여, 공정 관리자가 공정 중 이상 발생 시 신속하고 적절한 대응을 할 수 있도록 도움을 줄 수 있다.In this way, by selecting the type of data to be used from the entire data collected during the process for determining an abnormal device, rather than using the entire data collected during the process, a device and method for determining an abnormal device based on distance calculation between time series vectors can be provided, which can efficiently determine devices suspected of having an abnormality when an abnormality is detected, and can secure reliability in determining an abnormal device, thereby helping a process manager to respond quickly and appropriately when an abnormality occurs during the process.

도 1은 본 발명의 일 실시 예에 따른 이상장치 판별 장치를 나타낸 구성도이다.
도 2는 본 발명의 일 실시 예에 따른 이상장치 판별 장치를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 이상장치 판별 장치의 데이터 전처리부를 설명하기 위한 참고도이다.
도 4는 본 발명의 일 실시 예에 따른 이상장치 판별 장치의 데이터 이상 여부 탐지부를 설명하기 위한 참고도이다.
도 5는 본 발명의 일 실시 예에 따른 이상장치 판별 장치의 특징 변수 선별부를 나타낸 구성도이다.
도 6 및 도 7은 본 발명의 일 실시 예에 따른 이상장치 판별 장치에서, 특징 변수 선별부의 특징 변수 그룹 생성 모듈을 설명하기 위한 참고도들이다.
도 8은 본 발명의 일 실시 예에 따른 이상장치 판별 장치에서, 특징 변수 선별부의 시계열 벡터 생성 모듈을 설명하기 위한 참고도이다.
도 9 및 도 10은 본 발명의 일 실시 예에 따른 이상장치 판별 장치에서, 특징 변수 선별부의 연산 모듈을 설명하기 위한 참고도들이다.
도 11은 본 발명의 일 실시 예에 따른 이상장치 판별 방법을 나타낸 흐름도이다.
도 12는 본 발명의 일 실시 예에 따른 이상장치 판별 방법을 설명하기 위한 참고도이다.
Figure 1 is a configuration diagram showing an abnormal device determination device according to one embodiment of the present invention.
FIG. 2 is a block diagram illustrating an abnormal device determination device according to an embodiment of the present invention.
FIG. 3 is a reference diagram for explaining a data preprocessing unit of an abnormal device determination device according to an embodiment of the present invention.
FIG. 4 is a reference diagram for explaining a data abnormality detection unit of an abnormal device determination device according to one embodiment of the present invention.
FIG. 5 is a configuration diagram showing a feature variable selection unit of an abnormal device determination device according to an embodiment of the present invention.
FIGS. 6 and 7 are reference diagrams for explaining a feature variable group generation module of a feature variable selection unit in an abnormal device determination device according to one embodiment of the present invention.
FIG. 8 is a reference diagram for explaining a time series vector generation module of a feature variable selection unit in an abnormal device determination device according to one embodiment of the present invention.
FIGS. 9 and 10 are reference diagrams for explaining the operation module of the feature variable selection unit in the abnormal device determination device according to one embodiment of the present invention.
Figure 11 is a flowchart illustrating a method for determining an abnormal device according to an embodiment of the present invention.
Figure 12 is a reference diagram for explaining a method for determining an abnormal device according to one embodiment of the present invention.

이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명할 것이다. 그러나 본 발명의 기술적 사상은 여기서 설명되는 실시 예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시 예는 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the attached drawings. However, the technical idea of the present invention is not limited to the embodiments described herein and may be embodied in other forms. Rather, the embodiments introduced herein are provided so that the disclosed content can be thorough and complete and so that the idea of the present invention can be sufficiently conveyed to those skilled in the art.

본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제3의 구성요소가 개재될 수도 있다는 것을 의미한다. 또한, 도면들에 있어서, 형상 및 크기는 기술적 내용의 효과적인 설명을 위해 과장된 것이다.In this specification, when it is mentioned that a component is on another component, it means that it can be formed directly on the other component, or a third component can be interposed between them. Also, in the drawings, the shape and size are exaggerated for the effective explanation of the technical contents.

또한, 본 명세서의 다양한 실시 예 들에서 제1, 제2, 제3 등의 용어가 다양한 구성요소들을 기술하기 위해서 사용되었지만, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 따라서, 어느 한 실시 예에 제1 구성요소로 언급된 것이 다른 실시 예에서는 제2 구성요소로 언급될 수도 있다. 여기에 설명되고 예시되는 각 실시 예는 그것의 상보적인 실시 예도 포함한다. 또한, 본 명세서에서 '및/또는'은 전후에 나열한 구성요소들 중 적어도 하나를 포함하는 의미로 사용되었다.Also, although terms such as first, second, third, etc. have been used in the various embodiments of this specification to describe various components, these components should not be limited by these terms. These terms are only used to distinguish one component from another. Thus, what is referred to as a first component in one embodiment may be referred to as a second component in another embodiment. Each embodiment described and illustrated herein also includes its complementary embodiments. Also, "and/or" has been used herein to mean including at least one of the components listed before and after.

명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 또한, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 구성요소 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 구성요소 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하는 것으로 이해되어서는 안 된다. 또한, 본 명세서에서 "연결"은 복수의 구성 요소를 간접적으로 연결하는 것, 및 직접적으로 연결하는 것을 모두 포함하는 의미로 사용된다.In the specification, singular expressions include plural expressions unless the context clearly indicates otherwise. In addition, terms such as "comprise" or "have" should be understood to specify the presence of a feature, number, step, component, or combination thereof described in the specification, but should not be construed as excluding the possibility of the presence or addition of one or more other features, numbers, steps, components, or combinations thereof. In addition, in the present specification, "connection" is used to mean both indirectly connecting a plurality of components and directly connecting them.

또한, 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다.In addition, when describing the present invention below, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description will be omitted.

도 1은 본 발명의 일 실시 예에 따른 이상장치 판별 장치를 나타낸 구성도이고, 도 2는 본 발명의 일 실시 예에 따른 이상장치 판별 장치를 설명하기 위한 블록도이며, 도 3은 본 발명의 일 실시 예에 따른 이상장치 판별 장치의 데이터 전처리부를 설명하기 위한 참고도이고, 도 4는 본 발명의 일 실시 예에 따른 이상장치 판별 장치의 데이터 이상 여부 탐지부를 설명하기 위한 참고도이며, 도 5는 본 발명의 일 실시 예에 따른 이상장치 판별 장치의 특징 변수 선별부를 나타낸 구성도이고, 도 6 및 도 7은 본 발명의 일 실시 예에 따른 이상장치 판별 장치에서, 특징 변수 선별부의 특징 변수 그룹 생성 모듈을 설명하기 위한 참고도들이며, 도 8은 본 발명의 일 실시 예에 따른 이상장치 판별 장치에서, 특징 변수 선별부의 시계열 벡터 생성 모듈을 설명하기 위한 참고도이고, 도 9 및 도 10은 본 발명의 일 실시 예에 따른 이상장치 판별 장치에서, 특징 변수 선별부의 연산 모듈을 설명하기 위한 참고도들이다.FIG. 1 is a block diagram illustrating an abnormal device determination device according to an embodiment of the present invention, FIG. 2 is a block diagram illustrating an abnormal device determination device according to an embodiment of the present invention, FIG. 3 is a reference diagram illustrating a data preprocessing unit of an abnormal device determination device according to an embodiment of the present invention, FIG. 4 is a reference diagram illustrating a data abnormality detection unit of an abnormal device determination device according to an embodiment of the present invention, FIG. 5 is a diagram illustrating a feature variable selection unit of an abnormal device determination device according to an embodiment of the present invention, FIG. 6 and FIG. 7 are reference diagrams illustrating a feature variable group generation module of the feature variable selection unit in an abnormal device determination device according to an embodiment of the present invention, FIG. 8 is a reference diagram illustrating a time series vector generation module of the feature variable selection unit in an abnormal device determination device according to an embodiment of the present invention, and FIG. 9 and FIG. 10 are reference diagrams illustrating an operation module of the feature variable selection unit in an abnormal device determination device according to an embodiment of the present invention.

도 1 및 도 2에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치(100)는 제조 공정 중에 이상이 감지되는 경우 이상이 의심되는 장치를 판별하기 위한 장치이다.As illustrated in FIGS. 1 and 2, an abnormal device determination device (100) based on distance calculation between time series vectors according to one embodiment of the present invention is a device for determining a device suspected of having an abnormality when an abnormality is detected during a manufacturing process.

이때, 본 발명의 일 실시 예에 따른 이상장치 판별 장치(100)는 공정 과정에서 수집된 전체 데이터를 사용하지 않고, 수집된 전체 데이터에서, 이상장치 판별에 사용될 데이터의 종류를 선별할 수 있다.At this time, the abnormal device determination device (100) according to one embodiment of the present invention can select the type of data to be used for abnormal device determination from the entire collected data without using the entire data collected during the process.

이에 따라, 상기 이상장치 판별 장치(100)는 이상 감지 시 이상이 의심되는 장치들을 효율적으로 판별할 수 있음은 물론, 이상장치 판별에 대한 신뢰성을 확보할 수 있으며, 이를 통하여, 공정 관리자가 공정 중 이상 발생 시 신속하고 적절한 대응을 할 수 있도록 도움을 줄 수 있다.Accordingly, the above-mentioned abnormal device determination device (100) can efficiently determine devices suspected of having an abnormality when an abnormality is detected, and can secure reliability for determining the abnormal device, thereby helping the process manager to respond quickly and appropriately when an abnormality occurs during the process.

이러한 본 발명의 일 실시 예에 따른 이상장치 판별 장치(100)는 데이터 전처리부(110), 데이터 이상 여부 탐지부(120), 특징 변수 선별부(130) 및 이상장치 판별부(140) 중 적어도 하나를 포함할 수 있다.The abnormal device determination device (100) according to one embodiment of the present invention may include at least one of a data preprocessing unit (110), a data abnormality detection unit (120), a feature variable selection unit (130), and an abnormal device determination unit (140).

상기 데이터 전처리부(110)는 데이터의 이상 여부를 탐지하는 이상 탐지 모델에 입력될 데이터, 즉, 공정 과정에서 수집된 데이터를 전처리할 수 있다.The above data preprocessing unit (110) can preprocess data to be input into an anomaly detection model that detects whether there is an anomaly in the data, i.e., data collected during the process.

여기서, 제조 공정의 이상 여부는 설비 혹은 장치에 부착되어, 이들의 온도, 습도, 풍량 및 압력 등을 측정하는 센서들로부터 제공되는 데이터를 분석하여 판단할 수 있다. 따라서, 상기 이상 탐지 모델에 입력될 데이터의 특징 변수는 센서의 종류, 제조 공정 설정 값, 현재 장비의 처리 속도 등을 포함할 수 있다. 이때, 이러한 특징 변수들은 일정 기간 동안 수집한 시계열 데이터일 수 있다.Here, whether there is an abnormality in the manufacturing process can be determined by analyzing data provided by sensors attached to equipment or devices that measure temperature, humidity, air volume, and pressure. Accordingly, the characteristic variables of the data to be input into the above abnormality detection model may include the type of sensor, manufacturing process setting values, and the processing speed of the current equipment. At this time, these characteristic variables may be time series data collected over a certain period of time.

제조 설비들이나 장치들의 이상을 탐지하기 위해서는 하나의 장치가 아닌 복수 개의 장치에서 수집된 데이터를 분석해야 하므로, 상기 이상 탐지 모델에 입력될 데이터는 복수 개의 특징 변수로 구성된 다변량(Multivariate) 시계열 데이터일 수 있다.In order to detect abnormalities in manufacturing facilities or devices, data collected from multiple devices, not just one device, must be analyzed. Therefore, the data to be input into the above abnormality detection model may be multivariate time series data consisting of multiple feature variables.

본 발명의 일 실시 예에 따르면, 상기 데이터 전처리부(110)는 이러한 다변량 시계열 데이터를 전처리할 수 있다.According to one embodiment of the present invention, the data preprocessing unit (110) can preprocess such multivariate time series data.

이를 위하여, 상기 데이터 전처리부(110)는 상기 시계열 데이터에 결측치가 있는 경우, 단순 이동 평균(Simple Moving Average) 방법을 통하여 상기 시계열 데이터를 보간(Interpolation of time series data)할 수 있다.To this end, the data preprocessing unit (110) can interpolate the time series data using a simple moving average method when there are missing values in the time series data.

또한, 상기 데이터 전처리부(110)는 데이터 정규화(Normalization) 과정을 통하여 상기 시계열 데이터 값을 표준화할 수 있다.In addition, the data preprocessing unit (110) can standardize the time series data values through a data normalization process.

그리고 상기 데이터 전처리부(110)는 상기 시계열 데이터의 길이가 긴 경우, 슬라이딩 윈도우(Sliding window) 기법을 통하여, 상기 시계열 데이터를 특정 기간 단위로 잘라 서브 셋 집합으로 만들 수 있다.And, if the length of the time series data is long, the data preprocessing unit (110) can cut the time series data into specific period units and create a subset set through a sliding window technique.

도 3에 도시된 바와 같이, 상기 데이터 전처리부(110)는 예를 들어, 하루 간격으로 장치로부터 수집한 시계열 데이터 집합을 크기가 3인 슬라이딩 윈도우로 자를 수 있다. 이에 따라, 3일 간격의 시계열 데이터 집합이 생성될 수 있다.As illustrated in FIG. 3, the data preprocessing unit (110) may, for example, cut a time series data set collected from a device at one-day intervals into a sliding window of size 3. Accordingly, a time series data set at three-day intervals may be generated.

이와 같이, 상기 데이터 전처리부(110)에 의하여 전처리된 시계열 데이터들은 후술되는 이상 탐지 모델에 입력되며, 제조 공정의 이상 여부를 판단하는 이상 탐지 모델에 의하여 학습될 수 있다.In this way, the time series data preprocessed by the data preprocessing unit (110) is input into the anomaly detection model described below, and can be learned by the anomaly detection model that determines whether there is an anomaly in the manufacturing process.

상기 데이터 이상 여부 탐지부(120)는 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터, 보다 상세하게는 상기 적어도 하나의 장치로부터 수집된 후 상기 데이터 전처리부(110)에 의하여 전처리된 시계열 데이터에 대한 이상 여부를 탐지할 수 있다.The above data abnormality detection unit (120) can detect anomalies in time series data collected from at least one device used in a manufacturing process, more specifically, time series data collected from the at least one device and then preprocessed by the data preprocessing unit (110).

이를 위하여, 본 발명의 일 실시 예에 따르면, 상기 데이터 이상 여부 탐지부(120)는 잔차(Residual Error) 기반 이상 탐지 모델을 통하여 상기 수집된 시계열 데이터에 대한 이상 여부를 탐지할 수 있다.To this end, according to one embodiment of the present invention, the data abnormality detection unit (120) can detect anomalies in the collected time series data through a residual error-based anomaly detection model.

상기 잔차 기반 이상 탐지 모델은 일정 기간 동안 정상적인 제조 공정에서 수집된 시계열 데이터들을 잠재 변수(Latent variables)나 잠재 변수의 분포로 압축하도록 표현하고, 압축된 잠재 변수를 다시, 입력된 데이터로 복원할 수 있도록 학습할 수 있다.The above residual-based anomaly detection model can express time series data collected from a normal manufacturing process over a certain period of time as latent variables or a distribution of latent variables, and learn to restore the compressed latent variables back to input data.

이때, 학습이 완료된 잔차 기반 이상 탐지 모델에 비정상적인 데이터가 입력되면, 입력 데이터와, 상기 잔차 기반 이상 탐지 모델이 복원한 데이터가 특정 임계값(Threshold) 이상으로 차이가 나게 된다. 이 경우, 상기 잔차 기반 이상 탐지 모델은 입력된 데이터에 이상이 있다고 판단하게 된다.At this time, if abnormal data is input to a residual-based anomaly detection model for which learning has been completed, the difference between the input data and the data restored by the residual-based anomaly detection model exceeds a certain threshold. In this case, the residual-based anomaly detection model determines that there is an abnormality in the input data.

도 4에 도시된 바와 같이, 예를 들어, 정상 데이터만을 학습한 오토인코더와 같은 잔차 기반 이상 탐지 모델에 이상 데이터가 입력되면, 상기 잔차 기반 이상 탐지 모델은 입력된 이상 데이터를, 학습했던 정상 데이터로 복원시키려는 성질을 가지기 때문에, 잔차 기반 이상 탐지 모델에 입력되는 입력 데이터와, 잔차 기반 이상 탐지 모델로부터 출력되는 모델 복원 데이터 간에 차이가 발생될 수 있다. 이때, 상기 잔차 기반 이상 탐지 모델은, 입력된 이상 데이터와 출력되는 모델 복원 데이터 간의 차이가 특정 임계값보다 크면(ε ≥ threshold), 이상으로 판단하고, 특정 임계값보다 작으면(ε < threshold), 정상으로 판단하게 된다.As illustrated in FIG. 4, when abnormal data is input to a residual-based anomaly detection model, such as an autoencoder that has learned only normal data, the residual-based anomaly detection model has a property of attempting to restore the input abnormal data to the learned normal data. Therefore, a difference may occur between the input data input to the residual-based anomaly detection model and the model restoration data output from the residual-based anomaly detection model. At this time, the residual-based anomaly detection model determines that the data is abnormal if the difference between the input abnormal data and the output model restoration data is greater than a specific threshold value (ε ≥ threshold), and determines that the data is normal if the difference is less than a specific threshold value (ε < threshold).

본 발명의 일 실시 예에 따르면, 상기 데이터 이상 여부 탐지부(120)는 이러한 잔차 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하고, 이를 통하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분할 수 있다.According to one embodiment of the present invention, the data abnormality detection unit (120) detects an abnormality in time series data collected from at least one device used in a manufacturing process through the residual-based abnormality detection model, and thereby distinguishes the time series data into abnormal data and normal data.

이때, 상기 데이터 이상 여부 탐지부(120)는 원본 데이터, 즉, 상기 잔차 기반 이상 탐지 모델이 학습한 표준 정상 데이터와의 오차율에 따른 오차 데이터베이스(DB)를 구축할 수 있다.At this time, the data abnormality detection unit (120) can build an error database (DB) based on the error rate with respect to the original data, i.e., the standard normal data learned by the residual-based anomaly detection model.

상기 데이터 이상 여부 탐지부(120)는 상기 잔차 기반 이상 탐지 모델에 의하여 탐지된 정상 데이터들 중에서, 상기 잔차 기반 이상 탐지 모델이 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 상기 오차 데이터베이스(DB)에 저장할 수 있다.The above data abnormality detection unit (120) can store, among the normal data detected by the residual-based abnormality detection model, data with a relatively lowest error rate compared to the standard normal data learned by the residual-based abnormality detection model in the error database (DB).

예를 들어, 상기 데이터 이상 여부 탐지부(120)는 정상 데이터로 탐지된 데이터들 중에서, 상기 표준 정상 데이터와의 오차가 가장 적은 20%의 정상 데이터를 상기 오차 데이터베이스(DB)에 저장할 수 있다.For example, the data abnormality detection unit (120) may store, among the data detected as normal data, 20% of the normal data with the smallest error from the standard normal data in the error database (DB).

한편, 상기 데이터 이상 여부 탐지부(120)는 상기 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 정상 데이터를 비교 기준 데이터로 설정할 수 있는데, 이에 대해서는 하기에서 보다 상세히 설명하기로 한다.Meanwhile, the above data abnormality detection unit (120) can set normal data with a relatively lowest error rate compared to the standard normal data as the comparison reference data, which will be described in more detail below.

상기 특징 변수 선별부(130)는 이상 데이터 또는 정상 데이터를 구성하는 특징 변수 중 미리 설정된 조건을 만족하는 특징 변수를 선별할 수 있다.The above feature variable selection unit (130) can select feature variables that satisfy preset conditions among feature variables constituting abnormal data or normal data.

이러한 특징 변수는 제1 특징 변수 및 제2 특징 변수를 포함할 수 있다.These feature variables may include a first feature variable and a second feature variable.

상기 제1 특징 변수는 이상 데이터 또는 정상 데이터를 구성하는 변수일 수 있다.The above first feature variable may be a variable constituting abnormal data or normal data.

또한, 상기 제2 특징 변수는 상기 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 기준에 따라 선별된 변수일 수 있다.In addition, the second characteristic variable may be a variable selected from among the first characteristic variables according to a criterion set in advance for determining an abnormal device.

이때, 상기 특징 변수 선별부(130)는 제1 특징 변수에 기반하여 제1 시계열 벡터를 생성하고, 비교 기준 데이터에 기반하여 제2 시계열 벡터를 생성할 수 있다.At this time, the feature variable selection unit (130) can generate a first time series vector based on the first feature variable and a second time series vector based on the comparison reference data.

그리고 상기 특징 변수 선별부(130)는 생성된 제1 시계열 벡터 및 제2 시계열 벡터 간의 거리에 기반하여, 제1 특징 변수 중에서 제2 특징 변수를 선별할 수 있다.And the above feature variable selection unit (130) can select a second feature variable from among the first feature variables based on the distance between the generated first time series vector and the second time series vector.

도 5에 도시된 바와 같이, 이를 위하여, 본 발명의 일 실시 예에 따른 특징 변수 선별부(130)는 특징 변수 그룹 생성 모듈(131), 시계열 벡터 생성 모듈(132) 및 연산 모듈(133)을 포함할 수 있다.As illustrated in FIG. 5, for this purpose, a feature variable selection unit (130) according to an embodiment of the present invention may include a feature variable group generation module (131), a time series vector generation module (132), and an operation module (133).

상기 특징 변수 그룹 생성 모듈(131)은 K-means와 같은 군집화 알고리즘을 통하여 다수의 제1 특징 변수를 그룹화하여 특징 변수 그룹을 생성할 수 있다.The above-mentioned feature variable group creation module (131) can create a feature variable group by grouping a plurality of first feature variables through a clustering algorithm such as K-means.

도 6에 도시된 바와 같이, 상기 특징 변수 그룹 생성 모듈(131)은 먼저, 시간에 따른 데이터, 즉, 시계열 데이터를 특징 변수에 따른 데이터로 변환할 수 있다.As illustrated in FIG. 6, the feature variable group generation module (131) can first convert time-dependent data, i.e., time series data, into feature variable-dependent data.

그 다음, 도 7에 도시된 바와 같이, 상기 특징 변수 그룹 생성 모듈(131)은 변환된 제1 특징 변수에 따른 데이터에 상기 군집화 알고리즘을 적용하여, 제조 공정 장치들로부터 수집한 데이터(Unlabeled Data)에 기반한 특징 변수 그룹(Labeled Data) 또는 특징 변수 그룹 리스트를 생성할 수 있다.Next, as illustrated in FIG. 7, the feature variable group generation module (131) can apply the clustering algorithm to data according to the converted first feature variable to generate a feature variable group (Labeled Data) or a feature variable group list based on data (Unlabeled Data) collected from manufacturing process devices.

다시 도 6을 참조하면, 상기 특징 변수 그룹 생성 모듈(131)은 다른 한편으로, 변환된 제1 특징 변수에 따른 데이터에 대하여, 특징 변수 간의 상관 관계를 나타내는 행렬 데이터를 생성하고, 생성된 행렬 데이터에 상기 군집화 알고리즘을 적용하여, 상관 관계에 기반한 특징 변수 그룹 또는 특징 변수 그룹 리스트를 생성할 수 있다.Referring again to FIG. 6, the feature variable group generation module (131), on the other hand, generates matrix data representing correlations between feature variables for data according to the transformed first feature variable, and applies the clustering algorithm to the generated matrix data to generate a feature variable group or a feature variable group list based on correlations.

즉, 상기 특징 변수 그룹 생성 모듈(131)에 의하여 생성되는 특징 변수 그룹은 적어도 하나의 공정 장치로부터 수집한 데이터에 기반하여 생성되는 특징 변수 그룹 및 특징 변수 간의 상관 관계에 기반하여 생성된 특징 변수 그룹으로 구분될 수 있다.That is, the feature variable group generated by the feature variable group generation module (131) can be divided into a feature variable group generated based on data collected from at least one process device and a feature variable group generated based on correlations between feature variables.

이때, 본 발명의 일 실시 예에 따르면, 상기 특징 변수 그룹 생성 모듈(131)은 정상 데이터 및 이상 데이터 별로, 수집한 데이터에 기반한 특징 변수 그룹들 및 특징 변수 간의 상관 관계에 기반한 특징 변수 그룹들을 각각 생성할 수 있다.At this time, according to one embodiment of the present invention, the feature variable group generation module (131) can generate feature variable groups based on the collected data and feature variable groups based on the correlation between feature variables, respectively, for normal data and abnormal data.

상기 시계열 벡터 생성 모듈(132)은 상기 특징 변수 그룹 생성 모듈(131)에 의하여 생성된 특징 변수 그룹을 이루는 제1 특징 변수들의 영향력을 계산하기 위한 제1 시계열 벡터를 생성할 수 있다. 이때, 생성되는 제1 시계열 벡터는 해당 특징 변수 그룹을 대표하는 시계열 벡터가 된다.The above time series vector generation module (132) can generate a first time series vector for calculating the influence of the first feature variables forming the feature variable group generated by the feature variable group generation module (131). At this time, the first time series vector generated becomes a time series vector representing the feature variable group.

본 발명의 일 실시 예에 따르면, 상기 시계열 벡터 생성 모듈(132)은 전체 시계열 데이터를 이루는 특징 변수들 중에서, 상기 특징 변수 그룹을 구성하는 특정한 특징 변수를 제외한 시계열 데이터에 대한 임베딩을 통하여 상기 제1 시계열 벡터를 생성할 수 있다. 여기서, 상기 특징 변수를 제외한다는 것은 상기 특징 변수의 가중치를 0으로 설정하는 것을 의미할 수 있다.According to one embodiment of the present invention, the time series vector generation module (132) can generate the first time series vector by embedding time series data excluding specific feature variables constituting the feature variable group from among feature variables constituting the entire time series data. Here, excluding the feature variable may mean setting the weight of the feature variable to 0.

예를 들어, a, b, c 세개의 특징 변수가 있고, 제1 특징 변수 그룹이 a, b로 이루어진 경우, a, b가 제거된 c로 이루어진 시계열 데이터에 대한 임베딩을 통하여 제1 시계열 벡터를 생성할 수 있다. 또한, 제2 특징 변수 그룹이 b, c로 이루어진 경우, b, c가 제거된 a로 이루어진 시계열 데이터에 대한 임베딩을 통하여 제1 시계열 벡터를 생성할 수 있다. 마찬가지로, 제3 특징 변수 그룹이 c, a로 이루어진 경우, c, a가 제거된 b로 이루어진 시계열 데이터에 대한 임베딩을 통하여 제1 시계열 벡터를 생성할 수 있다.For example, if there are three feature variables a, b, and c, and the first feature variable group consists of a and b, the first time series vector can be generated through embedding for time series data consisting of c with a and b removed. In addition, if the second feature variable group consists of b and c, the first time series vector can be generated through embedding for time series data consisting of a with b and c removed. Similarly, if the third feature variable group consists of c and a, the first time series vector can be generated through embedding for time series data consisting of b with c and a removed.

이때, 상기 시계열 벡터 생성 모듈(132)은 정상 데이터 및 이상 데이터 별로 각각 생성한 모든 특징 변수 그룹들을 대상으로, 상기 임베딩을 통하여 제1 시계열 벡터를 생성할 수 있다.At this time, the time series vector generation module (132) can generate a first time series vector through the embedding for all characteristic variable groups generated for each normal data and abnormal data.

예를 들어, 상기 특징 변수 그룹 생성 모듈(131)에 의하여, 수집한 데이터에 기반한 특징 변수 그룹 집합 및 특징 변수 간의 상관 관계에 기반한 특징 변수 그룹 집합 가 생성된 경우, 상기 시계열 벡터 생성 모듈(132)은 각 특징 변수 그룹의 제1 특징 변수를 제외한 , , , , , 를 대상으로, 임베딩을 통하여, 각각에 대한 제1 시계열 벡터를 생성할 수 있다.For example, a set of feature variable groups based on the data collected by the feature variable group generation module (131) A set of feature variable groups based on the correlations between feature variables. When generated, the time series vector generation module (132) generates the time series vectors excluding the first feature variable of each feature variable group. , , , , , For each target, a first time series vector can be generated through embedding.

구체적으로, 상기 시계열 벡터 생성 모듈(132)은 수집한 데이터에 기반한 특징 변수 그룹 에서 제1 특징 변수를 제거하여 생성된 그룹을 대상으로 임베딩하여 특징 변수 그룹 에 대한 제1 시계열 벡터 를 생성할 수 있으며, 생성된 제1 시계열 벡터 는 특징 변수 그룹 를 구성하는 제1 특징 변수의 영향력을 판단하기 위하여 사용된다.Specifically, the time series vector generation module (132) generates a group of feature variables based on the collected data. Generated by removing the first feature variable from Embedding a group of feature variables by targeting the group The first time series vector for can be generated, and the first time series vector generated is a group of feature variables It is used to determine the influence of the first characteristic variable that constitutes the .

이와 같이, 상기 시계열 벡터 생성 모듈(132)은 정상 데이터로 생성된 특징 변수 그룹 , , , , , 에 대한 제1 시계열 벡터 , , , , , 를 생성할 수 있다.In this way, the time series vector generation module (132) generates a group of feature variables generated from normal data. , , , , , The first time series vector for , , , , , can be created.

또한, 상기 시계열 벡터 생성 모듈(132)은 이상 데이터로 생성된 특징 변수 그룹 , , , , , 에 대한 제1 시계열 벡터 , , , , , 를 생성할 수 있다.In addition, the time series vector generation module (132) generates a group of feature variables generated from abnormal data. , , , , , The first time series vector for , , , , , can be created.

이와 같이, 각 특징 변수 그룹 별로 생성된 제1 시계열 벡터는 제2 시계열 벡터와의 유사성 계산을 통하여, 각 특징 변수 그룹에 해당되는 제1 특징 변수가 이상 탐지에 미치는 영향력을 계산하기 위하여 사용되는데, 이에 대해서는 하기에서 보다 상세히 설명하기로 한다.In this way, the first time series vector generated for each feature variable group is used to calculate the influence of the first feature variable corresponding to each feature variable group on anomaly detection through similarity calculation with the second time series vector, which will be described in more detail below.

한편, 도 8에 도시된 바와 같이, 본 발명의 일 실시 예에 따르면, 상기 시계열 벡터 생성 모듈(132)은 오차 데이터베이스(DB)에 저장되어 있는 비교 기준 데이터에 대한 임베딩을 통하여 제2 시계열 벡터를 생성할 수 있다. 상기 제2 시계열 벡터는 상기 제1 시계열 벡터와의 유사도 계산을 통하여, 각 특징 변수 그룹의 영향력을 계산하기 위한 기준이 된다.Meanwhile, as illustrated in Fig. 8, according to one embodiment of the present invention, the time series vector generation module (132) can generate a second time series vector through embedding for comparison reference data stored in an error database (DB). The second time series vector becomes a reference for calculating the influence of each feature variable group through similarity calculation with the first time series vector.

상기 연산 모듈(133)은 상기 시계열 벡터 생성 모듈(132)에 의하여 생성된 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 이용하여, 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 계산할 수 있다.The above operation module (133) can calculate the similarity between the first time series vector and the second time series vector by using the distance between the first time series vector and the second time series vector generated by the time series vector generation module (132).

도 9 및 도 10에 도시된 바와 같이, 본 발명의 일 실시 예에 따르면, 상기 연산 모듈(133)은 최대 평균 불일치(Maximum Mean Discrepancy; MMD)와 유클리드(Euclidean) 거리를 이용하여, 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 산출할 수 있다.As illustrated in FIGS. 9 and 10, according to one embodiment of the present invention, the calculation module (133) can calculate the distance between the first time series vector and the second time series vector using the Maximum Mean Discrepancy (MMD) and the Euclidean distance.

상기 특징 변수 선별부(130)는 상기 연산 모듈(133)을 통하여 산출된 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리, 즉, 최대 평균 불일치 및 유클리드 거리 수치가 낮을수록 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성이 높은 것으로 판단할 수 있다.The above-described feature variable selection unit (130) can determine that the similarity between the first time series vector and the second time series vector is higher as the distance between the first time series vector and the second time series vector, i.e., the maximum average disparity and the Euclidean distance value, calculated through the above-described operation module (133) are lower.

본 발명의 일 실시 예에 따르면, 상기 특징 변수 선별부(130)는 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 비교하여, 정상 데이터로 생성된 특징 변수 그룹들 각각에 대하여 생성된 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 선택할 수 있다.According to one embodiment of the present invention, the feature variable selection unit (130) can compare the similarity between the first time series vector and the second time series vector, and select a first time series vector having a longer relative distance from the second time series vector among the first time series vectors generated for each of the feature variable groups generated from normal data.

또한, 상기 특징 변수 선별부(130)는 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 비교하여, 이상 데이터로 생성된 특징 변수 그룹들 각각에 대하여 생성된 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 선택할 수 있다.In addition, the feature variable selection unit (130) can compare the similarity between the first time series vector and the second time series vector, and select the first time series vector with a shorter relative distance from the second time series vector among the first time series vectors generated for each of the feature variable groups generated from the abnormal data.

이때, 상기 특징 변수 선별부(130)는 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 따로 보관할 수 있다. 또한, 상기 특징 변수 선별부(130)는 마찬가지로, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 따로 보관할 수 있다.At this time, the feature variable selection unit (130) can separately store the first feature variable that was excluded when generating the first time series vector whose relative distance from the second time series vector has become longer. In addition, the feature variable selection unit (130) can similarly separately store the first feature variable that was excluded when generating the first time series vector whose relative distance from the second time series vector has become shorter.

이를 통하여, 상기 특징 변수 선별부(130)는 정상 데이터 기반으로 생성된 특징 변수 그룹 중에서 데이터의 이상에 영향력이 가장 작은 특징 변수 그룹을 찾을 수 있고, 이상 데이터 기반으로 생성된 특징 변수 그룹 중에서 데이터의 이상에 영향력이 가장 큰 특징 변수 그룹을 찾을 수 있다.Through this, the feature variable selection unit (130) can find a feature variable group that has the smallest influence on data abnormality among the feature variable groups generated based on normal data, and can find a feature variable group that has the largest influence on data abnormality among the feature variable groups generated based on abnormal data.

본 발명의 일 실시 예에 따르면, 상기 특징 변수 선별부(130)는 데이터의 이상에 영향력이 가장 작은 특징 변수 그룹 및 데이터의 이상에 영향력이 가장 큰 특징 변수 그룹을 구성하는 다수의 제1 특징 변수 중에서, 이상장치 판별을 위한 특징 변수를 선별할 수 있다. 이때, 본 발명의 일 실시 예에서는 다수의 제1 특징 변수 중에서 선별된 특징 변수는 제2 특징 변수로 정의된다.According to one embodiment of the present invention, the feature variable selection unit (130) can select a feature variable for determining an abnormal device from among a plurality of first feature variables constituting a feature variable group having the least influence on an abnormality in data and a feature variable group having the greatest influence on an abnormality in data. At this time, in one embodiment of the present invention, the feature variable selected from among the plurality of first feature variables is defined as a second feature variable.

즉, 상기 특징 변수 선별부(130)를 통하여, 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 작은 제2 특징 변수로 선별되고, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 큰 제2 특징 변수로 선별될 수 있다.That is, through the feature variable selection unit (130), when generating a first time series vector with a long relative distance from the second time series vector, the first feature variable that was excluded can be selected as the second feature variable with the least influence on data anomalies, and when generating a first time series vector with a short relative distance from the second time series vector, the first feature variable that was excluded can be selected as the second feature variable with the greatest influence on data anomalies.

다시 도 9를 참조하면, 상기 특징 변수 선별부(130)는 예를 들어, 특징 변수가 6개로 구성된 입력 데이터를 이용하여 이상장치 판별에 사용되는 제2 특징 변수를 선별하는 경우, 정상 데이터로 생성된 특징 변수 그룹 , 에 대하여 MMD와 유클리드 거리를 통하여 산출된 제1 시계열 벡터 , 중에서 제2 시계열 벡터(비교 기준 시계열 벡터)와의 거리가 가장 길어진 제1 시계열 벡터를 선택할 수 있다.Referring again to Figure 9, the feature variable selection unit (130) selects the second feature variable used for abnormal device determination using input data consisting of six feature variables, for example, a feature variable group generated as normal data. , The first time series vector calculated through MMD and Euclidean distance , Among them, the first time series vector with the longest distance from the second time series vector (the comparison reference time series vector) can be selected.

이때, 전체 데이터의 특징 변수가 1번 내지 6번 장치 센서인 경우, 상기 특징 변수 그룹 을 이루는 제1 특징 변수는 1, 3, 4번 장치 센서이고, 상기 특징 변수 그룹 을 이루는 제1 특징 변수는 2, 5, 6번 장치 센서이며, 상기 제2 시계열 벡터와의 거리가 가장 긴 제1 시계열 벡터가 일 때, 상기 특징 변수 선별부(130)는 상기 제1 시계열 벡터가 생성 시, 제외되었던 제1 특징 변수인 2, 5, 6번 장치 센서를 제2 특징 변수로 선별할 수 있다. 정상 데이터 기반에서, 상기 2, 5, 6번 장치 센서는 데이터 이상에 영향력이 가장 작은 특징 변수 그룹이 된다.At this time, if the feature variables of the entire data are device sensors 1 to 6, the feature variable group The first feature variables that make up the group are the device sensors 1, 3, and 4, and the feature variable group The first feature variables that make up the device sensors are 2, 5, and 6, and the first time series vector that has the longest distance from the second time series vector is When the feature variable selection unit (130) is the first time series vector, During generation, the first feature variables, which were excluded, such as device sensors 2, 5, and 6, can be selected as the second feature variables. Based on normal data, the device sensors 2, 5, and 6 become the feature variable group with the least influence on data abnormalities.

또한, 도 10을 참조하면, 상기 특징 변수 선별부(130)는 특징 변수가 6개로 구성된 입력 데이터를 이용하여 이상장치 판별에 사용되는 제2 특징 변수를 선별하는 경우, 이상 데이터로 생성된 특징 변수 그룹 , , 에 대하여 MMD와 유클리드 거리를 통하여 산출된 제1 시계열 벡터 , , 중에서 제2 시계열 벡터(비교 기준 시계열 벡터)와의 거리가 가장 짧아진 제1 시계열 벡터를 선택할 수 있다.In addition, referring to FIG. 10, when the feature variable selection unit (130) selects the second feature variable used for abnormal device determination using input data consisting of 6 feature variables, a feature variable group created as abnormal data , , The first time series vector calculated through MMD and Euclidean distance , , Among them, the first time series vector with the shortest distance from the second time series vector (the comparison reference time series vector) can be selected.

이때, 전체 데이터의 특징 변수가 1번 내지 6번 장치 센서인 경우, 상기 특징 변수 그룹 을 이루는 제1 특징 변수는 1, 2, 3번 장치 센서이고, 상기 특징 변수 그룹 을 이루는 제1 특징 변수는 4, 5번 장치 센서이며, 상기 특징 변수 그룹 을 이루는 제1 특징 변수는 6번 장치 센서이고, 상기 제2 시계열 벡터와의 거리가 가장 짧은 제1 시계열 벡터가 일 때, 상기 특징 변수 선별부(130)는 상기 제1 시계열 벡터가 생성 시 제외되었던 제1 특징 변수인 1, 2, 3, 6번 장치 센서를 제2 특징 변수로 선별할 수 있다. 이상 데이터 기반에서, 상기 1, 2, 3, 6번 장치 센서는 데이터 이상에 영향력이 가장 큰 특징 변수 그룹이 된다.At this time, if the feature variables of the entire data are device sensors 1 to 6, the feature variable group The first feature variables that make up the group are the device sensors 1, 2, and 3, and the feature variable group The first feature variable that constitutes the group is the device sensor number 4 and 5, and the feature variable group The first feature variable that constitutes the 6th device sensor is the first time series vector that has the shortest distance from the second time series vector. When the feature variable selection unit (130) is the first time series vector, The device sensors 1, 2, 3, and 6, which were excluded during generation as the first feature variables, can be selected as the second feature variables. Based on the above data, the device sensors 1, 2, 3, and 6 become the feature variable group with the greatest influence on the data anomaly.

이때, 정상 데이터 기반일 때와 이상 데이터 기반일 때 중복되는 2, 6번 센서는 제2 특징 변수 그룹에서 제외될 수 있다.At this time, sensors 2 and 6 that overlap when based on normal data and when based on abnormal data can be excluded from the second feature variable group.

다시 도 1 및 도 2를 참조하면, 상기 이상장치 판별부(140)는 상기 특징 변수 선별부(130)에 의하여 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI; 설명 가능 인공지능)를 적용할 제3 특징 변수를 추출할 수 있다. 또한, 상기 이상장치 판별부(140)는 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상장치를 판별할 수 있다.Referring again to FIGS. 1 and 2, the abnormal device determination unit (140) can extract a third characteristic variable to which XAI (explainable AI) is to be applied from a list of second characteristic variables selected by the characteristic variable selection unit (130). In addition, the abnormal device determination unit (140) can determine an abnormal device through abnormal detection of the XAI for the list of the extracted third characteristic variables.

본 발명의 일 실시 예에 따르면, 상기 제3 특징 변수는 제2 특징 변수 중에서 데이터 이상에 미치는 영향력을 기준으로 선별된 변수일 수 있다.According to one embodiment of the present invention, the third feature variable may be a variable selected from among the second feature variables based on its influence on data abnormality.

상기 이상장치 판별부(140)는 데이터 이상에 미치는 영향력이 큰 순으로, 제2 특징 변수 중에서 제3 특징 변수를 추출할 수 있다.The above abnormality determination unit (140) can extract a third characteristic variable from among the second characteristic variables in order of greatest influence on the data abnormality.

예를 들어, 다시 도 9 및 도 10을 참조하면, 1, 2, 3, 5번 장치 센서는 이상 데이터 기준으로, 데이터 이상에 영향력이 가장 큰 제2 특징 변수이고, 2, 5, 6번 장치 센서는 정상 데이터 기준으로, 데이터 이상에 영향력이 가장 작은 제2 특징 변수일 때, 2, 5번 장치 센서는 정상 데이터 기반일 때와 이상 데이터 기반일 때 중복된다. 이에, 이상 데이터 기준으로, 데이터 이상에 영향력이 가장 큰 제2 특징 변수 1, 2, 3, 5번 장치 센서에서, 정상 데이터 기준으로, 데이터 이상에 영향력이 가장 작은 제2 특징 변수에도 포함되는 2, 5번 장치 센서를 제거할 수 있다. 이에 따라, 제3 특징 변수는 1, 3번 장치 센서로 이루어질 수 있다.For example, referring again to FIGS. 9 and 10, when device sensors 1, 2, 3, and 5 are the second feature variables with the greatest influence on data anomalies based on abnormal data, and device sensors 2, 5, and 6 are the second feature variables with the least influence on data anomalies based on normal data, device sensors 2 and 5 overlap when based on normal data and when based on abnormal data. Accordingly, device sensors 2 and 5, which are also included in the second feature variables with the least influence on data anomalies based on normal data, can be removed from device sensors 1, 2, 3, and 5, which are the second feature variables with the greatest influence on data anomalies based on abnormal data. Accordingly, the third feature variable can be composed of device sensors 1 and 3.

이와 같이, 상기 이상장치 판별부(140)는 제2 특징 변수 리스트에서 추출된 제3 특징 변수로 이루어진 리스트에 XAI를 적용하여 이상 특징 변수를 선별할 수 있으며, 이를 통하여, 이상장치를 특정할 수 있다. 이때, 상기 이상장치 판별부(140)는 예를 들어, 상기 SHAP(SHapley Additive exPlanation) 알고리즘을 이용하여, 제3 특징 변수 리스트로부터 이상 특징 변수를 선별할 수 있다.In this way, the abnormal device determination unit (140) can select abnormal feature variables by applying XAI to a list composed of third feature variables extracted from the second feature variable list, thereby specifying the abnormal device. At this time, the abnormal device determination unit (140) can select abnormal feature variables from the third feature variable list using, for example, the SHAP (SHapley Additive exPlanation) algorithm.

본 발명의 일 실시 예에 따르면, 상기 특징 변수 선별부(130)에 의하여 선별된 제2 특징 변수 리스트에서 추출된 제3 특징 변수 리스트 내에서 XAI로 제3 특징 변수들의 영향력을 계산하기 때문에, XAI를 통해, 제3 특징 변수 리스트에 대하여 이상 여부 판단에 영향력을 미치는 이상 변수를 판별할 경우, 기존보다 높은 효율성과 신뢰성을 가지고 이장장치를 판별할 수 있고, 공정 관리자가 공정 중 이상 발생 시 신속하고 적절한 대응을 할 수 있도록 도움을 줄 수 있다.According to one embodiment of the present invention, since the influence of the third characteristic variables is calculated by XAI within the third characteristic variable list extracted from the second characteristic variable list selected by the characteristic variable selection unit (130), when an abnormal variable that influences the judgment of whether or not there is an abnormality is determined for the third characteristic variable list through XAI, the displacement device can be determined with higher efficiency and reliability than before, and it can help the process manager to respond quickly and appropriately when an abnormality occurs during the process.

이하, 본 발명의 일 실시 예에 따른 이상장치 판별 방법에 대하여, 도 11 및 도 12를 참조하여 설명하기로 한다.Hereinafter, a method for determining an abnormal device according to an embodiment of the present invention will be described with reference to FIGS. 11 and 12.

도 11은 본 발명의 일 실시 예에 따른 이상장치 판별 방법을 나타낸 흐름도이고, 도 12는 본 발명의 일 실시 예에 따른 이상장치 판별 방법을 설명하기 위한 참고도이다.FIG. 11 is a flowchart illustrating a method for determining an abnormal device according to an embodiment of the present invention, and FIG. 12 is a reference diagram for explaining a method for determining an abnormal device according to an embodiment of the present invention.

도 11을 참조하면, 본 발명의 일 실시 예에 따른 이상장치 판별 방법은 S110 단계, S120 단계 및 S130 단계를 포함할 수 있다. 이때, 도시하지는 않았지만, 본 발명의 일 실시 예에 따른 이상장치 판별 방법은 데이터 전처리 단계를 더 포함할 수 있다.Referring to FIG. 11, the abnormal device determination method according to an embodiment of the present invention may include steps S110, S120, and S130. Although not shown, the abnormal device determination method according to an embodiment of the present invention may further include a data preprocessing step.

상기 데이터 전처리 단계에서는 제조 공정 장치들로부터 수집되는 시계열 데이터에 결측치가 있는 경우, 단순 이동 평균 방법을 통하여 상기 시계열 데이터를 보간할 수 있다.In the above data preprocessing step, if there are missing values in the time series data collected from manufacturing process devices, the time series data can be interpolated using a simple moving average method.

또한, 상기 데이터 전처리 단계에서는 데이터 정규화 과정을 통하여 상기 시계열 데이터 값을 표준화할 수 있다.Additionally, in the data preprocessing step, the time series data values can be standardized through a data normalization process.

그리고 상기 데이터 전처리 단계에서는 상기 시계열 데이터의 길이가 긴 경우, 슬라이딩 윈도우 기법을 통하여, 상기 시계열 데이터를 특정 기간 단위로 잘라 서브 셋 집합으로 만들 수 있다.And in the data preprocessing step, if the length of the time series data is long, the time series data can be cut into specific period units and created into subsets using the sliding window technique.

S110 단계Step S110

도 12를 참조하면, 상기 S110 단계에서는 전처리된 시계열 데이터에 대한 이상 여부를 탐지할 수 있다.Referring to FIG. 12, in step S110, it is possible to detect whether there is an abnormality in the preprocessed time series data.

이를 위하여, 상기 S110 단계에서는 잔차 기반 이상 탐지 모델을 통하여 상기 수집된 시계열 데이터에 대한 이상 여부를 탐지할 수 있다.To this end, in the step S110, anomalies in the collected time series data can be detected through a residual-based anomaly detection model.

본 발명의 일 실시 예에 따르면, 상기 S110 단계에서는 이러한 잔차 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하고, 이를 통하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분할 수 있다.According to one embodiment of the present invention, in the step S110, an abnormality in time series data collected from at least one device used in a manufacturing process is detected through the residual-based anomaly detection model, and through this, the time series data can be distinguished into abnormal data and normal data.

이때, 상기 S110 단계에서는 원본 데이터, 즉, 상기 잔차 기반 이상 탐지 모델이 학습한 표준 정상 데이터와의 오차율에 따른 오차 데이터베이스(DB)를 구축할 수 있다.At this time, in the step S110, an error database (DB) can be constructed based on the error rate between the original data, i.e., the standard normal data learned by the residual-based anomaly detection model.

상기 S110 단계에서는 상기 잔차 기반 이상 탐지 모델에 의하여 탐지된 정상 데이터들 중에서, 상기 잔차 기반 이상 탐지 모델이 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 상기 오차 데이터베이스(DB)에 저장할 수 있다.In the above step S110, among the normal data detected by the residual-based anomaly detection model, data having a relatively lowest error rate with respect to the standard normal data learned by the residual-based anomaly detection model can be stored in the error database (DB).

예를 들어, 상기 S110 단계에서는 정상 데이터로 탐지된 데이터들 중에서, 상기 표준 정상 데이터와의 오차가 가장 적은 20%의 정상 데이터를 상기 오차 데이터베이스(DB)에 저장할 수 있다.For example, in the step S110, among the data detected as normal data, 20% of the normal data with the smallest error from the standard normal data can be stored in the error database (DB).

한편, 상기 S110 단계에서는 상기 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 정상 데이터를 비교 기준 데이터로 설정할 수 있다.Meanwhile, in the above step S110, normal data having a relatively lowest error rate compared to the standard normal data can be set as the comparison reference data.

S120 단계S120 step

계속해서, 도 12를 참조하면, 상기 S120 단계에서는 상기 S110 단계를 통하여 구분된 이상 데이터 또는 정상 데이터를 구성하는 특징 변수 중 미리 설정된 조건을 만족하는 특징 변수를 선별할 수 있다.Continuing, with reference to FIG. 12, in step S120, a feature variable satisfying a preset condition can be selected from among the feature variables constituting the abnormal data or normal data distinguished through step S110.

이러한 특징 변수는 제1 특징 변수 및 제2 특징 변수를 포함할 수 있다.These feature variables may include a first feature variable and a second feature variable.

상기 제1 특징 변수는 이상 데이터 또는 정상 데이터를 구성하는 변수일 수 있다.The above first feature variable may be a variable constituting abnormal data or normal data.

또한, 상기 제2 특징 변수는 상기 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 기준에 따라 선별된 변수일 수 있다.In addition, the second characteristic variable may be a variable selected from among the first characteristic variables according to a criterion set in advance for determining an abnormal device.

이때, 상기 S120 단계에서는 제1 특징 변수에 기반하여 제1 시계열 벡터를 생성하고, 비교 기준 데이터에 기반하여 제2 시계열 벡터를 생성할 수 있다.At this time, in the step S120, a first time series vector can be generated based on the first feature variable, and a second time series vector can be generated based on the comparison reference data.

그리고 상기 S120 단계에서는 생성된 제1 시계열 벡터 및 제2 시계열 벡터 간의 거리에 기반하여, 제1 특징 변수 중에서 제2 특징 변수를 선별할 수 있다.And in the step S120, the second feature variable can be selected from the first feature variables based on the distance between the generated first time series vector and the second time series vector.

이를 위하여, 상기 S120 단계는 제1 과정, 제2 과정 및 제3 과정을 포함할 수 있다.For this purpose, the above step S120 may include a first process, a second process, and a third process.

상기 제1 과정에서는 K-means와 같은 군집화 알고리즘을 통하여 다수의 제1 특징 변수를 그룹화하여 특징 변수 그룹을 생성할 수 있다.In the first step above, a group of feature variables can be created by grouping a plurality of first feature variables using a clustering algorithm such as K-means.

상기 제1 과정에서는 먼저, 시간에 따른 데이터, 즉, 시계열 데이터를 특징 변수에 따른 데이터로 변환할 수 있다. 그 다음, 상기 제1 과정에서는 변환된 제1 특징 변수에 따른 데이터에 상기 군집화 알고리즘을 적용하여, 제조 공정 장치들로부터 수집한 데이터(Unlabeled Data)에 기반한 특징 변수 그룹(Labeled Data) 또는 특징 변수 그룹 리스트를 생성할 수 있다.In the first process, first, data according to time, i.e., time series data, can be converted into data according to feature variables. Then, in the first process, the clustering algorithm can be applied to the data according to the converted first feature variables to generate a feature variable group (Labeled Data) or a feature variable group list based on data (Unlabeled Data) collected from manufacturing process devices.

이와 아울러, 상기 제1 과정에서는 변환된 제1 특징 변수에 따른 데이터에 대하여, 특징 변수 간의 상관 관계를 나타내는 행렬 데이터를 생성하고, 생성된 행렬 데이터에 상기 군집화 알고리즘을 적용하여, 상관 관계에 기반한 특징 변수 그룹 또는 특징 변수 그룹 리스트를 생성할 수 있다.In addition, in the first process, matrix data representing correlations between feature variables is generated for data according to the transformed first feature variable, and the clustering algorithm is applied to the generated matrix data to generate a feature variable group or a feature variable group list based on the correlation.

이때, 상기 제1 과정에서는 정상 데이터 및 이상 데이터 별로, 수집한 데이터에 기반한 특징 변수 그룹들 및 특징 변수 간의 상관 관계에 기반한 특징 변수 그룹들을 각각 생성할 수 있다.At this time, in the first process, feature variable groups based on the collected data and feature variable groups based on the correlation between feature variables can be created for each of normal data and abnormal data.

상기 제2 과정에서는 상기 제1 과정을 통하여 생성된 특징 변수 그룹을 이루는 제1 특징 변수들의 영향력을 계산하기 위한 제1 시계열 벡터를 생성할 수 있다.In the second process, a first time series vector can be generated to calculate the influence of the first feature variables forming the feature variable group generated through the first process.

상기 제2 과정에서는 은 전체 시계열 데이터를 이루는 특징 변수들 중에서, 상기 특징 변수 그룹을 구성하는 특정한 특징 변수를 제외한 시계열 데이터에 대한 임베딩을 통하여 상기 제1 시계열 벡터를 생성할 수 있다.In the second process, the first time series vector can be generated through embedding of time series data excluding specific feature variables constituting the feature variable group from among feature variables constituting the entire time series data.

이때, 상기 제2 과정에서는 정상 데이터 및 이상 데이터 별로 각각 생성한 모든 특징 변수 그룹들을 대상으로, 상기 임베딩을 통하여 제1 시계열 벡터를 생성할 수 있다.At this time, in the second process, a first time series vector can be created through the embedding for all feature variable groups created for each normal data and abnormal data.

상기 제3 과정에서는 상기 제2 과정을 통하여 생성된 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 이용하여, 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 계산할 수 있다.In the third process, the similarity between the first time series vector and the second time series vector can be calculated by using the distance between the first time series vector and the second time series vector generated through the second process.

상기 제3 과정에서는 최대 평균 불일치(Maximum Mean Discrepancy; MMD)와 유클리드(Euclidean) 거리를 이용하여, 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 산출할 수 있다.In the third process, the distance between the first time series vector and the second time series vector can be calculated using the Maximum Mean Discrepancy (MMD) and the Euclidean distance.

상기 S120 단계에서는 상기 제3 과정을 통하여 산출된 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리, 즉, 최대 평균 불일치 및 유클리드 거리 수치가 낮을수록 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성이 높은 것으로 판단할 수 있다.In the above step S120, it can be determined that the lower the distance between the first time series vector and the second time series vector calculated through the third process, i.e., the maximum average disparity and the Euclidean distance value, the higher the similarity between the first time series vector and the second time series vector.

본 발명의 일 실시 예에 따르면, 상기 S120 단계에서는 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 비교하여, 정상 데이터로 생성된 특징 변수 그룹들 각각에 대하여 생성된 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 선택할 수 있다.According to one embodiment of the present invention, in step S120, by comparing the similarity between the first time series vector and the second time series vector, a first time series vector having a longer relative distance from the second time series vector can be selected from among the first time series vectors generated for each of the feature variable groups generated from normal data.

또한, 상기 S120 단계에서는 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 비교하여, 이상 데이터로 생성된 특징 변수 그룹들 각각에 대하여 생성된 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 선택할 수 있다.In addition, in the step S120, by comparing the similarity between the first time series vector and the second time series vector, a first time series vector having a shorter relative distance from the second time series vector can be selected from among the first time series vectors generated for each of the feature variable groups generated from the abnormal data.

이때, 상기 S120 단계에서는 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 따로 보관할 수 있다. 또한, 상기 S120 단계에서는 마찬가지로, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 따로 보관할 수 있다.At this time, in the step S120, the first feature variable that was excluded when generating the first time series vector whose relative distance from the second time series vector is long can be stored separately. In addition, in the step S120, the first feature variable that was excluded when generating the first time series vector whose relative distance from the second time series vector is short can be stored separately.

이를 통하여, 상기 S120 단계에서는 정상 데이터 기반으로 생성된 특징 변수 그룹 중에서 데이터의 이상에 영향력이 가장 작은 특징 변수 그룹을 찾을 수 있고, 이상 데이터 기반으로 생성된 특징 변수 그룹 중에서 데이터의 이상에 영향력이 가장 큰 특징 변수 그룹을 찾을 수 있다.Through this, in the step S120, a feature variable group having the least influence on data anomalies can be found among feature variable groups generated based on normal data, and a feature variable group having the greatest influence on data anomalies can be found among feature variable groups generated based on abnormal data.

본 발명의 일 실시 예에 따르면, 상기 S120 단계에서는 데이터의 이상에 영향력이 가장 작은 특징 변수 그룹 및 데이터의 이상에 영향력이 가장 큰 특징 변수 그룹을 구성하는 다수의 제1 특징 변수 중에서 이상장치 판별을 위한 특징 변수를 선별할 수 있다. 이때, 본 발명의 일 실시 예에서는 다수의 제1 특징 변수 중에서 선별된 특징 변수는 제2 특징 변수로 정의된다.According to one embodiment of the present invention, in the step S120, a feature variable for determining an abnormal device can be selected from among a plurality of first feature variables constituting a feature variable group having the least influence on the data anomaly and a feature variable group having the greatest influence on the data anomaly. At this time, in one embodiment of the present invention, a feature variable selected from among a plurality of first feature variables is defined as a second feature variable.

즉, 상기 S120 단계에서는 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 작은 제2 특징 변수로 선별하고, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 큰 제2 특징 변수로 선별할 수 있다.That is, in the step S120, the first feature variable that was excluded when generating the first time series vector with a long relative distance from the second time series vector can be selected as the second feature variable that has the least influence on data anomalies, and the first feature variable that was excluded when generating the first time series vector with a short relative distance from the second time series vector can be selected as the second feature variable that has the greatest influence on data anomalies.

S130 단계Step S130

계속해서, 도 12를 참조하면, 상기 S130 단계에서는 상기 S120 단계를 통하여 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI; 설명 가능 인공지능)를 적용할 제3 특징 변수를 추출할 수 있다.Continuing, with reference to FIG. 12, in step S130, a third feature variable to which XAI (explainable AI) is to be applied can be extracted from a list of second feature variables selected through step S120.

또한, 상기 S130 단계에서는 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상 특징 변수를 선별할 수 있으며, 이를 통하여, 이상장치를 특정할 수 있다.In addition, in the step S130, abnormal feature variables can be selected through abnormal detection of the XAI for the list consisting of the extracted third feature variables, and through this, an abnormal device can be identified.

본 발명의 일 실시 예에 따르면, 상기 제3 특징 변수는 제2 특징 변수 중에서 데이터 이상에 미치는 영향력을 기준으로 선별된 변수일 수 있다.According to one embodiment of the present invention, the third feature variable may be a variable selected from among the second feature variables based on its influence on data abnormality.

상기 S130 단계에서는 데이터 이상에 미치는 영향력이 큰 순으로, 제2 특징 변수 중에서 제3 특징 변수를 추출할 수 있다.In the above step S130, a third feature variable can be extracted from the second feature variables in order of greatest influence on the data abnormality.

이에 앞서, 상기 S130 단계에서는 상기 S110 단계에서 잔차 기반 이상 탐지 모델에서 생성한 잠재 변수를 인공 신경망 모델, 렌덤 포레스트, OCSVM 모델 등의 이진 분류 모델로 분류할 수 있다. 이때, 이진 분류 모델의 정답은 잔차 기반 이상 탐지 모델이 분류했던 정상, 이상 여부로 정의될 수 있다.Prior to this, in the step S130, the latent variable generated from the residual-based anomaly detection model in the step S110 can be classified into a binary classification model such as an artificial neural network model, a random forest, an OCSVM model, etc. At this time, the correct answer of the binary classification model can be defined as whether it is normal or abnormal as classified by the residual-based anomaly detection model.

상기 S130 단계에서는 이와 같이 이진 분류 모델에 의한 학습이 완료되면, XAI 모델 중 하나인 예를 들어, SHAP 알고리즘을 이용하여, 상기 제3 특징 변수로 이루어진 리스트에서 이상 변수를 판별하여 출력할 수 있으며, 이를 통하여, 이상장치를 판별할 수 있다.In the above step S130, when learning by a binary classification model is completed in this way, an abnormal variable can be determined and output from a list consisting of the third feature variable using one of the XAI models, for example, the SHAP algorithm, and through this, an abnormal device can be determined.

상기 S130 단계에서는 상기 S120 단계를 통하여 선별된 제2 특징 변수 리스트에서 추출된 제3 특징 변수 리스트 내에서 XAI로 제3 특징 변수들의 영향력을 계산하기 때문에, XAI를 통해, 제3 특징 변수 리스트에 대하여 이상 여부 판단에 영향력을 미치는 이상 변수를 판별할 경우, 기존보다 높은 효율성과 신뢰성을 가지고 이장장치를 판별할 수 있고, 공정 관리자가 공정 중 이상 발생 시 신속하고 적절한 대응을 할 수 있도록 도움을 줄 수 있다.In the above step S130, since the influence of the third characteristic variables is calculated by XAI within the third characteristic variable list extracted from the second characteristic variable list selected through the above step S120, when the abnormal variable that influences the judgment of whether or not there is an abnormality is determined for the third characteristic variable list through XAI, the displacement device can be determined with higher efficiency and reliability than before, and it can help the process manager to respond quickly and appropriately when an abnormality occurs during the process.

이상, 본 발명을 바람직한 실시 예를 사용하여 상세히 설명하였으나, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 첨부된 특허청구범위에 의하여 해석되어야 할 것이다. 또한, 이 기술분야에서 통상의 지식을 습득한 자라면, 본 발명의 범위에서 벗어나지 않으면서도 많은 수정과 변형이 가능함을 이해하여야 할 것이다.Above, although the present invention has been described in detail using preferred embodiments, the scope of the present invention is not limited to specific embodiments, and should be interpreted by the appended claims. In addition, those who have acquired common knowledge in this technical field should understand that many modifications and variations are possible without departing from the scope of the present invention.

100; 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치
110; 데이터 전처리부
120; 데이터 이상 여부 탐지부
130; 특징 변수 선별부
131; 특징 변수 그룹 생성 모듈
132; 시계열 벡터 생성 모듈
133; 연산 모듈
140; 이상장치 판별부
100; Anomaly detection device based on distance calculation between time series vectors
110; Data preprocessing section
120; Data anomaly detection unit
130; Feature variable selection section
131; Feature Variable Group Generation Module
132; Time series vector generation module
133; Operation module
140; abnormal device identification unit

Claims (12)

잔차(Residual Error) 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분하되, 상기 정상 데이터로 구분된 다수의 데이터 중에서 상기 이상 탐지 모델이 기 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 비교 기준 데이터로 설정하는 데이터 이상 여부 탐지부;
상기 이상 데이터 또는 정상 데이터를 구성하는 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 조건을 만족하는 제2 특징 변수를 선별하는 특징 변수 선별부; 및
상기 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI)를 적용할 제3 특징 변수를 추출하고, 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 이상장치 판별부;를 포함하는. 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
A data abnormality detection unit that detects whether there is an abnormality in time series data collected from at least one device used in a manufacturing process through a residual error-based anomaly detection model, and classifies the time series data into abnormal data and normal data, and sets data having a relatively lowest error rate with respect to standard normal data learned by the anomaly detection model among a plurality of data classified as normal data as a comparison reference data;
A feature variable selection unit for selecting a second feature variable that satisfies a preset condition for determining an abnormal device from among the first feature variables constituting the above abnormal data or normal data; and
An abnormal device determination unit comprising: an abnormal device determination unit for extracting a third characteristic variable to which XAI (explainable AI) is applied from a list of the selected second characteristic variables, and determining an abnormal device through abnormal detection of the XAI for the list of the extracted third characteristic variables; An abnormal device determination device based on distance calculation between time series vectors.
제1 항에 있어서,
상기 특징 변수 선별부는,
군집화 알고리즘을 통하여 상기 제1 특징 변수를 그룹화하여 특징 변수 그룹을 생성하는 특징 변수 그룹 생성 모듈;
상기 구분된 이상 데이터 또는 정상 데이터 각각에서, 전체 시계열 데이터를 이루는 특징 변수들 중에서, 상기 특징 변수 그룹을 이루는 특정한 특징 변수를 제외한 시계열 데이터에 대한 임베딩을 통하여 제1 시계열 벡터를 생성하고, 상기 비교 기준 데이터에 대한 임베딩을 통하여 제2 시계열 벡터를 생성하는 시계열 벡터 생성 모듈; 및
상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 이용하여 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 계산하는 연산 모듈을 포함하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
In the first paragraph,
The above feature variable selection section is,
A feature variable group generation module that generates a feature variable group by grouping the first feature variable through a clustering algorithm;
A time series vector generation module that generates a first time series vector through embedding for time series data excluding a specific feature variable forming the feature variable group from among feature variables forming the entire time series data in each of the above-mentioned separated abnormal data or normal data, and generates a second time series vector through embedding for the comparison reference data; and
An anomaly determination device based on distance calculation between time series vectors, comprising a calculation module that calculates similarity between the first time series vector and the second time series vector by using the distance between the first time series vector and the second time series vector.
제2 항에 있어서,
상기 특징 변수 그룹은 상기 적어도 하나의 장치로부터 수집한 데이터에 기반하여 생성된 특징 변수 그룹 및 특징 변수 간의 상관 관계에 기반하여 생성된 특징 변수 그룹으로 구분되는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
In the second paragraph,
An abnormal device determination device based on distance calculation between time series vectors, wherein the above-mentioned feature variable groups are divided into feature variable groups generated based on data collected from at least one device and feature variable groups generated based on correlations between feature variables.
제2 항에 있어서,
상기 특징 변수 선별부는, 상기 정상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 선택하고, 상기 이상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 선택하되, 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터 및 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 보관하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
In the second paragraph,
The above-mentioned feature variable selection unit selects a first time series vector having a long relative distance from the second time series vector from among a plurality of first time series vectors generated based on the normal data, and selects a first time series vector having a short relative distance from the second time series vector from among a plurality of first time series vectors generated based on the abnormal data, while storing the first feature variables that were excluded when generating the first time series vector having a long relative distance from the second time series vector and the first time series vector having a short relative distance from the second time series vector.
제4 항에 있어서,
상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 작은 제2 특징 변수로 선별되고, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 큰 제2 특징 변수로 선별되는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
In the fourth paragraph,
An anomaly determination device based on distance calculation between time series vectors, wherein a first feature variable that was excluded when generating a first time series vector with a long relative distance from the second time series vector is selected as a second feature variable that has the least influence on data anomalies, and a first feature variable that was excluded when generating a first time series vector with a short relative distance from the second time series vector is selected as a second feature variable that has the greatest influence on data anomalies.
제5 항에 있어서,
상기 제3 특징 변수는 상기 제2 특징 변수 중에서 데이터 이상에 미치는 영향력을 기준으로 선별된 변수이며,
상기 이상장치 판별부는 데이터 이상에 미치는 영향력이 큰 순으로, 상기 제2 특징 변수 중에서 상기 제3 특징 변수를 추출하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
In clause 5,
The above third feature variable is a variable selected from the above second feature variables based on its influence on data abnormalities.
The above-mentioned abnormality determination unit is an abnormality determination device based on distance calculation between time series vectors, which extracts the third characteristic variable from the second characteristic variable in order of influence on data abnormality.
제1 항에 있어서,
상기 제1 특징 변수는 센서의 종류, 제조 공정 설정 값 및 현재 장치의 처리 속도를 포함하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
In the first paragraph,
An abnormal device determination device based on distance calculation between time series vectors, wherein the first characteristic variable includes the type of sensor, manufacturing process setting value, and processing speed of the current device.
제1 항에 있어서,
데이터 전처리부를 더 포함하되,
상기 데이터 전처리부는 상기 시계열 데이터에 결측치가 있는 경우, 단순 이동 평균 방법을 통하여 상기 시계열 데이터를 보간하고, 데이터 정규화 과정을 통하여 상기 시계열 데이터 값을 표준화하되, 상기 시계열 데이터의 길이가 긴 경우 슬라이딩 윈도우 기법을 통하여 특정 기간 단위로 상기 시계열 데이터를 잘라 서브 셋 집합으로 만드는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 장치.
In the first paragraph,
Including a data preprocessing unit,
The above data preprocessing unit interpolates the time series data through a simple moving average method when there is a missing value in the time series data, standardizes the time series data values through a data normalization process, and, when the length of the time series data is long, cuts the time series data into subsets by a sliding window technique into specific period units. This is an anomaly determination device based on distance calculation between time series vectors.
잔차(Residual Error) 기반 이상 탐지 모델을 통하여, 제조 공정에 사용되는 적어도 하나의 장치로부터 수집된 시계열 데이터에 대한 이상 여부를 탐지하여, 상기 시계열 데이터를 이상 데이터와 정상 데이터로 구분하되, 상기 정상 데이터로 구분된 다수의 데이터 중에서 상기 이상 탐지 모델이 기 학습한 표준 정상 데이터와의 오차율이 상대적으로 가장 적은 데이터를 비교 기준 데이터로 설정하는 단계;
상기 이상 데이터 또는 정상 데이터를 구성하는 제1 특징 변수 중에서 이상장치 판별을 위해 미리 설정된 조건을 만족하는 제2 특징 변수를 선별하는 단계; 및
상기 선별된 제2 특징 변수로 이루어진 리스트 중에서 XAI(explainable AI)를 적용할 제3 특징 변수를 추출하고, 상기 추출된 제3 특징 변수로 이루어진 리스트에 대한 상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 단계;를 포함하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 방법.
A step of detecting whether there is an anomaly in time series data collected from at least one device used in a manufacturing process through a residual error-based anomaly detection model, and classifying the time series data into abnormal data and normal data, and setting the data having the lowest error rate relative to standard normal data learned by the anomaly detection model among a plurality of data classified as normal data as the comparison reference data;
A step of selecting a second characteristic variable that satisfies a preset condition for determining an abnormal device from among the first characteristic variables constituting the above abnormal data or normal data; and
A method for determining an abnormal device based on calculating the distance between time series vectors, comprising: a step of extracting a third characteristic variable to which XAI (explainable AI) is applied from a list consisting of the selected second characteristic variables, and determining an abnormal device through abnormal detection of the XAI for the list consisting of the extracted third characteristic variables.
제9 항에 있어서,
상기 제2 특징 변수를 선별하는 단계는,
군집화 알고리즘을 통하여 상기 제1 특징 변수를 그룹화하여 특징 변수 그룹을 생성하는 제1 과정;
상기 구분된 이상 데이터 또는 정상 데이터 각각에서 상기 특징 변수 그룹을 이루는 제1 특징 변수를 제외한 시계열 데이터에 대한 임베딩을 통하여 제1 시계열 벡터를 생성하고, 상기 비교 기준 데이터에 대한 임베딩을 통하여 제2 시계열 벡터를 생성하는 제2 과정; 및
상기 제1 시계열 벡터와 제2 시계열 벡터 간의 거리를 이용하여 상기 제1 시계열 벡터와 제2 시계열 벡터 간의 유사성을 계산하는 제3 과정을 포함하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 방법.
In Article 9,
The step of selecting the second feature variable is:
A first process of creating a feature variable group by grouping the first feature variable through a clustering algorithm;
A second process of generating a first time series vector through embedding for time series data excluding the first feature variable forming the feature variable group from each of the above-mentioned separated abnormal data or normal data, and generating a second time series vector through embedding for the comparison reference data; and
A method for determining an anomaly device based on calculating the distance between time series vectors, comprising a third step of calculating the similarity between the first time series vector and the second time series vector by using the distance between the first time series vector and the second time series vector.
제10 항에 있어서,
상기 제2 특징 변수를 선별하는 단계는, 상기 정상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 선택하고, 상기 이상 데이터에 기반하여 생성된 다수의 제1 시계열 벡터 중에서 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 선택하되, 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터 및 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수를 보관하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 방법.
In Article 10,
The step of selecting the second characteristic variable comprises: selecting a first time series vector having a long relative distance from the second time series vector from among a plurality of first time series vectors generated based on the normal data; selecting a first time series vector having a short relative distance from the second time series vector from among a plurality of first time series vectors generated based on the abnormal data; and storing the first characteristic variable that was excluded when generating the first time series vector having a long relative distance from the second time series vector and the first time series vector having a short relative distance from the second time series vector.
제11 항에 있어서,
상기 제2 특징 변수를 선별하는 단계에서는 상기 제2 시계열 벡터와의 상대적 거리가 길어진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 작은 제2 특징 변수로 선별하고, 상기 제2 시계열 벡터와의 상대적 거리가 짧아진 제1 시계열 벡터를 생성할 때 제외되었던 제1 특징 변수는 데이터 이상에 영향력이 가장 큰 제2 특징 변수로 선별하되,
상기 제3 특징 변수는 상기 제2 특징 변수 중에서 데이터 이상에 미치는 영향력을 기준으로 선별된 변수이며,
상기 XAI의 이상 탐지를 통하여 이상장치를 판별하는 단계에서는 데이터 이상에 미치는 영향력이 큰 순으로, 상기 제2 특징 변수 중에서 상기 제3 특징 변수를 추출하는, 시계열 벡터 간 거리 계산에 기반한 이상장치 판별 방법.
In Article 11,
In the step of selecting the second feature variable, the first feature variable that was excluded when generating the first time series vector with a long relative distance from the second time series vector is selected as the second feature variable with the least influence on data anomalies, and the first feature variable that was excluded when generating the first time series vector with a short relative distance from the second time series vector is selected as the second feature variable with the greatest influence on data anomalies.
The above third feature variable is a variable selected from the above second feature variables based on its influence on data abnormalities.
A method for determining an abnormal device based on calculating the distance between time series vectors, wherein, in the step of determining an abnormal device through the above XAI abnormality detection, the third characteristic variable is extracted from the second characteristic variable in the order of influence on the data abnormality.
KR1020230045224A 2023-04-06 2023-04-06 Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors KR20240149554A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020230045224A KR20240149554A (en) 2023-04-06 2023-04-06 Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors
PCT/KR2024/004152 WO2024210424A1 (en) 2023-04-06 2024-04-01 Apparatus and method for determining abnormal device on basis of calculating distances between time series vectors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230045224A KR20240149554A (en) 2023-04-06 2023-04-06 Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors

Publications (1)

Publication Number Publication Date
KR20240149554A true KR20240149554A (en) 2024-10-15

Family

ID=92972080

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230045224A KR20240149554A (en) 2023-04-06 2023-04-06 Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors

Country Status (2)

Country Link
KR (1) KR20240149554A (en)
WO (1) WO2024210424A1 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102234514B1 (en) * 2020-03-06 2021-03-31 주식회사 제이슨 Artificial intelligence method and system for integrated it monitoring
US11423334B2 (en) * 2020-05-08 2022-08-23 Kyndryl, Inc. Semantic consistency of explanations in explainable artificial intelligence applications
KR102417702B1 (en) * 2021-01-06 2022-07-07 (주)유엠로직스 System and method for optimal processing data calculation of PBCs removal based on explainable AI
KR102637170B1 (en) * 2021-03-16 2024-02-14 현대모비스 주식회사 Method and Apparatus for Defect Inspection Based on Explainable Artificial Intelligence
KR102483210B1 (en) * 2021-08-10 2022-12-30 충북대학교 산학협력단 Facility health index derivation system and facility health index derivation method by predicting the probability of manufacturing facility abnormality using xai

Also Published As

Publication number Publication date
WO2024210424A1 (en) 2024-10-10

Similar Documents

Publication Publication Date Title
Lieber et al. Quality prediction in interlinked manufacturing processes based on supervised & unsupervised machine learning
CN111708343B (en) Method for detecting abnormal behavior of field process behavior in manufacturing industry
JP5364530B2 (en) Equipment state monitoring method, monitoring system, and monitoring program
CN110263728B (en) Abnormal behavior detection method based on improved pseudo-three-dimensional residual error neural network
US20160217379A1 (en) Shapelet-Based Oilfield Equipment Failure Prediction and Detection
WO2015001544A2 (en) System and method for abnormality detection
KR102418596B1 (en) A deep-learning system based small learning data-set and method of deep-learning used it
CN117131110B (en) Method and system for monitoring dielectric loss of capacitive equipment based on correlation analysis
US20230221684A1 (en) Explaining Machine Learning Output in Industrial Applications
CN113971425A (en) Abnormity analysis method, abnormity analysis device and storage medium
CN103136540B (en) A kind of Activity recognition method based on implicit structure reasoning
CN110837874A (en) Service data abnormity detection method based on time series classification
CN117123131A (en) Petroleum aid production equipment and method thereof
KR102366787B1 (en) Real-time sliding window based anomaly detection system for multivariate data generated by manufacturing equipment
Sharma et al. A semi-supervised generalized vae framework for abnormality detection using one-class classification
KR20210011822A (en) Method of detecting abnormal log based on artificial intelligence and system implementing thereof
CN114020811A (en) Data anomaly detection method and device and electronic equipment
CN111709437B (en) Abnormal behavior detection method oriented to field process behavior of petrochemical industry
KR20240149554A (en) Apparatus and method for determining abnormal equipment based on distance calculation between time series vectors
US20240160160A1 (en) Method and System for Industrial Change Point Detection
CN117951646A (en) Data fusion method and system based on edge cloud
CN117676099A (en) Security early warning method and system based on Internet of things
IL290977B2 (en) A system and method for model configuration selection
CN114861753A (en) Data classification method and device based on large-scale network
CN113919237A (en) Method for online working condition segmentation and fault diagnosis of fan equipment