BR102019005519B1

BR102019005519B1 - ANOMALY DETECTION BASED ON SPARSE NEURAL NETWORK IN MULTIDIMENSIONAL TIME SERIES, METHOD IMPLEMENTED BY PROCESSOR, SYSTEM AND ONE OR MORE NON-TRANSITORY MACHINE READABLE INFORMATION STORAGE MEDIA

Info

Publication number: BR102019005519B1
Application number: BR102019005519-7A
Authority: BR
Inventors: Pankaj Malhotra; Narendhar GUGULOTHU; Lovekesh Vig; Gautam Shroff
Original assignee: Tata Consultancy Services Limited
Priority date: 2018-07-09
Filing date: 2019-03-20
Publication date: 2024-09-24

Abstract

DETECÇÃO DE ANOMALIA COM BASE EM REDE NEURAL ESPARSA EM SÉRIES CRONOLÓGICAS MULTIDIMENSIONAIS. Trata-se da detecção de anomalia a partir de séries cronológicas que é um dos componentes-chave em monitoramento automatizado de uma ou mais entidades. A seleção de sensor acionado por domínio para detecção de anomalia é restringida por conhecimento de sensores importantes para constatar apenas um determinado conjunto de anomalias do conjunto completo de anomalias possíveis. Consequentemente, abordagens de detecção de anomalia existentes não são muito eficazes para séries cronológicas multidimensionais. As modalidades da presente revelação representam rede neural esparsa para detecção de anomalia em séries cronológicas multidimensionais (MDTS) que correspondem a uma pluralidade de parâmetros de entidades. Uma série cronológica dimensional reduzida é obtida a partir das MDTS através de pelo menos uma camada de avanço usando-se a modelo de redução de dimensionalidade. O modelo de redução de dimensionalidade e modelo de codificador-decodificador de rede neural recorrente (RNN) são simultaneamente instruídos para obter uma rede neural esparsa de múltiplas camadas. Uma pluralidade de vetores de erro que correspondem a pelo menos um momento no tempo do MDTS é computada para obter uma classificação de anomalia.SPARK NEURAL NETWORK BASED ANOMALY DETECTION IN MULTIDIMENSIONAL TIME SERIES. This is the anomaly detection from time series which is one of the key components in automated monitoring of one or more entities. Domain driven sensor selection for anomaly detection is constrained by knowledge of important sensors to detect only a certain set of anomalies from the complete set of possible anomalies. Consequently, existing anomaly detection approaches are not very effective for multidimensional time series. The embodiments of the present disclosure represent sparse neural network for anomaly detection in multidimensional time series (MDTS) corresponding to a plurality of entity parameters. A reduced dimensional time series is obtained from the MDTS through at least one forward layer using the dimensionality reduction model. The dimensionality reduction model and recurrent neural network (RNN) encoder-decoder model are simultaneously instructed to obtain a multilayer sparse neural network. A plurality of error vectors corresponding to at least one moment in time of the MDTS are computed to obtain an anomaly classification.

Description

CROSS-REFERENCE TO RELATED ORDERS AND PRIORITY

[001] O presente pedido reivindica prioridade ao Pedido de Patente n° IND 201821025602, depositado em 09 de julho de 2018, em que a totalidade do mesmo está incorporada aqui a título de referência.[001] This application claims priority to Patent Application No. IND 201821025602, filed on July 9, 2018, the entirety of which is incorporated herein by reference.

FIELD OF TECHNIQUE

[002] A revelação no presente documento refere-se, de modo geral, a análise em séries cronológicas e, mais particularmente, a sistemas e métodos para detecção de anomalia em séries cronológicas multidimensionais com base em rede neural esparsa.[002] The disclosure in this document relates, in general, to time series analysis and, more particularly, to systems and methods for anomaly detection in multidimensional time series based on sparse neural networks.

BACKGROUND

[003] Na atual Era Digital, dados de transmissão estão generalizados e crescem em um ritmo acelerado, o que permite monitoramento automatizado de sistemas, por exemplo, com o uso da Internet das Coisas Industrial com um grande número de sensores que capturam o comportamento operacional de um equipamento. Sistemas industriais complexos, tais como motores, turbinas, aeronaves, etc., são, tipicamente, instrumentados com um grande número (dezenas ou mesmo centenas) de sensores que resultam em dados de transmissão multidimensionais. Há um interesse crescente entre fabricantes de equipamento original (OEMs) para potencializar esses dados de modo a fornecer serviços de monitoramento de saúde remoto e ajudar engenheiros do campo a tomar decisões fundamentadas.[003] In today’s Digital Age, streaming data is pervasive and growing at a rapid pace, enabling automated monitoring of systems, for example, using the Industrial Internet of Things with a large number of sensors that capture the operational behavior of a piece of equipment. Complex industrial systems, such as engines, turbines, aircraft, etc., are typically instrumented with a large number (tens or even hundreds) of sensors that result in multidimensional streaming data. There is a growing interest among original equipment manufacturers (OEMs) to leverage this data to provide remote health monitoring services and help field engineers make informed decisions.

[004] A detecção de anomalia a partir de séries cronológicas é um dos componentes-chave na construção de qualquer sistema de monitoramento de saúde. Por exemplo, detectar sintomas precoces de uma falha iminente em uma máquina na forma de anomalias pode ajudar a tomar medidas corretivas para evitar a falha ou reduzir custo de manutenção e tempo de inatividade de máquina. Recentemente, Redes Neurais Recorrentes (RNNs) encontraram aplicações extensivas na detecção de anomalia em séries cronológicas multivariadas através da construção de um modelo de comportamento normal de sistemas complexos a partir de dados de multissensor e, então, da sinalização de desvios do comportamento normal instruído como anomalias. Consequentemente, a noção de encontrar anomalias significativas se torna substancialmente mais complexa em dados multidimensionais.[004] Anomaly detection from time series is one of the key components in building any health monitoring system. For example, detecting early symptoms of an impending machine failure in the form of anomalies can help take corrective measures to prevent the failure or reduce maintenance cost and machine downtime. Recently, Recurrent Neural Networks (RNNs) have found extensive applications in anomaly detection in multivariate time series by building a model of normal behavior of complex systems from multisensor data and then flagging deviations from the instructed normal behavior as anomalies. Consequently, the notion of finding meaningful anomalies becomes substantially more complex in multidimensional data.

[005] A seleção de sensor acionado por domínio para detecção de anomalia com o uso de RNNs é restringida pelo conhecimento de sensores importantes para constatar um dado conjunto de anomalias e, portanto, perderia outros tipos de assinaturas anômalas em qualquer sensor não incluído no conjunto de sensores relevantes. De maneira similar, abordagens que consideram cada sensor ou um subconjunto de sensores independentemente para lidar com tais situações podem não ser apropriadas, dado que: a) resultam em perda de informações de dependência de sensor úteis, e b) quando o número de sensores é grande, a construção e instalação de um modelo de RNN separado para cada sensor pode ser impraticável e computacionalmente inviável. No entanto, abordagens de detecção de anomalia existentes não são muito eficazes para séries cronológicas multidimensionais.[005] Domain-driven sensor selection for anomaly detection using RNNs is constrained by the knowledge of sensors that are important for detecting a given set of anomalies, and would therefore miss other types of anomalous signatures in any sensor not included in the relevant sensor set. Similarly, approaches that consider each sensor or a subset of sensors independently to deal with such situations may not be appropriate, since: a) they result in loss of useful sensor dependency information, and b) when the number of sensors is large, building and deploying a separate RNN model for each sensor may be impractical and computationally infeasible. However, existing anomaly detection approaches are not very effective for multidimensional time series.

SUMMARY

[006] As modalidades da presente revelação apresentam melhoramentos tecnológicos como soluções para um ou mais dos problemas da técnica mencionados acima reconhecidos pelos inventores nos sistemas convencionais. Por exemplo, em um aspecto, um método implantado por processador para detectar anomalia em séries cronológicas multidimensionais com base em rede neural esparsa é fornecido. O método compreende receber, em uma camada de entrada, uma série cronológica multidimensional que corresponde a uma pluralidade de parâmetros de uma entidade; obter, com o uso de um modelo de redução de dimensionalidade, uma série cronológica dimensional reduzida das séries cronológicas multidimensionais através de pelo menos uma camada de avanço, em que conexões entre a camada de entrada e a camada de avanço são esparsas para acessar pelo menos uma porção da pluralidade de parâmetros; estimar, usando-se um modelo de codificador-decodificador de rede neural recorrente (RNN), as séries cronológicas multidimensionais com o uso da série cronológica dimensional reduzida obtida pelo modelo de redução de dimensionalidade; instruir simultaneamente, usando-se as séries cronológicas multidimensionais estimadas, o modelo de redução de dimensionalidade e o modelo de codificador-decodificador de RNN para obter uma rede neural esparsa de múltiplas camadas; computar, usando-se a rede neural esparsa de múltiplas camadas, uma pluralidade de vetores de erro que corresponde a pelo menos um momento no tempo das séries cronológicas multidimensionais realizando-se uma comparação entre as séries cronológicas multidimensionais e as séries cronológicas multidimensionais estimadas; e gerar pelo menos uma classificação de anomalia com base na pluralidade dos vetores de erro.[006] Embodiments of the present disclosure present technological improvements as solutions to one or more of the aforementioned problems of the art recognized by the inventors in conventional systems. For example, in one aspect, a processor-implemented method for detecting anomaly in multidimensional time series based on a sparse neural network is provided. The method comprises receiving, at an input layer, a multidimensional time series corresponding to a plurality of parameters of an entity; obtaining, using a dimensionality reduction model, a reduced dimensional time series from the multidimensional time series through at least one feedforward layer, wherein connections between the input layer and the feedforward layer are sparse to access at least a portion of the plurality of parameters; estimating, using a recurrent neural network (RNN) encoder-decoder model, the multidimensional time series using the reduced dimensional time series obtained by the dimensionality reduction model; simultaneously instructing, using the estimated multidimensional time series, the dimensionality reduction model and the RNN encoder-decoder model to obtain a multilayer sparse neural network; computing, using the multilayer sparse neural network, a plurality of error vectors corresponding to at least one moment in time of the multidimensional time series by performing a comparison between the multidimensional time series and the estimated multidimensional time series; and generating at least one anomaly classification based on the plurality of error vectors.

[007] Em uma modalidade, cada uma dentre a pluralidade de parâmetros na série cronológica dimensional reduzida é uma função não linear de um subconjunto da pluralidade de parâmetros das séries cronológicas multidimensionais. O modelo de redução de dimensionalidade inclui uma pluralidade de camadas de avanço com restrição de esparsidade de Operador de Seleção e Encolhimento Menos Absoluto (LASSO) na pluralidade de parâmetros das camadas de avanço. O método pode compreender, adicionalmente, classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como anômalo se a classificação de anomalia for maior que um limiar (por exemplo, um limiar dinâmico). O método pode compreender, adicionalmente, classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como normal se a classificação de anomalia for menor ou igual ao limiar. O limiar pode ser instruído com base em um conjunto de validade de bloqueio enquanto maximiza classificação F. O conjunto de validade de bloqueio compreende pelo menos um momento no tempo normal e pelo menos um momento no tempo anômalo das séries cronológicas multidimensionais.[007] In one embodiment, each of the plurality of parameters in the reduced dimensional time series is a non-linear function of a subset of the plurality of parameters of the multidimensional time series. The dimensionality reduction model includes a plurality of forward layers with Least Absolute Shrinkage and Selection Operator (LASSO) sparsity constraint on the plurality of parameters of the forward layers. The method may further comprise classifying at least one moment in time in the multidimensional time series as anomalous if the anomaly score is greater than a threshold (e.g., a dynamic threshold). The method may further comprise classifying at least one moment in time in the multidimensional time series as normal if the anomaly score is less than or equal to the threshold. The threshold may be instructed based on a blocking validity set while maximizing F-score. The blocking validity set comprises at least one normal moment in time and at least one anomalous moment in time of the multidimensional time series.

[008] Em outro aspecto, é fornecido um sistema implantado por processador para detectar anomalia em séries cronológicas multidimensionais com base em rede neural esparsa. O sistema compreende: uma memória que armazena instruções; uma ou mais interfaces de comunicação; e um ou mais processadores de hardware acoplados à memória através da uma ou mais interfaces de comunicação, em que o um ou mais processadores de hardware são configurados pelas instruções para: receber, em uma camada de entrada, uma série cronológica multidimensional que corresponde a uma pluralidade de parâmetros de uma entidade; obter, com o uso de um modelo de redução de dimensionalidade, uma série cronológica dimensional reduzida das séries cronológicas multidimensionais através de pelo menos uma camada de avanço, em que conexões entre a camada de entrada e a camada de avanço são esparsas para acessar pelo menos uma porção da pluralidade de parâmetros; estimar, usando-se um modelo de codificador-decodificador de rede neural recorrente (RNN), as séries cronológicas multidimensionais com o uso da série cronológica dimensional reduzida obtida pelo modelo de redução de dimensionalidade; instruir simultaneamente, usando-se as séries cronológicas multidimensionais estimadas, o modelo de redução de dimensionalidade e o modelo de codificador-decodificador de RNN para obter uma rede neural esparsa de múltiplas camadas; computar, usando-se a rede neural esparsa de múltiplas camadas, uma pluralidade de vetores de erro que corresponde a pelo menos um momento no tempo das séries cronológicas multidimensionais realizando- se uma comparação entre as séries cronológicas multidimensionais e as séries cronológicas multidimensionais estimadas; e gerar pelo menos uma classificação de anomalia com base na pluralidade dos vetores de erro.[008] In another aspect, a processor-implemented system for detecting anomaly in multidimensional time series based on a sparse neural network is provided. The system comprises: a memory that stores instructions; one or more communication interfaces; and one or more hardware processors coupled to the memory through the one or more communication interfaces, wherein the one or more hardware processors are configured by the instructions to: receive, at an input layer, a multidimensional time series corresponding to a plurality of parameters of an entity; obtain, using a dimensionality reduction model, a reduced dimensional time series from the multidimensional time series through at least one forward layer, wherein connections between the input layer and the forward layer are sparse to access at least a portion of the plurality of parameters; estimating, using a recurrent neural network (RNN) encoder-decoder model, the multidimensional time series using the reduced dimensional time series obtained by the dimensionality reduction model; simultaneously instructing, using the estimated multidimensional time series, the dimensionality reduction model and the RNN encoder-decoder model to obtain a multilayer sparse neural network; computing, using the multilayer sparse neural network, a plurality of error vectors corresponding to at least one moment in time of the multidimensional time series by performing a comparison between the multidimensional time series and the estimated multidimensional time series; and generating at least one anomaly classification based on the plurality of error vectors.

[009] Em uma modalidade, cada uma dentre a pluralidade de parâmetros na série cronológica dimensional reduzida é uma função não linear de um subconjunto da pluralidade de parâmetros das séries cronológicas multidimensionais. Em uma modalidade, o modelo de redução de dimensionalidade inclui uma pluralidade de camadas de avanço com restrição de esparsidade de Operador de Seleção e Encolhimento Menos Absoluto (LASSO) na pluralidade de parâmetros das camadas de avanço. Em uma modalidade, o um ou mais processadores de hardware são adicionalmente configurados para: classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como anômalo se a classificação de anomalia for maior que um limiar (por exemplo, um limiar dinâmico) e classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como normal se a classificação de anomalia for menor ou igual ao limiar. O limiar pode ser instruído com base em um conjunto de validade de bloqueio enquanto maximiza classificação F. O conjunto de validade de bloqueio pode compreender pelo menos um momento no tempo normal e pelo menos um momento no tempo anômalo das séries cronológicas multidimensionais.[009] In one embodiment, each of the plurality of parameters in the reduced dimensional time series is a non-linear function of a subset of the plurality of parameters of the multidimensional time series. In one embodiment, the dimensionality reduction model includes a plurality of forward layers with Least Absolute Shrinkage and Selection Operator (LASSO) sparsity constraint on the plurality of parameters of the forward layers. In one embodiment, the one or more hardware processors are further configured to: classify at least one moment in time in the multidimensional time series as anomalous if the anomaly classification is greater than a threshold (e.g., a dynamic threshold), and classify at least one moment in time in the multidimensional time series as normal if the anomaly classification is less than or equal to the threshold. The threshold may be instructed based on a blocking validity set while maximizing F-score. The blocking validity set may comprise at least one normal time point and at least one anomalous time point of the multidimensional time series.

[010] Em ainda outro aspecto, são fornecidas uma ou mais mídias de armazenamento de informação legível por máquina não transitórias que compreendem uma ou mais instruções que, quando executadas por um ou mais processadores de hardware, resultam em receber, em uma camada de entrada, uma série cronológica multidimensional que corresponde a uma pluralidade de parâmetros de uma entidade; obter, com o uso de um modelo de redução de dimensionalidade, uma série cronológica dimensional reduzida das séries cronológicas multidimensionais através de pelo menos uma camada de avanço, em que conexões entre a camada de entrada e a camada de avanço são esparsas para acessar pelo menos uma porção da pluralidade de parâmetros; estimar, usando-se um modelo de codificador-decodificador de rede neural recorrente (RNN), as séries cronológicas multidimensionais com o uso da série cronológica dimensional reduzida obtida pelo modelo de redução de dimensionalidade; instruir simultaneamente, usando-se as séries cronológicas multidimensionais estimadas, o modelo de redução de dimensionalidade e o modelo de codificador-decodificador de RNN para obter uma rede neural esparsa de múltiplas camadas; computar, usando-se a rede neural esparsa de múltiplas camadas, uma pluralidade de vetores de erro que correspondem a pelo menos um momento no tempo das séries cronológicas multidimensionais realizando-se uma comparação entre as séries cronológicas multidimensionais e as séries cronológicas multidimensionais estimadas; e gerar pelo menos uma classificação de anomalia com base na pluralidade dos vetores de erro.[010] In yet another aspect, one or more non-transitory machine-readable information storage media comprising one or more instructions that, when executed by one or more hardware processors, result in receiving, at an input layer, a multidimensional time series corresponding to a plurality of parameters of an entity; obtaining, using a dimensionality reduction model, a reduced dimensional time series from the multidimensional time series through at least one forward layer, wherein connections between the input layer and the forward layer are sparse to access at least a portion of the plurality of parameters; estimating, using a recurrent neural network (RNN) encoder-decoder model, the multidimensional time series using the reduced dimensional time series obtained by the dimensionality reduction model; simultaneously instructing, using the estimated multidimensional time series, the dimensionality reduction model and the RNN encoder-decoder model to obtain a multilayer sparse neural network; computing, using the multilayer sparse neural network, a plurality of error vectors corresponding to at least one moment in time of the multidimensional time series by performing a comparison between the multidimensional time series and the estimated multidimensional time series; and generating at least one anomaly classification based on the plurality of error vectors.

[011] Em uma modalidade, as instruções, quando executadas pelo um ou mais processadores de hardware, podem fazer com que, adicionalmente, cada um dentre a pluralidade de parâmetros na série cronológica dimensional reduzida seja uma função não linear de um subconjunto da pluralidade de parâmetros das séries cronológicas multidimensionais. O modelo de redução de dimensionalidade inclui uma pluralidade de camadas de avanço com restrição de esparsidade de Operador de Seleção e Encolhimento Menos Absoluto (LASSO) na pluralidade de parâmetros das camadas de avanço. O método pode compreender, adicionalmente, classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como anômalo se a classificação de anomalia for maior que um limiar (por exemplo, um limiar dinâmico). O método pode compreender, adicionalmente, classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como normal se a classificação de anomalia for menor ou igual ao limiar. O limiar (por exemplo, um limiar dinâmico) pode ser instruído com base em um conjunto de validade de bloqueio enquanto maximiza classificação F. O conjunto de validade de bloqueio pode compreender pelo menos um momento no tempo normal e pelo menos um momento no tempo anômalo das séries cronológicas multidimensionais.[011] In one embodiment, the instructions, when executed by the one or more hardware processors, may further cause each of the plurality of parameters in the reduced dimensional time series to be a non-linear function of a subset of the plurality of parameters of the multidimensional time series. The dimensionality reduction model includes a plurality of forward layers with Least Absolute Shrinkage and Selection Operator (LASSO) sparsity constraint on the plurality of parameters of the forward layers. The method may further comprise classifying at least one moment in time in the multidimensional time series as anomalous if the anomaly classification is greater than a threshold (e.g., a dynamic threshold). The method may further comprise classifying at least one moment in time in the multidimensional time series as normal if the anomaly classification is less than or equal to the threshold. The threshold (e.g., a dynamic threshold) may be instructed based on a blocking validity set while maximizing F-score. The blocking validity set may comprise at least one normal time point and at least one anomalous time point of the multidimensional time series.

[012] Deve-se entender que tanto a descrição geral anterior quanto a descrição detalhada a seguir são apenas exemplificativas e explicativas e não são restritivas da invenção conforme reivindicada.[012] It should be understood that both the foregoing general description and the following detailed description are exemplary and explanatory only and are not restrictive of the invention as claimed.

BRIEF DESCRIPTION OF THE DRAWINGS

[013] Os desenhos anexos, que são incorporados e constituem uma parte desta revelação, ilustram modalidades exemplificativas e, juntamente com a descrição, servem para explicar os princípios revelados.[013] The accompanying drawings, which are incorporated into and constitute a part of this disclosure, illustrate exemplary embodiments and, together with the description, serve to explain the principles disclosed.

[014] A Figura 1 ilustra um diagrama de bloco exemplificativo de um sistema para detectar anomalia em séries cronológicas multidimensionais com base em rede neural esparsa, em conformidade com uma modalidade da presente revelação.[014] Figure 1 illustrates an exemplary block diagram of a system for detecting anomaly in multidimensional time series based on a sparse neural network, in accordance with an embodiment of the present disclosure.

[015] A Figura 2 ilustra um fluxograma exemplificativo que ilustra um método para detectar anomalia em séries cronológicas multidimensionais com base em rede neural esparsa com o uso do sistema da Figura 1, de acordo com uma modalidade da presente revelação.[015] Figure 2 illustrates an exemplary flowchart illustrating a method for detecting anomaly in multidimensional time series based on sparse neural network using the system of Figure 1, according to an embodiment of the present disclosure.

[016] A Figura 3A retrata um Codificador- Decodificador de Rede Neural Recorrente (RNN) Padrão.[016] Figure 3A depicts a Standard Recurrent Neural Network (RNN) Encoder-Decoder.

[017] A Figura 3B retrata uma detecção de anomalia com base em Rede Neural Esparsa conforme implantada pelo sistema 100 da Figura 1, em conformidade com algumas modalidades da presente revelação.[017] Figure 3B depicts a Sparse Neural Network-based anomaly detection as implemented by the system 100 of Figure 1, in accordance with some embodiments of the present disclosure.

[018] A Figura 3C retrata uma comparação entre o Codificador-Decodificador de RNN Padrão e a Rede Neural Esparsa, em conformidade com algumas modalidades da presente revelação.[018] Figure 3C depicts a comparison between the Standard RNN Encoder-Decoder and the Sparse Neural Network, in accordance with some embodiments of the present disclosure.

[019] As Figuras 4A a 4C retratam uma representação gráfica que ilustra a Comparação de Desempenho de Modelos de Detecção de Anomalia em termos de AUROC, em conformidade com uma modalidade exemplificativa da presente revelação.[019] Figures 4A to 4C depict a graphical representation illustrating the Performance Comparison of Anomaly Detection Models in terms of AUROC, in accordance with an exemplary embodiment of the present disclosure.

DETAILED DESCRIPTION OF THE MODALITIES

[020] Modalidades exemplificativas são descritas com referência aos desenhos anexos. Nas Figuras, o dígito (ou dígitos) mais à esquerda de um número de referência identifica a Figura na qual o número de referência aparece primeiro. Sempre que for conveniente, os mesmos números de referência são usados ao longo dos desenhos para se referir às partes iguais ou semelhantes. Embora exemplos e recursos de princípios revelados sejam descritos no presente documento, modificações, adaptações e outras implantações são possíveis sem que se afaste do espírito e escopo das modalidades reveladas. Pretende-se que a seguinte descrição detalhada seja considerada apenas como exemplificativa, em que o verdadeiro escopo e espírito são indicados pelas seguintes reivindicações.[020] Exemplary embodiments are described with reference to the accompanying drawings. In the Figures, the leftmost digit (or digits) of a reference numeral identifies the Figure in which the reference numeral first appears. Wherever convenient, the same reference numerals are used throughout the drawings to refer to the same or similar parts. While examples and features of principles disclosed are described herein, modifications, adaptations and other implementations are possible without departing from the spirit and scope of the disclosed embodiments. It is intended that the following detailed description be considered as exemplary only, the true scope and spirit of which are indicated by the following claims.

[021] Na presente revelação, modalidades e sistemas, e métodos associados aos mesmos, fornecem uma maneira eficiente para extensão em tais abordagens para séries cronológicas multidimensionais. A presente abordagem combina vantagens de técnicas de redução de dimensionalidade não temporal e autocodificadores recorrentes para modelagem de séries cronológicas através de um quadro de instrução de ponta a ponta. O codificador recorrente consegue acesso esparso para as dimensões de entrada através de uma camada de avanço, enquanto o decodificador recorrente é forçado a reconstruir todas as dimensões de entrada, desse modo, resulta em melhor regularização e um modelo temporal robusto. O autocodificador, assim, treinado em séries cronológicas normais é propenso a gerar um alto erro de reconstrução, e uma alta classificação de anomalia correspondente, para qualquer modelo de séries cronológicas anômalas.[021] In the present disclosure, embodiments and systems, and methods associated therewith, provide an efficient way to extend such approaches to multidimensional time series. The present approach combines advantages of non-temporal dimensionality reduction techniques and recurrent autoencoders for modeling time series through an end-to-end instruction framework. The recurrent encoder achieves sparse access to the input dimensions through a feedforward layer, while the recurrent decoder is forced to reconstruct all input dimensions, thereby resulting in better regularization and a robust temporal model. The autoencoder thus trained on normal time series is prone to generate a high reconstruction error, and a corresponding high anomaly score, for any anomalous time series model.

[022] A presente revelação propõe Detecção de Anomalia com base em Rede Neural Esparsa, ou (SPREAD): uma abordagem que combina a redução de dimensionalidade pontual (isto é, não temporal) através de uma ou mais camadas de avanço esparsadamente conectadas sobre a camada de entrada com um codificador-decodificador neural recorrente em uma configuração de intuição de ponta a ponta para modelar o comportamento normal de um sistema. Uma vez que um modelo para comportamento normal é instruído, o mesmo pode ser usado para detectar comportamento que desvia do normal analisando- se a reconstrução através de um decodificador recorrente que tenta reconstruir as séries cronológicas originais de volta com o uso da saída do codificador recorrente. Ao ser treinado apenas em dados normais, o modelo é propenso a falhar na reconstrução de uma série cronológica anômala e resulta em alto erro de reconstrução. Esse erro em reconstrução é usado para obter uma classificação de anomalia.[022] The present disclosure proposes Sparse Neural Network-Based Anomaly Detection, or (SPREAD): an approach that combines pointwise (i.e., non-temporal) dimensionality reduction through one or more sparsely connected feedforward layers over the input layer with a recurrent neural encoder-decoder in an end-to-end intuitionistic configuration to model the normal behavior of a system. Once a model for normal behavior is trained, it can be used to detect behavior that deviates from normal by analyzing the reconstruction through a recurrent decoder that attempts to reconstruct the original time series back using the output of the recurrent encoder. When trained only on normal data, the model is prone to fail in reconstructing an anomalous time series and results in high reconstruction error. This error in reconstruction is used to obtain an anomaly classification.

[023] Na presente revelação, eficácia adicional com melhoramento significativo é observada através da implantação da abordagem proposta por experimentos em um conjunto de dados públicos e dois conjuntos de dados do mundo real no desempenho de detecção de anomalia sobre diversas bases. A abordagem proposta tem capacidade para ser bem realizada mesmo sem conhecimento de dimensões relevantes que carregam a assinatura anômala em uma configuração multidimensional. A presente revelação propõe, adicionalmente, uma maneira eficaz de potencializar redes esparsas através de regularização L1 para detecção de anomalia em séries cronológicas multidimensionais.[023] In the present disclosure, additional effectiveness with significant improvement is observed through the implementation of the proposed approach by experiments on a public dataset and two real-world datasets in anomaly detection performance over various bases. The proposed approach has the ability to perform well even without knowledge of relevant dimensions that carry the anomalous signature in a multidimensional setting. The present disclosure further proposes an effective way to leverage sparse networks through L1 regularization for anomaly detection in multidimensional time series.

[024] Com referência agora aos desenhos, e mais particularmente à Figura 1 até as Figuras 4A a 4C, em que caracteres de referência similares denotam recursos correspondentes de maneira consistente por todas as Figuras, são mostradas modalidades preferenciais e essas modalidades são descritas no contexto do seguinte sistema e/ou método exemplificativo.[024] Referring now to the drawings, and more particularly to Figure 1 through Figures 4A through 4C, in which like reference characters denote corresponding features consistently throughout the Figures, preferred embodiments are shown and these embodiments are described in the context of the following exemplary system and/or method.

[025] As Figuras 1 ilustra um diagrama de bloco exemplificativo de um sistema 100 para detectar anomalia em séries cronológicas multidimensionais com base em rede neural esparsa, em conformidade com uma modalidade da presente revelação. Em uma modalidade, o sistema 100 inclui um ou mais processadores 104, dispositivo (ou dispositivos) de interface de comunicação ou interface (ou interfaces) de entrada/saída (I/O) 106 e um ou mais dispositivos de armazenamento de dados ou memória 102 operativamente acoplada ao um ou mais processadores 104. A memória 102 compreende um banco de dados 108. O um ou mais processadores 104 que são processadores de hardware podem ser implantados como um ou mais microprocessadores, microcomputadores, microcontroladores, processadores de sinal digital, unidades de processamento central, máquinas de estado, conjuntos de circuito de lógica e/ou quaisquer dispositivos que manipulam sinais com base em instruções operacionais. Entre as outras capacidades, o processador (ou processadores) é configurado para coletar e executar instruções legíveis por computador armazenadas na memória. Em uma modalidade, o sistema 100 pode ser implantado em uma variedade de sistemas de computação, tais como computadores do tipo laptop, computadores do tipo notebook, dispositivos portáteis, estações de trabalho, computadores mainframe, servidores, uma nuvem de rede e semelhantes.[025] Figures 1 illustrates an exemplary block diagram of a system 100 for detecting anomaly in multidimensional time series based on sparse neural network, in accordance with an embodiment of the present disclosure. In one embodiment, the system 100 includes one or more processors 104, communication interface device(s) or input/output (I/O) interface(s) 106, and one or more data storage devices or memory 102 operatively coupled to the one or more processors 104. The memory 102 comprises a database 108. The one or more processors 104 which are hardware processors may be implemented as one or more microprocessors, microcomputers, microcontrollers, digital signal processors, central processing units, state machines, logic circuit assemblies, and/or any devices that manipulate signals based on operational instructions. Among other capabilities, the processor (or processors) is configured to collect and execute computer-readable instructions stored in memory. In one embodiment, system 100 may be deployed in a variety of computing systems, such as laptop computers, notebook computers, handheld devices, workstations, mainframe computers, servers, a network cloud, and the like.

[026] O dispositivo (ou dispositivos) de interface de I/O 106 pode incluir uma variedade de interfaces de software e hardware, por exemplo, uma interface de rede, uma interface gráfica de usuário e semelhantes, e pode facilitar múltiplas comunicações dentro de uma ampla variedade de redes N/W e tipos de protocolo, que incluem redes com fio, por exemplo, LAN, a cabo, etc., e redes sem fio, tais como WLAN, celular ou satélite. Em uma modalidade, o dispositivo (ou dispositivos) de interface de I/O pode incluir uma ou mais portas para conectar diversos dispositivos entre si ou a outro servidor.[026] The I/O interface device(s) 106 may include a variety of software and hardware interfaces, e.g., a network interface, a graphical user interface, and the like, and may facilitate multiple communications within a wide variety of N/W networks and protocol types, including wired networks, e.g., LAN, cable, etc., and wireless networks, such as WLAN, cellular, or satellite. In one embodiment, the I/O interface device(s) may include one or more ports for connecting multiple devices to each other or to another server.

[027] A memória 102 pode incluir qualquer mídia legível por computador conhecida na técnica que inclui, por exemplo, memória volátil, tal como memória de acesso aleatório estático (SRAM) e memória de acesso aleatório dinâmico (DRAM), e/ou memória não volátil, tal como memória somente de leitura (ROM), ROM programável apagável, memorias flash, discos rígidos, discos ópticos e fitas magnéticas.[027] Memory 102 may include any computer-readable media known in the art including, for example, volatile memory such as static random access memory (SRAM) and dynamic random access memory (DRAM), and/or non-volatile memory such as read-only memory (ROM), erasable programmable ROM, flash memories, hard drives, optical disks, and magnetic tapes.

[028] O banco de dados 108 pode armazenar informações, porém, não se limita a uma pluralidade de parâmetros obtidos a partir de um ou mais sensores, em que os parâmetros são específicos para uma entidade (por exemplo, usuário, máquina e semelhantes). Em uma modalidade, um ou mais sensores podem ser um sensor de temperatura, um sensor de movimento, um sensor de pressão, um sensor de vibração e semelhantes. Parâmetros podem compreender dados de sensor capturados através dos sensores conectados ao usuário e/ou à máquina. Adicionalmente, o banco de dados 108 armazena informações que pertencem às entradas alimentadas ao sistema 100 e/ou saídas geradas pelo sistema (por exemplo, em cada estágio), específicas para a metodologia descrita no presente documento. Mais especificamente, o banco de dados 108 armazena informações que são processadas em cada etapa da metodologia proposta.[028] The database 108 may store information, but is not limited to, a plurality of parameters obtained from one or more sensors, wherein the parameters are specific to an entity (e.g., user, machine, and the like). In one embodiment, the one or more sensors may be a temperature sensor, a motion sensor, a pressure sensor, a vibration sensor, and the like. Parameters may comprise sensor data captured through sensors connected to the user and/or the machine. Additionally, the database 108 stores information pertaining to inputs fed to the system 100 and/or outputs generated by the system (e.g., at each stage), specific to the methodology described herein. More specifically, the database 108 stores information that is processed at each stage of the proposed methodology.

[029] A Figura 2, com referência à Figura 1, ilustra um fluxograma exemplificativo que ilustra um método para detectar anomalia em séries cronológicas multidimensionais com base em rede neural esparsa com o uso do sistema 100 da Figura 1, de acordo com uma modalidade da presente revelação. Em uma modalidade, o sistema 100 compreende um ou mais dispositivos de armazenamento de dados ou a memória 102 operativamente acoplada ao um ou mais processadores de hardware 104 e é configurado para armazenar instruções para execução de etapas do método pelo um ou mais processadores 104. O fluxograma retratado na Figura 2 é melhor entendido por meio da seguinte explicação/descrição.[029] Figure 2, with reference to Figure 1, illustrates an exemplary flowchart illustrating a method for detecting anomaly in multidimensional time series based on sparse neural network using the system 100 of Figure 1, in accordance with an embodiment of the present disclosure. In one embodiment, the system 100 comprises one or more data storage devices or memory 102 operatively coupled to the one or more hardware processors 104 and is configured to store instructions for executing steps of the method by the one or more processors 104. The flowchart depicted in Figure 2 is best understood through the following explanation/description.

[030] Uma detecção de anomalia por codificador- decodificador (EncDec-AD) com base em RNN, conforme mostrado na Figura 3A, treina primeiro um codificador-decodificador de rede neural recorrente (RNN-ED) como um autocodificador temporal que usa erro de reconstrução como uma função de perda. O autocodificador é treinado em séries cronológicas normais de modo que a rede aprenda a reconstruir uma série cronológica normal bem, porém, é não é propenso a reconstruir uma série cronológica anômala. O erro de reconstrução é, então, usado para obter uma classificação de anomalia.[030] An RNN-based encoder-decoder anomaly detection (EncDec-AD), as shown in Figure 3A, first trains a recurrent neural network encoder-decoder (RNN-ED) as a temporal autoencoder that uses reconstruction error as a loss function. The autoencoder is trained on normal time series such that the network learns to reconstruct a normal time series well, but is not prone to reconstructing an anomalous time series. The reconstruction error is then used to obtain an anomaly classification.

[031] Mais especificamente, a Figura 3B, com referência às Figuras 1 a 2, retrata detecção de anomalia com base em codificador-decodificador de rede neural esparsa, conforme implantado pelo sistema 100 da Figura 1, em conformidade com algumas modalidades da presente revelação. Mais especificamente, Codificador-Decodificador de Rede Neural Recorrente (RNN-ED) é treinado de uma tal maneira que as séries cronológicas-alvo x(^ ± são o inverso das séries cronológicas de entrada x(t) =x(^ T, para exemplos de enésimas séries cronológicas. Em uma modalidade, x1T denotam uma série cronológica de valor real multivariada x±,x2,... ,xT de comprimento T, onde cada xt E Rd, (em que d é a dimensão de entrada, por exemplo, número de sensores no caso dos inventores). O processo geral pode ser pensado como um mapeamento não linear das séries cronológicas multivariadas de entrada para um vetor dimensional fixado z^) através de uma função de codificador fE, seguido por outro mapeamento não linear do vetor dimensional fixado para uma série cronológica multivariada através de uma função de decodificador fD. RNN-ED é treinado para minimizar a função de perda L dada pela média de erro de reconstrução quadrático: em que, N é o número de exemplos de séries cronológicas multivariadas no conjunto de treino denota normalização L2, e WE, eWD -representam os parâmetros do codificador e decodificador RNNs, respectivamente.[031] More specifically, Figure 3B, with reference to Figures 1-2, depicts sparse neural network encoder-decoder based anomaly detection as implemented by the system 100 of Figure 1, in accordance with some embodiments of the present disclosure. More specifically, Recurrent Neural Network Encoder-Decoder (RNN-ED) is trained in such a way that the target time series x(^±) is the inverse of the input time series x(t) = x(^T, for example nth time series. In one embodiment, x1T denote a multivariate real-valued time series x±,x2,... ,xT of length T, where each xt E Rd, (where d is the input dimension, e.g. number of sensors in the case of inventors). The overall process can be thought of as a nonlinear mapping of the input multivariate time series to a fixed-dimensional vector z^) via an encoder function fE, followed by another nonlinear mapping of the fixed-dimensional vector to a multivariate time series via a decoder function fD. RNN-ED is trained to minimize the loss function L given by the mean squared reconstruction error: where, N is the number of multivariate time series examples in the training set denotes L2 normalization, and WE, and WD -represent the parameters of the encoder and decoder RNNs, respectively.

[032] Dado o vetor de erroa distância de Mahalanobis é usada para computar a classificação de anomalia como a seguir: em que µ e ∑ são o valor médio e a matriz de covariância dos vetores de erro que correspondem aos exemplos de séries cronológicas de treino normal. Essa classificação de anomalia pode ser obtida em uma configuração online com o uso de uma janela de comprimento T que termina no tempo atual t como a entrada, o que torna possível gerar alarmes pontuais com relação ao comportamento anômalo. Um ponto é classificado como anômalo se o limiar pode ser instruído com o uso de um conjunto de validade de bloqueio enquanto otimiza classificação F.[032] Given the error vector the Mahalanobis distance is used to compute the anomaly classification as follows: where µ and ∑ are the mean value and covariance matrix of the error vectors corresponding to the normal training time series examples. This anomaly classification can be achieved in an online setting using a window of length T ending at the current time t as the input, which makes it possible to generate timely alarms regarding anomalous behavior. A point is classified as anomalous if the threshold can be instructed using a blocking validity set while optimizing F-score.

[033] As etapas do método da presente revelação serão explicadas, agora, com referência aos componentes do sistema 100, conforme retratado na Figura 1 e no fluxograma da Figura 2. Em uma modalidade da presente revelação, na etapa 202, o um ou mais processadores de hardware 104 recebem, em uma camada de entrada, uma série cronológica multidimensional que corresponde a uma pluralidade de parâmetros de uma entidade (por exemplo, nesse caso a entidade pode ser um usuário, ou uma máquina, e semelhantes). Em uma modalidade, cada dimensão das séries cronológicas multidimensionais corresponde a pelo menos um parâmetro da pluralidade de parâmetros da entidade. Em uma modalidade da presente revelação, na etapa 204, o um ou mais processadores de hardware 104 obter, com o uso de um modelo de redução de dimensionalidade, uma série cronológica dimensional reduzida das séries cronológicas multidimensionais através de pelo menos uma camada de avanço. Em uma modalidade, as conexões entre a camada de entrada e a camada de avanço são esparsas para acessar pelo menos uma porção da pluralidade de parâmetros. Em uma modalidade, uma provisão para mapear cada ponto multidimensional nas séries cronológicas de entrada em um ponto dimensional reduzido através de uma camada de redução de dimensionalidade de avanço e, então, usar as séries cronológicas no espaço dimensional reduzido para reconstruir as séries cronológicas multidimensionais originais através de RNN-ED, como em EncDec-AD.[033] The steps of the method of the present disclosure will now be explained with reference to the components of the system 100 as depicted in Figure 1 and the flowchart of Figure 2. In one embodiment of the present disclosure, in step 202, the one or more hardware processors 104 receive, in an input layer, a multidimensional time series corresponding to a plurality of parameters of an entity (e.g., in this case the entity may be a user, or a machine, and the like). In one embodiment, each dimension of the multidimensional time series corresponds to at least one parameter of the plurality of parameters of the entity. In one embodiment of the present disclosure, in step 204, the one or more hardware processors 104 obtain, using a dimensionality reduction model, a reduced dimensional time series of the multidimensional time series through at least one forward layer. In one embodiment, the connections between the input layer and the forward layer are sparse to access at least a portion of the plurality of parameters. In one embodiment, a provision for mapping each multidimensional point in the input time series into a reduced dimensional point via a forward dimensionality reduction layer, and then using the time series in the reduced dimensional space to reconstruct the original multidimensional time series via RNN-ED, as in EncDec-AD.

[034] Uma restrição de esparsidade é adicionada nos pesos da camada de avanço, de modo que cada unidade na camada de avanço tenha acesso a um subconjunto dos parâmetros de entrada (por exemplo, dimensões de entrada). Uma camada de avanço com conexões esparsas WR da camada de entrada é usada para mapear∈Rdpara∈ Rrde modo que r<d, através de uma transformação não linear por meio de Unidades Lineares Retificadas (ReLU). A entrada dimensional inferiortransformada é, então, usada como entrada para a rede deRNN-ED em vez de modificar as etapas na Equação (1) como a seguir: em que, (em que wj é um elemento de matriz WR) é a penalidade de LASSO empregada para induzir esparsidade na camada de redução de dimensionalidade, isto é, restringir uma fração dos elementos de WR a estarem próximos de 0 (controlados através o parâmetro λ). Isso converte uma camada de avanço completamente conectada densa em uma camada esparsa. A camada de avanço esparsa e o RNN-ED são treinados de uma maneira de ponta a ponta através de gradiente descendente estocástico.em que wjé um elemento de matriz WR. Em uma modalidade, o treinamento significa, aqui, instruir as saídas de cada estágio/etapa (202 a 208) como na Figura 2. Como a normalização L1 não é diferenciável em 0, o subgradiente 0 é usado na prática. Em uma modalidade, o modelo de redução de dimensionalidade inclui a pluralidade de camadas de avanço com restrição de esparsidade LASSO. Por exemplo, cada um dos parâmetros na série cronológica dimensional reduzida é uma função não linear de um subconjunto das séries cronológicas multidimensionais.[034] A sparsity constraint is added on the forward layer weights, so that each unit in the forward layer has access to a subset of the input parameters (e.g., input dimensions). A forward layer with sparse WR connections from the input layer is used to map ∈Rdpara ∈ Rr so that r<d, through a nonlinear transformation by means of Rectified Linear Units (ReLU). The transformed lower dimensional input is then used as input to the RNN-ED network instead of modify the steps in Equation (1) as follows: in which, (where wj is an element of the WR matrix) is the LASSO penalty employed to induce sparsity in the dimensionality reduction layer, i.e., constrain a fraction of the WR elements to be close to 0 (controlled via the parameter λ). This converts a dense fully connected feedforward layer into a sparse layer. The sparse feedforward layer and the RNN-ED are trained in an end-to-end manner via stochastic gradient descent. where wj is an element of the WR matrix. In one embodiment, training here means training the outputs of each stage (202 to 208) as in Figure 2. Since L1 normalization is not differentiable at 0, the subgradient 0 is used in practice. In one embodiment, the dimensionality reduction model includes a plurality of LASSO sparsity-constrained feedforward layers. For example, each of the parameters in the reduced dimensional time series is a nonlinear function of a subset of the multidimensional time series.

[035] A matriz de peso esparsa resultante WR assegura que as conexões entre a camada de entrada e a camada de avanço são esparsas de modo que cada unidade na camada de avanço tenha, potencialmente, acesso a apenas algumas das dimensões de entrada. Portanto, cada dimensão deé uma combinação linear de um número relativamente pequeno de dimensões de entrada, que resulta de maneira eficaz na seleção de recurso sem supervisão.[035] The resulting sparse weight matrix WR ensures that the connections between the input layer and the forward layer are sparse so that each unit in the forward layer potentially has access to only some of the input dimensions. Therefore, each dimension of is a linear combination of a relatively small number of input dimensions, which effectively results in unsupervised feature selection.

[036] Em uma modalidade da presente revelação, na etapa 206, o um ou mais processadores de hardware 104 estimam, através do modelo de codificador-decodificador de rede neural recorrente (RNN), as séries cronológicas multidimensionais que usam a série cronológica dimensional reduzida obtida pelo modelo de redução de dimensionalidade, conforme ilustrado na Figura 3B. Mais especificamente, a Figura 3B, com referência às Figuras 1 a 3A, retrata um modelo de codificador-decodificador de rede neural recorrente (RNN-ED) implantado pelo sistema 100 da Figura 1, em conformidade com algumas modalidades da presente revelação. Em uma modalidade, mesmo que a camada de ReLU implique na redução de dimensionalidade, o autocodificador é treinado para reconstruir, ele mesmo, as séries cronológicas originais. Em uma modalidade, a camada de avanço esparsa atua como um regulador forte, de modo que as dimensões reduzidas na camada de ReLU sejam forçadas a capturar as informações relevantes para reconstruir todas as dimensões de entrada originais.[036] In one embodiment of the present disclosure, in step 206, the one or more hardware processors 104 estimate, via the recurrent neural network (RNN) encoder-decoder model, multidimensional time series using the reduced dimensional time series obtained by the dimensionality reduction model, as illustrated in Figure 3B. More specifically, Figure 3B, with reference to Figures 1-3A, depicts a recurrent neural network encoder-decoder (RNN-ED) model deployed by the system 100 of Figure 1, in accordance with some embodiments of the present disclosure. In one embodiment, even though the ReLU layer entails dimensionality reduction, the autoencoder is trained to reconstruct the original time series itself. In one embodiment, the sparse feedforward layer acts as a strong regulator, such that the reduced dimensions in the ReLU layer are forced to capture the relevant information to reconstruct all of the original input dimensions.

[037] Em uma modalidade da presente revelação, na etapa 208, o um ou mais processadores de hardware 104 instruem simultaneamente, com o uso das séries cronológicas multidimensionais estimadas, o modelo de redução de dimensionalidade e o modelo de codificador-decodificador de RNN a obter uma rede neural esparsa de múltiplas camadas. Em uma modalidade, a instrução engloba entradas e saídas em cada etapa/estágio (202 a 208), como na Figura 2. Em uma modalidade da presente revelação, na etapa 210, o um ou mais processadores de hardware 104 computam, pela rede neural esparsa de múltiplas camadas, uma pluralidade de vetores de erro que correspondem a pelo menos um momento no tempo das séries cronológicas multidimensionais realizando-se uma comparação entre as séries cronológicas multidimensionais e as séries cronológicas multidimensionais estimadas. Em uma modalidade da presente revelação, na etapa 212, o um ou mais processadores de hardware 104 geram uma ou mais classificações de anomalia com base na pluralidade dos vetores de erro. Em uma modalidade, uma classificação de anomalia é computada uma vez que o sistema 100 é treinado. Em uma modalidade, cada uma dentre a pluralidade de parâmetros na série cronológica dimensional reduzida é uma função não linear de um subconjunto da pluralidade de parâmetros das séries cronológicas multidimensionais.[037] In one embodiment of the present disclosure, in step 208, the one or more hardware processors 104 simultaneously instruct, using the estimated multidimensional time series, the dimensionality reduction model and the RNN encoder-decoder model to obtain a multilayer sparse neural network. In one embodiment, the instruction encompasses inputs and outputs at each step/stage (202 to 208), as in Figure 2. In one embodiment of the present disclosure, in step 210, the one or more hardware processors 104 compute, by the multilayer sparse neural network, a plurality of error vectors that correspond to at least one moment in time of the multidimensional time series by performing a comparison between the multidimensional time series and the estimated multidimensional time series. In one embodiment of the present disclosure, at step 212, the one or more hardware processors 104 generate one or more anomaly classifications based on the plurality of error vectors. In one embodiment, an anomaly classification is computed once the system 100 is trained. In one embodiment, each of the plurality of parameters in the reduced dimensional time series is a non-linear function of a subset of the plurality of parameters of the multidimensional time series.

[038] Em outra modalidade, o modelo de redução de dimensionalidade compreende uma pluralidade de camadas de avanço com restrição de esparsidade de Operador de Seleção e Encolhimento Menos Absoluto (LASSO) na pluralidade de parâmetros das camadas de avanço. Em uma modalidade, essa abordagem inclui, adicionalmente, a etapa de classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como anômalo se a classificação de anomalia for maior que um limiar. Em uma modalidade, essa abordagem inclui, adicionalmente, a etapa de classificar pelo menos um momento no tempo nas séries cronológicas multidimensionais como normal se a classificação de anomalia for menor ou igual ao limiar. Em uma modalidade, a classificação F que corresponde a um classificador binário com duas classes, isto é, uma classe normal (0) e uma classe anômalo (1).[038] In another embodiment, the dimensionality reduction model comprises a plurality of forward layers with Least Absolute Shrinkage and Selection Operator (LASSO) sparsity constraint on the plurality of parameters of the forward layers. In one embodiment, this approach further includes the step of classifying at least one moment in time in the multidimensional time series as anomalous if the anomaly classification is greater than a threshold. In one embodiment, this approach further includes the step of classifying at least one moment in time in the multidimensional time series as normal if the anomaly classification is less than or equal to the threshold. In one embodiment, the classification F corresponds to a binary classifier with two classes, i.e., a normal class (0) and an anomalous class (1).

[039] Em uma modalidade, isso assegura que as classificações de anomalia ainda são interpretáveis, conforme a contribuição de cada dimensão original para a classificação de anomalia pode ser estimada. Em outra modalidade, RNN-ED assegura que as dependências temporais são bem capturadas na rede enquanto a camada de avanço esparsa assegura que as dependências entre várias dimensões em qualquer dado momento são bem capturadas.[039] In one embodiment, this ensures that the anomaly classifications are still interpretable as the contribution of each original dimension to the anomaly classification can be estimated. In another embodiment, RNN-ED ensures that temporal dependencies are well captured in the network while the sparse feedforward layer ensures that dependencies between multiple dimensions at any given time are well captured.

EXPERIMENTAL EVALUATION:

[040] Abordagens exemplificativas consideradas para a comparação:[040] Exemplary approaches considered for comparison:

[041] Na presente revelação, o codificador- decodificador de rede neural esparsa (SPREAD) pode ser comparado com EncDec-AD padrão (isto é, citado doravante como AD). As outras abordagens usadas para a comparação são: i. Um simples modelo de detecção de anomalia não temporal, a saber MD, com base na Distância de Mahalanobis no espaço de entrada multidimensional com o uso de µ e ∑ das entradas pontuais originais dos exemplos de treino (similar à equação 2 em qué xt e usado em vez de et para conseguir a classificação de anomalia). ii. AD Relevante em que o modelo AD é treinado apenas nos parâmetros mais relevantes suficientes para determinar o comportamento anômalo ou falha (conforme sugerido pelos especialistas do domínio). Isso é usado para avaliar a eficácia de SPREAD em ter capacidade para detectar assinaturas de anomalia fracas presentes apenas em um pequeno subconjunto do grande número de sensores de entrada. iii. Para comparar redução de dimensionalidade implícita em SPREAD através de intuição de ponta a ponta com técnicas de redução de dimensionalidade padrão, PCA-AD é considerado, em que a Análise de Componentes Principal (PCA) é usada primeiro para reduzir a dimensão de entrada que é alimentada em AD (que considera componentes principais superiores que capturam 95% da variância em dados). iv. Para avaliar o efeito de conexões esparsas na camada de avanço com restrição de esparsidade de LASSO, modelo de FF-AD (EncDec-AD de avanço) é considerado, o qual é SPREAD de maneira eficaz sem a regularização Li (isto é, À = 0). v. Para avaliação de desempenho, cada ponto em uma série cronológica é fornecido como 0 (normal) ou 1 (anômalo). A classificação de anomalia é obtida para cada ponto de uma maneira online, e a área sob curva característica de operação de recebedor (AUROC) (obtida variando-se o limiarT) é usada como uma métrica de desempenho.[041] In the present disclosure, the Sparse Neural Network Encoder-Decoder (SPREAD) can be compared with standard EncDec-AD (i.e., hereinafter referred to as AD). The other approaches used for the comparison are: i. A simple non-temporal anomaly detection model, namely MD, based on Mahalanobis Distance in the multidimensional input space using µ and ∑ from the original point inputs of the training examples (similar to equation 2 where xt and used instead of et to achieve anomaly classification). ii. Relevant AD where the AD model is trained on only the most relevant parameters sufficient to determine the anomalous behavior or failure (as suggested by the domain experts). This is used to evaluate the effectiveness of SPREAD in being able to detect weak anomaly signatures present only in a small subset of the large number of input sensors. iii. To compare implicit dimensionality reduction in SPREAD through end-to-end intuition with standard dimensionality reduction techniques, PCA-AD is considered, where Principal Component Analysis (PCA) is first used to reduce the input dimension that is fed into AD (which considers top-principal components that capture 95% of the variance in data). iv. To evaluate the effect of sparse connections in the forward layer with LASSO sparsity constraint, FF-AD (Forward EncDec-AD) model is considered, which effectively SPREADs without Li regularization (i.e., À = 0). v. For performance evaluation, each point in a time series is given as either 0 (normal) or 1 (anomalous). Anomaly classification is obtained for each point in an online manner, and the area under receiver operating characteristic curve (AUROC) (obtained by varying the threshold T) is used as a performance metric.

DATA SETS CONSIDERED

[042] O sistema e método da presente revelação utilizaram três conjuntos de dados de séries cronológicas de multissensores, conforme resumido na Tabela 4 para os experimentos: i) GHL: um conjunto de dados de Circuito de Aquecimento de Gasóleo publicamente disponível, ii) Turbomáquina: um conjunto de dados de turbomáquina do mundo real, e iii) Pulverizador: um conjunto de dados de pulverizador do mundo real. Anomalias em conjunto de dados de GHL correspondem a ataques cibernéticos no sistema, enquanto anomalias em conjunto de dados de Turbomáquina e Pulverizador correspondem a comportamento de sistema defeituoso. Cada conjunto de dados foi dividido em conjuntos de treino, validação e teste - enquanto os conjuntos de treino e validação contiveram apenas séries cronológicas normais, o conjunto de teste conteve séries cronológicas normais e anômalas.[042] The system and method of the present disclosure utilized three multi-sensor time series datasets as summarized in Table 4 for the experiments: i) GHL: a publicly available Diesel Heating Circuit dataset, ii) Turbomachinery: a real-world turbomachinery dataset, and iii) Sprayer: a real-world sprayer dataset. Anomalies in GHL dataset correspond to cyberattacks on the system, while anomalies in Turbomachinery and Sprayer datasets correspond to faulty system behavior. Each dataset was divided into training, validation, and test sets - while training and validation sets contained only normal time series, the test set contained both normal and anomalous time series.

DATASET INFORMATION

[043] GHL: Conjunto de dados de GHL conteve dados para operações normais de um circuito de aquecimento de usina de gasóleo, e comportamento defeituoso (devido aos ataques cibernéticos) em uma usina induzida por alteração da lógica de controle do circuito. Haviam 14 variáveis principais e 5 variáveis auxiliares: considerando as 14 variáveis principais, se utilizou IDs falhas 25 a 48 e utilizou sensor de perigo como verdade (1: Anômalo, 0: Normal). A série cronológica original foi amostrada de maneira decrescente em 4 para eficiência computacional com o uso de média de 4 pontos, e uma janela de 100 pontos foi obtida (ou considerada) para gerar exemplos de séries cronológicas.[043] GHL: GHL dataset contained data for normal operations of a diesel power plant heating circuit, and faulty behavior (due to cyber attacks) in a power plant induced by alteration of the circuit control logic. There were 14 main variables and 5 auxiliary variables: considering the 14 main variables, fault IDs 25 to 48 were used and sensor hazard was used as ground truth (1: Anomalous, 0: Normal). The original time series was downsampled to 4 for computational efficiency using 4-point averaging, and a window of 100 points was obtained (or considered) to generate time series examples.

[044] Turbomáquina: Esse foi um conjunto de dados do mundo real com leituras de sensor por minuto a partir de 56 sensores, gravadas durante 4 dias de operação, em que assinatura defeituosa estava presente durante 1 hora antes de um desligamento forçado. Os sensores considerados incluem sensores de temperatura, pressão, controle, etc., que pertencem aos diferentes componentes da máquina. Dentre esses 56 sensores, a falha apareceu primeiro em apenas 2 sensores. Eventualmente, alguns outros sensores também começaram a mostrar comportamento anômalo.[044] Turbomachinery: This was a real-world dataset with minute sensor readings from 56 sensors, recorded during 4 days of operation, where faulty signature was present for 1 hour prior to a forced shutdown. The sensors considered include temperature, pressure, control, etc. sensors belonging to different components of the machine. Out of these 56 sensors, the fault first appeared in only 2 sensors. Eventually, some other sensors also started showing anomalous behavior.

[045] Pulverizador: Pulverizador foi um conjunto de dados do mundo real obtido a partir de um moinho pulverizador com leituras de sensor por minuto a partir de 35 sensores. Esse conjunto de dados teve leituras de sensor de 45 dias de operação, e sintomas de início falho aparecendo intermitentemente durante 12 horas antes do desligamento forçado. Os sensores considerados incluem sensores de temperatura, pressão diferencial, carga, etc., que pertencem a diferentes componentes da máquina. Esse conjunto de dados teve 3 sensores relevantes suficientes para identificar o comportamento anômalo.[045] Pulverizer: Pulverizer was a real-world dataset obtained from a pulverizer mill with minute sensor readings from 35 sensors. This dataset had sensor readings from 45 days of operation, and symptoms of misstart appearing intermittently for 12 hours before forced shutdown. The sensors considered include temperature, differential pressure, load, etc. sensors belonging to different components of the machine. This dataset had 3 relevant sensors sufficient to identify the anomalous behavior.

TRAINING DETAILS

[046] Tabela 4: Detalhes de conjuntos de dados. Aqui T: comprimento de janela, d: número de sensores, dr: número de sensores relevantes para anomalia, p: número de componentes principais, n?: número de falhas, na: número de pontos anômalos, n: número de janelas. [046] Table 4: Dataset details. Here T: window length, d: number of sensors, dr: number of anomaly-relevant sensors, p: number of principal components, n?: number of faults, na: number of anomalous points, n: number of windows.

[047] O sistema e método utiliza otimizador Adam para otimizar os pesos das redes com taxa de intuição inicial de 0,0005 para todos os experimentos. O sistema e método utiliza arquitetura como aquele com menos erro de reconstrução no conjunto de validação de bloqueio que contém apenas séries cronológicas normais através de busca de grade nos seguintes hiper-parâmetros: número de camadas recorrentes em codificador e decodificador de RNN L = {1, 2, 3}, número de unidades escondidas por camada na faixa de 50 a 250 em etapas de 50, e número de unidadesna camada de avanço. O sistema e método utiliza λ = 0,01 para SPREAD, e taxa de desistência de 0,25 nas conexões de avanço em codificador e decodificador para regularização.[047] The system and method uses Adam optimizer to optimize the weights of the networks with initial intuition rate of 0.0005 for all experiments. The system and method uses architecture as the one with least reconstruction error on the blocking validation set that contains only normal time series through grid search on the following hyper-parameters: number of recurrent layers in encoder and decoder of RNN L = {1, 2, 3}, number of hidden units per layer in the range of 50 to 250 in steps of 50, and number of hidden units in the forward layer. The system and method uses λ = 0.01 for SPREAD, and a dropout rate of 0.25 in the forward connections in encoder and decoder for regularization.

[048] Tabela 1: Comparação de Desempenho de Modelos de Detecção de Anomalia em termos de AUROC. AD se refere a EncDec-AD. Com referência às Figuras 4A a 4C, FPR corresponde à taxa falsa positiva no eixo geométrico X e TPR corresponde à taxa verdadeira positiva no eixo geométrico Y. TABELA 2: FATORES DE ESPARSIDADE TABELA 3: TURBOMÁQUINA: EFEITO DE TRATAR SENSORES [048] Table 1: Performance Comparison of Anomaly Detection Models in terms of AUROC. AD refers to EncDec-AD. Referring to Figures 4A to 4C, FPR corresponds to the false positive rate on the X-axis and TPR corresponds to the true positive rate on the Y-axis. TABLE 2: SPARSITY FACTORS TABLE 3: TURBOMACHINE: EFFECT OF TREATING SENSORS

RESULTS AND OBSERVATIONS:

[049] As seguintes observações-chave dos resultados na Tabela 1 e uma representação gráfica que ilustra a Comparação de Desempenho de Modelos de Detecção de Anomalia em termos de AUROC nas Figuras 4A a 4C: i. A abordagem MD não temporal é desempenhada de maneira fraca pelos conjuntos de dados, o que ressalta a natureza temporal das anomalias e, portanto, a aplicabilidade de modelos temporais que incluem AD e SPREAD. A mesma também sugere que a distância de Mahalanobis, conforme aplicada no espaço de erro em vez de no espaço de entrada original amplifica o efeito das anomalias temporais fracas. ii. PCA-AD não é desempenhada bem em comparação com FF- AD e SPREAD, o que sugere que a redução de dimensionalidade explícita através de PCA resulta na perda de informações com relação às assinaturas anômalas, enquanto FF-AD e SPREAD têm capacidade para potencializar os benefícios de redução de dimensionalidade interna através da camada de redução de dimensionalidade de avanço. iii. Conforme esperado, AD Relevante - que potencializa o conhecimento de sensores relevantes - é uma base forte. Isso realça o fato de que EncDec-AD é bem desempenhado em casos de baixa dimensão, tal como a situação de AD Relevante. Em outras palavras, desempenho fraco de AD em comparação com AD Relevante realça que a detecção de assinatura anômala é difícil quando o conhecimento anterior de dimensões relevantes não está disponível - que é, frequentemente, o caso na prática. No entanto, para conjuntos de dados de Pulverizador e GHL, foi observado que AD é melhor desempenhado que AD Relevante pois nesses casos o efeito de anomalia que se origina em um sensor também é visível em outros sensores correlacionados, o que torna mais fácil detectar anomalias devido à amplificação da assinatura anômala ao considerar mais sensores juntos. iv. SPREAD é desempenhado significativamente melhor em comparação com outros métodos na maior parte dos conjuntos de dados (exceto AD Relevante, conforme abordado acima). SPREAD é desempenhado melhor que ou é comparável a FF-AD, o que realça o efeito de regularização de conexões esparsas. Fatores de esparsidade (Tabela 2) indicam a natureza esparsa de conexões em SPREAD em comparação com FF-AD. O fator de esparsidade é medido como a fração de pesos com valor absoluto < 0,1 vezes a média de pesos absolutos. v. AD Relevante foi aplicado em conjunto de dados de Turbomáquina com os dois sensores relevantes R1 e R2 considerados independentemente, e uma queda significativa em desempenho em comparação com o modelo que usa ambos os sensores relevantes juntos foi observada conforme mostrado na Tabela 3. Isso sugere que capturar a correlação (ou dependência) entre sensores é importante para detectar anomalias.[049] The following key observations from the results in Table 1 and a graphical representation illustrating the Performance Comparison of Anomaly Detection Models in terms of AUROC in Figures 4A to 4C: i. The non-temporal MD approach performs poorly across the datasets, which highlights the temporal nature of the anomalies and hence the applicability of temporal models including AD and SPREAD. It also suggests that the Mahalanobis distance as applied in the error space rather than the original input space amplifies the effect of weak temporal anomalies. ii. PCA-AD does not perform well compared to FF-AD and SPREAD, which suggests that explicit dimensionality reduction through PCA results in loss of information regarding the anomalous signatures, whereas FF-AD and SPREAD are able to leverage the benefits of internal dimensionality reduction through the forward dimensionality reduction layer. iii. As expected, Relevant AD - which leverages knowledge from relevant sensors - is a strong baseline. This highlights the fact that EncDec-AD performs well in low-dimensional cases, such as the Relevant AD situation. In other words, the poor performance of AD compared to Relevant AD highlights that anomalous signature detection is difficult when prior knowledge from relevant dimensions is not available - which is often the case in practice. However, for the Sprayer and GHL datasets, we observed that AD performs better than Relevant AD because in these cases the anomaly effect originating from one sensor is also visible in other correlated sensors, which makes it easier to detect anomalies due to the amplification of the anomalous signature when considering more sensors together. iv. SPREAD performs significantly better compared to other methods on most datasets (except Relevant AD, as discussed above). SPREAD performs better than or is comparable to FF-AD, which highlights the regularization effect of sparse connections. Sparsity factors (Table 2) indicate the sparse nature of connections in SPREAD compared to FF-AD. The sparsity factor is measured as the fraction of weights with absolute value < 0.1 times the mean of absolute weights. v. Relevant AD was applied on Turbomachinery dataset with the two relevant sensors R1 and R2 considered independently, and a significant drop in performance compared to the model using both relevant sensors together was observed as shown in Table 3. This suggests that capturing the correlation (or dependence) between sensors is important for detecting anomalies.

[050] Os autocodificadores com base em RNN para detecção de anomalia podem render desempenho sub-ideal na prática para séries cronológicas multidimensionais. Para solucionar isso, o SPREAD proposto do sistema 100 provem explicitamente camada de redução de dimensionalidade treinada de uma maneira de ponta a ponta juntamente com o autocodificador e atua como um regulador forte para modelagem de séries cronológicas multidimensionais. SPREAD funciona de uma maneira online que é desejável para aplicações de transmissão.[050] RNN-based autoencoders for anomaly detection may yield sub-optimal performance in practice for multi-dimensional time series. To address this, the proposed SPREAD of system 100 explicitly provides a dimensionality reduction layer trained in an end-to-end manner along with the autoencoder and acts as a strong gatekeeper for modeling multi-dimensional time series. SPREAD operates in an online manner which is desirable for broadcast applications.

[051] Experimentos em um conjunto de dados públicos e dois conjuntos de dados do mundo real provam a eficácia da abordagem proposta. Adicionalmente, mesmo que SPREAD use a redução de dimensionalidade internamente, a detecção de anomalia acontece no espaço de recurso de entrada de modo que o erro de reconstrução para cada dimensão de entrada seja acessível, o que torna as classificações de anomalia interpretáveis na prática. Essa abordagem proposta não deve ser interpretada como um escopo limitante para situações e/ou exemplos descritos na presente revelação e pode ser aplicável em qualquer detecção de anomalia de séries cronológicas multidimensionais.[051] Experiments on a public dataset and two real-world datasets prove the effectiveness of the proposed approach. Additionally, even though SPREAD uses dimensionality reduction internally, anomaly detection happens in the input feature space such that the reconstruction error for each input dimension is accessible, which makes anomaly classifications interpretable in practice. This proposed approach should not be construed as limiting the scope for situations and/or examples described in the present disclosure and may be applicable to any multidimensional time series anomaly detection.

[052] A descrição escrita descreve a matéria no presente documento para permitir qualquer pessoa versada na técnica a realizar e usar as modalidades. O escopo das modalidades da matéria é definido pelas reivindicações e pode incluir outras modificações que ocorrem para aqueles versados na técnica. Tais outras modificações são destinadas a estar dentro do escopo das reivindicações se as mesmas tiverem elementos similares que não diferem da linguagem literal das reivindicações, ou se os mesmos incluírem elementos equivalentes com diferenças insubstanciais da linguagem literal das reivindicações.[052] The written description describes the subject matter herein to enable any person skilled in the art to make and use the embodiments. The scope of the embodiments of the subject matter is defined by the claims and may include other modifications that occur to those skilled in the art. Such other modifications are intended to be within the scope of the claims if they have similar elements that do not differ from the literal language of the claims, or if they include equivalent elements with insubstantial differences from the literal language of the claims.

[053] As modalidades da presente revelação, permitem instruir um modelo temporal não linear robusto de séries cronológicas multivariadas. Além disso, as modalidades capturam no presente documento a relação entre os múltiplos parâmetros no mesmo exemplo cronológico, isto é, dependências e correlações entre múltiplas dimensões ou parâmetros em um dado ponto no tempo. Adicionalmente, a abordagem proposta captura relações temporais entre múltiplos parâmetros ao longo do tempo, isto é, dependências e correlações entre múltiplas dimensões ou variáveis em uma série cronológica multivariada durante um período de tempo. Adicionalmente, a abordagem proposta permite instruir um modelo de rede neural único que pode responder às duas capacidades acima em um quadro de intuição de ponta a ponta que é treinável através de retropropagação.[053] Embodiments of the present disclosure allow for instructing a robust nonlinear temporal model of multivariate time series. Furthermore, the embodiments herein capture the relationship between multiple parameters in the same time example, i.e., dependencies and correlations between multiple dimensions or parameters at a given point in time. Additionally, the proposed approach captures temporal relationships between multiple parameters over time, i.e., dependencies and correlations between multiple dimensions or variables in a multivariate time series over a period of time. Additionally, the proposed approach allows for instructing a single neural network model that can respond to the above two capabilities in an end-to-end intuition framework that is trainable via backpropagation.

[054] Deve ser entendido que o escopo da proteção é estendido a tal programa e adicionalmente a uma mídia legível por computador que tem uma mensagem na mesma; tal mídia de armazenamento legível por computador contém mídia de código de programa para implantação de uma ou mais etapas do método, quando o programa é executado em um servidor ou dispositivo móvel ou qualquer dispositivo programável adequado. O dispositivo de hardware pode ser qualquer tipo de dispositivo que pode ser programado, incluindo, por exemplo, qualquer tipo de computador como um servidor ou um computador pessoal, ou semelhantes, ou qualquer combinação dos mesmos. O dispositivo também pode incluir mídias que podem ser, por exemplo, mídias de hardware como, por exemplo, um circuito integrado de aplicativo específico (ASIC), um arranjo de portas de campo programável (FPGA), ou uma combinação de mídias de hardware e software, por exemplo, um ASIC e um FPGA, ou pelo menos um microprocessador e pelo menos uma memória com módulos de software localizados nos mesmos. Assim, as mídias podem incluir tanto mídias de hardware quanto mídias de software. As modalidades do método descritas no presente documento podem ser implantadas em hardware e software. O dispositivo também pode incluir mídias de software. Alternativamente, as modalidades podem ser implantadas em diferentes dispositivos de hardware, por exemplo, com o uso de uma pluralidade de CPUs.[054] It should be understood that the scope of the protection is extended to such a program and additionally to a computer-readable medium having a message thereon; such computer-readable storage medium contains program code media for implementing one or more steps of the method, when the program is executed on a server or mobile device or any suitable programmable device. The hardware device may be any type of device that can be programmed, including, for example, any type of computer such as a server or a personal computer, or the like, or any combination thereof. The device may also include media which may be, for example, hardware media such as, for example, an application-specific integrated circuit (ASIC), a field-programmable gate array (FPGA), or a combination of hardware and software media, for example, an ASIC and an FPGA, or at least one microprocessor and at least one memory with software modules located thereon. Thus, the media may include both hardware media and software media. Embodiments of the method described herein may be implemented in both hardware and software. The device may also include software media. Alternatively, the embodiments may be implemented in different hardware devices, e.g., using a plurality of CPUs.

[055] As modalidades no presente documento podem compreender elementos de hardware e software. As modalidades que são implantadas em software incluem, porém, sem limitação a firmware, software residente, microcódigo, etc. As funções desempenhadas por vários módulos descritos no presente documento podem ser implantadas em outros módulos ou combinações de outros módulos. Com o propósito desta descrição, uma mídia legível por computador ou utilizável em computador pode ser qualquer aparelho que pode compreender, armazenar, comunicar, propagar ou transportar o programa para uso por ou em conexão com o sistema, aparelho ou dispositivo de execução de instrução.[055] Embodiments herein may comprise hardware and software elements. Embodiments that are implemented in software include, but are not limited to, firmware, resident software, microcode, etc. Functions performed by various modules described herein may be implemented in other modules or combinations of other modules. For the purpose of this disclosure, a computer-readable or computer-usable medium may be any apparatus that can comprise, store, communicate, propagate, or transport the program for use by or in connection with the instruction execution system, apparatus, or device.

[056] As etapas ilustradas são apresentadas para explicar as modalidades exemplificativas mostradas, e deve ser antecipado que o desenvolvimento tecnológico em andamento alterará a maneira na qual funções particulares são desempenhadas. Esses exemplos são apresentados no presente documento com para fins de ilustração, e não limitação. Adicionalmente, os limites dos componentes básicos funcionais foram arbitrariamente definidos no presente documento por conveniência da descrição. Limites alternativos podem ser definidos desde que as funções especificadas e relações das mesmas sejam apropriadamente realizadas. Alternativas (incluindo equivalentes, extensões, variações, desvios, etc., daqueles descritos no presente documento) serão aparentes a pessoas versadas na técnica (ou técnicas) relevante com base nos ensinamentos contidos no presente documento. Tais alternativas estão inseridas no escopo e espírito das modalidades reveladas. Além disso, as palavras “que compreende”, “que tem”, “que contém” e “que inclui”, e outras formas similares são destinadas a serem equivalentes em significado e serem irrestritas em que um item ou itens depois de qualquer uma dessas palavras não deve estar em uma lista exaustiva de tal item ou itens, ou deve estar limitado apenas ao item ou aos itens listados. Também deve-se notar que, conforme usadas no presente documento e nas reivindicações anexas, as formas singulares “um”, “uma”, “o” e “a” incluem referências plurais a menos que o contexto claramente indique de outra forma.[056] The illustrated steps are presented to explain the exemplary embodiments shown, and it should be anticipated that ongoing technological development will change the manner in which particular functions are performed. These examples are presented herein for purposes of illustration, not limitation. Additionally, the limits of the basic functional components have been arbitrarily defined herein for convenience of description. Alternative limits may be defined so long as the specified functions and relationships thereof are properly performed. Alternatives (including equivalents, extensions, variations, deviations, etc., from those described herein) will be apparent to persons skilled in the relevant art (or techniques) from the teachings contained herein. Such alternatives are within the scope and spirit of the disclosed embodiments. Furthermore, the words “comprising,” “having,” “containing,” and “including,” and other similar forms are intended to be equivalent in meaning and to be unrestricted in that an item or items following any of these words shall not be in an exhaustive list of such item or items, or shall be limited only to the item or items listed. It should also be noted that, as used herein and in the appended claims, the singular forms “a,” “an,” “the,” and “the” include plural references unless the context clearly indicates otherwise.

[057] Ademais, uma ou mais mídias de armazenamento legíveis por computador podem ser utilizadas na implantação de modalidades consistentes com a presente revelação. Uma mídia de armazenamento legível por computador se refere a qualquer tipo de memória física na qual informações ou dados legíveis por um processador podem estar armazenados. Assim, uma mídia de armazenamento legível por computador pode armazenar instruções para execução por um ou mais processadores, que incluem instruções para fazer com que o processador (ou processadores) realizem as etapas ou estágios consistentes com as modalidades descritas no presente documento. O termo “mídia legível por computador” deve ser entendido por incluir itens tangíveis e excluem ondas portadoras e sinais transientes, isto é, deve ser não transitória. Exemplos incluem memória de acesso aleatório (RAM), memória somente de leitura (ROM), memória volátil, memória não volátil, discos rígidos, CD ROMs, DVDs, unidades flash, discos e qualquer outra mídia de armazenamento física conhecida.[057] Furthermore, one or more computer-readable storage media may be used in implementing embodiments consistent with the present disclosure. A computer-readable storage media refers to any type of physical memory in which information or data readable by a processor may be stored. Thus, a computer-readable storage media may store instructions for execution by one or more processors, which include instructions to cause the processor (or processors) to perform steps or stages consistent with the embodiments described herein. The term “computer-readable media” is to be understood to include tangible items and exclude carrier waves and transient signals, i.e., it must be non-transitory. Examples include random access memory (RAM), read-only memory (ROM), volatile memory, non-volatile memory, hard drives, CD ROMs, DVDs, flash drives, disks, and any other known physical storage media.

[058] Pretende-se que a revelação e os exemplos sejam considerados apenas exemplificativos, em que um verdadeiro escopo e espírito de modalidades reveladas é indicado pelas seguintes reivindicações.[058] It is intended that the disclosure and examples be considered exemplary only, wherein a true scope and spirit of the embodiments revealed is indicated by the following claims.

Claims

1. A processor-implemented method comprising: receiving, in an input layer, a multidimensional time series corresponding to a plurality of specific parameters of a machine, the parameters obtained from one or more sensors connected to the machine (202); obtaining, using a dimensionality reduction model, a reduced dimensional time series of the multidimensional time series through at least one forward layer, wherein connections between the input layer and the forward layer are sparse to access at least a portion of the plurality of parameters (204) and wherein each of the plurality of parameters of the reduced time series is a nonlinear function of a subset of the plurality of parameters of the multidimensional series; estimating, using a recurrent neural network (RNN) encoder-decoder model, the multidimensional time series using the reduced dimensional time series obtained by the dimensionality reduction model (206); simultaneously instructing, using the estimated multidimensional time series, the dimensionality reduction model and the RNN encoder-decoder model to obtain a multilayer sparse neural network (208); wherein the instruction comprises training the sparse feedforward layer of the dimensionality reduction model and the RNN encoder-decoder model using stochastic gradient descent, and wherein a gradient value of the sparse feedforward layer of the dimensionality reduction model is given by wherein wi is an element of a sparse weight matrix WR, wherein the sparse feedforward layer acts as a strong regularizer, so that the reduced dimensioned time series in reduced dimensional space in a ReLU layer is forced to capture relevant information to reconstruct the multidimensional time series, and wherein the RNN encoder-decoder model is trained as a temporal autoencoder on a normal time series and provides a high reconstruction error and a corresponding high anomaly score for an anomalous time series model to compute, using the multilayer sparse neural network, a plurality of error vectors corresponding to at least one moment in time of the multidimensional time series by performing a comparison between the multidimensional time series and the estimated multidimensional time series (210); generating at least one anomaly classification based on the plurality of error vectors (212); and classifying at least one moment in time in the multidimensional time series as anomalous based on at least one anomaly classification and a threshold, wherein an anomaly corresponds to faulty behavior of the machine, wherein the threshold is learned based on a blocking validity set while maximizing the F-score, wherein the blocking validity set comprises at least one normal moment in time and at least one anomalous moment in time of the multidimensional time series.

2. A processor-implemented method according to claim 1, characterized in that the dimensionality reduction model comprises a plurality of forward layers with Least Absolute Shrinkage and Selection Operator (LASSO) sparsity constraint on the plurality of parameters of the forward layers.

3. A processor-implemented method according to claim 1, further comprising: (a) classifying at least one moment in time in the multidimensional time series as anomalous if the anomaly classification is greater than a threshold, or (b) classifying at least one moment in time in the multidimensional time series as normal if the anomaly classification is less than or equal to the threshold.

4. A system comprising: a memory (102) that stores instructions; one or more communication interfaces (106); and one or more hardware processors (104) coupled to the memory (102) through the one or more communication interfaces (106), wherein the one or more hardware processors (104) are configured by the instructions to: receive, in an input layer, a multidimensional time series that corresponds to a plurality of specific parameters of a machine, the parameters obtained from one or more sensors connected to the machine; obtain, using a dimensionality reduction model, a reduced dimensional time series of the multidimensional time series through at least one forward layer, wherein connections between the input layer and the forward layer are sparse to access at least a portion of the plurality of parameters, and wherein each of the plurality of parameters in the reduced time series is a non-linear function of a subset of the plurality of parameters of the multidimensional time series; estimating, using a recurrent neural network (RNN) encoder-decoder model, the multidimensional time series using the reduced dimensional time series obtained by the dimensionality reduction model; simultaneously instructing, using the estimated multidimensional time series, the dimensionality reduction model and the RNN encoder-decoder model to obtain a multilayer sparse neural network, and wherein the instruction comprises training the sparse feedforward layer of the dimensionality reduction model and the RNN encoder-decoder model using stochastic gradient descent, and wherein a gradient value of the sparse feedforward layer of the dimensionality reduction model is given by , where wi is an element of a sparse weight matrix WR, where the sparse feedforward layer acts as a strong regularizer, so that the reduced dimensional time series in reduced dimensional space in a ReLU layer is forced to capture relevant information to reconstruct the multidimensional time series, and where the RNN encoder-decoder model is trained as a temporal autoencoder on a normal time series and provides a high reconstruction error and a corresponding high anomaly classification for an anomalous time series pattern; computing, using the multilayer sparse neural network, a plurality of error vectors that correspond to at least one moment in time of the multidimensional time series by performing a comparison between the multidimensional time series and the estimated multidimensional time series; generating at least one anomaly classification based on the plurality of error vectors; and classifying at least one moment in time in the multidimensional time series as anomalous based on at least one anomaly classification and a threshold, wherein an anomaly corresponds to faulty behavior of the machine, wherein the threshold is learned based on a blocking validity set while maximizing the F-score, wherein the blocking validity set comprises at least one normal moment in time and at least one anomalous moment in time of the multidimensional time series.

5. The system of claim 4, wherein the dimensionality reduction model comprises a plurality of forward layers with Least Absolute Shrinkage and Selection Operator (LASSO) sparsity constraint on the plurality of parameters of the forward layers.

6. The system of claim 4, wherein the one or more hardware processors are further configured to: (a) classify at least one moment in time in the multidimensional time series as anomalous if the anomaly classification is greater than a threshold, or (b) classify at least one moment in time in the multidimensional time series as normal if the anomaly classification is less than or equal to the threshold.

7. One or more non-transitory machine-readable information storage media comprising one or more instructions that, when executed by one or more hardware processors, cause: receiving, at an input layer, a multidimensional time series corresponding to a plurality of specific parameters of a machine, the parameters obtained from one or more sensors connected to the machine; obtaining, using a dimensionality reduction model, a reduced dimensional time series of the multidimensional time series through at least one feedforward layer, wherein connections between the input layer and the feedforward layer are sparse to access at least a portion of the plurality of parameters, and wherein each of the plurality of parameters in the reduced dimensional time series is a non-linear function of a subset of the plurality of parameters of the multidimensional time series; estimating, using a recurrent neural network (RNN) encoder-decoder model, the multidimensional time series using the reduced dimensional time series obtained by the dimensionality reduction model; simultaneously instructing, using the estimated multidimensional time series, the dimensionality reduction model and the RNN encoder-decoder model to obtain a multilayer sparse neural network, and wherein the instruction comprises training the sparse feeder layer of the dimensionality reduction model and the RNN encoder-decoder model using stochastic gradient descent, and wherein a gradient value of the sparse feeder layer of the dimensionality reduction model is given by where wi is an element of a sparse weight matrix WR, where the sparse feedforward layer acts as a strong regularizer, so that the reduced time series in the reduced dimensional space in a ReLU layer is forced to capture relevant information to reconstruct the multidimensional time series, and where the RNN encoder-decoder model is trained as a temporal autoencoder on a normal time series and provides a high reconstruction error and a corresponding high anomaly classification for an anomalous time series model; computing, using the multilayer sparse neural network, a plurality of error vectors corresponding to at least one moment in time of the multidimensional time series by performing a comparison between the multidimensional time series and the estimated multidimensional time series; generating at least one anomaly classification based on the plurality of error vectors; and classifying at least one moment in time in the multidimensional time series as anomalous based on at least one anomaly classification and a threshold, wherein an anomaly corresponds to faulty machine behavior, wherein the threshold is learned based on a blocking validity set while maximizing the F+ rating, wherein the blocking validity set comprises at least one normal moment in time and at least one anomalous moment in time of the multidimensional time series.

8. One or more non-transitory machine-readable information storage media according to claim 7, characterized in that the dimensionality reduction model comprises a plurality of forward layers with Least Absolute Shrinkage and Selection Operator (LASSO) sparsity constraint on the plurality of parameters of the forward layers.

9. The one or more non-transitory machine-readable information storage media of claim 7, further comprising: (a) classifying the at least one moment in time in the multidimensional time series as anomalous if the anomaly classification is greater than a threshold, or (b) classifying the at least one moment in time in the multidimensional time series as normal if the anomaly classification is less than or equal to the threshold.