[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2022044233A1 - 推定装置、推定方法及びプログラム - Google Patents

推定装置、推定方法及びプログラム Download PDF

Info

Publication number
WO2022044233A1
WO2022044233A1 PCT/JP2020/032485 JP2020032485W WO2022044233A1 WO 2022044233 A1 WO2022044233 A1 WO 2022044233A1 JP 2020032485 W JP2020032485 W JP 2020032485W WO 2022044233 A1 WO2022044233 A1 WO 2022044233A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
machine learning
inference result
data set
inference
Prior art date
Application number
PCT/JP2020/032485
Other languages
English (en)
French (fr)
Inventor
洋介 高橋
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/032485 priority Critical patent/WO2022044233A1/ja
Publication of WO2022044233A1 publication Critical patent/WO2022044233A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to an estimation device, an estimation method and a program.
  • a feature quantity x of a feature quantity vector (x 1 , x 2 , x 3 , x 4 ).
  • a new feature vector (x 1 , x 2 ⁇ x 3 , x 4 ) can be created.
  • Non-Patent Documents 1 to 3 describe technologies called LIMITE (Local Interpretable Model-agnostic Expansions) and SHAP (SHapley Additive exPlanations), respectively, and create a plurality of data in which noise is added to input data, and they are described. Is input to the machine learning model, and the contribution of the feature to a specific inference result is estimated by observing the output result and performing a linear approximation.
  • LIMITE Local Interpretable Model-agnostic Expansions
  • SHAP SHapley Additive exPlanations
  • Non-Patent Document 3 the inference result when a specific feature amount of the input data is randomly rearranged is observed, and the degree of deterioration of the inference accuracy due to the rearrangement is evaluated as the importance of the feature amount. There is.
  • feature amount synthesis function the function used for feature amount synthesis
  • One embodiment of the present invention has been made in view of the above points, and an object thereof is to estimate a feature amount synthesis function.
  • the estimation device provides a machine learning service and a communication network that perform feature quantity synthesis on data containing one or more feature quantities and provide inference results for a predetermined task.
  • An estimation device connected via a device that transmits a first data set composed of data including one or more feature quantities to the machine learning service, and for each data constituting the first data set.
  • the first acquisition unit that acquires the first inference result data indicating the inference result
  • the generation unit that generates the candidate function of the feature quantity synthesis function used for the feature quantity synthesis of the machine learning service, and the candidate function.
  • To create a second data set composed of the converted data by performing a predetermined conversion on each data constituting the first data set based on the above, and the second data set.
  • a second acquisition unit that transmits a data set to the machine learning service and acquires a second inference result data indicating an inference result for each data constituting the second data set, and the first inference result data. It is characterized by having an estimation unit for calculating the similarity between the data and the second inference result data and estimating whether or not the candidate function is used for feature quantity synthesis of the machine learning service.
  • the feature composition function can be estimated.
  • the feature quantity synthesis function estimation system 1 capable of estimating the feature quantity synthesis function used will be described.
  • the feature amount synthesis function is a function used for feature amount synthesis, which is one of the preprocessing of data.
  • FIG. 1 is a diagram showing an example of the overall configuration of the feature quantity synthesis function estimation system 1 according to the present embodiment.
  • the feature quantity synthesis function estimation system 1 includes an estimation device 10, a user terminal 20, and a machine learning service providing device 30. These are communicably connected via any communication network, including the Internet N.
  • the estimation device 10 is a computer or a computer system that estimates the feature amount synthesis function used in the machine learning service.
  • the user terminal 20 is various terminals (for example, a PC (personal computer), a smartphone, a tablet terminal, etc.) used by the user of the machine learning service.
  • the user operates the user terminal 20 to send a set of training data for creating a machine learning model (hereinafter, also referred to as a “learning data set”) to the machine learning service providing device 30, or has already learned.
  • a set of data for obtaining an inference result (hereinafter, also referred to as "inference data set”) can be transmitted to the machine learning service providing device 30 by the machine learning model of.
  • the learning data set is composed of one or more learning data (training data), and each learning data includes a data ID, one or more feature amount (Feature), and an objective variable (Target). ..
  • the inference data set is composed of one or more inference data, and each inference data includes a data ID and one or more feature quantities.
  • the objective variable is a variable indicating the purpose of the machine learning model, and the feature quantity is a numerical value that characterizes the objective variable.
  • the machine learning model infers the value of the objective variable from the feature quantity contained in the inference data by learning the relationship between the feature quantity contained in the training data and the objective variable.
  • the machine learning service providing device 30 is a server managed by an external machine learning vendor or the like that provides the machine learning service.
  • the machine learning service has a learning phase in which a machine learning model is created using a learning data set and an inference phase in which an inference result is obtained from a machine learning model that has been trained using an inference data set.
  • the machine learning service providing device 30 performs predetermined preprocessing including feature quantity synthesis on each learning data constituting the learning data set transmitted from the user terminal 20, and then preprocesses.
  • a machine learning model is trained using each of the later training data.
  • the machine learning service providing device 30 performs preprocessing including feature quantity synthesis on each inference data constituting the inference data set transmitted from the user terminal 20, and then preprocesses.
  • An inference result is obtained by a machine learning model that has been trained using each inference data after processing, and is returned to the user terminal 20.
  • the machine learning service is, for example, an AutoML service or a service in which an external machine learning vendor creates a machine learning model
  • the user is a feature quantity synthesis function used in the machine learning service. It is not possible to know.
  • the configuration of the feature quantity synthesis function estimation system 1 shown in FIG. 1 is an example, and may be another configuration.
  • the estimation device 10 may be included in the user terminal 20.
  • FIG. 2 is a diagram showing an example of the hardware configuration of the estimation device 10 according to the present embodiment.
  • the estimation device 10 is realized by hardware of a general computer or computer system, and includes an input device 11, a display device 12, an external I / F13, and a communication I / F14. It has a processor 15 and a memory device 16. Each of these hardware is connected so as to be communicable via the bus 17.
  • the input device 11 is, for example, a keyboard, a mouse, a touch panel, or the like.
  • the display device 12 is, for example, a display or the like.
  • the estimation device 10 does not have to have at least one of the input device 11 and the display device 12.
  • the external I / F13 is an interface with an external device.
  • the external device includes a recording medium 13a and the like.
  • the estimation device 10 can read or write the recording medium 13a via the external I / F 13.
  • the recording medium 13a includes, for example, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), a USB (Universal Serial Bus) memory card, and the like.
  • the communication I / F 14 is an interface for connecting the estimation device 10 to the communication network.
  • the processor 15 is, for example, various arithmetic units such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
  • the memory device 16 is, for example, various storage devices such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), a RAM (Random Access Memory), a ROM (Read Only Memory), and a flash memory.
  • the estimation device 10 By having the hardware configuration shown in FIG. 2, the estimation device 10 according to the present embodiment can realize the estimation process described later.
  • the hardware configuration shown in FIG. 2 is an example, and the estimation device 10 may have another hardware configuration.
  • the estimation device 10 may have a plurality of processors 15 or a plurality of memory devices 16.
  • FIG. 3 is a diagram showing an example of the functional configuration of the estimation device 10 according to the present embodiment.
  • the estimation device 10 includes an inference result acquisition unit 101, a function generation unit 102, a conversion unit 103, a distance calculation unit 104, and a determination unit 105.
  • Each of these parts is realized, for example, by a process of causing the processor 15 to execute one or more programs installed in the estimation device 10.
  • the estimation device 10 has a storage unit 106.
  • the storage unit 106 is realized by, for example, a memory device 16.
  • the storage unit 106 may be realized by, for example, a database server connected to the estimation device 10 via a communication network or the like.
  • the storage unit 106 stores the inference data set D used when estimating the feature amount synthesis function used in the machine learning service.
  • one or more inference data sets D may be stored in the storage unit 106.
  • the inference result acquisition unit 101 transmits the inference data set D stored in the storage unit 106 to the machine learning service providing device 30, and as a reply, the inference result of the trained machine learning model for the inference data set D. Acquire the data R. Further, the inference result acquisition unit 101 transmits the inference data set D'created by the conversion unit 103, which will be described later, to the machine learning service providing device 30, and as a reply, the learned machine for the inference data set D'. Acquire the inference result data R'of the training model.
  • the function generation unit 102 generates candidates for the feature amount synthesis function used in the machine learning service.
  • the feature amount synthesis function that is, the true feature amount synthesis function
  • trans t the candidate of the feature amount synthesis function created by the function generation unit 102
  • trans the candidate of the feature amount synthesis function created by the function generation unit 102
  • the distance calculation unit 104 calculates the similarity distance (R, R') between the inference result data R and the inference result data R'using a predetermined distance function distance.
  • the determination unit 105 determines whether or not the similarity distance (R, R') calculated by the distance calculation unit 104 is equal to or greater than a predetermined threshold value ⁇ . Then, when distance (R, R') ⁇ ⁇ , the determination unit 105 determines that the function trans created by the function generation unit 102 may be used in the machine learning service. On the other hand, when distance (R, R')> ⁇ , the determination unit 105 determines that the function trans created by the function generation unit 102 is not used in the machine learning service. As a result, the feature composition function used in the machine learning service is estimated.
  • FIG. 4 is a flowchart showing an example of the estimation process according to the present embodiment. It is assumed that the trained machine learning model has been created by the machine learning service.
  • the inference result acquisition unit 101 transmits the inference data set D stored in the storage unit 106 to the machine learning service providing device 30, and as a reply, of the trained machine learning model for the inference data set D.
  • the inference result data R is acquired (step S101).
  • the inference result of the trained machine learning model for the inference data d is represented by a scalar value
  • the inference result data R is represented by a one-dimensional vector. Therefore, for example, when the inference data set D is composed of n inference data d, the inference result data R is represented by a one-dimensional vector composed of n elements (inference result).
  • the function generation unit 102 generates candidate transs of the feature amount synthesis function used in the machine learning service (step S102).
  • the function generation unit 102 may randomly create a function trans from a combination of four rules of operation of each feature amount included in the inference data d constituting the inference data set D.
  • the inference data d is represented by a four-dimensional feature vector (x 1 , x 2 , x 3 , x 4 ) having four features x 1 , x 2 , x 3 , and x 4 .
  • the function generation unit 102 calculates a four-rule operation of two arbitrary features and generates a function that outputs a three-dimensional feature vector as a candidate trans of the feature composition function. Specifically, it is conceivable to generate the following function as a trans.
  • a function for calculating an arbitrary operation for example, logical operation, logarithmic conversion, exponential conversion, triangular function, exponentiation, root, etc.
  • a function for calculating an arbitrary operation for example, logical operation, logarithmic conversion, exponential conversion, triangular function, exponentiation, root, etc.
  • the user has some knowledge about inference data or a machine learning model (for example, knowledge that feature quantity synthesis is performed between two feature quantities), this knowledge is also included.
  • Candidate trans of the feature amount synthesis function may be generated by using.
  • a candidate trans of a certain feature amount synthesis function is generated in step S102 above.
  • the input of the candidate trans of the feature quantity synthesis function is also referred to as a "feature quantity vector”
  • the output is also referred to as a "composite feature quantity vector”.
  • the conversion unit 103 is composed of these inference data d'by converting each inference data d so as not to change the composite feature amount vector and creating new inference data d', respectively.
  • the conversion method in which the feature amount vector of the inference data d and the composite feature amount vector are the same differs depending on the candidate trans of the feature amount synthesis function.
  • the inference data d is represented by a four-dimensional feature vector (x 1 , x 2 , x 3 , x 4 )
  • FIGS. 5 to 5 an example of conversion when trans performs a simple four arithmetic operation is shown in FIGS. 5 to 5. It is shown in FIG.
  • the vector (x 1 / x 2 , 1, x 3 , x 4 ) representing each product) may be used as the feature quantity vector of the inference data d'having the same data ID as the inference data d.
  • trans (D) trans (D') and D ⁇ D'is established.
  • a vector (1, x 3, 1 / x 3, 1) representing the Hadamard product of the feature vector (x 1 , x 2 , x 3 , x 4 ) of the inference data d and the conversion vector (1, x 3 , 1 / x 3 , 1).
  • x 1 , x 2 x x 3 , 1, x 4 ) may be set as a feature vector of the inference data d'having the same data ID as the inference data d.
  • trans (D) trans (D') and D ⁇ D'is established.
  • x 2 + x 3 , 0, x 4 ) may be set as a feature vector of the inference data d'having the same data ID as the inference data d.
  • trans (D) trans (D') and D ⁇ D'is established.
  • X 2 -x 3 , 0, x 4 may be set as a feature vector of the inference data d'having the same data ID as the inference data d.
  • trans (D) trans (D') and D ⁇ D'is established.
  • the inference result acquisition unit 101 transmits the inference data set D'created in step S103 to the machine learning service providing device 30, and as a reply to the inference data set D'. Acquire the inference result data R'of the trained machine learning model. (Step S104).
  • the inference result data R' is also represented by a one-dimensional vector like the inference result data R.
  • the distance calculation unit 104 calculates the similarity distance (R, R') between the inference result data R and the inference result data R'using a predetermined distance function distance (step S105).
  • a distance function distance for example, a root mean square error (RMSE: Root Mean Square Error), a mean absolute error rate (MAPE: Mean Absolute Percentage Error), or the like may be used.
  • RMSE Root Mean Square Error
  • MPE Mean Absolute Percentage Error
  • the determination unit 105 determines whether or not the similarity distance (R, R') calculated in step S105 is equal to or greater than a predetermined threshold value ⁇ . Then, when the determination (R, R') ⁇ ⁇ , the determination unit 105 determines that the function trans generated in step S102 may be used as a feature composition function in the machine learning service. , Disstance (R, R')> ⁇ , it is determined that the function trans is not used as a feature composition function in the machine learning service (step S106). As a result, when distance (R, R') ⁇ ⁇ , the feature composition function used in the machine learning service is estimated.
  • the estimation device 10 changes the output information (inference result data R) of the inference data set D input to the external machine learning service and the inference data set D.
  • the output information (inference result data R') of By analyzing the output information (inference result data R') of, the feature quantity synthesis function used in the machine learning service can be estimated. This makes it possible to clarify the feature amount synthesis function used in the machine learning service (that is, to clarify the feature amount engineering process) and improve the explainability to the inference result of the machine learning model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一実施形態に係る推定装置は、1以上の特徴量が含まれるデータに対して特徴量合成を行って所定のタスクの推論結果を提供する機械学習サービスと通信ネットワークを介して接続される推定装置であって、1以上の特徴量が含まれるデータで構成される第1のデータセットを前記機械学習サービスに送信し、前記第1のデータセットを構成する各データに対する推論結果を示す第1の推論結果データを取得する第1の取得部と、前記機械学習サービスの特徴量合成に利用されている特徴量合成関数の候補関数を生成する生成部と、前記候補関数に基づいて、前記第1のデータセットを構成する各データに対して所定の変換を行って、前記変換後のデータで構成される第2のデータセットを作成する作成部と、前記第2のデータセットを前記機械学習サービスに送信し、前記第2のデータセットを構成する各データに対する推論結果を示す第2の推論結果データを取得する第2の取得部と、前記第1の推論結果データと前記第2の推論結果データとの類似度を計算し、前記候補関数が前記機械学習サービスの特徴量合成に利用されているか否かを推定する推定部と、を有することを特徴とする。

Description

推定装置、推定方法及びプログラム
 本発明は、推定装置、推定方法及びプログラムに関する。
 訓練データから何等かの特徴やパターンを学習することで、予測や分類といったタスクを実現する機械学習モデルに関する研究が行われている。従来、機械学習モデルを作成する際には専門的なスキルを有するモデル作成者が試行錯誤を重ねることで適切なモデルを作成し、タスクの精度を向上させてきた。しかしながら、機械学習モデルの作成には高度なスキルを必要とするため、近年では、必要となる訓練データを外部の機械学習ベンダに提供し、モデル作成を委託するケースが増加している。例えば、ユーザが訓練データをクラウド上にアップロードし、タスク内容を指定するだけで、自動で機械学習モデルの作成を実施するサービスが様々な機械学習ベンダから提供されている。このようなサービスは、一般に、AutoML(Automated Machine Learning)サービスとも呼ばれている。
 AutoMLサービスでは、一般に、(1)ユーザからアップロードされた複数の訓練データを読み込み、(2)各訓練データに対して前処理を実施した後、(3)複数の機械学習モデルに対して様々なパラメータを使って、前処理後の訓練データにより同時並行で学習させ、(4)それらの中で精度の高かった機械学習モデルをユーザに提供する、といったことが行われることが多い。また、上記の(2)の前処理としては、データの正規化や特徴量合成といった処理が行われることが多い。これらの前処理の中でも特徴量合成は機械学習モデルの推論結果の精度を左右するという点で重要な部分である。なお、特徴量合成とは特徴量ベクトルを変換して新たな特徴量ベクトルを作成する処理のことであり、例えば、特徴量ベクトル(x,x,x,x)の特徴量xとxを乗算することで、新たな特徴量ベクトル(x,x×x,x)を作成すること等が挙げられる。
 一方で、機械学習モデルの実社会への適用が進むにつれて、その説明可能性が重要な課題になりつつある。つまり、機械学習モデルが出力した推論結果(予測結果や分類結果等)に対して、その判断基準、すなわちデータ内のどの特徴量が推論結果にどの程度の影響を及ぼしたのかを提示することが求められている。
 なお、機械学習モデルの説明可能性に関する従来技術としては、非特許文献1~3に記載されている技術が知られている。非特許文献1及び2にはそれぞれLIME(Local Interpretable Model-agnostic Explanations)及びSHAP(SHapley Additive exPlanations)と呼ばれる技術が記載されており、入力データに対してノイズを加えたデータを複数作成し、それらを機械学習モデルに入力し、その出力結果を観測して線形近似することで特定の推論結果に対する特徴量の寄与度を推定している。また、非特許文献3には入力データの特定の特徴量をランダムに並び替えた際の推論結果を観測し、その並び替えによって推論精度が低下した度合いを当該特徴量の重要度として評価している。
Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. ""Why should i trust you?" Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016. Lundberg, Scott M., and Su-In Lee. "A unified approach to interpreting model predictions." Advances in neural information processing systems. 2017. Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32.
 AutoMLサービスや外部の機械学習ベンダを利用する場合、機械学習モデルの学習の際にどのような関数を用いて特徴量合成が行われているのかを後から知ることは困難である。一方で、特徴量合成に用いられている関数(以下、「特徴量合成関数」ともいう。)を知ることができれば、機械学習モデルの推論結果に対する説明可能性の向上に繋がると考えられる。しかしながら、機械学習モデルの説明可能性に関する従来技術では特徴量合成の影響については考慮されていなかった。
 本発明の一実施形態は、上記の点に鑑みてなされたもので、特徴量合成関数を推定することを目的とする。
 上記目的を達成するため、一実施形態に係る推定装置は、1以上の特徴量が含まれるデータに対して特徴量合成を行って所定のタスクの推論結果を提供する機械学習サービスと通信ネットワークを介して接続される推定装置であって、1以上の特徴量が含まれるデータで構成される第1のデータセットを前記機械学習サービスに送信し、前記第1のデータセットを構成する各データに対する推論結果を示す第1の推論結果データを取得する第1の取得部と、前記機械学習サービスの特徴量合成に利用されている特徴量合成関数の候補関数を生成する生成部と、前記候補関数に基づいて、前記第1のデータセットを構成する各データに対して所定の変換を行って、前記変換後のデータで構成される第2のデータセットを作成する作成部と、前記第2のデータセットを前記機械学習サービスに送信し、前記第2のデータセットを構成する各データに対する推論結果を示す第2の推論結果データを取得する第2の取得部と、前記第1の推論結果データと前記第2の推論結果データとの類似度を計算し、前記候補関数が前記機械学習サービスの特徴量合成に利用されているか否かを推定する推定部と、を有することを特徴とする。
 特徴量合成関数を推定することができる。
本実施形態に係る特徴量合成関数推定システムの全体構成の一例を示す図である。 本実施形態に係る推定装置のハードウェア構成の一例を示す図である。 本実施形態に係る推定装置の機能構成の一例を示す図である。 本実施形態に係る推定処理の一例を示すフローチャートである。 推論用データの変換の一例を説明するための図(その1)である。 推論用データの変換の一例を説明するための図(その2)である。 推論用データの変換の一例を説明するための図(その3)である。 推論用データの変換の一例を説明するための図(その4)である。
 以下、本発明の一実施形態について説明する。本実施形態では、外部の機械学習サービス(例えば、AutoMLサービス、外部の機械学習ベンダが機械学習モデルを作成するサービス等)で所定のタスクの機械学習モデルを作成した際に、この機械学習サービスで利用されている特徴量合成関数を推定することが可能な特徴量合成関数推定システム1について説明する。なお、特徴量合成関数とは、データの前処理の1つである特徴量合成に用いられる関数のことである。
 <特徴量合成関数推定システム1の全体構成>
 まず、本実施形態に係る特徴量合成関数推定システム1の全体構成について、図1を参照しながら説明する。図1は、本実施形態に係る特徴量合成関数推定システム1の全体構成の一例を示す図である。
 図1に示すように、本実施形態に係る特徴量合成関数推定システム1には、推定装置10と、ユーザ端末20と、機械学習サービス提供装置30とが含まれる。これらは、インターネットNを含む任意の通信ネットワークを介して通信可能に接続される。
 推定装置10は、機械学習サービスで利用されている特徴量合成関数を推定するコンピュータ又はコンピュータシステムである。
 ユーザ端末20は、機械学習サービスのユーザが利用する各種端末(例えば、PC(パーソナルコンピュータ)やスマートフォン、タブレット端末等)である。ユーザは、ユーザ端末20を操作して、機械学習モデルを作成するための訓練データの集合(以下、「学習用データセット」ともいう。)を機械学習サービス提供装置30に送信したり、学習済みの機械学習モデルで推論結果を得るためのデータの集合(以下、「推論用データセット」ともいう。)を機械学習サービス提供装置30に送信したりすることができる。
 なお、学習用データセットは1以上の学習用データ(訓練データ)で構成されており、各学習用データにはデータIDと1以上の特徴量(Feature)と目的変数(Target)とが含まれる。一方で、推論用データセットは1以上の推論用データで構成されており、各推論用データにはデータIDと1以上の特徴量とが含まれる。目的変数は機械学習モデルの目的を示す変数であり、特徴量は目的変数を特徴づける数値である。機械学習モデルは学習用データに含まれる特徴量と目的変数の関係を学習することで、推論用データに含まれる特徴量から目的変数の値を推測する。
 機械学習サービス提供装置30は、機械学習サービスを提供する外部の機械学習ベンダ等が管理するサーバである。
 ここで、機械学習サービスには、学習用データセットを用いて機械学習モデルを作成する学習フェーズと、推論用データセットを用いて学習済みの機械学習モデルにより推論結果を得る推論フェーズとがある。学習フェーズでは、機械学習サービス提供装置30は、ユーザ端末20から送信された学習用データセットを構成する各学習用データに対して特徴量合成を含む所定の前処理を行った上で、前処理後の各学習用データを用いて機械学習モデルを学習させる。一方で、推論フェーズでは、機械学習サービス提供装置30は、ユーザ端末20から送信された推論用データセットを構成する各推論用データに対して特徴量合成を含む前処理を行った上で、前処理後の各推論用データを用いて学習済みの機械学習モデルにより推論結果を得て当該ユーザ端末20に返信する。
 なお、上述したように、機械学習サービスは、例えば、AutoMLサービスや外部の機械学習ベンダが機械学習モデルを作成するサービス等であり、ユーザはその機械学習サービス内で利用されている特徴量合成関数を知ることはできないものとする。また、図1に示す特徴量合成関数推定システム1の構成は一例であって、他の構成であってもよい。例えば、推定装置10がユーザ端末20に含まれる構成であってもよい。
 <推定装置10のハードウェア構成>
 次に、本実施形態に係る推定装置10のハードウェア構成について、図2を参照しながら説明する。図2は、本実施形態に係る推定装置10のハードウェア構成の一例を示す図である。
 図2に示すように、本実施形態に係る推定装置10は一般的なコンピュータ又はコンピュータシステムのハードウェアで実現され、入力装置11と、表示装置12と、外部I/F13と、通信I/F14と、プロセッサ15と、メモリ装置16とを有する。これらの各ハードウェアは、それぞれがバス17を介して通信可能に接続されている。
 入力装置11は、例えば、キーボードやマウス、タッチパネル等である。表示装置12は、例えば、ディスプレイ等である。なお、推定装置10は、入力装置11及び表示装置12のうちの少なくとも一方を有していなくてもよい。
 外部I/F13は、外部装置とのインタフェースである。外部装置には、記録媒体13a等がある。推定装置10は、外部I/F13を介して、記録媒体13aの読み取りや書き込み等を行うことができる。なお、記録媒体13aには、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
 通信I/F14は、推定装置10を通信ネットワークに接続するためのインタフェースである。プロセッサ15は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。メモリ装置16は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等の各種記憶装置である。
 本実施形態に係る推定装置10は、図2に示すハードウェア構成を有することにより、後述する推定処理を実現することができる。なお、図2に示すハードウェア構成は一例であって、推定装置10は、他のハードウェア構成を有していてもよい。例えば、推定装置10は、複数のプロセッサ15を有していてもよいし、複数のメモリ装置16を有していてもよい。
 <推定装置10の機能構成>
 次に、本実施形態に係る推定装置10の機能構成について、図3を参照しながら説明する。図3は、本実施形態に係る推定装置10の機能構成の一例を示す図である。
 図3に示すように、本実施形態に係る推定装置10は、推論結果取得部101と、関数生成部102と、変換部103と、距離計算部104と、判定部105とを有する。これら各部は、例えば、推定装置10にインストールされた1以上のプログラムがプロセッサ15に実行させる処理により実現される。
 また、本実施形態に係る推定装置10は、記憶部106を有する。記憶部106は、例えば、メモリ装置16により実現される。ただし、記憶部106は、例えば、推定装置10と通信ネットワークを介して接続されるデータベースサーバ等により実現されてもよい。
 記憶部106には、機械学習サービスで利用されている特徴量合成関数を推定する際に用いられる推論用データセットDが記憶されている。なお、記憶部106には、1以上の推論用データセットDが記憶されていてもよい。
 推論結果取得部101は、記憶部106に記憶されている推論用データセットDを機械学習サービス提供装置30に送信し、その返信として、当該推論用データセットDに対する学習済み機械学習モデルの推論結果データRを取得する。また、推論結果取得部101は、後述する変換部103で作成された推論用データセットD'を機械学習サービス提供装置30に送信し、その返信として、当該推論用データセットD'に対する学習済み機械学習モデルの推論結果データR'を取得する。
 関数生成部102は、機械学習サービスで利用されている特徴量合成関数の候補を生成する。以降では、機械学習サービスで利用されている特徴量合成関数(つまり、真の特徴量合成関数)をtrans、関数生成部102により作成された特徴量合成関数の候補をtransと表記する。
 変換部103は、推論用データセットDを変換した新たな推論用データセットD'を作成する。このとき、変換部103は、推論用データセットDに含まれる各推論用データdに対してtrans(d)=trans(d')かつd≠d'となる推論用データd'をそれぞれ作成し、これらの推論用データd'で構成される推論用データセットD'を作成する。なお、以降では、全ての推論用データdと、当該推論用データdから作成された推論用データd'との間でtrans(d)=trans(d')かつd≠d'を満たす場合、推論用データセットDと推論用データセットD'との間でtrans(D)=trans(D')かつD≠D'を満たすという。
 距離計算部104は、所定の距離関数distanceを用いて、推論結果データRと推論結果データR'との間の類似度distance(R,R')を計算する。
 判定部105は、距離計算部104で計算された類似度distance(R,R')が所定の閾値σ以上であるか否かを判定する。そして、distance(R,R')≦σである場合は、判定部105は、関数生成部102で作成した関数transが機械学習サービスで利用されている可能性があると判定する。一方で、distance(R,R')>σである場合は、判定部105は、関数生成部102で作成した関数transは機械学習サービスで利用されていないと判定する。これにより、機械学習サービスで利用されている特徴量合成関数が推定される。これは、推論用データセットDを構成する各推論用データdに対してtrans(d)=trans(d')となるように推論用データd'が作成されているため、特徴量合成関数の候補transが真の特徴量合成関数transと同一である場合には推論結果データRと推論結果データR'が同一となるためである。
 <推定処理>
 次に、本実施形態に係る推定装置10により機械学習サービスで利用されている特徴量合成関数を推定する処理の流れについて、図4を参照しながら説明する。図4は、本実施形態に係る推定処理の一例を示すフローチャートである。なお、機械学習サービスによって学習済み機械学習モデルが作成されているものとする。
 まず、推論結果取得部101は、記憶部106に記憶されている推論用データセットDを機械学習サービス提供装置30に送信し、その返信として、当該推論用データセットDに対する学習済み機械学習モデルの推論結果データRを取得する(ステップS101)。
 以降では、簡単のため、推論用データdに対する学習済み機械学習モデルの推論結果はスカラー値で表され、推論結果データRは1次元のベクトルで表されるものとする。したがって、例えば、推論用データセットDがn個の推論用データdで構成されている場合、推論結果データRはn個の要素(推論結果)で構成される1次元のベクトルで表される。
 次に、関数生成部102は、機械学習サービスで利用されている特徴量合成関数の候補transを生成する(ステップS102)。関数生成部102は、推論用データセットDを構成する推論用データdに含まれる各特徴量の四則演算の組み合わせ等からランダムに関数transを作成すればよい。
 例えば、推論用データdが4つの特徴量x,x,x,xを持つ4次元の特徴量ベクトル(x,x,x,x)で表されるとする。この場合、関数生成部102は、任意の2つの特徴量の四則演算を計算して3次元の特徴量ベクトルを出力する関数を特徴量合成関数の候補transとして生成することが考えられる。具体的には、以下のような関数をtransとして生成することが考えられる。
 ・trans(x,x,x,x)=(x/x,x,x
 ・trans(x,x,x,x)=(x,x×x,x
 ・trans(x,x,x,x)=(x,x+x,x
 ・trans(x,x,x,x)=(x,x-x,x
 また、例えば、任意の3つの特徴量の四則演算の組み合わせを計算して2次元の特徴量ベクトルを出力する関数を特徴量合成関数の候補transとして生成する場合は、以下のような関数をtransとして生成することが考えられる。
 ・trans(x,x,x,x)=(x,x/x+x
 ・trans(x,x,x,x)=(x,x×(x-x))
 ・trans(x,x,x,x)=(x+x+x,x
 ・trans(x,x,x,x)=(x×(x+x),x
 ただし、これらの関数は一例であって、推論用データdに含まれる任意の個数の特徴量の任意の四則演算又はその組み合わせを計算して任意の次元の特徴量ベクトルを出力する関数をtransとして生成することが可能である。また、四則演算以外にも任意の演算(例えば、論理演算、対数変換、指数変換、三角関数、冪乗、冪根等)を計算する関数がtransとして生成されてもよい。更に、ユーザが推論用データや機械学習モデルに関する何等かの知識(例えば、或る2つの特徴量間で特徴量合成が行われているとの知識等)を有する場合には、これらの知識も用いて特徴量合成関数の候補transが生成されてもよい。
 なお、以降では、上記のステップS102で或る1つの特徴量合成関数の候補transが生成されたものとする。また、特徴量合成関数の候補transの入力を「特徴量ベクトル」、出力を「合成特徴量ベクトル」ともいう。
 次に、変換部103は、合成特徴量ベクトルを変化させないように各推論用データdを変換し、新たな推論用データd'をそれぞれ作成することで、これらの推論用データd'で構成される推論用データセットD'を作成する(ステップS103)。すなわち、変換部103は、trans(D)=trans(D')かつD≠D'となる推論用データセットD'を作成する。
 ここで、推論用データdの特徴量ベクトルと合成特徴量ベクトルとが同一となるような変換方法は特徴量合成関数の候補transによって異なる。以下、推論用データdが4次元の特徴量ベクトル(x,x,x,x)で表されるものとして、transが単純な四則演算を行う場合の変換の例を図5~図8に示す。
 図5は、trans(x,x,x,x)=(x/x,x,x)である場合の例を示している。この場合、推論用データdの特徴量ベクトル(x,x,x,x)と、(1/x,1/x,1,1)という変換ベクトルとのアダマール積(要素毎の積)を表すベクトル(x/x,1,x,x)を、当該推論用データdと同一データIDを持つ推論用データd'の特徴量ベクトルとすればよい。これにより、trans(D)=trans(D')かつD≠D'が成立する。
 図6は、trans(x,x,x,x)=(x,x×x,x)である場合の例を示している。この場合、推論用データdの特徴量ベクトル(x,x,x,x)と、(1,x,1/x,1)という変換ベクトルとのアダマール積を表すベクトル(x,x×x,1,x)を、当該推論用データdと同一データIDを持つ推論用データd'の特徴量ベクトルとすればよい。これにより、trans(D)=trans(D')かつD≠D'が成立する。
 図7は、trans(x,x,x,x)=(x,x+x,x)である場合の例を示している。この場合、推論用データdの特徴量ベクトル(x,x,x,x)に対して(0,x,-x,0)という変換ベクトルを加えたベクトル(x,x+x,0,x)を、当該推論用データdと同一データIDを持つ推論用データd'の特徴量ベクトルとすればよい。これにより、trans(D)=trans(D')かつD≠D'が成立する。
 図8は、trans(x,x,x,x)=(x,x-x,x)である場合の例を示している。この場合、推論用データdの特徴量ベクトル(x,x,x,x)に対して(0,-x,-x,0)という変換ベクトルを加えたベクトル(x,x-x,0,x)を、当該推論用データdと同一データIDを持つ推論用データd'の特徴量ベクトルとすればよい。これにより、trans(D)=trans(D')かつD≠D'が成立する。
 図4に戻る。ステップS103に続いて、推論結果取得部101は、上記のステップS103で作成された推論用データセットD'を機械学習サービス提供装置30に送信し、その返信として、当該推論用データセットD' に対する学習済み機械学習モデルの推論結果データR'を取得する。(ステップS104)。なお、推論結果データR'も推論結果データRと同様に、1次元のベクトルで表される。
 以降では、推論用データセットDはデータID「1」~「n」までのn個の推論用データdで構成されているものとして、R=(r,r,・・・,r)と表されているものとする。ここで、rはデータID「k」(ただし、k=1,・・・,n)の推論用データdに対する学習済み機械学習モデルの推論結果である。同様に、データID「k」(ただし、k=1,・・・,n)の推論用データd'に対する学習済み機械学習モデルの推論結果をr'として、R'=(r',r',・・・,r')と表されているものとする。
 次に、距離計算部104は、所定の距離関数distanceを用いて、推論結果データRと推論結果データR'との間の類似度distance(R,R')を計算する(ステップS105)。距離関数distanceとしては、例えば、平均平方二乗誤差(RMSE:Root Mean Square Error)や平均絶対誤差率(MAPE:Mean Absolute Percentage Error)等を用いればよい。例えば、平均平方二乗誤差を用いる場合、距離関数distance(R,R')は以下で計算することができる。
Figure JPOXMLDOC01-appb-M000001
 次に、判定部105は、上記のステップS105で計算された類似度distance(R,R')が所定の閾値σ以上であるか否かを判定する。そして、判定部105は、distance(R,R')≦σである場合は上記のステップS102で生成した関数transが機械学習サービスで特徴量合成関数として利用されている可能性があると判定し、distance(R,R')>σである場合は当該関数transが機械学習サービスで特徴量合成関数としては利用されていないと判定する(ステップS106)。これにより、distance(R,R')≦σである場合は機械学習サービスで利用されている特徴量合成関数が推定される。これは、trans(D)=trans(D')かつD≠D'となるように推論用データセットD'が作成されているため、trans=transである場合にはR=R'でありdistance(R,R')=0となる一方で、trans≠transである場合にはR≠R'であり或る閾値σに対してdistance(R,R')>σとなるためである。
 以上のように、本実施形態に係る推定装置10は、外部の機械学習サービスに入力される推論用データセットDの出力情報(推論結果データR)と当該推論用データセットDを変化させた場合の出力情報(推論結果データR')とを分析することで、当該機械学習サービスで利用されている特徴量合成関数を推定することができる。これにより、機械学習サービスで利用されている特徴量合成関数を明らかにし(つまり、特徴量エンジニアリング処理を明らかにし)、機械学習モデルの推論結果に対する説明可能性を向上させることが可能となる。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
 1    特徴量合成関数推定システム
 10   推定装置
 11   入力装置
 12   表示装置
 13   外部I/F
 13a  記録媒体
 14   通信I/F
 15   プロセッサ
 16   メモリ装置
 17   バス
 20   ユーザ端末
 30   機械学習サービス提供装置
 101  推論結果取得部
 102  関数生成部
 103  変換部
 104  距離計算部
 105  判定部
 106  記憶部
 N    インターネット

Claims (6)

  1.  1以上の特徴量が含まれるデータに対して特徴量合成を行って所定のタスクの推論結果を提供する機械学習サービスと通信ネットワークを介して接続される推定装置であって、
     1以上の特徴量が含まれるデータで構成される第1のデータセットを前記機械学習サービスに送信し、前記第1のデータセットを構成する各データに対する推論結果を示す第1の推論結果データを取得する第1の取得部と、
     前記機械学習サービスの特徴量合成に利用されている特徴量合成関数の候補関数を生成する生成部と、
     前記候補関数に基づいて、前記第1のデータセットを構成する各データに対して所定の変換を行って、前記変換後のデータで構成される第2のデータセットを作成する作成部と、
     前記第2のデータセットを前記機械学習サービスに送信し、前記第2のデータセットを構成する各データに対する推論結果を示す第2の推論結果データを取得する第2の取得部と、
     前記第1の推論結果データと前記第2の推論結果データとの類似度を計算し、前記候補関数が前記機械学習サービスの特徴量合成に利用されているか否かを推定する推定部と、
     を有することを特徴とする推定装置。
  2.  前記作成部は、
     前記第1のデータセットを構成する各データに対する前記候補関数の出力を変化させないように、前記第1のデータセットを構成する各データに対して所定の変換を行う、ことを特徴とする請求項1に記載の推定装置。
  3.  前記推定部は、
     所定の距離関数を用いて前記第1の推論結果データと前記第2の推論結果データとの類似度を計算し、
     前記類似度が所定の閾値以下である場合は、前記候補関数が前記機械学習サービスの特徴量合成に利用されていると推定し、
     前記類似度が所定の閾値より大きい場合は、前記候補関数は前記機械学習サービスの特徴量合成に利用されていないと推定する、ことを特徴とする請求項1又は2に記載の推定装置。
  4.  前記生成部は、
     前記1以上の特徴量間で所定の演算を行う関数を前記候補関数としてランダムに生成する、ことを特徴とする請求項1乃至3の何れか一項に記載の推定装置。
  5.  1以上の特徴量が含まれるデータに対して特徴量合成を行って所定のタスクの推論結果を提供する機械学習サービスと通信ネットワークを介して接続される推定装置が、
     1以上の特徴量が含まれるデータで構成される第1のデータセットを前記機械学習サービスに送信し、前記第1のデータセットを構成する各データに対する推論結果を示す第1の推論結果データを取得する第1の取得手順と、
     前記機械学習サービスの特徴量合成に利用されている特徴量合成関数の候補関数を生成する生成手順と、
     前記候補関数に基づいて、前記第1のデータセットを構成する各データに対して所定の変換を行って、前記変換後のデータで構成される第2のデータセットを作成する作成手順と、
     前記第2のデータセットを前記機械学習サービスに送信し、前記第2のデータセットを構成する各データに対する推論結果を示す第2の推論結果データを取得する第2の取得手順と、
     前記第1の推論結果データと前記第2の推論結果データとの類似度を計算し、前記候補関数が前記機械学習サービスの特徴量合成に利用されているか否かを推定する推定手順と、
     を実行することを特徴とする推定方法。
  6.  コンピュータを、請求項1乃至4の何れか一項に記載の推定装置として機能させるプログラム。
PCT/JP2020/032485 2020-08-27 2020-08-27 推定装置、推定方法及びプログラム WO2022044233A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032485 WO2022044233A1 (ja) 2020-08-27 2020-08-27 推定装置、推定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032485 WO2022044233A1 (ja) 2020-08-27 2020-08-27 推定装置、推定方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2022044233A1 true WO2022044233A1 (ja) 2022-03-03

Family

ID=80352918

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/032485 WO2022044233A1 (ja) 2020-08-27 2020-08-27 推定装置、推定方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2022044233A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017529583A (ja) * 2014-06-30 2017-10-05 アマゾン・テクノロジーズ・インコーポレーテッド 特徴処理トレードオフ管理
US10510022B1 (en) * 2018-12-03 2019-12-17 Sas Institute Inc. Machine learning model feature contribution analytic system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017529583A (ja) * 2014-06-30 2017-10-05 アマゾン・テクノロジーズ・インコーポレーテッド 特徴処理トレードオフ管理
US10510022B1 (en) * 2018-12-03 2019-12-17 Sas Institute Inc. Machine learning model feature contribution analytic system

Similar Documents

Publication Publication Date Title
Pal et al. Practical time series analysis: master time series data processing, visualization, and modeling using python
Desislavov et al. Compute and energy consumption trends in deep learning inference
Bilal et al. Big Data in the construction industry: A review of present status, opportunities, and future trends
KR20220113881A (ko) 사전 훈련 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
Ajdari et al. An adaptive exploration-exploitation algorithm for constructing metamodels in random simulation using a novel sequential experimental design
Bellot et al. NetBenchmark: a bioconductor package for reproducible benchmarks of gene regulatory network inference
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
CN111401700A (zh) 一种数据分析方法、装置、计算机系统及可读存储介质
US20230040564A1 (en) Learning Causal Relationships
Lyu et al. Data-driven development of three-dimensional subsurface models from sparse measurements using Bayesian compressive sampling: A benchmarking study
CN111652453A (zh) 用于零件设计、仿真和制造的智能工作流程顾问
Tanneru et al. Quantifying uncertainty in natural language explanations of large language models
CN115545114A (zh) 多任务模型的训练方法、内容推荐方法及装置
Wheeler Bayesian additive adaptive basis tensor product models for modeling high dimensional surfaces: an application to high-throughput toxicity testing
WO2022044233A1 (ja) 推定装置、推定方法及びプログラム
US20230273771A1 (en) Secret decision tree test apparatus, secret decision tree test system, secret decision tree test method, and program
US20230139396A1 (en) Using learned physical knowledge to guide feature engineering
CN115829159B (zh) 社交媒体粉丝新增预测方法、装置、设备及存储介质
CN116662538A (zh) 基于多任务学习的文本摘要生成方法、装置、设备及介质
Arroyo-Esquivel et al. Using neural ordinary differential equations to predict complex ecological dynamics from population density data
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
Flores et al. Level of detail event generation
JP7544274B2 (ja) 累積計算装置、累積計算方法、及びプログラム
Leung et al. Theoretical and practical data science and analytics: challenges and solutions
Eisenhauer The approximate solution of finite‐horizon discrete‐choice dynamic programming models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20951485

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20951485

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP