[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2023122310A - データ入力制御装置、データ入力制御方法、及びプログラム - Google Patents

データ入力制御装置、データ入力制御方法、及びプログラム Download PDF

Info

Publication number
JP2023122310A
JP2023122310A JP2022025949A JP2022025949A JP2023122310A JP 2023122310 A JP2023122310 A JP 2023122310A JP 2022025949 A JP2022025949 A JP 2022025949A JP 2022025949 A JP2022025949 A JP 2022025949A JP 2023122310 A JP2023122310 A JP 2023122310A
Authority
JP
Japan
Prior art keywords
data
cluster
size
memory
status information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022025949A
Other languages
English (en)
Inventor
修平 高野
Shuhei Takano
祥平 市瀬
Shohei Ichinose
直樹 岡本
Naoki Okamoto
貴章 牛木
Takaaki Ushiki
宏敏 重松
Hirotoshi Shigematsu
暁久 飯塚
Akihisa Iizuka
洸太 龍崎
Kota Ryuzaki
達矢 山下
Tatsuya Yamashita
憲二 辻
Kenji Tsuji
正樹 熊木
Masaki Kumaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Communication Systems Ltd
Original Assignee
NEC Corp
NEC Communication Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Communication Systems Ltd filed Critical NEC Corp
Priority to JP2022025949A priority Critical patent/JP2023122310A/ja
Publication of JP2023122310A publication Critical patent/JP2023122310A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】クラスタに対して割り当てる処理量を決定する新たな技術を提供する。【解決手段】クラスタ20は、複数のノード30を利用して、データに対する加工処理及び集計処理を行う。データ入力制御装置2000は、メモリ状況情報40を利用し、クラスタ20に処理させる対象データ10について、データの抽出サイズを決定する。メモリ状況情報40は、クラスタ20において過去にデータの加工処理及び集計処理が行われた際における、クラスタ20のメモリの状況に関する情報である。抽出サイズは、クラスタ20における過去のメモリ使用状況が入力されたことに応じて抽出サイズを出力するように訓練されたサイズ決定モデルに対し、メモリ状況情報40を適用することで決定される。データ入力制御装置2000は、対象データ10から、抽出サイズと等しいサイズを持つ複数の部分データ12を抽出し、各部分データ12を順次クラスタ20に処理させる。【選択図】図1

Description

本開示は、複数のノードから成るクラスタを利用した並列分散処理に関する。
複数のノードから成るクラスタを用いて並列分散処理を行う技術が開発されている。例えば特許文献1は、複数の処理で構成される依頼処理を複数のスレーブに割り付けて処理させる技術を開示している。特許文献1において、マスタは、各スレーブの処理履歴から各スレーブの処理能力を定め、処理能力に応じた量の処理を各スレーブに割り付ける。
特開2004-062686号公報
特許文献1は、スレーブの処理能力に応じた処理量を決定する具体的な方法について言及していない。本発明はこの課題に鑑みてなされたものであり、その目的の一つは、クラスタに対して割り当てる処理量を決定する新たな技術を提供することである。
本開示のデータ入力制御装置は、複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定部と、前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御部と、を有する。前記サイズ決定部は、前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する。
本開示のデータ入力制御方法は、コンピュータによって実行される。当該制御方法は、複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定ステップと、
前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御ステップと、を有する。前記サイズ決定ステップにおいて、前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する。
本開示のプログラムは、本開示のデータ入力制御方法をコンピュータに実行させる。
本開示によれば、クラスタに対して割り当てる処理量を決定する新たな技術が提供される。
実施形態1のデータ入力制御装置の動作の概要を例示する図である。 実施形態1のデータ入力制御装置の機能構成を例示するブロック図である。 データ入力制御装置を実現するコンピュータのハードウエア構成を例示するブロック図である。 実施形態1のデータ入力制御装置によって実行される処理の流れを例示するフローチャートである。 メモリ状況情報をテーブル形式で例示する図である。 メモリ状況情報をテーブル形式で例示する図である。
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。また、特に説明しない限り、所定値や閾値などといった予め定められている値は、その値を利用する装置からアクセス可能な記憶部などに予め格納されている。さらに、特に説明しない限り、記憶部は、1つ以上の任意の数の記憶装置で構成される。
図1は、実施形態1のデータ入力制御装置2000の動作の概要を例示する図である。ここで、図1は、データ入力制御装置2000の概要の理解を容易にするための図であり、データ入力制御装置2000の動作は、図1に示したものに限定されない。
データ入力制御装置2000は、クラスタ20に対して入力されるデータに関する制御を行う。そこでまず、クラスタ20について説明する。
クラスタ20は複数のノード30で構成され、入力されたデータの加工処理と集計処理を行う。クラスタ20によって行われる処理は、データの並列分散処理とも表現することができる。例えば加工処理は、型変換処理、桁数統一処理、又は加算処理などである。また、例えば集計処理は、標準偏差、合計値、又は平均値などといった統計値を算出する処理である。
加工処理は、複数のノード30によって行われる。クラスタ20に対して入力されたデータは、複数のデータに分割され、それぞれ異なるノード30に入力される。なお、1つのデータに対して加工処理を行うノード30は、1つには限定されない。例えば、或るノード30がデータに対して第1の加工処理を行った後、他のノード30が、第1の加工処理によって得られたデータに対して第2の加工処理を行ってもよい。
集計処理は、1つ以上のノード30によって行われる。集計処理を行うノード30は、加工処理によって得られた複数のデータを取得し、取得してデータについての集計処理を行い、その結果を出力する。
データ入力制御装置2000は、対象データ10をクラスタ20に処理させる。対象データ10は、クラスタ20による加工処理及び集計処理の対象となるデータである。ここで、クラスタ20では、一度に大量のデータが入力されると、メモリ不足が原因で、データを正常に処理できなかったり、データの処理に要する時間が長くなってしまうことがある。そこでデータ入力制御装置2000は、対象データ10から互いに重複しない複数の部分データ12を抽出し、各部分データ12を順次クラスタ20に処理させる。
以下、「クラスタ20が1つの部分データ12を取得し、その部分データ12に対して加工処理及び集計処理を行い、その処理結果を出力する」という一連の処理のことを、1サイクルの処理と呼ぶ。対象データ10からN個の部分データ12が抽出される場合、データ入力制御装置2000は、Nサイクルの処理を行うことになる。
ここで、部分データ12のサイズが大きすぎると、各サイクルでメモリ不足が発生してしまう蓋然性が高くなる。一方、部分データ12のサイズが小さすぎると、各サイクルでメモリの余剰が多くなり、対象データ10に対する処理の効率が低くなる蓋然性が高くなる。
そこでデータ入力制御装置2000は、クラスタ20でメモリ容量の不足が生じることを避けつつ、対象データ10の処理が効率よく行われるようにするために、適切な部分データ12のサイズ(以下、抽出サイズ)を決定する。部分データ12のサイズの決定には、メモリ状況情報40が利用される。メモリ状況情報40は、クラスタ20においてデータの加工処理及び集計処理が行われている際におけるクラスタ20のメモリの状況(処理に利用されているノード30のメモリの状況)を示す。メモリの状況は、例えば、ノード30のメモリ使用量や、ノード30におけるメモリ異常の発生の有無などによって表される。
メモリ状況情報40は、クラスタ20においてデータの加工処理及び集計処理が行われている間に、各ノード30におけるメモリの状況を監視することで生成することができる。メモリ状況情報40の生成は、データ入力制御装置2000によって行われてもよいし、他の装置によって行われてもよい。以下、メモリ状況情報40を生成する装置のことを、メモリ状況情報生成装置と呼ぶ。メモリ状況情報生成装置によって生成されたメモリ状況情報40は、記憶部50に格納される。
データ入力制御装置2000は、記憶部50に格納されているメモリ状況情報40(言い換えれば、過去に行われたクラスタ20によるデータの加工処理及び集計処理についてのメモリ状況情報40)を取得する。さらに、データ入力制御装置2000は、取得したメモリ状況情報40を利用して、抽出サイズを決定する。そして、データ入力制御装置2000は、抽出サイズに等しい各部分データ12を、順次クラスタ20に処理させる。
抽出サイズの決定は、クラスタ20におけるメモリの状況が入力されたことに応じて抽出サイズを出力するように構成された機械学習モデル(以下、サイズ決定モデル)を利用して行われる。サイズ決定モデルの詳細については後述する。
<作用効果の一例>
本実施形態のデータ入力制御装置2000によれば、クラスタ20に対して一度に割り当てる(投入する)データのサイズである抽出サイズが、メモリ状況情報40をサイズ決定モデルに適用することで決定される。このように、データ入力制御装置2000によれば、クラスタ20に対して一度に割り当てるデータのサイズを決定する新たな技術が提供される。また、データ入力制御装置2000によれば、クラスタ20においてメモリ容量の不足によるメモリ異常がが生じることを避けつつ、データの処理が効率よく行われるようにすることができる。
以下、本実施形態のデータ入力制御装置2000について、より詳細に説明する。
<機能構成の例>
図2は、実施形態1のデータ入力制御装置2000の機能構成を例示するブロック図である。データ入力制御装置2000は、サイズ決定部2020及び制御部2040を有する。サイズ決定部2020は、メモリ状況情報40を利用して抽出サイズを決定する。制御部2040は、対象データ10から、抽出サイズに等しいサイズの部分データ12を順次抽出し、抽出した部分データ12をクラスタ20に処理させる。
<ハードウエア構成の例>
データ入力制御装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、データ入力制御装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図3は、データ入力制御装置2000を実現するコンピュータ500のハードウエア構成を例示するブロック図である。コンピュータ500は、任意のコンピュータである。例えばコンピュータ500は、PC(Personal Computer)やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ500は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。コンピュータ500は、データ入力制御装置2000を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。
例えば、コンピュータ500に対して所定のアプリケーションをインストールすることにより、コンピュータ500で、データ入力制御装置2000の各機能が実現される。上記アプリケーションは、データ入力制御装置2000の各機能構成部を実現するためのプログラムで構成される。なお、上記プログラムの取得方法は任意である。例えば、当該プログラムが格納されている記憶媒体(DVD ディスクや USB メモリなど)から、当該プログラムを取得することができる。その他にも例えば、当該プログラムが格納されている記憶装置を管理しているサーバ装置から、当該プログラムをダウンロードすることにより、当該プログラムを取得することができる。
コンピュータ500は、バス502、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512を有する。バス502は、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ504などを互いに接続する方法は、バス接続に限定されない。
プロセッサ504は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ506は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス508は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース510は、コンピュータ500と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース510には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
ネットワークインタフェース512は、コンピュータ500をネットワークに接続するためのインタフェースである。このネットワークは、LAN(Local Area Network)であってもよいし、WAN(Wide Area Network)であってもよい。
ストレージデバイス508は、データ入力制御装置2000の各機能構成部を実現するプログラム(前述したアプリケーションを実現するプログラム)を記憶している。プロセッサ504は、このプログラムをメモリ506に読み出して実行することで、データ入力制御装置2000の各機能構成部を実現する。
データ入力制御装置2000は、1つのコンピュータ500で実現されてもよいし、複数のコンピュータ500で実現されてもよい。後者の場合において、各コンピュータ500の構成は同一である必要はなく、それぞれ異なるものとすることができる。
<処理の流れ>
図4は、実施形態1のデータ入力制御装置2000によって実行される処理の流れを例示するフローチャートである。サイズ決定部2020は、メモリ状況情報40を利用して抽出サイズを決定する(S102)。制御部2040は、対象データ10から、そのサイズが抽出サイズである部分データ12を順次抽出し、抽出した部分データ12をクラスタ20に処理させる(S104)。
<対象データ10について>
対象データ10は、クラスタ20による加工処理及び集計処理の対象となるデータである。例えばデータ入力制御装置2000は、データ入力制御装置2000の外部で動作するアプリケーションから、対象データ10をクラスタ20に処理させるためのリクエストを受け付ける。例えばこのリクエストには、リクエスト元のアプリケーションの識別情報や、対象データ10へアクセスするためのアクセス情報が含まれている。アクセス情報は、例えば、対象データ10が格納されている記憶部の識別情報(URLなど)や、対象データ10が格納されている当該記憶部上の領域を表すパスなどを示す。
なお、同一のアプリケーションであっても、クラスタ20に処理させたいデータの種類が複数存在しうる。そこで上記リクエストは、対象データ10の種類をさらに示してもよい。データの種類としては、例えば、トラフィックデータやログデータなどといった種類がある。また、トラフィックやログの種類をさらに示すことにより、データの種類がさらに細かく分類されてもよい。例えばトラフィックデータであれば、「Aという種類のトラフィックに関するトラフィックデータ」や「Bという種類のトラフィックに関するトラフィックデータ」などのように分類することができる。
<メモリ状況情報40について>
メモリ状況情報40は、クラスタ20によってデータの加工処理及び集計処理が行われている間における、クラスタ20のメモリの状況を示す。前述したように、例えばメモリ状況情報40は、各ノード30のメモリ使用量や、各ノード30におけるメモリ異常の発生回数などを示す。メモリ異常とは、例えば、メモリ不足によるプロセスの起動失敗やプロセスの強制終了などである。
図5及び図6は、メモリ状況情報40をテーブル形式で例示する図である。メモリ状況情報40は、クラスタ20によって対象データ10が処理された際のクラスタ20のメモリの状況について、アプリケーション識別情報41、データ種別42、開始日時43、終了日時44、処理結果45、データ総量46、抽出サイズ47、メモリ使用量48、及びメモリ異常発生回数49という9種類のデータを示す。
アプリケーション識別情報41は、リクエスト元のアプリケーションの識別情報(名称など)を示す。データ種別42は、対象データ10の種類を示す。開始日時43と終了日時44はそれぞれ、クラスタ20による対象データ10の処理が開始された日時と終了した日時を示す。処理結果45は、クラスタ20による対象データ10の処理が正常に終了したか否かを示す。データ総量46は、対象データ10のサイズを示す。抽出サイズ47は、データ入力制御装置2000によって決定された抽出サイズを示す。メモリ使用量48は、各ノード30によるメモリの使用量を示す。メモリ異常発生回数49は、メモリ異常が発生した回数を示す。なお、図6の例において、メモリ異常発生回数49は、各ノード30で発生したメモリ異常の発生回数の合計値を示している。しかしながら、メモリ異常発生回数49は、メモリ異常の発生回数をノード30ごとに示してもよい。
例えばメモリ状況情報40は、メモリの状況を監視するソフトウエア(以下、メモリ監視ソフトウエア)を各ノード30上で動作させることによって生成することができる。メモリ監視ソフトウエアは、例えば、ノード30のメモリ使用量を示す情報を、定期的に、メモリ状況情報生成装置へ送信する。また、メモリ監視ソフトウエアは、ノード30においてメモリ異常が発生したら、メモリ異常の発生日時を示す情報を、メモリ状況情報生成装置へ送信する。メモリ状況情報生成装置は、各ノード30のメモリ監視ソフトウエアから送信されるこれらの情報を利用して、メモリ状況情報40を生成する。なお、メモリ監視ソフトウエアは、能動的にメモリ状況情報生成装置へ各種の情報を送信する代わりに、メモリ状況情報装置からのリクエストに応じて各種の情報を送信してもよい。
<抽出サイズの決定:S102>
サイズ決定部2020は、メモリ状況情報40を利用して抽出サイズを決定する(S102)。ここで、サイズ決定部2020は、記憶部50に格納されているメモリ状況情報40を全て利用してもよいし、記憶部50に格納されているメモリ状況情報40のうちの一部を利用してもよい。
後者の場合において、抽出サイズの決定に利用するメモリ状況情報40を選択する方法は様々である。例えばサイズ決定部2020は、記憶部50から、過去所定期間に生成されたメモリ状況情報40を取得する。その他にも例えば、サイズ決定部2020は、直近所定個のメモリ状況情報40を取得する。その他にも例えば、前述したように特定のアプリケーションからリクエストを受け付けた場合、サイズ決定部2020は、当該アプリケーションの識別情報を示すメモリ状況情報40(すなわち、当該アプリケーションからリクエストされたデータを処理した際におけるクラスタ20についてのメモリ状況情報40)を取得してもよい。その他にも例えば、アプリケーションからのリクエストに対象データ10の種類が示されている場合、サイズ決定部2020は、対象データ10の種類と同じ種類を示すメモリ状況情報40を取得してもよい。
なお、メモリ状況情報40の選択には、複数の条件が利用されてもよい。例えば、「過去所定期間に生成され、かつ、リクエスト元のアプリケーションの識別情報を示し、かつ、対象データ10の種類と同じ種類を示す」などといった条件である。
前述したように、抽出サイズの決定は、サイズ決定モデルを利用して行われる。サイズ決定モデルとしては、任意の機械学習モデル(例えばニューラルネットワークや SVM(support vector machine)など)を利用することができる。
サイズ決定モデルは、例えば、メモリ使用量が入力されたことに応じて抽出サイズを出力するように構成される。なお、抽出サイズの決定に利用するメモリ状況情報40として、複数のメモリ状況情報40が選択された場合、例えばサイズ決定部2020は、これら複数のメモリ状況状況40それぞれが示すメモリ使用量の統計値を算出し、当該統計値をサイズ決定モデルへの入力として利用する。
サイズ決定モデルは、抽出サイズの決定に利用されるメモリ状況情報40よりも過去のメモリ状況情報40を利用して、予め訓練される。例えばデータ入力制御装置2000は、過去のメモリ状況情報40のうち、メモリ異常が発生しなかったケースを示すメモリ状況情報40を正例のデータとして利用して、サイズ決定モデルを訓練する。具体的には、データ入力制御装置2000は、正例のメモリ状況情報40が示すメモリ使用量48を訓練用の入力データとし、なおかつ、そのメモリ状況情報40が示す抽出サイズ47を正解の出力データとして利用して、サイズ決定モデルを訓練する。なお、サイズ決定モデルの訓練には、負例のメモリ状況情報40(すなわち、メモリ異常が発生したケースを示すメモリ状況情報40)がさらに利用されてもよい。
抽出サイズの決定には、メモリ使用量に加え、対象データ10の処理時間がさらに利用されてもよい。この場合、サイズ決定モデルは、メモリ状況情報40によって示されているメモリ使用量及び処理時間(開始日時43と終了日時44との差分)を入力として取得して、抽出サイズを出力する。そのため、サイズ決定モデルの訓練も、過去のメモリ状況情報40が示すメモリ使用量及び処理時間を用いて行われる。
なお、サイズ決定モデルは、繰り返し更新されることが好適である。例えばサイズ決定部2020は、所定の時間が経過する度に、当該所定の時間の間に生成された1つ以上のメモリ状況情報40を利用してサイズ決定モデルの訓練を行うことで、サイズ決定モデルのパラメータ(例えば、ニューラルネットワークにおける各ノード間の重み)を更新する。このようにサイズ決定モデルの更新を繰り返すことにより、サイズ決定モデルの精度を向上させていくことができる。よって、抽出サイズの適切さを向上させていくことができる。
<クラスタ20の制御:S104>
サイズ決定部2020によって抽出サイズが決定されたら、制御部2040は、対象データ10から、そのサイズが抽出サイズと等しい部分データ12を順次抽出し、抽出した部分データ12をクラスタ20に処理させる(S104)。例えば、対象データ10からN個の部分データ12が抽出される場合、データ入力制御装置2000は、クラスタ20にNサイクルの処理を順次実行させる。なお、対象データ10のサイズが抽出サイズの整数倍でない場合、最後の1つの部分データ12については、そのサイズが抽出サイズ未満となる。
ここで、クラスタに特定のデータを処理させる方法には、様々な方法を採用できる。例えば、まず制御部2040は、対象データ10が格納されている記憶部から、1サイクル目の処理に利用する部分データ12を読み出す。言い換えれば、制御部2040は、対象データ10のうち、先頭から抽出サイズ分のデータを読み出す。そして制御部2040は、読み出した部分データ12をクラスタ20に投入することで、クラスタ20に1サイクル目の処理を実行させる。1サイクル目の処理が完了したら、制御部2040は、2サイクル目の部分データ12を記憶部から読み出し、クラスタ20に投入する。制御部2040は、このように部分データ12を順次記憶部から読み出してクラスタ20に投入するという処理を、全てのサイクルが完了するまで繰り返す。
なお、前述したように、部分データ12に対する加工処理は、複数のノード30によって行われる。そのため部分データ12は、複数のデータに分割され、分割されたデータがそれぞれ異なるノード30に投入される。このように部分データ12を分割して各ノード30に投入する処理は、データ入力制御装置2000によって行われてもよいし、データ入力制御装置2000以外の装置によって行われてもよい。例えば、クラスタ20に含まれる複数のノード30を管理する管理装置がデータ入力制御装置2000とは別途設けられている場合、この管理装置が部分データ12を分割し、分割された各データをノード30に投入してもよい。
ここで、サイクルの途中でメモリ異常が発生する可能性がある。クラスタ20におけるメモリ異常の発生は、例えば前述した、ノード30上で動作するメモリ監視ソフトウエアから通知を受信することで把握することができる。或るサイクルでメモリ異常が検出された場合、例えば制御部2040は、そのサイクルでクラスタ20に処理させる部分データ12のサイズを抽出サイズよりも小さくした上で、そのサイクルをクラスタ20にリトライさせる。
例えば、抽出サイズが S であり、m サイクル目でメモリ異常が発生したとする。ここで、m サイクル目における部分データ12は、対象データ10のうち、[m*(S-1),m*s] という範囲のデータとなる。例えば制御部2040は、メモリ異常が発生した m サイクル目で処理させる部分データ12のサイズを、所定割合 r(10%など)だけ小さい S(1-r) に変更する。これにより、m サイクル目でクラスタ20に処理させるデータの範囲は、[m*(S-1),m*(S-1)+S(1-r)]に変更される。
データ入力制御装置2000は、上述のようにサイズを変更した部分データ12をクラスタ20に投入することで、m サイクル目の処理をリトライさせる。メモリ異常が発生することなくリトライが完了したら、クラスタ20による処理は m+1 サイクル目に移行する。
上述した部分データ12のサイズの削減は、メモリ異常が発生したサイクルのみに適用されてもよいし、その後のサイクルにもしばらく適用されてもよい。前者の場合、m+1 サイクル目の処理では、サイズ決定部2020によって決定された抽出サイズを持つ部分データ12がクラスタ20に投入される。この部分データ12の範囲は、[m*(S-1)+S(1-r),m*S+S(1-r)]となる。
メモリ異常が発生したサイクルより後のサイクルにもサイズの削減を適用する場合、例えば、メモリ異常が発生したサイクルだけでなく、その後の所定数のサイクルについても、同様に削減したサイズ(前述の例では S(1-r))の部分データ12が抽出される。なお、メモリ異常が発生したサイクル以後、サイズの削減量を段階的に小さくしてもよい。また、データ入力制御装置2000は、メモリ異常が発生したサイクルより後の所定数のサイクルのそれぞれについて、メモリ異常が発生していないかどうかを判定し、これら所定数のサイクルのいずれにおいてもメモリ異常が発生しなかった場合に、部分データ12のサイズを元のサイズに戻すようにしてもよい。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定部と、
前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御部と、を有し、
前記サイズ決定部は、
前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、
前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する、データ入力制御装置。
(付記2)
前記メモリ状況情報は、データの処理を前記クラスタにリクエストするアプリケーションの識別情報に対応づけて、そのアプリケーションからリクエストされたデータを処理した際における前記クラスタのメモリの状況を示し、
前記サイズ決定部は、前記対象データの処理を前記クラスタにリクエストしたアプリケーションの識別情報を取得し、その識別情報を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、付記1に記載のデータ入力制御装置。
(付記3)
前記メモリ状況情報は、データの種類に対応づけて、その種類のデータを処理した際における前記クラスタのメモリの状況を示し、
前記サイズ決定部は、前記対象データの種類を示す情報を取得し、その種類を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、付記1又は2に記載のデータ入力制御装置。
(付記4)
前記制御部は、前記部分データについての加工処理又は集約処理においてメモリ異常が発生した場合、前記部分データのサイズを前記抽出サイズよりも小さいサイズに変更し、前記変更後の部分データを前記クラスタに処理させる、付記1から3いずれか一項に記載のデータ入力制御装置。
(付記5)
前記メモリ状況情報は、前記クラスタにおいてメモリ異常が検出された回数を示す、付記1から4いずれか一項に記載のデータ入力制御装置。
(付記6)
前記サイズ決定部は、前記取得したメモリ状況情報を用いて前記サイズ決定モデルのパラメータを更新する、付記1から5いずれか一項に記載のデータ入力制御装置。
(付記7)
コンピュータによって実行されるデータ入力制御方法であって、
複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定ステップと、
前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御ステップと、を有し、
前記サイズ決定ステップにおいて、
前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、
前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する、データ入力制御方法。
(付記8)
前記メモリ状況情報は、データの処理を前記クラスタにリクエストするアプリケーションの識別情報に対応づけて、そのアプリケーションからリクエストされたデータを処理した際における前記クラスタのメモリの状況を示し、
前記サイズ決定ステップにおいて、前記対象データの処理を前記クラスタにリクエストしたアプリケーションの識別情報を取得し、その識別情報を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、付記7に記載のデータ入力制御方法。
(付記9)
前記メモリ状況情報は、データの種類に対応づけて、その種類のデータを処理した際における前記クラスタのメモリの状況を示し、
前記サイズ決定ステップにおいて、前記対象データの種類を示す情報を取得し、その種類を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、付記7又は8に記載のデータ入力制御方法。
(付記10)
前記制御ステップにおいて、前記部分データについての加工処理又は集約処理においてメモリ異常が発生した場合、前記部分データのサイズを前記抽出サイズよりも小さいサイズに変更し、前記変更後の部分データを前記クラスタに処理させる、付記7から9いずれか一項に記載のデータ入力制御方法。
(付記11)
前記メモリ状況情報は、前記クラスタにおいてメモリ異常が検出された回数を示す、付記7から10いずれか一項に記載のデータ入力制御方法。
(付記12)
前記サイズ決定ステップにおいて、前記取得したメモリ状況情報を用いて前記サイズ決定モデルのパラメータを更新する、付記7から11いずれか一項に記載のデータ入力制御方法。
(付記13)
コンピュータに、
複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定ステップと、
前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御ステップと、を実行させ、
前記サイズ決定ステップにおいて、
前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、
前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する、プログラム。
(付記14)
前記メモリ状況情報は、データの処理を前記クラスタにリクエストするアプリケーションの識別情報に対応づけて、そのアプリケーションからリクエストされたデータを処理した際における前記クラスタのメモリの状況を示し、
前記サイズ決定ステップにおいて、前記対象データの処理を前記クラスタにリクエストしたアプリケーションの識別情報を取得し、その識別情報を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、付記13に記載のプログラム。
(付記15)
前記メモリ状況情報は、データの種類に対応づけて、その種類のデータを処理した際における前記クラスタのメモリの状況を示し、
前記サイズ決定ステップにおいて、前記対象データの種類を示す情報を取得し、その種類を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、付記13又は14に記載のプログラム。
(付記16)
前記制御ステップにおいて、前記部分データについての加工処理又は集約処理においてメモリ異常が発生した場合、前記部分データのサイズを前記抽出サイズよりも小さいサイズに変更し、前記変更後の部分データを前記クラスタに処理させる、付記13から15いずれか一項に記載のプログラム。
(付記17)
前記メモリ状況情報は、前記クラスタにおいてメモリ異常が検出された回数を示す、付記13から16いずれか一項に記載のプログラム。
(付記18)
前記サイズ決定ステップにおいて、前記取得したメモリ状況情報を用いて前記サイズ決定モデルのパラメータを更新する、付記13から17いずれか一項に記載のプログラム。
10 対象データ
12 部分データ
20 クラスタ
30 ノード
40 メモリ状況情報
41 アプリケーション識別情報
42 データ種別
43 開始日時
44 終了日時
45 処理結果
46 データ総量
47 抽出サイズ
48 メモリ使用量
49 メモリ異常発生回数
50 記憶部
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース
512 ネットワークインタフェース
2000 データ入力制御装置
2020 サイズ決定部
2040 制御部

Claims (8)

  1. 複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定部と、
    前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御部と、を有し、
    前記サイズ決定部は、
    前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、
    前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する、データ入力制御装置。
  2. 前記メモリ状況情報は、データの処理を前記クラスタにリクエストするアプリケーションの識別情報に対応づけて、そのアプリケーションからリクエストされたデータを処理した際における前記クラスタのメモリの状況を示し、
    前記サイズ決定部は、前記対象データの処理を前記クラスタにリクエストしたアプリケーションの識別情報を取得し、その識別情報を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、請求項1に記載のデータ入力制御装置。
  3. 前記メモリ状況情報は、データの種類に対応づけて、その種類のデータを処理した際における前記クラスタのメモリの状況を示し、
    前記サイズ決定部は、前記対象データの種類を示す情報を取得し、その種類を示す前記メモリ状況情報を利用して前記抽出サイズを決定する、請求項1又は2に記載のデータ入力制御装置。
  4. 前記制御部は、前記部分データについての加工処理又は集約処理においてメモリ異常が発生した場合、前記部分データのサイズを前記抽出サイズよりも小さいサイズに変更し、前記変更後の部分データを前記クラスタに処理させる、請求項1から3いずれか一項に記載のデータ入力制御装置。
  5. 前記メモリ状況情報は、前記クラスタにおいてメモリ異常が検出された回数を示す、請求項1から4いずれか一項に記載のデータ入力制御装置。
  6. 前記サイズ決定部は、前記取得したメモリ状況情報を用いて前記サイズ決定モデルのパラメータを更新する、請求項1から5いずれか一項に記載のデータ入力制御装置。
  7. コンピュータによって実行されるデータ入力制御方法であって、
    複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定ステップと、
    前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御ステップと、を有し、
    前記サイズ決定ステップにおいて、
    前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、
    前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する、データ入力制御方法。
  8. コンピュータに、
    複数のノードを利用してデータに対する加工処理及び集計処理を行うクラスタに処理させる対象データについて、データの抽出サイズを決定するサイズ決定ステップと、
    前記対象データから、前記抽出サイズと等しいサイズを持つ複数の部分データを抽出し、各前記部分データを順次前記クラスタに処理させる制御ステップと、を実行させ、
    前記サイズ決定ステップにおいて、
    前記クラスタにおいて過去にデータの加工処理及び集計処理が行われた際における前記クラスタのメモリの状況に関するメモリ状況情報を取得し、
    前記クラスタにおける過去のメモリ使用状況が入力されたことに応じて前記抽出サイズを出力するように訓練されたサイズ決定モデルに対し、前記取得したメモリ状況情報を入力することで、前記抽出サイズを決定する、プログラム。
JP2022025949A 2022-02-22 2022-02-22 データ入力制御装置、データ入力制御方法、及びプログラム Pending JP2023122310A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022025949A JP2023122310A (ja) 2022-02-22 2022-02-22 データ入力制御装置、データ入力制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022025949A JP2023122310A (ja) 2022-02-22 2022-02-22 データ入力制御装置、データ入力制御方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2023122310A true JP2023122310A (ja) 2023-09-01

Family

ID=87799244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022025949A Pending JP2023122310A (ja) 2022-02-22 2022-02-22 データ入力制御装置、データ入力制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2023122310A (ja)

Similar Documents

Publication Publication Date Title
US10051056B2 (en) Resource planning method, system, and apparatus for cluster computing architecture
CN106302780B (zh) 集群设备批量传输数据的方法、装置及系统、服务器
CN113254472B (zh) 一种参数配置方法、装置、设备及可读存储介质
CN111967917B (zh) 预测用户流失的方法以及设备
CN108875035B (zh) 分布式文件系统的数据存储方法及相关设备
CN111125057B (zh) 一种业务请求的处理方法、装置及计算机系统
CN113094125A (zh) 业务流程处理方法、装置、服务器及存储介质
CN110737548A (zh) 数据请求方法和服务器
CN113824995A (zh) 机器人的数据传输方法及装置、电子设备、存储介质
JP2023122310A (ja) データ入力制御装置、データ入力制御方法、及びプログラム
CN112650804A (zh) 大数据接入方法、装置、系统及存储介质
CN116996363A (zh) 一种配电网的故障预警方法及相关装置
CN111324310A (zh) 一种数据的读取方法、装置及计算机系统
CN113869989B (zh) 一种信息处理方法及装置
CN113377295B (zh) 多生产者单消费者的数据存储和读取方法、装置、设备
EP4066117B1 (en) Managing provenance information for data processing pipelines
CN109344049B (zh) 测试数据处理系统的方法和装置
CN114564925A (zh) 报表生成方法、装置、电子设备及可读存储介质
CN114676272A (zh) 多媒体资源的信息处理方法、装置、设备及存储介质
CN112631577A (zh) 一种模型的调度方法、模型调度器以及模型安全测试平台
US11630719B1 (en) System and method for potential system impairment detection
CN113987324B (zh) 一种数据处理方法、装置、设备及存储介质
CN115292339B (zh) 数据库更新方法、装置、电子设备和存储介质
CN113259977B (zh) 一种数据传输系统及其资源配置方法
WO2023035147A1 (en) Data processing method of industry edge product and distributed computing protocol engine thereof