[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7073437B2 - ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体 - Google Patents

ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体 Download PDF

Info

Publication number
JP7073437B2
JP7073437B2 JP2020069754A JP2020069754A JP7073437B2 JP 7073437 B2 JP7073437 B2 JP 7073437B2 JP 2020069754 A JP2020069754 A JP 2020069754A JP 2020069754 A JP2020069754 A JP 2020069754A JP 7073437 B2 JP7073437 B2 JP 7073437B2
Authority
JP
Japan
Prior art keywords
training
hypernetwork
substructure
subnet
multipath neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020069754A
Other languages
English (en)
Other versions
JP2021077322A (ja
Inventor
シャンシャン チュー
ボー チャン
ルイチュン シュー
ビン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Intelligent Technology Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Publication of JP2021077322A publication Critical patent/JP2021077322A/ja
Application granted granted Critical
Publication of JP7073437B2 publication Critical patent/JP7073437B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本願は、2019年11月12日に中国特許局に提出された、出願番号がCN2019111022613である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本開示は、深層学習技術分野に関し、特に、ハイパーネットワークトレーニングの方法および装置、電子機器、記憶媒体に関する。
現在は、既存のニューラルネットワークアーキテクチャ検索(NAS)において、通常、シングルパスニューラルサブネットワークを使用して実現し、つまり、ハイパーネットワーク内の各レイヤから1つのサブモジュールのみをサンプリングし、サンプリングされたサブモジュールを順に直列に接続して、シングルパスニューラルサブネットワークを形成することができる。次に、ハイパーネットワークから各レイヤのサブモジュールのパラメータを共有し、その後、前記シングルパスニューラルサブネットワークに対してシングルステップトレーニングを実行する。前記シングルパスニューラルサブネットワークのトレーニングが完了した後に、各サブモジュールのパラメータをハイパーネットワークに再共有する。このように、ハイパーネットワークトレーニングが収束するまで、「サンプリング-パラメータ共有-シングルステップトレーニング-パラメータ更新」ステップを繰り返す。
上記のニューラルネットワークアーキテクチャ検索の技術案において、各サンプリングによってトレーニングされたシングルパスニューラルサブネットワークでは、サンプリングされたサブモジュールの公平性を確保するために、各レイヤでサンプリングできるサブ構造は1つだけであるが、これはニューラルネットワークの表現能力を制限する。
本開示は、関連技術の欠点を解決するためのハイパーネットワークトレーニングの方法および装置、電子機器、記憶媒体を提供する。
本開示の実施例の第1の態様によれば、ハイパーネットワークトレーニングの方法を提供し、前記方法は、
事前に構築された初期ハイパーネットワークに基づいて、トレーニング用マルチパスニューラルサブネットワーク(Multipath neural subnetwork)を取得することと、
前記トレーニング用マルチパスニューラルサブネットワークをトレーニングして、各トレーニング用マルチパスニューラルサブネットワークにおける各サブ構造の重みパラメータを更新することと、
前記トレーニング用マルチパスニューラルサブネットワークの各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期することと、
前記初期ハイパーネットワークが収束するかどうかを判断し、収束しない場合、事前に構築された初期ハイパーネットワークに基づいてトレーニング用マルチパスニューラルサブネットワークを取得するステップに戻って実行し、収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得することとを含み、
前記事前に構築された初期ハイパーネットワークに基づいて、トレーニング用マルチパスニューラルサブネットワークを取得することは、
事前に構築されたハイパーネットワークの各レイヤについて、前記各レイヤから複数のサブ構造をサンプリングし、前記複数のサブ構造の出力結果を加算するために使用される出力端を追加して、前記複数のサブ構造および前記出力端を含むサブ構造ユニットを取得することと、
前記各レイヤの順序に応じて各サブ構造ユニットを直列に接続して、初期トレーニング用マルチパスニューラルサブネットワークを取得することと、
前記初期ハイパーネットワークおよび初期トレーニング用マルチパスニューラルサブネットワークの同じサブ構造に対して、パラメータ共有を実行して、最終的なトレーニング用マルチパスニューラルサブネットワークを取得することとを含む。
選択的に、前記各レイヤから複数のサブ構造をサンプリングするステップでは、ベルヌーイサンプリング方法を使用してサブ構造を順次にサンプリングし、且つ前記各レイヤの各サブ構造がサンプリングされる確率は均等である。
選択的に、前記トレーニング用マルチパスニューラルサブネットワークをトレーニングすることは、
トレーニングセットの第1の数のトレーニングサンプルを取得することと、
前記トレーニングサンプルを前記トレーニング用マルチパスニューラルサブネットワークに順次に入力して、前記第1の数のトレーニングサンプルがすべて使用されるまで前記トレーニング用マルチパスニューラルサブネットワークをトレーニングすることとを含む。
選択的に、前記方法は、
前記ターゲットハイパーネットワークに基づいて新たに取得された複数のトレーニング用マルチパスニューラルサブネットワークを評価して、評価結果を取得することと、
前記評価結果に従って、設定条件を満たすトレーニング用マルチパスニューラルサブネットワークを決定し、前記トレーニング用マルチパスニューラルサブネットワークをターゲットシナリオに適用することとをさらに含む。
選択的に、前記ターゲットハイパーネットワークに基づいて新たに取得された複数のトレーニング用マルチパスニューラルサブネットワークを評価して、評価結果を取得することは、
前記ターゲットハイパーネットワークに基づいて、複数のトレーニング用マルチパスニューラルサブネットワークを取得することと、
前記ターゲットハイパーネットワーク内の各サブ構造の重みパラメータを、前記トレーニング用マルチパスニューラルサブネットワーク内の対応するサブ構造に共有することと、
前記複数のトレーニング用マルチパスニューラルサブネットワークを評価して、各トレーニング用マルチパスニューラルサブネットワークの評価結果を取得することとを含む。
選択的に、前記ターゲットシナリオは、画像の分類、ターゲットの検出、セマンティックセグメンテーション(Semantic segmentation)、テキストから音声への変換、自然言語の翻訳、音声の強調のうちの少なくとも1つを含むが、これらに限定されない。
本開示の実施例の第2の態様によれば、ハイパーネットワークトレーニング装置を提供し、前記装置は、
事前に構築された初期ハイパーネットワークに基づいてトレーニング用マルチパスニューラルサブネットワークを取得するように構成されるサブネットワーク取得モジュールと、
前記トレーニング用マルチパスニューラルサブネットワークをトレーニングして、各トレーニング用マルチパスニューラルサブネットワークにおける各サブ構造の重みパラメータを更新するように構成されるサブネットワークトレーニングモジュールと、
前記トレーニング用マルチパスニューラルサブネットワーク内の各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期するように構成される重みパラメータ同期モジュールと、
前記初期ハイパーネットワークが収束するかどうかを判断し、前記初期ハイパーネットワークが収束しない場合、前記サブネットワーク取得モジュールをトリガーし、前記初期ハイパーネットワークが収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得するように構成されるハイパーネットワーク取得モジュールとを含み、
前記サブネットワーク取得モジュールは、
事前に構築されたハイパーネットワークの各レイヤについて、前記各レイヤから複数のサブ構造をサンプリングし、前記複数のサブ構造の出力結果を加算するために使用される出力端を追加して、前記複数のサブ構造および前記出力端を含むサブ構造ユニットを取得するように構成されるサブ構造取得ユニットと、
前記各レイヤの順序に応じて各サブ構造ユニットを直列に接続して、初期トレーニング用マルチパスニューラルサブネットワークを取得するように構成されるサブ構造直列ユニットと、
前記初期ハイパーネットワークおよび初期トレーニング用マルチパスニューラルサブネットワークの同じサブ構造に対して、パラメータ共有を実行して、最終的なトレーニング用マルチパスニューラルサブネットワークを取得するように構成されるパラメータ共有ユニットとを含む。
記サブ構造取得ユニットは、ベルヌーイサンプリング方法を使用してサブ構造を順次にサンプリングするように構成され、前記各レイヤの各サブ構造がサンプリングされる確率は均等である。
選択的に、前記サブネットワークトレーニングモジュールは、
トレーニングセットの第1の数のトレーニングサンプルを取得するように構成されるトレーニングサンプル取得ユニットと、
前記トレーニングサンプルを前記トレーニング用マルチパスニューラルサブネットワークに順次に入力して、前記第1の数のトレーニングサンプルがすべて使用されるまで前記トレーニング用マルチパスニューラルサブネットワークをトレーニングするように構成されるサブネットワークトレーニングユニットとを含む。
選択的に、前記装置は、さらに、
前記ターゲットハイパーネットワークに基づいて新たに取得された複数のトレーニング用マルチパスニューラルサブネットワークを評価して、評価結果を取得するように構成される評価結果取得モジュールと、
前記評価結果に従って、設定条件を満たすトレーニング用マルチパスニューラルサブネットワークを決定し、前記トレーニング用マルチパスニューラルサブネットワークをターゲットシナリオに適用するように構成されるターゲットシナリオ決定モジュールとを含む。
選択的に、前記評価結果取得モジュールは、
前記ターゲットハイパーネットワークに基づいて、複数のトレーニング用マルチパスニューラルサブネットワークを取得するように構成されるサブネットワーク取得ユニットと、
前記ターゲットハイパーネットワーク内の各サブ構造の重みパラメータを、前記トレーニング用マルチパスニューラルサブネットワーク内の対応するサブ構造に共有するように構成されるパラメータ共有ユニットと、
前記複数のトレーニング用マルチパスニューラルサブネットワークに対して評価して、各トレーニング用マルチパスニューラルサブネットワークの評価結果を取得するように構成されるサブネットワーク評価ユニットとを含む。
本開示の実施例の第3の態様によれば、電子機器を提供し、前記機電子機器は、
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するように構成されるメモリとを含み、
前記プロセッサは、前記メモリ内の実行可能な命令を実行して、上記に記載の方法を実現するように構成される。
本開示の実施例の第4の態様によれば、実行可能な命令を記憶するように構成される読み取り可能な記憶媒体を提供し、前記実行可能な命令がプロセッサによって実行されると、上記に記載の方法が実現される。
本開示の実施例によって提供される技術的解決策は、以下の有益な効果を含み得る。
上記した技術的解決策からわかるように、本開示の実施例において、マルチパスニューラルサブネットワークが取得し、次に、前記マルチパスニューラルサブネットワークをトレーニングすることにより、各サブ構造の重みパラメータを更新し、その後、前記マルチパスニューラルサブネットワークの各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期し、最後に、ハイパーネットワークが収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得する。このように、シングルパス表現能力に限界がある場合、本実施例のマルチパスニューラルサブネットワークを使用してハイパーネットワークをトレーニングすることは、ハイパーネットワークの表現能力を向上させるのに有益である。
上記の一般的な説明および後述する詳細な説明は、単なる例示および説明的であり、本開示を限定するものではないことを理解されたい。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の原理を説明するために使用される。
一例示的な実施例によって示されるハイパーネットワークトレーニングの方法のフローチャートである。 一例示的な実施例によって示されるハイパーネットワークの概略的な構造図である。 一例示的な実施例によって示されるマルチパスニューラルサブネットワークを取得するフローチャートである。 一例示的な実施例によって示されるサンプリングされたサブ構造の概略図である。 一例示的な実施例によって示されるパラメータ共有の概略図である。 一例示的な実施例によって示されるマルチパスニューラルサブネットワークをトレーニングするフローチャートである。 一例示的な実施例によって示されるハイパーネットワークに重みパラメータを同期する概略図である。 一例示的な実施例によって示されるマルチパスニューラルサブネットワークを評価するフローチャートである。 一例示的な実施例によって示されるハイパーネットワークトレーニング装置のブロック図である。 一例示的な実施例によって示される電子機器のブロック図である。
ここで、例示的な実施例について詳細に説明し、その例を添付の図面に示す。特に明記しない限り、以下の説明が添付の図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。逆に、これらは、添付の特許請求の範囲に詳述されるように、本開示のいくつかの態様と一致する装置の例にすぎない。
現在は、既存のニューラルネットワークアーキテクチャ検索(NAS)において、通常、シングルパスニューラルサブネットワークを使用して実現し、つまり、ハイパーネットワーク内の各レイヤから1つのサブモジュールのみをサンプリングし、サンプリングされたサブモジュールを順に直列に接続して、シングルパスニューラルサブネットワークを形成することができる。次に、ハイパーネットワークから各レイヤのサブモジュールのパラメータを共有し、その後、前記シングルパスニューラルサブネットワークに対してシングルステップトレーニングを実行する。前記シングルパスニューラルサブネットワークのトレーニングが完了した後に、各サブモジュールのパラメータをハイパーネットワークに再共有する。このように、ハイパーネットワークトレーニングが収束するまで、「サンプリング-パラメータ共有-シングルステップトレーニング-パラメータ更新」ステップを繰り返す。
上記のニューラルネットワークアーキテクチャ検索の技術案において、各サンプリングによってトレーニングされたシングルパスニューラルサブネットワークでは、サンプリングされたサブモジュールの公平性を確保するために、各レイヤでサンプリングできるサブ構造は1つだけであるが、これはニューラルネットワークの表現能力を制限する。
上記した技術的課題を解決するために、本開示の実施例はハイパーネットワークトレーニングの方法を提供し、図1は、一例示的な実施例によって示されるハイパーネットワークトレーニングの方法のフローチャートである。ハイバーネットワークトレーニング方法は、画像の分類、ターゲットの検出、セマンティックセグメンテーション(Semantic segmentation)、テキストから音声への変換、自然言語の翻訳、音声の強調のうちの少なくとも1つのターゲットシナリオに適用することができるが、ここでは限定されないことに留意されたい。図1を参照すると、ハイパーネットワークトレーニングの方法はステップ101ないしステップ104を含む。
ステップ101において、事前に構築された初期ハイパーネットワークに基づいて、マルチパスニューラルサブネットワークを取得する。
本実施例において、事前に1つのハイパーネットワークを構築することができ、ハイパーネットワークは、図2に示されるようである。ここで、ハイパーネットワークは、すべての検索ネットワーク構造スペースを含むネットワークを指す。前記ハイパーネットワークは、複数のレイヤを含み、各レイヤは複数の選択可能なサブ構造を含む。図2を参照すると、図2に示されるハイパーネットワークは、最初の4つのレイヤのみを示し、ここで、第2のレイヤは複数のサブ構造を含み、サブ構造A、サブ構造Bおよびサブ構造Cのみが示される。
各サブ構造は、畳み込み、プーリングなどの選択的な演算子をいくつかを含み、各演算子は、ハイパーパラメータ(畳み込みサイズ、畳み込みステップサイズなど)および重みパラメータを含む。前記ハイパーネットワークは、関連技術の構築方法に従って構築を実行することができるが、ここでは詳細に説明しない。
ハイパーネットワークを構築した後、関連技術の初期化方法を使用して、前記重みパラメータの値を初期化し、例えば、ゼロ値初期化、ランダム初期化またはHe initializationなどであり、ここでは限定しない。もちろん、前記ハイパーネットワークは、前にトレーニングした重みパラメータを今回のトレーニングの初期化後の重みパラメータの値として利用することができるため、初期化後のハイパーネットワーク、即ち、初期ハイパーネットワークを取得することができる。
本実施例において、事前に構築された初期ハイパーネットワークに基づいて、マルチパスニューラルサブネットワークを取得することができ、図3を参照すると、事前に構築されたハイパーネットワークの各レイヤについて、各レイヤから少なくとも1つのサブ構造をサンプリングし、少なくとも1つのサブ構造の出力結果を加算するために使用される出力端を追加して、少なくとも1つのサブ構造および前記出力端を含むサブ構造ユニット(図3のステップ301に対応する)を取得する。ここで、説明の便宜上、本実施例では、少なくとも1つのサブ構造と出力端を1つのサブ構造ユニットとして説明するが、実際の応用では、サブ構造ユニットを分割するステップを追加する必要がない。
トレーニングプロセス中に、各レイヤのサブ構造のサンプリングプロセスと他のレイヤのサブ構造のサンプリングプロセスは互いに独立し、同じレイヤの各サブ構造のサンプリングも互いに独立することを留意されたい。本例示では、サンプリング方法としてベルヌーイサンプリング方法を使用し、各サブ構造がアクティブ化または非アクティブ化される確率は同じであり、つまり、サンプリングプロセス中に、サブ構造は、サンプリングされ、またはサンプリングされない2つの状態があるため、サンプリングされた各サブ構造の公平性を確保し、さらに、トレーニング効果の安定性を確保する。
図4を参照すると、例えば、第2のレイヤから3つのサブ構造をサンプリングし、即ち、サブ構造A、サブ構造B、およびサブ構造Cであり、3つのサブ構造の出力は、出力端(図4では「+」を使用して出力端を表す)に接続される。前記出力端は、3つのサブ構造の出力結果を加算し、加算した結果を次のレイヤの各サブ構造の入力データとして使用するため、各レイヤの入力データの次元を減らし、計算量を削減することができる。
本実施例では、同じレイヤのサブ構造によって出力されるデータの次元は、原則として同じであるべきが、次元が異なる場合、低次元で設定値(0など)を補充して、同じレイヤのすべてサブ構造の次元を同じにして、同じレイヤのデータを加算する効果を確保する。もちろん、畳み込みカーネルは、次元の役割を増加または減少し得ることを考慮すると、各サブ構造で1*1畳み込みカーネルを設置することもできるため、すべてのサブ構造の出力データ次元を同じにし、対応する技術案は本開示の保護範囲に入る。
そして、前記各レイヤの順序に従って各サブ構造ユニットを直列に接続して、初期マルチパスニューラルサブネットワーク(図3のステップ302に対応する)を取得する。実際の応用では、各レイヤのサブ構造を前のレイヤのサブ構造ユニットの出力端に接続することができ、つまり、同じレイヤの各サブ構造の入力データは同じである。理解できることとして、各レイヤは少なくとも1つのサブ構造を含むため、直列に接続されたサブネットワークの入力端から出力端まで複数のパスが存在するため、マルチパスニューラルサブネットワークと呼ばれる。
そして、初期ハイパーネットワークおよび初期マルチパスニューラルサブネットワークの同じサブ構造に対してパラメータ共有を実行して、最終的なマルチパスニューラルサブネットワーク(図3のステップ303に対応する)を取得する。ここで、パラメータ共有とは、マルチパスニューラルサブネットワーク内の各サブ構造の重みパラメータが、ハイパーネットワーク内の対応するサブ構造の重みパラメータと同じであることを指す。図5を参照すると、パラメータ共有プロセスでは、ハイパーネットワークの第2のレイヤのサブ構造Aの重みパラメータをマルチパスニューラルの第2のレイヤのサブ構造Aに共有し、ハイパーネットワークの第2のレイヤのサブ構造Bの重みパラメータをマルチパスニューラルの第2のレイヤのサブ構造Bに共有し、ハイパーネットワークの第2のレイヤのサブ構造Cの重みパラメータをマルチパスニューラルの第2のレイヤのサブ構造Cに共有する。上記のステップを繰り返すると、マルチパスニューラルサブネットワークのすべてのサブ構造に重みパラメータの割り当てを実行し得る。
ステップ102において、前記マルチパスニューラルサブネットワークをトレーニングして、各サブ構造の重みパラメータを更新する。
本実施例において、事前にトレーニングセットを設定することができ、前記トレーニングセットは、一定数のトレーニングサンプルを含み、一定数は、例えば、数万から数十万まで、具体的なシナリオに従って設定することができ、ここでは限定されない。一実施例では、トレーニングセット内のトレーニングサンプルをグループ化されてもよく、各グループには、第1の数のトレーニングサンプルが含まれ、ここで、第1の数は、数千のトレーニングサンプルであり得るため、毎回のトレーニングに使用されるサンプル数を減らし、トレーニング効率を向上させることに役立つ。実際の応用では、トレーニングセット内のすべてのサンプルを使用してトレーニングして、1つのEpoch(1ラウンドのトレーニングとして理解できる)を完了する。トレーニングセットには、20000個のトレーニングサンプルが含まれると仮定すると、batch size(グループのサイズとして理解できる)の値は100である場合、トレーニングセットのbatchの数(グループの数として理解できる)は、20000/100=200であるため、各Epochが完了する必要があるbatchの個数は200である。つまり、各マルチパスニューラルサブネットワークは、1つのEpochを完了するため、100個のトレーニングサンプルを使用して200個のマルチパスニューラルサブネットワークをトレーニングする必要がある。
本実施例において、上記のトレーニングサンプルを使用して、マルチパスニューラルサブネットワークをトレーニングし、例えば、シングルステップトレーニングをトレーニングすることができる。図6を参照すると、トレーニングセット内の第1の数のトレーニングサンプルを取得する(図6のステップ601に対応する)ことができる。そして、トレーニングサンプルを順次にマルチパスニューラルサブネットワークに入力して、第1の数のトレーニングサンプルがすべて使用されるまで前記マルチパスニューラルサブネットワークをトレーニングする(図6のステップ602に対応する)。マルチパスニューラルサブネットワークをトレーニングするプロセスでは、トレーニングサンプルは、トレーニングセットの一部であり、即ち、各サブ構造の重みパラメータを変更させることができればよく、トレーニング時間を短縮することができ、また、マルチパスニューラルサブネットワークをトレーニングする場合、マルチパスニューラルサブネットワークの収束を確保する必要がないため、トレーニング時間を短縮し、トレーニング効率を向上させることに留意されたい。
異なるマルチパスニューラルサブネットワークは、異なるトレーニングサンプルを使用してトレーニングすることができ、例えば、トレーニングセットは、10個のグループに分けられることができ、1つのマルチパスニューラルサブネットワークをトレーニングするごとに、1つのグループのトレーニングサンプルを使用してトレーニングし、トレーニング回数が十分に多い場合、各パスを十分にトレーニングすることができるため、ハイパーネットワークの表現能力を向上させることに役立つことに留意されたい。加えて、ハイパーネットワークが収束した後、サンプリングされたシングルパスニューラルサブネットワークの表現能力は、関連技術のシングルパスニューラルサブネットワークよりも優れる。
ステップ103において、前記マルチパスニューラルサブネットワークの各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期する。
本実施例において、トレーニングされたマルチパスニューラルサブネットワークの各サブ構造の重みパラメータを初期ハイパーネットワークに同期することができる。理解できることとして、前記重みパラメータの同期プロセスは、ステップ303におけるパラメータ共有の逆プロセスとして理解することができ、効果は図7に示すようである。このように、実質的にハイパーネットワークに対して重みパラメータの更新を完了し、間接的にハイパーネットワークをトレーニングする効果を達成する。
ステップ104において、前記初期ハイパーネットワークが収束するかどうかを判断し、収束しない場合、事前に構築された初期ハイパーネットワークに基づいてマルチパスニューラルサブネットワークを取得するステップに戻って実行し、収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得する。
本実施例において、重みパラメータの値を更新するたびに、初期ハイパーネットワークが収束しているかどうかを判断することができ、収束しない場合、ステップ101に戻り、即ち、事前に構築された初期ハイパーネットワークに基づいてマルチパスニューラルサブネットワークを取得するステップを継続して実行し、収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得する。例えば、損失関数の値が、設定された閾値より小さいか等しいかどうかを判断することができ、より大きい場合、初期ハイパーネットワークが収束しないことを意味し、ステップ101にジャンプし、より小さいか等しい場合、初期ハイパーネットワークが収束することを意味し、現在の初期ハイパーネットワークをターゲットハイパーネットワークとする。
一実施例において、ターゲットハイパーネットワークを取得した後、適用されるターゲットシナリオと組み合わせると、ハイパーネットワークトレーニングの方法は、マルチパスニューラルサブネットワークを評価するステップをさらに含み得る。図8を参照すると、図3に示す実施例の内容によれば、ターゲットハイパーネットワークに基づいて複数のマルチパスニューラルサブネットワークを取得することができ、前記ターゲットハイパーネットワークの各サブ構造の重みパラメータを前記マルチパスニューラルサブネットワークの対応するサブ構造に共有する。そして、新たに取得された複数のマルチパスニューラルサブネットワークを評価して、評価結果を取得する(図8のステップ801に対応する)。そして、評価結果に従って、設定条件を満たすマルチパスニューラルサブネットワークを決定し、前記マルチパスニューラルサブネットワークをターゲットシナリオに適用する(図8のステップ802に対応する)。
上記のターゲットシナリオは、画像の分類、ターゲットの検出、セマンティックセグメンテーション、テキストから音声への変換、自然言語の翻訳、音声の強調のうちの少なくとも1つを含むが、これらに限定されないことに留意されたい。技術者は、具体的なシナリオに従ってターゲットシナリオを設置することができる。
ターゲットハイパーネットワークからサンプリングされたマルチパスニューラルサブネットワークは、ターゲットシナリオに適用されることを考慮すると、評価インデックスを設計することは、ターゲットシナリオについての相対的な指標であり得ることに留意されたい。例えば、少数のデータセットで、低解像度でトレーニングされたモデルの精度、または少数のepochのトレーニング後のモデルの精度は、相対指標に対応する評価結果に基づいて、任意の複数のマルチパスニューラルネットワークの最適なマルチパスニューラルネットワークを決定することができ、その後に前記最適なマルチパスニューラルネットワークをターゲットシナリオに適用する。言い換えれば、設定条件は、複数のマルチパスニューラルサブネットワークの評価結果の最適値を指し得る。
ここまで、本開示の実施例において、マルチパスニューラルサブネットワークが取得し、次に、前記マルチパスニューラルサブネットワークをトレーニングすることにより、各サブ構造の重みパラメータを更新し、その後、前記マルチパスニューラルサブネットワークの各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期し、最後に、ハイパーネットワークが収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得する。このように、シングルパス表現能力に限界がある場合、本実施例のマルチパスニューラルサブネットワークを使用してハイパーネットワークをトレーニングすることは、ハイパーネットワークの表現能力を向上させるのに有益である。
本開示の実施例によって提供される技術的解決策を詳細に説明するために、以下の実施例を提供する。
画像の分類を例として、画像トレーニングセットDは、N個のbatchに分割でき、各batchは、M個の画像データを含み、各画像データは1つの分類ラベルに対応し、K種類の分類があると仮定する。そして、前記画像トレーニングセットおよび前述のハイパーネットワークトレーニングの方法を使用して、ハイパーネットワークをトレーニングする。トレーニングした後、収束されたハイパーネットワークを取得することができる。
次に、前記ハイパーネットワークからマルチパスニューラルサブネットワークをサンプリングし、ハイパーネットワークで各サブ構造のパラメータを共有することにより、各マルチパスニューラルサブネットワークが画像トレーニングセット上の性能指標を取得する。
さらに、性能指標に従って、マルチパスニューラルサブネットワークから画像分類タスクシナリオに適用されるサブネットワークを選択して、実際のシナリオで最終的に使用されるモデルとする。
他の画像、音声、および自然言語処理のタスクにおいて、画像の分類との違いは、音声トレーニングセットおよび性能指標評価方法を置き換えることであり、残りのプロセスは、上記の画像の分類モデルの取得方法と同様であり、最終的に実際のシナリオで使用される画像、音声、および自然言語処理のモデルを取得することであるため、ここでは繰り返しないことに留意されたい。
図9は、一例示的な実施例によって示されるハイパーネットワークトレーニング装置のブロック図である。図9を参照すると、ハイパーネットワークトレーニング装置であって、
事前に構築された初期ハイパーネットワークに基づいてマルチパスニューラルサブネットワークを取得するように構成されるサブネットワーク取得モジュール901と、
前記マルチパスニューラルサブネットワークをトレーニングして、各サブ構造の重みパラメータを更新するように構成されるサブネットワークトレーニングモジュール902と、
前記マルチパスニューラルサブネットワーク内の各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期するように構成される重みパラメータ同期モジュール903と、
前記初期ハイパーネットワークが収束するかどうかを判断し、前記初期ハイパーネットワークが収束しない場合、前記サブネットワーク取得モジュールをトリガーし、前記初期ハイパーネットワークが収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得するように構成されるハイパーネットワーク取得モジュール904とを含む。
図10は、一例示的な実施例によって示されるハイパーネットワークトレーニング装置のブロック図であり、図9に示されるハイパーネットワークトレーニング装置に基づいて、図10を参照すると、前記サブネットワーク取得モジュール901は、
事前に構築されたハイパーネットワークの各レイヤについて、前記各レイヤから少なくとも1つのサブ構造をサンプリングし、前記少なくとも1つのサブ構造の出力結果を加算するために使用される出力端を追加して、前記少なくとも1つのサブ構造および前記出力端を含むサブ構造ユニットを取得するように構成されるサブ構造取得ユニット1001と、
前記各レイヤの順序に応じて各サブ構造ユニットを直列に接続して、初期マルチパスニューラルサブネットワークを取得するように構成されるサブ構造直列ユニット1002と、
前記初期ハイパーネットワークおよび初期マルチパスニューラルサブネットワークの同じサブ構造に対して、パラメータ共有を実行して、最終的なマルチパスニューラルサブネットワークを取得するように構成されるパラメータ共有ユニット1003とを含む。
一実施例において、前記サブ構造取得ユニット1001は、ベルヌーイサンプリング方法を使用してサブ構造を順次にサンプリングするように構成され、前記各レイヤの各サブ構造がサンプリングされる確率は均等である。
図11は、一例示的な実施例によって示されるハイパーネットワークトレーニング装置のブロック図であり、図9に示されるハイパーネットワークトレーニング装置に基づいて、図11を参照すると、前記サブネットワークトレーニングモジュール902は、
トレーニングセットの第1の数のトレーニングサンプルを取得するように構成されるトレーニングサンプル取得ユニット1101と、
前記トレーニングサンプルを前記マルチパスニューラルサブネットワークに順次に入力して、前記第1の数のトレーニングサンプルがすべて使用されるまで前記マルチパスニューラルサブネットワークをトレーニングするように構成されるサブネットワークトレーニングユニット1102とを含む。
図12は、一例示的な実施例によって示されるハイパーネットワークトレーニング装置のブロック図であり、図9に示されるハイパーネットワークトレーニング装置に基づいて、図12を参照すると、前記装置は、
前記ターゲットハイパーネットワークに基づいて、新たに取得された複数のマルチパスニューラルサブネットワークを評価して、評価結果を取得するように構成される評価結果取得モジュール1201と、
前記評価結果に従って、設定条件を満たすマルチパスニューラルサブネットワークを決定し、前記マルチパスニューラルサブネットワークをターゲットシナリオに適用するように構成されるターゲットシナリオ決定モジュール1202を含む。
図13は、一例示的な実施例によって示されるハイパーネットワークトレーニング装置のブロック図であり、図12に示されるハイパーネットワークトレーニング装置に基づいて、評価結果取得モジュール1201は、
前記ターゲットハイパーネットワークに基づいて、複数のマルチパスニューラルサブネットワークを取得するように構成されるサブネットワーク取得ユニット1301と、
前記ターゲットハイパーネットワーク内の各サブ構造の重みパラメータを、前記マルチパスニューラルサブネットワーク内の対応するサブ構造に共有するように構成されるパラメータ共有ユニット1302と、
前記複数のマルチパスニューラルサブネットワークに対して評価して、各マルチパスニューラルサブネットワークの評価結果を取得するように構成されるサブネットワーク評価ユニット1303とを含む。
上記の実施例の装置に関して、各モジュールが操作を実行する具体的な方法は、前記方法の実施例で詳細に説明され、ここでは詳細に説明しない。
ここまで、本開示の実施例において、マルチパスニューラルサブネットワークが取得し、次に、前記マルチパスニューラルサブネットワークをトレーニングすることにより、各サブ構造の重みパラメータを更新し、その後、前記マルチパスニューラルサブネットワークの各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期し、最後に、ハイパーネットワークが収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得する。このように、シングルパス表現能力に限界がある場合、本実施例のマルチパスニューラルサブネットワークを使用してハイパーネットワークをトレーニングすることは、ハイパーネットワークの表現能力を向上させるのに有益である。
図14は、一例示的な実施例によって示される電子機器のブロック図である。例えば、電子機器1400は、スマートフォン、コンピュータ、デジタル放送端末、タブレット機器、医療機器、フィットネス機器、携帯情報端末などであってもよい。
図14を参照すると、電子機器1400は、処理コンポーネント1402、メモリ1404、電力コンポーネント1406、マルチメディアコンポーネント1408、オーディオコンポーネント1410、入力/出力(I/O)インターフェース1412、センサコンポーネント1414、通信コンポーネント1416、および画像取得コンポーネント1418の1つまたは複数を含むことができる。
処理コンポーネント1402は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような電子機器1400の全般的な操作を制御する。処理コンポーネント1402は、命令を実行するように、1つまたは複数のプロセッサ1420を含むことができる。加えて、処理コンポーネント1402は、処理コンポーネント1402と他のコンポーネントの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント1402は、マルチメディアコンポーネント1408と処理コンポーネント1402の間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
メモリ1404は、電子機器1400での操作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器1400で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ1404は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって具現されることができる。
電力コンポーネント1406は、電子機器1400の様々なコンポーネントに電力を提供する。電力コンポーネント1406は、電力管理システム、1つまたは複数の電源、及び電子機器1400のための電力の生成、管理および割り当てに関する他のコンポーネントを含むことができる。
マルチメディアコンポーネント1408は、前記電子機器1400と目標対象との間の出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、目標対象からの入力信号を受信するためのタッチスクリーンとして具現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを感知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ操作の境界を感知するだけでなく、前記タッチまたはスワイプ操作に関連する持続時間及び圧力も検出することができる。
オーディオコンポーネント1410は、オーディオ信号を出力及び/または入力するように構成される。例えば、オーディオコンポーネント1410は、1つのマイクロフォン(MIC)を含み、電子機器1400が通話モード、録音モード及び音声認識モードなどの動作モードである場合、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらに、メモリ1404に記憶されてもよく、または通信コンポーネント1416によって送信されてもよい。いくつかの実施例において、オーディオコンポーネント1410は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース1412は、処理コンポーネント1402と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。
センサコンポーネント1414は、電子機器1400に各態様の状態評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント1414は、電子機器1400のオン/オフ状態、コンポーネントの相対的な位置を検出することができ、前記ンポーネントは、電子機器1400のディスプレイやキーパッドなどであり、センサコンポーネント1414は、電子機器1400または1つのコンポーネントの位置の変化、目標対象と電子機器1400との接触の有無、電子機器1400の方位または加速/減速、及び電子機器1400の温度の変化も検出することができる。
通信コンポーネント1416は、電子機器1400と他の機器の間の有線または無線方式の通信を容易にするように構成される。電子機器1400は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント1416は、放送チャンネルによって外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント1416は、短距離通信を促進するための近距離通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて具現されることができる。
例示的な実施例において、電子機器1400は、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができる。
当業者は、明細書を考慮して、本明細書に開示される発明を実施した後、本開示の他の実施形態を容易に想到し得るであろう。本開示は、前記各実施例のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の実施例の真の範囲及び思想は添付の特許請求の範囲によって示される。
本開示は、上記に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims (13)

  1. ハイパーネットワークトレーニングの方法であって、
    事前に構築された初期ハイパーネットワークに基づいて、トレーニング用マルチパスニューラルサブネットワークを取得することと、
    前記トレーニング用マルチパスニューラルサブネットワークをトレーニングして、各トレーニング用マルチパスニューラルサブネットワークにおける各サブ構造の重みパラメータを更新することと、
    前記トレーニング用マルチパスニューラルサブネットワークの各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期することと、
    前記初期ハイパーネットワークが収束するかどうかを判断し、収束しない場合、事前に構築された初期ハイパーネットワークに基づいてトレーニング用マルチパスニューラルサブネットワークを取得するステップに戻って実行し、収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得することとを含み、
    前記事前に構築された初期ハイパーネットワークに基づいて、トレーニング用マルチパスニューラルサブネットワークを取得することは、
    事前に構築されたハイパーネットワークの各レイヤについて、前記各レイヤから複数のサブ構造をサンプリングし、前記複数のサブ構造の出力結果を加算するために使用される出力端を追加して、前記複数のサブ構造および前記出力端を含むサブ構造ユニットを取得することと、
    前記各レイヤの順序に応じて各サブ構造ユニットを直列に接続して、初期トレーニング用マルチパスニューラルサブネットワークを取得することと、
    前記初期ハイパーネットワークおよび初期トレーニング用マルチパスニューラルサブネットワークの同じサブ構造に対して、パラメータ共有を実行して、最終的なトレーニング用マルチパスニューラルサブネットワークを取得することとを含むことを特徴とする、
    ハイパーネットワークトレーニングの方法。
  2. 前記各レイヤから複数のサブ構造をサンプリングするステップでは、ベルヌーイサンプリング方法を使用してサブ構造を順次にサンプリングし、且つ前記各レイヤの各サブ構造がサンプリングされる確率は均等であることを特徴とする、
    請求項1に記載のハイパーネットワークトレーニングの方法。
  3. 前記トレーニング用マルチパスニューラルサブネットワークをトレーニングすることは、
    トレーニングセットの第1の数のトレーニングサンプルを取得することと、
    前記トレーニングサンプルを前記トレーニング用マルチパスニューラルサブネットワークに順次に入力して、前記第1の数のトレーニングサンプルがすべて使用されるまで前記トレーニング用マルチパスニューラルサブネットワークをトレーニングすることとを含むことを特徴とする、
    請求項1に記載のハイパーネットワークトレーニングの方法。
  4. 前記方法は、
    前記ターゲットハイパーネットワークに基づいて新たに取得された複数のトレーニング用マルチパスニューラルサブネットワークを評価して、評価結果を取得することと、
    前記評価結果に従って、設定条件を満たすトレーニング用マルチパスニューラルサブネットワークを決定し、前記トレーニング用マルチパスニューラルサブネットワークをターゲットシナリオに適用することとをさらに含むことを特徴とする、
    請求項1に記載のハイパーネットワークトレーニングの方法。
  5. 前記ターゲットハイパーネットワークに基づいて新たに取得された複数のトレーニング用マルチパスニューラルサブネットワークを評価して、評価結果を取得することは、
    前記ターゲットハイパーネットワークに基づいて、複数のトレーニング用マルチパスニューラルサブネットワークを取得することと、
    前記ターゲットハイパーネットワーク内の各サブ構造の重みパラメータを、前記トレーニング用マルチパスニューラルサブネットワーク内の対応するサブ構造に共有することと、
    前記複数のトレーニング用マルチパスニューラルサブネットワークを評価して、各トレーニング用マルチパスニューラルサブネットワークの評価結果を取得することとを含むことを特徴とする、
    請求項4に記載のハイパーネットワークトレーニングの方法。
  6. 前記ターゲットシナリオは、画像の分類、ターゲットの検出、セマンティックセグメンテーション、テキストから音声への変換、自然言語の翻訳、音声の強調のうちの少なくとも1つを含むことを特徴とする、
    請求項4に記載のハイパーネットワークトレーニングの方法。
  7. ハイパーネットワークトレーニング装置であって、
    前記装置は、
    事前に構築された初期ハイパーネットワークに基づいてトレーニング用マルチパスニューラルサブネットワークを取得するように構成されるサブネットワーク取得モジュールと、
    前記トレーニング用マルチパスニューラルサブネットワークをトレーニングして、各トレーニング用マルチパスニューラルサブネットワークにおける各サブ構造の重みパラメータを更新するように構成されるサブネットワークトレーニングモジュールと、
    前記トレーニング用マルチパスニューラルサブネットワーク内の各サブ構造の重みパラメータを前記初期ハイパーネットワークに同期するように構成される重みパラメータ同期モジュールと、
    前記初期ハイパーネットワークが収束するかどうかを判断し、前記初期ハイパーネットワークが収束しない場合、前記サブネットワーク取得モジュールをトリガーし、前記初期ハイパーネットワークが収束する場合、トレーニングを終了し、ターゲットハイパーネットワークを取得するように構成されるハイパーネットワーク取得モジュールとを含み、
    前記サブネットワーク取得モジュールは、
    事前に構築されたハイパーネットワークの各レイヤについて、前記各レイヤから複数のサブ構造をサンプリングし、前記複数のサブ構造の出力結果を加算するために使用される出力端を追加して、前記複数のサブ構造および前記出力端を含むサブ構造ユニットを取得するように構成されるサブ構造取得ユニットと、
    前記各レイヤの順序に応じて各サブ構造ユニットを直列に接続して、初期トレーニング用マルチパスニューラルサブネットワークを取得するように構成されるサブ構造直列ユニットと、
    前記初期ハイパーネットワークおよび初期トレーニング用マルチパスニューラルサブネットワークの同じサブ構造に対して、パラメータ共有を実行して、最終的なトレーニング用マルチパスニューラルサブネットワークを取得するように構成されるパラメータ共有ユニットとを含むことを特徴とする、
    ハイパーネットワークトレーニング装置。
  8. 前記サブ構造取得ユニットは、ベルヌーイサンプリング方法を使用してサブ構造を順次にサンプリングするように構成され、前記各レイヤの各サブ構造がサンプリングされる確率は均等であることを特徴とする、
    請求項7に記載のハイパーネットワークトレーニング装置。
  9. 前記サブネットワークトレーニングモジュールは、
    トレーニングセットの第1の数のトレーニングサンプルを取得するように構成されるトレーニングサンプル取得ユニットと、
    前記トレーニングサンプルを前記トレーニング用マルチパスニューラルサブネットワークに順次に入力して、前記第1の数のトレーニングサンプルがすべて使用されるまで前記トレーニング用マルチパスニューラルサブネットワークをトレーニングするように構成されるサブネットワークトレーニングユニットとを含むことを特徴とする、
    請求項7に記載のハイパーネットワークトレーニング装置。
  10. 前記装置は、さらに、
    前記ターゲットハイパーネットワークに基づいて新たに取得された複数のトレーニング用マルチパスニューラルサブネットワークを評価して、評価結果を取得するように構成される評価結果取得モジュールと、
    前記評価結果に従って、設定条件を満たすトレーニング用マルチパスニューラルサブネットワークを決定し、前記トレーニング用マルチパスニューラルサブネットワークをターゲットシナリオに適用するように構成されるターゲットシナリオ決定モジュールとを含むことを特徴とする、
    請求項7に記載のハイパーネットワークトレーニング装置。
  11. 前記評価結果取得モジュールは、
    前記ターゲットハイパーネットワークに基づいて、複数のトレーニング用マルチパスニューラルサブネットワークを取得するように構成されるサブネットワーク取得ユニットと、
    前記ターゲットハイパーネットワーク内の各サブ構造の重みパラメータを、前記トレーニング用マルチパスニューラルサブネットワーク内の対応するサブ構造に共有するように構成されるパラメータ共有ユニットと、
    前記複数のトレーニング用マルチパスニューラルサブネットワークに対して評価して、各トレーニング用マルチパスニューラルサブネットワークの評価結果を取得するように構成されるサブネットワーク評価ユニットとを含むことを特徴とする、
    請求項10に記載のハイパーネットワークトレーニング装置。
  12. 電子機器であって、
    プロセッサと、
    前記プロセッサによって実行可能な命令を記憶するように構成されるメモリとを含み、
    前記プロセッサは、前記メモリ内の実行可能な命令を実行して、請求項1ないし6のいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記電子機器。
  13. 実行可能な命令を記憶するように構成される読み取り可能な記憶媒体であって、
    前記実行可能な命令がプロセッサによって実行されると、請求項1ないし6のいずれか一項に記載の方法が実現されることを特徴とする、前記読み取り可能な記憶媒体。
JP2020069754A 2019-11-12 2020-04-08 ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体 Active JP7073437B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911102261.3 2019-11-12
CN201911102261.3A CN110956262A (zh) 2019-11-12 2019-11-12 超网络训练方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
JP2021077322A JP2021077322A (ja) 2021-05-20
JP7073437B2 true JP7073437B2 (ja) 2022-05-23

Family

ID=69977411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020069754A Active JP7073437B2 (ja) 2019-11-12 2020-04-08 ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体

Country Status (5)

Country Link
US (1) US11443189B2 (ja)
EP (1) EP3825923A1 (ja)
JP (1) JP7073437B2 (ja)
KR (1) KR102387020B1 (ja)
CN (1) CN110956262A (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523665B (zh) * 2020-04-23 2024-02-13 北京百度网讯科技有限公司 超网络参数更新方法、装置和电子设备
CN111553464B (zh) 2020-04-26 2023-09-29 北京小米松果电子有限公司 基于超网络的图像处理方法、装置及智能设备
CN111539439B (zh) * 2020-04-30 2021-01-05 宜宾电子科技大学研究院 一种图像语义分割方法
CN111563591B (zh) * 2020-05-08 2023-10-20 北京百度网讯科技有限公司 超网络的训练方法和装置
CN111563592B (zh) * 2020-05-08 2023-12-15 北京百度网讯科技有限公司 基于超网络的神经网络模型生成方法和装置
CN111582453B (zh) * 2020-05-09 2023-10-27 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN113705276B (zh) * 2020-05-20 2024-08-27 武汉Tcl集团工业研究院有限公司 模型构建方法、模型构建装置、计算机设备及介质
CN111639753B (zh) * 2020-05-29 2023-12-05 北京百度网讯科技有限公司 用于训练图像处理超网络的方法、装置、设备以及存储介质
CN111652354B (zh) * 2020-05-29 2023-10-24 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111639752B (zh) * 2020-05-29 2023-09-26 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111783951B (zh) * 2020-06-29 2024-02-20 北京百度网讯科技有限公司 基于超网络的模型获取方法、装置、设备及存储介质
CN111968635B (zh) * 2020-08-07 2024-03-05 北京小米松果电子有限公司 语音识别的方法、装置及存储介质
WO2022141189A1 (zh) * 2020-12-30 2022-07-07 南方科技大学 一种循环神经网络精度和分解秩的自动搜索方法和装置
CN114970654B (zh) * 2021-05-21 2023-04-18 华为技术有限公司 数据处理方法、装置和终端
CN113326922B (zh) * 2021-05-31 2023-06-13 北京市商汤科技开发有限公司 神经网络的生成方法、装置、电子设备及存储介质
US20240119077A1 (en) * 2022-09-28 2024-04-11 Samsung Electronics Co., Ltd. Apparatus and method for sharing and pruning weights for vision and language models

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018018451A (ja) 2016-07-29 2018-02-01 富士通株式会社 機械学習方法、機械学習プログラム及び情報処理装置
WO2019106619A1 (en) 2017-11-30 2019-06-06 International Business Machines Corporation Compression of fully connected/recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102532658B1 (ko) * 2016-10-28 2023-05-15 구글 엘엘씨 신경 아키텍처 검색
US11069033B2 (en) * 2018-09-10 2021-07-20 University Of Florida Research Foundation, Inc. Neural network evolution using expedited genetic algorithm for medical image denoising
US11531861B2 (en) * 2018-11-06 2022-12-20 Google Llc Neural architecture search with factorized hierarchical search space
WO2020140073A1 (en) * 2018-12-27 2020-07-02 Google Llc Neural architecture search through a graph search space
CN110288084A (zh) 2019-06-06 2019-09-27 北京小米智能科技有限公司 超网络训练方法和装置
KR102140996B1 (ko) * 2020-02-21 2020-08-04 광주과학기술원 바이너리 뉴럴 네트워크를 위한 뉴럴 아키텍처 서치 방법 및 장치
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018018451A (ja) 2016-07-29 2018-02-01 富士通株式会社 機械学習方法、機械学習プログラム及び情報処理装置
WO2019106619A1 (en) 2017-11-30 2019-06-06 International Business Machines Corporation Compression of fully connected/recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENDER, Gabriel et al.,Understanding and simplifying one-shot architecture search [online],2018年,[retrieved on 2021.06.09], Retrieved from the Internet: <URL: http://proceedings.mlr.press/v80/bender18a/bender18a.pdf>
CHO, Minsu et al.,One-shot neural architecture search via compressive sensing [online],2019年06月07日,[retrieved on 2021.06.09], Retrieved from the Internet: <URL: https://arxiv.org/pdf/1906.02869.pdf>
CHU, Xiangxiang et al.,FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search [online],2019年08月14日,[retrieved on 2021.06.09], Retrieved from the Internet: <URL: https://arxiv.org/pdf/1907.01845v2.pdf>

Also Published As

Publication number Publication date
KR20210058619A (ko) 2021-05-24
KR102387020B1 (ko) 2022-04-15
EP3825923A1 (en) 2021-05-26
US11443189B2 (en) 2022-09-13
CN110956262A (zh) 2020-04-03
JP2021077322A (ja) 2021-05-20
US20210142166A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
JP7073437B2 (ja) ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体
CN110826344B (zh) 神经网络模型压缩方法、语料翻译方法及其装置
KR102365890B1 (ko) 신경망의 훈련 방법, 장치 및 저장 매체
KR102270394B1 (ko) 이미지를 인식하기 위한 방법, 단말, 및 저장 매체
JP2021533466A (ja) モデルトレーニング方法、機械翻訳方法、コンピュータ装置及びプログラム
JP7030885B2 (ja) 機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体
EP3901827B1 (en) Image processing method and apparatus based on super network, intelligent device and computer storage medium
US11735168B2 (en) Method and apparatus for recognizing voice
CN108573306B (zh) 输出回复信息的方法、深度学习模型的训练方法及装置
CN110188865B (zh) 信息处理方法及装置、电子设备和存储介质
US11874876B2 (en) Electronic device and method for predicting an intention of a user
CN110956127A (zh) 用于生成特征向量的方法、装置、电子设备和介质
CN112259122A (zh) 音频类型识别方法、装置及存储介质
CN116189277A (zh) 训练方法和装置、手势识别方法、电子设备及存储介质
CN111221424B (zh) 用于生成信息的方法、装置、电子设备和计算机可读介质
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN111160522B (zh) 机器学习的抗噪方法、装置及系统
CN115409044A (zh) 翻译方法、装置、可读介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220511

R150 Certificate of patent or registration of utility model

Ref document number: 7073437

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150