JP7391883B2

JP7391883B2 - 顔認識のための圧縮－拡張深さ方向畳み込みニューラルネットワーク

Info

Publication number: JP7391883B2
Application number: JP2020568233A
Authority: JP
Inventors: チェン，ユーロン; リー，ジャングオ
Original assignee: インテルコーポレイション
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2023-12-05
Anticipated expiration: 2038-09-13
Also published as: EP3850580A4; US20210200993A1; US11823033B2; WO2020051816A1; EP3850580B1; EP3850580A1; JP2022508988A

Description

圧縮－拡張深さ方向畳み込みニューラルネットワークに関する。

顔認識技術は、入力画像に予めトレーニングされた畳み込みニューラルネットワーク（convolutional neural network (CNN)）を適用することを含む。このようなＣＮＮに基づく顔認識システムは、幾つかの実装において高品質な結果を提供する。しかしながら、それらは、大きなモデルサイズ及び高い計算コストに苦しんでおり、エッジコンピューティング装置のようなリソースの限られた環境において実装を困難にしている。例えば、スマートカメラ、ハンドヘルド装置、及びデジタル監視における実装は、必要とされる膨大なメモリ、計算、及び電力リソースのために可能ではない場合がある。例えば、モバイル装置に実装するとき、このようなＣＮＮ実装は、計算リソースを消費して、その結果、バッテリ寿命が許容できないレベルにまで劣化する。

様々なコンテキストにおいて高い精度又は少ない計算及びメモリリソース要件を有する顔認識、又はより一般的にはオブジェクト認識は有利である。これら及び他の検討に関して、現在改良が必要とされている。幾つかの改良は、様々なコンテキストにおいて顔又はオブジェクト認識を実行したいという要望がより広がっているので、重要になっている。

本願明細書で説明される事柄は、添付の図面に例として示され、限定ではない。説明の簡単さ及び明確さのために、図中の要素は必ずしも縮尺通りではない。例えば、幾つかの要素の寸法は、明確さのために他の要素に対して誇張されていることがある。更に、適切であると考えられる場合には、対応する又は同様の要素を示すために、参照符号は複数の図に渡り繰り返される。図は以下の通りである。
圧縮－拡張深さ方向段を有するＣＮＮを使用するオブジェクト認識を実行する例示的な装置を示す。例示的な顔検出及び正規化を示す。例示的な畳み込みニューラルネットワークを示す。例示的な深さ方向圧縮－拡張畳み込みを含む例示的な畳み込みニューラルネットワーク段階を示す。例示的な深さ方向分割可能畳み込みを示す。例示的なポイント方向圧縮畳み込みを示す。例示的なポイント方向拡張畳み込みを示す。複数の深さ方向圧縮－拡張畳み込みを含む例示的な畳み込みニューラルネットワーク段階を示す。例示的な畳み込みニューラルネットワークを示す。例示的な畳み込みニューラルネットワークを示す。例示的な畳み込みニューラルネットワークを示す。深さ方向圧縮－拡張畳み込みを含む畳み込みニューラルネットワークをトレーニングする例示的な処理を示すフロー図である。深さ方向圧縮－拡張畳み込みを有する畳み込みニューラルネットワークを実装する例示的な処理を示すフロー図である。深さ方向圧縮－拡張畳み込みを有する畳み込みニューラルネットワークを実装する例示的なシステムの説明図である。例示的なシステムの説明図である。本開示の少なくとも幾つかの実装により全て構成された例示的な装置を示す。

１つ以上の実施形態又は実装は、添付の図面を参照して以下に説明される。特定の構成及び配置が議論されるが、これは説明目的でのみ行われることが理解されるべきである。当業者は、他の構成及び配置が本開示の精神及び範囲から逸脱することなく利用され得ることを理解する。本願明細書に記載の技術及び／又は構成は、本願明細書に記載された以外の種々の他のシステム及びアプリケーションで利用されてもよいことが当業者に明らかである。

以下の説明は、例えばシステムオンチップ（ＳｏＣ）アーキテクチャのようなアーキテクチャにおいて明白な種々の実装を説明するが、本願明細書に記載の技術及び／又は構成の実装は、特定のアーキテクチャ及び／又はコンピューティングシステムに限定されず、同様の目的で任意のアーキテクチャ及び／又はコンピューティングシステムにより実装されてよい。例えば、例えば複数の集積回路（ＩＣ）チップ及び／又はパッケージを利用する種々のアーキテクチャ、及び／又は種々のコンピューティング装置、及び／又は、セットトップボックス、スマートフォン等のような消費者電子機器（ＣＥ）装置は、本願明細書に記載の技術及び／又は構成を実装してよい。更に、以下の説明は、ロジック実装、システムコンポーネントの種類及び相互関係、論理区分／統合選択、等のような多数の特定の詳細事項を説明するが、請求される主題は、このような特定の詳細事項を有さず実施できる。他の例では、例えば制御構造及び完全なソフトウェア命令シーケンスのような幾つかの題材は、本願明細書に開示される題材を曖昧にすることを回避するために、詳細に示されない。

本願明細書に開示される題材は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組み合わせで実装されてよい。本願明細書に開示される題材は、１つ以上のプロセッサにより読み出され実行され得る、機械可読媒体に格納された命令として実装されてもよい。機械可読媒体は、機械（例えば、コンピューティング装置）により読み取り可能な形式で情報を格納又は送信する任意の媒体及び／又はメカニズムを含んでよい。例えば、機械可読媒体は、ＲＯＭ（read only memory）、ＲＡＭ（random access memory）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置、電気／光記憶媒体、フラッシュメモリ装置、電気／光／音響又は他の形式の伝搬信号（例えば、搬送波、赤外信号、デジタル信号、等）、等を含んでよい。

明細書における「一実装」、「実装」、「例示的な実装」等の表現は、記載される実装が、特定の特徴、構造、又は特性を含み得るが、全ての実施形態が必ずしも該特定の特徴、構造、又は特性を含まなくてよいことを示す。更に、このような語句は、必ずしも同じ実装を参照しない。更に、特定の特徴、構造、又は特性がある実施形態と関連して記載されるとき、本願明細書に明示的に記載されるか否かに関わらず、他の実装に関連するこのような特徴、構造、又は特性に影響を与えることが、当業者の知識の範囲内であると言える。本願明細書で使用されるとき、用語「約」又は「実質的に」は、特に断りのない限り、＋／－５％の目標値からの逸脱を示す。

深さ方向分割可能畳み込み、圧縮ポイント方向畳み込み、及び拡張ポイント方向畳み込み演算を伴う畳み込みニューラルネットワークを用いる顔認識に関連する方法、装置、機器、コンピューティングプラットフォーム、及び物品が本願明細書に記載される。

上述のように、種々のコンテキストにおいて、顔認識のような意味論的なオブジェクト認識を実行することは有利であり得る。顔認識では、システムは、顔識別（つまり、ある顔をＮ個のオブジェクトのうちの１つとして識別する）、及び／又は顔検証（つまり、ある顔が特定の人物に属することを検証する）を提供する。例えば、顔識別は、画像及び画像アルバム、監視、等において顔を識別する際に有用であり得る。また、顔検証は、ロックした装置を解除するようなセキュリティにおいて有用であり得る。本願明細書で議論するように、オブジェクト認識入力画像データのための畳み込みニューラルネットワーク（convolutional neural network (CNN)）は、入力特徴マップに、深さ方向分割可能畳み込み（depth－wise separable convolution）を適用して、複数の個別２Ｄ特徴マップを生成し、圧縮ポイント方向畳み込み（condense point－wise convolution）を個別２Ｄ特徴マップに適用して、第１の数のチャネルを有する複数の第１結合特徴マップを生成し、拡張ポイント方向畳み込み（expansion point－wise convolution）を第１結合特徴マップに適用して、第１の数のチャネルより多い第２の数のチャネルを有する第２結合特徴マップを生成する。このような処理は、ＣＮＮの１つ以上の段階（stage）で実行されえ、入力特徴マップは任意の前のＣＮＮ段階からであってよい。

このような技術、及び本願明細書で議論される追加の技術は、圧縮－拡張深さ方向ネットワーク（condense－expansion－depth－wise network (CEDNet)）に基づく超効率的オブジェクト認識（例えば、顔認識）システムを提供する。本願明細書で議論されるＣＮＮ（つまり、ＣＥＤＮｅｔ）は、任意のコンテキストで実装されてよく、特にリソースの限られた装置（例えば、コンピューティングリソースの限られた、メモリリソースの限られた、バッテリ寿命リソースの限られた、等）、例えばエッジコンピューティング装置、モバイル装置、等にとって有利であり得る。幾つかの実施形態では、議論されるＣＮＮは、１億３千万より少ない＃ＭＡｄｄ（multiply－add、乗算－加算）演算を有する。その結果、認識精度を維持しながら、計算コストは、従前のＣＮＮに対して削減される（例えば、最大１／１１５の計算コストの削減）。

図１は、本開示の少なくとも幾つかの実装に従い構成される、圧縮－拡張畳み込み深さ方向段階を有するＣＮＮを使用してオブジェクト認識を実行する例示的な装置１００を示す。図１に示すように、装置１００は、撮像装置１０１，顔検出及び正規化モジュール１０２、畳み込みニューラルネットワーク（ＣＮＮ）モジュール１０３、及び制御部１０４を含む。装置１００は、自動車プラットフォーム、ロボットプラットフォーム、パーソナルコンプータ、ラップトップコンピュータ、タブレット、ファブレット、スマートフォン、デジタルカメラ、ゲームコンソール、ウェアラブル装置、ディスプレイ装置、オールインワン装置、ツーインワン装置、等のような、任意の適切な形状因子の装置に実装されてよい。例えば、装置１００は、本願明細書で議論されるように、オブジェクト認識を実行してよい。

図示のように、撮像装置１０１は、画像データ１１１を獲得する。撮像装置１０１は、ＲＧＢカメラ等のような任意の適切な撮像装置であってよい。幾つかの実施形態では、装置１００は、画像データ１１１又は正規化入力画像データ１１２を別の装置から通信チャネル（図示せず）を介して受信する。幾つかの実施形態では、画像データ１１１は、装置１００のメモリ（図示せず）から処理のために獲得される。画像データ１１１は、任意の適切なピクチャ、フレーム、等、又は任意の適切な解像度でピクチャ又はフレームを表す任意のデータ構造を含んでよい。一実施形態では、画像データ１１１は、そのピクセルのＲ（赤）、Ｇ（緑）、及びＢ（青）値を有するＲＧＢ画像データである。一実施形態では、画像データ１１１は、そのピクセルのＲ、Ｇ、Ｂ、及びＤ（深さ）値を有するＲＧＢ－Ｄ画像データである。一実施形態では、撮像装置１０１は、３Ｄ撮像装置である。例えば、撮像装置１０１は、左カメラ、右カメラ、及びＩＲ送信機を含んでよい。ＩＲ送信機は、ＩＲテクスチャパターンをシーン上に投影し、左カメラ及び右カメラから残されたＩＲテクスチャパターンは立体視を実行して画像データ１１１の深さ値を生成するために使用される。一実施形態では、画像データ１１１は、その各ピクセルにおいて単一の値（例えば、強度値）を有する単一チャネルの赤外線画像データである（例えば、サーモグラム）。

画像データ１１１は、顔検出及び正規化モジュール１０２により受信される。顔検出及び正規化モジュール１０２は、画像データ１１１を使用して、ランドマーク検出のような任意の適切な技術又は複数の技術を用いて顔検出を実行して、（もし有れば）顔の周りの境界ボックスを生成する。顔検出及び正規化モジュール１０２は、画像データ１１１内の顔を検出し、検出した顔に対応する画像データを所定のサイズ及び／又は縮尺に正規化して、正規化入力画像データ１１２を生成する。一実施形態では、画像データ１１１は、例えば、顔識別又は顔検証を含む顔認識のための問い合わせ（query、クエリ）顔を含む。

図２は、本開示の少なくとも幾つかの実装により全て構成された例示的な顔検出及び正規化を示す。図２に示されるように、画像データ１１１は顔２０１の表現を含む。顔検出は、顔ランドマーク検出技術、Ｈａａｒ特徴及びカスケード分類器に基づくＶｉｏｌａ－Ｊｏｎｅｓオブジェクト検出フレームワーク、ＨＯＧｓ（histogram of oriented gradients）に基づく分類器、等のような任意の適切な技術又は複数の技術を用いて画像データ１１１を使用して実行される。図示のように、幾つかの実施形態では、ランドマーク点２０２（明確さのために、そのうちの１つのみがラベル付けされている）が検出され、このような顔検出に基づき特定され、このようなランドマーク点（及び／又は他の技術）は、顔２０１に対応する境界ボックス２０３を生成するために使用される。境界ボックス２０３及びランドマーク点２０２に基づき、正規化入力画像データ１１２が生成される。例えば、顔検出及び正規化モジュール１０２は、画像データ１１１を集め（crop）調整して、ＣＮＮモジュール１０３による処理のために共通サイズ及び縮尺で正規化画像データ１１２を生成してよい。

正規化入力画像データ１１２は、任意のデータ構造を含んでよい。一実施形態では、正規化入力画像データ１１２は、単一チャネル（例えば、グレイスケール画像データ）を有する。その結果、正規化入力画像データ１１２は、そのピクセル毎に単一の値を有する。一実施形態では、正規化入力画像データ１１２は、３つの色チャネル（例えば、ＲＧＢ画像データ）を有する。その結果、正規化入力画像データ１１２は、そのピクセル毎に３つの値（例えば、Ｒ値、Ｇ値、及びＢ値）を有する。本願明細書ではＲＧＢ画像データに関して議論されるが、任意の適切な画像データフォーマット（例えば、ＹＵＶ、ＹＣｂＣｒ、等）が使用されてよい。一実施形態では、正規化入力画像データ１１２は、３つの色チャネル及び深さチャネル（例えば、ＲＧＢ－Ｄ画像データ）を有する。その結果、正規化入力画像データ１１２は、そのピクセル毎に４つの値（例えば、Ｒ値、Ｇ値、Ｂ値、及びＤ値）を有する。本願明細書ではＲＧＢ－Ｄ深さ画像データに関して議論されるが、任意の適切な深さ画像データフォーマットが使用されてよい。更に、正規化入力画像データ１１２は、任意の適切なサイズを有してよい。一実施形態では、正規化入力画像データ１１２は、１２８×１２８ピクセル正規化画像、１００×１００ピクセル正規化画像、１６０×１６０ピクセル正規化画像、等のような任意の適切なサイズの正規化入力画像を表してよい。

図１に戻ると、正規化入力画像データ１１２は、ＣＮＮモジュール１０３により受信される。ＣＮＮモジュール１０３は、本願明細書に議論されるように、正規化入力画像データ１１２にＣＮＮを適用して、ＣＮＮ出力データ１１３を生成する。ＣＮＮ出力データ１１３は、Ｎ次元ベクトルのような任意の適切なデータ構造を含んでよい。Ｎ次元ベクトルの各値は、特徴が正規化入力画像データ１１２の範囲内にある可能性又はスコアを示す。図示のように、ＣＮＮ出力データ１１３は、制御部１０４に提供される。制御部１０４は、ＣＮＮ出力データ１１３を受信し、オブジェクト認識データ１１４を生成する。オブジェクト認識データ１１４は、オブジェクト（例えば、顔）が正規化入力画像データ１１２内で検証されるために識別されたことを示す任意の適切なデータ構造を含む。例えば、オブジェクト又は顔認識は、実際の実装では識別及び検証に分割されてよい。

オブジェクト又は顔識別は１：Ｎマッチング問題に対応し、正規化入力画像データ１１２がＮ個の被写体のうちの１つに一致するようにされてよい。例えば、バックエンドデータベースは、それぞれがＫ個の画像及び関連するアイデンティティを有するＮ個より多くの被写体を含んでよい。オブジェクト又は顔識別は、正規化入力画像データ１１２との最適な一致を発見し、最適な一致スコアが所定の閾値より大きい場合、例えば、オブジェクト認識データ１１４は、最も一致する被写体を識別する指示子を含む。一実施形態では、一致スコアが閾値より小さい場合、一致が提供されない。このような実施形態では、制御部１０４は、ＣＮＮ出力データ１１３を受信し、ＣＮＮ出力データ１１３に基づき（例えば、ＣＮＮ出力データ１１３をＮ個の利用可能な被写体の出力データと比較することにより）最適な一致を決定し、任意的に、最適な一致のスコアを閾値と比較し、最適な一致のスコアが閾値に対して好ましい場合、オブジェクト認識データ１１４により一致を示す。例えば、オブジェクト認識データ１１４は、顔識別コンテキストにおいて、正規化入力画像データ１１２の最適な顔一致を示す識別子を含んでよい。このような最適な顔一致データは、写真に名前をタグ付けして監視下の人物を識別する等のために、装置１００により使用されてよい。

オブジェクト又は顔識別は１：１マッチング問題に対応し、正規化入力画像データ１１２が特定の単一の被写体に一致するようにされてよい。例えば、バックエンドデータベースは、被写体からの幾つかの画像を格納してよく、問い合わせ顔について、正規化入力画像データ１１２が被写体を含むか否かに関して決定が行われる。これにより、オブジェクト又は顔検証は、正規化入力画像データ１１２が被写体に対応するか否かを決定する。例えば、ＣＮＮ出力データ１１３は、二乗差の和、閾値との比較、又は同様の技術を用いて、被写体の出力データと比較されてよい。このような実施形態では、制御部１０４は、ＣＮＮ出力データ１１３を受信し、一致が発見されたか否かを決定し、発見された場合に、オブジェクト認識データ１１４により一致を示す。例えば、オブジェクト認識データ１１４は、顔検証コンテキストにおいて、正規化入力画像データ１１２について最適な顔一致が生成されたか否かを示す識別子を含んでよい。一致か否かを示すこのようなデータは、装置１００へのアクセスを許可又は拒否するために（例えば、顔一致を通じて装置アクセスを提供するために）、装置１００により使用されてよい。

図３は、本開示の少なくとも幾つかの実装により構成された例示的な畳み込みニューラルネットワーク３００を示す。図３に示すように、畳み込みニューラルネットワーク（ＣＮＮ）３００は、それぞれｓ１、ｓ２、ｓ３、ｓ４、ｓ５とラベル付けされた複数の段階３０１、３０２、３０３、３０４、３０５を含む。図示のように、段階３０１（ｓ１）は、単一チャネル（例えば、グレースケール）の１２８×１２８ピクセルとして示される正規化入力画像データ１１２を受信する。しかしながら、正規化入力画像データ１１２は、本願明細書で議論される任意の適切な入力画像データを含んでよい。図示のように、段階３０１（ｓ１）は、正規化入力画像データ１１２に作用して特徴マップ３１１を生成する。図示の実施形態では、特徴マップ３１１は、３２個の出力チャネルの６４×６４要素特徴マップを含む。つまり、特徴マップ３１１は、それぞれが６４×６４（４０９６）個の特徴値を有する３２個の特徴マップを含む。しかしながら、任意の数の出力チャネルの任意のサイズの特徴マップが使用されてよい。例えば、段階３０１（ｓ１）は、１２８×１２８×１の次元を有するデータボリュームを受信し、６４×６４×３２の次元を有するデータボリュームを出力する。

段階３０１（ｓ１）は、任意の適切な畳み込み技術又は複数の技術を用いて特徴マップ３１１を生成する。一実施形態では、段階３０１（ｓ１）は、例えば３２個のカーネルがそれぞれ正規化入力画像データ１１２内の位置に適用されるような標準的な畳み込み技術を用いて、特徴マップ３１１を生成する。各カーネルは、３×３、５×５、等のような任意の適切なサイズであってよく、各カーネルは同じサイズであり、又はカーネルは異なるサイズである。段階３０１（ｓ１）は、当業者に知られているプーリング、スケーリング、及び／又は正規化線形ユニット（rectified linear unit (ReLU)）演算も含んでよい。更に、正規化入力画像データ１１２が複数のチャネルを含む実施形態では、各カーネルは、正規化入力画像データ１１２内の各位置においてチャネルに渡り加算されてよい。例えば、ＣＮＮにおける標準的な畳み込みは、マルチチャネル及びマルチカーネル畳み込みである。「ｎ」個の入力チャネル（例えば、正規化入力画像データ１１２のチャネル数）及び「ｍ」個の出力チャネル（例えば、特徴マップ３１１のチャネル数）を有する畳み込み層では、カーネルサイズｋ×ｋ＝ｋ^２である。出力チャネル毎に（つまり、カーネル毎に）、標準的な畳み込みは、入力チャネル毎に２Ｄ畳み込みを実行し、「ｎ」個全部の畳み込み結果を出力応答として加算する。

段階３０２（ｓ２）は、特徴マップ３１１を入力として受信し、任意の適切な畳み込み技術又は複数の技術を用いて特徴マップ３１２を出力として生成する。例えば、段階３０２（ｓ２）は、後述する深さ方向圧縮－拡張畳み込み（depth－wise－condense－expansion convolutions）を用いて特徴マップ３１２を生成してよい。一実施形態では、深さ方向圧縮－拡張畳み込みは３つの段階を含む。

第１に、深さ方向分割可能畳み込みが、入力特徴マップ（例えば、特徴マップ３１１）に適用されて、複数の個別２Ｄ特徴マップを生成する。本願明細書で使用されるとき、用語「深さ方向分割可能畳み込み」は、入力チャネルに渡り情報を加算し、平均し、又は交換しない畳み込みを示す。用語「個別２Ｄ特徴マップ」は、入力チャネルに渡り情報を加算し、平均し、又は交換しない畳み込みにより実行される特徴マップを示す。例えば、深さ方向分割可能畳み込みは、「ｎ」個の入力チャネル深さマップに、「ｍ」個のｋ×ｋ×１カーネルを適用して、「ｍ」個の個別２Ｄ特徴マップを生成する。

第２に、圧縮ポイント方向畳み込み（condense point－wise convolution）が、「ｍ」個の個別２Ｄ特徴マップに適用されて、「ｎ／ｇ」個の結合特徴マップを生成する。その結果、結合特徴マップはｎ／ｇ個のチャネルを有する。本願明細書で使用されるとき、用語「結合特徴マップ」は、入力チャネルに渡り情報を共有することにより生成された特徴マップを示すために使用される。例えば、「ｎ／ｇ」個の１×１×ｍカーネルは、個別２Ｄ特徴マップに適用されて、第１結合特徴マップを生成する。

第３に、拡張ポイント方向畳み込み（expansion point－wise convolution）が、「ｎ／ｇ」個の結合特徴マップに適用されて、「ｎ」個の結合特徴マップを生成する。その結果、結合特徴マップはｎ個のチャネルを有する。本願明細書で使用されるとき、用語「圧縮（condense）」は、出力チャネルの数が減少されることを示し、用語「拡張（expansion）」は、出力チャネル数が増大されることを示す。例えば、「ｇ」は、圧縮係数として特徴付けられてよく、拡張後のチャネル数の拡張前（且つ圧縮後）のチャネル数に対する比が「ｇ」である。例えば、「ｎ」個の１×１×（ｎ／ｇ）カーネルは、第１結合特徴マップに適用されて、第２結合特徴マップを生成する。このような深さ方向圧縮－拡張畳み込みは、本願明細書に更に議論されるように種々の利点を提供する。段階３０２（ｓ２）のような特定の段階で、議論される深さ方向圧縮－拡張畳み込みは、（図４に関して議論されるように）１回実行されてよく、任意的なプーリング、スケーリング、及び／又はＲｅＬＵ演算を伴い、又は複数回（図８に関して議論されるように２回）実行されて段階にそれらをスタックしてよい。

図示のように、段階３０２（ｓ２）は、１６４×６４×３２の次元を有するデータボリュームを受信し、３２×３２×６４の次元を有するデータボリュームを出力する。しかしながら、任意の適切なデータサイズが使用されてよい。更に、ＣＮＮ３００は、追加段階３０３、３０４、３０５を含む。段階３０３、３０４、３０５は、それぞれ特徴マップ３１２、３１３、３１４を入力として受信し、任意の適切な畳み込み技術又は複数の技術を用いて特徴マップ３１３、３１４、３１５を出力として生成する。例えば、段階３０１、３０２、３０３、３０４、３０５のうちの任意の段階は、本願明細書で議論される標準的な畳み込み技術を使用してよい。理解されるように、特徴マップ３１１、３１２、３１３、３１４、及び特徴ベクトル３１５は、入力画像データ１１２及び／又は画像データ１１１を処理するときに生成される正規化入力画像データ１１２及び画像データ１１１に関連付けられる。更に、段階３０１、３０２、３０３、３０４、３０５のうちの任意の段階は、本願明細書で議論されるように（単一の又はスタックされた）深さ方向圧縮－拡張畳み込みを使用してよい。更に、段階３０１、３０２、３０３、３０４、３０５のうちの任意の段階は、深さ方向分割可能畳み込み及びポイント方向畳み込みを圧縮－拡張を伴わずに使用してよい。例えば、深さ方向分割可能畳み込み及びポイント方向畳み込みは、先ず、個別２Ｄ特徴マップを出力するチャネル毎の２Ｄ畳み込みを適用して、次に、１×１又はポイント方向畳み込みを使用して各チャネルを他のチャネルと混合してよい。

図示のように、段階３０３（ｓ３）は、３２×３２×６４の次元を有する特徴マップ３１２のデータボリュームを受信し、１６×１６×１２８の次元を有する特徴マップ３１３のデータボリュームを出力する。段階３０４（ｓ４）は、１６×１６×１２８の次元を有する特徴マップ３１３のデータボリュームを受信し、８×８×２５６の次元を有する特徴マップ３１４のデータボリュームを出力する。段階３０５（ｓ５）は、８×８×２５６の次元を有する特徴マップ３１４のデータボリュームを受信し、任意の数の要素を有する１次元特徴ベクトル３１５を出力するしかしながら、任意の適切な特徴マップ及びサイズ（例えば、ボリューム）及び特徴ベクトルサイズが使用されてよい。

図示の実施形態では、ＣＮＮ３００は、５個の段階を含むが、ＣＮＮ３００は、４、６、７、又はそれより多数のような任意の数の段階を含んでよい。更に、ＣＮＮ３００の各連続する段階は、減少するサイズ及び増大する数のチャネルの特徴マップを出力する。このような処理は、段階３０１、３０２，３０３、３０４、３０５に渡りＣＮＮ３００により検出された特徴の抽象化を増大し得る。

図４は、本開示の少なくとも幾つかの実装により構成された例示的な深さ方向圧縮－拡張畳み込みを含む例示的なニューラルネットワーク段階４００を示す。図４に示すように、畳み込みニューラルネットワーク（ＣＮＮ）段階４００は、入力４０１、深さ方向畳み込み（ＤＷ－Ｃｏｎｖ）モジュール４０２、ポイント方向圧縮畳み込み（ＰＷ－Ｃｏｎｖ）モジュール４０３、ポイント方向拡張畳み込み（ＰＷ－Ｃｏｎｖ）モジュール４０４，任意的加算器４０５、及び出力４０６を含む。ＣＮＮ段階４００は、本願明細書で議論される任意のＣＮＮ段階により実装されてよい。

図示のように、ＣＮＮ段階４００は、入力４０１を介して、例えば前のＣＮＮ段階から、入力特徴マップ４１１を受信する。入力特徴マップ４１１は「ｎ」個のチャネルを有する。更に、入力特徴マップ４１１は、入力特徴マップ４１１が入力ボリュームをＣＮＮ段階に提供するように、任意の適切なサイズを有してよい。例えば、入力特徴マップ４１１は、それぞれ、Ｈ×Ｗ個の要素を有してよく、入力特徴マップ４１１は、「ｎ」個のチャネルを有してよい。その結果、入力特徴マップ４１１は、Ｈ×Ｗ×ｎのデータボリュームを有する。例えば、入力特徴マップ４１１は、本願明細書に議論されるように６４×６４×３２、４２×３２×６４、１６×１６×１２８、８×８×２５６であってよいが、任意の適切な次元が使用されてよい。

深さ方向畳み込みモジュール４０２は、入力特徴マップ４１１を受信し、深さ方向分割可能畳み込みを入力特徴マップ４１１に適用して、複数の個別２Ｄ特徴マップ４１２を生成してよい。例えば、深さ方向畳み込みモジュール４０２は、サイズｋ×ｋ×１の「ｎ」個の畳み込みカーネルを使用して「ｎ」個の個別２Ｄ特徴マップ４１２を出力するチャネル毎の２Ｄ畳み込みを適用し、その結果、入力チャネル間での情報交換は存在しない。議論されるように、このような個別２Ｄ特徴マップ４１２は、入力特徴マップ４１１の「ｎ」個の入力チャネルに渡り情報を加算し、平均し、又は交換することなく、生成される。このような処理は、チャネル間で加算又は平均する標準的な畳み込み処理と対称的である。

図５は、本開示の少なくとも幾つかの実装により構成された例示的な深さ方向分割可能畳み込み５００を示す。図５に示すように、入力特徴マップ４１１は、「ｎ」個の特徴マップ５０１、５０２、５０３、５０４（１、２、３、ｎともラベル付けされる）を含み、これらのそれぞれはＨ×Ｗ個の要素又は特徴を有する。つまり、図５には、特徴マップ５０１、５０２、５０３、５０４のそれぞれの線形断面図が示される。図示のように、サイズｋ×ｋ×１のカーネルは、特徴マップ５０１、５０２、５０３、５０４のそれぞれに適用される。その結果、５１１、５１２、５１３、５１４のような「ｎ」個のカーネルが、それぞれ特徴マップ５０１、５０２、５０３、５０４に適用されて、サイズＨ×ｗの「ｎ」個の個別２Ｄ特徴マップ５２１、５２２、５２３、５２４を生成し、個別２Ｄ特徴マップ４１２を提供する。議論されるように、個別２Ｄ特徴マップ５２１、５２２、５２３、５２４は、特徴マップ５０１、５０２、５０３、５０４の間のチャネル間情報交換を有さずに生成される。カーネル５１１、５１２、５１３、５１４は、３×３、５×５、等のような任意の適切なサイズであってよく、個別２Ｄ特徴マップ５２１、５２２、５２３、５２４は任意の適切なサイズであってよい。

図示のように、特徴マップ５０１の特定の位置において、カーネル５１１は、該位置における特徴マップ５０１の特徴値によりカーネル５１１を畳み込むことにより適用されて、個別２Ｄ特徴マップ５２１の特徴値５３１を生成する。カーネル５１１の位置は、次に、移動され、処理は、新しい位置における特徴マップ５０１の特徴値を用いて繰り返され、別の特徴値を生成し、以下特徴マップ５０１を通じて同様である。特徴マップ５０２、５０３、５０４の各々は、それぞれカーネル５１２、５１３、５１４により同様に処理されて、個別２Ｄ特徴マップ５２２、５２３、５２４の特徴値５３２、５３３、５３４のような特徴値を生成する。

図４に戻ると、ポイント方向圧縮畳み込みモジュール４０３は、個別２Ｄ特徴マップ４１２を受信し、ポイント方向畳み込みを個別２Ｄ特徴マップ４１２に適用して、結合特徴マップ４１３を生成する。例えば、ポイント方向圧縮畳み込みモジュール４０３は、「Ｎ／Ｇ」個の１×１×ｎ畳み込みを用いて、チャネルに渡り線形混合を適用する。

図６は、本開示の少なくとも幾つかの実装により構成された例示的なポイント方向圧縮畳み込み６００を示す。図６に示すように、個別２Ｄ特徴マップ４１２は、図５に関して議論したように生成された「ｎ」個の特徴マップ５２１、５２２、５２３、５２４（１、２、３、ｎともラベル付けされる）を含み、これらのそれぞれはＨ×Ｗ個の要素又は特徴を有する。つまり、図５及び６には、個別特徴マップ５２１、５２２、５２３、５２４のそれぞれの線形断面図が示される。図示のように、サイズ１×１×ｎのカーネル６０１は、個別特徴マップ５２１、５２２、５２３、５２４に渡り適用されて、例えば、結合特徴マップ６１２の値又は特徴を生成する。例えば、カーネル６０１は、個別特徴マップ５２１、５２２、５２３、５２４に渡り特定の位置で適用され、カーネル６０１は、該特定の位置に対応する特徴値５３１、５３２、５３３、５３４により畳み込まれて、結合特徴マップ６１２の特徴値６２２を生成する。

カーネル６０１は、次に、個別特徴マップ５２１、５２２、５２３、５２４を通じて移動され、結合特徴マップ６１２の特徴値が各位置において生成される。同様に別の１×１×ｎカーネルは、個別特徴マップ５２１、５２２、５２３、５２４に渡り適用され、特徴値６２１を生成し、個別特徴マップ５２１、５２２、５２３、５２４を通じて移動することにより、結合特徴マップ６１１の各特徴値を生成する。同様の方法で、結合特徴マップ６１３（特徴値６２３を含む）、結合特徴マップ６１４（特徴値６２４を含む）、及び全ての他の「ｎ／ｇ」個の結合特徴マップ４１３の各値が生成される。例えば、カーネル６０１のような「ｎ／ｇ」個のカーネルは、個別特徴マップ５２１、５２２、５２３、５２４に適用されて、「ｎ／ｇ」個の出力チャネルを有する結合特徴マップ４１３を生成する。議論されるように、個別２Ｄ特徴マップ６１１、６１２、６１３、６１４は、個別特徴マップ５２１、５２２、５２３、５２４の間のチャネル間情報交換を伴い生成される。本願明細書で使用されるとき、「特徴マップ」の参照と結合される用語は、入力チャネルに渡る情報交換により生成される特徴マップを示す。

図示のように、ポイント方向圧縮畳み込みは、個別２Ｄ特徴マップ４１２の「ｎ」個のチャネルを、「ｎ／ｇ」個のチャネルに圧縮する。ここで、「ｇ」は、本願明細書では圧縮係数として特徴付けられ、１より大きい整数である。圧縮係数「ｇ」は、２、４、又は８のような１より大きい任意の適切な整数値であってよく、４が特に有利である。

図４に戻ると、ポイント方向拡張畳み込みモジュール４０４は、結合特徴マップ４１３を受信し、ポイント方向拡張畳み込みを結合特徴マップ４１３に適用して、結合特徴マップ４１４を生成する。例えば、ポイント方向圧縮畳み込みモジュール４０３は、「Ｎ」個の１×１×（ｎ／ｇ）畳み込みを用いて、チャネルに渡り線形混合を適用する。

図７は、本開示の少なくとも幾つかの実装により構成された例示的なポイント方向拡張畳み込み７００を示す。図７に示すように、結合特徴マップ４１３は、図６に関して議論したように生成された「ｎ／ｇ」個の結合特徴マップ６１１、６１２、６１３、６１４（１、２、３、ｎ／ｇともラベル付けされる）を含み、これらのそれぞれはＨ×Ｗ個の要素又は特徴を有する。つまり、図６及び７には、結合特徴マップ６１１、６１２、６１３、６１４のそれぞれの線形断面図が示される。図示のように、サイズ１×１×（ｎ／ｇ）のカーネル７０１は、結合特徴マップ６１１、６１２、６１３、６１４に渡り適用されて、例えば、結合特徴マップ７１２の値又は特徴を生成する。例えば、カーネル７０１は、結合特徴マップ６１１、６１２、６１３、６１４に渡り特定の位置で適用され、カーネル７０１は、該特定の位置に対応する特徴値６２１、６２２、６２３、６２４により畳み込まれて、結合特徴マップ７１２の特徴値７２２を生成する。

カーネル７０１は、次に、結合特徴マップ６１１、６１２、６１３、６１４を通じて移動され、結合特徴マップ７１２の特徴値が各位置において生成される。同様に別の１×１×（ｎ／ｇ）カーネルは、結合特徴マップ６１１、６１２、６１３、６１４に渡り適用され、特徴値７２１を生成し、結合特徴マップ６１１、６１２、６１３、６１４を通じて移動することにより、結合特徴マップ７１１の各特徴値を生成する。同様の方法で、結合特徴マップ７１３（特徴値７２３を含む）、結合特徴マップ７１４（特徴値７２４を含む）、及び全ての他の「ｎ」個の結合特徴マップ４１４の各値が生成される。例えば、カーネル７０１のような「ｎ」個のカーネルは、結合特徴マップ６１１、６１２、６１３、６１４に適用されて、「ｎ」個の出力チャネルを有する結合特徴マップ４１４を生成する。議論されるように、結合特徴マップ７１１、７１２、７１３、７１４は、個別結合特徴マップ６１１、６１２、６１３、６１４の間のチャネル間情報交換を伴い生成される。図示のように、ポイント方向拡張畳み込みは、結合特徴マップ４１３の「ｎ／ｇ」個のチャネルを、結合特徴マップ４１４の「ｎ」個のチャネルに拡張する。

図４に戻ると、加算器４０５は、結合特徴マップ４１４を受信し、結合特徴マップ４１４を入力特徴マップ４１１と合算して、出力特徴マップ４１５を生成する。例えば、ＣＮＮ段階４００は、加算器４０５により、特徴マップ４１４を入力特徴マップ４１１と加算することにより、残余接続（residual connection）を提供する。このような残余接続は、推定及びトレーニングを容易にし得る特徴の変化を推定するために、ＣＮＮ段階に提供されてよい。しかしながら、幾つかの実施形態では、加算器４０５は実装されず、ＣＮＮ段階は結合特徴マップ４１４を出力する。

議論されるように、深さ方向圧縮－拡張畳み込みは、ＣＮＮの段階の中で提供されてよい。留意すべきことに、ポイント方向圧縮畳み込み層（例えば、ポイント方向圧縮畳み込みモジュール４０３において適用される）は、深さ要項畳み込み層（例えば、個別２Ｄ特徴マップ４１２）の「ｎ」個のチャネル出力を、ｇ（圧縮係数）が１より大きくなるよう（例えば、ｇ＝４）、「ｎ／ｇ」個の出力チャネル（例えば、結合特徴マップ４１３）へと圧縮する。このようなポイント方向圧縮畳み込みは、有利なことに、深さ方向畳み込み層のチャネル間の冗長性を低減し、本願明細書で更に議論されるように計算を削減する。更に、残余接続は、結合特徴マップ４１４を入力特徴マップ４１１と（例えば、加算器４０５により）加算することにより提供される。残余接続が動作可能性を保証するために、入力特徴マップ４１１及び結合特徴マップ４１４は、同じ解像度（例えば、Ｈ×Ｗ）及び同じチャネル数（例えば、「ｎ」）を有する。入力特徴マップ４１１及び結合特徴マップ４１４の同じ解像度を提供するために、拡張は、ポイント方向拡張畳み込みモジュール４０４により提供され、結合特徴マップ４１３の入力チャネルの数が「ｎ／ｇ」であり、結合特徴マップ４１４の出力チャネルの数が「ｎ」のままであるようにする。

このような処理技術は、ＣＮＮパラメータの数が削減されるので、低い計算リソース要件及び記憶要件をもたらす。例えば、「ｎ」個の入力チャネル、「ｎ」個の出力チャネル、Ｗ×Ｈの特徴マップサイズ、及びｋ^２のカーネルサイズを有する畳み込み段階を想定すると、標準的な畳み込み処理は、ｗ＊ｈ＊ｋ^２＊ｎ^２の計算の複雑さを要求し、圧縮及び拡張を有しない且つ残余加算を有しない深さ方向及びポイント方向畳み込みは、ｗ＊ｈ＊（ｋ^２＊ｎ＋ｎ^２）の計算の複雑さを要求し、圧縮及び拡張を有しない且つ残余加算を有する深さ方向及びポイント方向畳み込みは、ｗ＊ｈ＊（ｋ^２＊ｎ＋ｎ^２＋ｎ）の計算の複雑さを要求し、残余加算を有する深さ方向圧縮－拡張畳み込みは、ｗ＊ｈ＊（ｋ^２＊ｎ＋ｎ^２／ｇ＋ｎ^２／ｇ＋ｎ）の計算の複雑さを要求する。更に、４の圧縮係数「ｇ」を想定すると、標準的な畳み込み処理に対する計算コストの削減は９ｎ（１０＋ｎ）であり、圧縮及び拡張を有し且つ残余加算を有しない深さ方向及びポイント方向畳み込みに関する計算コストの削減は（１０＋ｎ）／（１０＋ｎ／２）である。従って、ｎ＝１００のより小さいｎについて、本願明細書で議論される技術は、標準的な畳み込み処理より８．２Ｘだけ、圧縮及び拡張を有しない且つ残余加算を有しない深さ方向及びポイント方向畳み込みより１．８Ｘだけ高速である。従って、ｎ＝５００のより大きいｎについて、本願明細書で議論される技術は、標準的な畳み込み処理より８.８Xだけ、圧縮及び拡張を有しない且つ残余加算を有しない深さ方向及びポイント方向畳み込みより１.９６Xだけ高速である。更に、議論される技術は、トレーニング中により少ないＣＮＮモデルパラメータ及び改良されたＣＮＮ収束を必要とする。

図８は、本開示の少なくとも幾つかの実装により構成された複数の例示的な深さ方向圧縮－拡張畳み込みを含む例示的なニューラルネットワーク段階８００を示す。図８に示すように、畳み込みニューラルネットワーク（ＣＮＮ）段階８００は、入力８０１、深さ方向畳み込み（ＤＷ－Ｃｏｎｖ）モジュール８０２、ポイント方向圧縮畳み込み（ＰＷ－Ｃｏｎｖ）モジュール８０３、ポイント方向拡張畳み込み（ＰＷ－Ｃｏｎｖ）モジュール８０４、任意的加算器８０５、深さ方向畳み込み（ＤＷ－Ｃｏｎｖ）モジュール８０６、ポイント方向圧縮畳み込み（ＰＷ－Ｃｏｎｖ）モジュール８０７、ポイント方向拡張畳み込み（ＰＷ－Ｃｏｎｖ）モジュール８０８、任意的加算器８０９、及び出力８１０を含む。ＣＮＮ段階８００は、本願明細書で議論される任意のＣＮＮ段階により実装されてよい。

ＣＮＮ段階８００は、入力８０１を介して、例えば前のＣＮＮ段階から、入力特徴マップ８１１を受信する。入力特徴マップ８１１は「ｎ」個のチャネルを有する。更に、入力特徴マップ８１１は、入力特徴マップ８１１が入力ボリュームをＣＮＮ段階に提供するように、任意の適切なサイズを有してよい。例えば、入力特徴マップ８１１は、それぞれ、Ｈ×Ｗ個の要素を有してよく、入力特徴マップ８１１は、本願明細書で議論されるように「ｎ」個のチャネルを有してよい。深さ方向畳み込みモジュール８０２は、入力特徴マップ８１１を受信し、深さ方向分割可能畳み込みを入力特徴マップ８１１に適用して、複数の個別２Ｄ特徴マップ８１２を生成してよい。例えば、深さ方向畳み込みモジュール８０２は、サイズｋ×ｋ×１の「ｎ」個の畳み込みカーネルを使用して「ｎ」個の個別２Ｄ特徴マップ８１２を出力するチャネル毎の２Ｄ畳み込みを適用し、その結果、図５に関して議論したように、入力チャネル間での情報交換は存在しない。ポイント方向圧縮畳み込みモジュール８０３は、個別２Ｄ特徴マップ８１２を受信し、個別２Ｄ特徴マップ８１２にポイント方向圧縮畳み込みを適用して、図６に関して議論したように「ｎ／ｇ」個の１×１×ｎ畳み込みを個別２Ｄ特徴マップ８１２に適用することにより、「ｎ／ｇ」個のチャネルを有する結合特徴マップ８１３を生成する。ポイント方向拡張畳み込みモジュール８０４は、結合特徴マップ８１３を受信し、結合特徴マップ８１３にポイント方向拡張畳み込みを適用して、図７に関して議論したように「ｎ」個の１×１×（ｎ／ｇ）畳み込みを個別結合特徴マップ８１３に適用することにより、「ｎ」個のチャネルを有する結合特徴マップ８１４を生成する。加算器８０５は、結合特徴マップ８１４を受信し、結合特徴マップ８１４を入力特徴マップ８１１と合算して、中間特徴マップ８１５を生成する。幾つかの実施形態では、加算器８０５は実装されなくてよく、結合特徴マップ８１４が深さ方向畳み込みモジュール８０６に提供される。

深さ方向畳み込みモジュール８０２は、中間特徴マップ８１５（又は結合特徴マップ８１４）を受信し、深さ方向分割可能畳み込みを中間特徴マップ８１５（又は結合特徴マップ８１４）に適用して、複数の個別２Ｄ特徴マップ８１６を生成してよい。例えば、深さ方向畳み込みモジュール８０６は、サイズｋ×ｋ×１の「ｎ」個の畳み込みカーネルを使用して「ｎ」個の個別２Ｄ特徴マップ８１６を出力するチャネル毎の２Ｄ畳み込みを適用し、その結果、図５に関して議論したように、入力チャネル間での情報交換は存在しない。ポイント方向圧縮畳み込みモジュール８０７は、個別２Ｄ特徴マップ８１６を受信し、個別２Ｄ特徴マップ８１６にポイント方向圧縮畳み込みを適用して、図７に関して議論したように「ｎ／ｇ」個の１×１×ｎ畳み込みを個別２Ｄ特徴マップ８１６に適用することにより、「ｎ／ｇ」個のチャネルを有する結合特徴マップ８１７を生成する。ポイント方向拡張畳み込みモジュール８０８は、結合特徴マップ８１７を受信し、結合特徴マップ８１７にポイント方向拡張畳み込みを適用して、図７に関して議論したように「ｎ」個の１×１×（ｎ／ｇ）畳み込みを個別結合特徴マップ８１７に適用することにより、「ｎ」個のチャネルを有する結合特徴マップ８１８を生成する。加算器８０５は、結合特徴マップ８１８を受信し、結合特徴マップ８１８を中間特徴マップ８１５（又は入力特徴マップ８１１）と合算して、出力特徴マップ８１９を生成する。幾つかの実施形態では、加算器８０５及び加算器８０９は実装されなくてよく、結合特徴マップ８１８はＣＮＮ段階８００から出力される。

図９Ａ、９Ｂ、９Cは、本開示の少なくとも幾つかの実装により構成された例示的な畳み込みニューラルネットワーク９００を示す。図９Ａ、９Ｂ、９Cに示すように、畳み込みニューラルネットワーク（ＣＮＮ）９００は、畳み込み層９０２を介して正規化入力画像データ１１２を受信する。畳み込み層９０２は、ｎ（例えば３２）個のｋ×ｋ（例えば３×３）畳み込みカーネルを正規化入力画像データ１１２（例えば、１２８×１２８×１画像データ）に適用する。プーリング層９０３は、冗長データを受信し、プーリング（例えば、ストライド２で最大プーリング）を提供して、ＣＮＮ９００の第１段階からの出力特徴マップ（例えば、６４×６４×３２特徴マップ）を生成する。図９Ａ、９Ｂ、９Cでは、数値例（例えば、畳み込み１、畳み込み２、等）は、ＣＮＮ９００におけるこのような処理の各インスタンスを示す。

畳み込み層９０４は、特徴マップを受信し、例えば６４個の１×１×３２畳み込みカーネル、バッチ正規化、スケーリング、及びＲｅＬＵを、第１段階からの特徴マップに適用し、結果データ（例えば、６４×６４×６４データ）を深さ方向圧縮－拡張畳み込み層９０５及び加算及びＲｅＬＵ層９０６に提供する。深さ方向圧縮－拡張畳み込み層９０５は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば６４個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９０５は、ポイント方向畳み込み（例えば、１６個＝６４／４の１×１×６４カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、６４×６４×１６データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９０５は、ポイント方向拡張畳み込み（例えば、６４個の１×１×６４カーネル）を適用して、第２結合特徴マップ（例えば、６４×６４×６４データ）を生成する。留意すべきことに、畳み込み層９０４及び深さ方向圧縮－拡張畳み込み層９０５の出力は、同じサイズである。加算及びＲｅＬＵ層９０６は、畳み込み層９０４及び深さ方向圧縮－拡張畳み込み層９０５の出力を受信し、それらを加算し、ＲｅＬＵを適用して出力データを生成する。出力データは、深さ方向圧縮－拡張畳み込み層９０７及び加算及びＲｅＬＵ層９０８に提供される。深さ方向圧縮－拡張畳み込み層９０７は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば６４個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９０７は、ポイント方向圧縮畳み込み（例えば、１６個＝６４／４の１×１×６４カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、６４×６４×１６データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９０７は、ポイント方向拡張畳み込み（例えば、６４個の１×１×６４カーネル）を適用して、第２結合特徴マップ（例えば、６４×６４×６４データ）を生成する。留意すべきことに、加算及びＲｅＬＵ層９０６及び深さ方向圧縮－拡張畳み込み層９０７の出力は、同じサイズである。加算及びＲｅＬＵ層９０８は加算及びＲｅＬＵ層９０６及び深さ方向圧縮－拡張畳み込み層９０７の出力を受信し、それらを加算し、ＲｅＬＵを適用して、出力データを生成する。プーリング層９０９は、冗長データを受信し、プーリング（例えば、ストライド２で最大プーリング）を提供して、ＣＮＮ９００の第２段階からの出力特徴マップ（例えば、３２×３２×６４特徴マップ）を生成する。

図９Ｂを参照すると、畳み込み層９１０は、特徴マップを受信し、例えば１２８個の１×１×６４畳み込みカーネル、バッチ正規化、スケーリング、及びＲｅＬＵを、第２段階からの特徴マップに適用し、結果データ（例えば、３２×３２×１２８データ）を深さ方向圧縮－拡張畳み込み層９１１及び加算及びＲｅＬＵ層９１２に提供する。深さ方向圧縮－拡張畳み込み層９１１は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば１２８個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９１１は、ポイント方向圧縮畳み込み（例えば、３２個＝１２８／４の１×１×１２８カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、３２×３２×３２データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９１１は、ポイント方向拡張畳み込み（例えば、１２８個の１×１×３２カーネル）を適用して、第２結合特徴マップ（例えば、３２×３２×１２８データ）を生成する。畳み込み層９１０及び深さ方向圧縮－拡張畳み込み層９１１の出力は、同じサイズである。加算及びＲｅＬＵ層９１２は、畳み込み層９１０及び深さ方向圧縮－拡張畳み込み層９１１の出力を加算し、ＲｅＬＵを適用して出力データを生成する。出力データは、深さ方向圧縮－拡張畳み込み層９１３及び加算及びＲｅＬＵ層９１４に提供される。深さ方向圧縮－拡張畳み込み層９１３は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば１２８個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９１３は、ポイント方向圧縮畳み込み（例えば、３２個＝１２８／４の１×１×１２８カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、３２×３２×３２データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９１３は、ポイント方向拡張畳み込み（例えば、１２８個の１×１×３２カーネル）を適用して、第２結合特徴マップ（例えば、３２×３２×１２８データ）を生成する。加算及びＲｅＬＵ層９１２及び深さ方向圧縮－拡張畳み込み層９１３の出力は、同じサイズである。加算及びＲｅＬＵ層９１４は加算及びＲｅＬＵ層９１２及び深さ方向圧縮－拡張畳み込み層９１３の出力を加算し、ＲｅＬＵを適用して、出力データを生成する。プーリング層９１５は、冗長データを受信し、プーリング（例えば、ストライド２で最大プーリング）を提供して、ＣＮＮ９００の第３段階からの出力特徴マップ（例えば、１６×１６×１２８特徴マップ）を生成する。

畳み込み層９１６は、特徴マップを受信し、例えば２５６個の１×１×１２８畳み込みカーネル、バッチ正規化、スケーリング、及びＲｅＬＵを、第２段階からの特徴マップに適用し、結果データ（例えば、１６×１６×２５６データ）を深さ方向圧縮－拡張畳み込み層９１７及び加算及びＲｅＬＵ層９１８に提供する。深さ方向圧縮－拡張畳み込み層９１７は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば２５６個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９１７は、ポイント方向圧縮畳み込み（例えば、６４個＝２５６／４の１×１×２５６カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、１６×１６×６４データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９１７は、ポイント方向拡張畳み込み（例えば、２５６個の１×１×６４カーネル）を適用して、第２結合特徴マップ（例えば、１６×１６×２５６データ）を生成する。畳み込み層９１６及び深さ方向圧縮－拡張畳み込み層９１７の出力は、同じサイズである。加算及びＲｅＬＵ層９１８は、畳み込み層９１６及び深さ方向圧縮－拡張畳み込み層９１７の出力を加算し、ＲｅＬＵを適用して出力データを生成する。図９Ｃを参照すると、出力データは、深さ方向圧縮－拡張畳み込み層９１９及び加算及びＲｅＬＵ層９２０に提供される。深さ方向圧縮－拡張畳み込み層９１９は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば２５６個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９１９は、ポイント方向圧縮畳み込み（例えば、６４個＝２５６／４の１×１×２５６カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、１６×１６×６４データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９１９は、ポイント方向拡張畳み込み（例えば、２５６個の１×１×６４カーネル）を適用して、第２結合特徴マップ（例えば、１６×１６×２５６データ）を生成する。加算及びＲｅＬＵ層９１８及び深さ方向圧縮－拡張畳み込み層９１９の出力は、同じサイズである。加算及びＲｅＬＵ層９２０は加算及びＲｅＬＵ層９１８及び深さ方向圧縮－拡張畳み込み層９１９の出力を加算し、ＲｅＬＵを適用して、出力データを生成する。プーリング層９２１は、冗長データを受信し、プーリング（例えば、ストライド２で最大プーリング）を提供して、ＣＮＮ９００の第４段階からの出力特徴マップ（例えば、８×８×２５６特徴マップ）を生成する。

畳み込み層９２２は、特徴マップを受信し、例えば５１２個の１×１×２５６畳み込みカーネル、バッチ正規化、スケーリング、及びＲｅＬＵを、第２段階からの特徴マップに適用し、結果データ（例えば、８×８×２５６データ）を深さ方向圧縮－拡張畳み込み層９２３及び加算及びＲｅＬＵ層９２４に提供する。深さ方向圧縮－拡張畳み込み層９２３は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば５１２個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９２３は、ポイント方向圧縮畳み込み（例えば、１２８個＝５１２／４の１×１×５１２カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、８×８×１２８データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９２３は、ポイント方向拡張畳み込み（例えば、５１２個の１×１×１２８カーネル）を適用して、第２結合特徴マップ（例えば、８×８×５１２データ）を生成する。畳み込み層９２２及び深さ方向圧縮－拡張畳み込み層９２３の出力は、同じサイズである。加算及びＲｅＬＵ層９２４は、畳み込み層９２２及び深さ方向圧縮－拡張畳み込み層９２３の出力を加算し、ＲｅＬＵを適用して出力データを生成する。出力データは、深さ方向圧縮－拡張畳み込み層９２５及び加算及びＲｅＬＵ層９２６に提供される。深さ方向圧縮－拡張畳み込み層９２５は、サイズｋ×ｋ（例えば３×３）のカーネル（例えば５１２個のカーネル）を、深さ方向分割可能畳み込み方法で適用して、本願明細書で議論されるように個別特徴マップを生成する。次に、深さ方向圧縮－拡張畳み込み層９２５は、ポイント方向圧縮畳み込み（例えば、１２８個＝５１２／４の１×１×５１２カーネル、ここで４は圧縮率である）を適用して、第１結合特徴マップ（例えば、８×８×１２８データ）を生成する。最後に、深さ方向圧縮－拡張畳み込み層９２５は、ポイント方向拡張畳み込み（例えば、５１２個の１×１×１２８カーネル）を適用して、第２結合特徴マップ（例えば、８×８×５１２データ）を生成する。加算及びＲｅＬＵ層９２４及び深さ方向圧縮－拡張畳み込み層９２５の出力は、同じサイズである。加算及びＲｅＬＵ層９２６は加算及びＲｅＬＵ層９２４及び深さ方向圧縮－拡張畳み込み層９２５の出力を加算し、ＲｅＬＵを適用して、出力データを生成する。プーリング層９２７は、結果データを受信し、プーリング（例えば、グローバル平均プーリング）を提供して、出力特徴ベクトルのような出力特徴を生成する。出力特徴は、ソフトマックス（softmax）モジュール９２８及び精度モジュール９２９に提供される。ソフトマックスモジュール９２８は、出力特徴ベクトルに対するソフトマックス関数を、範囲（０，１］の値の出力特徴ベクトルに実施して、全部のエントリが１だけ加算されるようにする。結果として生じた出力特徴ベクトルは、出力特徴ベクトル（例えば、閾値も超える最高値）の最良一致を決定するために、又は一致が発見されるか否かを決定するために、（制御部１０４により）使用されてよい。

表１は、ＣＮＮ９００、乗算及び加算演算の数（＃ＭＡｄｄ）、パラメータの数（＃Ｐａｒａｍｅｔｅｒ）、及び残余加算演算の数（Ｒｅｓｉｄｕａｌ－ＡＤＤ）を各段階で纏めたものである。表１で、（ｋ，ｎ）は標準的な畳み込みを示し、第１の数「ｋ」は二乗２Ｄカーネルサイズ（例えば、ｋ×ｋ）を示し、第２の数「ｎ」は出力チャネルの数を示す。例えば、Ｃｏｎｖ１１では、（３，３２）は３２個の出力チャネルを有する３×３カーネルを示す。更に、＜ｋ，ｎ＞は、本願明細書で議論されるような深さ方向分割可能畳み込みを示し、第１の数「ｋ」は２Ｄカーネルサイズを示し、第２の数「ｎ」は出力チャネルの数を示す。例えば、＜３，３２＞は、３２個の分割可能な２D畳み込みを有する３×３の２Dカーネルを示す。表１に示すように、各深さ方向畳み込みの後に、本願明細書で議論したように１つの圧縮ポイント方向畳み込み及び１つの拡張ポイント方向畳み込みが続く。ネットワークでは、各畳み込み層の後に、バッチ正規化層（batch－normalization layer (BN)）、スケーリング層、ＲｅＬＵ活性化が続く。これらは表示の明確化のために示されない。更に、提示のネットワークは、１１０ＭのＭＡｄｄ及び５３０Ｋの＃Ｐａｒａｍｅｔｅｒｓのみを有し、これは、従来のネットワークに対して、有意な計算の複雑さ及びモデルの圧縮をもたらす。利用可能オブジェクト検出データセットを用いてベンチマークされた本願明細書に議論されるネットワークの精度は、９８．９％精度、９３．６％ＴＰＲ＠ＦＰＲ＝０．１％（つまり、１０００個のオブジェクトをテストする間、１個の間違い警報しか有しない正解数）、及び７３．６％ｒａｎｋ－１ＤＩＲ＠ＦＡＲ＝１％を提供する。

表１：ＣＥＤＮｅｔ（ｇ＝４）概要

図１０は、本開示の少なくとも幾つかの実装により構成された深さ方向圧縮－拡張畳み込みを含む畳み込みニューラルネットワークをトレーニングする例示的な処理１０００を示すフロー図である。処理１０００は、図１０に示すような１つ以上の動作１００１～１００４を含んでよい。処理１０００は、本願明細書で議論される任意の装置又はシステムにより実行されてよく、本願明細書で議論されるような深さ方向圧縮－拡張畳み込みを有する任意のＣＮＮをトレーニングする。処理１０００又はその部分は、任意のＣＮＮトレーニング、トレーニングセット、等について繰り返されてよい。処理１０００は、本願明細書で議論される任意のＣＮＮをトレーニングするために使用されてよい。処理１０００により生成されるパラメータ重みは、メモリに格納され、例えばプロセッサにより実装されてよい。

処理１０００は、動作１００１で開始し、画像データ１１１に関して議論された任意の特性を有する入力画像のトレーニングコーパスが取得される。トレーニングコーパス又はトレーニングデータは、正確なラベル及び誤ったラベルによりラベル付けされたＣＮＮにより検出されるべきオブジェクト（例えば、顔）を有する画像のような画像データ１１１の任意の適切なコーパスを含んでよい。動作１００２で処理は継続し、１つ以上の正規化入力画像がトレーニング画像の各々から抽出される。このような正規化は、任意の適切な技術又は複数の技術を用いて実行されてよく、検出及び正規化モジュール１０２に関して議論したような実装段階で実装されるようそれらを照合してよい。顔検出及び認識に関して議論したが、本願明細書で議論される技術を用いて任意のオブジェクト種類が検出され認識されてよい。

処理は動作１００３で継続し、動作１００２で獲得された各正規化入力画像セグメント（例えば、正規化入力画像データ）は、ＣＮＮをトレーニングするために使用される。一実施形態では、ＣＮＮの実装のためのＣＮＮパラメータ重みは、フィルタ重み及び完全結合層重みを含み、後方伝搬トレーニング技術に基づく各画像セグメントを用いて生成される。例えば、ＣＮＮフィルタサイズ、数、ストライド、及びチャネルは、マルチ段階ＣＮＮについて予めフォーマットされ又は予め選択されてよい。例えば、ＣＮＮ３００、ＣＮＮ段階４００、ＣＮＮ段階８００、ＣＮＮ９００に関して本願明細書で議論された又は任意の他のＣＮＮの任意の特性、カーネルサイズ、数、プーリング特性、ストライド、及びチャネルは、選択されてよい。

トレーニング中、このようなＣＮＮ特性が使用されてよく、ＣＮＮパラメータ重みはトレーニングされてよい。例えば、ＣＮＮ特性は、固定されてよく、ＣＮＮパラメータ重み最初にランダムにされて、ランダムＣＮＮパラメータ重みを確立してよい。次に、各トレーニング段階で、ＣＮＮが、順方向パスで、ＣＮＮ全体を通過する画像セグメントに適用される。ＣＮＮ出力データは、次に、知られているオブジェクトラベルを用いる損失関数に提供されて、平均二乗誤差のような任意の適切な技術又は複数の技術を用いて損失又は誤りを定める。次に、ＣＮＮを逆方向に通過させて、損失又は誤りに最も貢献した重みを決定し、それらを変更して損失又は誤りを低減又は最小化してよい。ＣＮＮパラメータ重みは、それにより調整され、追加トレーニング画像セグメントにより処理が継続する。更に、幾つかの又は全部の画像セグメントは、反復的方法で再び使用されてよい。このような処理は、損失目標が特定の画像サブセットについて満たされるまで、固定数の反復の後まで、等、継続してよい。

処理は動作１００４で継続し、結果として生じたＣＮＮパラメータ重みが出力される。例えば、選択されたＣＮＮ特性及びトレーニング後に結果として生じたＣＮＮパラメータ重みは、メモリに格納され、及び／又は別の装置へ実装のために送信されてよい。

図１１は、本開示の少なくとも幾つかの実装により構成された深さ方向圧縮－拡張畳み込みを含む畳み込みニューラルネットワークを実装する例示的な処理１１００を示すフロー図である。処理１１００は、図１１に示すような１つ以上の動作１１０１～１１０４を含んでよい。処理１１００は、畳み込みニューラルネットワーク処理の少なくとも一部を形成してよい。非限定的な例として、処理１１００は、畳み込みニューラルネットワークの実装段階中に本願明細書で議論されるような装置１００により実行される顔認識処理の少なくとも一部を形成してよい。更に、処理１１００は、図１２のシステム１２００を参照して本願明細書で議論される。

図１２は、本開示の少なくとも幾つかの実装により構成された深さ方向圧縮－拡張畳み込みを含む畳み込みニューラルネットワークを実装する例示的なシステム１２００の説明図である。図１２に示すように、システム１２００は、１つ以上の中央処理ユニット（central processing units (CPU)）１２０１、グラフィック処理ユニット１２０２、及びメモリストア１２０３を含んでよい。また、図示のように、グラフィック処理ユニット１２０２は、顔検出及び正規化モジュール１０２、ＣＮＮモジュール１０２、及び制御部１０４を含み又は実装してよい。このようなモジュールは、本願明細書で議論される動作を実行するために実装されてよい。システム１２００の例では、メモリストア１２０３は、入力画像データ、正規化入力画像データ、ＣＮＮ出力データ、ＣＮＮ重み、ＣＮＮカーネル、３Ｄ画像セグメントデータ、ＣＮＮ特性及びパラメータデータ、バイナリニューラル特徴、オブジェクト認識データ、又は本願明細書で議論される任意の他のデータ又はデータ構造を格納してよい。

図示のように、幾つかの例では、顔検出及び正規化モジュール１０２、ＣＮＮモジュール１０３、及び制御部１０４は、グラフィック処理ユニット１２０２により実装される。他の例では、顔検出及び正規化モジュール１０２、ＣＮＮモジュール１０３、及び制御部１０４のうちの１つ以上又はその部分は、中央処理ユニット１２０１又はシステム１２００の画像処理ユニット（図示せず）により実装される。更に他の例では、顔検出及び正規化モジュール１０２、ＣＮＮモジュール１０３、及び制御部１０４のうちの１つ以上又はその部分は、画像処理パイプライン、グラフィックパイプライン、等により実装される。

グラフィック処理ユニット１２０２は、本願明細書で議論されるような動作を提供し得る任意の数及び種類のグラフィック処理ユニットを含んでよい。このような動作は、ソフトウェア又はハードウェア又はそれらの組み合わせにより実装されてよい。例えば、グラフィック処理ユニット１２０２は、メモリストア１２０３から取得された画像データ、ＣＮＮデータ、等を操作するために専用の回路を含んでよい。中央処理ユニット１２０１は、システム１２００に制御又は他の高レベル機能を提供し得る及び／又は本願明細書で議論される任意の動作を提供し得る任意の数及び種類の処理ユニット又はモジュールを含んでよい。メモリストア１２０３は、揮発性メモリ（例えば、静的ランダムアクセスメモリ（Static Random Access Memory, SRAM）、動的ランダムアクセスメモリ（Dynamic Random Access Memory, DRAM）、等）又は不揮発性メモリ（例えば、フラッシュメモリ、等）、等のような任意の種類のメモリであってよい。非限定的な例では、メモリストア１２０３はキャッシュメモリにより実装されてよい。一実施形態では、顔検出及び正規化モジュール１０２、ＣＮＮモジュール１０３、及び制御部１０４のうちの１つ以上又はその部分は、グラフィック処理ユニット１２０２の実行ユニット（execution unit (EU)）により実装される。ＥＵは、例えば、プログラマブルロジック機能の広範なアレイを提供し得るロジックコア又は複数のコアのようなプログラマブルロジック又は回路を含んでよい。一実施形態では、顔検出及び正規化モジュール１０２、ＣＮＮモジュール１０３、及び制御部１０４のうちの１つ以上又はその部分は、固定機能回路等のような専用ハードウェアにより実装される。固定機能回路は、専用ロジック又は回路を含んでよく、固定目的または機能の専用ロジックへマッピングし得る固定機能エントリポイントのセットを提供してよい。幾つかの実施形態では、顔検出及び正規化モジュール１０２、ＣＮＮモジュール１０３、及び制御部１０４のうちの１つ以上又はその部分は、特定用途向け集積回路（application specific integrated circuit (ASIC)）により実装される。ＡＳＩＣは、本願明細書で議論される動作を実行するようカスタマイズされた集積回路を含んでよい。

図１１の議論に戻ると、処理１１００は、動作１１０１で開始し、深さ方向分割可能畳み込みが複数の入力特徴マップに適用されて、複数の個別２Ｄ特徴マップを生成する。その結果、入力特徴マップは入力画像データに関連付けられる。入力画像データは、本願明細書で議論される任意の適切な入力画像データであってよい。一実施形態では、入力画像データはＲＧＢ画像データである。一実施形態では、入力画像データはＲＧＢ－Ｄ画像データである。一実施形態では、入力画像は、認識されるべき検出されたオブジェクト（例えば、顔）を含むよう正規化されて、入力画像データを生成する。入力特徴マップは、入力画像データに対応する。ここで、入力特徴マップは、入力画像データを処理するとき、ＣＮＮにより生成される。深さ方向分割可能畳み込みは、ＣＮＮの任意の段階で入力特徴マップに適用されてよく、入力特徴マップは、任意の次元（例えば、高さ、幅、及びチャネル）であってよい。深さ方向分割可能畳み込みは、入力特徴マップの入力チャネルに渡り情報が共有されないように、任意の適切な技術又は複数の技術を用いて適用されてよい。一実施形態では、深さ方向分割可能畳み込みの適用は、入力特徴マップの各々への多数のカーネル（例えば、ｋ×ｋ×１カーネル）を含む。

処理は、動作１１０２で継続し、圧縮ポイント方向畳み込みが個別２Ｄ特徴マップに適用されて、第１の数のチャネルを有する複数の結合特徴マップ（例えば、第１結合特徴マップ）を生成する。圧縮ポイント方向畳み込みは、個別２Ｄ特徴マップのチャネルに渡り情報が共有されるように、任意の適切な技術又は複数の技術を用いて適用されてよい。一実施形態では、圧縮ポイント方向畳み込みの適用は、ｇが１より大きい圧縮係数であるように、第１の数ｎ／ｇのカーネルを個別２Ｄ特徴マップに適用することを含む。一実施形態では、ｎは動作１１０１で提供されるカーネルの数、及び入動作１１０１で受信される力特徴マップのチャネルの数である。

処理は、動作１１０３で継続し、拡張ポイント方向畳み込みが動作１１０２で生成された結合特徴マップに適用されて、第１の数のチャネルより多い第２の数のチャネルを有する複数の結合特徴マップ（例えば、第２結合特徴マップ）を生成する。拡張ポイント方向畳み込みは、動作１１０２で生成された結合特徴マップのチャネルに渡り情報が共有されるように、任意の適切な技術又は複数の技術を用いて適用されてよい。一実施形態では、拡張ポイント方向畳み込みの適用は、第２の数ｍの１×１×（ｎ／ｇ）カーネルの結合特徴マップへの適用を含む。

処理は動作１１０４で継続し、オブジェクト認識データは、動作１１０３で生成された結合特徴マップに少なくとも部分的に基づき、入力画像データに対応する出力である。例えば、ＣＮＮは、オブジェクト認識データを生成するために使用され得るＣＮＮ入力データを生成するために更なる処理を提供してよい。オブジェクト認識データは、オブジェクト（例えば顔）が認識されたこと（又はされないこと）を示す又は特定のオブジェクト（例えば顔）が認識されたことを示す任意の適切なデータを含んでよい。一実施形態では、オブジェクト認識データは、入力画像データがユーザの顔に対応するか否かの指示子を含む。一実施形態では、オブジェクト認識データは、複数の候補の顔のうちの１つに対応するラベルを含む。

上述のように、動作１１０３で生成された結合特徴マップは、ＣＮＮにより更に処理されてよい。一実施形態では、処理１１００は、動作１１０１で受信した入力特徴マップ及び動作１１０３で生成された結合特徴マップを加算することにより、残余接続（residual connection）を実行して、出力特徴マップを生成するステップと、出力特徴マップ又は出力特徴マップに対応する第２出力特徴マップ（例えば、第２出力特徴マップはＲｅＬＵ等により第２出力特徴マップを更に処理することにより生成される）を、ＣＮＮの第２深さ方向分割可能畳み込みに提供するステップと、を更に含む。幾つかの実施形態では、処理１１００は、また、第２深さ方向分割可能畳み込み、第２圧縮ポイント方向畳み込み、及び第２拡張ポイント方向畳み込みを、出力特徴マップ又は第２出力特徴マップに適用して、第３出力特徴マップを生成するステップであって、第３出力特徴マップは、上述の第２の数のチャネルより多い第３の数のチャネルを有する、ステップ、を更に含む。一実施形態では、第２圧縮ポイント方向畳み込みは、第３の数のチャネルを有する第３結合特徴マップを生成し、第２拡張ポイント方向畳み込みは、第４の数のチャネルを有する第４結合特徴マップを生成し、第２の数のチャネルの第１の数のチャネルに対する比は、第４の数のチャネルの第３の数のチャネルに対する比と同じである（例えば、両方の比が圧縮係数ｇである）。一実施形態では、処理１１００は、第２深さ方向分割可能畳み込み、第２圧縮ポイント方向畳み込み、及び第２拡張ポイント方向畳み込みを、第２結合特徴マップに適用して、第３結合特徴マップを生成し、第３出力特徴マップは、第２の数のチャネルと等しい第３の数のチャネルを有する。

処理１１００は、入力画像データに基づき、オブジェクト（例えば、顔）認識データ又はオブジェクトラベルデータを生成するステップを提供してよい。処理１１００は、任意の数の入力画像データセグメント、入力画像、等について、直列に又は並列に、任意の回数だけ繰り返されてよい。上述のように、処理１１００は、低い計算及びメモリ要件により、高品質オブジェクト認識結果を提供し得る。

本願明細書に記載されたシステムの種々のコンポーネントは、ソフトウェア、ファームウェア、及び／又はハードウェア及び／又はそれらの任意の組み合わせで実装されてよい。例えば、本願明細書で議論された装置又はシステムの種々のコンポーネントは、少なくとも部分的に、例えばコンピュータ、ラップトップコンピュータ、タブレット、又はスマートフォンのようなコンピューティングシステムに見られるようなコンピューティングＳｏＣ（System－on－a－Chip）のハードウェアにより提供されてよい。例えば、このようなコンポーネント又はモジュールは、マルチコアＳｏＣプロセッサにより実装されてよい。当業者は、本願明細書に記載されるシステムが、対応する図面に示されない追加コンポーネントを含んでよいことを理解する。

本願明細書で議論される例示的な処理の実装は図示された順序で示される全部の動作を実施することを含み得るが、本開示はこれに関して限定されず、種々の例では、本願明細書の例示的な処理の実装は、図示された動作の一部のみ、図示と異なる順序で実行される動作、又は追加の動作を含んでよい。

更に、本願明細書で議論された動作のうちの任意の１つ以上は、１つ以上のコンピュータプログラムプロダクトにより提供される命令に応答して実行されてよい。このようなプログラムプロダクトは、例えばプロセッサにより実行されると本願明細書に記載の機能を提供し得る命令を提供する信号搬送媒体を含んでよい。コンピュータプログラムプロダクトは、１つ以上の機械可読媒体の任意の形式で提供されてよい。従って、例えば、１つ以上のグラフィック処理ユニット又はプロセッサコアを含むプロセッサは、１つ以上の機械可読媒体によりプロセッサへと伝達されるプログラムコード及び／又は命令又は命令セットに応答して、本願明細書の例示的な処理のブロックのうちの１つ以上を実行してよい。一般的に、機械可読媒体は、ソフトウェアを、本願明細書に記載の装置及び／又はシステムに本願明細書で議論した動作、モジュールまたはコンポーネントの少なくとも部分を実装させ得るプログラムコード及び／又は命令又は命令セットの形式で伝達してよい。

本願明細書に記載した任意の実装で使用されるとき、用語「モジュール」は、本願明細書に記載の機能を提供するよう構成されるソフトウェアロジック、ファームウェアロジック、ハードウェアロジック、及び／又はカイロの任意の結合を表す。ソフトウェアは、ソフトウェアパッケージ、コード及び／又は命令セット又は命令として実現されてよい。ハードウェアは、本願明細書に記載の任意の実装で使用されるとき、例えば、プログラマブル回路により実行される命令を格納するハードワイヤド回路、プログラマブル回路、状態機械回路、固定機能回路、実行ユニット回路、及び／又はファームウェアのうちの単一又は任意の組み合わせを含んでよい。モジュールは、集合的に又は個別に、より大きなシステム、例えば集積回路（ＩＣ）、ＳｏＣ（system－on－chip）、等の部分を形成する回路として実現されてよい。

図１３は、本開示の少なくとも幾つかの実装により全て構成された例示的なシステム１３００の説明図である。種々の実装では、システム１３００はコンピューティングシステムであってよいが、システム１３００はこのコンテキストに限定されない。例えば、システム１３００は、パーソナルコンピュータ（ＰＣ）、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、ファブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、セルラ電話機、結合型セルラ電話機／ＰＤＡ、テレビジョン、スマート装置（例えば、スマートフォン、スマートタブレット、又はスマートテレビジョン）、モバイルインターネット装置（ＭＩＤ）、メッセージ装置、データ通信装置、周辺装置、ゲームコンソール、ウェアラブル装置、ディスプレイ装置、オールインワン装置、ツーインワン装置、等に組み込まれてよい。

種々の実装では、システム１３００は、ディスプレイ１３２０に結合されたプラットフォーム１３０２を含む。プラットフォーム１３０２は、コンテンツサービス装置１３３０又はコンテンツ配信装置１３４０又はカメラ若しくはカメラモジュール等のような他の同様のコンテンツソースのようなコンテンツ装置からコンテンツを受信してよい。１つ以上のナビゲーション機能を含むナビゲーション制御部１３５０は、例えばプラットフォーム１３０２及び／又はディスプレイ１３２０と相互作用するために使用されてよい。これらのコンポーネントの各々は、以下に詳述される。

種々の実装では、プラットフォーム１３０２は、チップセット１３０５、プロセッサ１３１０、メモリ１３１２、アンテナ１３１３、記憶装置１３１４、グラフィックサブシステム１３１５、アプリケーション１３１６、及び／又は無線機１３１８の任意の組み合わせを含んでよい。チップセット１３０５は、プロセッサ１３１０、メモリ１３１２、記憶装置１３１４、グラフィックサブシステム１３１５、アプリケーション１３１６、及び／又は無線機１３１８の間の相互通信を提供してよい。例えば、チップセット１３０５は、記憶装置１３１４との相互通信を提供可能な記憶装置アダプタ（図示せず）を含んでよい。

プロセッサ１３１０は、ＣＩＳＣ（Complex Instruction Set Computer）又はＲＩＳＣ（Reduced Instruction Set Computer）プロセッサ、ｘ８６命令セット互換プロセッサ、マルチコア、又は任意の他のマイクロプロセッサ又は中央処理ユニット（ＣＰＵ）として実装されてよい。種々の実装では、プロセッサ１３１０は、デュアルコアプロセッサ、デュアルコアモバイルプロセッサ、等であってよい。

メモリ１３１２は、限定ではないが、ＲＡＭ（Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、又はＳＲＡＭ（Static RAM）のような揮発性メモリ装置として実装されてよい。

記憶装置１３１４は、限定ではないが、磁気ディスクドライブ、光ディスクドライブ、テープドライブ、内部記憶装置、外付け記憶装置、フラッシュメモリ、バッテリバックアップＳＤＲＡＭ（synchronous DRAM）、及び／又はネットワークアクセス可能な記憶装置のような不揮発性記憶装置として実装されてよい。種々の実装では、記憶装置１３１４は、例えば複数のハードドライブが含まれるとき、貴重なデジタルメディアのための記憶性能拡張保護を向上する技術を含んでよい。

グラフィックサブシステム１３１５は、表示のための静止画像、グラフィック、又はビデオのような画像の処理を実行してよい。グラフィックサブシステム１３１５は、例えば、グラフィック処理ユニット（graphics processing unit (GPU)）、視覚処理ユニット（visual processing unit (VPU)）、又は画像処理ユニットであってよい。幾つかの例では、グラフィックサブシステム１３１５は、本願明細書で議論されたスキャン画像レンダリングを実行してよい。アナログ又はデジタルインタフェースは、グラフィックサブシステム１３１５及びディスプレイ１３２０を通信可能に結合するために使用されてよい。例えば、インタフェースは、高解像度マルチメディアインタフェース（High－Definition Multimedia Interface）、ディスプレイポート（DisplayPort）、無線ＨＤＭＩ（登録商標）、及び／又は無線ＨＤ対応技術のうちのいずれかであってよい。グラフィックサブシステム１３１５は、プロセッサ１３１０又はチップセット１３０５に統合されてよい。幾つかの実装では、グラフィックサブシステム１３１５は、チップセット１３０５に通信可能に結合されるスタンドアロン型装置であってよい。

本願明細書に記載される画像処理技術は、種々のハードウェアアーキテクチャで実装されてよい。例えば、画像処理機能はチップセット内に統合されてよい。代替として、個別グラフィック及び／又は画像プロセッサ、及び／又は特定用途向け集積回路が使用されてよい。更に別の実装として、画像処理は、マルチコアプロセッサを含む汎用プロセッサにより提供されてよい。更なる実施形態では、機能は、消費者電子機器に実装されてよい。

無線機１３１８は、種々の適切な無線通信技術を用いて信号を送信及び受信可能な１つ以上の無線機を含んでよい。このような技術は、１つ以上の無線ネットワークに渡る通信に関連してよい。例示的な無線ネットワークは、（限定ではないが）無線ローカルエリアネットワーク（ＷＬＡＮ）、無線個人域ネットワーク（ＷＰＡＮ）、無線都市域ネットワーク（ＷＭＡＮ）、セルラネットワーク、及び衛星ネットワークを含む。このようなネットワークに渡る通信では、無線機１３１８は、任意のバージョンの１つ以上の適用可能な標準に従い動作してよい。

種々の実装では、ディスプレイ１３２０は、任意の平面パネルモニタ又はディスプレイを含んでよい。ディスプレイ１３２０は、例えば、コンピュータディスプレイスクリーン、タッチスクリーンディスプレイ、ビデオモニタ、テレビのような装置、及び／又はテレビジョン、を含んでよい。ディスプレイ１３２０は、デジタル及び／アナログであってよい。種々の実装では、ディスプレイ１３２０は、ホログラフィックディスプレイであってよい。また、ディスプレイ１３２０は、視覚的投影を受信してよい透明な表面であってよい。このような投影は、種々の形式の情報、画像、及び／又はオブジェクトを伝達してよい。例えば、このような投影は、モバイル拡張現実（mobile augmented reality (MAR)）アプリケーションであってよい。１つ以上のソフトウェアアプリケーション１３１６の制御下で、プラットフォーム１３０２は、ディスプレイ１３２０上にユーザインタフェース１３２２を表示してよい。

種々の実装では、コンテンツサービス装置１３３０は、任意の国内、国際、及び／又は独立サービスによりホスティングされてよく、従って、例えばインターネットを介してプラットフォーム１３０２にアクセス可能であってよい。コンテンツサービス装置１３３０は、プラットフォーム１３０２及び／又はディスプレイ１３２０に結合されてよい。プラットフォーム１３０２及び／又はコンテンツサービス装置１３３０は、メディア情報をネットワーク１３６０へ及びそれから通信（例えば、送信及び／又受信）するために、ネットワーク１３６０に結合されてよい。コンテンツ配信装置１３４０も、プラットフォーム１３０２及び／又はディスプレイ１３２０に結合されてよい。

種々の実装では、コンテンツサービス装置１３３０は、ケーブルテレビジョンボックス、パーソナルコンピュータ、ネットワーク、電話機、デジタル情報及び／又はコンテンツを配信可能なインターネット対応装置又は家電、コンテンツプロバイダとプラットフォーム１３０２とディスプレイ１３２０との間でネットワーク１３６０を介して又は直接にコンテンツを単方向又は双方向通信できる任意の他の同様の装置を含んでよい。コンテンツは、システム１３００内のコンポーネントのうちの任意の１つ及びコンテンツプロバイダへ及びそれらからネットワーク１３６０を介して単方向及び／又は双方向通信されてよい。コンテンツの例は、例えばビデオ、音楽、医療及びゲーム情報、等を含む任意のメディア情報を含んでよい。

コンテンツサービス装置１３３０は、メディア情報、デジタル情報、及び／又は他のコンテンツを含むケーブルテレビジョン番組のようなコンテンツを受信してよい。コンテンツプロバイダの例は、任意のケーブル又は衛星テレビジョン又はラジオ又はインターネットコンテンツプロバイダを含んでよい。提供された例は、本開示に従う実装をどのようにも限定することを意味しない。

種々の実装では、プラットフォーム１３０２は、制御信号を、１つ以上のナビゲーション機能を有するナビゲーション制御部１３５０から受信してよい。ナビゲーション制御部１３５０のナビゲーション機能は、例えば、ユーザインタフェース１３２２と相互作用するために使用されてよい。種々の実施形態では、ナビゲーション制御部１３５０は、ユーザが空間的（例えば、連続及び多次元）データをコンピュータに入力することを可能にするコンピュータハードウェアコンポーネント（具体的には、ヒューマンインタフェース装置）であってよいポインティングデバイスであってよい。グラフィックユーザインタフェース（ＧＵＩ）、テレビジョン、及びモニタのような多数のシステムは、ユーザが身体的ジェスチャを用いてデータを制御し、コンピュータ又はテレビジョンにデータを提供することを可能にする。

ナビゲーション制御部１３５０のナビゲーション機能の動きは、ポインタ、カーソル、焦点リング、又はディスプレイ上に表示される他の視覚的指示子の動きにより、ディスプレイ（例えば、ディスプレイ１３２０）上で模写されてよい。例えば、ソフトウェアアプリケーション１３１６の制御下で、ナビゲーション制御部１３５０に配置されたナビゲーション機能は、例えばユーザインタフェース１３２２上に表示される仮想ナビゲーション機能にマッピングされてよい。種々の実施形態では、ナビゲーション制御部１３５０は、個別コンポーネントでなくてよいが、プラットフォーム１３０２及び／又はディスプレイ１３２０に統合されてよい。しかしながら、本開示は、図示の又は本願明細書に記載のコンテキストに又は要素に限定されない。

種々の実装では、装置（図示せず）は、ユーザが、テレビジョンのようなプラットフォーム１３０２を、例えば初期ブートアップの後に、有効にされるとき、ボタンのタッチにより瞬時にオン及びオフにできるようにする技術を含んでよい。プログラムロジックは、プラットフォーム１３０２が、メディアアダプタ又は他のコンテンツサービス装置１３３０又はコンテンツ配信装置１３４０に、プラットフォームが「オフ」にされているときでも、コンテンツをストリーミングできるようにしてよい。更に、チップセット１３０５は、例えば５．１サラウンドサウンドオーディオ及び／又は高解像度１２．１サラウンドサウンドオーディオのハードウェア及び／又はソフトウェアサポートを含んでよい。ドライバは、統合グラフィックプラットフォームのためのグラフィックドライバを含んでよい。種々の実施形態では、グラフィックドライバは、ＰＣＩ（peripheral component interconnect）Expressグラフィックカードを含んでよい。

種々の実装では、システム１３００内に示されたコンポーネントのうちの任意の１つ以上は、統合されてよい。例えば、プラットフォーム１３０２及びコンテンツサービス装置１３３０が統合されてよく、又はプラットフォーム１３０２及びコンテンツ配信装置１３４０が統合されてよく、又はプラットフォーム１３０２、コンテンツサービス装置１３３０、及びコンテンツ配信装置１３４０が統合されてよい。種々の実施形態では、プラットフォーム１３０２及びディスプレイ１３２０は統合されたユニットであってよい。例えば、ディスプレイ１３２０及びコンテンツサービス装置１３３０が統合されてよく、又はディスプレイ１３２０及びコンテンツ配信装置１３４０が統合されてよい。これらの例は、本開示を限定することを意味しない。

種々の実施形態では、システム１３００は、無線システム、有線システム、又は両者の組み合わせとして実装されてよい。無線システムとして実装されるとき、システム１３００は、１つ以上のアンテナ、送信機、受信機、トランシーバ、増幅器、フィルタ、制御ロジック、等のような無線共有媒体を介して通信するために適するコンポーネント及びインタフェースを含んでよい。無線共有媒体の例は、ＲＦスペクトル等のような無線スペクトルの部分を含んでよい。有線システムとして実装されるとき、システム１３００は、入力／出力（Ｉ／Ｏ）アダプタ、Ｉ／Ｏアダプタを対応する有線通信媒体に接続するための物理コネクタ、ネットワークインタフェースカード（ＮＩＣ）、ディスク制御部、ビデオ制御部、オーディオ制御部、等のような無線通信媒体を介して通信するために適するコンポーネント及びインタフェースを含んでよい。有線通信媒体の例は、ワイヤ、ケーブル、金属リード、印刷回路基板（ＰＣＢ）、バックプレーン、スイッチ設備、半導体材料、より対線、同軸ケーブル、光ファイバ、等を含んでよい。

プラットフォーム１３０２は、情報を通信するために、１つ以上の論理又は物理チャネルを確立してよい。情報は、メディア情報及び制御情報を含んでよい。メディア情報は、ユーザにコンテンツの意味を提示する任意のデータを表してよい。コンテンツの例は、例えば、ビデオ通話からのデータ、ビデオ会議、ストリーミングビデオ、電子メール（email）メッセージ、音声メールメッセージ、英数字記号、グラフィック、画像、ビデオ、テキスト、等を含んでよい。ビデオ通話からのデータは、例えば、会話情報、無音期間、背景雑音、快適雑音、トーン、等であってよい。制御情報は、自動システムにとって意味のあるコマンド、命令、又は制御語を提示する任意のデータを表してよい。例えば、制御情報は、システムを通じてメディア情報をルーティングし、所定の方法でメディア情報を処理するようノードに指示するために使用されてよい。しかしながら、実施形態は、図１３に示した又は記載したコンテキストに又は要素に限定されない。

上述のように、システム１３００は、種々の物理的形式又は寸法で実現されてよい。図１４は、本開示の少なくとも幾つかの実装により構成された例示的な小型装置１４００を示す。幾つかの例では、システム１３００は、装置１４００により実装されてよい。他の例では、本願明細書で議論された他のシステム、コンポーネント、又はモジュール、又はそれらの部分は、装置１４００により実装されてよい。種々の実施形態では、例えば、装置１４００は、無線能力を有するモバイルコンピューティング装置として実装されてよい。モバイルコンピューティング装置は、例えば、処理システム及び１つ以上のバッテリのようなモバイル電源若しくは供給を有する任意の装置を表してよい。

例えば、モバイルコンピューティング装置の例は、パーソナルコンピュータ（ＰＣ）、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、セルラ電話機、結合型セルラ電話機／ＰＤＡ、スマート装置（例えば、スマートフォン、スマートタブレット、又はスマートモバイルテレビジョン）、モバイルインターネット装置（ＭＩＤ）、メッセージ装置、データ通信装置、カメラ（例えば、オートフォーカスカメラ、スーパーズームカメラ、デジタル一眼レフ（ＤＳＬＲ）カメラ）等に組み込まれてよい。

モバイルコンピューティング装置の例は、自動車又はロボットにより実装されよう、又は手首コンピュータ、指コンピュータ、指輪コンピュータ、眼鏡コンピュータ、ベルトクリップコンピュータ、腕輪コンピュータ、靴コンピュータ、衣類コンピュータ、及び他のウェアラブルコンピュータのような人間により装着されるよう、構成されるコンピュータも含んでよい。種々の実施形態では、例えば、モバイルコンピューティング装置は、コンピュータアプリケーション及び音声通信及び／又はデータ通信を実行可能なスマートフォンとして実装されてよい。幾つかの実施形態は、例としてスマートフォンとして実装されるモバイルコンピューティング装置により記載され得るが、他の実施形態は他の無線モバイルコンピューティング装置を用いて実装されてもよいことが理解される。実施形態はこのコンテキストに限定されない。

図１４に示されるように、装置１４００は、前面１４０１及び背面１４０２を有する筐体を含んでよい。装置１４００は、ディスプレイ１４０４、入力／出力（Ｉ／Ｏ）装置１４０６、カラーカメラ１４２１、カラーカメラ１４２２、赤外線送信機１４２３、及び内蔵アンテナ１４０８を含む。幾つかの実施形態では、カラーカメラ１４２１、カラーカメラ１４２２、赤外線送信機１４２３は、本願明細書で議論したような３Ｄ画像データを獲得する。幾つかの実施形態では、装置１４００は、カラーカメラ１４２１及び１４２３を含まず、装置１４００は、本願明細書で議論したように入力画像データ（例えば、ＲＧＢ入力画像データ）を獲得する。装置１４００は、ナビゲーション機能１４１２を含んでもよい。Ｉ／Ｏ装置１４０６は、モバイルコンピューティング装置に情報を入力する任意の適切なＩ／Ｏ装置を含んでよい。Ｉ／Ｏ装置１４０６の例は、英数字キーボード、数字パッド、タッチパッド、入力キー、ボタン、スイッチ、マイクロフォン、スピーカ、音声認識装置及びソフトウェア、等を含んでよい。情報は、マイクロフォン（図示せず）により置１４００に入力されてよく、又は音声認識装置によりデジタル処理されてよい。図示のように、装置１４００は、装置１４００の背面１４０２（又はその他の場所）に統合されたカラーカメラ１４２１、１４２２、赤外線送信機１４２３、及びフラッシュ１４１０を含んでよい。他の例では、カラーカメラ１４２１、１４２２、赤外線送信機１４２３、及びフラッシュ１４１０は、装置１４００の前面１４０１に統合されてよく、又はカメラの前面及び背面セットの両方が提供されてよい。カラーカメラ１４２１、１４２２、及びフラッシュ１４１０は、例えばディスプレイ１４０４へと出力される及び／又は装置１４００からアンテナ１４０８を介して遠隔に通信される画像又はストリーミングビデオへと処理されてよいＩＲテクスチャ補正を有するカラー画像データを生成するカメラモジュールのコンポーネントであってよい。

種々の実施形態は、ハードウェア要素、ソフトウェア要素、又は両者の組み合わせを用いて実装されてよい。ハードウェア要素の例は、プロセッサ、マイクロプロセッサ、回路、回路素子（例えば、トランジスタ、抵抗器、キャパシタ、インダクタ、等）、集積回路、特定用途向け集積回路（ＡＳＩＣ）、プログラマブル論理装置（ＰＬＤ）、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、論理ゲート、レジスタ、半導体装置、チップ、マイクロチップ、チップセット、等を含んでよい。ソフトウェアの例は、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、機械プログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、メソッド、プロシージャ、ソフトウェアインタフェース、アプリケーションプログラムインタフェース（ＡＰＩ）、命令セット、コンピューティングコード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、シンボル、又はそれらの任意の組み合わせを含んでよい。実施形態がハードウェア要素及び／又はソフトウェア要素を用いて実装されるかの決定は、所望の計算レート、電力レベル、熱耐性、処理サイクル予算、入力データレート、出力データレート、メモリリソース、データバス速度、及び他の設計又は性能制約のような任意の数の要因に従い変化してよい。

少なくとも一実施形態の１つ以上の態様は、機械により読み取られると、該機械に本願明細書に記載の技術を実行するためのロジックを生成させる、プロセッサ内の種々のロジックを提示する機械可読媒体に格納された代表的命令により実装されてよい。このような表現は、ＩＰコアとして知られ、有形機械可読媒体に格納され、実際にロジック又はプロセッサを作る製造機械にロードするために種々の顧客又は製造設備に供給されてよい。

本願明細書に記載の特定の特徴は、種々の実装を参照して説明されたが、この説明は、限定的意味と考えられることを意図しない。従って、本願明細書に記載の実装の種々の変形、及び他の実装は、本開示の関連する当業者に明らかであり、本開示の精神及び範囲内に包含されると考えられる。

実施形態は、記載の実施形態に限定されず、添付の請求の範囲から逸脱することなく変形及び代替を行うことができることが理解される。例えば、上述の実施形態は、特徴の特定の組み合わせを含んでよい。しかしながら、上述の実施形態はこれに関して限定されず、種々の実施形態では、上述の実施形態は、このような特徴の部分集合のみを実行すること、このような特徴の異なる順序を実行すること、このような特徴の異なる組み合わせを実行すること、及び／又は明示的にリストした特徴に追加した特徴を実行することを含んでよい。実施形態の範囲は、従って、添付の請求の範囲を参照して、権利の与えられた該請求の範囲の均等な全範囲とともに、決定されるべきである。

Claims

畳み込みニューラルネットワーク（ＣＮＮ）を実装するシステムであって、
入力画像データを格納するメモリと、
前記メモリに結合されるプロセッサと、
を含み、前記プロセッサは、
複数の入力特徴マップに深さ方向分割可能畳み込みを適用して、複数の個別２Ｄ特徴マップを生成し、前記複数の入力特徴マップは、前記入力画像データに関連付けられ、
前記複数の個別２Ｄ特徴マップに圧縮ポイント方向畳み込みを適用して、第１の複数の結合特徴マップを生成し、前記第１の複数の結合特徴マップは、第１の数のチャネルを含み、
前記第１の複数の結合特徴マップに拡張ポイント方向畳み込みを適用して、第２の複数の結合特徴マップを生成し、前記第２の複数の結合特徴マップは、前記第１の数のチャネルより多い第２の数のチャネルを有し、
前記第２の複数の結合特徴マップに少なくとも部分的に基づき、前記入力画像データに対応するオブジェクト認識データを出力する、
システム。
前記複数の入力特徴マップは、前記第２の数に一致するチャネル数を有する、請求項１に記載のシステム。
前記プロセッサは、
前記複数の入力特徴マップ及び前記第２の複数の結合特徴マップの和により残余接続を実行して、複数の出力特徴マップを生成し、
前記複数の出力特徴マップ、又は前記複数の出力特徴マップに対応する第２の複数の出力特徴マップを、前記ＣＮＮの第２深さ方向分割可能畳み込みに提供する、
請求項２に記載のシステム。
前記プロセッサは、
前記第２深さ方向分割可能畳み込み、第２圧縮ポイント方向畳み込み、及び第２拡張ポイント方向畳み込みを、前記複数の出力特徴マップまたは前記第２の複数の出力特徴マップに適用して、第３の複数の出力特徴マップを生成し、前記第３の複数の出力特徴マップは、前記第２の数のチャネルより多い第３の数のチャネルを有する、請求項３に記載のシステム。
前記第２圧縮ポイント方向畳み込みは、第３の数のチャネルを有する第３の複数の結合特徴マップを生成し、前記第２拡張ポイント方向畳み込みは、第４の数のチャネルを有する第４の複数の結合特徴マップを生成し、前記第２の数のチャネルの前記第１の数のチャネルに対する比は、前記第４の数のチャネルの前記第３の数のチャネルに対する比と同じである、請求項４に記載のシステム。
前記プロセッサは、
第２深さ方向分割可能畳み込み、第２圧縮ポイント方向畳み込み、及び第２拡張ポイント方向畳み込みを、前記第２の複数の結合特徴マップに適用して、第３の複数の出力特徴マップを生成し、前記第３の複数の出力特徴マップは、前記第２の数のチャネルと等しい第３の数のチャネルを有する、請求項１に記載のシステム。
前記第２の数はｎであり、前記プロセッサが、前記深さ方向分割可能畳み込みを適用することは、前記プロセッサが、ｎ個のｋ×ｋ×１カーネルを前記複数の入力特徴マップの各々に適用することを含み、
前記第１の数はｎ／ｇであり、前記プロセッサが、前記圧縮ポイント方向畳み込みを適用することは、前記プロセッサが、ｎ／ｇ個の１×１×ｎカーネルを前記複数の個別２Ｄ特徴マップに適用することを含み、
前記プロセッサが、前記拡張ポイント方向畳み込みを適用することは、前記プロセッサが、ｎ個の１ｘ１ｘ（ｎ／ｇ）カーネルを前記複数の個別２Ｄ特徴マップに適用することを含む、請求項１に記載のシステム。
ｎ個のチャネルのｎ／ｇ個のチャネルに対する比は、２より大きい圧縮係数ｇを含む、請求項７に記載のシステム。
前記入力画像データは、ＲＧＢ画像データ、ＲＧＢ－Ｄ画像データ、又は赤外線画像データ、のうちの１つを含む、請求項１に記載のシステム。
前記オブジェクト認識データは、前記入力画像データがユーザの顔に対応するか否かの指示子、又は複数の候補の顔のうちの１つに対応するラベル、のうちの１つを含む、請求項１に記載のシステム。
畳み込みニューラルネットワーク（ＣＮＮ）を実装するコンピュータにより実施される方法であって、
複数の入力特徴マップに深さ方向分割可能畳み込みを適用して、複数の個別２Ｄ特徴マップを生成するステップであって、前記複数の入力特徴マップは、入力画像データに関連付けられる、ステップと、
前記複数の個別２Ｄ特徴マップに圧縮ポイント方向畳み込みを適用して、第１の複数の結合特徴マップを生成するステップであって、前記第１の複数の結合特徴マップは、第１の数のチャネルを含む、ステップと、
前記第１の複数の結合特徴マップに拡張ポイント方向畳み込みを適用して、第２の複数の結合特徴マップを生成するステップであって、前記第２の複数の結合特徴マップは、前記第１の数のチャネルより多い第２の数のチャネルを有する、ステップと、
前記第２の複数の結合特徴マップに少なくとも部分的に基づき、前記入力画像データに対応するオブジェクト認識データを出力するステップと、
を含む方法。
前記複数の入力特徴マップは、前記第２の数に一致するチャネル数を有する、請求項１１に記載の方法。
前記複数の入力特徴マップ及び前記第２の複数の結合特徴マップの和により残余接続を実行して、複数の出力特徴マップを生成するステップと、
前記複数の出力特徴マップ、又は前記複数の出力特徴マップに対応する第２の複数の出力特徴マップを、前記ＣＮＮの第２深さ方向分割可能畳み込みに提供するステップと、
を更に含む請求項１２に記載の方法。
前記第２深さ方向分割可能畳み込み、第２圧縮ポイント方向畳み込み、及び第２拡張ポイント方向畳み込みを、前記複数の出力特徴マップまたは前記第２の複数の出力特徴マップに適用して、第３の複数の出力特徴マップを生成するステップであって、前記第３の複数の出力特徴マップは、前記第２の数のチャネルより多い第３の数のチャネルを有する、ステップ、を更に含む請求項１３に記載の方法。
前記第２圧縮ポイント方向畳み込みは、第３の数のチャネルを有する第３の複数の結合特徴マップを生成し、前記第２拡張ポイント方向畳み込みは、第４の数のチャネルを有する第４の複数の結合特徴マップを生成し、前記第２の数のチャネルの前記第１の数のチャネルに対する比は、前記第４の数のチャネルの前記第３の数のチャネルに対する比と同じである、請求項１４に記載の方法。
複数の命令を含む少なくとも１つの機械可読媒体であって、前記複数の命令は、コンピューティング装置で実行されることに応答して、前記コンピューティング装置に、
複数の入力特徴マップに深さ方向分割可能畳み込みを適用して、複数の個別２Ｄ特徴マップを生成させ、前記複数の入力特徴マップは、入力画像データに関連付けられ、
前記複数の個別２Ｄ特徴マップに圧縮ポイント方向畳み込みを適用して、第１の複数の結合特徴マップを生成させ、前記第１の複数の結合特徴マップは、第１の数のチャネルを含み、
前記第１の複数の結合特徴マップに拡張ポイント方向畳み込みを適用して、第２の複数の結合特徴マップを生成させ、前記第２の複数の結合特徴マップは、前記第１の数のチャネルより多い第２の数のチャネルを有し、
前記第２の複数の結合特徴マップに少なくとも部分的に基づき、前記入力画像データに対応するオブジェクト認識データを出力させる、
ことにより畳み込みニューラルネットワーク（ＣＮＮ）を実装させる、機械可読媒体。
前記複数の入力特徴マップは、前記第２の数に一致するチャネル数を有する、請求項１６に記載の機械可読媒体。
前記コンピューティング装置で実行されることに応答して、前記コンピューティング装置に、
前記複数の入力特徴マップ及び前記第２の複数の結合特徴マップの和により残余接続を実行して、複数の出力特徴マップを生成させ、
前記複数の出力特徴マップ、又は前記複数の出力特徴マップに対応する第２の複数の出力特徴マップを、前記ＣＮＮの第２深さ方向分割可能畳み込みに提供させる、
ことにより畳み込みニューラルネットワーク（ＣＮＮ）を実装させる命令を更に含む請求項１７に記載の機械可読媒体。
前記コンピューティング装置で実行されることに応答して、前記コンピューティング装置に、
前記第２深さ方向分割可能畳み込み、第２圧縮ポイント方向畳み込み、及び第２拡張ポイント方向畳み込みを、前記複数の出力特徴マップ又は前記第２の複数の出力特徴マップに適用して、第３の複数の出力特徴マップを生成させ、前記第３の複数の出力特徴マップは、前記第２の数のチャネルより多い第３の数のチャネルを有する
ことにより畳み込みニューラルネットワーク（ＣＮＮ）を実装させる命令を更に含む請求項１８に記載の機械可読媒体。
前記第２圧縮ポイント方向畳み込みは、第３の数のチャネルを有する第３の複数の結合特徴マップを生成し、前記第２拡張ポイント方向畳み込みは、第４の数のチャネルを有する第４の複数の結合特徴マップを生成し、前記第２の数のチャネルの前記第１の数のチャネルに対する比は、前記第４の数のチャネルの前記第３の数のチャネルに対する比と同じである、請求項１９に記載の機械可読媒体。
システムであって、
複数の入力特徴マップに深さ方向分割可能畳み込みを適用して、複数の個別２Ｄ特徴マップを生成する手段であって、前記複数の入力特徴マップは、入力画像データに関連付けられる、手段と、
前記複数の個別２Ｄ特徴マップに圧縮ポイント方向畳み込みを適用して、第１の複数の結合特徴マップを生成する手段であって、前記第１の複数の結合特徴マップは、第１の数のチャネルを含む、手段と、
前記第１の複数の結合特徴マップに拡張ポイント方向畳み込みを適用して、第２の複数の結合特徴マップを生成する手段であって、前記第２の複数の結合特徴マップは、前記第１の数のチャネルより多い第２の数のチャネルを有する、手段と、
前記第２の複数の結合特徴マップに少なくとも部分的に基づき、前記入力画像データに対応するオブジェクト認識データを出力する手段と、
を含むシステム。
前記複数の入力特徴マップは、前記第２の数に一致するチャネル数を有する、請求項２１に記載のシステム。
前記複数の入力特徴マップ及び前記第２の複数の結合特徴マップの和により残余接続を実行して、複数の出力特徴マップを生成する手段と、
前記複数の出力特徴マップ、又は前記複数の出力特徴マップに対応する第２の複数の出力特徴マップを、ＣＮＮの第２深さ方向分割可能畳み込みに提供する手段と、
を更に含む請求項２２に記載のシステム。
前記第２深さ方向分割可能畳み込み、第２圧縮ポイント方向畳み込み、及び第２拡張ポイント方向畳み込みを、前記複数の出力特徴マップ又は前記第２の複数の出力特徴マップに適用して、第３の複数の出力特徴マップを生成する手段であって、前記第３の複数の出力特徴マップは、前記第２の数のチャネルより多い第３の数のチャネルを有する、手段、を更に含む請求項２３に記載のシステム。
前記第２圧縮ポイント方向畳み込みは、第３の数のチャネルを有する第３の複数の結合特徴マップを生成し、前記第２拡張ポイント方向畳み込みは、第４の数のチャネルを有する第４の複数の結合特徴マップを生成し、前記第２の数のチャネルの前記第１の数のチャネルに対する比は、前記第４の数のチャネルの前記第３の数のチャネルに対する比と同じである、請求項２４に記載のシステム。