WO2023112581A1

WO2023112581A1 - 推論装置

Info

Publication number: WO2023112581A1
Application number: PCT/JP2022/042421
Authority: WO
Inventors: 誠二田中
Original assignee: 富士フイルム株式会社
Priority date: 2021-12-14
Filing date: 2022-11-15
Publication date: 2023-06-22
Also published as: US20240311663A1; JPWO2023112581A1; CN118435201A

Abstract

推論装置は、畳み込み処理及びプーリング処理を含む演算処理を実行する第１演算モジュール及び第２演算モジュールを備える。第１演算モジュールは、第１画像データが第１画素数ごとに行方向に分割されることによって生成された複数の第１行データを格納する第１メモリと、複数の第１行データに対して第１畳み込み処理を実行する複数の第１演算器とを有する。第２演算モジュールは、第２画像データが第２画素数ごとに行方向に分割されことによって生成された複数の第２行データを格納する第２メモリと、複数の第２行データに対して第２畳み込み処理を実行する複数の第２演算器とを有する。第１画像データと第２画像データとはチャネル数が互いに異なる。複数の第１行データに対して１回の第１畳み込み処理を並列で実行する第１演算器の数である第１数と、複数の第２行データに対して１回の第２畳み込み処理を並列で実行する第２演算器の数である第２数とが異なる。

Description

推論装置

　本開示の技術は、推論装置に関する。

　特開２００９－０８０６９３号公報には、入力データに対して演算を行うことによって演算結果データを生成し、かつ複数の論理的な処理ノードを接続した階層型ネットワークでネットワーク演算を実行する演算処理装置が開示されている。演算処理装置は、ネットワークを構成する複数の処理ノードの各々に対応して演算結果データを保持するための中間バッファ用の記憶領域をメモリに割り当てるための複数種類のバッファ割り当て方法のそれぞれについて、ネットワーク演算に必要なメモリ量を当該ネットワーク演算の構成に基づいて算出し、算出されたメモリ量に基づいて選択されたバッファ割り当て方法に応じた実行順でネットワーク演算を実行させる。

　本開示の技術に係る一つの実施形態は、処理速度の高速化を可能とする推論装置を提供する。

　上記目的を達成するために、本開示の推論装置は、機械学習済みデータを用いて推論を行う推論装置であって、畳み込み処理及びプーリング処理を含む演算処理を実行する第１演算モジュール及び第２演算モジュールを備え、第１演算モジュールは、入力される第１画像データが第１画素数ごとに行方向に分割されることによって生成された複数の第１行データを格納する第１メモリと、複数の第１行データに対して第１畳み込み処理を実行する複数の第１演算器とを有し、第２演算モジュールは、入力される第２画像データが第２画素数ごとに行方向に分割されることによって生成された複数の第２行データを格納する第２メモリと、複数の第２行データに対して第２畳み込み処理を実行する複数の第２演算器とを有し、第１画像データのチャネル数と第２画像データのチャネル数とは互いに異なり、複数の第１行データに対して１回の第１畳み込み処理を並列で実行する第１演算器の数である第１数と、複数の第２行データに対して１回の第２畳み込み処理を並列で実行する第２演算器の数である第２数とが異なる。

　第２画像データは、第１画像データに対して第１演算モジュールが演算処理を行うことにより生成される特徴量を含む画像データであることが好ましい。

　第２画像データのチャネル数は、第１画像データのチャネル数よりも多く、第１数は、第２数よりも大きいことが好ましい。

　第２演算モジュールに入力される第２画像データの処理画素数は、第１演算モジュールに入力される第１画像データの処理画素数よりも小さいことが好ましい。

　第１演算モジュールによる演算処理と、第２演算モジュールによる演算処理とは並列して実行されることが好ましい。

　第１メモリのデータ格納単位は、第１画素数、第１畳み込み処理に用いられるフィルタのサイズ、及び、第１畳み込み処理に用いられるフィルタのチャネル数に対応することが好ましい。

　第２メモリのデータ格納単位は、第２画素数、第２畳み込み処理に用いられるフィルタのサイズ、及び、第２畳み込み処理に用いられるフィルタのチャネル数に対応することが好ましい。

　第２畳み込み処理に用いられるフィルタの数は、第１畳み込み処理に用いられるフィルタの数よりも多いことが好ましい。

　第１行データは、第１画像データの一部の行に対応するデータであることが好ましい。

　第１メモリ及び第２メモリよりもデータ格納容量が大きく、第１演算モジュールにより生成される特徴量を含む特徴画像データを格納する第３メモリと、入力された入力画像データをアップサンプリングする第３演算モジュールと、をさらに備え、第１演算モジュールは、第１画像データをダウンサンプリングするモジュールであり、第３演算モジュールは、入力画像データをアップサンプリングし、かつ第３メモリに格納された特徴画像データを用いることにより、補正された第１画像データを生成することが好ましい。

推論装置の構成の一例を示す図である。特徴量抽出処理及び分類処理の一例を概念的に示す図である。畳み込み処理及びプーリング処理を詳細に説明する図である。フィルタのｋ番目のチャネルの構成を示す図である。特徴量抽出部の構成の一例を示すブロック図である。画像データの分割処理の一例を示す図である。第１演算モジュールが備えるラインメモリの構成の一例を示す図である。第２演算モジュールが備えるラインメモリの構成の一例を示す図である。第１畳み込み処理について説明する図である。第２畳み込み処理について説明する図である。ＡＬＵの構成の一例を示すブロック図である。ＡＬＵによる１回の第１畳み込み処理の流れの一例を示すフローチャートである。ＡＬＵによる１回の第１畳み込み処理を概念的に示す図である。第１特徴量抽出処理と第２特徴量抽出処理とを概念的に示す図である。第１特徴量抽出処理及び第２特徴量抽出処理のタイミングを示す図である。第１実施形態の変形例に係る特徴量抽出部の構成を示すブロック図である。第３演算モジュールの構成の一例を示すブロック図である。第３畳み込み処理について説明する図である。第１～第３特徴量抽出処理を概念的に示す図である。第２実施形態に係る特徴量抽出部の構成の一例を示すブロック図である。デコーダが備える複数の演算モジュールの構成の一例を示すブロック図である。エンコーダ及びデコーダにより構成されるＣＮＮの階層構造を概念的に示す図である。特徴マップに対して行われるパイプライン処理を説明する図である。

　添付図面に従って本開示の技術に係る実施形態の一例について説明する。

　先ず、以下の説明で使用される文言について説明する。

　以下の説明において、「ＩＣ」は、“Integrated Circuit”の略称である。「ＤＲＡＭ」は、“Dynamic Random Access Memory”の略称である。「ＦＰＧＡ」は、“Field Programmable Gate Array”の略称である。「ＰＬＤ」は、“Programmable Logic Device”の略称である。「ＡＳＩＣ」は、“Application Specific Integrated Circuit”の略称で
ある。「ＣＮＮ」は、“Convolutional Neural Network”の略称である。「ＡＬＵ」は、“Arithmetic Logic Unit”の略称である。

　［第１実施形態］
　図１は、推論装置２の構成の一例を示す。例えば、推論装置２は、デジタルカメラ等の撮像装置に組み込まれる。推論装置２は、機械学習による推論を行う装置であり、例えば、画像データに写る被写体の種類等を推論により求める。撮像装置は、推論装置２から出力される推論結果に基づいて、撮像に関する各種の制御を行う。

　推論装置２は、入力部３、特徴量抽出部４、出力部５、及び学習済みデータ記憶部６を備える。入力部３は、撮像装置が撮像を行うことにより生成された画像データを取得し、取得した画像データを入力データとして特徴量抽出部４に入力する。特徴量抽出部４及び出力部５は、いわゆる畳み込みニューラルネットワーク（ＣＮＮ）を構成している。学習済みデータ記憶部６には、重み７Ａ及びバイアス７Ｂが記憶されている。重み７Ａ及びバイアス７Ｂは、機械学習により生成された機械学習済みデータである。

　特徴量抽出部４は、複数の畳み込み層及びプーリング層で構成された中間層である。本実施形態では、出力部５は、全結合層を含んで構成された出力層である。

　特徴量抽出部４は、入力部３から入力される画像データに対して畳み込み処理及びプーリング処理を実行することにより特徴量を抽出する。出力部５は、特徴量抽出部４により抽出された特徴量に基づいて、推論装置２に入力された画像データを分類する。例えば、出力部５は、画像データに写る被写体の種類を分類する。特徴量抽出部４及び出力部５は、学習済みデータ記憶部６に記憶された重み７Ａ及びバイアス７Ｂを用いて構成される学習済みモデルにより特徴量抽出処理及び分類処理を行う。特徴量抽出処理は、本開示の技術に係る「演算処理」の一例である。

　図２は、特徴量抽出処理及び分類処理の一例を概念的に示す。図２に示すように、入力部３から特徴量抽出部４に入力される画像データＰ１は、Ｒ（Red）、Ｇ（Green）、及びＢ（Blue）の３チャネルで構成されている。特徴量抽出部４は、入力された画像データＰ１に対して、畳み込み処理及びプーリング処理を複数回繰り返し実行する。画像データＰ１は、本開示の技術に係る「第１画像データ」の一例である。

　特徴量抽出部４は、３チャネルの画像データＰ１に対して畳み込み処理を実行することにより６チャネルの特徴マップＦＭ１を生成し、生成した特徴マップＦＭ１に対してプーリング処理を実行することにより画像データＰ２を生成する。画像データＰ１と画像データＰ２とはチャネル数が互いに異なる。画像データＰ２のチャネル数は、画像データＰ１のチャネル数よりも多い。画像データＰ２は、画像データＰ１よりも画素数が減少（すなわち画像サイズが縮小）する。また、画像データＰ２は、画像データＰ１に対して第１演算モジュール１１が特徴量抽出処理を行うことにより生成される特徴量を含む画像データである。画像データＰ２は、本開示の技術に係る「第２画像データ」の一例である。

　また、特徴量抽出部４は、画像データＰ２に対して畳み込み処理を実行することにより１２チャネルの特徴マップＦＭ２を生成し、生成した特徴マップＦＭ２に対してプーリング処理を実行することにより画像データＰ３を生成する。画像データＰ２と画像データＰ３とはチャネル数が互いに異なる。画像データＰ３のチャネル数は、画像データＰ２のチャネル数よりも多い。画像データＰ３は、画像データＰ２よりも画素数が減少（すなわち画像サイズが縮小）する。また、画像データＰ３は、画像データＰ２に対して第２演算モジュール１２が特徴量抽出処理を行うことにより生成される特徴量を含む画像データである。

　図２に示す例では、特徴量抽出部４から出力部５には画像データＰ３が入力される。出力部５は、全結合層を含んで構成されており、特徴量を含む画像データＰ３に基づいて画像データＰ１を分類する。出力部５は、画像データＰ１を分類した結果を推論結果として出力する。

　図３は、畳み込み処理及びプーリング処理を詳細に説明する。図３では、画像データＰ１のチャネル数をＫとしている。特徴量抽出部４は、入力データとしての画像データＰ１に対して、Ｎ個のフィルタＦ_１～Ｆ_Ｎを用いて畳み込み演算を実行することにより、Ｎ個の画像データＣＰ_１～ＣＰ_Ｎを生成する。フィルタＦ_１～Ｆ_Ｎは、上述の重み７Ａにより構成される。画像データＣＰ_１～ＣＰ_Ｎの各々のチャネル数はＫである。

　また、特徴量抽出部４は、画像データＣＰ_１～ＣＰ_Ｎの各々についてチャネルを統合した後、バイアスｂ_１～ｂ_Ｎをそれぞれに加算することにより特徴マップＦＭ１を生成する。なお、チャネルの統合とは、複数のチャネルについて対応する画素値を加算することにより１つのチャネルに変換することをいう。特徴マップＦＭ１のチャネル数はＮである。なお、バイアスｂ_１～ｂ_Ｎは、上述のバイアス７Ｂに対応する。

　さらに、特徴量抽出部４は、特徴マップＦＭ１に対して、例えば２×２のカーネルＱを用いてプーリング処理を実行することにより、画像データＰ２を生成する。プーリング処理は、例えば、カーネルＱ内の画素値の最大値を取得する最大プーリング処理である。なお、最大プーリング処理に代えて、カーネルＱ内の画素値の平均値を取得する平均プーリング処理を用いてもよい。２×２のカーネルＱを用いた場合には、画像データＰ２の画素数は、画像データＰ１の画素数の１／４倍となる。

　なお、特徴量抽出部４は、畳み込み処理又はプーリング処理において活性化関数を適用する。図３では、活性化関数の適用については図示を省略している。

　図４は、フィルタＦ_ｎのｋ番目のチャネルの構成を示す。フィルタＦ_ｎは、Ｎ個のフィルタＦ_１～Ｆ_Ｎのうちの１つのフィルタである。図４に示す例では、フィルタＦ_ｎは、サイズが３×３であり、チャネル数はＫである。フィルタＦ_ｎのｋ番目のチャネルは、９個の重みｗ_{ｐ，ｑ，ｋ，ｎ}により表される。ここで、ｐはフィルタＦ_ｎ内における横方向の座標を表し、ｑはフィルタＦ_ｎ内における縦方向の座標を表す。重みｗ_{ｐ，ｑ，ｋ，ｎ}は、上述の重み７Ａに対応する。なお、フィルタＦ_ｎのサイズは、３×３に限られず、５×５等のサイズに適宜変更可能である。

　上述の畳み込み処理は、下式１により表現される。

　式１において、ａ_{ｘ＋ｐ，ｙ＋ｑ，ｋ}は、画像データＰ１のｋ番目のチャネルにおいて重みｗ_{ｐ，ｑ，ｋ，ｎ}が乗算される画素の画素値を表す。ｘ，ｙは、特徴マップＦＭ１における座標を表す。ｃ_{ｘ，ｙ，ｎ}は、特徴マップＦＭ１のｎ番目のチャネルにおいて、座標ｘ，ｙの画素の画素値を表す。ｂ_ｎは、特徴マップＦＭ１のｎ番目のチャネルの各画素に加算されるバイアスを表す。

　なお、特徴量抽出部４は、画像データＰ２に対して畳み込み処理及びプーリング処理を行う場合には、画像データＰ１に代えて画像データＰ２を入力データとして、同様の処理を行う。

　図５は、特徴量抽出部４の構成の一例を示す。特徴量抽出部４は、入力データ記憶部１０、第１演算モジュール１１、第２演算モジュール１２、及び演算制御部１８を備える。入力データ記憶部１０は、入力部３から入力される画像データＰ１を記憶する。第１演算モジュール１１は、ラインメモリ２０Ａ、畳み込み処理部２１Ａ、及びプーリング処理部２２Ａを備える。なお、プーリング処理部２２Ａは、ＡＬＵ２３Ａ～２３Ｄに対して１つずつ設けられていてもよい。

　第２演算モジュール１２は、ラインメモリ２０Ｂ、畳み込み処理部２１Ｂ、及びプーリング処理部２２Ｂを備える。なお、プーリング処理部２２Ｂは、ＡＬＵ２３Ａ～２３Ｄに対して１つずつ設けられていてもよい。

　演算制御部１８は、入力データ記憶部１０、第１演算モジュール１１、及び第２演算モジュール１２の動作を制御する。第１演算モジュール１１は、画像データＰ１に対して特徴量抽出処理を行うことにより、上述の画像データＰ２を生成する。第２演算モジュール１２は、画像データＰ２に対して特徴量抽出処理を行うことにより、上述の画像データＰ３を生成する。第１演算モジュール１１と第２演算モジュール１２とは、パイプライン処理を行うことにより、特徴量抽出処理を並列して実行する。具体的には、第１演算モジュール１１が処理したデータに対する第２演算モジュール１２の特徴量抽出処理と、第１演算モジュール１１による次のデータの特徴量抽出処理とが並列して実行される。

　畳み込み処理部２１Ａは、畳み込み演算を行う複数のＡＬＵを含む。本実施形態では、畳み込み処理部２１Ａは、４つのＡＬＵ２３Ａ～２３Ｄを備える。詳しくは後述するが、ＡＬＵ２３Ａ～２３Ｄは、入力データに対する畳み込み処理を並列に実行する。

　同様に、畳み込み処理部２１Ｂは、畳み込み演算を行う複数のＡＬＵを含む。本実施形態では、畳み込み処理部２１Ｂは、４つのＡＬＵ２３Ａ～２３Ｄを備える。詳しくは後述するが、ＡＬＵ２３Ａ～２３Ｄは、入力データに対する畳み込み処理を並列に実行する。

　なお、第１演算モジュール１１の畳み込み処理部２１Ａに含まれるＡＬＵ２３Ａ～２３Ｄは、本開示の技術に係る「複数の第１演算器」の一例である。第２演算モジュール１２の畳み込み処理部２１Ｂに含まれるＡＬＵ２３Ａ～２３Ｄは、本開示の技術に係る「複数の第２演算器」の一例である。

　演算制御部１８は、入力データ記憶部１０に記憶された画像データＰ１を第１画素数Ｇ１ごとに行方向に分割して複数の短冊状データ（以下、第１短冊状データＰＳ１という。）を生成する。また、演算制御部１８は、第１短冊状データＰＳ１に含まれる複数の第１行データＲ１を第１演算モジュール１１のラインメモリ２０Ａに順に記憶させる。第１演算モジュール１１のＡＬＵ２３Ａ～２３Ｄは、複数の第１行データＲ１に対して畳み込み処理を実行する。なお、第１行データＲ１は、画像データＰ１の一部の行に対応するデータである。

　また、演算制御部１８は、第１演算モジュール１１から出力される画像データＰ２を構成する複数の第２行データＲ２を第２演算モジュール１２のラインメモリ２０Ｂに順に記憶させる。複数の第２行データＲ２は、画像データＰ２を第２画素数Ｇ２ごとに行方向に分割することによって生成される複数の短冊状データ（以下、第２短冊状データＰＳ２という。）に含まれる。第２演算モジュール１２のＡＬＵ２３Ａ～２３Ｄは、複数の第２行データＲ２に対して畳み込み処理を実行する。

　以下、第１演算モジュール１１が行う畳み込み処理を「第１畳み込み処理」といい、第２演算モジュール１２が行う畳み込み処理を「第２畳み込み処理」という。なお、ラインメモリ２０Ａは、本開示の技術に係る「第１メモリ」の一例である。ラインメモリ２０Ｂは、本開示の技術に係る「第２メモリ」の一例である。第２畳み込み処理に用いられるフィルタの数は、第１畳み込み処理に用いられるフィルタの数よりも多い。

　図６は、演算制御部１８による画像データＰ１の分割処理の一例を示す。画像データＰ１は、Ｒ，Ｇ，Ｂのチャネルごとにｘ方向及びｙ方向に２次元配列された画素を有する。図６に示すように、演算制御部１８は、例えば、画像データＰ１をｘ方向（行方向に対応）に４分割することにより４つの第１短冊状データＰＳ１を生成する。第１短冊状データＰＳ１のｘ方向への幅は、第１画素数Ｇ１に対応する。

　また、本実施形態では、演算制御部１８は、ｘ方向に隣接する第１短冊状データＰＳ１の端部同士が重複するように画像データＰ１を分割する。本実施形態では、サイズが３×３のフィルタを用いた畳み込み処理を２回行うので、重複幅を６画素としている。重複幅は、フィルタのサイズ及び畳み込み処理の回数に応じて変更することが好ましい。

　仮に、画像データＰ１を分割せずに畳み込み処理を行う場合には、畳み込み処理で生成される多チャネルのデータを大容量のメモリ（ＤＲＡＭ等）に格納するために、メモリ帯域幅を高める必要がある。しかし、バッテリー駆動のデジタルカメラ等の撮像装置では、メモリ帯域の高速化は容易ではないので、メモリ帯域が処理のボトルネックとなる。これに対して、上記のように、画像データＰ１を分割することにより、小容量のラインメモリを用いて畳み込み処理を行うことができるので、メモリ帯域によるボトルネックが生じず、処理が高速化する。

　図７は、ラインメモリ２０Ａの構成の一例を示す。ラインメモリ２０Ａのデータ格納単位は、第１画素数Ｇ１、第１畳み込み処理に用いられるフィルタのサイズ、及び、第１畳み込み処理に用いられるフィルタのチャネル数Ｋに対応する。図７において、Ｍ１は、チャネルごとのライン数を表している。ライン数Ｍ１は、フィルタのサイズに応じて決定される。本実施形態では、Ｋ＝３、Ｍ１＝３としている。

　ラインメモリ２０Ａには、第１行データＲ１が、Ｍ１×Ｋ本の単位で格納される。ラインメモリ２０Ａから畳み込み処理部２１Ａには、第１行データＲ１が順に入力される。第１行データＲ１とは、第１短冊状データＰＳ１においてｘ方向に１チャネル分の画素が並んだラインのデータをいう。

　図８は、ラインメモリ２０Ｂの構成の一例を示す。ラインメモリ２０Ｂのデータ格納単位は、第２画素数Ｇ２、第２畳み込み処理に用いられるフィルタのサイズ、及び、第２畳み込み処理に用いられるフィルタのチャネル数Ｎに対応する。図８において、Ｍ２は、チャネルごとのライン数を表している。ライン数Ｍ２は、フィルタのサイズに応じて決定される。本実施形態では、Ｎ＝６、Ｍ２＝４としている。また、第２画素数Ｇ２は、第１画素数Ｇ１の１／２倍である。これは、第１演算モジュール１１におけるプーリング処理でｘ方向に関する画素数が１／２倍となることに起因する。

　ラインメモリ２０Ｂには、第２行データＲ２が、Ｍ２×Ｎ本の単位で格納される。ラインメモリ２０Ｂから畳み込み処理部２１Ｂには、第２行データＲ２が順に入力される。第２行データＲ２とは、第２短冊状データＰＳ２においてｘ方向に１チャネル分の画素が並んだラインのデータをいう。

　図９は、第１畳み込み処理について説明する。図９において、Ｒ１_ｉ，ｋは、ラインメモリ２０Ａから読み出されるｋチャネルのｉ番目の第１行データを示している。第１行データＲ１_ｉ，ｋは、４つのブロックＢ１～Ｂ４に分割されて、ＡＬＵ２３Ａ～２３Ｄにそれぞれ入力される。ブロックＢ１～Ｂ４の各々の幅は、第１画素数Ｇ１の１／４倍の画素数に対応する。

　ＡＬＵ２３Ａ～２３Ｄの各々は、入力されたブロックを画素シフトしながら重みを乗じることにより第１畳み込み処理を実行する。ＡＬＵ２３Ａ～２３Ｄは、３つの第１行データＲ１_ｉ，ｋ，Ｒ１_{ｉ＋１，ｋ}，Ｒ１_{ｉ＋２，ｋ}に対して１回の第１畳み込み処理を並列で実行する。すなわち、第１演算モジュール１１では、複数の第１行データＲ１に対して１回の第１畳み込み処理を並列で実行する第１演算器の数（以下、第１数という。）は「４」である。

　ＡＬＵ２３Ａ～２３Ｄから出力されるデータは、プーリング処理部２２Ａに入力される。プーリング処理部２２Ａは、２×２のプーリング処理を行うことにより、第２画素数Ｇ２の幅を有する第２行データＲ２_ｉ，ｋを出力する。プーリング処理部２２Ａから出力される複数の第２行データＲ２_ｉ，ｋは、第２短冊状データＰＳ２を構成する。画像データＰ２は、複数の第２短冊状データＰＳ２により構成される。

　図１０は、第２畳み込み処理について説明する。図１０において、Ｒ２_ｉ，ｋは、ラインメモリ２０Ｂから読み出されるｋチャネルのｉ番目の第２行データを示している。ｉ番目の第２行データＲ２_ｉ，ｋは、２つのブロックＢ１，Ｂ２に分割されて、ＡＬＵ２３Ａ，２３Ｂにそれぞれ入力される。同時に、ｉ＋１番目の第２行データＲ２_{ｉ＋１，ｋ}は、２つのブロックＢ１，Ｂ２に分割されて、ＡＬＵ２３Ｃ，２３Ｄにそれぞれ入力される。ブロックＢ１，Ｂ２の各々の幅は、第２画素数Ｇ２の１／２倍の画素数に対応する。

　ＡＬＵ２３Ａ～２３Ｄの各々は、入力されたブロックを画素シフトしながら重みを乗じることにより第２畳み込み処理を実行する。ＡＬＵ２３Ａ，２３Ｂは、３つの第２行データＲ２_ｉ，ｋ，Ｒ２_{ｉ＋１，ｋ}，Ｒ２_{ｉ＋２，ｋ}に対して１回の第２畳み込み処理を並列で実行する。同時に、ＡＬＵ２３Ｃ，２３Ｄは、３つの第２行データＲ２_{ｉ＋１，ｋ}，Ｒ２_{ｉ＋２，ｋ}，Ｒ２_{ｉ＋３，ｋ}に対して１回の第２畳み込み処理を並列で実行する。すなわち、第２演算モジュール１２では、複数の第２行データＲ２に対して１回の第２畳み込み処理を並列で実行する第２演算器の数（以下、第２数という。）は「２」である。すなわち、第１数と第２数とは異なる。本実施形態では、第１数は第２数より大きい。

　ＡＬＵ２３Ａ～２３Ｄから出力されるデータは、プーリング処理部２２Ｂに入力される。プーリング処理部２２Ｂは、２×２のプーリング処理を行うことにより、第３画素数Ｇ３の幅を有する第３行データＲ３_ｉ，ｋを出力する。プーリング処理部２２Ｂから出力される複数の第３行データＲ３_ｉ，ｋは、第３短冊状データＰＳ３を構成する。画像データＰ３は、複数の第３短冊状データＰＳ３により構成される。第３画素数Ｇ３は、第２画素数Ｇ２の１／２倍である。

　第１演算モジュール１１は、ＡＬＵ２３Ａ～２３Ｄにより１つの第１行データＲ１に対して同時に処理を実行する。これに対して、第２演算モジュール１２は、ＡＬＵ２３Ａ～２３Ｄにより隣接する２つの第２行データＲ２に対して同時に処理を実行する。第２演算モジュール１２に入力される画像データＰ２の処理画素数は、第１演算モジュール１１に入力される画像データＰ１の処理画素数よりも小さい。処理画素数とは、演算モジュールが処理を行う画素数をいう。

　図１１は、ＡＬＵ２３Ａの構成の一例を示す。ＡＬＵ２３Ａは、レジスタ３０、シフト演算器３１、乗算器３２、レジスタ３３、加算器３４、セレクタ３５、加算器３６、及びレジスタ３７を含んで構成されている。

　レジスタ３０には、上述のブロックＢ１が入力される。乗算器３２は、レジスタ３０に入力されたブロックＢ１の各画素に重み７Ａを乗算する。レジスタ３３には、重み７Ａが乗算されたブロックＢ１が入力される。

　シフト演算器３１は、乗算器３２が重み７Ａを乗算するたびにレジスタ３０に格納されたブロックＢ１を１画素ずつシフトする。乗算器３２は、ブロックＢ１が画素シフトされるたびにブロックＢ１の各画素に重み７Ａを乗算する。加算器３４は、レジスタ３３に入力されるブロックＢ１を画素ごとに順次加算する。

　以上の乗算及び加算処理は、フィルタのサイズ及びチャネル数に対応する回数だけ繰り返し行われる。例えば、フィルタのサイズが３×３であって、チャネル数が３である場合には、乗算及び加算処理は、２７回繰り返し行われる。

　セレクタ３５は、フィルタに対応するバイアス７Ｂを選択する。加算器３６は、セレクタ３５により選択されたバイアス７Ｂを、レジスタ３３に格納された加算後のデータに加算する。レジスタ３７には、バイアス７Ｂが加算されたデータが格納される。レジスタ３７に格納されたデータは、プーリング処理部２２Ａへ出力される。

　ＡＬＵ２３Ｂ～２３Ｄは、ＡＬＵ２３Ａと同様の構成であるので説明は省略する。

　図１２は、ＡＬＵ２３Ａによる１回の第１畳み込み処理の流れの一例を示す。ステップＳ１では、レジスタ３０に１つの第１行データＲ１から分割されたブロックＢ１が入力される。ステップＳ２では、乗算器３２により重み７Ａの乗算処理が行われる。ステップＳ３では、加算器３４により画素ごとの加算処理が行われる。ステップＳ４では、画素シフトが所定回数終了したか否かの判定が行われる。フィルタのサイズが３×３である場合には、画素シフトが２回行われることになるので、所定回数は２回である。画素シフトが所定回数終了していない場合には（ステップＳ４：ＮＯ）、ステップＳ５において画素シフトが行われる。画素シフトが所定回数行われるまで、ステップＳ２～Ｓ５が繰り返し実行される。画素シフトが所定回数終了した場合には（ステップＳ４：ＹＥＳ）、処理はステップＳ６に移行する。

　ステップＳ６では、第１行データＲ１の変更が所定回数終了したか否かの判定が行われる。フィルタのサイズが３×３である場合には、第１行データＲ１の変更が２回行われることになるので、所定回数は２回である。第１行データＲ１の変更が所定回数終了していない場合には（ステップＳ６：ＮＯ）、ステップＳ７において第１行データＲ１が変更される。ブロックＢ１が変更されると、ステップＳ１において変更された第１行データＲ１から分割されたブロックＢ１がレジスタ３０に入力される。第１行データＲ１の変更が所定回数行われるまで、ステップＳ１～Ｓ７が繰り返し実行される。第１行データＲ１の変更が所定回数終了した場合には（ステップＳ６：ＹＥＳ）、処理はステップＳ８に移行する。

　ステップＳ８では、チャネルの変更が所定回数終了したか否かの判定が行われる。３チャネルのフィルタを用いる場合には、チャネルの変更が２回行われることになるので、所定回数は２回である。チャネルの変更が所定回数終了していない場合には（ステップＳ８：ＮＯ）、ステップＳ９においてチャネルが変更される。チャネルが変更されると、ステップＳ１において変更されたチャネルのブロックＢ１がレジスタ３０に入力される。チャネルの変更が所定回数行われるまで、ステップＳ１～Ｓ９が繰り返し実行される。チャネルの変更が所定回数終了した場合には（ステップＳ８：ＹＥＳ）、処理はステップＳ１０に移行する。

　ステップＳ１０では、加算器３６によりバイアス７Ｂの加算処理が行われる。ステップＳ１１では、バイアス７Ｂが加算されたデータがプーリング処理部２２Ａへ出力される。

　図１２に示す処理は、第１短冊状データＰＳ１に含まれる３つの第１行データＲ１を対象とした１回の第１畳み込み処理を示している。ＡＬＵ２３Ａは、対象とする３つの第１行データＲ１を順に変更しながら第１畳み込み処理を実行する。

　ＡＬＵ２３Ｂ～２３Ｄは、ＡＬＵ２３Ａと同様の処理を行う。

　図１３は、ＡＬＵ２３Ａによる１回の第１畳み込み処理を概念的に示す。図１３に示すように、ＡＬＵ２３Ａは、３つの第１行データＲ１_ｉ，ｋ，Ｒ１_{ｉ＋１，ｋ}，Ｒ１_{ｉ＋２，ｋ}から分割されたブロックＢ１をそれぞれ順に画素シフトしながら対応する重みｗ_{ｐ，ｑ，ｋ，ｎ}を乗じ、かつ加算する。全てのチャネルｋについて画素シフト、重みの乗算及び加算を行い、バイアスｂ_ｎを加算することにより画像データＣＰ_ｎを構成する１つのブロックが得られる。

　第１演算モジュール１１では、ＡＬＵ２３Ａ～２３Ｄは、それぞれ対象とする３つの第１行データＲ１_ｉ，ｋ，Ｒ１_{ｉ＋１，ｋ}，Ｒ１_{ｉ＋２，ｋ}のセットを１行ずつ変更しながら第１畳み込み処理を行う。

　第２演算モジュール１２では、ＡＬＵ２３Ａ，２３Ｂは、それぞれ対象とする３つの第２行データＲ２_ｉ，ｋ，Ｒ２_{ｉ＋１，ｋ}，Ｒ２_{ｉ＋２，ｋ}のセットを２行ずつ変更しながら第２畳み込み処理を行う。また、ＡＬＵ２３Ａ，２３Ｂは、それぞれ対象とする３つの第２行データＲ２_{ｉ＋１，ｋ}，Ｒ２_{ｉ＋２，ｋ}，Ｒ２_{ｉ＋３，ｋ}のセットを２行ずつ変更しながら第２畳み込み処理を行う。

　第２畳み込み処理は、上述の第１畳み込み処理と同様であるので詳細な説明は省略する。

　図１４は、第１特徴量抽出処理と第２特徴量抽出処理とを概念的に示す。図１４に示す例では、第１短冊状データＰＳ１に対して第１特徴量抽出処理が行われることにより生成される第２短冊状データＰＳ２は、縦横の画素数がそれぞれ１／２倍になるとともに、チャネル数が２倍になる。また、第２短冊状データＰＳ２に対して第２特徴量抽出処理が行われることにより生成される第３短冊状データＰＳ３は、縦横の画素数がそれぞれ１／２倍になるとともに、チャネル数が２倍になる。

　このように、第１特徴量抽出処理により生成される第２行データＲ２の第２画素数Ｇ２は第１行データＲ１の第１画素数Ｇ１の１／２倍になる。このため、仮に第１演算モジュール１１と第２演算モジュール１２とを、１つの第２行データＲ２を４つのＡＬＵで処理するように構成を同一とすると、第２演算モジュール１２では、４つのＡＬＵのうちの２つのＡＬＵが使用されず無駄になる。本実施形態では、第１演算モジュール１１については、１つの第１行データＲ１を４つのＡＬＵで処理するように構成し、第２演算モジュール１２については、１つの第２行データＲ２を２つのＡＬＵで処理するように構成しているので、使用されない無駄なＡＬＵが生じない。

　また、第２特徴量抽出処理は第１特徴量抽出処理よりも処理するチャネル数が多いので、第２特徴量抽出処理がすべてのチャネルについて処理するまでの間、第１特徴量抽出処理に処理待ちが発生してしまう。具体的には、第１演算モジュール１１は、１行分のデータを第２演算モジュール１２に出力した後、第２特徴量抽出処理がすべてのチャネルについて処理を終了しないと次の行のデータを出力することができないため、処理待ちが発生してしまう。これに対して、本実施形態では、第２演算モジュール１２が２つの行のデータを２つのＡＬＵで同時に処理するので、第２特徴量抽出処理が第１特徴量抽出処理よりも処理が高速化する。これにより、第１特徴量抽出処理の処理待ちが解消する。

　図１５は、第１特徴量抽出処理及び第２特徴量抽出処理のタイミングを示す。図１５（Ａ）は、第１演算モジュール１１と第２演算モジュール１２とを、それぞれ１つの行データを４つのＡＬＵで処理するように構成した場合の処理タイミングの一例を示す。第１処理は、３つの行データのセットに対する処理を表している。この場合、第２特徴量抽出処理よりも第１特徴量抽出処理のほうが第１処理に掛かる時間が短いので、第１特徴量抽出処理には処理待ちが発生する。

　図１５（Ｂ）は、第１演算モジュール１１については、１つの行データを４つのＡＬＵで処理するように構成し、第２演算モジュール１２については、１つの行データを２つのＡＬＵで処理するように構成した場合の処理タイミングの一例を示す。第１処理は、３つの行データのセットに対する処理を表している。第２処理は、１行分ずれた次の３つの行データのセットに対する処理を表している。この場合、第２特徴量抽出処理よりも第１特徴量抽出処理のほうが第１処理及び第２処理に掛かる時間が短いが、第２特徴量抽出処理では第１処理と第２処理とが並列して行われるので、第１特徴量抽出処理には処理待ちが解消する。

　このように、本実施形態では、第１特徴量抽出処理の処理待ちが解消するので、推論装置２による推論に係る処理速度が高速化する。

　［第１実施形態の変形例］
　第１実施形態では、特徴量抽出部４は、第１演算モジュール１１及び第２演算モジュール１２の２つの演算モジュールを有するが、演算モジュールの数は２に限られず、３以上であってもよい。

　図１６は、変形例に係る特徴量抽出部４Ａの構成を示す。特徴量抽出部４Ａは、第１演算モジュール１１及び第２演算モジュール１２に加えて第３演算モジュール１３を有すること以外は、第１実施形態に係る特徴量抽出部４と同様の構成である。

　図１７は、第３演算モジュール１３の構成の一例を示す。第３演算モジュール１３は、第１演算モジュール１１及び第２演算モジュール１２と同様に、ラインメモリ２０Ｃ、畳み込み処理部２１Ｃ、及びプーリング処理部２２Ｃを備える。また、畳み込み処理部２１Ｃは、４つのＡＬＵ２３Ａ～２３Ｄを備える。なお、プーリング処理部２２Ｃは、ＡＬＵ２３Ａ～２３Ｄに対して１つずつ設けられていてもよい。

　演算制御部１８は、第２演算モジュール１２から出力される画像データＰ３を構成する複数の第３行データＲ３を第３演算モジュール１３のラインメモリ２０Ｃに順に記憶させる。複数の第３行データＲ３は、画像データＰ３を第３画素数Ｇ３ごとに行方向に分割することによって生成される複数の第３短冊状データＰＳ３に含まれる。

　第３演算モジュール１３のＡＬＵ２３Ａ～２３Ｄは、複数の第３行データＲ３に対して畳み込み処理を実行する。以下、第３演算モジュール１３が行う畳み込み処理を「第３畳み込み処理」という。

　図１８は、第３畳み込み処理について説明する。図１８において、Ｒ３_ｉ，ｋは、ラインメモリ２０Ｃから読み出されるｋチャネルのｉ番目の第３行データを示している。ｉ番目の第３行データＲ３_ｉ，ｋは、ＡＬＵ２３Ａに入力される。ｉ＋１番目の第３行データＲ３_{ｉ＋１，ｋ}は、ＡＬＵ２３Ｂに入力される。ｉ＋２番目の第３行データＲ３_{ｉ＋２，ｋ}は、ＡＬＵ２３Ｃに入力される。ｉ＋３番目の第３行データＲ３_{ｉ＋３，ｋ}は、ＡＬＵ２３Ｄに入力される。

　ＡＬＵ２３Ａ～２３Ｄの各々は、入力された第３行データＲ３を画素シフトしながら重みを乗じることにより第３畳み込み処理を実行する。ＡＬＵ２３Ａは、３つの第３行データＲ３_ｉ，ｋ，Ｒ３_{ｉ＋１，ｋ}，Ｒ３_{ｉ＋２，ｋ}に対して１回の第３畳み込み処理を並列で実行する。ＡＬＵ２３Ｂは、３つの第３行データＲ３_{ｉ＋１，ｋ}，Ｒ３_{ｉ＋２，ｋ}，Ｒ３_{ｉ＋３，ｋ}に対して１回の第３畳み込み処理を並列で実行する。ＡＬＵ２３Ｃは、３つの第３行データＲ３_{ｉ＋２，ｋ}，Ｒ３_{ｉ＋３，ｋ}，Ｒ３_{ｉ＋４，ｋ}に対して１回の第３畳み込み処理を並列で実行する。ＡＬＵ２３Ｄは、３つの第３行データＲ３_{ｉ＋３，ｋ}，Ｒ３_{ｉ＋４，ｋ}，Ｒ３_{ｉ＋５，ｋ}に対して１回の第３畳み込み処理を並列で実行する。

　第３畳み込み処理は、上述の第１畳み込み処理及び第２畳み込み処理と同様であるので詳細な説明は省略する。

　ＡＬＵ２３Ａ～２３Ｄから出力されるデータは、プーリング処理部２２Ｃに入力される。プーリング処理部２２Ｃは、２×２のプーリング処理を行うことにより、第４画素数Ｇ４の幅を有する第４行データＲ４_ｉ，ｋを出力する。プーリング処理部２２Ｃから出力される複数の第４行データＲ４_ｉ，ｋは、第４短冊状データＰＳ４を構成する。画像データＰ４は、複数の第４短冊状データＰＳ４により構成される。第４画素数Ｇ４は、第３画素数Ｇ３の１／２倍である。また、画像データＰ４は、画像データＰ３よりもチャネル数が多い。

　本変形例では、第３演算モジュール１３は、画像データＰ４を出力部５に出力する。出力部５は、特徴量を含む画像データＰ４に基づいて画像データＰ１を分類する。

　図１９は、第１～第３特徴量抽出処理を概念的に示す。図１９に示す例では、第１短冊状データＰＳ１に対して第１特徴量抽出処理が行われることにより生成される第２短冊状データＰＳ２は、縦横の画素数がそれぞれ１／２倍になるとともに、チャネル数が２倍になる。また、第２短冊状データＰＳ２に対して第２特徴量抽出処理が行われることにより生成される第３短冊状データＰＳ３は、縦横の画素数がそれぞれ１／２倍になるとともに、チャネル数が２倍になる。さらに、第３短冊状データＰＳ３に対して第３特徴量抽出処理が行われることにより生成される第４短冊状データＰＳ４は、縦横の画素数がそれぞれ１／２倍になるとともに、チャネル数が２倍になる。

　［第２実施形態］
　次に、本開示の第２実施形態について説明する。第２実施形態に係る推論装置は、特徴量抽出部４に代えて、図２０に示す特徴量抽出部４Ｂを用いる。本実施形態に係る特徴量抽出部４Ｂは、物体検出及び／又は領域抽出に用いられるＣＮＮを構成している。例えば、特徴量抽出部４Ｂは、いわゆるＵ－Ｎｅｔを構成している。本実施形態では、推論装置は、分類ではなく、物体検出及び／又は領域抽出を行うので、出力部５からは画像データが出力される。

　図２０に示すように、特徴量抽出部４Ｂには、入力データ記憶部１０、エンコーダ４０、デコーダ５０、ＤＲＡＭ６０、及び演算制御部１８を備える。エンコーダ４０は、３つの演算モジュール４１～４３を備える。デコーダ５０は、３つの演算モジュール５１～５３を備える。エンコーダ４０及びデコーダ５０のそれぞれが備える演算モジュールの数は、３に限られず、２又は４以上であってもよい。

　エンコーダ４０は、第１実施形態と同様に、入力データとしての画像データＰ１に対して、畳み込み処理及びプーリング処理を複数回繰り返し実行する。演算モジュール４１～４３は、上述の第１演算モジュール１１、第２演算モジュール１２、及び第３演算モジュール１３と同様の構成である。演算モジュール４１～４３が順に畳み込み処理及びプーリング処理を行うたびに、画像サイズが縮小し、かつチャネル数が増加する。プーリング処理は、画像サイズが縮小するので、ダウンサンプリング処理とも称される。

　デコーダ５０は、エンコーダ４０が出力する画像データＰ４に対して、アップサンプリング処理及び逆畳み込み処理を複数回繰り返し実行する。演算モジュール５１～５３は、演算モジュール４１～４３とは異なり、逆畳み込み処理及びアップサンプリング処理を実行するように構成されている。演算モジュール５１～５３が順に逆畳み込み処理及びアップサンプリング処理を行うことにより、画像サイズが拡大し、かつチャネル数が減少する。

　また、デコーダ５０は、エンコーダ４０で生成される特徴マップを、デコーダ５０で生成される特徴マップに結合する結合処理を行う。ＤＲＡＭ６０は、演算モジュール４１，４２が備えるラインメモリよりもデータ格納容量が大きく、演算モジュール４１，４２で生成される特徴マップＦＭ１，ＦＭ２を一時的に格納する。ＤＲＡＭ６０は、本開示の技術に係る「第３メモリ」の一例である。

　ＤＲＡＭ６０には、演算モジュール４１で１回の第１畳み込み処理が行われ、特徴マップＦＭ１の一部を構成するデータが生成されるたびに、生成されたデータが格納される。同様に、ＤＲＡＭ６０には、演算モジュール４２で１回の第２畳み込み処理が行われ、特徴マップＦＭ２の一部を構成するデータが生成されるたびに、生成されたデータが格納される。演算制御部１８は、デコーダ５０で結合処理を行う際に必要となるタイミングに応じて、ＤＲＡＭ６０に格納されたデータを演算モジュール５２，５３に供給する。

　演算モジュール４３で１回の第３畳み込み処理が行われ、特徴マップＦＭ３の一部を構成するデータが生成されるたびに、生成されたデータは、ＤＲＡＭ６０を介さずにデコーダ５０の演算モジュール５１に供給される。これは、演算モジュール４３の後段で演算モジュール５１において結合処理が行われることから、演算モジュール４３で生成されたデータをＤＲＡＭ６０に格納する必要がないためである。

　図２１は、デコーダ５０が備える演算モジュール５１～５３の構成の一例を示す。演算モジュール５１は、ラインメモリ６０Ａ、逆畳み込み処理部６１Ａ、アップサンプリング処理部６２Ａ、及び結合処理部６３Ａを備える。演算モジュール５２は、ラインメモリ６０Ｂ、逆畳み込み処理部６１Ｂ、アップサンプリング処理部６２Ｂ、及び結合処理部６３Ｂを備える。演算モジュール５３は、ラインメモリ６０Ｃ、逆畳み込み処理部６１Ｃ、アップサンプリング処理部６２Ｃ、及び結合処理部６３Ｃを備える。

　演算モジュール５１には、エンコーダ４０が出力する画像データＰ４が入力される。画像データＰ４は、複数の行データごとにラインメモリ６０Ａに格納され、逆畳み込み処理部６１Ａにより逆畳み込み処理が行われる。逆畳み込み処理部６１Ａによる逆畳み込み処理により、チャネル数が減少する。アップサンプリング処理部６２Ａは、逆畳み込み処理部６１Ａから出力されるデータに対してアップサンプリング処理することにより、特徴マップＦＭ４を生成する。アップサンプリング処理は、上述のプーリング処理とは逆に、画素数を増加させる処理である。本実施形態では、アップサンプリング処理部６２Ａは、画像データの縦横の画素数をそれぞれ２倍にする。

　特徴マップＦＭ４のサイズは、エンコーダ４０から供給される特徴マップＦＭ３のサイズと同一である。結合処理部６３Ａは、特徴マップＦＭ４に特徴マップＦＭ３を結合することにより、画像データＰ５を生成する。例えば、結合処理部６３Ａは、特徴マップＦＭ４に特徴マップＦＭ３をチャネルとして追加するｃｏｎｃａｔ型の結合を行う。

　演算モジュール５２には、演算モジュール５１が出力する画像データＰ５が入力される。演算モジュール５２は、画像データＰ５に対して演算モジュール５１と同様の処理を行う。アップサンプリング処理部６２Ｂは、逆畳み込み処理部６１Ｂから出力されるデータに対してアップサンプリング処理することにより、特徴マップＦＭ５を生成する。特徴マップＦＭ５のサイズは、エンコーダ４０からＤＲＡＭ６０を介して供給される特徴マップＦＭ２のサイズと同一である。結合処理部６３Ｂは、特徴マップＦＭ５に特徴マップＦＭ２を結合することにより、画像データＰ６を生成する。

　演算モジュール５３には、演算モジュール５２が出力する画像データＰ６が入力される。演算モジュール５３は、画像データＰ６に対して演算モジュール５１と同様の処理を行う。アップサンプリング処理部６２Ｃは、逆畳み込み処理部６１Ｃから出力されるデータに対してアップサンプリング処理することにより、特徴マップＦＭ６を生成する。特徴マップＦＭ６のサイズは、エンコーダ４０からＤＲＡＭ６０を介して供給される特徴マップＦＭ１のサイズと同一である。結合処理部６３Ｃは、特徴マップＦＭ６に特徴マップＦＭ１を結合することにより、画像データＰ７を生成する。

　演算モジュール５３が出力する画像データＰ７は、出力部５に入力される。出力部５は、画像データＰ７に対してさらに逆畳み込み処理を行うことにより出力用の画像データを生成して出力する。画像データＰ７は、画像データＰ１と画像サイズが同一である。

　なお、エンコーダ４０の演算モジュール４１及び演算モジュール４２は、本開示の技術に係る「第１演算モジュール」及び「第２演算モジュール」にそれぞれ対応する。また、演算モジュール４１は、本開示の技術に係る「第１画像データをダウンサンプリングするモジュール」である。特徴マップＦＭ６は、本開示の技術に係る「第３メモリに格納された特徴画像データ」に対応する。画像データＰ６は、本開示の技術に係る「入力画像データ」に対応する。演算モジュール５３は、本開示の技術に係る「入力画像データをアップサンプリングする第３演算モジュール」に対応する。画像データＰ７は、本開示の技術に係る「特徴画像データを用いて補正された第１画像データ」に対応する。特徴マップの結合は、本開示の技術に係る「補正」の一例である。

　図２２は、エンコーダ４０及びデコーダ５０により構成されるＣＮＮの階層構造を概念的に示す。図２３は、特徴マップＦＭ１～ＦＭ６に対して行われるパイプライン処理を説明する。

　パイプライン処理では、特徴マップＦＭ６の１行目に特徴マップＦＭ１の１行目を結合する時点において、特徴マップＦＭ１の１８行目が生成される。このため、仮に、特徴量抽出部４ＢにＤＲＡＭ６０が設けられていない場合には、特徴マップＦＭ６の１行目に特徴マップＦＭ１の１行目を結合する際に、１８行分の特徴マップＦＭ１を保持しておく必要がある。１８行分の特徴マップＦＭ１を演算モジュール４１のラインメモリ（第１メモリ）で格納するには、ラインメモリの格納容量を増大させる必要がある。同様に、特徴マップＦＭ５の１行目に特徴マップＦＭ２の１行目を結合する際には、８行分の特徴マップＦＭ２を保持しておく必要がある。８行分の特徴マップＦＭ２を演算モジュール４２のラインメモリ（第２メモリ）で格納するには、ラインメモリの格納容量を増大させる必要がある。

　本実施形態では、演算モジュール４１，４２で生成された特徴マップＦＭ１，Ｆ２を、データ格納容量が大きいＤＲＡＭ６０（第３メモリ）に格納し、結合処理で必要となるタイミングに応じて、必要な行のデータを演算モジュール５２，５３に転送する。このように、ＤＲＡＭ６０を設けることにより、演算モジュール４１，４２のラインメモリの格納容量を増大させることが不要となる。なお、ＤＲＡＭ６０には、結合処理において必要な行数の特徴マップＦＭ１，ＦＭ２を格納すればよい。

　なお、本開示の技術は、デジタルカメラに限られず、撮像機能を有するスマートフォン、タブレット端末などの電子機器にも適用可能である。

　また、上述の畳み込み演算処理を行うＡＬＵには、各種のプロセッサを用いることができる。同様に、上述の演算制御部、プーリング処理部、及びアップサンプリング処理部には、各種のプロセッサを用いることができる。これらのプロセッサには、ＩＣに加えて、ＦＰＧＡなどの製造後に回路構成を変更可能なプロセッサが含まれる。ＦＰＧＡには、ＰＬＤ、又はＡＳＩＣなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

　以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

　本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　機械学習済みデータを用いて推論を行う推論装置であって、
　畳み込み処理及びプーリング処理を含む演算処理を実行する第１演算モジュール及び第２演算モジュールを備え、
　前記第１演算モジュールは、入力される第１画像データが第１画素数ごとに行方向に分割されることによって生成された複数の第１行データを格納する第１メモリと、前記複数の第１行データに対して第１畳み込み処理を実行する複数の第１演算器とを有し、
　前記第２演算モジュールは、入力される第２画像データが第２画素数ごとに行方向に分割されることによって生成された複数の第２行データを格納する第２メモリと、前記複数の第２行データに対して第２畳み込み処理を実行する複数の第２演算器とを有し、
　前記第１画像データのチャネル数と前記第２画像データのチャネル数とは互いに異なり、
　前記複数の第１行データに対して１回の前記第１畳み込み処理を並列で実行する前記第１演算器の数である第１数と、前記複数の第２行データに対して１回の前記第２畳み込み処理を並列で実行する前記第２演算器の数である第２数とが異なる、
　推論装置。
　前記第２画像データは、前記第１画像データに対して前記第１演算モジュールが前記演算処理を行うことにより生成される特徴量を含む画像データである、
　請求項１記載の推論装置。
　前記第２画像データのチャネル数は、前記第１画像データのチャネル数よりも多く、
　前記第１数は、前記第２数よりも大きい、
　請求項２に記載の推論装置。
　前記第２演算モジュールに入力される前記第２画像データの処理画素数は、前記第１演算モジュールに入力される前記第１画像データの処理画素数よりも小さい、
　請求項３に記載の推論装置。
　前記第１演算モジュールによる前記演算処理と、前記第２演算モジュールによる前記演算処理とは並列して実行される、
　請求項１から請求項４のうちいずれか１項に記載の推論装置。
　前記第１メモリのデータ格納単位は、前記第１画素数、前記第１畳み込み処理に用いられるフィルタのサイズ、及び、前記第１畳み込み処理に用いられるフィルタのチャネル数に対応する、
　請求項１から請求項５のうちいずれか１項に記載の推論装置。
　前記第２メモリのデータ格納単位は、前記第２画素数、前記第２畳み込み処理に用いられるフィルタのサイズ、及び、前記第２畳み込み処理に用いられるフィルタのチャネル数に対応する、
　請求項６に記載の推論装置。
　前記第２畳み込み処理に用いられるフィルタの数は、前記第１畳み込み処理に用いられるフィルタの数よりも多い、
　請求項７に記載の推論装置。
　前記第１行データは、前記第１画像データの一部の行に対応するデータである、
　請求項１から請求項８のうちいずれか１項に記載の推論装置。
　前記第１メモリ及び前記第２メモリよりもデータ格納容量が大きく、前記第１演算モジュールにより生成される特徴量を含む特徴画像データを格納する第３メモリと、
入力された入力画像データをアップサンプリングする第３演算モジュールと、
　をさらに備え、
　前記第１演算モジュールは、前記第１画像データをダウンサンプリングするモジュールであり、
　前記第３演算モジュールは、前記入力画像データをアップサンプリングし、かつ前記第３メモリに格納された前記特徴画像データを用いることにより、補正された前記第１画像データを生成する、
　請求項１から請求項９のうちいずれか１項に記載の推論装置。