WO2022168667A1

WO2022168667A1 - 画像処理装置および画像処理方法

Info

Publication number: WO2022168667A1
Application number: PCT/JP2022/002594
Authority: WO
Inventors: 彬任桑原; 斉甲斐; 裕幸小沢
Original assignee: ソニーセミコンダクタソリューションズ株式会社
Priority date: 2021-02-03
Filing date: 2022-01-25
Publication date: 2022-08-11
Also published as: CN116830153A; JP2022119005A; JP7460561B2

Abstract

本開示に係る画像処理装置は、入力画像に含まれるオブジェクトの、入力画像における位置を検出する検出部（２０１）と、検出部により検出された位置に基づき、入力画像からオブジェクトを含む所定の解像度の認識用画像を生成する生成部（２００）と、生成部により生成された認識用画像に対してオブジェクトを認識する認識処理を行う認識部（２０４）と、を備える。

Description

画像処理装置および画像処理方法

　本開示は、画像処理装置および画像処理方法に関する。

　内部にＤＮＮ(Deep　Neural　Network)エンジンが組み込まれたイメージセンサが知られている。

特許第６６３３２１６号公報

　このようなイメージセンサにおいて、撮像された撮像画像に対して認識対象の物体領域を切り出して認識処理を行う場合、従来技術では、イメージセンサ外部のアプリケーションプロセッサにおいて物体認識処理を行っていた。あるいは、イメージセンサ内部のＤＮＮエンジンにより物体認識処理を行い、その結果に基づき、イメージセンサ外部のアプリケーションプロセッサが撮像画像に対する物体領域の切り出し範囲をイメージセンサ内部のＤＮＮエンジンに指示していた。そのため、物体位置検出、物体領域の切り出し、物体認識処理の一連の処理が完了するまでに、大幅なフレーム遅延が生じていた。

　本開示は、認識処理をより高速に実行可能とした画像処理装置および画像処理方法を提供する。

　本開示に係る画像処理装置は、入力画像に含まれるオブジェクトの、入力画像における位置を検出する検出部と、検出部により検出された位置に基づき、入力画像からオブジェクトを含む所定の解像度の認識用画像を生成する生成部と、生成部により生成された認識用画像に対してオブジェクトを認識する認識処理を行う認識部と、を備える。

既存技術による第１の画像処理方法を説明するための模式図ある。既存技術による第２の画像処理方法を説明するための模式図である。既存技術による第２の画像処理方法を実行するためのイメージセンサの機能を説明するための一例の機能ブロック図である。既存技術による第２の画像処理方法を説明するための一例のシーケンス図である。既存技術による第３の画像処理方法を説明するための一例のシーケンス図である。既存技術による第３の画像処理方法における各フレームの処理における、イメージセンサ内の状態を模式的に示す図である。既存技術による第３の画像処理方法における各フレームの処理における、イメージセンサ内の状態を模式的に示す図である。既存技術による第３の画像処理方法における各フレームの処理における、イメージセンサ内の状態を模式的に示す図である。既存技術による動き予測を説明するための模式図である。本開示の各実施形態に適用可能な撮像システムの一例の構成を示す図である。各実施形態に適用可能な撮像装置の一例の構成を示すブロック図である。本開示の各実施形態に適用可能なイメージセンサの一例の構成を示すブロック図である。各実施形態に係るイメージセンサの外観構成例の概要を示す斜視図である。第１の実施形態に係るイメージセンサの機能を説明するための一例の機能ブロック図である。第１の実施形態に係る検出部の機能を説明するための一例の機能ブロック図である。第１の実施形態に係る位置検出用画像の例を模式的に示す図である。第１の実施形態に係る処理を説明するための一例のシーケンス図である。第２の実施形態に係るイメージセンサの機能を説明するための一例の機能ブロック図である。第２の実施形態に係る予測・検出部の機能を説明するための一例の機能ブロック図である。第２の実施形態に係る処理を説明するための一例のシーケンス図である。第２の実施形態による動き予測を説明するための模式図である。第２の実施形態に適用可能なパイプライン処理を説明するための模式図である。第３の実施形態に係るイメージセンサの機能を説明するための一例の機能ブロック図である。第４の実施形態に係るイメージセンサの機能を説明するための一例の機能ブロック図である。

　以下、本開示の実施形態について、図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより、重複する説明を省略する。

　以下、本開示の実施形態について、下記の順序に従って説明する。
１．本開示の概要
２．既存技術について
　２－１．既存技術による第１の画像処理方法
　２－２．既存技術による第２の画像処理方法
　２－３．既存技術による第３の画像処理方法
　２－４．既存技術による動き予測
３．本開示の各実施形態に適用可能な構成
４．本開示に係る第１の実施形態
　４－１．第１の実施形態に係る構成例
　４－２．第１の実施形態に係る処理例
５．本開示に係る第２の実施形態
　５－１．第２の実施形態に係る構成例
　５－２．第２の実施形態に係る処理例
　５－３．第２の実施形態に適用可能なパイプライン処理
６．本開示に係る第３の実施形態
７．本開示に係る第４の実施形態

［１．本開示の概要］
　本開示は、被写体を撮像し撮像画像を取得するイメージセンサに関するもので、本開示に係るイメージセンサは、撮像を行う撮像部と、撮像部により撮像された撮像画像に基づき物体認識を行う認識部とを含む。本開示では、撮像部で撮像された撮像画像に基づき、認識部の認識対象となるオブジェクトの撮像画像上での位置を検出する。検出された位置に基づき、撮像画像から、当該オブジェクトに対応する領域を含む画像を、認識部が対応可能な解像度で切り取り、認識用画像として認識部に出力する。

　本開示は、このような構成とすることで、撮像が行われ撮像画像が取得されてから、当該撮像画像に基づく認識結果が得られるまでの遅延時間（レイテンシ）を短縮できる。また、認識対象となるオブジェクトの画像上での位置は、撮像画像を、解像度が当該撮像画像より低い画像に変換した検出用画像に基づき行う。これにより、オブジェクトの位置検出処理の負荷が軽減され、当該遅延時間をより短縮することが可能である。

［２．既存技術について］
　本開示の各実施形態の説明に先んじて、理解を容易とするために、本開示の技術に関連する既存技術について概略的に説明する。

（２－１．既存技術による第１の画像処理方法）
　先ず、既存技術による第１の画像処理方法について説明する。図１は、既存技術による第１の画像処理方法を説明するための模式図ある。図１において、イメージセンサ１０００は、図示されない撮像部と共に、撮像部で撮像された撮像画像１１００を元画像とし、当該撮像画像１１００に含まれるオブジェクトを認識する認識部１０１０を含む。認識部１０１０は、ＤＮＮ(Deep　Neural　Network)を用いて、撮像画像に含まれるオブジェクトの認識を行う。

　ここで、ＤＮＮを用いて認識処理を行う認識器がイメージセンサ１０００に組み込まれて用いられる場合、一般的には、コスト等の観点から、当該認識器が対応可能な画像の解像度（サイズ）は、所定の解像度（例えば２２４画素×２２４画素）に制限される。したがって、認識処理の対象の画像が高い解像度（例えば４０００画素×３０００画素）を有する場合、当該画像に基づき認識器が対応可能な解像度の画像を生成する必要がある。

　図１の例では、イメージセンサ１０００において、撮像画像１１００の全体を、認識部１０１０が対応可能な解像度に単純に縮小して、認識部１０１０に入力するための入力画像１１０１を生成している。この図１の例の場合、撮像画像１１００に含まれる個々のオブジェクトが低解像度画像となるため、個々のオブジェクトの認識率が低くなってしまう。

（２－２．既存技術による第２の画像処理方法）
　次に、既存技術による第２の画像処理方法について説明する。この第２の画像処理方法および後述する第３の画像処理方法では、上述した第１の画像処理方法における個々のオブジェクトの認識率の低下を抑制するために、撮像画像１１００から、認識対象となるオブジェクトが含まれる領域に対応する画像を切り出して、認識部１０１０に入力するための入力画像を生成する。

　図２は、既存技術による第２の画像処理方法を説明するための模式図である。図２において、イメージセンサ１０００は、アプリケーションプロセッサ（以下、ＡＰ）１００１のスレーブとして動作し、ＡＰ１００１からの指示に応じて撮像画像１１００から認識部１０１０に入力するための入力画像を切り出す構成となっている。

　すなわち、イメージセンサ１０００は、図示されない撮像部により撮像された撮像画像１１００をＡＰ１００１に渡す（ステップＳ１）。ＡＰ１００１は、イメージセンサ１０００から受け取った撮像画像１１００に含まれるオブジェクトを検出し、検出されたオブジェクトの位置を示す情報を、イメージセンサ１０００に返す（ステップＳ２）。図２の例では、ＡＰ１００１は、撮像画像１１００からオブジェクト１１５０を検出し、このオブジェクト１１５０の撮像画像１１００内での位置を示す情報を、イメージセンサ１０００に返している。

　イメージセンサ１０００は、ＡＰ１００１から渡された位置情報に基づき撮像画像１１００から当該オブジェクト１１５０を切り出し、切り出されたオブジェクト１１５０の画像を、認識部１０１０に入力する。認識部１０１０は、この撮像画像１１００から切り出されたオブジェクト１１５０の画像に対して認識処理を実行する。認識部１０１０は、当該オブジェクト１１５０に対する認識結果を、例えばＡＰ１００１に対して出力する（ステップＳ３）。

　この第２の画像処理方法によれば、撮像画像１１００から切り出された画像は、撮像画像１１００における細部の情報を保持している。認識部１０１０は、この細部の情報が保持された画像に対して認識処理を実行するため、より高い認識率で、認識結果１１５１を出力することができる。

　一方で、この第２の画像処理方法では、ＡＰ１００１が物体位置検出処理を実行するため、イメージセンサ１０００で撮像画像が取得されてから、認識部１０１０が認識結果１１５１を出力するまでの遅延時間（レイテンシ）が大きくなる。

　図３および図４を用いて、この第２の画像処理方法についてより具体的に説明する。図３は、既存技術による第２の画像処理方法を実行するためのイメージセンサ１０００の機能を説明するための一例の機能ブロック図である。図３において、イメージセンサ１０００は、切り出し部１０１１と、認識部１０１０と、を含む。なお、図３の例では、撮像画像１１００Ｎを撮像する撮像部は、省略されている。

　第Ｎフレームの撮像画像１１００Ｎが切り出し部１０１１に入力される。ここでは、撮像画像１１００Ｎが幅４０９６画素、高さ３０７２画素の４ｋ×３ｋ画像であるものとされている。切り出し部１０１１は、ＡＰ１００１から渡された位置情報に従い、撮像画像１１００Ｎからオブジェクト１３００（この例では、犬）が含まれる領域を切り出す。

　すなわち、ＡＰ１００１は、フレームメモリ１００２に記憶される、背景画像１２００と、第（Ｎ－３）フレームの撮像画像１１００（Ｎ－３）とを用いて、オブジェクト１３００を検出する。より具体的には、ＡＰ１００１は、第Ｎフレームから３フレーム前の第（Ｎ－３）フレームの撮像画像１１００（Ｎ－３）をフレームメモリ１００２に記憶しており、この撮像画像１１００（Ｎ－３）と、フレームメモリ１００２に予め記憶される背景画像１２００との差分を求め、この差分に基づきオブジェクト１３００を検出する。

　ＡＰ１００１は、このようにして第（Ｎ－３）フレームの撮像画像１１００（Ｎ－３）から検出されたオブジェクト１３００の位置を示す位置情報を、イメージセンサ１０００に渡す。イメージセンサ１０００は、ＡＰ１００１から渡された位置情報を切り出し部１０１１に渡す。切り出し部１０１１は、この第（Ｎ－３）フレームの撮像画像１１００（Ｎ－３）から検出された位置情報に基づき、撮像画像１１００Ｎから認識部１０１０が認識処理を行うための認識用画像１１０４を切り出す。すなわち、認識部１０１０は、第Ｎフレームの撮像画像１１００Ｎに対する認識処理を、３フレーム前の第（Ｎ－３）フレームの撮像画像１１００（Ｎ－３）の情報に基づき切り出された認識用画像１１０４を用いて実行することになる。

　図４は、既存技術による第２の画像処理方法を説明するための一例のシーケンス図である。図４において、横方向は時間の経過をフレーム単位で示す。また、縦方向は、上側がイメージセンサ１０００における処理、下側がＡＰ１００１における処理をそれぞれ示している。

　第（Ｎ－３）フレームにおいて、オブジェクト１３００を含む撮像画像１１００（Ｎ－３）が撮像される。撮像画像１１００（Ｎ－３）は、例えば切り出し部１０１１における画像処理（ステップＳ１０）によりイメージセンサ１０００から出力され（ステップＳ１１）、ＡＰ１００１に渡される。

　ＡＰ１００１は、上述したように、イメージセンサ１０００からに渡された撮像画像１１００（Ｎ－３）に対して物体位置検出処理を実行する（ステップＳ１２）。このとき、ＡＰ１００１は、当該撮像画像１１００（Ｎ－３）をフレームメモリ１００２に記憶させ、フレームメモリ１００２に予め記憶される背景画像１２００との差分を求めて撮像画像１１００（Ｎ－３）から背景画像１２００の成分を除去する背景キャンセル処理を実行する（ステップＳ１３）。ＡＰ１００１は、この背景キャンセル処理で背景画像１２００が除去された画像に対して、物体位置検出処理を行う。ＡＰ１００１は、物体位置検出処理が終了すると、検出された物体（例えばオブジェクト１３００）の位置を示す位置情報をイメージセンサ１０００に渡す（ステップＳ１４）。

　ここで、ＡＰ１００１は、４ｋ×３ｋの解像度を有する撮像画像１１００（Ｎ－３）をそのまま用いて背景キャンセル処理および物体位置検出処理を実行している。対象となる画像の画素数が非常に多いため、これらの処理には長時間を要する。図４の例では、物体位置検出処理が終了してステップＳ１４で位置情報が出力されるタイミングが、第（Ｎ－２）フレームの終端近くとなっている。

　イメージセンサ１０００は、ＡＰ１００１１から渡された位置情報に基づき、切り出し部１０１１が撮像画像１１００からオブジェクト１３００を含む領域の画像を切り出すためのレジスタ設定値を計算する（ステップＳ１５）。この例では、ステップＳ１４によるＡＰ１００１からの位置情報の供給が第（Ｎ－２）フレームの終端近くとなっているため、ステップＳ１５のレジスタ設定値の計算を、次の第（Ｎ－１）フレームの期間に実行している。

　イメージセンサ１０００は、次の第Ｎフレームにおいて、第Ｎフレームの撮像画像１１００Ｎが取得される。第（Ｎ－１）フレームで算出されたレジスタ設定値は、この第Ｎフレームにおいて切り出し部１０１１に反映される。切り出し部１０１１は、このレジスタ設定値に従い、第Ｎフレームの撮像画像１１００Ｎに対して切り出し処理を実行し、認識用画像１１０４を切り出す（ステップＳ１６）。認識部１０１０は、この第Ｎフレームの撮像画像１１００Ｎから切り出された認識用画像１１０４に対して認識処理を実行し（ステップＳ１７）、認識結果を例えばＡＰ１００１に対して出力する（ステップＳ１８）。

　このように、既存技術による第２の画像処理方法によれば、第（Ｎ－３）フレームの撮像画像１１００（Ｎ－３）をそのままＡＰ１００１に渡し、ＡＰ１００１は、渡された撮像画像１１００（Ｎ－３）を用いて背景キャンセル処理および物体位置検出処理を行っている。そのため、これらの処理に長時間を要し、物体位置検出結果が撮像画像１１００に適用されるまでに、大幅な遅延時間が発生する。

（２－３．既存技術による第３の画像処理方法）
　次に、既存技術による第３の画像処理方法について説明する。この第３の画像処理方法は、上述したように、撮像画像１１００から、認識対象となるオブジェクトが含まれる領域に対応する画像を切り出して、認識部１０１０に入力するための入力画像を生成する。このとき、第３の画像処理方法では、ＡＰ１００１を利用せずに、イメージセンサ１０００内の認識部１０１０の認識結果に基づき画像の切り出しを行う。

　図５、ならびに、図６Ａ、図６Ｂおよび図６Ｃを用いて、この第３の画像処理方法についてより具体的に説明する。図５は、既存技術による第３の画像処理方法を説明するための一例のシーケンス図である。なお、図５の各部の意味は、上述した図４と同様であるので、ここでの説明を省略する。また、図６Ａ、図６Ｂおよび図６Ｃは、図５のシーケンス図における各フレームの処理における、イメージセンサ１０００内の状態を模式的に示す図である。

　図５のフレーム（Ｎ－２）および図６Ａに示されるように、第（Ｎ－２）フレームにおいて、オブジェクト１３００を含む撮像画像１１００（Ｎ－２）が撮像される。撮像画像１１００（Ｎ－２）は、例えば切り出し部１０１１における画像処理（ステップＳ３０）により認識部１０１０に渡される。認識部１０１０は、この第（Ｎ－２）フレームの撮像画像１１００（Ｎ－２）に対して認識処理を行う（ステップＳ３１）。認識部１０１０は、この認識処理によりオブジェクト１３００が含まれる領域を認識および検出し、この領域を示す情報を認識結果１１５１として出力する（ステップＳ３２）。この認識結果１１５１は、例えばイメージセンサ１０００が有するメモリ１０１２に記憶される。

　図５のフレーム（Ｎ－１）および図６Ｂに示されるように、次の第（Ｎ－１）フレームにおいて、イメージセンサ１０００は、メモリ１０１２に記憶された認識結果１１５１に基づき（ステップＳ３３）、例えば撮像画像１１００（Ｎ－２）における物体位置を求め、求めた物体位置を示す位置情報に基づき、切り出し部１０１１が撮像画像１１００からオブジェクト１３００を含む領域の画像を切り出すためのレジスタ設定値を計算する（ステップＳ３４）。

　図５のフレームＮおよび図６Ｃに示されるように、イメージセンサ１０００は、次の第Ｎフレームにおいて、第Ｎフレームの撮像画像１１００Ｎが取得される。第（Ｎ－１）フレームで算出されたレジスタ設定値は、この第Ｎフレームにおいて切り出し部１０１１に反映される。切り出し部１０１１は、このレジスタ設定値に従い、第Ｎフレームの撮像画像１１００Ｎに対して切り出し処理を実行し、認識用画像１１０４を切り出す（ステップＳ３５）。認識部１０１０は、この第Ｎフレームの撮像画像１１００Ｎから切り出された認識用画像１１０４に対して認識処理を実行し（ステップＳ３６）、認識結果を例えばＡＰ１００１に対して出力する（ステップＳ３７）。

　このように、この第３の画像処理方法では、第（Ｎ－２）フレームの撮像画像１１００（Ｎ－２）に対する認識処理により得られた認識用画像１１０４を用いて、第Ｎフレームの撮像画像１１００Ｎに対して切り出し処理を行っており、２フレーム分の遅延が発生している。さらに、第３の画像処理方法では、このように物体位置検出および物体認識を繰り返すことで、スループットも１／２になっている一方で、第３の画像処理方法では、切り出し処理にＡＰ１００１を用いないため、上述した第２の画像処理方法と比較して、遅延時間を短縮できる。

（２－４．既存技術による動き予測）
　次に、上述した第２または第３の画像処理方法を用いた場合の、高速に移動するオブジェクト１３００の動き予測、すなわち、当該オブジェクト１３００の未来の位置を予測する場合について説明する。

　上述したように、既存技術においては、実際に切り出しの対象となる第Ｎフレームの撮像画像１１００Ｎに対して、第（Ｎ－２）フレームの撮像画像１１００（Ｎ－２）、あるいは、第（Ｎ－３）フレームの撮像画像１１００（Ｎ－３）に基づき切り出し領域を決定している。そのため、オブジェクト１３００が高速に移動する場合、これら第（Ｎ－２）あるいは第（Ｎ－３）フレームに対して時間的に後の第Ｎフレームの撮像画像１１００Ｎにおいては、オブジェクト１３００の位置が、切り出し領域を決定した時点での位置とは大きく異なっている可能性がある。したがって、第Ｎフレームより時間的に前のフレームの情報を用いてオブジェクト１３００の動きを予測し、第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測できると、好ましい。

　図７は、既存技術による動き予測を説明するための模式図である。図７の例では、第（Ｎ－３）フレーム～第Ｎフレームの各撮像画像１１００（Ｎ－３）～１１００Ｎを重ねた様子を模式的に示している。この場合において、オブジェクト１３００は、第（Ｎ－３）フレーム～第Ｎフレームにかけて、図の軌跡１４０１に示すように、各撮像画像１１００（Ｎ－３）～１１００Ｎの左下隅から出発して大きく湾曲して移動し、右下隅に到達している。

　上述した第２および第３の画像処理方法では、図４および図６に示すように、第（Ｎ－１）フレームは、切り出し部１０１１に対して設定するレジスタ設定値の計算が行われる。そのため、第Ｎフレームの直前の第（Ｎ－１）フレームの撮像画像１１００（Ｎ－１）は、オブジェクト１３００の動き予測には用いられない。そのため、例えば第Ｎフレームより時間的に前の第（Ｎ－３）および第（Ｎ－２）フレームの撮像画像１１００（Ｎ－３）および１１００（Ｎ－２）に基づきオブジェクト１３００の動きを予測すると、図７に軌跡１４００で示されるように、実際の軌跡１４０１とは大幅に異なる軌跡を予測してしまう可能性がある。軌跡１４００によれば、オブジェクト１３００は、第Ｎフレームの時点では、第Ｎフレームの撮像画像１１００Ｎの右上付近に位置すると予測されており、実際の位置（右下隅）とは大きく異なる。

　したがって、第Ｎフレームの時点では、予測された位置にはオブジェクト１３００が存在せず、当該予測された位置に基づき撮像画像１１００Ｎの切り出しを行っても、切り出された領域にはオブジェクト１３００が存在しないため、認識部１０１０は、正しくオブジェクト１３００を認識できないことになる。

［３．本開示の各実施形態に適用可能な構成］
　次に、本開示の各実施形態に適用可能な構成について説明する。

　図８は、本開示の各実施形態に適用可能な撮像システムの一例の構成を示す図である。図８において、撮像システム１は、互いにネットワーク２により通信可能に接続された撮像装置１０と情報処理装置１１とを含む。図の例では、撮像システム１が１台の撮像装置１０を含むように示されているが、撮像システム１は、それぞれネットワーク２により情報処理装置１１と通信可能に接続された複数台の撮像装置１０を含むことができる。

　撮像装置１０は、本開示に係る撮像および認識処理を実行するもので、撮像画像に基づく認識結果を、撮像画像と共にネットワーク２を介して情報処理装置１１に送信する。情報処理装置１１は、例えばサーバであり、撮像装置１０から送信された撮像画像および認識結果を受信し、受信した撮像画像および認識結果の保存、表示などを行う。

　このように構成された撮像システム１は、例えば監視システムに適用可能である。この場合、撮像装置１０は、所定の位置に、撮像範囲を固定的とされて設置される。これはこの例に限定されず、撮像システム１を他の用途に適用させることもできるし、撮像装置１０を単体で使用することも可能である。

　図９は、各実施形態に適用可能な撮像装置１０の一例の構成を示すブロック図である。撮像装置１０は、イメージセンサ１００と、ＡＰ（アプリケーションプロセッサ）１０１と、ＣＰＵ(Central　Processing　Unit)１０２と、ＲＯＭ(Read　Only　Memory)１０３と、ＲＡＭ(Random　Access　Memory)１０４と、ストレージ装置１０５と、通信Ｉ／Ｆ１０６と、を含み、これら各部がバス１１０で互いに通信可能に接続される。

　ストレージ装置１０５は、ハードディスクドライブやフラッシュメモリといった不揮発性の記憶媒体であり、プログラムや各種データを記憶する。ＣＰＵ１０２は、ＲＯＭ１０３やストレージ装置１０５に記憶されるプログラムに従い、ＲＡＭ１０４をワークメモリに用いて動作し、この撮像装置１０の全体の動作を制御する。

　通信Ｉ／Ｆ１０６は、外部との通信を行うためのインタフェースである。通信Ｉ／Ｆ１０６は、例えばネットワーク２を介した通信を行う。これにかぎらず、通信Ｉ／Ｆ１０６は、ＵＳＢ(Universal　Serial　Bus)などにより外部機器と直接的に接続されるものであってもよい。通信Ｉ／Ｆ１０６による通信は、有線通信および無線通信の何れであってもよい。

　イメージセンサ１００は、本開示の各実施形態に係るもので、１チップで構成されるＣＭＯＳ(Complementary　Metal　Oxide　Semiconductor)イメージセンサであり、光学部からの入射光を受光し、光電変換を行って、当該入射光に対応する撮像画像を出力する。また、イメージセンサ１００は、撮像画像に対して、撮像画像に含まれるオブジェクト認識する認識処理を実行する。ＡＰ１０１は、イメージセンサ１００に対するアプリケーションを実行する。ＡＰ１０１は、ＣＰＵ１０２と統合されてもよい。

　図１０は、本開示の各実施形態に適用可能なイメージセンサ１００の一例の構成を示すブロック図である。図１０において、イメージセンサ１００は、撮像ブロック２０および信号処理ブロック３０を有する。撮像ブロック２０と信号処理ブロック３０とは、接続線（内部バス）ＣＬ１、ＣＬ２およびＣＬ３によって電気的に接続されている。

　撮像ブロック２０は、撮像部２１、撮像処理部２２、出力制御部２３、出力Ｉ／Ｆ２４および撮像制御部２５を有し、画像を撮像する。

　撮像部２１は、複数の画素が２次元に並んで構成される。撮像部２１は、撮像処理部２２によって駆動され、画像を撮像する。すなわち、撮像部２１には、光学部からの光が入射する。撮像部２１は、各画素において、光学部からの入射光を受光し、光電変換を行って、入射光に対応するアナログの画像信号を出力する。

　なお、撮像部２１が出力する画像（信号）のサイズ（解像度）は、例えば、幅４０９６画素×高さ３０７２画素とされる。この幅４０９６画素×高さ３０７２画素の画像を、適宜、４ｋ×３ｋ画像と呼ぶ。撮像部２１が出力する撮像画像のサイズは、幅４０９６画素×高さ３０７２画素に限定されない。

　撮像処理部２２は、撮像制御部２５の制御に従い、撮像部２１の駆動や、撮像部２１が出力するアナログの画像信号のＡＤ(Analog　to　Digital)変換、撮像信号処理等の、撮像部２１での画像の撮像に関連する撮像処理を行う。撮像処理部２２は、撮像部２１が出力するアナログの画像信号のＡＤ変換等によって得られるディジタルの画像信号を、撮像画像として出力する。

　ここで、撮像信号処理としては、例えば、撮像部２１が出力する画像について、所定の小領域ごとに、画素値の平均値を演算すること等により、小領域ごとの明るさを求める処理や、撮像部２１が出力する画像を、ＨＤＲ(High　Dynamic　Range)画像に変換する処理、欠陥補正、現像等がある。

　撮像処理部２２が出力する撮像画像は、出力制御部２３に供給されると共に、接続線ＣＬ２を介して、信号処理ブロック３０の画像圧縮部３５に供給される。

　出力制御部２３には、撮像処理部２２から撮像画像が供給される他、信号処理ブロック３０から、接続線ＣＬ３を介して、撮像画像等を用いた信号処理の信号処理結果が供給される。出力制御部２３は、撮像処理部２２からの撮像画像、および、信号処理ブロック３０からの信号処理結果を、（１つの）出力Ｉ／Ｆ２４から外部に選択的に出力させる出力制御を行う。すなわち、出力制御部２３は、撮像処理部２２からの撮像画像、または、信号処理ブロック３０からの信号処理結果を選択し、出力Ｉ／Ｆ２４に供給する。

　出力Ｉ／Ｆ２４は、出力制御部２３から供給される撮像画像、および、信号処理結果を外部に出力するＩ／Ｆである。出力Ｉ／Ｆ２４としては、例えば、ＭＩＰＩ(Mobile　Industry　Processor　Interface)等の比較的高速なパラレルＩ／Ｆ等を採用することができる。

　出力Ｉ／Ｆ２４では、出力制御部２３の出力制御に応じて、撮像処理部２２からの撮像画像、または、信号処理ブロック３０からの信号処理結果が、外部に出力される。したがって、例えば、外部において、信号処理ブロック３０からの信号処理結果だけが必要であり、撮像画像そのものが必要でない場合には、信号処理結果だけを出力することができ、出力Ｉ／Ｆ２４から外部に出力するデータ量を削減することができる。

　また、信号処理ブロック３０において、外部で必要とする信号処理結果が得られる信号処理を行い、その信号処理結果を、出力Ｉ／Ｆ２４から出力することにより、外部で信号処理を行う必要がなくなり、外部のブロックの負荷を軽減することができる。

　撮像制御部２５は、通信Ｉ／Ｆ２６およびレジスタ群２７を有する。

　通信Ｉ／Ｆ２６は、例えば、Ｉ２Ｃ(Inter-Integrated　Circuit)等のシリアル通信Ｉ／Ｆ等の第１の通信Ｉ／Ｆであり、外部との間で、レジスタ２７群に読み書きする情報等の必要な情報のやりとりを行う。

　レジスタ群２７は、複数のレジスタを有し、撮像部２１での画像の撮像に関連する撮像情報、その他の各種情報を記憶する。例えば、レジスタ群２７は、通信Ｉ／Ｆ２６において外部から受信された撮像情報や、撮像処理部２２での撮像信号処理の結果（例えば、撮像画像の小領域ごとの明るさ等）を記憶する。撮像制御部２５は、レジスタ群２７に記憶された撮像情報に従って、撮像処理部２２を制御し、これにより、撮像部２１での画像の撮像を制御する。

　レジスタ群２７に記憶される撮像情報としては、例えば、ＩＳＯ感度（撮像処理部２２でのＡＤ変換時のアナログゲイン）や、露光時間（シャッタスピード）、フレームレート、フォーカス、撮影モード、切り出し範囲等（を表す情報）がある。

　撮影モードには、例えば、露光時間やフレームレート等が手動で設定される手動モードと、シーンに応じて自動的に設定される自動モードとがある。自動モードには、例えば、夜景や、人の顔等の各種の撮影シーンに応じたモードがある。

　また、切り出し範囲とは、撮像処理部２２において、撮像部２１が出力する画像の一部を切り出して、撮像画像として出力する場合に、撮像部２１が出力する画像から切り出す範囲を表す。切り出し範囲の指定によって、例えば、撮像部２１が出力する画像から、人が映っている範囲だけを切り出すこと等が可能になる。なお、画像の切り出しとしては、撮像部２１が出力する画像から切り出す方法の他、撮像部２１から、切り出し範囲の画像（信号）だけを読み出す方法がある。

　なお、レジスタ群２７は、撮像情報や、撮像処理部２２での撮像信号処理の結果の他、出力制御部２３での出力制御に関する出力制御情報を記憶することができる。出力制御部２３は、レジスタ群２７に記憶された出力制御情報に従って、撮像画像および信号処理結果を選択的に出力させる出力制御を行うことができる。

　また、イメージセンサ１００では、撮像制御部２５と、信号処理ブロック３０のＣＰＵ３１とは、接続線ＣＬ１を介して、接続されており、ＣＰＵ３１は、接続線ＣＬ１を介して、レジスタ群２７に対して、情報の読み書きを行うことができる。すなわち、イメージセンサ１００では、レジスタ群２７に対する情報の読み書きは、通信Ｉ／Ｆ２６から行う他、ＣＰＵ３１からも行うことができる。

　信号処理ブロック３０は、ＣＰＵ(Central　Processing　Unit)３１，ＤＳＰ(Digital　Signal　Processor)３２、メモリ３３、通信Ｉ／Ｆ３４、画像圧縮部３５および入力Ｉ／Ｆ３６を有し、撮像ブロック２０で得られた撮像画像等を用いて、所定の信号処理を行う。

　信号処理ブロック３０を構成するＣＰＵ３１ないし入力Ｉ／Ｆ３６は、相互にバスを介して接続され、必要に応じて、情報のやりとりを行うことができる。

　ＣＰＵ３１は、メモリ３３に記憶されたプログラムを実行することで、信号処理ブロック３０の制御、接続線ＣＬ１を介しての、撮像制御部２５のレジスタ群２７への情報の読み書き、その他の各種の処理を行う。例えば、ＣＰＵ３１は、プログラムを実行することにより、ＤＳＰ３２での信号処理により得られる信号処理結果を用いて、撮像情報を算出する撮像情報算出部として機能し、信号処理結果を用いて算出した新たな撮像情報を、接続線ＣＬ１を介して、撮像制御部２５のレジスタ群２７にフィードバックして記憶させる。したがって、ＣＰＵ３１は、結果として、撮像画像の信号処理結果に応じて、撮像部２１での撮像や、撮像処理部２２での撮像信号処理を制御することができる。

　また、ＣＰＵ３１がレジスタ群２７に記憶させた撮像情報は、通信Ｉ／Ｆ２６から外部に提供（出力）することができる。例えば、レジスタ群２７に記憶された撮像情報のうちのフォーカスの情報は、通信Ｉ／Ｆ２６から、フォーカスを制御するフォーカスドライバ（図示せず）に提供することができる。

　ＤＳＰ３２は、メモリ３３に記憶されたプログラムを実行することで、撮像処理部２２から、接続線ＣＬ２を介して、信号処理ブロック３０に供給される撮像画像や、入力Ｉ／Ｆ３６が外部から受け取る情報を用いた信号処理を行う信号処理部として機能する。

　メモリ３３は、ＳＲＡＭ(Static　Random　Access　Memory)やＤＲＡＭ(Dynamic　RAM)等で構成され、信号処理ブロック３０の処理上必要なデータ等を記憶する。例えば、メモリ３３は、通信Ｉ／Ｆ３４において、外部から受信されたプログラムや、画像圧縮部３５で圧縮され、ＤＳＰ３２での信号処理で用いられる撮像画像、ＤＳＰ３２で行われた信号処理の信号処理結果、入力Ｉ／Ｆ３６が受け取った情報等を記憶する。

　通信Ｉ／Ｆ３４は、例えば、ＳＰＩ(Serial　Peripheral　Interface)等のシリアル通信Ｉ／Ｆ等の第２の通信Ｉ／Ｆであり、外部（例えば、図１のメモリ３や制御部６等）との間で、ＣＰＵ３１やＤＳＰ３２が実行するプログラム等の必要な情報のやりとりを行う。例えば、通信Ｉ／Ｆ３４は、ＣＰＵ３１やＤＳＰ３２が実行するプログラムを外部からダウンロードし、メモリ３３に供給して記憶させる。したがって、通信Ｉ／Ｆ３４がダウンロードするプログラムによって、ＣＰＵ３１やＤＳＰ３２で様々な処理を実行することができる。

　なお、通信Ｉ／Ｆ３４は、外部との間で、プログラムの他、任意のデータのやりとりを行うことができる。例えば、通信Ｉ／Ｆ３４は、ＤＳＰ３２での信号処理により得られる信号処理結果を、外部に出力することができる。また、通信Ｉ／Ｆ３４は、ＣＰＵ３１の指示に従った情報を、外部の装置に出力し、これにより、ＣＰＵ３１の指示に従って、外部の装置を制御することができる。

　ここで、ＤＳＰ３２での信号処理により得られる信号処理結果は、通信Ｉ／Ｆ３４から外部に出力する他、ＣＰＵ３１によって、撮像制御部２５のレジスタ群２７に書き込むことができる。レジスタ群２７に書き込まれた信号処理結果は、通信Ｉ／Ｆ２６から外部に出力することができる。ＣＰＵ３１で行われた処理の処理結果についても同様である。

　画像圧縮部３５には、撮像処理部２２から接続線ＣＬ２を介して、撮像画像が供給される。画像圧縮部３５は、必要に応じて、撮像画像を圧縮する圧縮処理を行い、その撮像画像よりもデータ量が少ない圧縮画像を生成する。画像圧縮部３５で生成された圧縮画像は、バスを介して、メモリ３３に供給されて記憶される。画像圧縮部３５は、供給された撮像画像を圧縮せずに出力することもできる。

　ここで、ＤＳＰ３２での信号処理は、撮像画像そのものを用いて行う他、画像圧縮部３５で撮像画像から生成された圧縮画像を用いて行うことができる。圧縮画像は、撮像画像よりもデータ量が少ないため、ＤＳＰ３２での信号処理の負荷の軽減や、圧縮画像を記憶するメモリ３３の記憶容量の節約を図ることができる。

　画像圧縮部３５での圧縮処理としては、例えば、ＤＳＰ３２での信号処理が輝度を対象として行われ、かつ、撮像画像がＲＧＢの画像である場合には、圧縮処理としては、ＲＧＢの画像を、例えば、ＹＵＶの画像に変換するＹＵＶ変換を行うことができる。なお、画像圧縮部３５は、ソフトウエアにより実現することもできるし、専用のハードウエアにより実現することもできる。

　入力Ｉ／Ｆ３６は、外部から情報を受け取るＩ／Ｆである。入力Ｉ／Ｆ３６は、例えば、外部のセンサから、その外部のセンサの出力（外部センサ出力）を受け取り、バスを介して、メモリ３３に供給して記憶させる。

　入力Ｉ／Ｆ３６としては、例えば、出力Ｉ／Ｆ２４と同様に、ＭＩＰＩ(Mobile　Industry　Processor　Interface)等のパラレルＩ／Ｆ等を採用することができる。

　また、外部のセンサとしては、例えば、距離に関する情報をセンシングする距離センサを採用することができる、さらに、外部のセンサとしては、例えば、光をセンシングし、その光に対応する画像を出力するイメージセンサ、すなわち、イメージセンサ１００とは別のイメージセンサを採用することができる。

　ＤＳＰ３２では、撮像画像（から生成された圧縮画像）を用いる他、入力Ｉ／Ｆ３６が上述のような外部のセンサから受け取り、メモリ３３に記憶される外部センサ出力を用いて、信号処理を行うことができる。

　以上のように構成される１チップのイメージセンサ１００では、撮像部２１での撮像により得られる撮像画像を用いた信号処理がＤＳＰ３２で行われ、その信号処理の信号処理結果、および、撮像画像が、出力Ｉ／Ｆ２４から選択的に出力される。したがって、ユーザが必要とする情報を出力する撮像装置を、小型に構成することができる。

　ここで、イメージセンサ１００において、ＤＳＰ３２の信号処理を行わず、したがって、イメージセンサ１００から、信号処理結果を出力せず、撮像画像を出力する場合、すなわち、イメージセンサ１００を、単に、画像を撮像して出力するだけのイメージセンサとして構成する場合、イメージセンサ１００は、出力制御部２３を設けない撮像ブロック２０だけで構成することができる。

　図１１は、各実施形態に係るイメージセンサ１００の外観構成例の概要を示す斜視図である。

　イメージセンサ１００は、例えば、図１１に示すように、複数のダイが積層された積層構造を有する１チップの半導体装置として構成することができる。図１１の例では、イメージセンサ１００は、ダイ５１および５２の２枚のダイが積層されて構成される。

　図１１において、上側のダイ５１には、撮像部２１が搭載され、下側のダイ５２には、撮像処理部２２、出力制御部２３、出力Ｉ／Ｆ２４および撮像制御部２５と、ＣＰＵ３１、ＤＳＰ３２、メモリ３３、通信Ｉ／Ｆ３４、画像圧縮部３５および入力Ｉ／Ｆ３６と、が搭載されている。

　上側のダイ５１と下側のダイ５２とは、例えば、ダイ５１を貫き、ダイ５２にまで到達する貫通孔を形成することにより、または、ダイ５１の下面側に露出したＣｕ配線と、ダイ５２の上面側に露出したＣｕ配線とを直接接続するＣｕ－Ｃｕ接合を行うこと等により、電気的に接続される。

　ここで、撮像処理部２２において、撮像部２１が出力する画像信号のＡＤ変換を行う方式としては、例えば、列並列ＡＤ方式やエリアＡＤ方式を採用することができる。

　列並列ＡＤ方式では、例えば、撮像部２１を構成する画素の列に対してＡＤＣ（ＡＤ　Ｃｏｎｖｅｒｔｅｒ）が設けられ、各列のＡＤＣが、その列の画素の画素信号のＡＤ変換を担当することで、１行の各列の画素の画像信号のＡＤ変換が並列に行われる。列並列ＡＤ方式を採用する場合には、その列並列ＡＤ方式のＡＤ変換を行う撮像処理部２２の一部が、上側のダイ５１に搭載されることがある。

　エリアＡＤ方式では、撮像部２１を構成する画素が、複数のブロックに区分され、各ブロックに対して、ＡＤＣが設けられる。そして、各ブロックのＡＤＣが、そのブロックの画素の画素信号のＡＤ変換を担当することで、複数のブロックの画素の画像信号のＡＤ変換が並列に行われる。エリアＡＤ方式では、ブロックを最小単位として、撮像部２１を構成する画素のうちの必要な画素についてだけ、画像信号のＡＤ変換（読み出しおよびＡＤ変換）を行うことができる。

　なお、イメージセンサ１００の面積が大になることが許容されるのであれば、イメージセンサ１００は、１枚のダイで構成することができる。

　また、図１１では、２枚のダイ５１および５２を積層して、１チップのイメージセンサ１００を構成することとしたが、１チップのイメージセンサ１００は、３枚以上のダイを積層して構成することができる。例えば、３枚のダイを積層して、１チップのイメージセンサ１００を構成する場合には、図１１のメモリ３３を、別のダイに搭載することができる。

［４．本開示に係る第１の実施形態］
　次に、本開示に係る第１の実施形態について説明する。

（４－１．第１の実施形態に係る構成例）
　図１２は、第１の実施形態に係るイメージセンサ１００の機能を説明するための一例の機能ブロック図である。図１２において、イメージセンサ１００は、切り出し部２００と、検出部２０１と、背景メモリ２０２と、認識部２０４と、を含む。なお、これら切り出し部２００、検出部２０１、背景メモリ２０２および認識部２０４は、図１０に示した信号処理ブロック３０において、例えばＤＳＰ３２により実現される。

　図示されない撮像ブロック２０（図１０参照）において撮像が行われ、撮像ブロック２０から、第Ｎフレームの撮像画像１１００Ｎが出力される。ここでは、撮像画像１１００Ｎは、幅４０９６画素×高さ３０７２画素の４ｋ×３ｋ画像であるものとする。

　撮像ブロック２０から出力された撮像画像１１００Ｎは、切り出し部２００および検出部２０１に供給される。

　検出部２０１は、撮像画像１１００Ｎに含まれるオブジェクト１３００の位置を検出し、検出された位置を示す位置情報を切り出し部２００に渡す。より具体的には、検出部２０１は、撮像画像１１００Ｎから、撮像画像１１００Ｎの解像度を下げた検出用画像を生成し、この検出用画像に対してオブジェクト１３００の位置検出を行う（詳細は後述する）。

　ここで、背景メモリ２０２は、撮像画像１１００Ｎに対応する背景画像を検出用画像と同様の解像度の画像に変更した検出用背景画像が予め記憶される。検出部２０１は、撮像画像１１００Ｎの解像度を下げた画像と、この検出用背景画像との差分を求め、この差分を検出用画像として用いる。

　なお、背景画像は、例えば当該イメージセンサ１００が搭載される撮像装置１０が監視カメラの用途として撮像範囲を固定的にして用いられる場合には、当該撮像範囲に人などが居ないデフォルトの状態で撮像を行い、そこで得られた撮像画像を適用することができる。これに限らず、ユーザによる撮像装置１０に対する操作に応じて、背景画像を撮像することもできる。

　切り出し部２００は、検出部２０１から渡された位置情報に基づき、撮像画像１１００Ｎから、オブジェクト１３００が含まれる画像を、認識部２０４が対応可能な所定サイズで切り出し、認識用画像１１０４ａを生成する。すなわち、切り出し部２００は、検出部２０１により検出された位置に基づき、入力画像からオブジェクト１３００を含む所定の解像度の認識用画像を生成する生成部として機能する。

　ここでは、この認識部２０４が対応可能な所定サイズを、幅２２４画素×高さ２２４画素とし、切り出し部２００は、撮像画像１１００Ｎから、位置情報に基づきオブジェクト１３００が含まれる領域を、幅２２４画素×高さ２２４画素のサイズで切り出して、認識用画像１１０４ａを生成する。すなわち、認識用画像１１０４ａは、幅２２４画素×高さ２２４画素の解像度を有する画像である。

　なお、切り出し部２００は、オブジェクト１３００のサイズが当該所定サイズに収まらない場合に、撮像画像１１００Ｎからオブジェクト１３００を含めて切り出した画像を、幅２２４画素×高さ２２４画素のサイズに縮小して、認識用画像１１０４ａを生成することができる。また、切り出し部２００は、撮像画像１１００Ｎからの切り出しを行わず、撮像画像１１００Ｎの全体を当該所定サイズに縮小して、認識用画像１１０４ｂを生成してもよい。この場合、切り出し部２００は、当該認識用画像１１０４ｂに対して、検出部２０１から渡された位置情報を付加することができる。

　なお、以下では、切り出し部２００は、認識用画像１１０４ａおよび１１０４ｂのうち、認識用画像１１０４ａを出力するものとして説明を行う。

　切り出し部２００で撮像画像１１００Ｎから切り出された認識用画像１１０４ａは、認識部２０４に渡される。このとき、切り出し部２００は、検出部２０１から渡された位置情報を、認識用画像１１０４ａと共に認識部２０４に渡すことができる。認識部２０４は、例えば、機械学習により学習されたモデルに基づき、認識用画像１１０４に含まれるオブジェクト１３００を認識する認識処理を実行する。このとき、認識部２０４は、機械学習の学習モデルとして、例えばＤＮＮ(Deep　Neural　Network)を適用することができる。認識部２０４によるオブジェクト１３００の認識結果は、例えばＡＰ１０１に渡される。認識結果は、例えばオブジェクト１３００の種類や、オブジェクト１３００の認識度を示す情報を含むことができる。

　なお、切り出し部２００は、認識部２０４に認識用画像１１０４ａに渡す際に、当該認識用画像１１０４ａと共に、検出部２０１から渡された位置情報を渡すことができる。認識部２０４は、この位置情報に基づき認識処理を実行することで、より高精度の認識結果を取得することが可能となる。

　図１３は、第１の実施形態に係る検出部２０１の機能を説明するための一例の機能ブロック図である。図１３において、検出部２０１は、位置検出用画像生成部２０１０と減算器２０１２と、物体位置検出部２０１３と、を含む。

　位置検出用画像生成部２０１０は、撮像ブロック２０から供給された撮像画像１１００Ｎの解像度を下げた低解像度画像３００を生成する。ここでは、位置検出用画像生成部２０１０が生成する低解像度画像３００は、幅１６画素×高さ１６画素の解像度（サイズ）を有するものとする。

　例えば、位置検出用画像生成部２０１０は、撮像画像１１００Ｎを、幅方向および高さ方向にそれぞれ１６分割し、それぞれ幅２５６画素（＝４０９６画素／１６）、高さ１９２画素（＝３０７２画素／１６）のサイズを有する２５６個のブロックに分割する。位置検出用画像生成部２０１０は、２５６個の各ブロックについて、ブロックに含まれる画素の輝度値の積算値を求め、求めた積算値を正規化して、そのブロックの代表値を生成する。２５６個のブロックそれぞれについて求めた代表値それぞれを画素値として、幅１６画素×高さ１６画素の解像度（サイズ）を有する低解像度画像３００を生成する。

　位置検出用画像生成部２０１０で生成された低解像度画像３００に対して、減算器２０１２および背景メモリ２０２に記憶される低解像度背景画像３０１を用いて、背景キャンセル処理が行われる。低解像度画像３００が減算器２０１２の被減算入力端に入力される。減算器２０１２の減算入力端には、背景メモリ２０２に記憶される低解像度背景画像３０１が入力される。減算器２０１２は、被減算入力端に入力された低解像度画像３００と、減算入力端に入力された低解像度背景画像３０１との差分の絶対値を、位置検出用画像３０２として生成する。

　図１４は、第１の実施形態に係る位置検出用画像３０２の例を模式的に示す図である。図１４において、セクション（ａ）は、画像としての位置検出用画像３０２の例を示している。また、セクション（ｂ）は、セクション（ａ）の画像を、各画素の画素値を用いて示している。また、図１４のセクション（ｂ）の例では、画素のビット深度が８ビットであるものとして、画素値を示している。

　位置検出用画像３０２は、低解像度画像３００の背景領域（オブジェクト１３００に対応する低解像度オブジェクト領域３０３を除いた領域）と、当該背景領域に対応する低解像度背景画像３０１の領域とで各画素の画素値が完全に一致する場合、図１４のセクション（ｂ）に示されるように、例えば当該背景領域は輝度値が最小値である値［０］となり、低解像度オブジェクト領域３０３は、値［０］と異なる値となる。

　位置検出用画像３０２は、物体位置検出部２０１３に入力される。物体位置検出部２０１３は、位置検出用画像３０２の各画素の輝度値に基づき、位置検出用画像３０２内での低解像度オブジェクト領域３０３の位置を検出する。例えば、物体位置検出部２０１３は、位置検出用画像３０２の各画素に対して閾値判定を行い、画素値が［１］以上の画素の領域を、低解像度オブジェクト領域３０３と判定し、その位置を求める。なお、このときの閾値に所定のマージンを持たせることも可能である。

　物体位置検出部２０１３は、低解像度オブジェクト領域３０３に含まれる各画素の位置を、撮像画像１１００Ｎを分割した各ブロックの位置（例えばブロックの代表画素の位置）に変換することで、撮像画像１１００Ｎにおけるオブジェクト１３００の位置を求めることができる。また、物体位置検出部２０１３は、位置検出用画像３０２の各画素の輝度値に基づき、複数個のオブジェクト位置を求めることも可能である。

　物体位置検出部２０１３で検出された、撮像画像１１００Ｎにおけるオブジェクト１３００の位置を示す位置情報が、切り出し部２００に渡される。

（４－２．第１の実施形態に係る処理例）
　図１５は、第１の実施形態に係る処理を説明するための一例のシーケンス図である。なお、図１５の各部の意味は、上述した図４などと同様であるので、ここでの説明を省略する。

　第（Ｎ－１）フレームにおいて、オブジェクト１３００を含む撮像画像１１００（Ｎ－１）が撮像される。撮像画像１１００（Ｎ－１）は、例えば切り出し部２００における画像処理（ステップＳ１００）により検出部２０１に渡され、撮像画像１１００（Ｎ－１）におけるオブジェクト１３００の位置が検出される（ステップＳ１０１）。ステップＳ１０１の位置検出は、上述したように、背景キャンセル処理３２０により、それぞれ１６画素×１６画素のサイズを有する低解像度画像３００と低解像度背景画像３０１との差分を求めた位置検出用画像３０２に対して行われる。

　イメージセンサ１０００は、ステップＳ１０１の物体位置検出処理により検出された、撮像画像１１００（Ｎ－１）におけるオブジェクト１３００の位置を示す位置情報に基づき、切り出し部２００が撮像画像１１００からオブジェクト１３００を含む領域の画像を切り出すためのレジスタ設定値を計算する（ステップＳ１０２）。ここで、ステップＳ１０１の物体位置検出処理は、処理に用いる画素数が少ないため、処理が比較的軽く、ステップＳ１０２のレジスタ設定値計算までの処理を、第（Ｎ－１）フレームの期間内に完了させることが可能である。

　ステップＳ１０１で計算されたレジスタ設定値は、次の第Ｎフレームにおいて、切り出し部２００に反映される（ステップＳ１０３）。切り出し部２００は、第Ｎフレームの撮像画像１１００Ｎ（図示しない）に対して、レジスタ設定値に従い切り出し処理を行い（ステップＳ１０４）、認識用画像１１０４ａを生成する。この認識用画像１１０４ａは、認識部２０４に渡される。認識部２０４は、渡された認識用画像１１０４ａに基づきオブジェクト１３００に対する認識処理を行い（ステップＳ１０５）、認識結果を例えばＡＰ１０１に対して出力する（ステップＳ１０６）。

　このように、第１の実施形態では、認識部２０４による認識処理に用いる認識用画像１１０４ａを、１６画素×１６画素という少ない画素数の低解像度画像３００を用いて検出したオブジェクト１３００の位置に基づき切り出して生成している。そのため、ステップＳ１０２のレジスタ設定値計算までの処理を、第（Ｎ－１）フレームの期間内に完了させることが可能となる。そのため、第Ｎフレームの撮像画像１１００Ｎに対して切り出し位置を反映させるまでのレイテンシを、１フレームとすることができ、既存技術に対して短縮できる。また、物体位置検出処理と認識処理とをそれぞれ別のパイプライン処理で実行できるため、既存技術に対してスループットを落とさずに処理を行うことができる。

［５．本開示に係る第２の実施形態］
　次に、本開示に係る第２の実施形態について説明する。第２の実施形態は、例えば第（Ｎ－２）および第（Ｎ－１）フレームといった複数の撮像画像１１００（Ｎ－２）および１１００（Ｎ－１）に基づく低解像度画像を用いて、第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測するようにした例である。

（５－１．第２の実施形態に係る構成例）
　図１６は、第２の実施形態に係るイメージセンサの機能を説明するための一例の機能ブロック図である。図１６に示すイメージセンサ１００は、図１２を用いて説明した第１の実施形態に係るイメージセンサ１００と比較して、検出部２０１の代わりに予測・検出部２１０を有すると共に、少なくとも２つの位置情報を保持可能なメモリ２１１を有している。

　なお、メモリ２１１は過去位置情報以外の情報（例えば、過去の低解像度画像など）も併せて保持することが可能である。図１６の例では、メモリ２１１は、位置情報を保持するための位置情報メモリ２１１０と、背景画像３１１を保持するための背景メモリ２１１１とを含んでいる。

　図示されない撮像ブロック２０（図１０参照）において撮像が行われ、撮像ブロック２０から、４ｋ×３ｋ画像である第（Ｎ－１）フレームの撮像画像１１００（Ｎ－１）が出力される。撮像ブロック２０から出力された撮像画像１１００（Ｎ－１）は、切り出し部２００および予測・検出部２１０に供給される。

　図１７は、第２の実施形態に係る予測・検出部２１０の機能を説明するための一例の機能ブロック図である。図１７において、予測・検出部２１０は、位置検出用画像生成部２０１０と、物体位置検出部２０１３と、位置情報メモリ２１１０と、背景メモリ２１１１と、予測部２１００と、を含む。これらのうち、位置検出用画像生成部２０１０および物体位置検出部２０１３は、図１３を用いて説明した位置検出用画像生成部２０１０および物体位置検出部２０１３と同様であるので、ここでの詳細な説明を省略する。

　予測・検出部２１０は、背景メモリ２１１１に記憶される背景画像および位置検出用画像生成部２０１０から出力された撮像画像１１００（Ｎ－１）から、オブジェクト１３００に対応する低解像度オブジェクト領域３０３を検出する。ここで、位置情報（Ｎ－２）は、第（Ｎ－２）フレームの撮像画像１１００（Ｎ－２）から、第１の実施形態において説明したようにして生成した、オブジェクト１３００の位置を示す位置情報である。同様に、位置情報（Ｎ－１）は、第（Ｎ－１）フレームの撮像画像１１００（Ｎ－１）から生成したオブジェクト１３００の位置を示す位置情報である。

　予測・検出部２１０による処理について、より詳細に説明する。

　予測・検出部２１０において、メモリ２１１に含まれる位置情報メモリ２１１０は、過去のオブジェクト１３００の位置を示す位置情報を少なくとも２フレーム分、格納可能とされている。

　位置検出用画像生成部２０１０は、撮像ブロック２０から供給された、オブジェクト１３００（図示しない）を含む撮像画像１１００（Ｎ－１）の解像度を下げた低解像度画像３１０を生成し、物体位置検出部２０１３に出力する。

　物体位置検出部２０１３は、オブジェクト１３００に対応する位置を検出する。検出された位置を示す情報は、第（Ｎ－１）フレームにおける位置情報（Ｎ－１）＝(ｘ₁，ｘ₂，ｙ₁，ｙ₂)として、位置情報メモリ２１１０に渡される。図１７の例では、位置情報メモリ２１１０は、物体位置検出部２０１３から渡された位置情報（Ｎ－１）を保持する。

　オブジェクト１３００の位置を示す位置情報（Ｎ－１）は、次のフレームタイミングでメモリ２１１の領域（Ｎ－２）に移動され、第（Ｎ－２）フレームの位置情報（Ｎ－２）＝(ｘ₃，ｘ₄，ｙ₃，ｙ₄)とされる。

　予測部２１００に対して、位置情報メモリ２１１０の領域（Ｎ－１）および領域（Ｎ－２）に格納される、第（Ｎ－１）フレームにおける位置情報（Ｎ－１）および前フレーム（第（Ｎ－２）フレーム）における位置情報（Ｎ－２）が渡される。予測部２１００は、物体位置検出部２０１３から渡された位置情報（Ｎ－１）と、メモリ２１１の領域（Ｎ－２）に格納される位置情報（Ｎ－２）とに基づき、未来のフレームである第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測する。

　予測部２１００は、例えば、２つの位置情報（Ｎ－１）および位置情報（Ｎ－２）に基づく線形演算により、第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測することができる。また、メモリ２１１に、さらに過去のフレームの低解像度画像を格納し、３以上の位置情報を用いて当該位置を予測することもできる。さらに、それらの低解像度画像から、オブジェクト１３００の位置が各フレームで同一オブジェクトであることを判定することも可能である。これに限らず、予測部２１００は、機械学習により学習されたモデルを用いて、当該位置を予測することも可能である。

　予測部２１００は、予測した第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を示す位置情報（Ｎ）を、例えば切り出し部２００に出力する。

　切り出し部２００は、予測・検出部２１０から渡された、予測された位置情報に基づき、撮像画像１１００（Ｎ－１）から、第Ｎフレームの撮像画像１１００Ｎにオブジェクト１３００が含まれると予測される位置の画像を、認識部２０４が対応可能な所定サイズ（例えば幅２２４画素×高さ２２４画素）で切り出し、認識用画像１１０４ｃを生成する。

　なお、切り出し部２００は、オブジェクト１３００のサイズが当該所定サイズに収まらない場合に、撮像画像１１００（Ｎ－１）からオブジェクト１３００を含めて切り出した画像を、幅２２４画素×高さ２２４画素のサイズに縮小して、認識用画像１１０４ｃを生成することができる。また、切り出し部２００は、撮像画像１１００Ｎからの切り出しを行わず、撮像画像１１００（Ｎ－１）の全体を当該所定サイズに縮小して、認識用画像１１０４ｄを生成してもよい。この場合、切り出し部２００は、当該認識用画像１１０４ｄに対して、予測・検出部２１０から渡された位置情報を付加することができる。

　なお、以下では、切り出し部２００は、認識用画像１１０４ｃおよび１１０４ｄのうち、認識用画像１１０４ｃを出力するものとして説明を行う。

　切り出し部２００で撮像画像１１００（Ｎ－１）から切り出された認識用画像１１０４ｃは、認識部２０４に渡される。認識部２０４は、例えばＤＮＮを用いて、認識用画像１１０４ｃに含まれるオブジェクト１３００を認識する認識処理を実行する。認識部２０４によるオブジェクト１３００の認識結果は、例えばＡＰ１０１に渡される。認識結果は、例えばオブジェクト１３００の種類や、オブジェクト１３００の認識度を示す情報を含むことができる。

　図１７は、第２の実施形態に係る予測・検出部２１０の機能を説明するための一例の機能ブロック図である。図１７において、予測・検出部２１０は、位置検出用画像生成部２０１０と、物体位置検出部２０１３と、背景メモリ２１１１と、位置情報メモリ２１１０と、予測部２１００と、を含む。これらのうち、位置検出用画像生成部２０１０および物体位置検出部２０１３は、図１３を用いて説明した位置検出用画像生成部２０１０および物体位置検出部２０１３と同様であるので、ここでの詳細な説明を省略する。

　位置情報メモリ２１１０は、過去のオブジェクト１３００の位置を示す位置情報を少なくとも２フレーム分、格納可能とされている。

　物体位置検出部２０１３は、オブジェクト１３００に対応する位置を検出する。検出された位置を示す情報は、第（Ｎ－１）フレームにおける位置情報（Ｎ－１）として、位置情報メモリ２１１０に渡される。

　オブジェクト１３００の位置を示す位置情報（Ｎ－１）は、次のフレームタイミングでメモリ２１１の領域（Ｎ－２）に移動され、第（Ｎ－２）フレームの位置情報（Ｎ－２）とされる。

　予測部２１００は、例えば、２つの位置情報（Ｎ－１）および位置情報（Ｎ－２）に基づき、線形的に第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測することができる。また、メモリ２１１に、さらに過去のフレームの低解像度画像を格納し、２以上の位置情報を用いて当該位置を予測することもできる。さらに、それらの低解像度画像から、オブジェクト１３００の位置が各フレームで同一オブジェクトであることを判定することも可能である。なお、予測部２１００は、機械学習により学習されたモデルを用いて、当該位置を予測することも可能である。

（５－２．第２の実施形態に係る処理例）
　図１８は、第２の実施形態に係る処理を説明するための一例のシーケンス図である。なお、図１８の各部の意味は、上述した図４などと同様であるので、ここでの説明を省略する。

　第（Ｎ－１）フレームにおいて、オブジェクト１３００を含む撮像画像１１００（Ｎ－１）が撮像される。所定の画像処理（ステップＳ１３０）を経て、予測・検出部２１０は、上述した動き予測処理３３０により、２つの位置情報（Ｎ－１）および位置情報（Ｎ－２）に基づき、第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測し、予測された位置を示す位置情報（Ｎ）を生成する（ステップＳ１３１）。

　イメージセンサ１０００は、ステップＳ１３１の物体位置検出処理により予測された、未来の撮像画像１１００Ｎにおけるオブジェクト１３００の位置を示す位置情報（Ｎ）に基づき、切り出し部２００が撮像画像１１００Ｎからオブジェクト１３００を含む領域の画像を切り出すためのレジスタ設定値を計算する（ステップＳ１３２）。ここで、ステップＳ１３１の物体位置検出処理は、処理に用いる画素数が少ないため、処理が比較的軽く、ステップＳ１３２のレジスタ設定値計算までの処理を、第（Ｎ－１）フレームの期間内に完了させることが可能である。

　ステップＳ１３１で計算されたレジスタ設定値は、次の第Ｎフレームにおいて、切り出し部２００に反映される（ステップＳ１３３）。切り出し部２００は、第Ｎフレームの撮像画像１１００Ｎ（図示しない）に対して、レジスタ設定値に従い切り出し処理を行い（ステップＳ１４４）、認識用画像１１０４ｃを生成する。この認識用画像１１０４ｃは、認識部２０４に渡される。認識部２０４は、渡された認識用画像１１０４ｃに基づきオブジェクト１３００に対する認識処理を行い（ステップＳ１５５）、認識結果を例えばＡＰ１０１に対して出力する（ステップＳ１３６）。

　図１９は、第２の実施形態による動き予測を説明するための模式図である。なお、図１９において、各部の意味は、上述した図７と同様であるので、ここでの説明を省略する。

　図７を用いて説明した第２および第３の画像処理方法では、第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測するために、第Ｎフレームの直前の第（Ｎ－１）フレームの情報を用いることができなかった。これに対して、第２の実施形態では、第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を、第Ｎフレームの直前の第（Ｎ－１）フレームの情報を用いて予測している。そのため、図１９に軌跡１４０２で示されるように、実際の軌跡１４０１と近い軌跡を予測することが可能である。

　これにより、オブジェクト１３００が高速に移動するような場合であっても、第Ｎフレームの撮像画像１１００Ｎに含まれるオブジェクト１３００を、より高精度に認識することが可能となる。

（５－３．第２の実施形態に適用可能なパイプライン処理）
　図１８を用いて説明した処理は、物体位置予測処理と認識処理とをそれぞれ別のパイプライン処理で実行できるため、既存技術に対してスループットを落とさずに処理を行うことができる。

　図２０は、第２の実施形態に適用可能なパイプライン処理を説明するための模式図である。なお、ここでは、上述した図１８と共通する部分ついては、説明を省略する。

　図２０において、例えば第Ｎフレームにおいて、イメージセンサ１００は、図１８を用いて説明したようにして、撮像画像１１００Ｎに基づく物体位置予測処理（ステップＳ１３１）を実行する。また、イメージセンサ１００は、予測された位置を示す位置情報（Ｎ）に基づくレジスタ設定値の計算処理（ステップＳ１３２）を実行する。ここで計算されたレジスタ設定値は、次の第（Ｎ＋１）フレームにおける切り出し処理（ステップＳ１３４）に反映される（ステップＳ１３３）。

　一方、イメージセンサ１００は、第Ｎフレームにおいて、直前の第（Ｎ－１）フレームにおいて計算されたレジスタ設定値を用いて（ステップＳ１３３）、切り出し部２００における切り出し処理を実行し（ステップＳ１３４）、認識用画像１１０４ｃを生成する。認識部２０４は、生成された認識用画像１１０４ｃに基づきオブジェクト１３００に対する認識処理を実行する（ステップＳ１３５）。

　同様の処理は、第Ｎフレームに続く第Ｎ＋１フレーム、第Ｎ＋２フレーム、…においても、同様にして繰り返される。

　上述した処理において、各フレームでは、そのフレームで撮像された撮像画像に対する物体位置予測処理（ステップＳ１３１）およびレジスタ設定値計算処理（ステップＳ１３２）と、直前のフレームで計算されたレジスタ設定値に基づく切り出し処理（ステップＳ１３４）および認識処理（ステップＳ１３５）とは、それぞれ独立した処理となっている。そのため、物体位置予測処理（ステップＳ１３１）およびレジスタ設定値計算処理（ステップＳ１３２）によるパイプライン処理と、切り出し処理（ステップＳ１３４）および認識処理（ステップＳ１３５）によるパイプライン処理とを、並列的に実行することができ、既存技術に対してスループットを落とさずに処理を行うことが可能である。なお、このパイプライン処理は、図１５を用いて説明した第１の実施形態による処理にも、同様に適用可能である。

［６．本開示に係る第３の実施形態］
　次に、本開示に係る第３の実施形態について説明する。第３の実施形態は、認識部２０４に対して、背景画像を除去した認識用画像を渡すようにした例である。認識用画像からオブジェクト以外の背景画像を除去することで、認識部２０４は、オブジェクトをより高精度で認識することが可能となる。

　図２１は、第３の実施形態に係るイメージセンサの機能を説明するための一例の機能ブロック図である。図２１に示すイメージセンサ１００は、切り出し部２００と、背景キャンセル部２２１と、背景メモリ２２２と、認識部２０４と、を有している。

　図示されない撮像ブロック２０（図１０参照）において撮像が行われ、撮像ブロック２０から、４ｋ×３ｋ画像である第Ｎフレームの撮像画像１１００Ｎが出力される。撮像ブロック２０から出力された撮像画像１１００Ｎは、切り出し部２００に供給される。切り出し部２００は、撮像画像１１００Ｎを、認識部２０４が対応可能な解像度、例えば幅２２４画素×高さ２２４画素に縮小して認識用画像１１０４ｅを生成する。なお、切り出し部２００は、縮小された認識用画像１１０４ｅを、単純に画素を間引くことで生成してもよいし、線形補間などを用いて生成してもよい。

　認識用画像１１０４ｅは、背景キャンセル部２２１に入力される。背景キャンセル部２２１には、さらに、背景メモリ２２２に予め格納される、幅２２４画素×高さ２２４画素のサイズの背景画像３４０が入力される。

　背景画像３４０は、第１の実施形態における説明と同様に、例えば当該イメージセンサ１００が搭載される撮像装置１０が監視カメラの用途として撮像範囲を固定的にして用いられる場合には、当該撮像範囲に人などが居ないデフォルトの状態で撮像を行い、そこで得られた撮像画像を適用することができる。これに限らず、ユーザによる撮像装置１０に対する操作に応じて、背景画像を撮像することもできる。

　なお、背景メモリ２２２に格納される背景画像３４０は、幅２２４画素×高さ２２４画素のサイズに限定されない。例えば、背景メモリ２２２に対して、撮像画像１１００Ｎと同じ４ｋ×３ｋのサイズを有する背景画像３４１を格納してもよい。さらには、背景メモリ２２２には、幅２２４画素×高さ２２４画素のサイズから、４ｋ×３ｋのサイズまでの任意のサイズの背景画像を格納することができる。例えば、背景キャンセル部２２１は、背景画像のサイズが認識用画像１１０４ｅのサイズと異なる場合には、当該背景画像を、認識用画像１１０４ｅに対応させて、幅２２４画素×高さ２２４画素のサイズの画像に変換する。

　背景キャンセル部２２１は、例えば、認識用画像１１０４ｅと同様の、幅２２４画素×高さ２２４画素のサイズの背景画像３４０を用い、切り出し部２００から入力された認識用画像１１０４ｅと背景画像３４０との差分の絶対値を求める。背景キャンセル部２２１は、認識用画像１１０４ｅの各画素について、求めた差分の絶対値に対する閾値判定を行う。背景キャンセル部２２１は、この閾値判定の結果に応じて、例えば差分の絶対値が［１］以上の画素の領域を、オブジェクト領域、差分の絶対値が［０］の画素の領域を、背景部分と判定し、背景部分の画素の画素値を、所定の画素値（例えば、白を示す画素値）で置換する。なお、このときの閾値に所定のマージンを持たせることも可能である。この背景部分の画素の画素値が所定の画素値に置換された画像が、背景がキャンセルされた認識用画像１１０４ｆとして、認識部２０４に渡される。

　認識部２０４は、このように、背景がキャンセルされた認識用画像１１０４ｆに対して認識処理を行うことで、より高精度な認識結果を得ることができる。認識部２０４による認識結果は、例えばＡＰ１０１に対して出力される。

［７．本開示に係る第４の実施形態］
　次に、本開示に係る第４の実施形態について説明する。第４の実施形態は、上述した第１～第３の実施形態に係る構成を組み合わせたものである。

　図２２は、第４の実施形態に係るイメージセンサの機能を説明するための一例の機能ブロック図である。図２１において、イメージセンサ１００は、切り出し部２００と、予測・検出部２１０と、背景メモリ２２２と、位置情報メモリ２１１０および背景メモリ２１１１を含むメモリ２１１と、背景キャンセル部２２１と、認識部２０４と、を有する。これら各部の機能は、第１～第３の実施形態で各々説明した機能と同様であるので、ここでの詳細な説明を省略する。

　図示されない撮像ブロック２０（図１０参照）において撮像が行われ、撮像ブロック２０から、４ｋ×３ｋ画像である第(Ｎ－１）フレームの撮像画像１１００（Ｎ－１）が出力される。撮像ブロック２０から出力された撮像画像１１００（Ｎ－１）は、切り出し部２００および予測・検出部２１０に供給される。

　予測・検出部２１０は、供給された撮像画像１１００（Ｎ－１）から、図１３を用いて説明した位置検出用画像生成部２０１０と同様にして、例えば幅１６画素×高さ１６画素の低解像度画像３００を生成する。また、予測・検出部２１０は、生成した低解像度画像３００と背景メモリ２１１１に格納される低解像度の背景画像３１１との差分を求め、オブジェクト１３００の位置情報(Ｎ－１）を求める。予測・検出部２１０は、メモリ２１１における位置情報メモリ２１１０に既に記憶される位置情報（Ｎ－１）を、第（Ｎ－２）フレーム目の位置情報（Ｎ－２）とすると共に、求めた位置情報（Ｎ－１）をメモリ２１１における位置情報メモリ２１１０に記憶する。　

　予測・検出部２１０は、メモリ２１１における位置情報メモリ２１１０に記憶される位置情報（Ｎ－２）および位置情報（Ｎ－１）に基づき、図１７を用いて説明した動き予測処理３３０を実行し、未来のフレームである第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置を予測する。予測・検出部２１０は、このようにして予測された位置を示す位置情報（Ｎ）を含む低解像度画像３１２を生成し、切り出し部２００に渡す。

　切り出し部２００は、予測・検出部２１０から渡された低解像度画像３１２に含まれる位置情報（Ｎ）に基づき、撮像画像１１００（Ｎ－１）から、第Ｎフレームの撮像画像１１００Ｎにオブジェクト１３００が含まれると予測される位置の画像を、認識部２０４が対応可能な所定サイズ（例えば幅２２４画素×高さ２２４画素）で切り出し、認識用画像１１０４ｇを生成する。

　なお、切り出し部２００は、オブジェクト１３００のサイズが当該所定サイズに収まらない場合に、撮像画像１１００Ｎからオブジェクト１３００を含めて切り出した画像を、幅２２４画素×高さ２２４画素のサイズに縮小して、認識用画像１１０４ａを生成することができる。また、切り出し部２００は、撮像画像１１００Ｎからの切り出しを行わず、撮像画像１１００Ｎの全体を当該所定サイズに縮小して、認識用画像１１０４ｈを生成してもよい。この場合、切り出し部２００は、当該認識用画像１１０４ｈに対して、予測・検出部２１０から渡された位置情報（Ｎ）を付加することができる。

　切り出し部２００から出力された例えば認識用画像１１０４ｇは、背景キャンセル部２２１に入力される。背景キャンセル部２２１に対して、さらに、背景メモリ２２２に格納される、認識用画像１１０４ｇとサイズが対応する背景画像３４０が入力される。背景キャンセル部２２１は、認識用画像１１０４ｇと背景画像３４０との差分を求め、この差分の画像の各画素に対して、差分の絶対値の閾値判定を行い、例えば差分の絶対値が［１］以上の画素の領域を、オブジェクト領域、差分の絶対値が［０］の画素の領域を、背景部分と判定し、背景部分の画素の画素値を所定の画素値（例えば白を示す画素値）で置換する。この背景部分の画素の画素値が所定の画素値に置換された画像を、背景がキャンセルされた認識用画像１１０４ｉとして、認識部２０４に渡す。なお、このときの閾値に所定のマージンを持たせることも可能である。

　なお、背景キャンセル部２２１は、認識用画像１１０４ｇとサイズが異なる背景画像（例えば背景画像３４１）が入力された場合、当該背景画像を、認識用画像１１０４ｇとサイズが対応する画像に変換することができる。例えば、背景キャンセル部２２１に対して、撮像画像１１００（Ｎ－１）を縮小した認識用画像１１０４ｈが入力された場合、背景キャンセル部２２１は、撮像画像１１００（Ｎ－１）と同サイズの背景画像３４１を縮小し、縮小された背景画像３４１と、認識用画像１１０４ｈとの差分を求める。背景キャンセル部２２１は、この差分の画像の各画素に対して閾値判定を行い、例えば差分の絶対値が［１］以上の画素の領域をオブジェクト領域、差分の絶対値が［０］の画素の領域を背景部分と判定する。背景キャンセル部２２１は、背景部分と判定された領域に含まれる画素の画素値を所定の画素値（例えば、白を示す画素値）で置換する。この背景部分と判定された領域の画素の画素値が所定の画素値に置換された画像を、背景がキャンセルされた認識用画像１１０４ｊとして、認識部２０４に渡す。なお、このときの閾値に所定のマージンを持たせることも可能である。

　認識部２０４は、背景キャンセル部２２１から渡された、背景がキャンセルされた認識用画像１１０４ｉまたは１１０４ｊに対して、オブジェクト１３００の認識処理を行う。認識処理の結果は、例えばＡＰ１０１に対して出力される。

　切り出し部２００は、予測された位置に基づき撮像画像１１００Ｎから認識用画像１１０４ｇを切り出す。そして、この認識用画像１１０４ｇに対して背景キャンセル部２２１により背景部分がキャンセルされた認識用画像１１０４ｉが認識部２０４に入力される。

　第４の実施形態では、第Ｎフレームの撮像画像１１００Ｎにおけるオブジェクト１３００の位置予測を、４ｋ×３ｋ画像を縮小した例えば幅１６画素×高さ１６画素の画像を用いて行うため、処理の高速化が可能であり、レイテンシを短縮できる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　入力画像に含まれるオブジェクトの、前記入力画像における位置を検出する検出部と、
　前記検出部により検出された前記位置に基づき、前記入力画像から前記オブジェクトを含む所定の解像度の認識用画像を生成する生成部と、
　前記生成部により生成された前記認識用画像に対して前記オブジェクトを認識する認識処理を行う認識部と、
を備える画像処理装置。
（２）
　前記検出部は、
　第１の解像度の前記入力画像を、解像度が前記第１の解像度より低い第２の解像度の検出用画像に変換し、前記検出用画像に基づき前記入力画像における位置を検出する、
前記（１）に記載の画像処理装置。
（３）
　前記所定の解像度は、前記第１の解像度より低く、前記第２の解像度は、前記第所定の解像度より低い、
前記（２）に記載の画像処理装置。
（４）
　前記検出部は、
　前記入力画像が前記オブジェクトを含まない場合に対応する画像を変換した前記第２の解像度の画像と、前記オブジェクトを含む前記入力画像を変換した前記第２の解像度の画像との差分を、前記検出用画像として用いる、
前記（２）または（３）に記載の画像処理装置。
（５）
　前記検出部は、
　前記入力画像から検出された前記位置と、前記入力画像に対して過去の１以上の入力画像から検出された前記位置とに基づき、前記入力画像に対して未来の入力画像における前記位置を予測する、
前記（２）に記載の画像処理装置。
（６）
　前記検出部は、
　前記オブジェクトの位置を示す位置情報を少なくとも２フレーム分記憶可能なメモリを有し、
　前記入力画像が前記オブジェクトを含まない場合に対応する画像を変換した前記第２の解像度の画像と、前記入力画像を前記第２の解像度の画像に変換した検出用画像との差分から検出した、前記位置情報と、該位置情報を検出したフレームの１フレーム前の前記位置情報とに基づき、前記入力画像に対して１フレーム未来の入力画像における前記位置を予測する、
前記（５）に記載の画像処理装置。
（７）
　前記生成部は、
　前記入力画像から前記検出部により検出された前記位置に基づき前記オブジェクトに対応する領域を切り出して、前記認識用画像を生成する、
前記（１）～（６）の何れかに記載の画像処理装置。
（８）
　前記生成部は、
　前記オブジェクトの前記入力画像における大きさが前記所定の解像度に対して大きい場合に、前記領域の画像を縮小して前記オブジェクトの全体を含む前記所定の解像度の前記認識用画像を生成する、
前記（７）に記載の画像処理装置。
（９）
　前記生成部は、
　前記入力画像を前記所定の解像度の画像に縮小して、前記認識用画像を生成し、前記検出部により検出された前記位置を、前記認識用画像と共に前記認識部に渡す、
前記（１）～（５）の何れかに記載の画像処理装置。
（１０）
　前記認識用画像の背景部分を除去して前記認識部に出力する背景除去部をさらに備え、
　前記背景除去部は、
　前記検出部により検出された前記位置に基づき前記生成部により前記入力画像から生成された、前記オブジェクトを含む前記所定の解像度の画像から、前記入力画像が前記オブジェクトを含まない場合に対応する画像における、前記位置に基づく前記オブジェクトに対応する領域の前記所定の解像度の画像を前記背景部分の画像として差し引いて生成した画像に対し、閾値に基づき前記背景部分の判定処理を行い、前記背景部分の画素領域に含まれる画素の画素値を所定の画素値で置換した画像を、前記背景部分が除去された前記認識用画像として前記認識部に出力する、
前記（１）～（９）の何れかに記載の画像処理装置。
（１１）
　前記背景除去部は、
　前記背景部分の画像を記憶する背景画像メモリを有する、
前記（１０）に記載の画像処理装置。
（１２）
　前記認識部は、
　機械学習により学習されたモデルに基づき前記オブジェクトの認識を行う、
前記（１）～（１１）の何れかに記載の画像処理装置。
（１３）
　前記認識部は、
　ＤＮＮ(Deep　Neural　Network)を用いて前記オブジェクトの認識を行う、
前記（１２）に記載の画像処理装置。
（１４）
　プロセッサにより実行される、
　入力画像に含まれるオブジェクトの、前記入力画像における位置を検出する検出ステップと、
　前記検出ステップにより検出された前記位置に基づき、前記入力画像から前記オブジェクトを含む所定の解像度の認識用画像を生成する生成ステップと、
　前記生成ステップにより生成された前記認識用画像に対して前記オブジェクトを認識する認識処理を行う認識ステップと、
を有する画像処理方法。

１０　撮像装置
１００　イメージセンサ
１０１　アプリケーションプロセッサ
２００　切り出し部
２０１　検出部
２０２，２２２，２１１１　背景メモリ
２０４　認識部
２１０　予測・検出部
２１１　メモリ
２２１　背景キャンセル部
２２２，２１１１　背景メモリ
１１００，１１００Ｎ，１１００（Ｎ－１），１１００（Ｎ－２），１１００（Ｎ－３）　撮像画像
１３００　オブジェクト
１１０４，１１０４ａ、１１０４ｂ，１１０４ｃ，１１０４ｄ，１１０４ｅ，１１０４ｆ，１１０４ｇ，１１０４ｈ，１１０４ｉ，１１０４ｊ　認識用画像
２１１０　位置情報メモリ

Claims

　入力画像に含まれるオブジェクトの、前記入力画像における位置を検出する検出部と、
　前記検出部により検出された前記位置に基づき、前記入力画像から前記オブジェクトを含む所定の解像度の認識用画像を生成する生成部と、
　前記生成部により生成された前記認識用画像に対して前記オブジェクトを認識する認識処理を行う認識部と、
を備える画像処理装置。
　前記検出部は、
　第１の解像度の前記入力画像を、解像度が前記第１の解像度より低い第２の解像度の検出用画像に変換し、前記検出用画像に基づき前記入力画像における位置を検出する、
請求項１に記載の画像処理装置。
　前記所定の解像度は、前記第１の解像度より低く、前記第２の解像度は、前記所定の解像度より低い、
請求項２に記載の画像処理装置。
　前記検出部は、
　前記入力画像が前記オブジェクトを含まない場合に対応する画像を変換した前記第２の解像度の画像と、前記オブジェクトを含む前記入力画像を変換した前記第２の解像度の画像との差分を、前記検出用画像として用いる、
請求項２に記載の画像処理装置。
　前記検出部は、
　前記入力画像から検出された前記位置と、前記入力画像に対して過去の１以上の入力画像から検出された前記位置とに基づき、前記入力画像に対して未来の入力画像における前記位置を予測する、
請求項２に記載の画像処理装置。
　前記検出部は、
　前記オブジェクトの位置を示す位置情報を少なくとも２フレーム分記憶可能なメモリを有し、
　前記入力画像が前記オブジェクトを含まない場合に対応する画像を変換した前記第２の解像度の画像と、前記入力画像を前記第２の解像度の画像に変換した検出用画像との差分から検出した、前記位置情報と、該位置情報を検出したフレームの１フレーム前の前記位置情報とに基づき、前記入力画像に対して１フレーム未来の入力画像における前記位置を予測する、
請求項５に記載の画像処理装置。
　前記生成部は、
　前記入力画像から前記検出部により検出された前記位置に基づき前記オブジェクトに対応する領域を切り出して、前記認識用画像を生成する、
請求項１に記載の画像処理装置。
　前記生成部は、
　前記オブジェクトの前記入力画像における大きさが前記所定の解像度に対して大きい場合に、前記領域の画像を縮小して前記オブジェクトの全体を含む前記所定の解像度の前記認識用画像を生成する、
請求項７に記載の画像処理装置。
　前記生成部は、
　前記入力画像を前記所定の解像度の画像に縮小して、前記認識用画像を生成し、前記検出部により検出された前記位置を、前記認識用画像と共に前記認識部に渡す、
請求項１に記載の画像処理装置。
　前記認識用画像の背景部分を除去して前記認識部に出力する背景除去部をさらに備え、
　前記背景除去部は、
　前記検出部により検出された前記位置に基づき前記生成部により前記入力画像から生成された、前記オブジェクトを含む前記所定の解像度の画像から、前記入力画像が前記オブジェクトを含まない場合に対応する画像における、前記位置に基づく前記オブジェクトに対応する領域の前記所定の解像度の画像を前記背景部分の画像として差し引いて生成した画像に対し、閾値に基づき前記背景部分の判定処理を行い、前記背景部分の画素領域に含まれる画素の画素値を所定の画素値で置換した画像を、前記背景部分が除去された前記認識用画像として前記認識部に出力する、
請求項１に記載の画像処理装置。
　前記背景除去部は、
　前記背景部分の画像を記憶する背景画像メモリを有する、
請求項１０に記載の画像処理装置。
　前記認識部は、
　機械学習により学習されたモデルに基づき前記オブジェクトの認識を行う、
請求項１に記載の画像処理装置。
　前記認識部は、
　ＤＮＮ(Deep　Neural　Network)を用いて前記オブジェクトの認識を行う、
請求項１２に記載の画像処理装置。
　プロセッサにより実行される、
　入力画像に含まれるオブジェクトの、前記入力画像における位置を検出する検出ステップと、
　前記検出ステップにより検出された前記位置に基づき、前記入力画像から前記オブジェクトを含む所定の解像度の認識用画像を生成する生成ステップと、
　前記生成ステップにより生成された前記認識用画像に対して前記オブジェクトを認識する認識処理を行う認識ステップと、
を有する画像処理方法。