WO2019186787A1

WO2019186787A1 - 画像処理装置、画像処理方法、及び画像処理プログラム

Info

Publication number: WO2019186787A1
Application number: PCT/JP2018/012852
Authority: WO
Inventors: 司深澤; 浩平岡原; 古木　一朗
Original assignee: 三菱電機株式会社
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2019-10-03
Also published as: JP6513300B1; GB2586712B; JPWO2019186787A1; GB2586712A; CN111886624A; US20210004943A1; GB202014492D0; US11403742B2

Abstract

画像処理装置（１０）は、複数の撮像画像の各々を、実在する立体物である実在オブジェクトが占める前景画像部分とそれ以外の背景画像部分とに分割する画像分割部である立体物抽出部（１）と、参照画像部分を前景画像部分の領域に貼り付けることによって背景画像部分を補完する背景補完部（２）と、複数の補完された背景画像部分の視点位置を変更する俯瞰変換を行い、俯瞰変換された背景画像部分を合成することによって背景俯瞰合成画像を生成する背景画像合成部（３）と、実在オブジェクトの姿勢情報を取得する立体物認識部（４）と、姿勢情報を用いて実在オブジェクトに対応する３次元仮想オブジェクトを取得する立体物射影投影部（５）と、背景俯瞰合成画像に３次元仮想オブジェクトを重畳して３次元空間画像を生成する３次元空間重畳部（６）と、３次元空間画像を上から見た画像である俯瞰合成画像を生成して出力する表示画像出力部（７）とを有する。

Description

画像処理装置、画像処理方法、及び画像処理プログラム

　本発明は、複数の撮像画像から俯瞰合成画像を生成する画像処理装置、並びに複数の撮像画像から俯瞰合成画像を生成するために使用される画像処理方法及び画像処理プログラムに関する。

　複数のカメラで得られた複数の撮像画像を視点変換して複数の俯瞰画像を生成し、複数の俯瞰画像を合成して俯瞰合成画像を生成する技術がある。特許文献１は、２つの撮像画像の共通の撮像領域を区分する境界位置と共通の撮像領域内の立体物の位置とに基づいて視点変換された２つの俯瞰画像のうちの、立体物の画像の歪みが小さい俯瞰画像を選択し、選択された俯瞰画像を用いて俯瞰合成画像を生成する技術を記載している。

特許第６２３９２０５号公報（例えば、請求項１、図３）

　上記従来の技術では、立体物の画像の歪みが小さい俯瞰画像を用いて俯瞰合成画像を生成するが、立体物に歪みがあり、見る者に違和感を与える場合がある。

　本発明は、上記課題を解決するためになされたものであり、見る者に違和感を与えにくい俯瞰合成画像を生成することができる画像処理装置、並びに見る者に違和感を与えにくい俯瞰合成画像を生成するために使用される画像処理方法及び画像処理プログラムを提供することを目的とする。

　本発明の一態様に係る画像処理装置は、複数の撮像画像の各々を、前記複数の撮像画像の共通の撮影対象領域内に実在する立体物である実在オブジェクトが占める前景画像部分と前記前景画像部分以外の背景画像部分とに分割する画像分割部と、予め取得されている参照画像の一部である参照画像部分を前記前景画像部分の領域に貼り付けることによって前記背景画像部分を補完して、複数の補完された背景画像部分を生成する背景補完部と、前記複数の補完された背景画像部分の視点位置を変更する俯瞰変換を行い、俯瞰変換された前記背景画像部分を合成することによって背景俯瞰合成画像を生成する背景画像合成部と、前記実在オブジェクトを認識し、前記実在オブジェクトの姿勢情報を取得する立体物認識部と、前記姿勢情報を用いて、前記実在オブジェクトに対応する３次元仮想オブジェクトを取得する立体物射影投影部と、前記背景俯瞰合成画像に前記３次元仮想オブジェクトを重畳して３次元空間画像を生成する３次元空間重畳部と、前記３次元空間画像を上から見た画像である俯瞰合成画像を生成して出力する表示画像出力部とを有することを特徴とする。

　本発明の他の態様に係る画像処理方法は、複数の撮像画像の各々を、前記複数の撮像画像の共通の撮影対象領域内に実在する立体物である実在オブジェクトが占める前景画像部分と前記前景画像部分以外の背景画像部分とに分割するステップと、予め取得されている参照画像の一部である参照画像部分を前記前景画像部分の領域に貼り付けることによって前記背景画像部分を補完して、複数の補完された背景画像部分を生成するステップと、前記複数の補完された背景画像部分の視点位置を変更する俯瞰変換を行い、俯瞰変換された前記背景画像部分を合成することによって背景俯瞰合成画像を生成するステップと、前記実在オブジェクトを認識し、前記実在オブジェクトの姿勢情報を取得するステップと、前記姿勢情報を用いて、前記実在オブジェクトに対応する３次元仮想オブジェクトを取得するステップと、前記背景俯瞰合成画像に前記３次元仮想オブジェクトを重畳して３次元空間画像を生成するステップと、前記３次元空間画像を上から見た画像である俯瞰合成画像を生成して出力するステップとを有することを特徴とする。

　本発明によれば、複数の撮像画像から見る者に違和感を与えにくい俯瞰合成画像を生成することができる。

本発明の実施の形態に係る画像処理装置のハードウェア構成を示す図である。実施の形態に係る画像処理装置を示す機能ブロック図である。本実施の形態に係る画像処理装置と２台の撮像装置と表示機器とを含む画像処理システムの構成例を概略的に示す図である。実施の形態に係る画像処理装置の立体物抽出部が行う処理を示すフローチャートである。（ａ）及び（ｂ）は、立体物抽出部によって撮像画像の各々から抽出された前景画像部分、背景画像部分、及び前景画像撮影情報の例を示す説明図である。実施の形態に係る画像処理装置の背景補完部が行う処理を示すフローチャートである。（ａ）から（ｅ）は、背景補完部が行う処理を示す説明図である。実施の形態に係る画像処理装置の背景画像合成部が行う処理を示すフローチャートである。（ａ）から（ｃ）は、背景画像合成部が行う処理を示す説明図である。実施の形態に係る画像処理装置の立体物認識部が行う処理を示すフローチャートである。実施の形態に係る画像処理装置の立体物射影投影部が行う処理を示すフローチャートである。立体物射影投影部が行う処理を示す説明図である。実施の形態に係る画像処理装置の３次元空間重畳部が行う処理を示すフローチャートである。３次元空間重畳部が行う処理を示す説明図である。実施の形態に係る画像処理装置の表示画像出力部が行う処理を示すフローチャートである。

　以下に、本発明の実施の形態に係る画像処理装置、画像処理方法、及び画像処理プログラムを、添付図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。

《１》構成
《１－１》ハードウェア構成
　図１は、本発明の実施の形態に係る画像処理装置１０のハードウェア構成を示す図である。画像処理装置１０は、本実施の形態に係る画像処理方法を実施することができる装置である。画像処理装置１０は、例えば、コンピュータである。図１に示されるように、画像処理装置１０は、情報処理部であるプロセッサ１１と、メモリ１２と、記憶装置１３と、撮像画像データ（単に「撮像画像」とも言う）を受け取る画像入力インタフェース１４と、表示画像データを出力する表示機器インタフェース１５とを有する。メモリ１２と記憶装置１３とは、記憶部１６とも称される。

　プロセッサ１１は、各種の演算処理及びハードウェアに対する各種の制御処理を行う。メモリ１２は、主記憶装置である。メモリ１２は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。記憶装置１３は、補助記憶装置である。記憶装置１３は、例えば、ハードディスク装置又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。画像入力インタフェース１４は、複数の撮像装置から提供される複数の映像信号、すなわち、複数の撮像画像を画像処理装置１０に取り込むための装置である。表示機器インタフェース１５は、表示画像をディスプレイなどの表示機器に送信するための装置である。

　図１の例では、画像処理装置１０に２台の撮像装置２０ａ及び２０ｂが接続されている。ただし、画像処理装置１０に接続される撮像装置の台数は、３台以上であってもよい。撮像装置２０ａ及び２０ｂの各々は、画像を撮影する機能を持つ。撮像装置２０ａ及び２０ｂの各々は、ＣＣＤ（Ｃｈａｒｇｅｄ－Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）又はＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ－Ｏｘｉｄｅ－Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）のような撮像素子とレンズとを備えたカメラ機器（単に「カメラ」とも言う）である。撮像装置２０ａ及び２０ｂは、互いに同様の構造を持つカメラ機器であることが望ましい。撮像装置２０ａは、第１の撮像対象領域を撮像する。撮像装置２０ｂは、第２の撮像対象領域を撮像する。第１の撮像対象領域と第２の撮像対象領域とは、部分的に重複しており、共通の撮像対象領域部分を有する。

　撮像装置２０ａ及び２０ｂは、画像処理装置１０の画像入力インタフェース１４と有線で接続されてもよく、又は、無線で接続されてもよい。撮像装置２０ａ及び２０ｂと画像入力インタフェース１４とは、例えば、ＩＰ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）ネットワークを介して又は同軸ケーブルを介して通信する。撮像装置２０ａ及び２０ｂと画像入力インタフェース１４との間の接続方式及び通信方式は、特定の方式に限定されない。画像入力インタフェース１４は、撮像装置２０ａ及び２０ｂから提供される２つの（すなわち、２画面の）撮像画像１００ａ及び１００ｂを同時に（すなわち、並列的に）受信する機能を持つ。

　撮像装置２０ａ及び２０ｂから提供される２つの撮像画像１００ａ及び１００ｂは、画像入力インタフェース１４を介して画像処理装置１０の内部に取り込まれ、メモリ１２に記憶される。画像処理装置１０に取り込まれた２つの撮像画像１００ａ及び１００ｂは、撮像対象領域の各々の上方に視点を設けた画像である２つの俯瞰画像データ（単に「俯瞰画像」とも言う）に変換され、その後、２つの俯瞰画像は合成される。俯瞰画像を生成するための変換処理は「視点変換処理」である。本実施の形態では、俯瞰画像を生成するための視点変換処理を「俯瞰変換処理」と言う。プロセッサ１１は、メモリ１２又は記憶装置１３に記憶されている画像処理プログラムを読み出して実行することで、視点変換処理及び合成処理を行う。視点変換処理及び合成処理によって生成された俯瞰合成画像データ（単に「俯瞰合成画像」とも言う）である表示画像データ（単に「表示画像」とも言う）は、表示機器インタフェース１５を介してディスプレイなどの表示機器へ送信される。

《１－２》機能構成
　図２は、本実施の形態に係る画像処理装置１０を示す機能ブロック図である。画像処理装置１０は、撮像装置２０ａ及び２０ｂから撮像画像１００ａ及び１００ｂをそれぞれ受け取り、撮像対象領域における俯瞰画像から生成された俯瞰合成画像を表示画像として出力する。画像処理装置１０は、撮像画像１００ａ及び１００ｂの各々から実在する対象物である立体物（「実在オブジェクト」とも言う）を抽出することによって、撮像画像１００ａ及び１００ｂの各々を前景画像部分データ（「前景画像部分」とも言う）と背景画像部分データ（「背景画像部分」とも言う）とに分割する画像分割部としての立体物抽出部１を有する。

　また、画像処理装置１０は、撮像画像１００ａ及び１００ｂの各々における立体物が抽出された領域に対して過去に取得した撮像画像１００ａ及び１００ｂ（「参照画像データ」又は「参照画像」とも言う）の背景画像部分の一部を貼りつける背景補完部２を有する。参照画像の背景画像部分は、「参照画像部分データ」又は「参照画像部分」とも称される。また、画像処理装置１０は、撮像画像１００ａの背景画像部分と撮像画像１００ｂの背景画像部分とを合成する背景画像合成部３を有する。

　さらに、画像処理装置１０は、前景画像部分として抽出された立体物である実在オブジェクトを認識する立体物認識部４と、抽出された実在オブジェクトが占める前景画像部分に対応する（すなわち、立体物に対応する）選択された３次元仮想オブジェクトに射影投影する立体物射影投影部５とを有する。３次元仮想オブジェクトは、例えば、予め記憶部１６に格納されている仮想的な立体物を表示させるための３次元画像データ又は立体物に対応する大きさを持つ仮想的な立体物を表示させるように生成された３次元画像データである。

　また、画像処理装置１０は、背景画像合成部３によって仮想的な３次元空間に形成された背景画像部分上に、３次元仮想オブジェクトを配置する（すなわち、重ねる）３次元空間重畳部６と、背景画像部分に３次元仮想オブジェクトを重畳することで形成された俯瞰合成画像を表示画像として出力する表示画像出力部７とを有する。

《１－３》構成例
　図３は、本実施の形態に係る画像処理装置１０と２台の撮像装置２０ａ及び２０ｂと表示機器３０とを含む画像処理システムの構成例を概略的に示す図である。

　立体物抽出部１は、撮像画像１００ａ及び１００ｂの各々から実在する立体物である実在オブジェクト４０を検出し、撮像画像における実在オブジェクト４０に対応する部分である前景画像部分を抽出することによって、撮像画像１００ａ及び１００ｂの各々を前景画像部分と背景画像部分とに分割する。実在オブジェクト４０は、例えば、人物、車両、生産物などである。立体物抽出部１は、実在オブジェクト４０を検出し、検出された実在オブジェクト４０を前景画像部分とし、前景画像部分以外の部分を背景画像部分とすることによって、撮像画像１００ａ及び１００ｂの各々を前景画像部分と背景画像部分とに分割する。撮像画像１００ａの背景画像部分は、撮像画像１００ａから立体物である実在オブジェクト４０の領域を抜いた画像部分である。撮像画像１００ｂの背景画像部分は、撮像画像１００ｂから立体物である実在オブジェクト４０の領域を抜いた画像部分である。立体物抽出部１が行う処理は、後述の図４、図５（ａ）及び（ｂ）を用いて詳述される。

　背景補完部２は、過去の撮像画像（例えば、同じ撮像装置によって撮影された画像）として記憶部１６に記憶されている参照画像から、実在オブジェクト４０の領域である前景画像部分を抜き取り、抜き取られた前景画像部分の代わりに参照画像の一部である参照画像部分を貼り付けることによって、前景画像部分が欠落している背景画像部分を補完する。これにより、実在オブジェクト４０の領域を参照画像の一部によって補完した（すなわち、不足箇所の画像データを参照画像部分データで補った）背景画像部分が生成される。背景補完部２が行う処理は、後述の図６、図７（ａ）から（ｅ）を用いて詳述される。

　背景画像合成部３は、背景補完部２で補完された２つの背景画像部分から、背景俯瞰合成画像３０２を生成する。背景俯瞰合成画像３０２を生成するためには、事前に撮像装置２０ａ及び２０ｂの各々のキャリブレーションが行われており、撮像装置２０ａ及び２０ｂの各々の内部パラメータと外部パラメータと画像処理装置１０によって取得されていることが前提になる。内部パラメータは、撮像装置２０ａ及び２０ｂの各々の焦点距離、光軸中心の位置及び方向などを示す情報を含む。外部パラメータは、撮像装置２０ａ及び２０ｂの各々の位置と姿勢であるカメラ位置姿勢を示す情報であり、撮像対象となる空間における設置位置（設置座標）情報と設置姿勢情報（例えば、ヨー、ロール、ピッチ情報）などを含む。背景画像合成部３は、背景補完部２で補完された２つの背景画像部分と、２つの背景画像部分と俯瞰合成画像との対応関係を示すピクセルデータからなる参照テーブルとを用いて俯瞰変換処理と合成処理とを行う。背景画像合成部３が行う処理は、後述の図８、図９（ａ）から（ｃ）を用いて詳述される。

　立体物認識部４は、先ず、撮像画像１００ａから抽出された前景画像部分と撮像画像１００ｂから抽出された前景画像部分とから、立体物である実在オブジェクト４０の認識を行う。実在オブジェクト４０は、例えば、人物、車両、生産物などである。ただし、実在オブジェクト４０は人物、車両、生産物に限定されない。次に、立体物認識部４は、撮像画像１００ａから抽出された前景画像部分と撮像画像１００ｂから抽出された前景画像部分とから、実在オブジェクト４０の姿勢情報を取得して、実在オブジェクト４０の識別情報である実在オブジェクトＩＤ（識別子）、実在オブジェクト４０の種類を示す実在オブジェクト種別、実在オブジェクト４０の姿勢情報を記憶部１６（例えば、メモリ１２）に記憶させる。実在オブジェクト４０の姿勢情報は、例えば、撮像画像１００ａから抽出された前景画像部分及び撮像画像１００ｂから抽出された前景画像部分である２次元座標のピクセルデータを、３次元座標のピクセルデータに変換する際に使用されるテーブルである。実在オブジェクト４０の姿勢情報は、前景画像部分における画像解析により求めてもよいし、撮像装置２０ａ及び２０ｂとは別の装置であるセンサーを用いて取得してもよい。実在オブジェクト４０の姿勢情報の取得方法は、特定のものに限定されない。立体物認識部４が行う処理は、後述の図１０を用いて詳述される。

　立体物射影投影部５は、立体物認識部４で認識された実在オブジェクト４０に対応する３次元仮想オブジェクト４００を取得する。３次元仮想オブジェクト４００は、予め記憶部１６に記憶されている複数の３次元仮想オブジェクトの中から、実在オブジェクト４０に応じて選択されたものであってもよいし、姿勢情報を用いて生成されたものであってもよい。例えば、実在オブジェクト４０が人物である場合には、人物を示す形状の３次元仮想オブジェクトが用いられる。また、実在オブジェクト４０が動物である場合には、動物を示す形状の３次元仮想オブジェクトが用いられる。次に、立体物射影投影部５は、立体物抽出部１で撮像画像１００ａから抽出された前景画像部分及び撮像画像１００ｂから抽出された前景画像部分に対応する３次元仮想オブジェクトに対して射影投影を行うことで、射影投影された３次元仮想オブジェクト４００を生成する。具体的には、立体物射影投影部５は、背景俯瞰合成画像３０２における実在オブジェクト４０としての人物を抽出した位置に、人物を上から見た形状に対応する形状を持つ３次元仮想オブジェクト４００の画像を重畳表示させる。立体物射影投影部５が行う処理は、後述の図１１及び図１２を用いて詳述される。

　３次元空間重畳部６は、例えば、ＸＹＺ直交座標系で示される３次元空間におけるＺ＝０の面に、背景画像合成部３で２つの補完された背景画像部分から生成された背景俯瞰合成画像３０２を配置し、前景画像部分の位置座標に射影投影された３次元仮想オブジェクト４００を配置する。３次元空間重畳部６が行う処理は、後述の図１３及び図１４を用いて詳述される。

　表示画像出力部７は、背景俯瞰合成画像３０２上に３次元仮想オブジェクト４００が重畳された３次元空間の俯瞰合成画像を表示画像として表示機器３０に出力する。表示画像出力部７が行う処理は、後述の図１５を用いて詳述される。

《２》動作
《２－１》立体物抽出部１
　図４は、画像処理装置１０の立体物抽出部１が行う処理を示すフローチャートである。図５（ａ）は、立体物抽出部１によって撮像画像１００ａから抽出された前景画像部分２００ａ及び２０１ａ、背景画像部分３００ａ、並びに前景画像撮影情報５００ａ及び５０１ａの例を示す説明図である。図５（ｂ）は、立体物抽出部１によって撮像画像１００ｂから抽出された前景画像部分２００ｂ及び２０１ｂ、背景画像部分３００ｂ、並びに前景画像撮影情報５００ｂ及び５０１ｂの例を示す説明図である。図５（ａ）及び（ｂ）には、１つの撮像画像から２つの前景画像部分と、２つの前景画像撮影情報とが抽出された例を示しているが、前景画像部分の数は２つに限定されず、前景画像撮影情報の数も２つに限定されない。

　前景画像撮影情報は、例えば、実在オブジェクト４０における撮像装置２０ａ及び２０ｂに最も近い部分の位置座標、前景画像部分の解像度、実在オブジェクト４０の大きさなどを含む。実在オブジェクト４０の大きさは、例えば、実在オブジェクト４０を矩形で囲んだ（例えば、外接するように囲んだ）際の、矩形の４つの頂点の座標で表わされる。ただし、実在オブジェクト４０の大きさを表す情報は、矩形の４つの頂点の座標以外の情報指標であってもよい。

　先ず、立体物抽出部１は、複数の撮像画像１００ａ及び１００ｂを取得する（ステップＳ１０）。撮像画像１００ａ及び１００ｂが圧縮符号化されている場合、立体物抽出部１は、撮像画像１００ａ及び１００ｂをデコードすることで、撮像画像１００ａ及び１００ｂに対応するＲＡＷ画像データを取得する。例えば、撮像装置２０ａ及び２０ｂから動画圧縮規格であるＨ．２６４形式で圧縮符号化された映像がストリーミング配信されている場合、立体物抽出部１は、撮像画像１００ａ及び１００ｂに対しＨ．２６４形式に対応するデコードを行うことで、ＲＧＢＡ（Ｒｅｄ　Ｇｒｅｅｎ　Ｂｌｕｅ　Ａｌｐｈａ）３２ビットのＲＡＷ画像データを取得する。ただし、立体物抽出部１が取得する画像データの形式は、ＲＧＢＡ３２ビットのＲＡＷ画像データに限定されない。

　次に、立体物抽出部１は、取得したＲＡＷ画像データから人物、車両、生産物などのような立体物である１つ以上の実在オブジェクト４０を検出する（ステップＳ１１）。実在オブジェクト４０は、例えば、歩行する人物、走行する車両、工場の生産ラインにおける生産物などである。ただし、実在オブジェクト４０は、これらに限定されず、動物、建造物、障害物、工場設備、ロボットなどのような他の立体物であってもよい。

　次に、立体物抽出部１は、ＲＡＷ画像データから、検出され実在オブジェクト４０を抽出し、ＲＡＷ画像データを、実在オブジェクト４０が撮像された領域部分である前景画像部分と、それ以外の領域部分である背景画像部分とに分割する（ステップＳ１２）。実在オブジェクト４０の抽出は、例えば、グラフカットと呼ばれる画像の領域抽出のための画像セグメンテ－ション技術を用いて行われる。立体物抽出部１は、グラフカットを用いることによって、撮像画像１００ａ及び１００ｂの各々から背景画像部分と前景画像部分とを分割することができる。ただし、実在オブジェクト４０の抽出方法は、グラフカットを用いた方法に限定されない。例えば、実在オブジェクトの抽出に、ディープラーニングを用いた学習ベースの画像セグメンテーション技術（例えば、Ｏｐｅｎ　Ｐｏｓｅ）を用いてもよい。実在オブジェクト４０に関する前景画像撮影情報は、例えば、撮像画像における前景画像部分の位置座標、前景画像部分の大きさを表す値、実在オブジェクト４０を識別する識別子を含む。撮像画像１００ａ及び１００ｂから対象となる実在オブジェクト４０が、０個又は１個以上抽出される。このため、実在オブジェクト４０の検出から実在オブジェクト４０の抽出までの処理（ステップＳ１１及びＳ１２）は、処理対象の撮像画像の数と同じ回数繰り返される。

　次に、立体物抽出部１は、抽出された実在オブジェクト４０に対して、実在オブジェクト４０の同定を行う（ステップＳ１３）。撮像装置２０ａの撮像対象領域と撮像装置２０ｂの撮像対象領域とが共通の撮像対象領域部分を含む場合、撮像画像１００ａ及び１００ｂは、同じ実在オブジェクト４０を撮影する場合がある。立体物抽出部１は、複数の実在オブジェクトの各々を識別するための識別子を実在オブジェクトの各々に付与する。撮像画像１００ａに含まれる実在オブジェクトと撮像画像１００ｂに含まれる実在オブジェクトとが同じ実在オブジェクトである場合、立体物抽出部１は、この実在オブジェクトに同じ識別子を付与する。例えば、立体物抽出部１は、図５（ａ）及び（ｂ）に示されるように、４枚の前景画像部分２００ａ、２０１ａ、２００ｂ及び２０１ｂを検出し、前景画像部分２０１ａと前景画像部分２０１ｂが同一であると判断した場合には、実際の実在オブジェクトの個数は３個であると判定する。立体物抽出部１は、撮像画像１００ａ及び１００ｂを入力として受け取り、背景画像部分３００ａ及び３００ｂ、前景画像部分２００ａ、２０１ａ、２００ｂ及び２０１ｂ、前景画像撮影情報５００ａ、５０１ａ、５００ｂ及び５０１ｂを出力する。

《２－２》背景補完部２
　図６は、画像処理装置１０の背景補完部２が行う処理を示すフローチャートである。背景補完部２は、予め記憶部１６に記憶されている参照画像を用いて背景補完を行う（ステップＳ２０）。背景補完部２は、対象となる前景画像部分２００ａ、２０１ａ、２００ｂ及び２０１ｂに対応する前景画像撮影情報５００ａ、５０１ａ、５００ｂ及び５０１ｂを用いて、背景補完を行う。背景補完部２は、実在オブジェクト４０の前景画像部分２００ａ、２０１ａ、２００ｂ及び２０１ｂの位置座標及び大きさを基に、参照画像から、前景画像部分２００ａ、２０１ａ、２００ｂ及び２０１ｂの位置座標及び大きさと同じ位置座標及び大きさの参照画像部分を取得し、この参照画像部分を背景画像部分に貼りつけることで、前景画像部分の抜けを補完して、補完された背景画像部分を生成する。

　図７（ａ）から（ｅ）は、背景補完部２が行う処理を示す説明図である。例えば、背景補完部２は、図７（ａ）に示される撮像画像１００ａから抽出された図７（ｂ）に示される対象となる前景画像部分２００ａを除いて得られた、図７（ｃ）に示される背景画像部分３００ａを受け取る。次に、背景補完部２は、前景画像部分２００ａに関する前景画像撮影情報５００ａを用いて、対象物としての実在オブジェクトの前景画像部分２００ａの位置座標及び大きさを基に、図７（ｄ）に示される参照画像３５０から、対象物としての実在オブジェクトの前景画像部分２００ａの位置座標及び大きさと同じ位置座標及び大きさの参照画像部分３５０ａを取得する。次に、背景補完部２は、背景画像部分３００ａに参照画像部分３５０ａを貼りつけることによって背景画像部分３００ａを補完し、図７（ｅ）に示されるような補完された背景画像部分３０１ａを生成する。つまり、背景補完部２は、前景画像部分２００ａを抜いた背景画像部分３００ａを入力として受け取り、参照画像３５０を用いて背景補完した背景画像部分３０１ａを出力する。

《２－３》背景画像合成部３
　図８は、画像処理装置１０の背景画像合成部３が行う処理を示すフローチャートである。背景画像合成部３は、背景補完部２における背景補完が行われた背景画像部分３０１ａ及び３０１ｂを入力として受け取り、背景画像部分３０１ａ及び３０１ｂを俯瞰変換（視点変換）し、俯瞰変換された背景画像部分を合成することで背景俯瞰合成画像３０２を生成する。

　具体的には、背景画像合成部３は、背景補完が行われた背景画像部分３０１ａ及び３０１ｂに対して撮像装置２０ａのレンズの特性によって生じる歪み及び撮像装置２０ｂのレンズの特性によって生じる歪みを補正するための歪み補正処理を行う（ステップＳ３０）。

　次に、背景画像合成部３は、撮像装置２０ａの外部パラメータを用いて、背景補完が行われた背景画像部分３０１ａを上（例えば、真上から）から見たように視点位置を変換する俯瞰変換を行う（ステップＳ３１）。また、背景画像合成部３は、撮像装置２０ｂの外部パラメータを用いて、背景補完が行われた背景画像部分３０１ｂを上（例えば、真上から）から見たように視点位置を変換する俯瞰変換を行う（ステップＳ３１）。

　次に、背景画像合成部３は、それぞれの俯瞰変換後の背景画像部分３０１ａ及び３０１ｂを合成する（ステップＳ３２）。

　次に、背景画像合成部３は、俯瞰変換後の背景画像部分３０１ａ及び３０１ｂが重なり合う領域に対してアルファブレンドを行う（ステップＳ３３）。アルファブレンドは、２つの画像を重ね合わせ、画素ごとに設定された係数である透明度（α値）に基いて合成する画像合成方法である。α値は、概念としては、透明度０％の完全不透明状態から透明度１００％の完全透明状態までの透明度を表す。例えば、α値は、０から１までの範囲の値を取る係数であり、最小値（値０）の場合には透明度が最大であり、最大値（値１）の場合には不透明度が最大（塗りつぶし）になる。

　図９（ａ）から（ｃ）は、背景画像合成部３が行う処理を示す説明図である。背景画像合成部３は、図９（ａ）に示される背景画像部分３０１ａ及び３０１ｂから、図９（ｂ）に示される俯瞰変換後の背景画像部分３０１ａ及び背景画像部分３０１ｂを生成し、さらに、図９（ｃ）に示される背景俯瞰合成画像３０２を生成する。画像処理装置１０は、背景俯瞰合成画像３０２を生成するために、事前に撮像装置２０ａ及び２０ｂのキャリブレーションを行い、内部パラメータと外部パラメータを取得する必要がある。内部パラメータは、撮像装置の光学部材の焦点距離、光軸中心の位置及び方向などの情報が含まれる。外部パラメータは、カメラ位置姿勢の情報を含み、撮像対象となる空間における設置位置（設置座標）情報と設置姿勢（ヨー、ロール、ピッチ情報）などが含まれる。背景画像合成部３は、背景画像部分３０１ａと背景画像部分３０１ｂから背景俯瞰合成画像３０２を作成するためには、予め準備された参照テーブルを用いて行うことも可能である。

《２－４》立体物認識部４
　図１０は、画像処理装置１０の立体物認識部４が行う処理を示すフローチャートである。立体物認識部４は、立体物抽出部１で抽出した前景画像部分２００ａ、２０１ａ、２００ｂ及び２０１ｂから実在する立体物である実在オブジェクト４０の認識を行う（ステップＳ４０）。

　次に、立体物認識部４は、立体物抽出部１で抽出した前景画像部分２００ａ及び２００ｂの姿勢情報、すなわち、実在オブジェクトの姿勢情報を取得して、実在オブジェクトＩＤ、実在オブジェクト種別、姿勢情報を記憶部１６に記憶する（ステップＳ４１）。姿勢情報は、前景画像部分２００ａ及び２００ｂである２次元座標のピクセルデータから３次元座標のピクセルデータに変換するためのデータテーブルである。立体物認識部４は、姿勢情報を、前景画像部分における画像解析により予め求めてもよいし、撮像装置以外のセンサーを用いて予め取得してもよい。姿勢情報の取得方法は、特定の方法に限定されない。特に実在オブジェクト４０が人物の場合、撮影画像から人物の骨格情報を取得できるため、立体物認識部４は、人物の骨格情報を姿勢情報として記憶部１６に記憶させてもよい。

《２－５》立体物射影投影部５
　図１１は、画像処理装置１０の立体物射影投影部５が行う処理を示すフローチャートである。立体物射影投影部５は、立体物認識部４で取得した実在オブジェクトの姿勢情報から３次元仮想オブジェクトを生成する（ステップＳ５０）。

　次に、立体物射影投影部５は、立体物抽出部１で抽出した２次元の前景画像部分を、姿勢情報を用いて３次元仮想オブジェクトに射影投影する（ステップＳ５１）。同じ実在オブジェクトＩＤである前景画像部分は、同じ３次元仮想オブジェクトに射影投影される。

　図１２は、立体物射影投影部５が行う処理を示す説明図である。立体物射影投影部５は、認識した実在オブジェクト４０に対応する３次元仮想オブジェクト４００ａを取得（生成を含む）する。３次元仮想オブジェクト４００ａは、対応する実在オブジェクト４０に応じて事前に記憶部１６に記憶されている複数の３次元仮想オブジェクトの候補の中から選択される。また、立体物射影投影部５は、３次元仮想オブジェクト４００ａを、姿勢情報を用いて作成してもよい。次に、立体物射影投影部５は、立体物抽出部１で抽出した前景画像部分２００ａ及び２００ｂを３次元仮想オブジェクト４００ａに対して射影投影する。このとき、立体物射影投影部５は、前景画像部分２００ａ及び２００ｂの姿勢情報を用いて３次元仮想オブジェクトに射影投影を行い、射影投影された３次元仮想オブジェクト４００を生成する。

《２－６》３次元空間重畳部６
　図１３は、画像処理装置１０の３次元空間重畳部６が行う処理を示すフローチャートである。図１４は、立体物射影投影部５が行う処理を示す説明図である。３次元空間重畳部６は、ＸＹＺ直交座標系で示される３次元空間上に、例えば、高さ０（Ｚ＝０）の平面（例えば、ＸＹ面）に背景画像合成部３で生成した背景俯瞰合成画像３０２を配置する（ステップＳ６０）。

　次に、３次元空間重畳部６は、立体物射影投影部５で生成した射影投影された３次元仮想オブジェクト４００を、背景俯瞰合成画像３０２に重ねて配置する（ステップＳ６１）。３次元仮想オブジェクト４００の配置位置は、前景画像撮影情報に含まれる位置情報を、撮像装置２０ａ及び２０ｂにおける内部パラメータと外部パラメータを用いて座標変換した座標である。

《２－７》表示画像出力部７
　図１５は、画像処理装置１０の表示画像出力部７が行う処理を示すフローチャートである。表示画像出力部７は、３次元空間重畳部６で生成された３次元空間に配置された背景俯瞰合成画像３０２と３次元仮想オブジェクト４００とからなる俯瞰合成画像、すなわち、指定された視点位置（例えば、３次元仮想オブジェクト４００の真上の視点位置）から見た俯瞰合成画像を取得する（ステップＳ７０）。

　次に、表示画像出力部７は、取得した俯瞰合成画像を表示機器３０に対して出力する（ステップＳ７１）。

《３》効果
　以上に説明したように、本実施の形態に係る画像処理装置１０及び画像処理方法によれば、３次元空間上に平面の背景俯瞰合成画像３０２と３次元仮想オブジェクト４００とを配置するようにしているので、複数の撮像画像１００ａ及び１００ｂを合成する場合、撮像画像１００ａ及び１００ｂが重なる範囲において立体物が２重に表示されることはなく、また、立体物が消失することもない。

　また、本実施の形態に係る画像処理装置１０及び画像処理方法によれば、複数の実在オブジェクト４０が存在する場合に、実在オブジェクトごとの３次元仮想オブジェクトを用いて個別に歪みを抑制することができるので、違和感のない真上から見た俯瞰画像を生成することができる。

　さらに、本実施の形態に係る画像処理装置１０及び画像処理方法によれば、真上から見た俯瞰画像だけでなく、任意の視点位置から見た俯瞰合成画像を作成することができる。したがって、画像処理装置１０を監視用途で用いる場合、監視者の監視作業の効率化を図ることができる。

《４》利用形態の説明
　本実施の形態に係る画像処理装置１０及び画像処理方法は、工場の作業者の監視用の作業監視システムに適用できる。

　また、本実施の形態に係る画像処理装置１０及び画像処理方法は、車両に搭載することによって、車両周辺の障害物を検出し、表示する運転支援システムに適用できる。

　また、本実施の形態に係る画像処理装置１０及び画像処理方法は、工場の生産ライン上にある作業対象物を管理する製造管理システム又は完成品の在庫状況を監視する在庫管理システムなどに適用できる。

　１　立体物抽出部（画像分割部）、　２　背景補完部、　３　背景画像合成部、　４　立体物認識部、　５　立体物射影投影部、　６　３次元空間重畳部、　７　表示画像出力部、　１０　画像処理装置、　１１　プロセッサ、　１２　メモリ、　１３　記憶装置、　１４　画像入力インタフェース、　１５　表示機器インタフェース、　１６　記憶部、　２０ａ，２０ｂ　撮像画像、　３０　表示機器、　４０　実在オブジェクト（立体物）、　１００ａ，１００ｂ　撮像画像、　２００ａ，２０１ａ，２００ｂ，２０１ｂ　前景画像部分、　３００ａ，３００ｂ　背景画像部分、　３０２　背景俯瞰合成画像、　３５０　参照画像、　３５０ａ　参照画像部分、　４００　射影投影された３次元仮想オブジェクト、　４００ａ　３次元仮想オブジェクト、　５００ａ，５０１ａ，５００ｂ，５０１ｂ　前景画像撮影情報。

Claims

　複数の撮像画像の各々を、前記複数の撮像画像の共通の撮影対象領域内に実在する立体物である実在オブジェクトが占める前景画像部分と前記前景画像部分以外の背景画像部分とに分割する画像分割部と、
　予め取得されている参照画像の一部である参照画像部分を前記前景画像部分の領域に貼り付けることによって前記背景画像部分を補完して、複数の補完された背景画像部分を生成する背景補完部と、
　前記複数の補完された背景画像部分の視点位置を変更する俯瞰変換を行い、俯瞰変換された前記背景画像部分を合成することによって背景俯瞰合成画像を生成する背景画像合成部と、
　前記実在オブジェクトを認識し、前記実在オブジェクトの姿勢情報を取得する立体物認識部と、
　前記姿勢情報を用いて、前記実在オブジェクトに対応する３次元仮想オブジェクトを取得する立体物射影投影部と、
　前記背景俯瞰合成画像に前記３次元仮想オブジェクトを重畳して３次元空間画像を生成する３次元空間重畳部と、
　前記３次元空間画像を上から見た画像である俯瞰合成画像を生成して出力する表示画像出力部と、
　を有することを特徴とする画像処理装置。
　前記立体物射影投影部は、前記実在オブジェクトに対応する３次元仮想オブジェクトを取得し、前記３次元仮想オブジェクトに前記前景画像部分を射影投影し、射影投影された前記３次元仮想オブジェクトを前記背景俯瞰合成画像の上に重ねることを特徴とする請求項１に記載の画像処理装置。
　複数の３次元仮想オブジェクトの候補を予め記憶する記憶部をさらに有することを特徴とする請求項１又は２に記載の画像処理装置。
　前記参照画像は、前記複数の撮像画像を撮影した複数の撮像装置によって過去に撮影された撮像画像であることを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
　前記参照画像を予め記憶する記憶部をさらに有することを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
　前記立体物認識部が前記実在オブジェクトが人物であると認識した場合に、前記姿勢情報は、前記人物の骨格情報を含むことを特徴とする請求項１から５のいずれか１項に記載の画像処理装置。
　前記表示画像出力部は、前記俯瞰合成画像として、前記実在オブジェクトを真上から見た画像を生成することを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
　複数の撮像画像の各々を、前記複数の撮像画像の共通の撮影対象領域内に実在する立体物である実在オブジェクトが占める前景画像部分と前記前景画像部分以外の背景画像部分とに分割するステップと、
　予め取得されている参照画像の一部である参照画像部分を前記前景画像部分の領域に貼り付けることによって前記背景画像部分を補完して、複数の補完された背景画像部分を生成するステップと、
　前記複数の補完された背景画像部分の視点位置を変更する俯瞰変換を行い、俯瞰変換された前記背景画像部分を合成することによって背景俯瞰合成画像を生成するステップと、
　前記実在オブジェクトを認識し、前記実在オブジェクトの姿勢情報を取得するステップと、
　前記姿勢情報を用いて、前記実在オブジェクトに対応する３次元仮想オブジェクトを取得するステップと、
　前記背景俯瞰合成画像に前記３次元仮想オブジェクトを重畳して３次元空間画像を生成するステップと、
　前記３次元空間画像を上から見た画像である俯瞰合成画像を生成して出力するステップと、
　を有することを特徴とする画像処理方法。
　複数の撮像画像の各々を、前記複数の撮像画像の共通の撮影対象領域内に実在する立体物である実在オブジェクトが占める前景画像部分と前記前景画像部分以外の背景画像部分とに分割する処理と、
　予め取得されている参照画像の一部である参照画像部分を前記前景画像部分の領域に貼り付けることによって前記背景画像部分を補完して、複数の補完された背景画像部分を生成する処理と、
　前記複数の補完された背景画像部分の視点位置を変更する俯瞰変換を行い、俯瞰変換された前記背景画像部分を合成することによって背景俯瞰合成画像を生成する処理と、
　前記実在オブジェクトを認識し、前記実在オブジェクトの姿勢情報を取得する処理と、
　前記姿勢情報を用いて、前記実在オブジェクトに対応する３次元仮想オブジェクトを取得する処理と、
　前記背景俯瞰合成画像に前記３次元仮想オブジェクトを重畳して３次元空間画像を生成する処理と、
　前記３次元空間画像を上から見た画像である俯瞰合成画像を生成して出力する処理と、
　をコンピュータに実行させることを特徴とする画像処理プログラム。