JP2021529407A

JP2021529407A - 対象物の種類および状態を判定する方法

Info

Publication number: JP2021529407A
Application number: JP2021517902A
Authority: JP
Inventors: カンペル，マルティン; プラマードルファー，クリストファー; プラニンク，レイナー; ブランドシュテッター，ミヒャエル; ローク，マルクヴァン
Original assignee: Toyota Motor Europe NV SA
Current assignee: Toyota Motor Europe NV SA
Priority date: 2018-06-04
Filing date: 2019-04-05
Publication date: 2021-10-28
Anticipated expiration: 2039-04-05
Also published as: US20210142091A1; EP3579138A1; WO2019233654A1; EP3579138B1; JP7241366B2; US11790642B2

Abstract

本発明は、対象物の種類および状態を判定する方法であって、奥行センサ（２）を用いて場面（ＳＣ）の奥行マップ（１）を生成する工程であって、上記場面（ＳＣ）は、上記対象物（３）および、上記奥行センサ（２）と上記対象物（３）とのあいだにある遮蔽物（４）を含む、工程と、それぞれ異なる視野方向を有する３つの２Ｄ占有ビュー（１６１、１６２、１６３）と、３つの２Ｄ遮蔽ビュー（１７１、１７２、１７３）を計算する工程と、上記占有ビュー（１６１、１６２、１６３）および遮蔽ビュー（１７１、１７２、１７３）のそれぞれを、トレーニング済み畳み込みニューラルネットワーク（６）の異なる入力（２３１、…、２３６）に供給する工程と、上記対象物（３）のクラス（ＣＬ）および境界ボックス（ＢＢ）を上記畳み込みニューラルネットワーク（６）から受け取る工程と、上記対象物（３）の種類および上記対象物（３）の状態判定する工程と、を含む方法に関する。本発明はさらに、上記方法を実行するシステムに関する。

Description

発明の詳細な説明

本発明は、対象物の種類および状態を判定する方法に関する。本発明はさらに、対象物の種類および状態を判定するシステムに関する。

人間のような物体を自動的に検出する様々な技術が存在し、最新技術の多くの分野で使用することができる。例えば、転倒検出は、日常生活の状況に対して多くの用途を有するので、研究の活発な分野である。例えば、老人ホームでは、監視が存在しないときに居住者の運動および状態を観察するセンサをすべての部屋に設置することができる。これらの装置は、観察された人間が転倒したかどうかを検出し、そのような場合に中央ステーションへの警報を発することができる。

このようなシステムに対しては、通常、一定間隔で３Ｄ奥行マップを記録する奥行センサが採用される。最初に、対象物が、通常の方法、例えば、背景差分によって奥行マップ内で検出される。そして、それぞれの奥行マップは、２つの態様について評価される。第一に、奥行マップに人間が描かれているか否か、すなわち、対象物の種類について。第二に、当該人間が転倒しているか否か、すなわち、対象物の状態について。評価は、通常、３次元（３Ｄ）奥行マップを、当該３Ｄ奥行マップ内に位置する人間に関する情報を抽出可能なトレーニング済み畳み込みニューラルネットワークに供給することによって行われる。

３Ｄ奥行マップには大量の情報があるため、上述の装置は非常に非効率的であることが判明した。ニューラルネットワークがそこから情報を抽出することが困難だからである。したがって、ニューラルネットワーク内で２次元（２Ｄ）ビューを判定することが提案されている（例えば、C. R. Qi et al., “Volumetric and Multi-View CNNs for Object Classification on 3D Data” in IEEE Conference in Computer Vision and Pattern Recognition, 2016, pp. 5648-5656を参照）。このようにして人間およびその状態を検出する成功率は増加したが、対象物が室内の他の物体によって遮蔽されたときには依然として問題が生じた。

代替的なアプローチでは、H. Su et al., “Multi-View Convolutional Neural Networks for 3D Shape Recognition” in International Conference on Computer Vision, 2015, pp. 945-953において、３Ｄ形状物体の周りに仮想カメラを回転させることによって、１２の異なる投影グレースケール画像を計算することが提案された。しかしながら、この方法はエイリアシングアーチファクトを生成し、非常に非効率的な早期融合アプローチを採用している。

したがって、本発明の目的は、対象物が、当該対象物と奥行センサとの間の他の物体によって遮蔽された場合に、より高能率かつ高精度に当該対象物の種類や状態を判定する方法を提供することである。

この目的のため、本発明の第一の態様は、対象物の種類および状態を判定する方法であって、奥行センサを用いて場面の奥行マップを生成する工程であって、上記場面では、上記対象物および、上記奥行センサと上記対象物とのあいだにある遮蔽物が、上記奥行センサから見た場合に、上記対象物の第１部分が隠れ、上記対象物の第２部分が隠れていないように位置している、工程と、それぞれ異なる視野方向を有する３つの２Ｄ占有ビューと、当該視野方向のそれぞれ異なる１つと対応する方向をそれぞれ向いた３つの２Ｄ遮蔽ビューを、上記奥行マップから計算する工程であって、上記遮蔽ビューはそれぞれ上記遮蔽物を表わし、上記占有ビューはそれぞれ上記対象物の上記第２部分を上記遮蔽物なしで表す、工程と、上記占有ビューおよび遮蔽ビューのそれぞれを、トレーニング済み畳み込みニューラルネットワークの異なる入力に供給する工程と、上記対象物のクラスおよび境界ボックスを上記畳み込みニューラルネットワークから受け取る工程と、上記対象物の種類を上記受け取ったクラスから判定し、上記対象物の状態を上記境界ボックスから判定する工程と、を含む方法を提供する。

本発明は、対象物を遮蔽する物体（いわゆる「遮蔽物」）の形状および大きさが、畳み込みニューラルネットワークがクラスおよび境界ボックスを決定するのに貴重な情報であるという本発明者らの知見に基づく。対象物の境界ボックスは、遮蔽物の範囲が畳み込みニューラルネットワークにも提供されると、より正確に決定することができる。これは、（例えば、高さおよび幅において）制限を設定し、それにより、適切な境界ボックスを見つけるのに役立つからである。したがって、遮蔽物に関する情報は、対象物の種類を判定するのにも役立つ。

クラスおよび境界ボックスをより効率的で正確に評価するために、占有ビューと遮蔽ビューを畳み込みニューラルネットワークのパラレルな、即ち、異なった入力に入力する。これは、畳み込みニューラルネットワークが、占有ビューの情報を、遮蔽ビューの助けを借りて処理するのに役立つ。当然ながら、遮蔽ビューが含む対象物についての情報は、占有ビュー自体が含むよりも少ない。

境界ボックスは、奥行マップでは見えない対象物の部分を含む。さらに、遮蔽物は場面の１つの要素であってもよいし、多数の要素の複合であってもよい。

好ましくは、上記畳み込みニューラルネットワークは、上記遮蔽ビューおよび占有ビューから特徴マップを生成する前部と、上記特徴マップからクラス予測および境界ボックス予測を生成する中部と、上記クラス予測および上記境界ボックス予測を平均して上記クラスおよび上記境界ボックスをそれぞれ生成する平均化部と、を有する。各境界ボックス予測はそれぞれの視野方向の境界ボックスの２Ｄ予測であり、境界ボックスについての情報を生じさせる。これらの複数の２Ｄ境界ボックス予測から、平均化部は３Ｄ境界ボックスを生成する。本発明の開発中、前部、中部、および平均化部を有する３段階畳み込みニューラルネットワークは異なる種類のビュー、すなわち、占有ビューと遮蔽ビューの入力を取り扱うのにとりわけ効率的であることがわかった。この実施形態では、特徴マップ、クラス予測、および境界ボックス予測は、畳み込みニューラルネットワーク内でのみ生成され、使用される、視野方向毎の中間生成物である。

より好ましくは、上記前部は、複数の層の３つの前部グループを有し、視野方向毎に１つのグループがあり、各グループは特徴マップを生成する。複数の層の各前部グループは、１つの視野方向の占有ビュー、および同じ視野方向の遮蔽ビューを処理する。これにより、それぞれの前部グループ内で占有ビューおよび遮蔽ビューが同時に処理され、当該占有ビューとそれぞれの遮蔽ビューとの間に存在する接続および／または関係が維持される。

本実施形態では、各前部グループが、上記占有ビューの第１の所定数の層と、上記遮蔽ビューの第２の所定数の層とから成る場合、上記占有ビューの層の数が、上記遮蔽ビューの層の数よりも多いことが特に好ましい。したがって、それぞれの前部グループは、占有ビューのための層の第１のブランチと、遮蔽ビューのための層の第２のブランチとを備える。これは、占有ビューおよび遮蔽ビューの情報の文脈が異なるために、遮蔽ビューが占有ビューよりも少ない処理しか必要としないことが分かっているので、好都合である。さらに、各グループ内で占有ビューと遮蔽ビューを並列して処理することで、前部グループの最終出力が生成されるまで、情報を別々に保持するのに役立つ。

より好ましくは、上記占有ビューの上記層は畳み込み層とマックスプーリング層から成り、上記遮蔽ビューの上記層はマックスプーリング層のみから成る。マックスプーリング演算を行うマックスプーリング層は、遮蔽（または占有）情報を保存しながら、ビューの画像の寸法を減らすのに役立つ。占有ビューの第１のブランチおよび遮蔽ビューの第２のブランチは同数のマックスプーリング演算を含むので、両方のブランチの出力は同じ大きさの特徴マップである。両方のブランチの特徴マップは、前部の１つまたは複数の出力において、両方とも連結されて、前部のグループごとに１組の特徴マップを出力する。マックスプーリング層とは対照的に、占有ビューに使用される畳み込み層は、非線形演算を実行する層である。通常、入力の線形演算を実行する緻密層は、前部では使用されない。
前部と同様、上記中部も、複数の層の３つの中部グループを有し、視野方向毎に１つのグループがある。これは、それぞれの視野方向から得られた情報を別々にしておく役割を果たす。これは、実際に、計算されたクラスおよび境界ボックスの効率的で正確な結果をもたらすことを示している。

より好ましくは、本実施形態では、各中部グループは３つの緻密層を有し、そのうちの第１ステージ緻密層は上記前部から上記特徴マップを受け取り、そのうちの２つのパラレルな第２ステージ緻密層は上記第１ステージ緻密層の出力を受け取り、上記第２ステージ緻密層の一方は上記クラス予測を出力し、上記第２ステージ緻密層の他方は境界ボックス予測を出力する。中部のこの特殊な構成は、精度および有効性の点で例外的な結果をもたらすことがわかった。共通の第１ステージ緻密層は、ニューラルネットワークがクラス予測の計算および境界ボックス予測の計算の両方のタスク間の対称性を利用することを可能にしつつ、当該ネットワークに、対象物のクラスおよび境界ボックスの両方に対して識別的である特徴を学習させる。共通の第１ステージ緻密層のあとの個々の第２ステージ緻密層は、それぞれクラス予測と境界ボックス予測の計算を最適化する役割を果たす。

対象物の種類および状態を判定する上述の方法は、多くの様々な実際のシナリオにおいて用いることができ、最も一般的には、人間および／または動物の疾病または不正行為を検出するために用いることができる。しかしながら、この方法が人の転倒を判定するのに用いられるのが特に好ましい。これは、上記の方法を上記の諸実施形態のいずれかで実行することで行われ、上記対象物の種類が人間に該当し、上記対象物の状態が転倒に該当する。この適用は、人間の転倒が境界ボックスの特性から非常に正確に判定され得るので、特に好ましい。

本発明の第２の態様では、上記方法を実行するシステムが提供される。このシステムは、上記方法と同じ利点および好ましい実施形態を有する。

本発明は、添付の図面を参照して、その好ましい例示的な実施形態に基づいて、以下により詳細に説明される。

図１は、奥行マップにおいて部分的に遮蔽された対象物の種類および状態を判定するシステムを示す。

図２ａ、図２ｂ、および図２ｃは、それぞれ、別の視野方向における奥行マップから計算された占有ビューを示す。

図３ａ、図３ｂ、および図３ｃは、それぞれ、別の視野方向における奥行マップから計算された遮蔽ビューを示す。

図４は、本発明の方法をフローチャートで示す。

図５は、図４の方法で用いられる畳み込みニューラルネットワークを模式図で示す。

図１は、奥行センサ２によって生成された奥行マップ１の斜視図を示す。奥行マップ１は、対象物３、ここでは人物を含む場面ＳＣを示す。奥行センサ２と対象物３との間には、遮蔽物４、ここでは棚がある。奥行センサ２は、プロセッサ５、畳み込みニューラルネットワーク６、および評価デバイス７と共に、対象物３の種類ＴＹおよび状態ＳＴを判定するシステム８を形成する。

図１の実施形態では、システム８を用いて、場面ＳＣ内に位置する人物が転倒したかどうかを判定する。このような場合、システム８は、警報または警告を発して、助けまたは調査を求めることができる。しかしながら、システム８はさまざまな用途、例えば、場面ＳＣ内に位置する動物が横たわっているか立っているかを判定する用途にも用いることができる。

遮蔽物４が奥行センサ２と対象物３との間に位置しているので、対象物３の第１部分９は奥行センサ２から見て遮蔽され、対象物３の第２部分１０は奥行センサ２から見て遮蔽されない。換言すれば、第１部分９は奥行マップ１内では見えず、第２部分１０は奥行マップ１内で見える。

奥行センサ２は、奥行マップ１を生成することができる、当該技術分野で知られている任意の種類のものであり得る。奥行マップ１は、例えば、３Ｄボクセルグリッドまたはポイントクラウドである。そのような奥行センサ１の一例はキネクト（登録商標）センサであり、これは赤外光のパターンを発し、周囲の反射から奥行マップ１を生成する。本明細書に記載の方法には、追加のグレースケールまたはカラー画像は必要ない。

対象物３の状態ＳＴを判定するために、システム８は、境界ボックスＢＢ、すなわち、対象物３全体、すなわち、前記第１部分９および第２部分１０の両方に外接しながらできるだけ小さくすべき直方体を計算する。対象物３の第１部分９が奥行マップ１内で遮蔽されているので、境界ボックスＢＢは、システム８によって計算された推定値となる。参考までに、図１はまた、可視の第２部分１０の周りの最小の可能な直方体１１と、実際の対象物３の周りの「実際の」（理論的な）最小の可能な直方体１２とを示しており、この直方体１２は、システム８には利用できない。

図２ａ〜図２ｃ、図３ａ〜図３ｃ、および図４から分かるように、奥行センサ２が生成工程１’で奥行マップ（「ＤＭ」）１を生成した後、プロセッサ５は、奥行マップ１のラベル付け工程１３を実行して、対象物３および遮蔽物４がそれぞれ工程１４および工程１５で生成された個々の３Ｄマップまたはグリッドで表され得るようにする。ラベル付け工程１３の間に、例えば、背景差分を実行して、場面ＳＣ内の対象物３、すなわち、場面ＳＣのインベントリではない物体を識別することができる。例えば、奥行センサ２は場面ＳＣ内に任意の対象物が存在する以前に校正した奥行マップを得ることができ、必要なときに再校正することができる。対象物３が識別（「ラベル付け」）されると、奥行センサ２と対象物３との間に位置する場面ＳＣの部分を遮蔽物４としてラベル付けすることができる。したがって、遮蔽物４は、対象物３よりも奥行センサ２の近くに位置する１つまたは複数の要素から成ることができる。

対象物３および遮蔽物４が工程１３でラベル付けされると、それらのラベル付けされたボクセルは個々のマップまたは格子で表現されて、占有格子（「３D ocp」）および遮蔽格子（「３D ocl」）をそれぞれ取得することができる。３Ｄ占有格子および３Ｄ遮蔽格子から、３つの２Ｄ占有ビュー（「ｏｃｐ−ＸＹ」、「ｏｃｐ−ＸＺ」、「ｏｃｐ−ＹＺ」）１６_１、１６_２、１６_３（その例は図２ａ〜図２ｃに示される）が、プロセッサ５によって、工程１６’_１、１６’_２、１６’_３で、それぞれ異なる視野方向について計算され、３つの２Ｄ遮蔽ビュー（「ｏｃｌ−ＸＹ」、「ｏｃｌ−ＸＺ」、「ｏｃｌ−ＹＺ」）１７₁、１７_２、１７_３（その例は図３ａ〜図３ｃに示される）が、プロセッサ５によって、工程１７’_２、１７’_２、１７’_３で、上記それぞれ異なる視野方向に対応する方向について計算される。上記のそれぞれ異なる視野方向は、ほとんどの場合、直交しているが、他の角度、例えば６０°の角度をそれぞれ有してもよい。

しかしながら、（中間）３Ｄグリッドまたはマップを生成する上記工程１４および１５は、本明細書に記載する方法において任意であり、３つの２Ｄ占有ビュー１６_１、１６_２、１６_３および３つの２Ｄ遮蔽ビュー１７_１、１７_２、１７_３を奥行マップ１から直接的に計算することができ、工程１３は任意の方法で実行することができ、手動で実行することもできる。

対象物３の第２部分１０のみが奥行マップ１で見えるので、３つの占有ビュー１６_１、１６_２、１６_３は、それぞれ、前記遮蔽物４を除いて、対象物３の第２部分１０のみを描写する。同様に、遮蔽ビュー１７_１、１７_２、１７_３はそれぞれ、遮蔽物４を、好ましくは対象物３なしで描く。

計算後、占有ビュー１６_１、１６_２、１６_３および遮蔽ビュー１７_１、１７_２、１７_３がトレーニング済み畳み込みニューラルネットワーク６に供給される。畳み込みニューラルネットワーク６は、図５に関して以下に詳細に説明するように、多数のニューラル層を含む。これらの層により、畳み込みネットワーク６は、工程１８および１９において、対象物３のクラスＣＬおよび境界ボックスＢＢを決定することができる。畳み込みニューラルネットワーク６は、クラスＣＬおよび境界ボックスＢＢを評価デバイス７に出力する。

次に、評価デバイス７は工程２０において受け取ったクラスＣＬから対象物３の種類ＴＹを決定し、工程２１において、境界ボックスＢＢから対象物３の状態ＳＴを決定する。これは、例えば、受け取ったクラスＣＬがデータベースに記憶された所定の種類ＴＹと一致するかどうかをチェックし、境界ボックスＢＢの特性を評価することによって行われる。例えば、境界ボックスＢＢが非常に平坦な形状を有する場合、対象物の状態ＳＴは転倒と見なすことができる。状態ＳＴの判定のために、現在計算されている境界ボックスＢＢに加えて、１回以上前に計算された境界ボックスＢＢを用いて、例えば、境界ボックスＢＢの経過から上記状態ＳＴを決定することができる。

この具体例において、上記対象物３の種類ＴＹが人間に該当し、上記対象物３の状態ＳＴが転倒に該当するとき、人間の転倒が検知される。このような場合、オプションの工程２２でアラームをオフにすることができる。

次に、図５に基づいて、畳み込みニューラルネットワーク６について詳細に説明する。畳み込みニューラルネットワーク６には、２３_１、２３_２、２３_３、２３_４、２３_５、２３_６の６つの入力がある。それぞれ、上記占有ビュー１６_１、１６_２、１６_３および遮蔽ビュー１７_１、１７_２、１７_３の異なる１つを受け取る。畳み込みニューラルネットワーク６は、前部２４と、中部２５と、平均化部２６とを備える。前部２４は、視野方向毎に１つずつ、３つの前部グループ２７を含む。各グループ２７は第１のブランチ２７’および第２のブランチ２７’’を備え、第１のブランチ２７’はそれぞれの視野方向を有する占有ビュー１６_１、１６_２、１６_３のためのものであり、第２のブランチ２７’はそれぞれの視野方向を有する遮蔽ビュー１７_１、１７_２、１７_３のためのものである。各前部グループ２７の第１のブランチ２７’は第１の所定数の層２８および２９を備え、第２のブランチ２７’’は第２の所定数の層２９を備え、第１のブランチ２７’内の層２８および２９の数は第２のブランチ２７’’内の層２９の数よりも多い。

図５の実施形態では、各グループ２７の第１のブランチ２７’は畳み込み層２８およびマックスプーリング層２９を含み、各グループ２７の第２のブランチ２７’’はマックスプーリング層２９のみからなる。当業者に知られているように、畳み込み層２８は入力に畳み込み演算を適用し、マックスプーリング層２９はそれらの入力の寸法を畳み込みなしで減少させる。両ブランチ２７’および２７’’におけるマックスプーリング層の数は同じであり、そのため、各グループ２７の両ブランチ２７’および２７’’の出力は、当業者に知られているように、同一の大きさまたは寸法の特徴マップである。各グループ２７は第１のブランチ２７’および第２のブランチ２７’’の特徴マップを連結して、特徴マップ（ＦＭ）３０の出力を達成する。従って、前部２４の出力は特徴マップ３０、即ち、視野方向毎の特徴マップ３０である。

例えば、第１のブランチ２７’は、３つのマックスプーリング層２９と、各マックスプーリング層２９の前方に２つ（又は１つ又は３つ以上）の畳み込み層２８を含むことができる。また、各マックスプーリング層２９の前に、異なった数の畳み込み層２８を用いることができる。例えば、第１のマックスプーリング層２９の前には１つの畳み込み層２８、第２のマックスプーリング層２９の前には２つの畳み込み層２８を用いるなどである。

図５の例では、中部２５が視野方向毎に１つずつ、３つの中部グループ３１を備える。各中部グループ３１は、同じ視野方向の前部グループ２７によって生成された入力として特徴マップ３０を取る。各中部グループ３１は、クラス予測ＣＰ₁、ＣＰ_２、ＣＰ_３と、２Ｄ境界ボックス予測［ｘ_１、ｙ_１］、［ｘ_２、ｚ_２］、［ｙ_３、ｚ_３］とを生成する。ここで、各中部グループ３１は３つの緻密層３２、３３、３４を含み、そのうちの第１ステージ緻密層３２は前部２４から対応する特徴マップ３０を受け取り、そのうちの２つのパラレルな第２ステージ緻密層３３、３４は第１セクション緻密層３２の出力を受け取る。一方の第２ステージ緻密層３３はそれぞれのクラス予測ＣＰ_１、ＣＰ_２、又はＣＰ_３を出力し、他方の第２ステージ緻密層３４はそれぞれの境界ボックス予測［ｘ_１、ｙ_１］、［ｘ_２、ｚ_２］、又は［ｙ_３、ｚ_３］を出力する。当業者に知られているように、シリアルな緻密層３２は非線形演算を適用し、一方、パラレルな緻密層３３、３４は出力層であり、線形演算を入力に適用する。各実施形態では、シリアル層３２のそれぞれに対して２つ以上の層が存在することができる。

平均化部２６は、第１の平均化モジュール３５および第２の平均化モジュール３６を含む。第１の平均化モジュール３５はすべてのクラス予測ＣＰ_１、ＣＰ_２、ＣＰ_３を入力として取り、それらからクラスＣＬを計算し、当該クラスＣＬを畳み込みニューラルネットワーク６の出力３７で提供する。第２の平均化モジュール３６はすべての境界ボックス予測［ｘ_１、ｙ_１］、［ｘ_２、ｚ_２］、［ｙ_３、ｚ_３］を入力として取り、それらから境界ボックスＢＢを計算し、当該境界ボックスＢＢを畳み込みニューラルネットワーク６の出力３８で提供する。平均化モジュール３５、３６は、例えば、実験により、上から見た占有ビュー１６_３および遮蔽ビュー１７_３がそれぞれクラスＣＬと境界ボックスＢＢの決定のためにより重要であることが示された場合、これらの予測間で重み付けをすることもできる。

見て分かるように、遮蔽ビュー１６_１、１６_２、１６_３および占有ビュー１７_１、１７_２、１７_３は、前記視野方向に関して別々に処理され、平均化部２６でのみ融合される。したがって、本方法は一般に、遮蔽ビュー１６_１、１６_２、１６_３および占有ビュー１７_１、１７_２、１７_３が、個々のステージの構造、種類、または実施形態に関係なく、多段畳み込みニューラルネットワーク６の最後のステージにおいて、視野方向に関してのみ融合される遅延融合アプローチを採用する。

上述したように、本方法の動作中、システム８はトレーニング済み畳み込みニューラルネットワーク６を用いる。この畳み込みニューラルネットワーク６のトレーニングは最新技術における他のニューラルネットワークのトレーニングと同じ方法で、例えば、占有ビュー１６_１、１６_２、１６_３と遮蔽ビュー１７_１、１７_２、１７_３のセット（「実際の」または理論的に考えられる最小の直方体１２が知られている）をそれぞれの入力２３_１、２３_２、２３_３、２３_４、２３_５、２３_６を介して畳み込みニューラルネットワーク６に供給することによって実行される。畳み込みニューラルネットワーク６は次に、入力データの境界ボックスＢＢを計算し、計算された境界ボックスＢＢをトレーニングケースで知られている実際の直方体１２と比較することによって、オフセット（「損失値」）を決定することができる。損失値、すなわち、境界ボックスＢＢの実際の直方体１２との差分は、次いで、従来の学習方法で畳み込みニューラルネットワーク６へフィードバックとして入力され得る。同じトレーニングをクラスＣＬに対して実行することができる。すなわち、損失値は、計算されたクラスＣＬと対象物の実際のクラスとの間の差分として計算される。この損失値は通常２値であり、そのため、損失値は畳み込みニューラルネットワーク６へのフィードバックとして提供される。このようなトレーニングはホストの畳み込みニューラルネットワークで任意選択で実施することができ、その結果を現場の畳み込みニューラルネットワークにコピーすることができる。

現実の環境では、提案されたインフラストラクチャのシステムの畳み込みニューラルネットワークが、レンダリングされた３Ｄモデルの４００００個のサンプルのデータセットによってテストされている。モデルは転倒した人々の３１０個の独自のかつ現実的なポーズを含み、これは、ランダムな性別、年齢、身長、およびサイズを有する人々の１０００個のモデルに適用された。奥行センサ２の焦点距離は５８０ピクセルであった。サンプルの６８％がトレーニングに使用され、１２％がバリデーションに使用され、２０％が試験セットとして使用された。実際の最小直方体に関してシステム８によって計算された境界ボックスＢＢの全精度は、遮蔽比が７０％より低い場合には９９％を超え、遮蔽比が９０％までの場合には９７％を超えた。

本発明は、本明細書に詳細に記載されたこれらの特定の実施形態に限定されるものではなく、添付の特許請求の範囲内にあるそのすべての変形形態および修正形態を包含する。

図１は、奥行マップにおいて部分的に遮蔽された対象物の種類および状態を判定するシステムを示す。図２ａは、別の視野方向における奥行マップから計算された占有ビューを示す。図２ｂは、別の視野方向における奥行マップから計算された占有ビューを示す。図２ｃは、別の視野方向における奥行マップから計算された占有ビューを示す。図３ａは、別の視野方向における奥行マップから計算された遮蔽ビューを示す。図３ｂは、それぞれ、別の視野方向における奥行マップから計算された遮蔽ビューを示す。図３ｃは、それぞれ、別の視野方向における奥行マップから計算された遮蔽ビューを示す。図４は、本発明の方法をフローチャートで示す。図５は、図４の方法で用いられる畳み込みニューラルネットワークを模式図で示す。

Claims

対象物（３）の種類（ＴＹ）および状態（ＳＴ）を判定する方法であって、
奥行センサ（２）を用いて場面（ＳＣ）の奥行マップ（１）を生成する工程であって、上記場面（ＳＣ）では、上記対象物（３）および、上記奥行センサ（２）と上記対象物（３）とのあいだにある遮蔽物（４）が、上記奥行センサ（２）から見た場合に、上記対象物（３）の第１部分（９）が隠れ、上記対象物（３）の第２部分（１０）が隠れていないように位置している、工程と、
それぞれ異なる視野方向を有する３つの２Ｄ占有ビュー（１６_１、１６_２、１６_３）と、当該視野方向のそれぞれ異なる１つと対応する方向をそれぞれ向いた３つの２Ｄ遮蔽ビュー（１７_１、１７_２、１７_３）を、上記奥行マップ（１）から計算する工程であって、上記遮蔽ビュー（１７_１、１７_２、１７_３）はそれぞれ上記遮蔽物（４）を表わし、上記占有ビュー（１６_１、１６_２、１６_３）はそれぞれ上記対象物（３）の上記第２部分（１０）を上記遮蔽物（４）なしで表す、工程と、
上記占有ビュー（１６_１、１６_２、１６_３）および遮蔽ビュー（１７_１、１７_２、１７_３）のそれぞれを、トレーニング済み畳み込みニューラルネットワーク（６）の異なる入力（２３_１、２３_２、２３_３、２３_４、２３_５、２３_６）に供給する工程と、
上記対象物（３）のクラス（ＣＬ）および境界ボックス（ＢＢ）を上記畳み込みニューラルネットワーク（６）から受け取る工程と、
上記対象物（３）の種類（ＴＹ）を上記受け取ったクラス（ＣＬ）から判定し、上記対象物（３）の状態（ＳＴ）を上記境界ボックス（ＢＢ）から判定する工程と、を含む方法。
上記畳み込みニューラルネットワーク（６）は、上記遮蔽ビュー（１７_１、１７_２、１７_３）および占有ビュー（１６_１、１６_２、１６_３）から特徴マップ（３０）を生成する前部（２４）と、上記特徴マップ（３０）からクラス予測（ＣＰ_１、ＣＰ_２、ＣＰ_３）および境界ボックス予測（［ｘ_１，ｙ_１］、［ｘ_２，ｚ_２］、［ｙ_３，ｚ_３］）を生成する中部（２５）と、上記クラス予測（ＣＰ_１、ＣＰ_２、ＣＰ_３）および上記境界ボックス予測（［ｘ_１，ｙ_１］、［ｘ_２，ｚ_２］、［ｙ_３，ｚ_３］）を平均して上記クラス（ＣＬ）および上記境界ボックス（ＢＢ）をそれぞれ生成する平均化部（２６）と、を有する、請求項１に記載の方法。
上記前部（２４）は、複数の層（２８、２９）の３つの前部グループ（２７）を有し、視野方向毎に１つのグループがあり、各グループ（２７）は特徴マップ（３０）を生成する、請求項２に記載の方法。
各前部グループ（２７）は、上記占有ビュー（１６_１、１６_２、１６_３）の第１の所定数の層（２８、２９）と、上記遮蔽ビュー（１７_１、１７_２、１７_３）の第２の所定数の層（２９）と、から成り、上記占有ビュー（１６_１、１６_２、１６_３）の層（２８、２９）の数は、上記遮蔽ビュー（１７_１、１７_２、１７_３）の層（２９）の数よりも多い、請求項３に記載の方法。
上記占有ビュー（１６_１、１６_２、１６_３）の上記層（２８、２９）は畳み込み層とマックスプーリング層から成り、上記遮蔽ビュー（１７_１、１７_２、１７_３）の上記層（２９）はマックスプーリング層のみから成る、請求項４に記載の方法。
上記中部（２５）は、複数の層（３２、３３、３４）の３つの中部グループ（３１）を有し、視野方向毎に１つの視野方向がある、請求項２から５のいずれか一項に記載の方法。
各中部グループ（３１）は３つの緻密層（３２、３３、３４）を有し、そのうちの第１ステージ緻密層（３２）は上記前部（２４）から上記特徴マップ（３０）を受け取り、そのうちの２つのパラレルな第２ステージ緻密層（３３、３４）は上記第１ステージ緻密層（３２）の出力を受け取り、上記第２ステージ緻密層の一方（３３）は上記クラス予測（ＣＰ_１、ＣＰ_２、ＣＰ_３）を出力し、上記第２ステージ緻密層の他方（３４）は境界ボックス予測（［ｘ_１，ｙ_１］、［ｘ_２，ｚ_２］、［ｙ_３，ｚ_３］）を出力する、請求項６に記載の方法。
上記対象物（３）の種類（ＴＹ）が人間に該当し、上記対象物（３）の状態（ＳＴ）が転倒に該当するとき、人間の転倒が検知される、請求項１から７のいずれか一項に記載の方法。
対象物の種類（ＴＹ）および状態（ＳＴ）を判定するシステムであって、
場面（ＳＣ）の奥行マップ（１）を生成するよう構成された奥行センサ（２）であって、上記場面（ＳＣ）では、上記対象物（３）および、上記奥行センサ（２）と上記対象物（３）とのあいだにある遮蔽物（４）が、上記奥行センサ（２）から見た場合に、上記対象物（３）の第１部分（９）が隠れ、上記対象物（３）の第２部分（１０）が隠れていないように位置している、奥行センサ（２）と、
それぞれ異なる視野方向を有する３つの２Ｄ占有ビュー（１６_１、１６_２、１６_３）と、当該視野方向のそれぞれ異なる１つと対応する方向をそれぞれ向いた３つの２Ｄ遮蔽ビュー（１７１、１７２、１７３）を、上記奥行マップ（１）から計算するよう構成されたプロセッサ（５）であって、上記遮蔽ビュー（１７_１、１７_２、１７_３）はそれぞれ上記遮蔽物（４）を表わし、上記占有ビュー（１６_１、１６_２、１６_３）はそれぞれ上記対象物（３）の上記第２部分（１０）を上記遮蔽物（４）なしで表す、プロセッサ（５）と、
６つの入力（２３_１、２３_２、２３_３、２３_４、２３_５、２３_６）を有するトレーニング済み畳み込みニューラルネットワーク（６）であって、上記占有ビュー（１６_１、１６_２、１６_３）および遮蔽ビュー（１７_１、１７_２、１７_３）のそれぞれを異なる入力（２３_１、２３_２、２３_３、２３_４、２３_５、２３_６）で受け取るよう構成された畳み込みニューラルネットワーク（６）と、
上記対象物（３）のクラス（ＣＬ）および境界ボックス（ＢＢ）を上記畳み込みニューラルネットワーク（６）から受け取り、上記対象物（３）の種類（ＴＹ）を上記受け取ったクラス（ＣＬ）から判定し、上記対象物（３）の状態（ＳＴ）を上記境界ボックス（ＢＢ）から判定するよう構成された評価デバイス（７）と、を有するシステム。
上記畳み込みニューラルネットワーク（６）は、上記遮蔽ビュー（１７_１、１７_２、１７_３）および占有ビュー（１６_１、１６_２、１６_３）から特徴マップ（３０）を生成するよう構成された前部（２４）と、上記特徴マップ（３０）からクラス予測（ＣＰ_１、ＣＰ_２、ＣＰ_３）および境界ボックス予測（［ｘ_１，ｙ_１］、［ｘ_２，ｚ_２］、［ｙ_３，ｚ_３］）を生成するよう構成された中部（２５）と、上記クラス予測（ＣＰ_１、ＣＰ_２、ＣＰ_３）および上記境界ボックス予測（［ｘ_１，ｙ_１］、［ｘ_２，ｚ_２］、［ｙ_３，ｚ_３］）を平均して上記クラス（ＣＬ）および上記境界ボックス（ＢＢ）をそれぞれ生成するよう構成された平均化部（２６）と、を有する、請求項９に記載のシステム。
上記前部（２４）は、複数の層（２８、２９）の３つの前部グループ（２７）を有し、視野方向毎に１つのグループがある、請求項１０に記載のシステム。
各前部グループ（２７）は、上記占有ビュー（１６_１、１６_２、１６_３）の第１の所定数の層（２８、２９）と、上記遮蔽ビュー（１７_１、１７_２、１７_３）の第２の所定数の層（２９）と、から成り、上記占有ビュー（１６_１、１６_２、１６_３）の層（２８、２９）の数は、上記遮蔽ビュー（１７_１、１７_２、１７_３）の層（２９）の数よりも多い、請求項１１に記載のシステム。
上記占有ビュー（１６_１、１６_２、１６_３）の上記層は畳み込み層（２８）とマックスプーリング層（２９）から成り、上記遮蔽ビュー（１７_１、１７_２、１７_３）の上記層（２９）はマックスプーリング層（２９）のみから成る、請求項１２に記載のシステム。
上記中部（２５）は、複数の層（３２、３３、３４）の３つの同一の中部グループ（３１）を有し、視野方向毎に１つのグループがある、請求項１０から１３のいずれか一項に記載のシステム。
各中部グループ（３１）は３つの緻密層（３２、３３、３４）を有し、そのうちの第１ステージ緻密層（３２）は上記前部（２４）から上記特徴マップ（３０）を受け取るよう構成され、そのうちの２つのパラレルな第２ステージ緻密層（３３、３４）は上記第１ステージ緻密層（３２）の出力を受け取るよう構成され、上記第２ステージ緻密層の一方（３３）は上記クラス予測（ＣＰ_１、ＣＰ_２、ＣＰ_３）を出力するよう構成され、上記第２ステージ緻密層の他方（３４）は境界ボックス予測（［ｘ_１，ｙ_１］、［ｘ_２，ｚ_２］、［ｙ_３，ｚ_３］）を出力するよう構成されている、請求項１４に記載のシステム。
上記対象物（３）の種類（ＴＹ）が人間に該当し、上記対象物（３）の状態（ＳＴ）が転倒に該当するとき、人間の転倒を検知するよう構成されたシステム（８）である、請求項９から１５のいずれか一項に記載のシステム。