[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2021529407A - 対象物の種類および状態を判定する方法 - Google Patents

対象物の種類および状態を判定する方法 Download PDF

Info

Publication number
JP2021529407A
JP2021529407A JP2021517902A JP2021517902A JP2021529407A JP 2021529407 A JP2021529407 A JP 2021529407A JP 2021517902 A JP2021517902 A JP 2021517902A JP 2021517902 A JP2021517902 A JP 2021517902A JP 2021529407 A JP2021529407 A JP 2021529407A
Authority
JP
Japan
Prior art keywords
view
layers
class
shielding
boundary box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021517902A
Other languages
English (en)
Other versions
JPWO2019233654A5 (ja
JP7241366B2 (ja
Inventor
カンペル,マルティン
プラマードルファー,クリストファー
プラニンク,レイナー
ブランドシュテッター,ミヒャエル
ローク,マルク ヴァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Europe NV SA
Original Assignee
Toyota Motor Europe NV SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Europe NV SA filed Critical Toyota Motor Europe NV SA
Publication of JP2021529407A publication Critical patent/JP2021529407A/ja
Publication of JPWO2019233654A5 publication Critical patent/JPWO2019233654A5/ja
Application granted granted Critical
Publication of JP7241366B2 publication Critical patent/JP7241366B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、対象物の種類および状態を判定する方法であって、奥行センサ(2)を用いて場面(SC)の奥行マップ(1)を生成する工程であって、上記場面(SC)は、上記対象物(3)および、上記奥行センサ(2)と上記対象物(3)とのあいだにある遮蔽物(4)を含む、工程と、それぞれ異なる視野方向を有する3つの2D占有ビュー(161、162、163)と、3つの2D遮蔽ビュー(171、172、173)を計算する工程と、上記占有ビュー(161、162、163)および遮蔽ビュー(171、172、173)のそれぞれを、トレーニング済み畳み込みニューラルネットワーク(6)の異なる入力(231、…、236)に供給する工程と、上記対象物(3)のクラス(CL)および境界ボックス(BB)を上記畳み込みニューラルネットワーク(6)から受け取る工程と、上記対象物(3)の種類および上記対象物(3)の状態判定する工程と、を含む方法に関する。本発明はさらに、上記方法を実行するシステムに関する。

Description

発明の詳細な説明
本発明は、対象物の種類および状態を判定する方法に関する。本発明はさらに、対象物の種類および状態を判定するシステムに関する。
人間のような物体を自動的に検出する様々な技術が存在し、最新技術の多くの分野で使用することができる。例えば、転倒検出は、日常生活の状況に対して多くの用途を有するので、研究の活発な分野である。例えば、老人ホームでは、監視が存在しないときに居住者の運動および状態を観察するセンサをすべての部屋に設置することができる。これらの装置は、観察された人間が転倒したかどうかを検出し、そのような場合に中央ステーションへの警報を発することができる。
このようなシステムに対しては、通常、一定間隔で3D奥行マップを記録する奥行センサが採用される。最初に、対象物が、通常の方法、例えば、背景差分によって奥行マップ内で検出される。そして、それぞれの奥行マップは、2つの態様について評価される。第一に、奥行マップに人間が描かれているか否か、すなわち、対象物の種類について。第二に、当該人間が転倒しているか否か、すなわち、対象物の状態について。評価は、通常、3次元(3D)奥行マップを、当該3D奥行マップ内に位置する人間に関する情報を抽出可能なトレーニング済み畳み込みニューラルネットワークに供給することによって行われる。
3D奥行マップには大量の情報があるため、上述の装置は非常に非効率的であることが判明した。ニューラルネットワークがそこから情報を抽出することが困難だからである。したがって、ニューラルネットワーク内で2次元(2D)ビューを判定することが提案されている(例えば、C. R. Qi et al., “Volumetric and Multi-View CNNs for Object Classification on 3D Data” in IEEE Conference in Computer Vision and Pattern Recognition, 2016, pp. 5648-5656を参照)。このようにして人間およびその状態を検出する成功率は増加したが、対象物が室内の他の物体によって遮蔽されたときには依然として問題が生じた。
代替的なアプローチでは、H. Su et al., “Multi-View Convolutional Neural Networks for 3D Shape Recognition” in International Conference on Computer Vision, 2015, pp. 945-953において、3D形状物体の周りに仮想カメラを回転させることによって、12の異なる投影グレースケール画像を計算することが提案された。しかしながら、この方法はエイリアシングアーチファクトを生成し、非常に非効率的な早期融合アプローチを採用している。
したがって、本発明の目的は、対象物が、当該対象物と奥行センサとの間の他の物体によって遮蔽された場合に、より高能率かつ高精度に当該対象物の種類や状態を判定する方法を提供することである。
この目的のため、本発明の第一の態様は、対象物の種類および状態を判定する方法であって、奥行センサを用いて場面の奥行マップを生成する工程であって、上記場面では、上記対象物および、上記奥行センサと上記対象物とのあいだにある遮蔽物が、上記奥行センサから見た場合に、上記対象物の第1部分が隠れ、上記対象物の第2部分が隠れていないように位置している、工程と、それぞれ異なる視野方向を有する3つの2D占有ビューと、当該視野方向のそれぞれ異なる1つと対応する方向をそれぞれ向いた3つの2D遮蔽ビューを、上記奥行マップから計算する工程であって、上記遮蔽ビューはそれぞれ上記遮蔽物を表わし、上記占有ビューはそれぞれ上記対象物の上記第2部分を上記遮蔽物なしで表す、工程と、上記占有ビューおよび遮蔽ビューのそれぞれを、トレーニング済み畳み込みニューラルネットワークの異なる入力に供給する工程と、上記対象物のクラスおよび境界ボックスを上記畳み込みニューラルネットワークから受け取る工程と、上記対象物の種類を上記受け取ったクラスから判定し、上記対象物の状態を上記境界ボックスから判定する工程と、を含む方法を提供する。
本発明は、対象物を遮蔽する物体(いわゆる「遮蔽物」)の形状および大きさが、畳み込みニューラルネットワークがクラスおよび境界ボックスを決定するのに貴重な情報であるという本発明者らの知見に基づく。対象物の境界ボックスは、遮蔽物の範囲が畳み込みニューラルネットワークにも提供されると、より正確に決定することができる。これは、(例えば、高さおよび幅において)制限を設定し、それにより、適切な境界ボックスを見つけるのに役立つからである。したがって、遮蔽物に関する情報は、対象物の種類を判定するのにも役立つ。
クラスおよび境界ボックスをより効率的で正確に評価するために、占有ビューと遮蔽ビューを畳み込みニューラルネットワークのパラレルな、即ち、異なった入力に入力する。これは、畳み込みニューラルネットワークが、占有ビューの情報を、遮蔽ビューの助けを借りて処理するのに役立つ。当然ながら、遮蔽ビューが含む対象物についての情報は、占有ビュー自体が含むよりも少ない。
境界ボックスは、奥行マップでは見えない対象物の部分を含む。さらに、遮蔽物は場面の1つの要素であってもよいし、多数の要素の複合であってもよい。
好ましくは、上記畳み込みニューラルネットワークは、上記遮蔽ビューおよび占有ビューから特徴マップを生成する前部と、上記特徴マップからクラス予測および境界ボックス予測を生成する中部と、上記クラス予測および上記境界ボックス予測を平均して上記クラスおよび上記境界ボックスをそれぞれ生成する平均化部と、を有する。各境界ボックス予測はそれぞれの視野方向の境界ボックスの2D予測であり、境界ボックスについての情報を生じさせる。これらの複数の2D境界ボックス予測から、平均化部は3D境界ボックスを生成する。本発明の開発中、前部、中部、および平均化部を有する3段階畳み込みニューラルネットワークは異なる種類のビュー、すなわち、占有ビューと遮蔽ビューの入力を取り扱うのにとりわけ効率的であることがわかった。この実施形態では、特徴マップ、クラス予測、および境界ボックス予測は、畳み込みニューラルネットワーク内でのみ生成され、使用される、視野方向毎の中間生成物である。
より好ましくは、上記前部は、複数の層の3つの前部グループを有し、視野方向毎に1つのグループがあり、各グループは特徴マップを生成する。複数の層の各前部グループは、1つの視野方向の占有ビュー、および同じ視野方向の遮蔽ビューを処理する。これにより、それぞれの前部グループ内で占有ビューおよび遮蔽ビューが同時に処理され、当該占有ビューとそれぞれの遮蔽ビューとの間に存在する接続および/または関係が維持される。
本実施形態では、各前部グループが、上記占有ビューの第1の所定数の層と、上記遮蔽ビューの第2の所定数の層とから成る場合、上記占有ビューの層の数が、上記遮蔽ビューの層の数よりも多いことが特に好ましい。したがって、それぞれの前部グループは、占有ビューのための層の第1のブランチと、遮蔽ビューのための層の第2のブランチとを備える。これは、占有ビューおよび遮蔽ビューの情報の文脈が異なるために、遮蔽ビューが占有ビューよりも少ない処理しか必要としないことが分かっているので、好都合である。さらに、各グループ内で占有ビューと遮蔽ビューを並列して処理することで、前部グループの最終出力が生成されるまで、情報を別々に保持するのに役立つ。
より好ましくは、上記占有ビューの上記層は畳み込み層とマックスプーリング層から成り、上記遮蔽ビューの上記層はマックスプーリング層のみから成る。マックスプーリング演算を行うマックスプーリング層は、遮蔽(または占有)情報を保存しながら、ビューの画像の寸法を減らすのに役立つ。占有ビューの第1のブランチおよび遮蔽ビューの第2のブランチは同数のマックスプーリング演算を含むので、両方のブランチの出力は同じ大きさの特徴マップである。両方のブランチの特徴マップは、前部の1つまたは複数の出力において、両方とも連結されて、前部のグループごとに1組の特徴マップを出力する。マックスプーリング層とは対照的に、占有ビューに使用される畳み込み層は、非線形演算を実行する層である。通常、入力の線形演算を実行する緻密層は、前部では使用されない。
前部と同様、上記中部も、複数の層の3つの中部グループを有し、視野方向毎に1つのグループがある。これは、それぞれの視野方向から得られた情報を別々にしておく役割を果たす。これは、実際に、計算されたクラスおよび境界ボックスの効率的で正確な結果をもたらすことを示している。
より好ましくは、本実施形態では、各中部グループは3つの緻密層を有し、そのうちの第1ステージ緻密層は上記前部から上記特徴マップを受け取り、そのうちの2つのパラレルな第2ステージ緻密層は上記第1ステージ緻密層の出力を受け取り、上記第2ステージ緻密層の一方は上記クラス予測を出力し、上記第2ステージ緻密層の他方は境界ボックス予測を出力する。中部のこの特殊な構成は、精度および有効性の点で例外的な結果をもたらすことがわかった。共通の第1ステージ緻密層は、ニューラルネットワークがクラス予測の計算および境界ボックス予測の計算の両方のタスク間の対称性を利用することを可能にしつつ、当該ネットワークに、対象物のクラスおよび境界ボックスの両方に対して識別的である特徴を学習させる。共通の第1ステージ緻密層のあとの個々の第2ステージ緻密層は、それぞれクラス予測と境界ボックス予測の計算を最適化する役割を果たす。
対象物の種類および状態を判定する上述の方法は、多くの様々な実際のシナリオにおいて用いることができ、最も一般的には、人間および/または動物の疾病または不正行為を検出するために用いることができる。しかしながら、この方法が人の転倒を判定するのに用いられるのが特に好ましい。これは、上記の方法を上記の諸実施形態のいずれかで実行することで行われ、上記対象物の種類が人間に該当し、上記対象物の状態が転倒に該当する。この適用は、人間の転倒が境界ボックスの特性から非常に正確に判定され得るので、特に好ましい。
本発明の第2の態様では、上記方法を実行するシステムが提供される。このシステムは、上記方法と同じ利点および好ましい実施形態を有する。
本発明は、添付の図面を参照して、その好ましい例示的な実施形態に基づいて、以下により詳細に説明される。
図1は、奥行マップにおいて部分的に遮蔽された対象物の種類および状態を判定するシステムを示す。
図2a、図2b、および図2cは、それぞれ、別の視野方向における奥行マップから計算された占有ビューを示す。
図3a、図3b、および図3cは、それぞれ、別の視野方向における奥行マップから計算された遮蔽ビューを示す。
図4は、本発明の方法をフローチャートで示す。
図5は、図4の方法で用いられる畳み込みニューラルネットワークを模式図で示す。
図1は、奥行センサ2によって生成された奥行マップ1の斜視図を示す。奥行マップ1は、対象物3、ここでは人物を含む場面SCを示す。奥行センサ2と対象物3との間には、遮蔽物4、ここでは棚がある。奥行センサ2は、プロセッサ5、畳み込みニューラルネットワーク6、および評価デバイス7と共に、対象物3の種類TYおよび状態STを判定するシステム8を形成する。
図1の実施形態では、システム8を用いて、場面SC内に位置する人物が転倒したかどうかを判定する。このような場合、システム8は、警報または警告を発して、助けまたは調査を求めることができる。しかしながら、システム8はさまざまな用途、例えば、場面SC内に位置する動物が横たわっているか立っているかを判定する用途にも用いることができる。
遮蔽物4が奥行センサ2と対象物3との間に位置しているので、対象物3の第1部分9は奥行センサ2から見て遮蔽され、対象物3の第2部分10は奥行センサ2から見て遮蔽されない。換言すれば、第1部分9は奥行マップ1内では見えず、第2部分10は奥行マップ1内で見える。
奥行センサ2は、奥行マップ1を生成することができる、当該技術分野で知られている任意の種類のものであり得る。奥行マップ1は、例えば、3Dボクセルグリッドまたはポイントクラウドである。そのような奥行センサ1の一例はキネクト(登録商標)センサであり、これは赤外光のパターンを発し、周囲の反射から奥行マップ1を生成する。本明細書に記載の方法には、追加のグレースケールまたはカラー画像は必要ない。
対象物3の状態STを判定するために、システム8は、境界ボックスBB、すなわち、対象物3全体、すなわち、前記第1部分9および第2部分10の両方に外接しながらできるだけ小さくすべき直方体を計算する。対象物3の第1部分9が奥行マップ1内で遮蔽されているので、境界ボックスBBは、システム8によって計算された推定値となる。参考までに、図1はまた、可視の第2部分10の周りの最小の可能な直方体11と、実際の対象物3の周りの「実際の」(理論的な)最小の可能な直方体12とを示しており、この直方体12は、システム8には利用できない。
図2a〜図2c、図3a〜図3c、および図4から分かるように、奥行センサ2が生成工程1’で奥行マップ(「DM」)1を生成した後、プロセッサ5は、奥行マップ1のラベル付け工程13を実行して、対象物3および遮蔽物4がそれぞれ工程14および工程15で生成された個々の3Dマップまたはグリッドで表され得るようにする。ラベル付け工程13の間に、例えば、背景差分を実行して、場面SC内の対象物3、すなわち、場面SCのインベントリではない物体を識別することができる。例えば、奥行センサ2は場面SC内に任意の対象物が存在する以前に校正した奥行マップを得ることができ、必要なときに再校正することができる。対象物3が識別(「ラベル付け」)されると、奥行センサ2と対象物3との間に位置する場面SCの部分を遮蔽物4としてラベル付けすることができる。したがって、遮蔽物4は、対象物3よりも奥行センサ2の近くに位置する1つまたは複数の要素から成ることができる。
対象物3および遮蔽物4が工程13でラベル付けされると、それらのラベル付けされたボクセルは個々のマップまたは格子で表現されて、占有格子(「3D ocp」)および遮蔽格子(「3D ocl」)をそれぞれ取得することができる。3D占有格子および3D遮蔽格子から、3つの2D占有ビュー(「ocp−XY」、「ocp−XZ」、「ocp−YZ」)16、16、16(その例は図2a〜図2cに示される)が、プロセッサ5によって、工程16’、16’、16’で、それぞれ異なる視野方向について計算され、3つの2D遮蔽ビュー(「ocl−XY」、「ocl−XZ」、「ocl−YZ」)171、17、17(その例は図3a〜図3cに示される)が、プロセッサ5によって、工程17’、17’、17’で、上記それぞれ異なる視野方向に対応する方向について計算される。上記のそれぞれ異なる視野方向は、ほとんどの場合、直交しているが、他の角度、例えば60°の角度をそれぞれ有してもよい。
しかしながら、(中間)3Dグリッドまたはマップを生成する上記工程14および15は、本明細書に記載する方法において任意であり、3つの2D占有ビュー16、16、16および3つの2D遮蔽ビュー17、17、17を奥行マップ1から直接的に計算することができ、工程13は任意の方法で実行することができ、手動で実行することもできる。
対象物3の第2部分10のみが奥行マップ1で見えるので、3つの占有ビュー16、16、16は、それぞれ、前記遮蔽物4を除いて、対象物3の第2部分10のみを描写する。同様に、遮蔽ビュー17、17、17はそれぞれ、遮蔽物4を、好ましくは対象物3なしで描く。
計算後、占有ビュー16、16、16および遮蔽ビュー17、17、17がトレーニング済み畳み込みニューラルネットワーク6に供給される。畳み込みニューラルネットワーク6は、図5に関して以下に詳細に説明するように、多数のニューラル層を含む。これらの層により、畳み込みネットワーク6は、工程18および19において、対象物3のクラスCLおよび境界ボックスBBを決定することができる。畳み込みニューラルネットワーク6は、クラスCLおよび境界ボックスBBを評価デバイス7に出力する。
次に、評価デバイス7は工程20において受け取ったクラスCLから対象物3の種類TYを決定し、工程21において、境界ボックスBBから対象物3の状態STを決定する。これは、例えば、受け取ったクラスCLがデータベースに記憶された所定の種類TYと一致するかどうかをチェックし、境界ボックスBBの特性を評価することによって行われる。例えば、境界ボックスBBが非常に平坦な形状を有する場合、対象物の状態STは転倒と見なすことができる。状態STの判定のために、現在計算されている境界ボックスBBに加えて、1回以上前に計算された境界ボックスBBを用いて、例えば、境界ボックスBBの経過から上記状態STを決定することができる。
この具体例において、上記対象物3の種類TYが人間に該当し、上記対象物3の状態STが転倒に該当するとき、人間の転倒が検知される。このような場合、オプションの工程22でアラームをオフにすることができる。
次に、図5に基づいて、畳み込みニューラルネットワーク6について詳細に説明する。畳み込みニューラルネットワーク6には、23、23、23、23、23、23の6つの入力がある。それぞれ、上記占有ビュー16、16、16および遮蔽ビュー17、17、17の異なる1つを受け取る。畳み込みニューラルネットワーク6は、前部24と、中部25と、平均化部26とを備える。前部24は、視野方向毎に1つずつ、3つの前部グループ27を含む。各グループ27は第1のブランチ27’および第2のブランチ27’’を備え、第1のブランチ27’はそれぞれの視野方向を有する占有ビュー16、16、16のためのものであり、第2のブランチ27’はそれぞれの視野方向を有する遮蔽ビュー17、17、17のためのものである。各前部グループ27の第1のブランチ27’は第1の所定数の層28および29を備え、第2のブランチ27’’は第2の所定数の層29を備え、第1のブランチ27’内の層28および29の数は第2のブランチ27’’内の層29の数よりも多い。
図5の実施形態では、各グループ27の第1のブランチ27’は畳み込み層28およびマックスプーリング層29を含み、各グループ27の第2のブランチ27’’はマックスプーリング層29のみからなる。当業者に知られているように、畳み込み層28は入力に畳み込み演算を適用し、マックスプーリング層29はそれらの入力の寸法を畳み込みなしで減少させる。両ブランチ27’および27’’におけるマックスプーリング層の数は同じであり、そのため、各グループ27の両ブランチ27’および27’’の出力は、当業者に知られているように、同一の大きさまたは寸法の特徴マップである。各グループ27は第1のブランチ27’および第2のブランチ27’’の特徴マップを連結して、特徴マップ(FM)30の出力を達成する。従って、前部24の出力は特徴マップ30、即ち、視野方向毎の特徴マップ30である。
例えば、第1のブランチ27’は、3つのマックスプーリング層29と、各マックスプーリング層29の前方に2つ(又は1つ又は3つ以上)の畳み込み層28を含むことができる。また、各マックスプーリング層29の前に、異なった数の畳み込み層28を用いることができる。例えば、第1のマックスプーリング層29の前には1つの畳み込み層28、第2のマックスプーリング層29の前には2つの畳み込み層28を用いるなどである。
図5の例では、中部25が視野方向毎に1つずつ、3つの中部グループ31を備える。各中部グループ31は、同じ視野方向の前部グループ27によって生成された入力として特徴マップ30を取る。各中部グループ31は、クラス予測CP1、CP、CPと、2D境界ボックス予測[x、y]、[x、z]、[y、z]とを生成する。ここで、各中部グループ31は3つの緻密層32、33、34を含み、そのうちの第1ステージ緻密層32は前部24から対応する特徴マップ30を受け取り、そのうちの2つのパラレルな第2ステージ緻密層33、34は第1セクション緻密層32の出力を受け取る。一方の第2ステージ緻密層33はそれぞれのクラス予測CP、CP、又はCPを出力し、他方の第2ステージ緻密層34はそれぞれの境界ボックス予測[x、y]、[x、z]、又は[y、z]を出力する。当業者に知られているように、シリアルな緻密層32は非線形演算を適用し、一方、パラレルな緻密層33、34は出力層であり、線形演算を入力に適用する。各実施形態では、シリアル層32のそれぞれに対して2つ以上の層が存在することができる。
平均化部26は、第1の平均化モジュール35および第2の平均化モジュール36を含む。第1の平均化モジュール35はすべてのクラス予測CP、CP、CPを入力として取り、それらからクラスCLを計算し、当該クラスCLを畳み込みニューラルネットワーク6の出力37で提供する。第2の平均化モジュール36はすべての境界ボックス予測[x、y]、[x、z]、[y、z]を入力として取り、それらから境界ボックスBBを計算し、当該境界ボックスBBを畳み込みニューラルネットワーク6の出力38で提供する。平均化モジュール35、36は、例えば、実験により、上から見た占有ビュー16および遮蔽ビュー17がそれぞれクラスCLと境界ボックスBBの決定のためにより重要であることが示された場合、これらの予測間で重み付けをすることもできる。
見て分かるように、遮蔽ビュー16、16、16および占有ビュー17、17、17は、前記視野方向に関して別々に処理され、平均化部26でのみ融合される。したがって、本方法は一般に、遮蔽ビュー16、16、16および占有ビュー17、17、17が、個々のステージの構造、種類、または実施形態に関係なく、多段畳み込みニューラルネットワーク6の最後のステージにおいて、視野方向に関してのみ融合される遅延融合アプローチを採用する。
上述したように、本方法の動作中、システム8はトレーニング済み畳み込みニューラルネットワーク6を用いる。この畳み込みニューラルネットワーク6のトレーニングは最新技術における他のニューラルネットワークのトレーニングと同じ方法で、例えば、占有ビュー16、16、16と遮蔽ビュー17、17、17のセット(「実際の」または理論的に考えられる最小の直方体12が知られている)をそれぞれの入力23、23、23、23、23、23を介して畳み込みニューラルネットワーク6に供給することによって実行される。畳み込みニューラルネットワーク6は次に、入力データの境界ボックスBBを計算し、計算された境界ボックスBBをトレーニングケースで知られている実際の直方体12と比較することによって、オフセット(「損失値」)を決定することができる。損失値、すなわち、境界ボックスBBの実際の直方体12との差分は、次いで、従来の学習方法で畳み込みニューラルネットワーク6へフィードバックとして入力され得る。同じトレーニングをクラスCLに対して実行することができる。すなわち、損失値は、計算されたクラスCLと対象物の実際のクラスとの間の差分として計算される。この損失値は通常2値であり、そのため、損失値は畳み込みニューラルネットワーク6へのフィードバックとして提供される。このようなトレーニングはホストの畳み込みニューラルネットワークで任意選択で実施することができ、その結果を現場の畳み込みニューラルネットワークにコピーすることができる。
現実の環境では、提案されたインフラストラクチャのシステムの畳み込みニューラルネットワークが、レンダリングされた3Dモデルの40000個のサンプルのデータセットによってテストされている。モデルは転倒した人々の310個の独自のかつ現実的なポーズを含み、これは、ランダムな性別、年齢、身長、およびサイズを有する人々の1000個のモデルに適用された。奥行センサ2の焦点距離は580ピクセルであった。サンプルの68%がトレーニングに使用され、12%がバリデーションに使用され、20%が試験セットとして使用された。実際の最小直方体に関してシステム8によって計算された境界ボックスBBの全精度は、遮蔽比が70%より低い場合には99%を超え、遮蔽比が90%までの場合には97%を超えた。
本発明は、本明細書に詳細に記載されたこれらの特定の実施形態に限定されるものではなく、添付の特許請求の範囲内にあるそのすべての変形形態および修正形態を包含する。
図1は、奥行マップにおいて部分的に遮蔽された対象物の種類および状態を判定するシステムを示す。 図2aは、別の視野方向における奥行マップから計算された占有ビューを示す。 図2bは、別の視野方向における奥行マップから計算された占有ビューを示す。 図2cは、別の視野方向における奥行マップから計算された占有ビューを示す。 図3aは、別の視野方向における奥行マップから計算された遮蔽ビューを示す。 図3bは、それぞれ、別の視野方向における奥行マップから計算された遮蔽ビューを示す。 図3cは、それぞれ、別の視野方向における奥行マップから計算された遮蔽ビューを示す。 図4は、本発明の方法をフローチャートで示す。 図5は、図4の方法で用いられる畳み込みニューラルネットワークを模式図で示す。

Claims (16)

  1. 対象物(3)の種類(TY)および状態(ST)を判定する方法であって、
    奥行センサ(2)を用いて場面(SC)の奥行マップ(1)を生成する工程であって、上記場面(SC)では、上記対象物(3)および、上記奥行センサ(2)と上記対象物(3)とのあいだにある遮蔽物(4)が、上記奥行センサ(2)から見た場合に、上記対象物(3)の第1部分(9)が隠れ、上記対象物(3)の第2部分(10)が隠れていないように位置している、工程と、
    それぞれ異なる視野方向を有する3つの2D占有ビュー(16、16、16)と、当該視野方向のそれぞれ異なる1つと対応する方向をそれぞれ向いた3つの2D遮蔽ビュー(17、17、17)を、上記奥行マップ(1)から計算する工程であって、上記遮蔽ビュー(17、17、17)はそれぞれ上記遮蔽物(4)を表わし、上記占有ビュー(16、16、16)はそれぞれ上記対象物(3)の上記第2部分(10)を上記遮蔽物(4)なしで表す、工程と、
    上記占有ビュー(16、16、16)および遮蔽ビュー(17、17、17)のそれぞれを、トレーニング済み畳み込みニューラルネットワーク(6)の異なる入力(23、23、23、23、23、23)に供給する工程と、
    上記対象物(3)のクラス(CL)および境界ボックス(BB)を上記畳み込みニューラルネットワーク(6)から受け取る工程と、
    上記対象物(3)の種類(TY)を上記受け取ったクラス(CL)から判定し、上記対象物(3)の状態(ST)を上記境界ボックス(BB)から判定する工程と、を含む方法。
  2. 上記畳み込みニューラルネットワーク(6)は、上記遮蔽ビュー(17、17、17)および占有ビュー(16、16、16)から特徴マップ(30)を生成する前部(24)と、上記特徴マップ(30)からクラス予測(CP、CP、CP)および境界ボックス予測([x,y]、[x,z]、[y,z])を生成する中部(25)と、上記クラス予測(CP、CP、CP)および上記境界ボックス予測([x,y]、[x,z]、[y,z])を平均して上記クラス(CL)および上記境界ボックス(BB)をそれぞれ生成する平均化部(26)と、を有する、請求項1に記載の方法。
  3. 上記前部(24)は、複数の層(28、29)の3つの前部グループ(27)を有し、視野方向毎に1つのグループがあり、各グループ(27)は特徴マップ(30)を生成する、請求項2に記載の方法。
  4. 各前部グループ(27)は、上記占有ビュー(16、16、16)の第1の所定数の層(28、29)と、上記遮蔽ビュー(17、17、17)の第2の所定数の層(29)と、から成り、上記占有ビュー(16、16、16)の層(28、29)の数は、上記遮蔽ビュー(17、17、17)の層(29)の数よりも多い、請求項3に記載の方法。
  5. 上記占有ビュー(16、16、16)の上記層(28、29)は畳み込み層とマックスプーリング層から成り、上記遮蔽ビュー(17、17、17)の上記層(29)はマックスプーリング層のみから成る、請求項4に記載の方法。
  6. 上記中部(25)は、複数の層(32、33、34)の3つの中部グループ(31)を有し、視野方向毎に1つの視野方向がある、請求項2から5のいずれか一項に記載の方法。
  7. 各中部グループ(31)は3つの緻密層(32、33、34)を有し、そのうちの第1ステージ緻密層(32)は上記前部(24)から上記特徴マップ(30)を受け取り、そのうちの2つのパラレルな第2ステージ緻密層(33、34)は上記第1ステージ緻密層(32)の出力を受け取り、上記第2ステージ緻密層の一方(33)は上記クラス予測(CP、CP、CP)を出力し、上記第2ステージ緻密層の他方(34)は境界ボックス予測([x,y]、[x,z]、[y,z])を出力する、請求項6に記載の方法。
  8. 上記対象物(3)の種類(TY)が人間に該当し、上記対象物(3)の状態(ST)が転倒に該当するとき、人間の転倒が検知される、請求項1から7のいずれか一項に記載の方法。
  9. 対象物の種類(TY)および状態(ST)を判定するシステムであって、
    場面(SC)の奥行マップ(1)を生成するよう構成された奥行センサ(2)であって、上記場面(SC)では、上記対象物(3)および、上記奥行センサ(2)と上記対象物(3)とのあいだにある遮蔽物(4)が、上記奥行センサ(2)から見た場合に、上記対象物(3)の第1部分(9)が隠れ、上記対象物(3)の第2部分(10)が隠れていないように位置している、奥行センサ(2)と、
    それぞれ異なる視野方向を有する3つの2D占有ビュー(16、16、16)と、当該視野方向のそれぞれ異なる1つと対応する方向をそれぞれ向いた3つの2D遮蔽ビュー(171、172、173)を、上記奥行マップ(1)から計算するよう構成されたプロセッサ(5)であって、上記遮蔽ビュー(17、17、17)はそれぞれ上記遮蔽物(4)を表わし、上記占有ビュー(16、16、16)はそれぞれ上記対象物(3)の上記第2部分(10)を上記遮蔽物(4)なしで表す、プロセッサ(5)と、
    6つの入力(23、23、23、23、23、23)を有するトレーニング済み畳み込みニューラルネットワーク(6)であって、上記占有ビュー(16、16、16)および遮蔽ビュー(17、17、17)のそれぞれを異なる入力(23、23、23、23、23、23)で受け取るよう構成された畳み込みニューラルネットワーク(6)と、
    上記対象物(3)のクラス(CL)および境界ボックス(BB)を上記畳み込みニューラルネットワーク(6)から受け取り、上記対象物(3)の種類(TY)を上記受け取ったクラス(CL)から判定し、上記対象物(3)の状態(ST)を上記境界ボックス(BB)から判定するよう構成された評価デバイス(7)と、を有するシステム。
  10. 上記畳み込みニューラルネットワーク(6)は、上記遮蔽ビュー(17、17、17)および占有ビュー(16、16、16)から特徴マップ(30)を生成するよう構成された前部(24)と、上記特徴マップ(30)からクラス予測(CP、CP、CP)および境界ボックス予測([x,y]、[x,z]、[y,z])を生成するよう構成された中部(25)と、上記クラス予測(CP、CP、CP)および上記境界ボックス予測([x,y]、[x,z]、[y,z])を平均して上記クラス(CL)および上記境界ボックス(BB)をそれぞれ生成するよう構成された平均化部(26)と、を有する、請求項9に記載のシステム。
  11. 上記前部(24)は、複数の層(28、29)の3つの前部グループ(27)を有し、視野方向毎に1つのグループがある、請求項10に記載のシステム。
  12. 各前部グループ(27)は、上記占有ビュー(16、16、16)の第1の所定数の層(28、29)と、上記遮蔽ビュー(17、17、17)の第2の所定数の層(29)と、から成り、上記占有ビュー(16、16、16)の層(28、29)の数は、上記遮蔽ビュー(17、17、17)の層(29)の数よりも多い、請求項11に記載のシステム。
  13. 上記占有ビュー(16、16、16)の上記層は畳み込み層(28)とマックスプーリング層(29)から成り、上記遮蔽ビュー(17、17、17)の上記層(29)はマックスプーリング層(29)のみから成る、請求項12に記載のシステム。
  14. 上記中部(25)は、複数の層(32、33、34)の3つの同一の中部グループ(31)を有し、視野方向毎に1つのグループがある、請求項10から13のいずれか一項に記載のシステム。
  15. 各中部グループ(31)は3つの緻密層(32、33、34)を有し、そのうちの第1ステージ緻密層(32)は上記前部(24)から上記特徴マップ(30)を受け取るよう構成され、そのうちの2つのパラレルな第2ステージ緻密層(33、34)は上記第1ステージ緻密層(32)の出力を受け取るよう構成され、上記第2ステージ緻密層の一方(33)は上記クラス予測(CP、CP、CP)を出力するよう構成され、上記第2ステージ緻密層の他方(34)は境界ボックス予測([x,y]、[x,z]、[y,z])を出力するよう構成されている、請求項14に記載のシステム。
  16. 上記対象物(3)の種類(TY)が人間に該当し、上記対象物(3)の状態(ST)が転倒に該当するとき、人間の転倒を検知するよう構成されたシステム(8)である、請求項9から15のいずれか一項に記載のシステム。
JP2021517902A 2018-06-04 2019-04-05 対象物の種類および状態を判定する方法 Active JP7241366B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18175783.2 2018-06-04
EP18175783.2A EP3579138B1 (en) 2018-06-04 2018-06-04 Method for determining a type and a state of an object of interest
PCT/EP2019/058660 WO2019233654A1 (en) 2018-06-04 2019-04-05 Method for determining a type and a state of an object of interest

Publications (3)

Publication Number Publication Date
JP2021529407A true JP2021529407A (ja) 2021-10-28
JPWO2019233654A5 JPWO2019233654A5 (ja) 2022-03-24
JP7241366B2 JP7241366B2 (ja) 2023-03-17

Family

ID=62635998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021517902A Active JP7241366B2 (ja) 2018-06-04 2019-04-05 対象物の種類および状態を判定する方法

Country Status (4)

Country Link
US (1) US11790642B2 (ja)
EP (1) EP3579138B1 (ja)
JP (1) JP7241366B2 (ja)
WO (1) WO2019233654A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064320A (ja) * 2019-10-17 2021-04-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN111062396B (zh) * 2019-11-29 2022-03-25 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162173A (ja) * 1992-11-20 1994-06-10 Mitsubishi Electric Corp 3次元物体認識装置
JP2012023658A (ja) * 2010-07-16 2012-02-02 Toshiba Alpine Automotive Technology Corp 車両用画像表示装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355334B1 (en) * 2013-09-06 2016-05-31 Toyota Jidosha Kabushiki Kaisha Efficient layer-based object recognition
US10185877B2 (en) * 2016-07-08 2019-01-22 Huawei Technologies Co., Ltd. Systems, processes and devices for occlusion detection for video-based object tracking
US10523918B2 (en) * 2017-03-24 2019-12-31 Samsung Electronics Co., Ltd. System and method for depth map
WO2018207351A1 (ja) * 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
US10755426B2 (en) * 2018-05-23 2020-08-25 Apple Inc. Efficient scene depth map enhancement for low power devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162173A (ja) * 1992-11-20 1994-06-10 Mitsubishi Electric Corp 3次元物体認識装置
JP2012023658A (ja) * 2010-07-16 2012-02-02 Toshiba Alpine Automotive Technology Corp 車両用画像表示装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASAKO KANEZAKI, YASUYUKI MATSUSHITA, YOSHIFUMI NISHIDA: "RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised View", ARXIV, JPN6023005160, 23 March 2018 (2018-03-23), US, pages 1 - 24, ISSN: 0004989460 *

Also Published As

Publication number Publication date
US20210142091A1 (en) 2021-05-13
EP3579138A1 (en) 2019-12-11
WO2019233654A1 (en) 2019-12-12
EP3579138B1 (en) 2020-11-11
JP7241366B2 (ja) 2023-03-17
US11790642B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
KR102267553B1 (ko) 큐보이드 검출을 위한 딥 러닝 시스템
AU2022202588B2 (en) Item identification and tracking system
US10891741B2 (en) Human analytics using fusion of image and depth modalities
US8457355B2 (en) Incorporating video meta-data in 3D models
JP2020061146A (ja) 畳み込みニューラルネットワークを利用してpoi変化を検出するためのシステムおよび方法
CN112132213A (zh) 样本图像的处理方法及装置、电子设备、存储介质
WO2020225562A1 (en) Processing captured images
KR20180055070A (ko) 재질 인식 및 재질 트레이닝을 수행하는 방법 및 장치
Nghiem et al. Background subtraction in people detection framework for RGB-D cameras
JP7241366B2 (ja) 対象物の種類および状態を判定する方法
US12033372B2 (en) Attributing generated visual content to training examples
Ponto et al. Opportunities for utilizing consumer grade 3D capture tools for insurance documentation
CN113160414B (zh) 货物余量自动识别方法、装置、电子设备以及计算机可读介质
CN115937991A (zh) 人体摔倒识别方法、装置、计算机设备及存储介质
US20240285100A1 (en) Methods and systems for detecting and tracking objects
US12142029B2 (en) Attributing generated visual content to training examples
WO2023084512A1 (en) Facilitating generation and usage of visual content
CN114898408A (zh) 基于支持向量描述的人腿检测方法、装置及可读介质
Mitra Factoring Scene Layout From Monocular Images in Presence of Occlusion
Berntsson et al. Pedestrian detection and tracking in D point cloud data on limited systems

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220314

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230227

R150 Certificate of patent or registration of utility model

Ref document number: 7241366

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150