[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2022508157A - 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク - Google Patents

場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク Download PDF

Info

Publication number
JP2022508157A
JP2022508157A JP2021528363A JP2021528363A JP2022508157A JP 2022508157 A JP2022508157 A JP 2022508157A JP 2021528363 A JP2021528363 A JP 2021528363A JP 2021528363 A JP2021528363 A JP 2021528363A JP 2022508157 A JP2022508157 A JP 2022508157A
Authority
JP
Japan
Prior art keywords
sensing tasks
multitasking
different
cnn
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021528363A
Other languages
English (en)
Other versions
JP7181402B2 (ja
Inventor
クオック-フイ トラン、
サミュエル シュルター、
ポール ヴェルナザ、
ブユ リウ、
パン ジ、
イ-シューアン ツァイ、
マンモハン チャンドラカー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022508157A publication Critical patent/JP2022508157A/ja
Application granted granted Critical
Publication of JP7181402B2 publication Critical patent/JP7181402B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/18Conjoint control of vehicle sub-units of different type or different function including control of braking systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/20Conjoint control of vehicle sub-units of different type or different function including control of steering systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/161Decentralised systems, e.g. inter-vehicle communication
    • G08G1/162Decentralised systems, e.g. inter-vehicle communication event-triggered

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Image Processing (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

方法は、高度な運転者支援システム(ADAS)において提供される。本方法は、マルチタスク畳込みニューラルネットワーク(CNN)を用いて、複数の画像を含む入力映像ストリームから、異なる感知タスク間で共有される特徴を抽出する(505)。感知タスクは、物体検出および他の感知タスクを含む。方法は、マルチタスクCNNを用いて、複数の異なる感知タスクの出力を提供するための、マルチタスクCNNのそれぞれの異なる分岐によって、共有される特徴の対応するものを同時に処理することによって、単一の経路で異なる感知タスクを同時に解決する(510)。それぞれ異なる分岐のそれぞれが、異なる感知タスクのそれぞれの1つに対応する。方法は、複数の異なる感知タスクの出力に応答する少なくとも1つのトップビューマップとして運転場面のパラメトリック表現を形成する(530)。方法は、差し迫っている衝突を示す少なくとも1つのトップビューマップに応答する衝突回避のために車両の操作を制御する。

Description

関連出願情報
本出願は、2020年2月11日に出願された米国特許出願第16/787,727号の優先権を主張し、この出願は、2019年3月7日に出願された米国仮特許出願第62/814,886号の優先権を主張し、その内容は、その全体が参照により本明細書に組み込まれる。
本発明は、機械学習に関し、より詳細には、場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワークに関する。
関連技術の説明
多くの場面理解システムおよび高度な運転者支援システムは、物体検出、意味的セグメンテーションおよび奥行き推定などの様々な感知タスクを実行することを必要とし、これらは、通常、別個のモジュールとみなされ、独立の畳み込みニューラルネットワーク(CNN)として実装される。しかしながら、上記のアプローチにはいくつかの欠点がある。第1に、それは多くの計算資源を必要とし、例えばタスク特定ネットワークを実行するために1つの画像処理ユニット(GPU)が必要である。第2に、それは物体検出や意味的セグメンテーションのような個々の感知タスク間の相互特徴を無視する。したがって、場面理解および高度な運転者支援システムのためのマルチタスク感知ネットワークを使用するための改善されたアプローチが必要とされている。
本発明の一態様によれば、高度な運転者支援システム(ADAS)において、コンピュータによって実現される方法が提供される。前記方法は、ハードウェアプロセッサによって、マルチタスク畳込みニューラルネットワーク(CNN)を用いて、複数の画像を含む入力映像ストリームから異なる感知タスク間で共有される特徴を抽出することを含む。前記異なる感知タスクは、物体検出および他の感知タスクを含む。前記方法はさらに、前記ハードウェアプロセッサによって、前記マルチタスクCNNを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクCNNのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決することを含む。前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの1つに対応する。前記方法はまた、前記複数の異なる感知タスクの出力に応答する少なくとも1つのトップビューマップとして運転場面のパラメトリック表現を形成することを含む。さらに前記方法は、差し迫っている衝突を示す前記少なくとも1つのトップビューマップに応答する衝突回避のために、車両の操作を制御することを含む。
本発明の別の態様によれば、高度な運転者支援のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、共に実施されるプログラム命令を有する非一時的なコンピュータ可読記憶媒体を含む。前記プログラム命令は方法をコンピュータにより実行可能である。前記方法は、マルチタスク畳込みニューラルネットワーク(CNN)を用いて、複数の画像を含む入力映像ストリームから異なる感知タスク間で共有される特徴を抽出する。前記異なる感知タスクは、物体検出および他の感知タスクを含む。前記方法はさらに、前記マルチタスクCNNを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクCNNのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決することを含む。前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの1つに対応する。前記方法はまた、ハードウェアプロセッサによって、前記複数の異なる感知タスクの出力に応答する少なくとも1つのトップビューマップとして運転場面のパラメトリック表現を形成することを含む。前記方法はさらに、ハードウェアプロセッサによって、差し迫っている衝突を示す前記少なくとも1つのトップビューマップに応答する衝突回避のために、車両の操作を制御することを含む。
本発明のさらに別の態様によれば、高度な運転者支援のためのコンピュータ処理システムが提供される。コンピュータ処理システムは、記憶されたプログラムコードを含むメモリデバイスを含む。コンピュータ処理システムはさらに、前記メモリデバイスに動作可能に結合され、前記メモリデバイスに記憶された前記プログラムコードを実行するように構成され、マルチタスク畳込みニューラルネットワーク(CNN)を用いて、複数の画像を含む入力映像ストリームから異なる感知タスク間で共有される特徴を抽出するように構成されたたハードウェアプロセッサを含む。前記異なる感知タスクは、物体検出および他の感知タスクを含む。前記ハードウェアプロセッサはさらに、前記マルチタスクCNNを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクCNNのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決するために前記プログラムコードを実行する。前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの1つに対応する。前記ハードウェアプロセッサはさらに、前記複数の異なる感知タスクの出力に応答する少なくとも1つのトップビューマップとして運転場面のパラメトリック表現を形成するために前記プログラムコードを実行する。前記ハードウェアプロセッサはまた、差し迫っている衝突を示す前記少なくとも1つのトップビューマップに応答する衝突回避のために、車両の操作を制御するために前記プログラムコードを実行する。
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
本発明の一実施形態による例示的な処理システムを示すブロック図である。
本発明の一実施形態による、例示的なアプリケーション概要を示す図である。
図3は、本発明の一実施形態による、例示的なマルチタスク感知ネットワークを示すブロック図である。
本発明の一実施形態による、図3のマルチタスクCNNをさらに示すブロック図である。
本発明の一実施形態による、マルチタスク感知ネットワークのための例示的な方法を示す流れ図である。
本発明の一実施形態による、例示的な高度な運転者支援システム(ADAS)を示すブロック図である。
本発明の実施形態は、場面理解および高度な運転者支援システム(ADAS)のためのアプリケーションを有するマルチタスク感知ネットワークを対象とする。
本発明の1つまたは複数の実施形態は、個々の感知タスク間の相互特徴を探索し、単一のGPU上で効率的に実行するマルチタスク感知ネットワークを提案する。さらに、本発明者らは、場面理解および高度な運転者支援システムに対する本発明の応用を実証した。
一実施形態では、本発明は、単一の入力画像から、物体検出、意味的セグメンテーション、奥行き推定、遮蔽推論、および3D物体定位などの異なる感知タスクを同時に実行するための新規なCNNアーキテクチャを提案する。特に、入力画像は、最初に、異なる感知タスクにわたって共有するための特徴を抽出する特徴抽出モジュールを通過する。次に、これらの共有された特徴は、タスク固有のブランチに供給され、各ブランチは、1つまたは複数の感知タスクを実行する。特徴抽出モジュールを共有することによって、本発明のネットワークは、個々の感知タスク間で共有される特徴を探索し、単一のGPU上で効率的に実行することができる。さらに、マルチタスク感知ネットワークのアプリケーションを、場面理解および高度な運転者支援システムに向けて説明する。もちろん、本発明は、本明細書で提供される本発明の教示を前提として、当業者によって容易に理解されるように、他の用途に適用することができる。
図1は、本発明の一実施形態による例示的な処理システム100を示すブロック図である。処理システム100は、1組の処理ユニット(例えば、CPU)101と、1組のGPU102と、1組のメモリデバイス103と、1組の通信デバイス104と、1組の周辺機器105とを含む。CPU101は、シングルまたはマルチコアCPUとすることができる。GPU102は、シングルまたはマルチコアGPUとすることができる。1つまたは複数のメモリデバイス103は、キャッシュ、RAM、ROM、および他のメモリ(フラッシュ、光、磁気など)を含むことができる。通信デバイス104は、無線および/または有線通信デバイス(例えば、ネットワーク(例えば、WIFIなど)アダプタなど)を含むことができる。周辺機器105は、表示デバイス、ユーザ入力デバイス、プリンタ、撮像デバイスなどを含むことができる。処理システム100の要素は、1つまたは複数のバスまたはネットワーク(まとめて図参照番号110で示す)によって接続される。
一実施形態では、メモリデバイス103は、特別にプログラムされたソフトウェアモジュールを記憶して、コンピュータ処理システムを、本発明の様々な態様を実施するように構成された特別目的のコンピュータに変換することができる。一実施形態では、特別な目的のハードウェア(例えば、特定用途向け集積回路、フィールドプログラマブルゲートアレイ(FPGA)など)を使用して、本発明の様々な態様を実施することができる。一実施形態では、メモリデバイス103は、場面理解および高度な運転者支援システム(ADAS)のためのマルチタスク感知ネットワーク103Aを含む。
もちろん、処理システム100は、当業者によって容易に企図されるように、他の要素(図示せず)を含んでもよく、また、特定の要素を省略してもよい。例えば、当業者によって容易に理解されるように、様々な他の入力デバイスおよび/または出力デバイスを、その特定の実装に応じて、処理システム100に含めることができる。例えば、様々なタイプの無線および/または有線の入力および/または出力デバイスを使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなどを利用することもできる。処理システム100のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。
さらに、システム100の1つまたは複数の要素によって全体的または部分的に実装され得る、本発明に関連する様々な要素およびステップに関して以下で説明される様々な図が理解されるべきである。
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
図2は、本発明の一実施形態による、例示的なアプリケーション概要200を示す図である。
アプリケーション概要200は、入力映像210、マルチタスク感知ネットワーク220、2D物体検出231、3D物体検出232、意味的セグメンテーション233、奥行き推定234、遮蔽推論235、動作および物体追跡および3D定位からの構造240、トップビューマップ250、ならびに場面理解および高度な運転者支援システムアプリケーション260を含む。
図2は、場面理解およびADAS260を含むマルチタスク感知ネットワークの例示的なアプリケーションを示す。具体的には、入力映像210が与えられると、感知ネットワーク220は、各フレームを単一の順方向経路で別々に処理し、2D物体検出231、3D物体検出232、意味的セグメンテーション233、奥行き推定234および遮蔽推論235を含むリッチなフレームごとの出力を生成する。次に、これらのフレームごとの出力を組み合わせて、動作、物体追跡、3D定位240およびトップビューマップ推定モジュールから構造に供給して、車線の数、道路トポロジおよび交差点までの距離などの場面配置の詳細、ならびに場面配置と一致する物体の定位を含む、取得された場面の時間的および空間的に一貫したトップビューマップ250表現を生成することができる。詳細なトップビューマップ表現は、場面理解およびADAS260(例えば、盲点推論、経路計画、衝突回避(ステアリング、ブレーキ入力等を介する)等)のような様々なアプリケーションに有用であり得る。
図3は、本発明の一実施形態による例示的なマルチタスク感知ネットワーク300を示すブロック図である。
ネットワーク300は、入力映像301を受信する。
このネットワークは、マルチタスク畳み込みニューラルネットワーク(CNN)310と、動作からの構造構成要素320と、物体追跡構成要素330と、3D定位構成要素340と、トップビューマップ350と、アプリケーション360とを含む。
入力映像301は、画像の映像ストリームであってもよい(例えば、RGBまたは他のタイプ)。
マルチタスクCNN310は、入力として(RGB)画像を取り込み、多数の出力を生成する。マルチタスクCNN310は、複数のタスクを一度に解決するように構成される。
物体追跡構成要素330は、入力映像301のフレームごとに、マルチタスクCNN310から物体インスタンスの2Dまたは3Dバウンディングボックスを受け取る。物体追跡構成要素330は、2Dおよび/または3Dバウンディングボックスの両方で動作することができる。物体追跡構成要素330のタスクは、異なるフレームにわたって、すなわち時間にわたって2D/3Dバウンディングボックスを関連付けることである。バウンディングボックス間の関連付けは、これらのバウンディングボックスが物体のまったく同じインスタンスを取得することを示す。
動作からの構造構成要素320は、RGB画像301の映像ストリームを入力として取り込み、映像の最初のフレームに対する相対カメラポーズを出力する。したがって、動作からの構造構成要素320は、カメラ自体が空間および時間を通してどのように動いているかを測定する。2Dまたは3Dバウンディングボックスの入力は、静的世界についての内部の仮定を満たさない場面の動的部分を無視することができるので、動作からの構造構成要素320がその推定値を改善するのに役立つ。
3D定位構成要素340は、推定されたカメラポーズとフレームごとの3Dバウンディングボックスとを統合して、時間の経過とともに一貫した洗練された3Dバウンディングボックスを予測する。
トップビューマップ350は、上面から取得された場面の一貫した意味表現を生成する。トップビューマップ350は、マルチタスクCNN310からの複数の出力、すなわち、遮蔽推論された画素ごとの意味論および奥行き推定、ならびに3D定位構成要素340からの洗練された3Dバウンディングボックスを統合する。出力は、車線の数、道路配置のトポロジ、交差点までの距離、横断歩道および歩道の存在、ならびにいくつかのより多くの属性を含む、複雑な運転場面のパラメトリック表現である。また、場面配置と一致する物体インスタンス(3D定位構成要素340から与えられる)の定位も提供する。
アプリケーション360に関して、トップビューマップ350によって与えられる意味的およびパラメトリックトップビュー表現は、その場面の有用な抽象化であり、多くの異なるアプリケーションに役立つことができる。それは閉塞領域についての理由であるので、1つの用途は盲点推論である。それは道路配置の計量的に正しい記述を含むため、別のアプリケーションは経路計画であることができる。これらは、トップビューマップ350の出力の上に構築される潜在的なアプリケーションの2つの例にすぎない。
図4は、本発明の一実施形態による、図3のマルチタスクCNN310をさらに示すブロック図である。
マルチタスクCNN310は、共有特徴抽出構成要素410と、タスク固有CNN420と、訓練データ430とを含む。
タスク固有CNN420は、2D物体検出構成要素421と、3D物体検出構成要素422と、奥行き推定構成要素423と、意味的セグメンテーション構成要素424と、遮蔽推論構成要素425とを含む。
訓練データ430は、2D物体ボックス431、3D物体ボックス432、まばらな3Dポイント433および意味的画素434を含む。まばらな3Dポイントは、カメラとの距離も取得するカメラを基準とした3D空間の実点である。このようなまばらな3Dポイントは、典型的には、レーザスキャナ(Lidar)を用いて収集され、ネットワークが物体までの距離を推定するのに役立つ。
上述のように、マルチタスクCNN310は、入力としてRGB画像を取り込み、(タスク固有CNN420のための)多数の出力を生成する。計算のボールパークは、全ての異なる出力に対して依然として共有される。共有特徴抽出構成要素410およびタスク固有CNN420は、訓練データ430で推定される必要があるいくつかのパラメータを有する1つの共同畳み込みニューラルネットワークとして実装される。
共有特徴抽出部410は、畳み込みニューラルネットワーク(CNN)として表現されている。このCNNの特定のアーキテクチャは、入力画像に比例する空間次元の特徴マップを生成する限り、任意に選択することができる。このアーキテクチャは、利用可能な計算リソースに応じて適合させることができ、これにより、オフラインアプリケーションのための重く強い特徴表現、ならびにリアルタイムアプリケーションのためのより弱いがより軽い特徴表現が可能になる。
タスク固有CNN420に関して、ブロック210からの共有特徴表現が与えられると、CNN420は、その上にいくつかのタスク固有サブCNNを適用する。これらのサブCNNは、共有特徴抽出構成要素410と比較して軽量であり、実行時間のほんの一部しか必要としない。これにより、システムの全体的な実行時間を大幅に増加させることなく、多数のタスクの出力を見積もることができる。一実施形態では、以下の出力が推定される。
タスク固有CNN420の様々な構成要素が、本発明の1つまたは複数の実施形態に従って、ここで説明される。
2D物体検出構成要素421の出力は、例えば、自動車、人、停車標識、交通信号などの物体カテゴリのあらかじめ定義されたセットのすべてのインスタンスの範囲を描写するバウンディングボックス(画像空間内の4つの座標、信頼スコア、およびカテゴリラベル)のリストである。
3D物体検出構成要素422に関して、(2D物体検出構成要素421からの)2Dにおける各検出された物体について、システムは、実際の3D空間(例えば、メートルまたは他の何らかの単位で)においてその物体を囲む3Dバウンディングボックスを推定する。この推定値は、取得された場面を完全に理解するための重要な情報である、各物体の3D位置、向きおよび寸法を提供する。
奥行き推定構成要素423は、入力画像内の各画素に距離(例えば、メートル単位または他の何らかの単位)を割り当てる。
意味的セグメンテーション構成要素424は、入力画像内の各画素に、道路、歩道、建物、空、車、または人のような意味的なカテゴリを割り当てる。上述したリストは、限定的なものではない。カテゴリのセットは、2D物体検出構成要素421内のカテゴリのセットとは異なるが、いくつかの項目は等しい。重要なことは、意味的セグメンテーション構成要素424内のセットは、バウンディングボックス、例えば道路ではうまく描写できないカテゴリを含むことである。
遮蔽推論構成要素425は、前景物体によって遮蔽されるすべての画素について、意味論および距離を推定する。意味的セグメンテーション構成要素424からのカテゴリのサブセットは、自動車、歩行者またはポールのような、場面を遮蔽することができる前景カテゴリとして定義される。上述したリストは、限定的なものではない。遮蔽推論構成要素425にも入力される意味的セグメンテーション構成要素424の出力において、これらのカテゴリに割り当てられたすべての画素は、遮蔽領域としてマークされる。遮蔽推論構成要素425は、(背景技術カテゴリのセットからの)カテゴリを、あたかもそれが遮蔽されていないかのように各遮蔽された領域に割り当てる。遮蔽推論構成要素425は、本質的に、遮蔽画素を取り囲むコンテキスト情報、ならびに遮蔽画素の意味的カテゴリを推定するために訓練データから自動的に学習された以前のものを活用している。同じことが、遮蔽された領域の距離についても起こる。重要なことに、他のすべての構成要素と同様に、遮蔽推論構成要素425は、共有特徴抽出構成要素410によって与えられる特徴表現に対してのみ機能し、また、システム全体にわずかな実行時間を追加するだけである。
訓練データ430は、共有特徴抽出構成要素410およびタスク固有CNN420に関して説明した畳み込みニューラルネットワーク(CNN)のパラメータを推定するために必要である。再び、CNNは、エンド・ツー・エンドで訓練することができる、すなわち、上記で定義されたタスクのいずれかについて入力RGB画像およびグランドトゥルースデータを与えられる統一モデルである。データをより良く活用するために、一実施形態では、各入力画像がすべてのタスクについて注釈付けされるという限定的な仮定を行わない。一実施形態では、本発明者らは、画像が少なくとも1つのタスクについて注釈付けされることのみを必要とする。次に、1つ(または複数)のタスクに対する入力RGB画像およびグランドトゥルースデータが与えられると、訓練アルゴリズムは、この(これらの)タスクに関連するパラメータを更新する。共有特徴抽出構成要素410からの共有特徴表現は、常に関与することに留意されたい。これらの更新は、パラメータがすべてのタスクのいくつかの損失関数に従って収束するまで、すべての異なるタスクの画像およびグランドトゥルースを用いて繰り返される。本発明のマルチタスクCNNを訓練するために必要なグランドトゥルースデータは、2Dバウンディングボックス431、3Dバウンディングボックス432、(例えば、レーザスキャナからの)まばらな3Dポイント433、および各画素についての意味カテゴリ(意味的画素434)である。
遮蔽推論構成要素425は、場面の遮蔽された領域についての注釈を必要とせず、これは費用がかかり、獲得するのが困難であることに留意することが重要である。
図5は、本発明の一実施形態による、マルチタスク感知ネットワークのための例示的な方法500を示す流れ図である。方法500は、場面理解およびADASを含むアプリケーションに適用することができる。
ブロック505において、マルチタスク畳み込みニューラルネットワーク(CNN)を使用して、複数の画像を含む入力映像ストリームから、異なる感知タスクにわたって共有される特徴を抽出し、異なる感知タスクは、2Dおよび3D物体検出、奥行き推定、意味的推定、および遮蔽推論のうちの少なくともいくつかを含む。
ブロック510で、マルチタスクCNNを使用して、マルチタスクCNNのそれぞれの異なる分岐によって共有特徴の対応するものを同時に処理して、複数の異なる感知タスク出力を提供することによって、単一の経路で異なる感知タスクを同時に解決する。それぞれの異なる分岐の各々は、異なる感知タスクのそれぞれ1つに対応する。
ブロック515では、異なるピクチャにわたって2Dおよび3Dバウンディングボックスを関連付けて、3次元物体追跡を取得する。
ブロック520では、2Dおよび3Dバウンディングボックスを処理して、カメラポーズを判定する。
ブロック525では、3次元物体追跡およびカメラポーズに応答する2Dおよび3Dバウンディングボックスによってカプセル化された物体を定位して、洗練された3D物体追跡を提供する。
ブロック530において、複数の異なる感知タスク出力(例えば、意味的セグメンテーション、奥行き推定および遮蔽推論)のうちの少なくともいくつか、および洗練された3D物体追跡に応答して、少なくとも1つのトップビューマップとして、運転場面のパラメトリック表現を形成する。複数の異なる感知タスク出力の残りのものは、洗練された3D物体追跡を形成するために使用されたことに留意されたい。
ブロック535では、差し迫っている衝突を示す少なくとも1つの上面図マップに応答する衝突回避のための車両の操作を制御する。
図6は、本発明の一実施形態による、追跡物体検出に基づく例示的な高度な運転者支援システム(ADAS)600を示す。
ADAS600は、ユーザ2688が、各々がそれ自体の位置および軌跡を有する複数の物体699を有する場面内に位置する環境601で使用される。ユーザ688は、車両672(例えば、車、トラック、オートバイなど)を操作している。
ADAS600は、カメラシステム610を含む。図2では、例示および簡潔さのために単一のカメラシステム610が示されているが、本発明の精神を維持しながら、複数のカメラシステムを使用することもできることを理解されたい。ADAS600は、本発明に従って物体検出を実行するように構成されたサーバ620をさらに含む。サーバ620は、プロセッサ621、メモリ622および無線トランシーバ623を含むことができる。リモートサーバ620のプロセッサ621およびメモリ622は、リモートサーバ620(の無線トランシーバ623)によってカメラシステム610から受信された画像に基づいて運転者支援機能を実行するように構成することができる。このようにして、ユーザ688および/または車両672によって是正措置をとることができる。
ADAS600は、ユーザが操作している車両672の1つまたは複数のシステムを介してユーザとインターフェースすることができる。例えば、ADAS600は、車両672のシステム672A(例えば、ディスプレイシステム、スピーカシステム、および/または何らかの他のシステム)を介して、ユーザ情報(例えば、検出された物体、それらの位置、提案されたアクションなど)を提供することができる。さらに、ADAS 600は、車両を制御するために、または車両672に1つまたは複数の動作を実行させるために、(例えば、ステアリングシステム、ブレーキシステム、加速システム、ステアリングシステムなどを含むがこれらに限定されない車両672の1つまたは複数のシステムを介して)車両672自体とインターフェースすることができる。このようにして、ユーザまたは車両672自体は、これらの物体699の周りをナビゲートして、それらの間の潜在的な衝突を回避することができる。
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネット(登録商標)カードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。
本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。しかしながら、本明細書で提供される本発明の教示を前提として、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
以下の「/」、「および/または」、および「少なくとも1つ」、例えば、「A/B」、「Aおよび/またはB」、および「AおよびBの少なくとも1つ」のいずれかの使用は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または両方の実施例(AおよびB)の選択を包含することが意図されることを理解されたい。さらなる例として、「A、B、および/またはC」、および「A、B、およびCの少なくとも1つ」の場合、このような句は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または第3のリストされた実施例(C)のみの選択、または第1および第2のリストされた実施例(AおよびB)のみの選択、または 第1および第3のリストされた実施例(AおよびC)のみの選択、または第2および第3のリストされた実施例(BおよびC)のみの選択、または3つすべての実施例(AおよびBおよびC)の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。
上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims (20)

  1. 高度な運転者支援システム(ADAS)におけるコンピュータによって実現される方法であって、
    ハードウェアプロセッサによって、マルチタスク畳込みニューラルネットワーク(CNN)を用いて、複数の画像を含む入力映像ストリームから、物体検出および他の感知タスクを含む、異なる感知タスク間で共有される特徴を抽出すること(505)と、
    前記ハードウェアプロセッサによって、前記マルチタスクCNNを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクCNNのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決すること(510)であって、前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの1つに対応することと、
    前記複数の異なる感知タスクの出力に応答する少なくとも1つのトップビューマップとして運転場面のパラメトリック表現を形成すること(530)と、
    差し迫っている衝突を示す前記少なくとも1つのトップビューマップに応答する衝突回避のために、車両の操作を制御することとを含む方法。
  2. 請求項1に記載のコンピュータによって実現される方法において、
    前記他の感知タスクは、意味的セグメンテーション、奥行き推定および遮蔽推論を含む方法。
  3. 請求項1に記載のコンピュータによって実現される方法において、
    前記ハードウェアプロセッサは、単一のGPUからなる方法。
  4. 請求項1に記載のコンピュータによって実現される方法において、
    物体追跡を取得するために、異なる画像にわたってバウンディングボックスを関連付けることと、
    前記バウンディングボックスを処理してカメラポーズを判定することと、
    前記少なくとも1つのトップビューマップを形成するための洗練された物体追跡を提供するために、前記物体追跡および前記カメラポーズに応答して前記バウンディングボックスによってカプセル化された物体を定位することとをさらに含む方法。
  5. 請求項4に記載のコンピュータによって実現される方法において、
    前記洗練された物体追跡は、所与の期間にわたって一貫性があるように提供される方法。
  6. 請求項4に記載のコンピュータによって実現される方法において、
    前記バウンディングボックスの各々について信頼スコアを生成することをさらに含み、前記信頼スコアは、前記物体追跡を取得するために使用される方法。
  7. 請求項1に記載のコンピュータによって実現される方法において、
    前記マルチタスクCNNは、複数のサブCNNを含み、前記複数のサブCNNの各々は、前記異なる感知タスクのそれぞれ異なる1つを処理する方法。
  8. 請求項1に記載のコンピュータによって実現される方法において、
    2次元物体ボックス、3次元物体ボックス、まばらな3次元ポイントおよび意味的画素を含む訓練データを用いて前記マルチタスクCNNを訓練することをさらに含む方法。
  9. 請求項8に記載のコンピュータによって実現される方法において、
    前記訓練データは、前記異なる感知タスクのそれぞれについて注釈が付けられている方法。
  10. 請求項1に記載のコンピュータによって実現される方法において、
    前記意味的画素の各々は、複数の利用可能な意味的カテゴリのうちの1つに割り当てられる方法。
  11. 請求項1に記載のコンピュータによって実現される方法において、
    遮蔽推論を使用して前記トップビューマップを形成することをさらに含み、前記遮蔽推論は、前景物体によって遮蔽された前記入力映像ストリーム内の任意の画素についての意味論および距離を推定する方法。
  12. 請求項1に記載のコンピュータによって実現される方法において、
    前記入力映像ストリームのフレーム内の場面の遮蔽領域は、前記遮蔽推論のために注釈付けされない方法。
  13. 請求項1に記載のコンピュータによって実現される方法において、
    前記衝突回避は、ブレーキングおよびステアリングからなるグループから選択された車両入力を制御することを含む方法。
  14. 請求項1に記載のコンピュータによって実現される方法において、
    前記衝突回避を支援するために、前記トップビューマップに応答して場面理解タスクを実行することをさらに含む方法。
  15. 高度な運転者支援のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、共に実施されるプログラム命令を有する非一時的なコンピュータ可読記憶媒体を備え、該プログラム命令は方法をコンピュータにより実行可能であり、前記方法は、
    マルチタスク畳込みニューラルネットワーク(CNN)を用いて、複数の画像を含む入力映像ストリームから、物体検出および他の感知タスクを含む異なる感知タスク間で共有される特徴を抽出すること(505)と、
    前記マルチタスクCNNを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクCNNのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決すること(510)であって、前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの1つに対応することと、
    前記複数の異なる感知タスクの出力に応答する少なくとも1つのトップビューマップとして運転場面のパラメトリック表現を形成すること(530)と、
    差し迫っている衝突を示す前記少なくとも1つのトップビューマップに応答する衝突回避のために、車両の操作を制御することとを含むコンピュータプログラム製品。
  16. 請求項15に記載のコンピュータプログラム製品において、
    前記他の感知タスクは、意味的セグメンテーション、奥行き推定および遮蔽推論を含むコンピュータプログラム製品。
  17. 請求項15に記載のコンピュータプログラム製品において、
    前記ハードウェアプロセッサは、単一のGPUからなるコンピュータプログラム製品。
  18. 請求項15に記載のコンピュータプログラム製品において、
    物体追跡を取得するために、異なる画像にわたってバウンディングボックスを関連付けることと、
    前記バウンディングボックスを処理してカメラポーズを判定することと、
    前記少なくとも1つのトップビューマップを形成するための洗練された物体追跡を提供するために、前記物体追跡および前記カメラポーズに応答して前記バウンディングボックスによってカプセル化された物体を定位することとをさらに含むコンピュータプログラム製品。
  19. 請求項15に記載のコンピュータプログラム製品において、
    前記マルチタスクCNNは、複数のサブCNNを含み、前記複数のサブCNNの各々は、前記異なる感知タスクのそれぞれ異なる1つを処理するコンピュータプログラム製品。
  20. 高度な運転者支援のためのコンピュータ処理システムであって、
    記憶されたプログラムコードを含むメモリデバイス(103)と、
    前記メモリデバイスに動作可能に結合され、前記メモリデバイスに記憶された前記プログラムコードを実行するように構成されたハードウェアプロセッサ(102)とを有し、前記ハードウェアプロセッサは、
    マルチタスク畳込みニューラルネットワーク(CNN)を用いて、複数の画像を含む入力映像ストリームから、物体検出および他の感知タスクを含む異なる感知タスク間で共有される特徴を抽出し、
    前記マルチタスクCNNを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクCNNのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決し、前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの1つに対応し、
    前記複数の異なる感知タスクの出力に応答する少なくとも1つのトップビューマップとして運転場面のパラメトリック表現を形成し、
    差し迫っている衝突を示す前記少なくとも1つのトップビューマップに応答する衝突回避のために、車両の操作を制御するコンピュータ処理システム。
JP2021528363A 2019-03-07 2020-02-12 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク Active JP7181402B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962814886P 2019-03-07 2019-03-07
US62/814,886 2019-03-07
US16/787,727 US11462112B2 (en) 2019-03-07 2020-02-11 Multi-task perception network with applications to scene understanding and advanced driver-assistance system
US16/787,727 2020-02-11
PCT/US2020/017877 WO2020180469A1 (en) 2019-03-07 2020-02-12 Multi-task perception network with applications to scene understanding and advanced driver-assistance system

Publications (2)

Publication Number Publication Date
JP2022508157A true JP2022508157A (ja) 2022-01-19
JP7181402B2 JP7181402B2 (ja) 2022-11-30

Family

ID=72335405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021528363A Active JP7181402B2 (ja) 2019-03-07 2020-02-12 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク

Country Status (4)

Country Link
US (1) US11462112B2 (ja)
JP (1) JP7181402B2 (ja)
DE (1) DE112020001103T5 (ja)
WO (1) WO2020180469A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4081982A4 (en) * 2019-12-23 2023-08-16 A^3 By Airbus, LLC SYSTEMS AND PROCEDURES FOR EFFECTIVE DETECTION OF COLLISION HAZARDS
JP7391784B2 (ja) * 2020-07-06 2023-12-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
TWI812888B (zh) 2020-10-14 2023-08-21 財團法人工業技術研究院 影像辨識方法及影像辨識系統
US20220121953A1 (en) * 2020-10-21 2022-04-21 Nec Laboratories America, Inc. Multi-task learning via gradient split for rich human analysis
US11688090B2 (en) 2021-03-16 2023-06-27 Toyota Research Institute, Inc. Shared median-scaling metric for multi-camera self-supervised depth evaluation
CN113240723A (zh) * 2021-05-18 2021-08-10 中德(珠海)人工智能研究院有限公司 一种单目深度估计方法、装置以及深度评估设备
US11527074B1 (en) * 2021-11-24 2022-12-13 Continental Automotive Technologies GmbH Systems and methods for deep multi-task learning for embedded machine vision applications
CN114519381B (zh) * 2021-12-31 2024-09-17 上海仙途智能科技有限公司 基于多任务学习网络的感知方法及装置、存储介质、终端
CN114332590B (zh) * 2022-03-08 2022-06-17 北京百度网讯科技有限公司 联合感知模型训练、联合感知方法、装置、设备和介质
CN115984827B (zh) * 2023-03-06 2024-02-02 安徽蔚来智驾科技有限公司 点云感知方法、计算机设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008238927A (ja) * 2007-03-27 2008-10-09 Denso Corp 車両周辺画像表示装置
JP2017211799A (ja) * 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置および情報処理方法
JP2018055377A (ja) * 2016-09-28 2018-04-05 日本電信電話株式会社 マルチタスク処理装置、マルチタスクモデル学習装置、及びプログラム
JP2018190332A (ja) * 2017-05-11 2018-11-29 キヤノン株式会社 画像認識装置および学習装置
US20190049970A1 (en) * 2017-08-08 2019-02-14 Uber Technologies, Inc. Object Motion Prediction and Autonomous Vehicle Control
US20190050648A1 (en) * 2017-08-09 2019-02-14 Ydrive, Inc. Object localization within a semantic domain

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100389004B1 (ko) * 2001-05-17 2003-06-25 삼성전자주식회사 신경망을 이용한 영상 인식 장치 및 그 방법
US8712156B2 (en) * 2010-01-10 2014-04-29 Bronstein Bronstein Kimmel Technologies Ltd. Comparison of visual information
US9700219B2 (en) * 2013-10-17 2017-07-11 Siemens Healthcare Gmbh Method and system for machine learning based assessment of fractional flow reserve
US9922272B2 (en) * 2014-09-25 2018-03-20 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
US10539669B2 (en) * 2014-10-08 2020-01-21 Texas Instruments Incorporated Three dimensional (3D) tracking of objects in a radar system
US9880551B2 (en) * 2015-03-06 2018-01-30 Robotic Research, Llc Point-and-click control of unmanned, autonomous vehicle using omni-directional visors
US10289934B2 (en) * 2016-11-08 2019-05-14 Nec Corporation Landmark localization on objects in images using convolutional neural networks
KR20180071031A (ko) * 2016-12-19 2018-06-27 엘지전자 주식회사 공기조화기 및 그 제어방법
CN108230291B (zh) * 2017-03-30 2020-09-29 北京市商汤科技开发有限公司 物体识别系统训练方法、物体识别方法、装置和电子设备
US10884433B2 (en) * 2017-08-28 2021-01-05 Nec Corporation Aerial drone utilizing pose estimation
US10489126B2 (en) * 2018-02-12 2019-11-26 Oracle International Corporation Automated code generation
US11189171B2 (en) * 2018-03-13 2021-11-30 Nec Corporation Traffic prediction with reparameterized pushforward policy for autonomous vehicles
CN110298262B (zh) * 2019-06-06 2024-01-02 华为技术有限公司 物体识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008238927A (ja) * 2007-03-27 2008-10-09 Denso Corp 車両周辺画像表示装置
JP2017211799A (ja) * 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置および情報処理方法
JP2018055377A (ja) * 2016-09-28 2018-04-05 日本電信電話株式会社 マルチタスク処理装置、マルチタスクモデル学習装置、及びプログラム
JP2018190332A (ja) * 2017-05-11 2018-11-29 キヤノン株式会社 画像認識装置および学習装置
US20190049970A1 (en) * 2017-08-08 2019-02-14 Uber Technologies, Inc. Object Motion Prediction and Autonomous Vehicle Control
US20190050648A1 (en) * 2017-08-09 2019-02-14 Ydrive, Inc. Object localization within a semantic domain

Also Published As

Publication number Publication date
JP7181402B2 (ja) 2022-11-30
DE112020001103T5 (de) 2021-12-23
US11462112B2 (en) 2022-10-04
WO2020180469A1 (en) 2020-09-10
US20200286383A1 (en) 2020-09-10

Similar Documents

Publication Publication Date Title
JP7181402B2 (ja) 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク
US11893682B1 (en) Method for rendering 2D and 3D data within a 3D virtual environment
CN111133447B (zh) 适于自主驾驶的对象检测和检测置信度的方法和系统
CN113767389B (zh) 从用于自主机器应用的经变换的真实世界传感器数据模拟逼真的测试数据
CN111095291B (zh) 由自动驾驶车辆实时检测车道和边界
US20230110116A1 (en) Advanced driver assist system, method of calibrating the same, and method of detecting object in the same
JP2023507695A (ja) 自律運転アプリケーションのための3次元交差点構造予測
JP2023531330A (ja) マシン学習を使用した自律マシン・アプリケーションのためのセンサ融合
CN113950702A (zh) 在视频分析应用中使用相关滤波器的多对象跟踪
CN113496290A (zh) 使用采用模拟对象增强的图像训练机器学习模型
CN113811886A (zh) 自主机器应用中的路口检测和分类
CN113632095A (zh) 使用适合停车位检测的倾斜多边形进行对象检测
WO2019182974A2 (en) Stereo depth estimation using deep neural networks
JP5782088B2 (ja) 歪みのあるカメラ画像を補正するシステム及び方法
CN115315709A (zh) 自主系统中用于行为预测的基于模型的增强学习及应用
JP7135665B2 (ja) 車両制御システム、車両の制御方法及びコンピュータプログラム
CN114332907A (zh) 包括使用神经网络进行鲁棒预测的背景修改的数据增强
US10867390B2 (en) Computer vision processing
WO2021133956A1 (en) Systems and methods for computer-based labeling of sensor data captured by a vehicle
JP2022132075A (ja) 自律運転アプリケーションにおけるディープ・ニューラル・ネットワーク知覚のためのグラウンド・トゥルース・データ生成
WO2022198175A1 (en) Systems and methods for generating object detection labels using foveated image magnification for autonomous driving
CN113609888A (zh) 利用平面单应性和自监督的场景结构理解进行对象检测
US12008743B2 (en) Hazard detection ensemble architecture system and method
Aditya et al. Collision detection: An improved deep learning approach using SENet and ResNext
JP2023082647A (ja) 自律システム及びアプリケーションのためのカメラベースの入力を使用した深層学習ベースの動作領域検証

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221117

R150 Certificate of patent or registration of utility model

Ref document number: 7181402

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350