[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7334141B2 - マルチモーダル密対応関係画像処理システム、レーダー撮像システム、方法およびブログラム - Google Patents

マルチモーダル密対応関係画像処理システム、レーダー撮像システム、方法およびブログラム Download PDF

Info

Publication number
JP7334141B2
JP7334141B2 JP2020161111A JP2020161111A JP7334141B2 JP 7334141 B2 JP7334141 B2 JP 7334141B2 JP 2020161111 A JP2020161111 A JP 2020161111A JP 2020161111 A JP2020161111 A JP 2020161111A JP 7334141 B2 JP7334141 B2 JP 7334141B2
Authority
JP
Japan
Prior art keywords
multimodal
images
image
modality
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020161111A
Other languages
English (en)
Other versions
JP2021060989A (ja
JP2021060989A5 (ja
Inventor
ファン・バール・イェルーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2021060989A publication Critical patent/JP2021060989A/ja
Publication of JP2021060989A5 publication Critical patent/JP2021060989A5/ja
Application granted granted Critical
Publication of JP7334141B2 publication Critical patent/JP7334141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/38Registration of image sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、概して画像処理に関し、より具体的には運動シーケンスのデジタル画像のペアにおける画素の密対応関係(dense correspondence)を推定することに関する。
背景
画像間の対応関係を明らかにすることは、その範囲がモーション解析、トラッキングおよびステレオのような従来のタスクから、3次元再構成、オブジェクト検出および検索を経て、画像向上および編集に及ぶ、コンピュータビジョンおよびグラフィックスにおける多数のアプリケーションの、長年にわたる課題である。対応関係のほとんどの方法は、多種多様なシナリオの扱いという点において限界がある。たとえば、あるシナリオでは、時間および視点が画像間で相互に近い。別のシナリオでは、画像間の視点の差は大きいかもしれないがそのシーンは大部分が固定対象物で構成されている。さらにもう1つのシナリオでは、入力画像は、何らかの共通する内容を共有しているが、シーンの非固定的変化、照明および/またはトーンマッピングの変化、ならびにカメラおよびレンズの違いのような、さまざまな要因のために、大きく異なる。最後のシナリオは、典型的には異なる条件で撮影された同じ被写体を含む個人の写真アルバムではよくあることである。現在の方法は、これらのタイプのシナリオのうちの1つ以上の扱いに苦心している。
密対応関係撮像システムの一般的なシナリオの一例は、運動シーケンスの連続画像における、歩行運動時の人間の特徴間の密対応関係の推定であり、これは、上記連続画像における、人間の姿勢と姿勢との間の画素ごとの対応関係を定める。人間は非固定的な対象物であることを考慮すると、このような、ある画像における人間の特徴の表面上の画素ごとに、次の画像における人間の特徴の表面上の対応する画素を決定する、密対応関係のシナリオは、複数の課題を提起する。
最も高い精度をもたらす、この密対応関係の課題に対する現在の解決策は、学習に基づく手法であり、たとえば、密対応関係の推定について訓練されたニューラルネットワーク(複数のニューラルネットワーク)を使用する手法である。しかしながら、適切なニューラルネットワーク(複数のニューラルネットワーク)の訓練は難しい課題であり、現在最も精度が高い解決策であっても、その精度は、人間の特徴の末端、すなわち腕と手および脚と足に近いほど、低下する傾向がある。
それゆえに、運動シーケンスの連続するデジタル画像における画素の密対応関係を推定するためのシステムおよび方法が必要とされている。
概要
いくつかの実施形態の目的は、学習に基づく密対応関係技術を、同一シーンのマルチモーダル画像に拡張することである。たとえば、ある実施形態の目的は、運動シーケンスの連続するデジタル画像における密対応関係を定めるマルチモーダル撮像システムを提供することである。このような運動シーケンスの例は、深度(depth)画像のシーケンスと対応するカラー画像のシーケンスとを含むデジタルマルチモーダル画像を含む。いくつかの実施形態は、マルチモーダル画像は異なるモーダル固有情報を相互に補完することによって密対応関係の精度を高めることができる、という理解に基づいている。
しかしながら、マルチモーダル学習に基づく密対応関係システムを提供するには、基礎となるニューラルネットワーク(複数のニューラルネットワーク)を、モダリティが異なる画像について訓練する必要がある。密対応関係という文脈において、このような訓練は難しい。なぜなら、モダリティが異なる画像は外観が異なるので、結果として、モダリティが異なる、異なる画素の、異なる対応関係が生じるからである。たとえば、密対応関係についてニューラルネットワークを訓練するためのある方法は、類似する画素は同一領域に分類する必要があるという原則を用いてニューラルネットワークを訓練する分類手法である。この分類手法において、ニューラルネットワークおよび分類器は、個々の画像に基づいて、ともに訓練される、すなわち、各入力画像を用いて、ニューラルネットワークおよび分類器を、その他いずれの入力画像とも無関係に訓練する。しかしながら、この分類手法は、外観の相違のため、マルチモーダル密対応関係に拡張できないので、モダリティが異なる画像、たとえば深度画像およびカラー画像の分類には拡張できない。
いくつかの実施形態は、個々の画像についての、分類に基づく訓練は、連続画像における密対応関係の推定の性質に適合しないという認識に基づく。密対応関係の目的は、運動(および運動によって生じる変形)を捉えることなので、運動(および変形)を捉えた連続画像の対応画素に基づくNNの訓練のための訓練メトリック(損失関数)を定義する必要がある。
いくつかの実施形態は、連続画像における運動を捉える異なるメトリックを特定する。たとえば、いくつかの実施形態において、第1のメトリックは埋め込み損失に基づき、第2のメトリックはオプティカルフロー(optical flow)に基づく。埋め込み損失メトリックは、運動を捉えた連続画像の対応画素は同じポイントに属しているので、これらの画素の値が、元の空間では異なっていても、同一である、埋め込み空間が存在する、という仮定に基づいている。よって、埋め込み損失メトリックを用いることにより、同じポイントの対応画素に対して類似する特徴ベクトルを生成するニューラルネットワークを、たとえこれらの対応画素の値が運動によって異なることになったとしても、訓練することが可能である。
オプティカルフローメトリックは、分類と比較して、連続画像の対応画素が密対応関係の性質により適合するオプティカルフローを定めるという理解に基づく。よって、オプティカルフローメトリックを用いることにより、ニューラルネットワークを訓練して、グラウンドトゥルース(ground truth)・オプティカルフローを再構成するのに使用することが可能な特徴ベクトルを生成することができる。
これらのメトリックは、異なるモダリティに対してより有効となり得る。たとえば、埋め込み損失メトリックは、光の飛行時間を測定することによって形成する深度画像に対してより好都合であり、オプティカルフローメトリックは、光の屈折または反射によって形成された光画像に対してより適切である。しかしながら、分類に基づく訓練とは異なり、これらのメトリックは、異なる画像モダリティに対して運動に基づく同様の結果を生むことができ、補完し合い、マルチモーダル画像からの密対応関係推定に適用可能である。加えて、このような運動に基づくメトリックは、デジタル画像の異なるモダリティについてニューラルネットワークを訓練することを可能にするので、我々の知る限り、最高のマルチモーダル密対応関係撮像システムを提供する。
たとえば、ある実施形態はマルチモーダル画像処理システムを開示し、このマルチモーダル画像処理システムは、運動シーケンスの連続するデジタル画像を受けるように構成された入力インターフェイスを備え、上記デジタル画像は深度画像のシーケンスと対応するカラー画像のシーケンスとを含むマルチモーダル画像であり、上記システムはさらに、深度画素から深度特徴ベクトルを抽出するように訓練された第1のサブネットワークとカラー画素からカラー特徴ベクトルを抽出するように訓練された第2のサブネットワークとを含むニューラルネットワークを格納するように構成されたメモリを備える。
第1のサブネットワークは第2のサブネットワークとともに訓練される。たとえば、ニューラルネットワークは、連続デジタル画像のシーケンスを用いて訓練されることにより、連続デジタル画像の各ペアにおける同一ポイントの画素の特徴ベクトル間の距離と、連続デジタル画像の各ペアの画素の特徴ベクトルから再構成されたオプティカルフローにおける誤差とのうちの一方またはこれらの組み合わせを低減する、各デジタル画像の画素の特徴ベクトルを出力する。
マルチモーダル画像処理システムはプロセッサをさらに備え、プロセッサは、(1)連続マルチモーダル画像の各ペアをニューラルネットワークに与えて、上記ペアにおける各マルチモーダル画像の画素ごとの深度特徴ベクトルおよびカラー特徴ベクトルを生成し、(2)上記ペアにおける各マルチモーダル画像の対応画素の深度特徴ベクトルとカラー特徴ベクトルとを組み合わせることにより、上記ペアにおける各マルチモーダル画像の画素ごとに組み合わされた特徴ベクトルを生成し、(3)上記ペアにおける異なるマルチモーダル画像の組み合わされた特徴ベクトルを比較することにより、上記ペアにおける上記異なるマルチモーダル画像の画素間の密対応関係を推定し、上記ペアにおけるマルチモーダル画像の画素間の密対応関係を、出力インターフェイスを介して出力するように、構成されている。
実際、モダリティが異なる画像についてともに訓練された複数のサブネットワークを使用するマルチモーダル画像処理システムは、密対応関係推定の精度を高める。
したがって、ある実施形態はマルチモーダル密対応関係画像処理システムを開示し、このシステムは、マルチモーダル画像の運動シーケンスを受けるように構成された入力インターフェイスを備え、各マルチモーダル画像は、第1のモダリティの画像と、対応する、第1のモダリティと異なる第2のモダリティの画像とを含み、モダリティが異なる、対応する画像は、同一シーンの画像であり、マルチモーダル密対応関係画像処理システムはさらに、第1のモダリティの画素から第1の特徴を抽出するように訓練された第1のサブネットワークと、第2のモダリティの画素から第2の特徴を抽出するように訓練された第2のサブネットワークと、第1の特徴と第2の特徴とを組み合わせてマルチモーダル画像のマルチモーダル特徴を生成するように構成されたコンバイナとを含むニューラルネットワークを格納するように構成されたメモリと、マルチモーダル画像をニューラルネットワークに与えてマルチモーダル画像各々の画素ごとにマルチモーダル特徴を生成するように構成され、かつ、マルチモーダル画像のペアのマルチモーダル特徴を比較することにより、上記ペアのマルチモーダル画像の画素間の密対応関係を推定するように構成されたプロセッサと、上記ペアにおけるマルチモーダル画像の画素間の密対応関係を出力するように構成された出力インターフェイスとを備える。
別の実施形態はマルチモーダル密対応関係再構成のための方法を開示し、方法は、この方法を実現する格納された命令と結合されたプロセッサを使用し、命令はプロセッサによって実行されると方法のステップを実行させる。この方法は、マルチモーダル画像の運動シーケンスを受けるステップを含み、各マルチモーダル画像は、第1のモダリティの画像と、対応する、第1のモダリティと異なる第2のモダリティの画像とを含み、モダリティが異なる、対応する画像は、同一シーンの画像であり、この方法はさらに、マルチモーダル画像をニューラルネットワークに与えてマルチモーダル画像各々の画素ごとにマルチモーダル特徴を生成するステップを含み、ニューラルネットワークは、第1のモダリティの画素から第1の特徴を抽出するように訓練された第1のサブネットワークと、第2のモダリティの画素から第2の特徴を抽出するように訓練された第2のサブネットワークと、第1の特徴と第2の特徴とを組み合わせてマルチモーダル画像のマルチモーダル特徴を生成するように構成されたコンバイナとを含み、この方法はさらに、マルチモーダル画像のペアのマルチモーダル特徴を比較することにより、上記ペアのマルチモーダル画像の画素間の密対応関係を推定するステップと、上記ペアにおけるマルチモーダル画像の画素間の密対応関係を出力するステップとを含む。
もう1つの実施形態は、非一時的なコンピュータ読取可能記憶媒体を開示し、この媒体には、方法を実行するためにプロセッサが実行可能なプログラムが実装されている。この方法は、マルチモーダル画像の運動シーケンスを受けるステップを含み、各マルチモーダル画像は、第1のモダリティの画像と、対応する、第1のモダリティと異なる第2のモダリティの画像とを含み、この方法はさらに、マルチモーダル画像をニューラルネットワークに与えてマルチモーダル画像各々の画素ごとにマルチモーダル特徴を生成するステップを含み、ニューラルネットワークは、第1のモダリティの画素から第1の特徴を抽出するように訓練された第1のサブネットワークと、第2のモダリティの画素から第2の特徴を抽出するように訓練された第2のサブネットワークと、第1の特徴と第2の特徴とを組み合わせてマルチモーダル画像のマルチモーダル特徴を生成するように構成されたコンバイナとを含み、この方法はさらに、マルチモーダル画像のペアのマルチモーダル特徴を比較することにより、上記ペアのマルチモーダル画像の画素間の密対応関係を推定するステップと、上記ペアにおけるマルチモーダル画像の画素間の密対応関係を出力するステップとを含む。
いくつかの実施形態に係る、マルチモーダル密対応関係を計算するための画像処理システム100のブロック図を示す。 いくつかの実施形態で使用される人間の歩行運動シーケンスの一例を示す図である。 いくつかの実施形態に係る、画像のシーケンスを生成する、モダリティが異なる2つのセンサの概略図を示す。 いくつかの実施形態に係る、各時間ステップにおいてモダリティセンサの各々が同時におよび/または並行して画像を生成することを表している概略図を示す。 いくつかの実施形態に係る、異なる時間ステップのうちの1つにおけるマルチモーダル特徴の計算を示す図である。 いくつかの実施形態に係る、異なる時間ステップのうちの1つにおけるマルチモーダル特徴の計算を示す図である。 いくつかの実施形態に係る、マルチモーダル入力画像から画素ごとの特徴を計算することおよび画素ごとの各モダリティ特徴の連結の概略図を示す。 いくつかの実施形態に係る、異なる2つの時間ステップにおけるマルチモーダル入力画像間の密対応関係を計算する方法のフローチャートを示す。 いくつかの実施形態に係る、ニューラルネットワークのサブネットワークの共同訓練の概略図を示す。 いくつかの実施形態に係る、推定された対応する2つの画素に対するオプティカルフローベクトルの概略図を示す。 いくつかの実施形態に係る、一例としてのオプティカルフロー画像を示す図である。 いくつかの実施形態で使用される訓練の概略図を示す。 ある実施形態に係る訓練システムのブロック図を示す。 ある実施形態に係るレーダー反射画像の再構成の概略図を示す。
詳細な説明
図1は、いくつかの実施形態に係る、マルチモーダル密対応関係を計算するための画像処理システム100のブロック図を示す。画像処理システム100は、いくつかの実施形態に従い、人間の歩行シーケンスのマルチモーダル画像間の密対応関係を求めるために、マルチモーダル画像の特徴ベクトル、略して特徴を生成するように構成されている。画像処理システム100は、格納されている命令を実行するように構成されたプロセッサ102と、プロセッサが実行可能な命令を格納するメモリ104とを含む。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数のその他の構成であってもよい。メモリ104は、ランダムアクセスメモリ(RAM)、読出専用メモリ(ROM)、フラッシュメモリ、または任意の他の適切なメモリシステムであってもよい。プロセッサ102は、バス106を通して入力および出力デバイスのうちの1つ以上に接続される。
これらの命令は、マルチモーダル画像の画素ごとの特徴を計算する方法を実現する。これらの特徴は、人体の同一部分に属するマルチモーダル画像のペアにおける画素について特徴が同様になるように計算される。言い換えると、何らかのメトリックに従うと、異なるマルチモーダル画像から得られたこれらの特徴間の距離は小さい。たとえば、ある実施形態において、マルチモーダル画像は深度画像およびカラー(RGB)画像である。
画像処理システム100は、ペアを構成するマルチモーダル画像間の特徴計算および対応関係計算を実行するように構成されている。画像処理システム100は、訓練に使用されるグラウンドトゥルースデータ131と、ニューラルネットワーク重み132と、特徴計算133と、対応関係計算134とを格納するように構成された記憶装置108を含み得る。記憶装置108は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはこれらの任意の組み合わせを用いて実現することができる。画像処理システム100の異なる実装形態はモジュール131~134の異なる組み合わせを有し得る。たとえば、ある実施形態は、事前に訓練されたニューラルネットワーク132を使用する。この実施形態において、グラウンドトゥルースデータ131はなくてもよい。
画像処理システム100内のヒューマンマシンインターフェイス(human machine interface)110は、システムをキーボード111およびポインティングデバイス112に接続することができ、ポインティングデバイス112は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含み得る。画像処理システム100は、画像処理システム100をディスプレイ装置150に接続するように構成されたディスプレイインターフェイス140にバス106を介して接続することができ、ディスプレイ装置150は、とりわけ、コンピュータモニタ、カメラ、テレビ、プロジェクタ、またはモバイル装置を含み得る。
画像処理システム100は、マルチモーダル画像を提供する撮像装置130にこのシステムを接続するように構成された撮像インターフェイス128にも接続することができる。ある実施形態において、密対応関係計算のための画像を撮像装置から受ける。撮像装置130は、RGBDカメラ、深度カメラ、サーマルカメラ、RGBカメラ、コンピュータ、スキャナ、モバイル装置、ウェブカム、またはこれらの任意の組み合わせを含み得る。
ネットワークインターフェイスコントローラ(network interface controller)160は、画像処理システム100をバス106を介してネットワーク190に接続するように構成されている。ネットワーク190を介して、特徴および撮像入力ドキュメントならびにニューラルネットワーク重みのうちの1つまたはその組み合わせを含む画像195をダウンロードし、記憶および/またはさらに他の処理のためにコンピュータの記憶システム108に格納することができる。
いくつかの実施形態において、画像処理システム100は、画像比較の結果に基づいて動作することが可能なアプリケーション装置185に画像処理システム100を接続するように構成されたアプリケーションインターフェイス180にバス106を介して接続される。たとえば、装置185は、動いている人々のレーダー画像を再構成するために密対応関係を用いることにより、スループットが高いアクセスセキュリティを提供するシステムである。
図2は、いくつかの実施形態で使用される人間の歩行運動シーケンスの一例を示す。この運動は連続しているが、離散した時間ステップにおいてマルチモーダル画像を取得する。たとえば時間ステップtとtである。いくつかの実施形態において、画像処理システム100は、マルチモーダル画像の運動シーケンスを受けるように構成されており、たとえば、各マルチモーダル画像は、第1のモダリティの画像と、対応する、第1のモダリティと異なる第2のモダリティの画像とを含む。いくつかの実装形態において、運動シーケンスは、連続するデジタルマルチモーダル画像のシーケンスを含む。代替の実装形態において、運動シーケンスは、連続するデジタルマルチモーダル画像のシーケンスにおける時間のしきい値以内の画像であるマルチモーダル画像のシーケンスを含む。しかしながら、この実装形態において、すべての画像が時間的に連続している必要はない。
図3Aは、いくつかの実施形態に係る、画像のシーケンスを生成する、モダリティが異なる2つのセンサの概略図を示す。画像のシーケンスは複数の画像を含み、複数の画像の各々は、ある時間ステップで取り込まれる。明確にするために、各モダリティを個々のセンサとして表す。第1のモダリティは、モダリティ1センサ301を使用することにより、マルチモーダル画像シーケンス311を取得する。第2のモダリティは、モダリティ2センサ302を使用することにより、マルチモーダル画像シーケンス312を取得する。1つのセンサで2つのモダリティを取得してから画像シーケンス311および312に分けることも可能であることが理解される。
図3Bは、いくつかの実施形態に係る、各時間ステップにおいてモダリティセンサの各々が同時におよび/または並行して画像を生成することを表している概略図を示す。このようにすると、モダリティが異なる、対応する画像は、同一シーンの画像である。したがって、各モダリティ画像の内容は、ある時点における、人間である被写体を表しており、モダリティ画像間の時間的相違は最小である。時間ステップtは、センサ(複数のセンサ)による取得が開始される時点を表す。この時間ステップは、他の点では大きな意味はない。複数のモダリティの一例は、カラー(RGB)および深度である。その他のモダリティは、赤外線(熱を含む)、推定された骨格の姿勢、マルチスペクトルであってもよい。
たとえば、いくつかの実施形態において、第1のモダリティは、第1のモダリティの画像が光の飛行時間に基づいて形成されるように、深度モダリティから選択され、第2のモダリティは、第2のモダリティの画像が光の屈折または反射で形成されるように、光学モダリティから選択される。これに加えてまたはこれに代えて、いくつかの実施形態において、光学モダリティの画像は、X線撮影画像、超音波画像、核画像(nuclear image)、コンピュータ断層撮影画像、核磁気共鳴画像、赤外線画像、熱画像、および可視光画像のうちの1つまたはこれらの組み合わせである。
これに加えてまたはこれに代えて、いくつかの実施形態において、画像のモダリティは、画像を取得するセンサのタイプによって定められ、たとえば、第1のモダリティの画像は、第2のモダリティの画像を取得したセンサのタイプと異なるタイプのセンサによって取得される。これに加えてまたはこれに代えて、いくつかの実施形態において、第1のモダリティの画像は深度画像であり、第2のモダリティの画像はカラー画像である。
図4Aは、いくつかの実施形態に係る、時間ステップtにおける複数のモダリティ画像に対するニューラル(サブ)ネットワークを用いた特徴の計算、および、マルチモーダル特徴にするための連結を示す。各種実施形態において、マルチモーダル密対応関係画像処理システム100は、マルチモーダル画像をニューラルネットワークに与えてマルチモーダル画像各々の画素ごとにマルチモーダル特徴を生成するように構成されており、ニューラルネットワークは、第1のモダリティの画素から第1の特徴を抽出するように訓練された第1のサブネットワークと、第2のモダリティの画素から第2の特徴を抽出するように訓練された第2のサブネットワークと、第1の特徴と第2の特徴とを組み合わせてマルチモーダル画像のマルチモーダル特徴を生成するように構成されたコンバイナとを含む。
このように、ニューラルネットワークは、密対応関係の精度を改善するのに適したマルチモーダル特徴を生成するように訓練される。そのために、マルチモーダル密対応関係画像処理システム100は、マルチモーダル画像のペアのマルチモーダル特徴を比較することにより、このペアのマルチモーダル画像の画素間の密対応関係を推定し、このペアにおけるマルチモーダル画像の画素間の密対応関係を出力するように構成されている。
特徴計算133はいくつかの構成要素を含む。時間ステップtにおける第1のモダリティ画像401がニューラルネットワーク411に入力される。ニューラルネットワーク411は、特徴ベクトルを、または簡単に言うと特徴421を、計算する。同じ時間ステップtにおける第2のモダリティ画像402がニューラルネットワーク412に入力される。ニューラルネットワーク412は特徴422を計算する。連結モジュール430は、特徴ベクトルの連結により、特徴421と特徴422とを組み合わせて時間ステップtにおけるマルチモーダル特徴423にする。
図4Bは、いくつかの実施形態に係る、時間ステップti+1における複数のモダリティ画像に対するニューラル(サブ)ネットワークを用いた特徴の計算、および、マルチモーダル特徴にするための連結を示す。特徴計算133はいくつかの構成要素を含む。時間ステップti+1における第1のモダリティ画像403がニューラルネットワーク411に入力される。ニューラルネットワーク411は、特徴ベクトルを、または簡単に言うと特徴441を、計算する。同じ時間ステップti+1における第2のモダリティ画像404がニューラルネットワーク412に入力される。ニューラルネットワーク412は特徴442を生成する。連結モジュール430は、特徴ベクトルの連結により、特徴441と特徴442とを組み合わせて時間ステップti+1におけるマルチモーダル特徴443にする。
第1のモダリティ画像401の、たとえばモダリティ画像403の、異なる画像内容は、異なる特徴421、たとえば特徴441になることが、理解されるはずである。同様に、第2のモダリティ画像402の、たとえばモダリティ画像404の、異なる画像内容は、異なる特徴422、たとえば特徴442になる。
図5は、いくつかの実施形態に係る、マルチモーダル入力画像から画素ごとの特徴を計算することおよび画素ごとの各モダリティ特徴の連結の概略図を示す。図5は、時間ステップtにおける特徴423の計算を示す。同様の手順が時間ステップti+1における特徴443の計算のために実行される。
第1のモダリティの入力画像401は、画素のアレイ510を含む。明確にするために、モダリティ画像401には画素の小さなサブセット510のみが示されている。第1のモダリティの入力画像401は、高さ(height)(H)516×幅(width)(W)517×モダリティチャネル深度(depth)(D)518の解像度515を有する。第2のモダリティの入力画像402は画素のアレイ520を含む。明確にするために、モダリティ画像402には画素の小さなサブセット520のみが示されている。第2のモダリティの入力画像402は、高さ(H)516×幅(W)517×モダリティチャネル深度(D)528の解像度525を有する。
第1のモダリティの特徴421は、画素のアレイ530から求められる。明確にするために、特徴421の画素の小さなサブセット530のみが示されている。特徴421は、高さ(H)516×幅(W)517×特徴チャネル深度(D’)538の解像度535を有する。第2のモダリティの特徴422は、画素のアレイ540から求められる。明確にするために、特徴422の画素の小さなサブセット540のみが示されている。特徴422は、高さ(H)516×幅(W)517×特徴チャネル深度(D’)548の解像度545を有する。
マルチモーダル特徴423は、画素のアレイ550から求められる。明確にするために、マルチモーダル特徴423において1つの画素550のみが示されている。マルチモーダル特徴423は、高さ(H)516×幅(W)517×特徴チャネル深度(D’)558の解像度555を有する。マルチモーダル特徴423は、特徴421と特徴422との連結430によって形成される。したがって、マルチモーダル特徴423のチャネル深度D’558は、チャネル深度538(D’)と548(D’)との和、すなわちD’=D’+D’である。特徴421、422および423のHおよびWは、入力401および402のHおよびWと同一であるので、本開示は、これらを、それぞれチャネル深度D’、D’、D’を有する画素ごとの特徴としてラベル付けする。
図6は、いくつかの実施形態に係る、異なる2つの時間ステップにおけるマルチモーダル入力画像間の密対応関係を計算する方法のフローチャートを示す。時間ステップtで求められたマルチモーダル特徴423と、時間ステップti+1で求められたマルチモーダル特徴443とが対応関係計算134に入力される。ある実施形態において、対応関係計算134は特徴423の画素全体にわたって反復され、これは反復1としてラベル付けされる。反復1の画素ごとに、第2の反復がマルチモーダル特徴443の画素全体にわたって反復され、これは反復2としてラベル付けされる。反復1における検討中の画素の特徴と、反復2における検討中の画素の特徴とを比較することにより、類似性を判断する。反復1における画素の特徴に最も類似する反復2における画素の特徴が、対応関係として割り当られる。この類似性は、特徴間のL2距離として計算される。密対応関係601は、反復1の最後に出力される。
このように、システム100は、入れ子型(nested)反復比較を用いて異なる画素のマルチモーダル特徴を比較するように構成されている。入れ子型反復比較は、ペアにおける第1のマルチモーダル画像のマルチモーダル特徴全体にわたって第1の反復を実行し、第1の反復における現在の画素の第1のマルチモーダル画像の特徴の各組み合わせごとに、このペアにおける第2のマルチモーダル画像のマルチモーダル特徴全体にわたって第2の反復を実行することにより、第1のマルチモーダル画像の現在の画素と、現在の画素のマルチモーダル特徴に最も近いマルチモーダル特徴を有する第2のマルチモーダル画像の画素との対応関係を定める。
これに加えてまたはこれに代えて、いくつかの実施形態は、ペアにおける第1のマルチモーダル画像のすべての画素のマルチモーダル特徴と、このペアにおける第2のマルチモーダル画像のすべての画素のマルチモーダル特徴の置換(permutation)との差を最小にする最適化問題を解き、それにより、この置換が、上記ペアのマルチモーダル画像の対応する画素を定める。たとえば、ある実施形態は、対応関係計算134を、以下の最適化問題として提示する。
Figure 0007334141000001
画素ごとのマルチモーダル特徴423を積み重ねて行列Fにし、画素ごとのマルチモーダル特徴443を積み重ねて行列Fにする。行列Mは置換行列である。行列Wは最適化中に行列Mに対して制約を課すことができる。そうすると、上記最適化の終了後に、密対応関係601が置換行列Mによって決定される。
訓練
図7は、いくつかの実施形態に係る、ニューラルネットワークのサブネットワークの共同訓練の概略図を示す。ニューラルネットワーク780のサブネットワークをともに訓練することにより、マルチモダリティ入力画像のマルチモーダル特徴423および/または443を生成する。ニューラルネットワーク780は、ニューラルネットワーク重み132を形成するいくつかのニューラルサブネットワークを含む。ニューラルネットワーク780の訓練は、マルチモーダル入力画像の異なるペアを使用する。たとえば、マルチモーダル入力画像のペアは、入力モダリティ画像701および入力モダリティ画像702からなる第1のマルチモーダル入力画像と、入力モダリティ画像711および入力モダリティ画像712からなる第2のマルチモーダル入力画像とを含む。
先に述べたように、特徴計算133は、サブネットワーク411および412を連結430とともに用いることにより、各マルチモーダル画像のマルチモーダル特徴423および443を生成する。マルチモーダル特徴423および443は、埋め込み損失720に入力され、別のオプティカルフローニューラルネットワーク730にも入力される。オプティカルフローネットワーク730は、オプティカルフロー予測740を生成する。埋め込み予測をグラウンドトゥルースデータ131と比較することによって埋め込み損失を求める。オプティカルフロー予測をグラウンドトゥルース・オプティカルフロー131と比較することによってオプティカルフロー損失を求める。
損失は関数によって計算される誤差である。ある実施形態において、埋め込み損失720の関数は次のように定められる。
Figure 0007334141000002
上記式(1)の関数D()およびD()はそれぞれマルチモーダル特徴423および443を生成するステップを表す。所定の画素pについて、特徴423からの対応する特徴は、D(p)で示される。所定の画素p’について、特徴443からの対応する特徴は、D(p’)で示される。画素が対応関係にある場合(p⇔p’であり、したがって式(2)のy=1)、式(1)における損失は「+」記号の左側に従って計算される。上記画素が対応関係にない場合(式(2)のy=0)、式(1)における損失は「+」記号の右側に従って計算される。口語体で記述すると、式(1)で特定された損失関数は、対応関係にある画素に対して類似する特徴を、対応関係にない画素に対して類似しない特徴を、実現しようと試みる。
訓練は、マルチモーダル入力画像701および702からP個の画素をランダムに選択し、訓練のためにグラウンドトゥルース・オプティカルフローデータ131を用いて711および712における対応する画素を求める。訓練はさらに、Q個の非対応関係を選択する。対応関係および非対応関係の和は、N=P+Qである。画素の選択は、埋め込み損失720の計算のためのデータ760を提供している。
図8Aは、いくつかの実施形態に係る、推定された対応する2つの画素に対するオプティカルフローベクトルの概略図を示す。ある画像801における画素pは、もう1つの画像802における画素p’と対応関係にある。オプティカルフローベクトルは、画像内で画素pがp’に移動する方向である。オプティカルフローベクトルは、オプティカルフロー画像810に保存される。オプティカルフローベクトルは、画素ごとにオプティカルフロー画像810に保存される。
図8Bは、いくつかの実施形態に係る、一例としてのオプティカルフロー画像を示す。オプティカルフロー画像810は、高さ(H)821×幅(W)822×チャネル深度(D)823の解像度を有する。チャネル深度823は2であり、D=2である。オプティカルフロー画像810の各チャネルは、フローベクトルの1つの成分を保存する。第1のチャネルDf,x831は、水平方向の変化に相当するx成分を保存する。第2のチャネルDf,y832は、鉛直方向の変化に相当するy成分を保存する。
いくつかの実施形態において、オプティカルフロー損失750は、予測されたオプティカルフロー画像の画素のフロー値と、グラウンドトゥルース・オプティカルフロー画像の画素のフロー値との差として計算される。
図9は、いくつかの実施形態で使用される訓練の概略図を示す。訓練910は、マルチモーダル画像ペア700の訓練セット901と、対応する、グラウンドトゥルース・オプティカルフロー画像のセット902とを使用することにより、ニューラルネットワーク780の重み920を生成する。一般的に、人工ニューラルネットワークを訓練することは、訓練セットに鑑みて、「学習」アルゴリズムと呼ばれることもある訓練アルゴリズムを人工ニューラルネットワークに適用することを含む。訓練セットは、入力の1つ以上のセットと、出力の1つ以上のセットとを含み、入力の各セットは出力のセットに対応する。訓練セットにおける出力のセットは、対応する入力のセットが人工ニューラルネットワークに入力されたときに人工ニューラルネットワークが生成するのが望ましい出力のセットを含み、人工ニューラルネットワークはその後フィードフォワード方式で動作する。
ニューラルネットワークを訓練することは、人工ニューラルネットワーク内の接続に対応付けられる重みの値を計算することを含む。そのために、本明細書では特に明記しない限り、訓練は、完全に接続されたネットワークにおける接続、補間、および畳み込みのための重みの値を電子的に計算することを含む。埋め込み損失720およびオプティカルフロー損失750を合計し、確率的勾配降下法に基づく方法を用いてニューラルネットワークの重みを更新する。訓練は、何らかの望ましいパフォーマンスしきい値に到達するまで続く。
図10は、ある実施形態に係る訓練システムのブロック図を示す。訓練システムは、バス36によって読出専用メモリ(ROM)22に接続されたプロセッサ20と、メモリ38とを含む。訓練システムはまた、情報をユーザに対して示すためのディスプレイ26と、複数の入力デバイスとを含み得るものであり、複数の入力デバイスは、キーボード24、マウス32、および、入出力ポート28を介して装着し得るその他のデバイスを含む。その他のポインティングデバイス等のその他の入力デバイスまたは音声センサもしくは画像センサも装着することができる。その他のポインティングデバイスは、タブレット、数値キーパッド、タッチスクリーン、タッチスクリーンオーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイールその他を含む。I/O28は、通信ライン、ディスク記憶装置30、入力デバイス、出力デバイス、またはその他の入出力機器に接続することができる。メモリ38は、表示画面の画素輝度値を含むディスプレイバッファ72を含む。ディスプレイ26は、ディスプレイバッファ72から画素値を周期的に読み出してこれらの値を表示画面に表示する。画素輝度値はグレーレベルまたは色を表し得る。
メモリ38は、データベース90と、トレイナー82と、ニューラルネットワーク780と、プリプロセッサ84とを含む。データベース90は、履歴データ106と、訓練データ88と、テストデータ92と、グラウンドトゥルースデータ94とを含み得る。データベースは、ニューラルネットワーク780を用いる演算モード、訓練モードまたは保存モードからの結果も含み得る。これらの要素は先に詳述した通りである。
メモリ38の中にはオペレーティングシステム74も示されている。オペレーティングシステムの例は、AIX、OS/2、およびDOSを含む。メモリ38の中に示されているその他の要素は、キーボードおよびマウス等の装置が生成した電気信号を解釈する装置ドライバ76を含む。メモリ38の中にはワーキングメモリ領域78も示されている。メモリ38の中に示されている要素のうちのいずれの要素もワーキングメモリ領域78を利用することができる。ニューラルネットワーク780、トレイナー82、オペレーティングシステム74およびその他の機能が、ワーキングメモリ領域を利用することができる。ワーキングメモリ領域78を、複数の要素間および1つの要素の中で分割してもよい。ワーキングメモリ領域78は、プログラムの実行中に、通信、バッファリング、一時的な記憶、またはデータの記憶のために利用することができる。
図11は、ある実施形態に係るレーダー反射画像の再構成の概略図を示す。この実施形態において、レーダー撮像システムは、マルチモーダル画像の運動シーケンスについて求めた密対応関係を用いて、動いている対象物のレーダー反射画像を再構成するように構成されている。この実施形態において、レーダー撮像システムは、レーダーアレイ1110および1つ以上の光センサ1120等の1つ以上の電磁センサを含む。たとえば人間である対象物1130は、レーダーおよび光センサの前で移動および変形し、その間にセンサがスナップショットを取得する。密対応関係システム1140は、光センサが取得したデータを処理し、対象物のトラッキングおよびスナップショット間の変形を生成する。密対応関係システム1140はまた、この変形の、対象物の基本姿勢に対するマッピングを提供する。このマッピングを、各レーダースナップショットで取得したデータとともに使用することにより、対象物のレーダー反射画像1180を再構成する1170。再構成したレーダー反射画像は、システムにより、基本姿勢で示されてもよく、変換され任意の姿勢で示されて、たとえばさらに他の検討用に画像の一部を強調表示1190するために、システムまたはそのユーザにとって好適な任意の修正が施されてもよい。
本発明の上記実施形態は、数々の方法のうちのいずれかで実現することが可能である。たとえば、上記実施形態は、ハードウェア、ソフトウェア、またはこれらを組み合わせたものを用いて実現することができる。ソフトウェアで実現する場合、ソフトウェアコードは、1つのコンピュータに設けられているかまたは複数のコンピュータに分散している任意の適切なプロセッサまたは一群のプロセッサ上で実行することが可能である。このようなプロセッサは、1つ以上のプロセッサが1つの集積回路コンポーネント内にある集積回路として実現することができる。しかしながら、プロセッサを任意の適切なフォーマットの回路を用いて実現してもよい。
また、本発明の実施形態は、その例を先に示した方法として実施することができる。この方法の一部として実行される動作の順序は任意の適切な方法で決定することができる。したがって、実施形態を、動作が例示された順序と異なる順序で実行されるように構成してもよく、これは、いくつかの動作を、例示した実施形態では一連の動作として示されているが、同時に実行することを含み得る。
請求項において、ある請求項の要素を修飾する「第1」、「第2」のような順序を表す用語は、それ自体が、請求項のある要素の、別の要素に対する優位、先行、もしくは順序、または、方法の動作を実行する時間的順序を内包している訳ではなく、単に、請求項の要素を区別するために、(順序を表す用語が使用されていない場合に)特定の名称を有する請求項のある要素を同じ名称を有する別の要素と区別するためのラベルとして使用されているにすぎない。
本発明を好ましい実施形態の例によって説明してきたが、その他さまざまな適合化および修正を本発明の精神および範囲の中で実施可能であることが理解されねばならない。したがって、添付の請求項の目的は、本発明の真の精神および範囲に含まれるこのような変形および修正すべてを網羅することである。

Claims (18)

  1. マルチモーダル密対応関係画像処理システムであって、
    マルチモーダル画像の運動シーケンスを受けるように構成された入力インターフェイスを備え、各前記マルチモーダル画像は、第1のモダリティの画像と、対応する、第1のモダリティと異なる第2のモダリティの画像とを含み、モダリティが異なる、対応する画像は、同一シーンの画像であり、前記マルチモーダル密対応関係画像処理システムはさらに、
    前記第1のモダリティの画素から第1の特徴を抽出するように訓練された第1のサブネットワークと、前記第2のモダリティの画素から第2の特徴を抽出するように訓練された第2のサブネットワークと、前記第1の特徴と前記第2の特徴とを組み合わせて前記マルチモーダル画像のマルチモーダル特徴を生成するように構成されたコンバイナとを含むニューラルネットワークを格納するように構成されたメモリと、
    前記マルチモーダル画像を前記ニューラルネットワークに与えて前記マルチモーダル画像各々の画素ごとに前記マルチモーダル特徴を生成するように構成されたプロセッサとを備え、前記マルチモーダル画像の各々が、前記ニューラルネットワークに別々に与えられてそのマルチモーダル特徴が生成され、それにより、前記ニューラルネットワークは、複数回実行され、前記マルチモーダル画像の各々について一回実行され、前記プロセッサはさらに、前記マルチモーダル画像のペアのマルチモーダル特徴間の距離を計算することによって前記マルチモーダル画像の画素間の密対応関係を推定するように構成され、前記マルチモーダル密対応関係画像処理システムはさらに、
    前記ペアにおける前記マルチモーダル画像の画素間の前記密対応関係を出力するように構成された出力インターフェイスを備える、マルチモーダル密対応関係画像処理システム。
  2. 前記第1のサブネットワークは前記第2のサブネットワークとともに訓練されて、前記マルチモーダル画像の前記マルチモーダル特徴とグラウンドトゥルースデータとの間の誤差を減じる、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  3. 前記誤差は、埋め込み損失とオプティカルフロー損失とを含み、前記埋め込み損失は、異なるマルチモーダル画像からなるペアにおける同一ポイントの対応する画素について前記ニューラルネットワークが生成したマルチモーダル特徴間の距離であり、オプティカルフロー損失は、前記異なるマルチモーダル画像からなるペアにおける前記同一ポイントの対応する画素について前記ニューラルネットワークが生成した前記マルチモーダル特徴から再構成されたオプティカルフローの誤差である、請求項2に記載のマルチモーダル密対応関係画像処理システム。
  4. 前記ニューラルネットワークは、埋め込み損失サブネットワークとともに訓練され、かつ、オプティカルフローサブネットワークとともに訓練され、前記埋め込み損失サブネットワークは、異なるマルチモーダル画像からなる訓練ペアにおける同一ポイントの対応する画素について前記ニューラルネットワークが生成したマルチモーダル特徴間の距離を低減するように訓練され、前記オプティカルフローサブネットワークは、前記異なるマルチモーダル画像からなる訓練ペアにおける画素の前記マルチモーダル特徴から前記オプティカルフローサブネットワークが再構成したオプティカルフローの誤差を低減するように訓練される、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  5. 前記プロセッサは、前記マルチモーダル画像のペアにおける異なる画素の前記マルチモーダル特徴間の計算された距離を比較することによって前記密対応関係を推定し、マルチモーダル特徴間の距離が最小である画素間の対応関係を発見するように構成されている、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  6. 前記プロセッサは、入れ子型反復を用いて異なる画素のマルチモーダル特徴を比較するように構成されており、前記入れ子型反復は、前記ペアにおける第1のマルチモーダル画像のマルチモーダル特徴全体にわたって第1の反復を実行し、前記第1の反復における前記第1のマルチモーダル画像の現在の画素ごとに、前記ペアにおける第2のマルチモーダル画像のマルチモーダル特徴全体にわたって第2の反復を実行することにより、前記第1のマルチモーダル画像の前記現在の画素と、前記現在の画素のマルチモーダル特徴に最も近いマルチモーダル特徴を有する前記第2のマルチモーダル画像の画素との対応関係を定める、請求項5に記載のマルチモーダル密対応関係画像処理システム。
  7. 前記プロセッサは、前記ペアにおける第1のマルチモーダル画像のすべての画素のマルチモーダル特徴と、前記ペアにおける第2のマルチモーダル画像のすべての画素のマルチモーダル特徴の置換との差を最小にする最適化問題を解き、それにより、前記置換が、前記ペアのマルチモーダル画像の対応する画素を定める、請求項5に記載のマルチモーダル密対応関係画像処理システム。
  8. 前記第1のモダリティは、前記第1のモダリティの画像が光の飛行時間に基づいて形成されるように、深度モダリティから選択され、前記第2のモダリティは、前記第2のモダリティの画像が光の屈折または反射で形成されるように、光学モダリティから選択される、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  9. 前記光学モダリティの画像は、X線撮影画像、超音波画像、核画像、コンピュータ断層撮影画像、核磁気共鳴画像、赤外線画像、熱画像、および可視光画像のうちの1つまたはこれらの組み合わせである、請求項8に記載のマルチモーダル密対応関係画像処理システム。
  10. 画像のモダリティは、画像を取得するセンサのタイプによって定められ、前記第1のモダリティの画像は、前記第2のモダリティの画像を取得したセンサのタイプと異なるタイプのセンサによって取得される、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  11. 前記第1のモダリティの画像は深度画像であり、前記第2のモダリティの画像はカラー画像である、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  12. 前記運動シーケンスは、連続するデジタルマルチモーダル画像のシーケンスを含む、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  13. 前記運動シーケンスは、連続するデジタルマルチモーダル画像のシーケンスにおける時間のしきい値以内の画像である前記マルチモーダル画像のシーケンスを含む、請求項1に記載のマルチモーダル密対応関係画像処理システム。
  14. 請求項1に記載のマルチモーダル密対応関係画像処理システムが求めた前記密対応関係を用いて、前記マルチモーダル画像の前記運動シーケンスから、動いている対象物のレーダー反射画像を再構成するように構成された、レーダー撮像システム。
  15. マルチモーダル密対応関係再構成のための方法であって、前記方法は、前記方法を実現する格納された命令と結合されたプロセッサを使用し、前記命令は前記プロセッサによって実行されると前記方法のステップを実行させ、前記方法は、
    マルチモーダル画像の運動シーケンスを受けるステップを含み、各前記マルチモーダル画像は、第1のモダリティの画像と、対応する、第1のモダリティと異なる第2のモダリティの画像とを含み、モダリティが異なる、対応する画像は、同一シーンの画像であり、前記方法はさらに、
    前記マルチモーダル画像をニューラルネットワークに与えて前記マルチモーダル画像各々の画素ごとにマルチモーダル特徴を生成するステップを含み、前記ニューラルネットワークは、前記第1のモダリティの画素から第1の特徴を抽出するように訓練された第1のサブネットワークと、前記第2のモダリティの画素から第2の特徴を抽出するように訓練された第2のサブネットワークと、前記第1の特徴と前記第2の特徴とを組み合わせて前記マルチモーダル画像のマルチモーダル特徴を生成するように構成されたコンバイナとを含み、前記マルチモーダル画像の各々が、前記ニューラルネットワークに別々に与えられてそのマルチモーダル特徴が生成され、それにより、前記ニューラルネットワークは、複数回実行され、前記マルチモーダル画像の各々について一回実行され、前記方法はさらに、
    前記マルチモーダル画像のペアの前記マルチモーダル特徴を比較することにより、前記ペアの前記マルチモーダル画像の画素間の密対応関係を推定するステップと、
    前記ペアにおける前記マルチモーダル画像の画素間の前記密対応関係を出力するステップとを含む、方法。
  16. 前記第1のサブネットワークは前記第2のサブネットワークとともに訓練されて、前記マルチモーダル画像の前記マルチモーダル特徴とグラウンドトゥルースデータとの間の誤差を減じ、前記誤差は、埋め込み損失とオプティカルフロー損失とを含み、前記埋め込み損失は、異なるマルチモーダル画像からなるペアにおける同一ポイントの対応する画素について前記ニューラルネットワークが生成したマルチモーダル特徴間の距離であり、オプティカルフロー損失は、前記異なるマルチモーダル画像からなるペアにおける前記同一ポイントの対応する画素について前記ニューラルネットワークが生成した前記マルチモーダル特徴から再構成されたオプティカルフローの誤差である、請求項15に記載の方法。
  17. 前記第1のモダリティは、前記第1のモダリティの画像が光の飛行時間に基づいて形成されるように、深度モダリティから選択され、前記第2のモダリティは、前記第2のモダリティの画像が光の屈折または反射で形成されるように、光学モダリティから選択される、請求項15に記載の方法。
  18. 方法を実行するためにプロセッサが実行可能なプログラムであって、前記方法は、
    マルチモーダル画像の運動シーケンスを受けるステップを含み、各前記マルチモーダル画像は、第1のモダリティの画像と、対応する、第1のモダリティと異なる第2のモダリティの画像とを含み、前記方法はさらに、
    前記マルチモーダル画像をニューラルネットワークに与えて前記マルチモーダル画像各々の画素ごとにマルチモーダル特徴を生成するステップを含み、前記ニューラルネットワークは、前記第1のモダリティの画素から第1の特徴を抽出するように訓練された第1のサブネットワークと、前記第2のモダリティの画素から第2の特徴を抽出するように訓練された第2のサブネットワークと、前記第1の特徴と前記第2の特徴とを組み合わせて前記マルチモーダル画像のマルチモーダル特徴を生成するように構成されたコンバイナとを含み、前記マルチモーダル画像の各々が、前記ニューラルネットワークに別々に与えられてそのマルチモーダル特徴が生成され、それにより、前記ニューラルネットワークは、複数回実行され、前記マルチモーダル画像の各々について一回実行され、前記方法はさらに、
    前記マルチモーダル画像のペアの前記マルチモーダル特徴を比較することにより、前記ペアの前記マルチモーダル画像の画素間の密対応関係を推定するステップと、
    前記ペアにおける前記マルチモーダル画像の画素間の前記密対応関係を出力するステップとを含む、プログラム
JP2020161111A 2019-10-02 2020-09-25 マルチモーダル密対応関係画像処理システム、レーダー撮像システム、方法およびブログラム Active JP7334141B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/591,381 US11210560B2 (en) 2019-10-02 2019-10-02 Multi-modal dense correspondence imaging system
US16/591,381 2019-10-02

Publications (3)

Publication Number Publication Date
JP2021060989A JP2021060989A (ja) 2021-04-15
JP2021060989A5 JP2021060989A5 (ja) 2023-03-15
JP7334141B2 true JP7334141B2 (ja) 2023-08-28

Family

ID=75273646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020161111A Active JP7334141B2 (ja) 2019-10-02 2020-09-25 マルチモーダル密対応関係画像処理システム、レーダー撮像システム、方法およびブログラム

Country Status (2)

Country Link
US (1) US11210560B2 (ja)
JP (1) JP7334141B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11405547B2 (en) * 2019-02-01 2022-08-02 Electronics And Telecommunications Research Institute Method and apparatus for generating all-in-focus image using multi-focus image
US11593973B2 (en) * 2020-10-29 2023-02-28 Wipro Limited Method and system for augmented reality (AR) content creation
CN113686528B (zh) * 2021-07-28 2022-10-25 华南理工大学 一种结构-tld系统的子系统动力特性检测方法
US12079995B2 (en) * 2021-09-28 2024-09-03 Robert Bosch Gmbh System and method for a hybrid unsupervised semantic segmentation
CN114548367B (zh) * 2022-01-17 2024-02-20 中国人民解放军国防科技大学 基于对抗网络的多模态数据的重构方法及装置
CN115147679B (zh) * 2022-06-30 2023-11-14 北京百度网讯科技有限公司 多模态图像识别方法和装置、模型训练方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140313362A1 (en) * 2012-02-22 2014-10-23 Sony Mobile Communications Ab Method and device relating to image content
EP2910187B1 (en) * 2014-02-24 2018-04-11 Université de Strasbourg (Etablissement Public National à Caractère Scientifique, Culturel et Professionnel) Automatic multimodal real-time tracking of a moving marker for image plane alignment inside a MRI scanner
KR102294734B1 (ko) * 2014-09-30 2021-08-30 삼성전자주식회사 영상 정합 장치, 영상 정합 방법 및 영상 정합 장치가 마련된 초음파 진단 장치
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
CN106558088B (zh) * 2015-09-24 2020-04-24 腾讯科技(深圳)有限公司 生成gif文件的方法及装置
US10339421B2 (en) * 2017-03-30 2019-07-02 Toyota Motor Engineering & Manufacturing North America, Inc. RGB-D scene labeling with multimodal recurrent neural networks
US10846818B2 (en) * 2018-11-15 2020-11-24 Toyota Research Institute, Inc. Systems and methods for registering 3D data with 2D image data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yi-Ling Qiao et al.,SF-Net: Learning Scene Flow from RGB-D Images with CNNs,BMVC2018,2018年,http://bmvc2018.org/contents/papers/1095.pdf

Also Published As

Publication number Publication date
JP2021060989A (ja) 2021-04-15
US20210103770A1 (en) 2021-04-08
US11210560B2 (en) 2021-12-28

Similar Documents

Publication Publication Date Title
JP7334141B2 (ja) マルチモーダル密対応関係画像処理システム、レーダー撮像システム、方法およびブログラム
US11644898B2 (en) Eye tracking method and system
KR102574141B1 (ko) 이미지 디스플레이 방법 및 디바이스
JP7177062B2 (ja) 統計モデルを用いた画像データからの深度予測
US11494915B2 (en) Image processing system, image processing method, and program
JP7200247B2 (ja) 物体検出器及び物体検出方法
EP3284011B1 (en) Two-dimensional infrared depth sensing
US9626766B2 (en) Depth sensing using an RGB camera
Fanello et al. Learning to be a depth camera for close-range human capture and interaction
WO2016123913A1 (zh) 数据处理的方法和装置
JP6685827B2 (ja) 画像処理装置、画像処理方法及びプログラム
US9317127B2 (en) Method and apparatus for motion recognition
JP6862584B2 (ja) 画像処理システム及び画像処理方法
Kong et al. Intrinsic depth: Improving depth transfer with intrinsic images
JP2011513868A (ja) 画像処理方法及び画像処理装置
WO2019181043A1 (en) Radar imaging system and method for reconstructing radar reflectivity image of scene
CN114556268A (zh) 一种姿势识别方法及装置、存储介质
WO2021098576A1 (zh) 手部姿态估计方法、装置及计算机存储介质
CN114641799A (zh) 对象检测设备、方法和系统
JP2018120283A (ja) 情報処理装置、情報処理方法及びプログラム
JP2019096222A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
KR20120026956A (ko) 동작 인식 장치 및 그 방법
WO2022143390A1 (en) System and method for 3d try-on based on human pose and body shape estimation
WO2007112295A1 (en) Method and apparatus for predicting the accuracy of a virtual scene based on incomplete information in video
JP6555940B2 (ja) 被写体追跡装置、撮像装置、及び被写体追跡装置の制御方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230307

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230307

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230816

R150 Certificate of patent or registration of utility model

Ref document number: 7334141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150