WO2021130951A1

WO2021130951A1 - 物体追跡装置、物体追跡方法及び記録媒体

Info

Publication number: WO2021130951A1
Application number: PCT/JP2019/051088
Authority: WO
Inventors: 福井　宏
Original assignee: 日本電気株式会社
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-07-01
Also published as: JP7310927B2; US20230031931A1; JPWO2021130951A1

Abstract

物体追跡装置（１）は、第１時刻（ｔ－τ）に撮影された第１画像（ＩＭｔ－τ）中の物体（Ｏｔ－τ）の位置に関する第１位置情報（ＰＩｔ－τ）及び第２時刻（ｔ）に撮影された第２画像（ＩＭｔ）中の物体（Ｏｔ）の位置に関する第２位置情報（ＰＩｔ）に基づいて、第１及び第２特徴ベクトル（ＣＶｔ－τ、ＣＶｔ）を生成する第１生成手段（２２１－２２４）と、第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、第１画像中の物体と第２画像中の物体との対応関係を示す対応情報（ＡＭ）として生成する第２生成手段（２２５）とを備える。

Description

物体追跡装置、物体追跡方法及び記録媒体

　本発明は、時系列データに相当する複数の画像中に映り込んでいる物体を追跡する物体追跡装置、物体追跡方法及び記録媒体の技術分野に関する。

　カメラ等で撮影された時系列データとしての複数の画像を用いて、画像中に映り込んでいる物体を追跡する物体追跡装置が知られている。物体追跡装置の一例が、特許文献１から特許文献３に記載されている。更に、物体を追跡するためのアルゴリズムの一例が、非特許文献１から非特許文献２に記載されている。その他、本願発明に関連する先行技術文献として、非特許文献３があげられる。

特開２００９－２６５７３２号公報特開２０１２－１８１７１０号公報特開２０１６－７１８３０号公報米国特許第９，８５８，４９６号

Ｃ．Ｆｅｉｃｈｔｅｎｈｏｆｅｒ　ｅｔ　ａｌ．、"Ｄｅｔｅｃｔ　ｔｏ　Ｔｒａｃｋ　ａｎｄ　Ｔｒａｃｋ　ｔｏ　Ｄｅｔｅｃｔ"、ＩＣＣＶ２０１７、２０１７年１０月Ｙｉｈｏｎｇ　Ｘｕ　ｅｔ　ａｌ．、"ＤｅｅｐＭＯＴ：Ａ　Ｄｉｆｆｅｒｅｎｔｉａｂｌｅ　Ｆｒａｍｅｗｏｒｋ　ｆｏｒ　Ｔｒａｉｎｉｎｇ　Ｍｕｌｔｉｐｌｅ　Ｏｂｊｅｃｔ　Ｔｒａｃｋｅｒｓ"、ａｒＸｉｖ　１９０６．０６６１８、２０１９年１月Ｘｉｎｇｙｉ　Ｚｈｏｕ　ｅｔ　ａｌ．、"Ｏｂｊｅｃｔ　ａｓ　Ｐｏｉｎｔｓ"、ａｒＸｉｖ　１９０４．０７８５０、２０１９年４月Ｓｈａｏｑｉｎｇ　Ｒｅｎ　ｅｔ　ａｌ．、"Ｆａｓｔｅｒ　Ｒ－ＣＮＮ：　Ｔｏｗａｒｄｓ　Ｒｅａｌ－Ｔｉｍｅ　Ｏｂｊｅｃｔ　Ｄｅｔｅｃｔｉｎ　ｗｉｔｈ　Ｒｅｇｉｏｎ　Ｐｒｏｐｏｓａｌ　Ｎｅｗｏｒｋｓ"ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｐａｔｔｅｎ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ、ｐｐ１１３７－１１４９、２０１６年６月６日Ｗｅｉ　Ｌｉｕ　ｅｔ　ａｌ．、"ＳＳＤ：Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ"、Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ、ｐｐ２１－３７、２０１６年９月

　従来の物体追跡装置は、画像に映り込んでいる物体を検出する物体検出動作と、時刻ｔ－τ（尚、τは、基準周期を示す）の画像ＩＭ_ｔ－τに映り込んでいる物体Ｏ_ｔ－τと時刻ｔの画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔとを照合する物体照合動作とを、互いに独立した別個の動作として行う。このため、従来の物体追跡装置は物体検出動作が行われた後に物体照合動作を行うために、前処理等を行う必要がある。その結果、従来の物体追跡装置では、物体を追跡するための処理コストが相対的に高くなってしまう可能性がある。

　本発明は、上述した技術的問題を解決可能な物体追跡装置、物体追跡方法及び記録媒体を提供することを課題とする。一例として、本発明は、相対的に低い処理コストで物体を追跡可能な物体追跡装置、物体追跡方法及び記録媒体を提供することを課題とする。

　物体追跡装置の一態様は、第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成する第１生成手段と、前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成する第２生成手段とを備える。

　物体追跡方法の一態様は、第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成することと、前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成することとを含む。

　記録媒体の一態様は、コンピュータに物体追跡方法を実行させるコンピュータプログラムが記録された、一時的でない記録媒体であって、前記物体追跡方法は、第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成することと、前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成することとを含む。

　上述した物体追跡装置、物体追跡方法及び記録媒体のそれぞれの一の態様によれば、第１及び第２特徴ベクトルを用いた演算処理により対応情報を生成することができるため、後に詳述するように、相対的に低い処理コストで物体を追跡することができる。

図１は、本実施形態の物体追跡装置の構成を示すブロック図である。図２は、物体照合動作及びリファイン動作を行うために物体追跡装置内に実現される論理的な機能ブロックの構成を示すブロック図である。図３は、物体検出動作によって検出された物体位置情報を概念的に示す平面図である。図４は、物体照合動作の流れを示すフローチャートである。図５は、特徴ベクトルと類似性行列との関係を概念的に示す平面図である。図６は、リファイン動作の流れを示すフローチャートである。図７は、第１変形例の物体追跡装置の構成を示すブロック図である。図８は、学習ＤＢのデータ構造を示すデータ構造図である。図９は、第２変形例の物体追跡装置の構成を示すブロック図である。図１０は、ソフトマックス関数を用いて類似性行列を正規化する様子を示す平面図である。

　以下、図面を参照しながら、物体追跡装置、物体追跡方法及び記録媒体の実施形態について説明する。以下では、物体追跡装置、物体追跡方法及び記録媒体の実施形態が適用された物体追跡装置１について説明する。物体追跡装置１は、時系列データに相当する複数の画像ＩＭが入力された場合に各画像ＩＭに映り込んでいる少なくとも一つの物体Ｏを追跡するための物体追跡動作を行う。物体追跡動作は、例えば、画像ＩＭに映り込んでいる物体Ｏを検出する物体検出動作を含む。物体追跡動作は、例えば、時刻ｔ－τ（尚、τは、基準周期を示す）に取得された（例えば、撮影された）画像ＩＭ_ｔ－τに映り込んでいる少なくとも一つの物体Ｏ_ｔ－τと、時刻ｔに取得された画像ＩＭ_ｔに映り込んでいる少なくとも一つの物体Ｏ_ｔとを照合することで、画像ＩＭ_ｔ－τに映り込んでいた物体Ｏ_ｔ－τの画像ＩＭ_ｔ内での位置を追跡する物体照合動作を含む。物体追跡動作は、例えば、物体照合動作の結果を用いて、画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔの検出結果（つまり、物体検出動作の結果）を補正するリファイン動作を含む。

　尚、以下の説明において、「Ｘ及び／又はＹ」という表現は、「Ｘ及びＹ」という表現及び「Ｘ又はＹ」という表現の双方を包含する表現として用いられている。

　（１）物体追跡装置１の構成
　初めに、図１及び図２を参照しながら、本実施形態の物体追跡装置１の構成について説明する。図１は、本実施形態の物体追跡装置１の構成を示すブロック図である。図２は、物体照合動作及びリファイン動作を行うために物体追跡装置１内に実現される論理的な機能ブロックの構成を示すブロック図である。

　図１に示すように、物体追跡装置１は、演算装置２と、記憶装置３とを備えている。更に、物体追跡装置１は、入力装置４と、出力装置５とを備えていてもよい。但し、物体追跡装置１は、入力装置４及び出力装置５の少なくとも一方を備えていなくてもよい。演算装置２と、記憶装置３と、入力装置４と、出力装置５は、データバス６を介して接続されている。

　演算装置２は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｅｃｓｓｉｎｇ　Ｕｎｉｔ）及びＧＰＵ（Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）の少なくとも一方を含む。演算装置２は、コンピュータプログラムを読み込む。例えば、演算装置２は、記憶装置３が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置２は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。演算装置２は、不図示の通信装置を介して、物体追跡装置１の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置２は、読み込んだコンピュータプログラムを実行する。その結果、演算装置２内には、物体追跡装置１が行うべき動作（具体的には、上述した物体追跡動作）を実行するための論理的な機能ブロックが実現される。つまり、演算装置２は、物体追跡動作を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

　図１には、物体追跡動作を実行するために演算装置２内に実現される論理的な機能ブロックの一例が示されている。図１に示すように、演算装置２内には、論理的な機能ブロックとして、物体検出部２１と、物体照合部２２と、リファイン部２３とが実現される。物体検出部２１は、物体検出動作を行う。物体照合部２２は、物体照合動作を行う。物体照合動作を行うために、物体照合部２２は、図２に示すように、特徴マップ変換部２２１と、特徴ベクトル変換部２２２と、特徴マップ変換部２２３と、特徴ベクトル変換部２２４と、行列演算部２２５とを備えている。リファイン部２３は、リファイン動作を行う。リファイン動作を行うために、リファイン部２３は、図２に示すように、行列演算部２３１と、特徴ベクトル変換部２３２と、特徴マップ変換部２３３と、残差処理部２３４と、特徴マップ変換部２３５と、特徴マップ変換部２３６と、特徴ベクトル変換部２３７とを備えている。尚、物体検出動作、物体照合動作及びリファイン動作については、後に詳述する。

　記憶装置３は、所望のデータを記憶可能である。例えば、記憶装置３は、演算装置２が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置３は、演算装置２がコンピュータプログラムを実行している際に演算装置２が一時的に使用するデータを一時的に記憶してもよい。記憶装置３は、物体追跡装置１が長期的に保存するデータを記憶してもよい。本実施形態では特に、記憶装置３には、不図示のカメラが撮影した時系列データとしての複数の画像ＩＭを格納するための画像ＤＢ（ＤａｔａＢａｓｅ）３１が記憶されていてもよい。更に、記憶装置３には、物体検出動作の結果を示す物体検出情報（つまり、画像ＩＭに映り込んでいる物体Ｏの検出結果に関する情報）を格納するための物体検出ＤＢ３２が記憶されていてもよい。更に、記憶装置３には、物体照合動作の結果を示す物体照合情報（つまり、画像ＩＭ_ｔ－τに映り込んでいる物体Ｏ_ｔ－τと画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔとの照合結果に関する情報であり、典型的には、物体Ｏ_ｔ－τと物体Ｏ_ｔとの対応付けを示す情報）を格納するための物体照合ＤＢ３３が記憶されていてもよい。尚、記憶装置３は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置３は、一時的でない記録媒体を含んでいてもよい。

　入力装置４は、物体追跡装置１の外部からの物体追跡装置１に対する情報の入力を受け付ける装置である。本実施形態では、入力装置４には、不図示のカメラが撮影した時系列データとしての複数の画像ＩＭが入力される。入力装置４に入力された複数の画像ＩＭは、記憶装置３が記憶している画像ＤＢ３１に格納される。

　出力装置５は、物体追跡装置１の外部に対して情報を出力する装置である。例えば、出力装置５は、物体追跡動作の結果に関する情報を出力してもよい。例えば、出力装置５は、物体追跡動作の結果に関する情報を、画像として出力してもよい。この場合、出力装置５は、画像を表示する表示装置を含んでいてもよい。例えば、出力装置５は、物体追跡動作の結果に関する情報を、データとして出力してもよい。この場合、出力装置５は、データを出力するデータ出力装置を含んでいてもよい。

　（２）物体追跡装置１が行う物体追跡動作
　続いて、物体追跡装置１が行う物体追跡動作について説明する。上述したように、物体追跡動作は、物体検出動作と、物体照合動作と、リファイン動作とを行う。従って、以下では、物体追跡動作は、物体検出動作と、物体照合動作と、リファイン動作とについて順に説明する。

　（２－１）物体検出動作
　初めに、物体検出部２１が行う物体検出動作について説明する。物体検出部２１は、画像ＤＢ３１に格納されている画像ＩＭを読み出し、読み出した画像ＩＭに対して物体検出動作を行う。物体検出部２１は、画像に映り込んだ物体を検出するための既存の方法を用いて、画像ＩＭに映り込んだ物体Ｏを検出してもよい。但し、物体検出部２１は、画像ＩＭに映り込んだ物体Ｏを検出することで画像ＩＭ内での物体Ｏの位置に関する情報（以降、“物体位置情報ＰＩ”と称する）を取得可能な方法を用いて、物体検出動作を行うことが好ましい。物体検出部２１が取得した物体位置情報ＰＩは、物体検出部２１による物体検出動作の結果を示す物体検出情報として、物体検出ＤＢ３２に格納される。

　本実施形態では、上述した非特許文献３に記載された方法（いわゆる、ＣｅｎｔｅｒＮｅｔ）を用いて物体検出部２１が物体Ｏを検出する例について説明する。この場合、物体検出部２１は、物体位置情報ＰＩとして、画像ＩＭ内での物体Ｏの中心位置（Ｋｅｙ　Ｐｏｉｎｔ）ＫＰを示すヒートマップ（いわゆるスコアマップ）を生成する。より具体的には、物体検出部２１は、画像ＩＭ内での物体Ｏの中心位置ＫＰを示すヒートマップを、物体Ｏのクラス毎に生成する。このため、画像ＩＭ内での物体Ｏの中心位置ＫＰを示す情報は、画像ＩＭの縦方向の画素数をＨとし、画像ＩＭの横方向の画素数をＷとし、クラス数をＫとした場合には、Ｈ×Ｗ×Ｋのサイズを有するマップ情報となる。尚、中心位置ＫＰを示すヒートマップは、位置に関するマップであるがゆえに、位置マップと称されてもよい。

　非特許文献３に記載された方法を用いて物体検出部２１が物体Ｏを検出する場合には、物体検出部２１は、物体位置情報ＰＩとして、物体Ｏの検出枠（Ｂｏｕｎｄｉｎｇ　Ｂｏｘ）ＢＢのサイズをスコアマップとして示す情報を生成してもよい。物体Ｏの検出枠ＢＢのサイズを示す情報は、実質的には、物体Ｏのサイズを示す情報であるとみなしてもよい。物体Ｏの検出枠ＢＢのサイズを示す情報は、例えば、Ｈ×Ｗ×２のサイズを有するマップ情報となる。尚、検出枠ＢＢのサイズを示すマップ情報もまた、位置に関するマップであるがゆえに、位置マップと称されてもよい。

　非特許文献３に記載された方法を用いて物体検出部２１が物体Ｏを検出する場合には、物体検出部２１は、物体位置情報ＰＩとして、物体Ｏの検出枠ＢＢの補正量（Ｌｏｃａｌ　Ｏｆｆｓｅｔ）をスコアマップとして示す情報を生成してもよい。物体Ｏの検出枠ＢＢの補正量を示す情報は、Ｈ×Ｗ×２のサイズを有するマップ情報となる。尚、検出枠ＢＢの補正量を示すマップ情報もまた、位置に関するマップであるがゆえに、位置マップと称されてもよい。

　図３は、物体検出動作によって検出された物体位置情報ＰＩを概念的に示す平面図である。図３は、画像ＩＭに四つの物体Ｏ（具体的には、物体Ｏ＃１、物体Ｏ＃２、物体Ｏ＃３及び物体Ｏ＃４）が映り込んでいる例を示している。この場合、物体検出部２１は、物体位置情報ＰＩとして、四つの物体Ｏの夫々の中心位置ＫＰを示す情報、四つの物体の夫々の検出枠ＢＢのサイズを示す情報、及び、四つの物体Ｏの夫々の検出枠ＢＢの補正量を示す情報を生成する。

　物体検出部２１は、画像ＩＭが入力された場合に物体位置情報ＰＩを出力する演算モデルを用いて、物体検出動作を行ってもよい。このような演算モデルの一例として、ニューラルネットワーク（例えば、ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた演算モデルがあげられる。この場合、演算モデルは、後述するように、学習用データを用いて学習されてもよい。つまり、演算モデルのパラメータは、適切な物体位置情報ＰＩを出力するように最適化されていてもよい。

　但し、物体検出部２１は、非特許文献３に記載された方法（いわゆる、ＣｅｎｔｅｒＮｅｔ）とは異なる他の方法を用いて、物体検出動作を行ってもよい。他の方法の一例として、非特許文献４に記載されたＦａｓｔｅｒ　Ｒ－ＣＮＮと称される方法及び非特許文献５に記載されたＳＳＤと称される方法があげられる。

　（２－２）物体照合動作
　続いて、物体照合部２２が行う物体照合動作について説明する。物体照合部２２は、物体検出ＤＢ３２に格納されている物体位置情報ＰＩを読み出し、読み出した物体位置情報ＰＩを用いて物体照合動作を行う。以下、時刻ｔ－τに撮影された画像ＩＭ_ｔ－τに映り込んでいる物体Ｏ_ｔ－τと、時刻ｔに撮影された画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔとを照合する物体照合動作について、図４を参照しながら説明する。図４は、物体照合動作の流れを示すフローチャートである。

　図４に示すように、物体照合部２２は、物体位置情報ＰＩから特徴ベクトルＣＶを生成する（ステップＳ２２１からステップＳ２２６）。本実施形態では、物体照合部２２は、物体位置情報ＰＩから特徴ベクトルＣＶを生成するために、物体位置情報ＰＩから特徴マップＣＭを生成し、その後、特徴マップＣＭから特徴ベクトルＣＶを生成する。特徴マップＣＭは、物体位置情報ＰＩの特徴量を、任意のチャンネル毎に示す特徴マップである。つまり、チャンネル数をＣとすると、物体照合部２２は、Ｈ×Ｗ×（Ｋ＋２＋２）＝Ｈ×Ｗ×（Ｋ＋４）（Ｋは、上述したように物体Ｏのクラス数であり、典型的には、物体検出ＤＢ３２又は物体照合ＤＢ３３に登録されているクラス数）のサイズを有するマップ情報である物体位置情報ＰＩから、Ｈ×Ｗ×Ｃのサイズを有する特徴マップＣＭを生成し、その後、Ｈ×Ｗ×Ｃのサイズを有する特徴マップＣＭから、ＨＷ×Ｃのサイズを有する特徴ベクトルＣＶを生成する。但し、物体照合部２２は、特徴マップＣＭを生成することなく、物体位置情報ＰＩから特徴ベクトルＣＶを直接生成してもよい。

　具体的には、「第１生成手段」の一具体例である特徴マップ変換部２２１は、物体検出ＤＢ３２から、時刻ｔ－τに撮影された画像ＩＭ_ｔ－τに映り込んでいる物体Ｏ_ｔ－τに関する物体位置情報ＰＩ_ｔ－τを取得する（つまり、読み出す）（ステップＳ２２１）。尚、物体位置情報ＰＩ_ｔ－τは、第１位置情報の一具体例である。例えば、図３に示すように、画像ＩＭ_ｔ－τに四つの物体Ｏ_ｔ－τが映り込んでいる場合には、特徴マップ変換部２２１は、物体検出ＤＢ３２から、四つの物体Ｏ_ｔ－τに関する物体位置情報ＰＩ_ｔ－τを取得する。その後、特徴マップ変換部２２１は、ステップＳ２２１で取得した物体位置情報ＰＩ_ｔ－τから、特徴マップＣＭ_ｔ－τを生成する（ステップＳ２２２）。特徴マップ変換部２２１は、Ｈ×Ｗ×（Ｋ＋４）のサイズを有するマップ情報である物体位置情報ＰＩ_ｔ－τから、Ｈ×Ｗ×Ｃのサイズを有する特徴マップＣＭ_ｔ－τを生成する。

　例えば、特徴マップ変換部２２１は、物体位置情報ＰＩが入力された場合に特徴マップＣＭを出力する演算モデルを用いて、特徴マップＣＭ_ｔ－τを生成してもよい。このような演算モデルの一例として、ニューラルネットワーク（例えば、ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた演算モデルがあげられる。この場合、演算モデルは、後述するように、学習用データを用いて学習されてもよい。つまり、演算モデルのパラメータは、適切な特徴マップＣＭ（特に、後述する類似性行列ＡＭを生成するのに適した特徴マップＣＭ）を出力するように最適化されていてもよい。

　その後、「第１生成手段」の一具体例である特徴ベクトル変換部２２２は、ステップＳ２２２で生成された特徴マップＣＭ_ｔ－τから、特徴ベクトルＣＶ_ｔ－τを生成する（ステップＳ２２３）。特徴ベクトル変換部２２２は、Ｈ×Ｗ×Ｃのサイズを有する特徴マップＣＭ_ｔ－τから、ＨＷ×Ｃのサイズを有する特徴ベクトルＣＶ_ｔ－τを生成する。尚、特徴ベクトルＣＶ_ｔ－τは、第１特徴ベクトルの一具体例である。

　ステップＳ２２１からステップ２２３までの処理と並行して又は相前後して、「第１生成手段」の一具体例である特徴マップ変換部２２３は、物体検出ＤＢ３２から、時刻ｔに撮影された画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔに関する物体位置情報ＰＩ_ｔを取得する（ステップＳ２２４）。尚、物体位置情報ＰＩ_ｔは、第２位置情報の一具体例である。その後、特徴マップ変換部２２３は、ステップＳ２２４で取得した物体位置情報ＰＩ_ｔから、特徴マップＣＭ_ｔを生成する（ステップＳ２２５）。特徴マップ変換部２２３は、Ｈ×Ｗ×（Ｋ＋４）のサイズを有するマップ情報である物体位置情報ＰＩ_ｔから、Ｈ×Ｗ×Ｃのサイズを有する特徴マップＣＭ_ｔを生成する。尚、ステップＳ２２４からステップＳ２２５の処理の内容は、上述したステップＳ２２１からステップＳ２２２の処理の内容と同一であってもよい。このため、特徴マップ変換部２２３は、特徴マップ変換部２２１と同様に、物体位置情報ＰＩが入力された場合に特徴マップＣＭを出力する演算モデルを用いて、特徴マップＣＭ_ｔを生成してもよい。

　その後、「第１生成手段」の一具体例である特徴ベクトル変換部２２４は、ステップＳ２２５で生成された特徴マップＣＭ_ｔから、特徴ベクトルＣＶ_ｔを生成する（ステップＳ２２６）。特徴ベクトル変換部２２４は、Ｈ×Ｗ×Ｃのサイズを有する特徴マップＣＭ_ｔから、ＨＷ×Ｃのサイズを有する特徴ベクトルＣＶ_ｔを生成する。尚、ステップＳ２２６の処理の内容は、上述したステップＳ２２３の処理の内容と同一であってもよい。尚、特徴ベクトルＣＶ_ｔは、第２特徴ベクトルの一具体例である。

　その後、「第２生成手段」の一具体例である行列演算部２２５は、ステップＳ２２３で生成された特徴ベクトルＣＶ_ｔ－τとステップＳ２２６で生成された特徴ベクトルＣＶ_ｔとを用いて、類似性行列（Ａｆｆｉｎｉｔｙ　Ｍａｔｒｉｘ）ＡＭを生成する（ステップＳ２２７）。具体的には、行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとを用いた演算処理によって得られる情報を、類似性行列ＡＭとして生成する。

　例えば、行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとの行列積を算出する演算処理によって得られる情報（つまり、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとの行列積）を、類似性行列ＡＭとして生成してもよい。ここで言う行列積は、典型的には、テンソル積（言い換えれば、直積）であってもよい。一例として、行列積は、クロネッカー積であってもよい。この場合、類似性行列ＡＭのサイズは、ＨＷ×ＨＷとなる。

　その結果、特徴ベクトルＣＶ_ｔ－τ及びＣＶ_ｔと類似性行列ＡＭとの関係を概念的に示す平面図である図５に示すように、類似性行列ＡＭは、物体Ｏ_ｔ－τと物体Ｏ_ｔとの対応関係を示す情報となる。例えば、類似性行列ＡＭは、（１）複数の物体Ｏ_ｔ－τのうちの第１の物体Ｏ_ｔ－τが、複数の物体Ｏ_ｔのうちの第１の物体Ｏ_ｔに対応しており（つまり、両者が同一の物体であり）、（２）複数の物体Ｏ_ｔ－τのうちの第２の物体Ｏ_ｔ－τが、複数の物体Ｏ_ｔのうちの第２の物体Ｏ_ｔに対応しており、・・・、（Ｎ）複数の物体Ｏ_ｔ－τのうちの第Ｎの物体Ｏ_ｔ－τが、複数の物体Ｏ_ｔのうちの第Ｎの物体Ｏ_ｔに対応していることを示す情報となる。尚、類似性行列ＡＭは、物体Ｏ_ｔ－τと物体Ｏ_ｔとの対応関係を示す情報であるがゆえに、対応情報と称してもよい。

　具体的には、図５に示すように、類似性行列ＡＭは、その縦軸が特徴ベクトルＣＶ_ｔ－τのベクトル成分に対応しており且つその横軸が特徴ベクトルＣＶ_ｔのベクトル成分に対応している行列であるとみなすことができる。このため、類似性行列ＡＭの縦軸のサイズは、ＨＷ（つまり、特徴ベクトルＣＶ_ｔ－τのサイズであり、時刻ｔ－τに撮影された画像ＩＭ_ｔ－τのサイズ（つまり、画素数）に対応するサイズ）になる。同様に、類似性行列ＡＭの横軸のサイズは、ＨＷ（つまり、特徴ベクトルＣＶ_ｔのサイズであり、時刻ｔに撮影された画像ＩＭ_ｔのサイズ（つまり、画素数）に対応するサイズ）になる。言い換えれば、類似性行列ＡＭは、その縦軸が時刻ｔ－τの画像ＩＭ_ｔ－τに映り込んでいる物体Ｏ_ｔ－τの検出結果（つまり、物体Ｏ_ｔ－τの検出位置）に対応しており且つその横軸が時刻ｔの画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔの検出結果（つまり、物体Ｏ_ｔの検出位置）に対応している行列であるとみなすことができる。この場合、縦軸上のある物体Ｏ_ｔ－τに対応するベクトル成分と横軸上の同じ物体Ｏ_ｔに対応するベクトル成分とが交差する位置において、類似性行列ＡＭの要素が反応する（典型的には、０でない値を有する）。言い換えれば、縦軸上の物体Ｏ_ｔ－τの検出結果と横軸上の物体Ｏ_ｔの検出結果とが交差する位置において、類似性行列ＡＭの要素が反応する。つまり、類似性行列ＡＭは、典型的には、特徴ベクトルＣＶ_ｔ－τに含まれるある物体Ｏ_ｔ－τに対応するベクトル成分と特徴ベクトルＣＶ_ｔに含まれる同じ物体Ｏ_ｔに対応するベクトル成分とが交差する位置の要素の値が、両ベクトル成分を掛け合わせることで得られる値（つまり、０ではない値）となる一方で、それ以外の要素の値が０になる行列となる。

　例えば、図５に示す例では、特徴ベクトルＣＶ_ｔ－τに含まれる物体Ｏ＃ｋ（但し、ｋは、検出された物体Ｏの数であり、図５に示す例では、ｋ＝１、２、３又は４）に対応するベクトル成分と特徴ベクトルＣＶ_ｔに含まれる同じ物体Ｏ＃ｋに対応するベクトル成分とが交差する位置において、類似性行列ＡＭの要素が反応する。つまり、画像ＩＭ_ｔ－τに映り込んだ物体Ｏ＃ｋの検出結果と画像ＩＭ_ｔに映り込んだ物体Ｏ＃ｋの検出結果とが交差する位置において、類似性行列ＡＭの要素が反応する。

　逆に、特徴ベクトルＣＶ_ｔ－τに含まれるある物体Ｏ_ｔ－τに対応するベクトル成分と特徴ベクトルＣＶ_ｔに含まれる同じ物体Ｏ_ｔに対応するベクトル成分とが交差する位置において類似性行列ＡＭの要素が反応しない（典型的には、０になる）場合には、画像ＩＭ_ｔ－τに映り込んでいた物体Ｏ_ｔ－τは、画像ＩＭ_ｔには映り込んでいない（例えば、カメラの撮影画角外へ出てしまった）と推定される。

　このように、類似性行列ＡＭは、物体Ｏ_ｔ－τと物体Ｏ_ｔとの対応関係を示す情報として利用可能である。つまり、類似性行列ＡＭは、画像ＩＭ_ｔ－τに映り込んでいる物体Ｏ_ｔ－τと画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔとの照合結果を示す情報として利用可能である。類似性行列ＡＭは、画像ＩＭ_ｔ－τに映り込んでいた物体Ｏ_ｔ－τの画像ＩＭ_ｔ内での位置を追跡するための情報として利用可能である。

　行列演算部２２５が生成した類似性行列ＡＭを示す情報は、物体照合部２２による物体照合動作の結果を示す物体照合情報として、物体照合ＤＢ３３に格納される。或いは、行列演算部２２５は、類似性行列ＡＭに基づいて、物体Ｏ_ｔ－τと物体Ｏ_ｔとの対応関係を示す他の種類の情報を生成し、物体Ｏ_ｔ－τと物体Ｏ_ｔとの対応関係を示す他の種類の情報が物体照合情報として物体照合ＤＢ３３に格納されてもよい。

　（２－３）リファイン動作
　続いて、「補正手段」の一具体例であるリファイン部２３が行うリファイン動作について説明する。リファイン部２３は、物体検出ＤＢ３２に格納されている物体位置情報ＰＩを読み出し、物体照合部２２から類似性行列ＡＭを取得し、取得した類似性行列ＡＭを用いて、読み出した物体位置情報ＰＩを補正する。以下、物体位置情報ＰＩ_ｔ－τ及びＰＩ_ｔに基づいて生成された類似性行列ＡＭを用いて物体位置情報ＰＩ_ｔを補正するリファイン動作について、図６を参照しながら説明する。図６は、リファイン動作の流れを示すフローチャートである。

　図６に示すように、特徴マップ変換部２３６は、物体検出ＤＢ３２に格納されている物体位置情報ＰＩ_ｔを取得する（つまり、読み出す）（ステップＳ２３１）。その後、特徴マップ変換部２３６は、ステップＳ２３１で取得した物体位置情報ＰＩ_ｔから、特徴マップＣＭ’_ｔを生成する（ステップＳ２３２）。ここで、上述したように、物体照合部２２が備える特徴マップ変換部２２３もまた、物体位置情報ＰＩ_ｔから、特徴マップＣＭ_ｔを生成している。しかしながら、特徴マップ変換部２２３は、類似性行列ＡＭを生成する目的（つまり、物体照合動作を行う目的）で、特徴マップＣＭ_ｔを生成している。特徴マップ変換部２２３は、類似性行列ＡＭを生成する目的で、特徴マップＣＭ_ｔを生成している。一方で、特徴マップ変換部２３６は、物体照合動作において生成された類似性行列ＡＭを用いて物体位置情報ＰＩ_ｔを補正する目的（つまり、リファイン動作を行う目的）で、特徴マップＣＭ_ｔ’を生成している。このため、後述する学習動作によって夫々学習される（つまり、更新される）特徴マップ変換部２２３及び２３６は、特徴マップ変換部２２３が、類似性行列ＡＭを生成するのにより適した特徴マップＣＭ_ｔを生成する一方で、特徴マップ変換部２３６が、物体位置情報ＰＩ_ｔを補正するのにより適した特徴マップＣＭ_ｔ’を生成するという点で異なっている。つまり、特徴マップＣＭ_ｔ及びＣＭ_ｔ’は、特徴マップＣＭ_ｔが、類似性行列ＡＭを生成するのにより適している一方で、特徴マップＣＭ_ｔ’が、物体位置情報ＰＩ_ｔを補正するのにより適しているという点で異なっている。このため、リファイン部２３は、物体照合部２２が備える特徴マップ変換部２２３とは別個に、特徴マップ変換部２３６を備えている。尚、このような特徴マップ変換部２２３及び２３６は、後述する学習動作の結果として構築される。つまり、後述する学習動作により、特徴マップ変換部２２３が、類似性行列ＡＭを生成するのにより適した特徴マップＣＭ_ｔを生成するように学習される一方で、特徴マップ変換部２３６が、物体位置情報ＰＩ_ｔを補正するのにより適した特徴マップＣＭ_ｔ’を生成するように学習される。

　特徴マップ変換部２３６は、物体位置情報ＰＩが入力された場合に特徴マップＣＭを出力する演算モデルを用いて、特徴マップＣＭ’_ｔを生成してもよい。このような演算モデルの一例として、ニューラルネットワーク（例えば、ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた演算モデルがあげられる。この場合、演算モデルは、後述するように、学習用データを用いて学習されてもよい。つまり、演算モデルのパラメータは、（特に、物体位置情報ＰＩ_ｔを補正するのに）適切な特徴マップＣＭ’_ｔを出力するように最適化されていてもよい。

　その後、特徴ベクトル変換部２３７は、ステップＳ２３２で生成された特徴マップＣＭ’_ｔから、特徴ベクトルＣＶ’_ｔを生成する（ステップＳ２３３）。

　ステップＳ２３１からステップ２３３までの処理と並行して又は相前後して、行列演算部２３１は、物体照合部２２から、物体照合部２２が生成した類似性行列ＡＭを取得する（ステップＳ２３４）。或いは、行列演算部２３１は、物体照合ＤＢ３３から、物体照合部２２が生成した類似性行列ＡＭを取得してもよい（ステップＳ２３４）。

　その後、行列演算部２３１は、ステップＳ２３３で生成された特徴ベクトルＣＶ’_ｔとステップＳ２３４で取得された類似性行列ＡＭとを用いて、特徴ベクトルＣＶ＿ｒｅｓを生成する（ステップＳ２３５）。具体的には、行列演算部２３１は、特徴ベクトルＣＶ’_ｔと類似性行列ＡＭとを用いた演算処理によって得られる情報を、特徴ベクトルＣＶ＿ｒｅｓとして生成する。

　例えば、行列演算部２３１は、特徴ベクトルＣＶ’_ｔと類似性行列ＡＭとの行列積を算出する演算処理によって得られる情報（つまり、特徴ベクトルＣＶ’_ｔと類似性行列ＡＭとの行列積）を、特徴ベクトルＣＶ＿ｒｅｓとして生成してもよい。

　その後、特徴ベクトル変換部２３２は、ステップＳ２３５で生成された特徴ベクトルＣＶ＿ｒｅｓから、特徴マップＣＭと同じサイズを有する特徴マップＣＭ＿ｒｅｓを生成する（ステップＳ２３６）。つまり、特徴ベクトル変換部２３２は、任意のサイズを有する特徴ベクトルＣＶ＿ｒｅｓから、Ｈ×Ｗ×Ｃのサイズを有する特徴マップＣＭ＿ｒｅｓを生成する。例えば、特徴ベクトル変換部２３２は、特徴ベクトルＣＶ＿ｒｅｓを特徴マップＣＭ＿ｒｅｓに変換することで、特徴マップＣＭ＿ｒｅｓを生成してもよい。

　その後、特徴マップ変換部２３３は、ステップＳ２３６で生成された特徴マップＣＭ＿ｒｅｓから、物体位置情報ＰＩ_ｔと同じサイズを有する物体位置情報ＰＩ_ｔ＿ｒｅｓを生成する（ステップＳ２３７）。つまり、特徴マップ変換部２３３は、ステップＳ２３６で生成された特徴マップＣＭ＿ｒｅｓから、Ｈ×Ｗ×（Ｋ＋４）のサイズを有するマップ情報である物体位置情報ＰＩ_ｔ＿ｒｅｓを生成する。特徴マップ変換部２３３は、ステップＳ２３６で生成された特徴マップＣＭ＿ｒｅｓから、（ｉ）Ｈ×Ｗ×Ｋのサイズを有する、画像ＩＭ_ｔ内での物体Ｏ_ｔの中心位置ＫＰを示すマップ情報と、（ｉｉ）Ｈ×Ｗ×２のサイズを有する、画像ＩＭ_ｔ内での物体Ｏ_ｔの検出枠ＢＢのサイズを示すマップ情報と、（ｉｉｉ）Ｈ×Ｗ×２のサイズを有する、画像ＩＭ_ｔ内での物体Ｏ_ｔの検出枠ＢＢの補正量を示すマップ情報とを含む物体位置情報ＰＩ_ｔ＿ｒｅｓを生成する。つまり、特徴マップ変換部２３３は、ステップＳ２３６で生成された特徴マップＣＭ＿ｒｅｓの次元を変換することで、特徴マップＣＭ＿ｒｅｓから物体位置情報ＰＩ_ｔ＿ｒｅｓを生成する。

　例えば、特徴マップ変換部２３３は、特徴マップＣＭ＿ｒｅｓを物体位置情報ＰＩ_ｔ＿ｒｅｓに変換することで、物体位置情報ＰＩ_ｔ＿ｒｅｓを生成してもよい。特徴マップ変換部２３３は、特徴マップＣＭが入力された場合に物体位置情報ＰＩを出力する演算モデルを用いて、物体位置情報ＰＩ_ｔ＿ｒｅｓを生成してもよい。このような演算モデルの一例として、ニューラルネットワーク（例えば、ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた演算モデルがあげられる。この場合、演算モデルは、後述するように、学習用データを用いて学習されてもよい。つまり、演算モデルのパラメータは、適切な物体位置情報ＰＩ_ｔ＿ｒｅｓを出力するように最適化されていてもよい。

　ステップＳＳ２３７の処理は、実質的には、類似性行列ＡＭを重みとして用いる注意機構（Ａｔｔｅｎｔｉｏｎ　Ｍｅｃｈａｎｉｓｍ）を用いて、物体位置情報ＰＩ_ｔ＿ｒｅｓを生成する処理と等価であるとみなしてもよい。つまり、リファイン部２３は、行列演算部２３１、特徴ベクトル変換部２３２及び特徴マップ変換部２３３を含む注意機構の少なくとも一部を構成しているとみなしてもよい。物体位置情報ＰＩ＿ｒｅｓは、リファインされた物体位置情報ＰＩ_ｔとして用いられてもよい。この場合、ステップＳＳ２３７の処理は、実質的には、類似性行列ＡＭを重みとして用いる注意機構を用いて物体位置情報ＰＩ_ｔを補正する（言い換えれば、更新する、調整する又は改善する）処理と等価であるとみなしてもよい。

　但し、ステップＳ２３５で生成された物体位置情報ＰＩ_ｔ＿ｒｅｓは、オリジナルの物体位置情報ＰＩ_ｔ（つまり、リファイン動作が施されていない物体位置情報ＰＩ_ｔ）に含まれていた情報が消失している可能性がある。なぜならば、物体位置情報ＰＩ_ｔ＿ｒｅｓは、注意機構において注意を払うべき部分（本実施形態では、物体Ｏの検出位置）を示す類似性行列ＡＭが重みとして用いられるがゆえに、物体検出情報のうちの物体Ｏの検出位置に関する情報とは異なる情報部分が消失してしまう可能性があるからである。そこで、本実施形態では、リファイン部２３は、オリジナルの物体位置情報ＰＩ_ｔに含まれていた情報の消失を抑制するための処理を更に行ってもよい。具体的には、残差処理部２３４は、ステップＳ２３７で生成された物体位置情報ＰＩ_ｔ＿ｒｅｓをオリジナルの物体位置情報ＰＩ_ｔに加算することで、物体位置情報ＰＩ_ｔ＿ｒｅｆを生成してもよい（ステップＳ２３８）。物体位置情報ＰＩ_ｔ＿ｒｅｆは、物体位置情報ＰＩ_ｔと同じサイズを有する。このため、残差処理部２３４は、Ｈ×Ｗ×（Ｋ＋４）のサイズを有するマップ情報である物体位置情報ＰＩ_ｔ＿ｒｅｆを生成する。このようなＨ×Ｗ×（Ｋ＋４）のサイズを有するマップ情報である物体位置情報ＰＩ_ｔ＿ｒｅｆを生成するために、残差処理部２３４は、（ｉ）物体位置情報ＰＩ_ｔ＿ｒｅｓに含まれる物体Ｏ_ｔの中心位置ＫＰを示すマップ情報と、オリジナルの物体位置情報ＰＩ_ｔに含まれる物体Ｏ_ｔの中心位置ＫＰを示すマップ情報とを加算し、（ｉｉ）物体位置情報ＰＩ_ｔ＿ｒｅｓに含まれる物体Ｏ_ｔの検出枠ＢＢのサイズを示すマップ情報と、オリジナルの物体位置情報ＰＩ_ｔに含まれる物体Ｏ_ｔの検出枠ＢＢのサイズを示すマップ情報とを加算し、（ｉｉｉ）物体位置情報ＰＩ_ｔ＿ｒｅｓに含まれる検出枠ＢＢの補正量を示すマップ情報と、オリジナルの物体位置情報ＰＩ_ｔに含まれる検出枠ＢＢの補正量を示すマップ情報とを加算する。

　この場合、ステップＳＳ２３８の処理は、実質的には、残差処理部２３４を含む残差処理機構（Ｒｅｓｉｄｕａｌ　Ａｔｔｅｎｔｉｏｎ　Ｍｅｃｈａｎｉｓｍ）を用いて、物体位置情報ＰＩ_ｔ＿ｒｅｆを生成する処理と等価であるとみなしてもよい。つまり、リファイン部２３は、行列演算部２３１、特徴ベクトル変換部２３２、特徴マップ変換部２３３及び残差処理部２３４を含む残差注意機構の少なくとも一部を構成しているとみなしてもよい。物体位置情報ＰＩ_ｔ＿ｒｅｆは、リファインされた物体位置情報ＰＩ_ｔであると共に、オリジナルの物体位置情報ＰＩ_ｔに含まれていた情報をも含む。この場合、物体位置情報ＰＩ_ｔ＿ｒｅｆは、リファインされた物体位置情報ＰＩ_ｔとして用いられてもよい。但し、リファイン部２３は、オリジナルの物体位置情報ＰＩ_ｔに含まれていた情報の消失を抑制するための処理（ステップＳ２３８の処理）を行わなくてもよい。この場合、リファイン部２３は、残差処理部２３４を備えていなくてもよい。

　更に、特徴マップ変換部２３５は、物体位置情報ＰＩ_ｔ＿ｒｅｆから、物体位置情報ＰＩ_ｔ＿ｒｅｆと同じサイズ：Ｈ×Ｗ×（Ｋ＋４）を有する物体位置情報ＰＩ_ｔ＿ｒｅｆ’を生成してもよい（ステップＳ２３９）。物体位置情報ＰＩ_ｔ＿ｒｅｆ’は、物体位置情報ＰＩ_ｔと同じサイズを有する。このため、特徴マップ変換部２３５は、Ｈ×Ｗ×（Ｋ＋４）のサイズを有するマップ情報である物体位置情報ＰＩ＿ｒｅｆ’を生成する。典型的には、特徴マップ変換部２３５は、畳み込み処理（例えば、ニューラルネットワークを構成する畳み込み層で行われる処理）を物体位置情報ＰＩ_ｔ＿ｒｅｆに施すことで、物体位置情報ＰＩ_ｔ＿ｒｅｆ’を生成してもよい。特徴マップ変換部２３５は、ニューラルネットワークを構成する畳み込み層に物体位置情報ＰＩ_ｔ＿ｒｅｆを入力することで、物体位置情報ＰＩ_ｔ＿ｒｅｆを物体位置情報ＰＩ_ｔ＿ｒｅｆ’に変換してもよい。この場合、物体位置情報ＰＩ_ｔ＿ｒｅｆ’は、リファインされた物体位置情報ＰＩ_ｔとして用いられてもよい。但し、リファイン部２３は、特徴マップ変換部２３５を備えていなくてもよい。

　物体位置情報ＰＩ_ｔ＿ｒｅｓ、物体位置情報ＰＩ_ｔ＿ｒｅｆ又は物体位置情報ＰＩ_ｔ＿ｒｅｆ’がリファインされた物体位置情報ＰＩ_ｔとして用いられる場合には、物体検出ＤＢ３２に格納されている物体位置情報ＰＩ_ｔが、物体位置情報ＰＩ_ｔ＿ｒｅｓ、物体位置情報ＰＩ_ｔ＿ｒｅｆ又は物体位置情報ＰＩ_ｔ＿ｒｅｆ’に置き換えられてもよい。この場合、物体照合部２２は、リファインされる前の物体位置情報ＰＩ_ｔに代えて、リファインされた物体位置情報ＰＩ_ｔを用いて、時刻ｔに撮影された画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔと、時刻ｔ＋τに撮影された画像ＩＭ_ｔ＋τに映り込んでいる物体Ｏ_ｔ＋τとを照合する物体照合動作を行うことができる。更には、物体Ｏ_ｔと物体Ｏ_ｔ＋τとを照合する物体照合動作の結果を用いて、物体Ｏ_ｔ＋τに関する物体位置情報ＰＩ_ｔ＋τがリファインされる。このため、物体照合部２２は、リファインされる前の物体位置情報ＰＩ_ｔ＋τに代えて、リファインされた物体位置情報ＰＩ_ｔ＋τを用いて、時刻ｔ＋τに撮影された画像ＩＭ_ｔ＋τに映り込んでいる物体Ｏ_ｔ＋τと、時刻ｔ＋２τに撮影された画像ＩＭ_ｔ＋２τに映り込んでいる物体Ｏ_ｔ＋２τとを照合する物体照合動作を行うことができる。つまり、物体検出ＤＢ３２に格納されている物体位置情報ＰＩ_ｔが、物体位置情報ＰＩ_ｔ＿ｒｅｓ、物体位置情報ＰＩ_ｔ＿ｒｅｆ又は物体位置情報ＰＩ_ｔ＿ｒｅｆ’に置き換えられる場合には、リファインされた物体位置情報ＰＩが連鎖的に物体照合部２２に入力される。このため、リファインされる前の物体位置情報ＰＩを用いて物体照合動作が行われる場合と比較して、物体Ｏの照合の精度の向上と、物体追跡動作に要する処理コストの低減とが期待される。

　（３）物体追跡装置１の技術的効果
　以上説明したように、本実施形態の物体追跡装置１は、物体位置情報ＰＩ_ｔ－τ及びＰＩ_ｔから類似性行列ＡＭを生成し、類似性行列ＡＭを用いて物体位置情報ＰＩ_ｔをリファインすることができる。つまり、物体追跡装置１は、物体検出部２１の出力である物体位置情報ＰＩ_ｔ－τ及びＰＩ_ｔに対して前処理等を行うことなく、物体照合動作を行うことができる。言い換えれば、物体追跡装置１は、物体検出部２１の出力である物体位置情報ＰＩ_ｔ－τ及びＰＩ_ｔを、物体照合動作を行う物体照合部２２の入力としてそのまま用いることができる。同様に、物体追跡装置１は、物体照合部２２の出力である類似性行列ＡＭに対して前処理等を行うことなく、リファイン動作を行うことができる。言い換えれば、物体追跡装置１は、物体照合部２２の出力である類似性行列ＡＭ及び物体検出部２１の出力である物体位置情報ＰＩ_ｔを、リファイン動作を行うリファイン部２３の入力としてそのまま用いることができる。このため、物体検出動作、物体照合動作及びリファイン動作を互いに独立した別個の三つの動作として行う比較例の物体追跡装置と比較して、物体追跡装置１は、物体検出動作、物体照合動作及びリファイン動作の夫々を行うための前処理等を行わなくともよくなる。その結果、物体追跡装置１は、相対的に低い処理コストで物体Ｏを追跡することができる。

　尚、物体追跡装置１は、実質的には、物体追跡動作と一般的な注意機構で行われる動作とが似ていることに着目し、物体照合動作において生成される情報を用いてリファイン動作を行っていると言える。具体的には、物体追跡動作では、上述したように、物体Ｏを検出する処理、物体Ｏを照合する処理及び物体Ｏの検出結果をリファインする処理が行われる。一方で、一般的な注意機構では、物体Ｏの特徴を抽出する処理、重みを算出する処理及び物体Ｏの特徴の抽出結果をリファインする処理が行われる。物体追跡装置１は、注意機構において重みを算出する処理を、実質的には、物体追跡動作において物体Ｏを照合する処理としても流用している。言い換えれば、物体追跡装置１は、物体追跡動作において物体Ｏを照合する処理を、実質的には、注意機構において重みを算出する処理としても流用している。従って、物体追跡装置１は、物体検出動作、物体照合動作及びリファイン動作を、注意機構を用いて実現しているとも言える。具体的には、物体追跡装置１は、物体位置情報ＰＩ_ｔ－τをクエリとし、物体位置情報ＰＩ_ｔをキー及びバリューとし、且つ、類似性行列ＡＭを重みとして用いる注意機構を用いて、物体追跡動作を行っているとも言える。このため、物体追跡装置１は、物体検出動作、物体照合動作及びリファイン動作を含む物体追跡動作を、一連の動作として行うことができる。つまり、物体追跡装置１は、物体検出動作、物体照合動作及びリファイン動作を行う単一のネットワーク構造（いわゆる、エンドツーエンドなシングルステージ型のネットワーク構造）を用いて、物体追跡動作を行うことができる。このように注意機構を用いて物体追跡動作（特に、リファイン動作）を行うことができるがゆえに、物体追跡装置１は、注意機構を用いることなく物体追跡動作が行われる場合（つまり、物体検出動作を行うネットワーク構造、物体照合動作を行うネットワーク構造及びリファイン動作を行うネットワーク構造が別個独立に用いられる場合）と比較して、物体位置情報ＰＩをより適切にリファインすることができる。

　また、比較例の物体追跡装置（特に、類似性行列ＡＭを生成することなく物体照合動作を行う物体追跡装置）は、時刻ｔ－τに撮影された画像にＮ_ｔ－τ個の物体が映り込んでおり且つ時刻ｔに撮影された画像にＮ_ｔ個の物体が映り込んでいる場合には、Ｎ_ｔ－τ個の物体の夫々とＮ_ｔ個の物体の夫々とを個別に照合する必要がある。つまり、比較例の物体追跡装置は、二つの物体を照合する動作を、Ｎ_ｔ－τ×Ｎ_ｔ回も繰り返す必要がある。このため、物体を追跡するための処理コストが高くなってしまう可能性があるという技術的問題が存在する。一方で、本実施形態の物体追跡装置１は、特徴ベクトルＣＶ_ｔ－τ及びＣＶ_ｔを用いて、時刻ｔ－τに撮影された画像ＩＭ_ｔ－τに映り込んでいる物体Ｏ_ｔ－τと時刻ｔに撮影された画像ＩＭ_ｔに映り込んでいる物体Ｏ_ｔとを照合する物体照合動作を行うことができる。このため、物体追跡装置１は、相対的に低い処理コストで物体Ｏを追跡することができる。具体的には、物体追跡装置１は、画像ＩＭ_ｔ－τにＮ_ｔ－τ個（尚、Ｎ_ｔ－τは、１以上の整数）の物体Ｏ_ｔ－τが映り込んでおり且つ画像ＩＭ_ｔにＮ_ｔ個（尚、Ｎ_ｔは、１以上の整数）の物体Ｏ_ｔが映り込んでいる場合であっても、Ｎ_ｔ－τ個の物体Ｏ_ｔ－τの夫々とＮ_ｔ個の物体Ｏ_ｔの夫々とを個別に照合しなくてもよくなる。つまり、物体追跡装置１は、二つの物体Ｏ_ｔ－τ及びＯ_ｔを照合する動作を、Ｎ_ｔ－τ×Ｎ_ｔ回も繰り返さなくてもよくなる。つまり、物体追跡装置１は、特徴ベクトルＣＶ_ｔ－τ及びＣＶ_ｔを用いて類似性行列ＡＭを生成する処理を一度行えば、Ｎ_ｔ－τ個の物体Ｏ_ｔ－τの夫々とＮ_ｔ個の物体Ｏ_ｔの夫々との照合を完了することができる。このため、比較例の物体追跡装置と比較して、相対的に低い処理コストで物体Ｏを追跡することができる。特に、比較例の物体追跡装置では、画像ＩＭに映り込んでいる物体Ｏの数が増えるほど処理コストが指数関数的に増加する一方で、本実施形態の物体追跡装置１では、処理コストが画像ＩＭに映り込んでいる物体Ｏの数に依存しにくくなる。このため、画像ＩＭに映り込んでいる物体Ｏの数が多くなるほど、物体追跡装置１による処理コストの低減効果が大きくなる。

　（４）変形例
　（４－１）第１変形例
　初めに、図７を参照しながら、第１変形例の物体追跡装置１ａについて説明する。図７は、第１変形例の物体追跡装置１ａの構成を示すブロック図である。

　図７に示すように、第１変形例の物体追跡装置１ａは、演算装置２内に実現される論理的な機能ブロックとして、物体検出部２１、物体照合部２２及びリファイン部２３の学習動作を行う学習部２４ａを更に備えているという点で異なっている。更に、物体追跡装置１ａは、学習動作のための学習用データ３４１ａを格納するための学習ＤＢ３４ａが記憶装置３によって記憶されているという点で異なっている。物体追跡装置１ａのその他の特徴は、物体追跡装置１のその他の特徴と同一であってもよい。尚、学習動作は、典型的には、物体追跡装置１ａが実際に物体追跡動作を行う前に予め行われる。但し、学習動作は、物体追跡装置１ａが物体追跡動作を開始した後の所望のタイミングで行われてもよい。

　学習用データ３４１ａは、例えば、図８に示すように、ある時刻に取得された（例えば、撮影された）画像ＩＭを含む。更に、学習用データ３４１ａは、画像ＩＭに映り込んでいる物体Ｏの位置の正解ラベルを示す物体位置情報ＰＩ＿ｌａｂｅｌを含む。図８に示す例では、学習ＤＢ３４ａには、時刻ｓに取得された画像ＩＭ_ｓ及び画像ＩＭ_ｓに映り込んでいる物体Ｏ_ｓの位置に関する物体位置情報ＰＩ_ｓ＿ｌａｂｅｌを含む学習用データ３４１ａと、時刻ｓ＋τに取得された画像ＩＭ_ｓ＋τと、画像ＩＭ_ｓ＋τに映り込んでいる物体Ｏ_ｓ＋τの位置に関する物体位置情報ＰＩ_ｓ＋τ＿ｌａｂｅｌとを含む学習用データ３４１ａとを含む複数の学習用データ３４１ａが格納されている。尚、各画像ＩＭに複数の物体Ｏが映り込んでいる場合には、学習用データ３４１ａは、複数の物体Ｏの位置の正解ラベルを夫々示す複数の物体位置情報ＰＩ＿ｌａｂｅｌを含んでいてもよい。

　学習部２４ａは、学習動作を行うために、学習用データ３４１ａに含まれる画像ＩＭ_ｓ及びＩＭ_ｓ＋τを物体検出部２１に入力する。その結果、物体検出部２１は、物体Ｏ_ｓの位置に関する物体位置情報ＰＩ_ｓと、物体Ｏ_ｓ＋τの位置に関する物体位置情報ＰＩ_ｓ＋τとを出力する。更に、物体照合部２２は、物体位置情報ＰＩ_ｓと物体位置情報ＰＩ_ｓ＋τとを用いて、類似性行列ＡＭを生成する。更に、リファイン部２３は、類似性行列ＡＭを用いて、物体位置情報ＰＩ_ｓ＋τをリファインする。

　学習部２４ａは、少なくともリファインされた物体位置情報ＰＩ_ｓ＋τに関する損失関数Ｌ１に基づいて、物体検出部２１が物体検出動作を行うために用いる、物体照合部２２が物体照合動作を行うために用いる及び／又はリファイン部２３がリファイン動作を行うために用いる学習可能な演算モデルを更新する。つまり、学習部２４ａは、損失関数Ｌ１に基づいて、物体検出部２１、物体照合部２２及びリファイン部２３の少なくとも一つの動作内容を規定する演算モデルを更新する。一例として、損失関数Ｌ１が、リファインされた物体位置情報ＰＩ_ｓ＋τと正解ラベルとしての物体位置情報ＰＩ_ｓ＋τ＿ｌａｂｅｌとの誤差が小さくなるほど小さくなる損失関数である場合には、学習部２４ａは、損失関数Ｌ１が小さくなるように（典型的には、最小になるように）演算モデルを更新してもよい。

　本実施形態では、上述したように、物体検出部２１、物体照合部２２及びリファイン部２３が単一のネットワーク構造（つまり、単一の演算モデル）によって実現可能である。このため、物体検出部２１、物体照合部２２及びリファイン部２３が単一のネットワーク構造（つまり、単一の演算モデル）によって実現されている場合には、学習部２４ａは、当該単一の演算モデルを更新してもよい。尚、このような演算モデルの一例として、ニューラルネットワーク（例えば、ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた演算モデルがあげられる。この場合、演算モデルを更新する動作は、演算モデルのパラメータを更新する、決定する又は調整する動作を含んでいてもよい。演算モデルのパラメータは、ニューラルネットワークが備えるノード間の重み、各ノードで付与されるバイアス及びノード間の接続経路の少なくとも一つを含んでいてもよい。

　学習部２４ａは、学習ＤＢ３４ａに格納されている複数の学習データ３４１ａに夫々含まれる複数の画像ＩＭを、複数の画像ＩＭに対応する時刻の順に物体検出部２１に順次入力することで、学習動作を繰り返す。つまり、学習部２４ａは、画像ＩＭ_ｓ及びＩＭ_ｓ＋τを物体検出部２１に入力し、リファインされた物体位置情報ＰＩ_ｓ＋τに関する損失関数Ｌ１に基づいて演算モデルを更新する。その後、学習部２４ａは、画像ＩＭ_ｓ＋τ及びＩＭ_ｓ＋２τを物体検出部２１に入力し、リファインされた物体位置情報ＰＩ_ｓ＋２τに関する損失関数Ｌ１に基づいて演算モデルを更新する。以降、学習部２４ａは、同様の動作を繰り返す。その結果、物体検出部２１、物体照合部２２及びリファイン部２３の少なくとも一つの動作内容を規定する演算モデルが適切に更新される（つまり、学習される）。

　学習部２４ａは、物体検出部２１に入力される二つの画像ＩＭに夫々対応する二つの時刻の間の時間間隔を変更してもよい。例えば、上述した説明では、学習部２４ａは、τの時間間隔を隔てる二つの時刻に夫々取得された二つの画像ＩＭ（例えば、画像ＩＭ_ｓ及びＩＭ_ｓ＋τ）を物体検出部２１に入力している。しかしながら、学習部２４ａは、ｍ×τ（尚、ｍは、学習部２４ａが変更可能な係数であり、例えば、１、２、３、・・・等の整数）の時間間隔を隔てる二つの時刻に夫々取得された二つの画像ＩＭ（例えば、画像ＩＭ_ｓ及びＩＭ_ｓ＋ｍτ）を物体検出部２１に入力してもよい。この場合、学習部２４ａは、画像ＩＭ_ｓ及びＩＭ_ｍ＋τを物体検出部２１に入力し、リファインされた物体位置情報ＰＩ_ｓ＋ｍτに関する損失関数Ｌ１に基づいて演算モデルを更新してもよい。その後、学習部２４ａは、画像ＩＭ_ｓ＋ｍτ及びＩＭ_{ｓ＋２ｍτ}を物体検出部２１に入力し、リファインされた物体位置情報ＰＩ_{ｓ＋２ｍτ}に関する損失関数Ｌ１に基づいて演算モデルを更新してもよい。以降、学習部２４ａは、同様の動作を繰り返してもよい。この場合、物体検出部２１に入力される二つの画像ＩＭの間での物体Ｏの移動量が、係数ｍに応じて変わる。１回の学習動作ごと、すなわち、学習部２４ａが二つの画像ＩＭ（例えば、画像ＩＭ_ｓ及びＩＭ_ｓ＋τ）を物体検出部２１に入力するごとに、係数ｍは例えば乱数によって決定されてもよい。その結果、物体検出部２１、物体照合部２２及びリファイン部２３の少なくとも一つの動作内容を規定する演算モデルは、様々な移動速度で移動する物体を追跡できるように更新される。

　学習部２４ａは、リファインされた物体位置情報ＰＩ_ｓ＋τに関する損失関数Ｌ１に加えて、物体検出部２１が出力した物体位置情報ＰＩ_ｓに関する損失関数Ｌ２及び物体検出部２１が出力した物体位置情報ＰＩ_ｓ＋τに関する損失関数Ｌ３に基づいて、演算モデルを更新してもよい。損失関数Ｌ２は、例えば、物体検出部２１が出力した物体位置情報ＰＩ_ｓと正解ラベルとしての物体位置情報ＰＩ_ｓ＿ｌａｂｅｌとの誤差が小さくなるほど小さくなる損失関数であってもよい。損失関数Ｌ３は、例えば、物体検出部２１が出力した物体位置情報ＰＩ_ｓ＋τと正解ラベルとしての物体位置情報ＰＩ_ｓ＋τ＿ｌａｂｅｌとの誤差が小さくなるほど小さくなる損失関数であってもよい。この場合、学習部２４ａは、損失関数Ｌ１からＬ３の総和が小さくなるように（典型的には、最小になるように）演算モデルを更新してもよい。

　損失関数Ｌ１からＬ３を用いる場合には、学習部２４ａは、損失関数Ｌ１からＬ３に対して重み付け処理を施し、重み付け処理が施された損失関数Ｌ１からＬ３に基づいて演算モデルを更新してもよい。つまり、学習部２４ａは、α１、α２及びα３という重み付け係数を用いて損失関数Ｌ１からＬ３に対して夫々重み付け処理を施し、α１×Ｌ１＋α２×Ｌ２＋α３×Ｌ３という数式で特定される損失関数に基づいて演算モデルを更新してもよい。

　一例として、損失関数Ｌ１及びＬ３の夫々は、物体位置情報ＰＩ_ｓ＋τに関する損失関数である一方で、損失関数Ｌ２は、物体位置情報ＰＩ_ｓに関する損失関数である。演算モデルを適切に更新するという観点から言えば、演算モデルの更新に対する物体位置情報ＰＩ_ｓの寄与度（つまり、損失関数Ｌ１及びＬ３の寄与度）と、演算モデルの更新に対する物体位置情報ＰＩ_ｓ＋τの寄与度（つまり、損失関数Ｌ２の寄与度）とは、大きく異なっていないことが好ましい。典型的には、演算モデルの更新に対する物体位置情報ＰＩ_ｓの寄与度は、演算モデルの更新に対する物体位置情報ＰＩ_ｓ＋τの寄与度と同じであることが好ましい。このため、学習部２４ａは、損失関数Ｌ１と損失関数Ｌ３との総和に対する重みと、損失関数Ｌ２に対する重みとが同じになるように、重み付け処理を行ってもよい。一例として、学習部２４ａは、０．５×（Ｌ１＋Ｌ３）＋０．５×Ｌ２という数式を用いて損失関数Ｌ１からＬ３に対して重み付け処理を施し、０．５×（Ｌ１＋Ｌ３）＋０．５×Ｌ２という数式で特定される損失関数に基づいて演算モデルを更新してもよい。このような重み付け処理は、後述する第３変形例においてソフトマックス関数を用いて類似性行列ＡＭが正規化される場合に特に有益である。以下、その理由である。まず、学習動作の初期においてソフトマックス関数を用いて類似性行列ＡＭが正規化されると、類似性行列ＡＭの殆どの要素がゼロになってしまう。その結果、リファインされた物体位置情報ＰＩ_ｓ＋τと物体検出部２１が検出した物体位置情報ＰＩ_ｓ＋τとが同一になってしまう。このような状況下において損失関数Ｌ１からＬ３の重みが全て同一のままである（例えば、全て１である）と仮定すると、演算モデルの学習効果が薄れてしまう。なぜならば、損失関数Ｌ１と損失関数Ｌ３の値が同じであるがゆえに、見かけ上、演算モデルの更新に対する損失関数Ｌ２の寄与度が、演算モデルの更新に対する損失関数Ｌ１及びＬ３の寄与度に対して小さくなってしまうからである。そこで、学習部２４ａは、学習動作の初期の期間（例えば、正規化処理によって似性行列ＡＭの殆どの要素がゼロになってしまう期間）は、損失関数Ｌ１と損失関数Ｌ３との総和に対する重みと、損失関数Ｌ２に対する重みとが同じになるように、重み付け処理を行ってもよい。その結果、学習部２４ａは、学習動作の初期の期間（例えば、正規化処理によって似性行列ＡＭの殆どの要素がゼロになってしまう期間）においても、学習効果が薄れにくくなる。

　尚、演算モデルの更新に対する損失関数Ｌ１の寄与度と、演算モデルの更新に対する損失関数Ｌ３の寄与度とを同じにするために、学習部２４ａは、０．２５×Ｌ１＋０．２５×Ｌ３＋０．５×Ｌ２という数式を用いて損失関数Ｌ１からＬ３に対して重み付け処理を施し、０．２５×Ｌ１＋０．２５×Ｌ３＋０．５×Ｌ２という数式で特定される損失関数に基づいて演算モデルを更新してもよい。

　（４－２）第２変形例
　上述した説明では、物体追跡装置１は、物体検出動作を含む物体追跡動作を行っている。しかしながら、第２変形例では、物体追跡動作は、物体検出動作を含んでいなくてもよい。つまり、物体追跡装置１は、物体検出動作を行わなくてもよい。この場合、物体追跡装置１の第２変形例である物体追跡装置１ｂの構成を示す図９に示すように、物体追跡装置１ｂは、物体検出部２１を備えていなくてもよい。更には、記憶装置３には、物体検出動作を行うために用いられる画像ＩＭを格納するための画像ＤＢ３１及び物体検出動作の結果を示す物体検出情報を格納するための物体検出ＤＢ３２が記憶されていなくてもよい。物体追跡装置１ｂ（特に、物体照合部２２）は、物体追跡装置１ｂとは異なる装置が行った物体検出動作の結果を示す物体検出情報を用いて、物体照合動作を行ってもよい。

　上述した説明では、物体追跡装置１は、リファイン動作を含む物体追跡動作を行っている。しかしながら、第２変形例では、物体追跡動作は、リファイン動作を含んでいなくてもよい。つまり、物体追跡装置１は、リファイン動作を行わなくてもよい。この場合、物体追跡装置１の第２変形例である物体追跡装置１ｂの構成を示す図９に示すように、物体追跡装置１ｂは、リファイン部２３を備えていなくてもよい。リファイン動作は、物体追跡装置１ｂとは異なる装置によって行われてもよい。この場合、物体追跡装置１ｂ（特に、物体照合部２２）は、物体照合動作の結果を示す物体照合情報を、物体追跡装置１ｂとは異なる、リファイン動作を行う装置に対して出力してもよい。

　（４－３）第３変形例
　行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとを用いた演算処理によって得られる類似性行列ＡＭを正規化してもよい。例えば、行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとの行列積を正規化することで、類似性行列ＡＭを正規化してもよい。

　行列演算部２２５は、類似性行列ＡＭに対して任意の正規化処理を行ってもよい。例えば、行列演算部２２５は、類似性行列ＡＭに対して、シグモイド関数を用いた正規化処理を行ってもよい。この場合、類似性行列ＡＭの各要素が、シグモイド関数を用いて正規化される。

　或いは、例えば、行列演算部２２５は、類似性行列ＡＭに対して、ソフトマックス（ｓｏｆｍａｘ）関数を用いた正規化処理を行ってもよい。具体的には、図１０に示すように、行列演算部２２５は、類似性行列ＡＭの各行の複数の要素から構成される列ベクトル成分と、類似性行列ＡＭの各列の複数の要素から構成される列ベクトル成分との夫々に対して、ソフトマックス関数を用いた正規化処理を行ってもよい。この場合、行列演算部２２５は、列ベクトル成分を構成する複数の要素の総和が１になるように、列ベクトル成分に対してソフトマックス関数を用いた正規化処理を行い、行ベクトル成分を構成する複数の要素の総和が１になるように、行ベクトル成分に対してソフトマックス関数を用いた正規化処理を行ってもよい。その後、正規化処理が行われたれベクトル成分と行ベクトル成分とを掛け合わせることで得られる要素を含む行列が、正規化処理が行われた類似性行列ＡＭとなる。一例として、行列演算部２２５は、類似性行列ＡＭの物体Ｏ_ｔ－τに対応する一の行の複数の要素から構成される列ベクトル成分と、類似性行列ＡＭの同じ物体Ｏ_ｔに対応する一の列の複数の要素から構成される列ベクトル成分との夫々に対して、ソフトマックス関数を用いた正規化処理を行ってもよい。この場合、行列演算部２２５は、物体Ｏ_ｔ－τに対応する列ベクトル成分を構成する複数の要素の総和が１になるように、列ベクトル成分に対してソフトマックス関数を用いた正規化処理を行い、物体Ｏ_ｔに対応する行ベクトル成分を構成する複数の要素の総和が１になるように、行ベクトル成分に対してソフトマックス関数を用いた正規化処理を行ってもよい。その後、正規化処理が行われたれベクトル成分と行ベクトル成分とを掛け合わせることで得られる要素を含む行列が、正規化処理が行われた類似性行列ＡＭとなる。

　（４－４）その他の変形例
　上述した説明では、物体検出動作を行うことで物体検出部２１が生成する物体位置情報ＰＩは、物体Ｏの中心位置ＫＰを示す情報、物体Ｏの検出枠ＢＢのサイズを示す情報及び検出枠ＢＢの補正量を示す情報を含んでいる。しかしながら、物体位置情報ＰＩは、物体Ｏの検出枠ＢＢのサイズを示す情報及び検出枠ＢＢの補正量を示す情報の少なくとも一方を含んでいなくてもよい。物体位置情報ＰＩは、物体Ｏの中心とは異なる部分の位置に関する情報を含んでいてもよい。

　上述した説明では、物体照合部２２は、物体検出動作の結果を示す物体位置情報ＰＩを用いて、特徴ベクトルＣＶを生成している。ここで、上述したように物体検出動作においてニューラルネットワーク等の演算モデルが用いられる場合には、物体照合部２２は、演算モデルの最終出力に相当する物体位置情報ＰＩに加えて、演算モデルの中間出力を用いて、特徴ベクトルＣＶを生成してもよい。例えば、物体照合部２２は、演算モデルとして用いられるニューラルネットワークの出力層の出力に相当する物体位置情報ＰＩに加えて、演算モデルとして用いられるニューラルネットワークの中間層の出力を用いて特徴マップＣＭを生成し、生成した特徴マップＣＭから特徴ベクトルＣＶを生成してもよい。

　上述した説明では、行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとの行列積を算出する演算処理によって得られる情報を、類似性行列ＡＭとして生成している。しかしながら、行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとを用いた任意の演算処理によって得られる情報を、類似性行列ＡＭとして生成してもよい。例えば、行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとの行列和を算出する演算処理によって得られる情報を、類似性行列ＡＭとして生成してもよい。例えば、行列演算部２２５は、特徴ベクトルＣＶ_ｔ－τと特徴ベクトルＣＶ_ｔとが入力された場合に類似性行列ＡＭを出力する任意の演算モデルを用いて、類似性行列ＡＭを生成してもよい。このような演算モデルの一例として、ニューラルネットワーク（例えば、ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた演算モデルがあげられる。要は、行列演算部２２５は、物体Ｏ_ｔ－τと物体Ｏ_ｔとの対応関係を示す類似性行列ＡＭを生成可能な演算処理を行う限りは、類似性行列ＡＭを生成するためにどのような演算処理を行ってもよい。

　上述した説明では、物体照合部２２は、Ｈ×Ｗ×（Ｋ＋４）のサイズを有するマップ情報である物体位置情報ＰＩから、ＨＷ×ＨＷのサイズを有する類似性行列ＡＭを生成している。しかしながら、物体照合部２２は、Ｈ×Ｗ×（Ｋ＋４）のサイズを有する物体位置情報ＰＩから、ＨＷ×ＨＷのサイズよりも小さいサイズを有する類似性行列ＡＭを生成している。つまり、物体照合部２２は、ダウンスケーリングされた類似性行列ＡＭを生成してもよい。例えば、物体照合部２２の特徴マップ変換部２２１及び２２３は、Ｈ×Ｗ×（Ｋ＋４）のサイズを有する物体位置情報ＰＩ_ｔ－τ及びＰＩ_ｔから、Ｈ×Ｗ×Ｃのサイズよりも小さいサイズを有する特徴マップＣＭ_ｔ－τ及びＣＭ_ｔを夫々生成してもよい。この場合、物体照合部２２の行列演算部２２５は、Ｈ×Ｗ×Ｃのサイズよりも小さいサイズを有する特徴マップＣＭから、ＨＷ×ＨＷのサイズよりも小さいサイズを有する類似性行列ＡＭを生成することができる。尚、Ｈ×Ｗ×Ｃのサイズよりも小さいサイズを有する特徴マップＣＭ_ｔ－τ及びＣＭ_ｔを夫々生成するために、物体照合部２２の特徴マップ変換部２２１及び２２３は、特徴マップＣＭ_ｔ－τ及びＣＭ_ｔを生成するための畳み込み処理を行う畳み込み層で用いられるカーネル（つまり、畳み込みフィルタ）のストライド量（つまり、移動量）を調整してもよい。カーネルのストライド量が大きくなればなるほど、生成される特徴マップＣＭ_ｔ－τ及びＣＭ_ｔのサイズが小さくなる。

　（５）付記
　以上説明した実施形態に関して、更に以下の付記を開示する。
［付記１］
　第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成する第１生成手段と、
　前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成する第２生成手段と
　を備える物体追跡装置。
［付記２］
　前記演算処理は、前記第１特徴ベクトルと第２特徴ベクトルとの行列積を算出する処理を含む
　付記１に記載の物体追跡装置。
［付記３］
　前記対応情報は、行列を用いて前記第１画像中の物体と前記第２画像中の物体との対応関係を示す
　付記１又は２に記載の物体追跡装置。
［付記４］
　前記第２生成手段は、前記行列の一の行のベクトル成分及び前記行列の一の列のベクトル成分の夫々をソフトマックス関数で正規化することで、前記行列を正規化する
　付記１から３のいずれか一項に記載の物体追跡装置。
［付記５］
　前記対応情報は、前記第１及び第２画像のいずれか一方中の一の物体に対応する行ベクトル成分と前記第１及び第２画像のいずれか他方中の前記一の物体に対応する列ベクトル成分とが交差する位置において要素が反応する行列を用いて、前記第１画像中の物体と前記第２画像中の物体との対応関係を示し、
　前記第２生成手段は、前記行ベクトル成分及び各列ベクトル成分の夫々をソフトマックス関数で正規化することで、前記行列を正規化する
　付記１から４のいずれか一項に記載の物体追跡装置。
［付記６］
　前記対応情報を用いて前記第２位置情報を補正する補正手段を更に備える
　付記１から４のいずれか一項に記載の物体追跡装置。
［付記７］
　前記補正手段は、前記対応情報を重みとして用いる注意機構を用いて、前記第２位置情報を補正する
　付記６に記載の物体追跡装置。
［付記８］
　前記対応情報は、行列を用いて前記第１画像中の物体と前記第２画像中の物体との対応関係を示し、
　前記第２位置情報は、前記第２画像中の物体の位置に関する情報を示す位置マップを含み、
　前記注意機構は、前記位置マップと前記対応マップとの行列積を算出する処理を行うことで、前記第２位置情報である前記位置マップを補正する
　付記７に記載の物体追跡装置。
［付記９］
　前記注意機構は、前記位置マップと前記対応情報との行列積を算出することで得られる補正マップを前記位置マップに加算する処理を行うことで、前記第２位置情報である前記位置マップを補正する
　付記８に記載の物体追跡装置。
［付記１０］
　前記第１生成手段は、前記第１及び第２画像が入力されると前記第１及び第２位置情報を夫々出力する演算モデルから、前記第１及び第２位置情報と、前記演算モデルの中間出力に相当する中間出力情報とを取得し、
　前記第１生成手段は、前記第１及び第２位置情報と前記中間出力情報とに基づいて前記第１及び第２特徴ベクトルを算出する
　付記１から９のいずれか一項に記載の物体追跡装置。
［付記１１］
　前記第１及び第２画像から前記第１及び第２位置情報を生成する第３生成手段と、
　前記対応情報を用いて前記第２位置情報を補正する補正手段と、
　学習用の前記第１及び第２画像を含む学習用データを前記第３生成手段に入力し、前記学習用データが前記第３生成手段に入力された場合に前記補正手段が補正した前記第２位置情報に関する第１損失関数に基づいて、前記第１から第３生成手段及び前記補正手段のうちの少なくとも一つの動作内容を規定する学習モデルを更新する学習手段と
　を更に備える付記１から１０のいずれか一項に記載の物体追跡装置。
［付記１２］
　前記学習手段は、前記第１損失関数と、前記学習用データが前記第３生成手段に入力された場合に前記第３生成手段が生成した前記第１位置情報に関する第２損失関数と、前記学習用データが前記第３生成手段に入力された場合に前記第３生成手段が生成した前記第２位置情報に関する第３損失関数とに基づいて、前記学習モデルを更新し、
　前記学習手段は、前記第１及び第３損失関数全体の重みと、前記第２損失関数の重みとが等しくなるように、前記第１から第３損失関数に対して重み付け処理を施し、前記重み付け処理が施された前記第１から第３損失関数に基づいて、前記学習モデルを生成する
　付記１１に記載の物体追跡装置。
［付記１３］
　前記学習手段は、前記第１時刻と前記第２時刻との間隔が異なる複数の前記学習用データを前記第１生成手段に入力する
　付記１１又は１２に記載の物体追跡装置。
［付記１４］
　第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成することと、
　前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成することと
　を含む物体追跡方法。
［付記１５］
　コンピュータに物体追跡方法を実行させるコンピュータプログラムが記録された、一時的でない記録媒体であって、
　前記物体追跡方法は、
　第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成することと、
　前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成することと
　を含む記録媒体。
［付記１６］
　コンピュータに物体追跡方法を実行させるコンピュータプログラムであって、
　前記物体追跡方法は、
　第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成することと、
　前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成することと
　を含むコンピュータプログラム。

　本発明は、請求の範囲及び明細書全体から読み取るこのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う物体追跡装置、物体追跡方法及び記録媒体もまた本発明の技術思想に含まれる。

　１　物体追跡装置
　２　演算装置
　２１　物体検出部
　２２　物体照合部
　２２１、２２３　特徴マップ変換部
　２２２、２２４　特徴ベクトル変換部
　２２５　行列演算部
　２３　リファイン部
　２３１　行列演算部
　２３２　特徴ベクトル変換部
　２３３　特徴マップ変換部
　２３４　残差処理部
　２３５　特徴マップ変換部
　３　記憶装置
　３１　画像ＤＢ
　３２　物体検出ＤＢ
　３３　物体照合ＤＢ

Claims

　第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成する第１生成手段と、
　前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成する第２生成手段と
　を備える物体追跡装置。
　前記演算処理は、前記第１特徴ベクトルと第２特徴ベクトルとの行列積を算出する処理を含む
　請求項１に記載の物体追跡装置。
　前記対応情報は、行列を用いて前記第１画像中の物体と前記第２画像中の物体との対応関係を示す
　請求項１又は２に記載の物体追跡装置。
　前記第２生成手段は、前記行列の一の行のベクトル成分及び前記行列の一の列のベクトル成分の夫々をソフトマックス関数で正規化することで、前記行列を正規化する
　請求項１から３のいずれか一項に記載の物体追跡装置。
　前記対応情報は、前記第１及び第２画像のいずれか一方中の一の物体に対応する行ベクトル成分と前記第１及び第２画像のいずれか他方中の前記一の物体に対応する列ベクトル成分とが交差する位置において要素が反応する行列を用いて、前記第１画像中の物体と前記第２画像中の物体との対応関係を示し、
　前記第２生成手段は、前記行ベクトル成分及び各列ベクトル成分の夫々をソフトマックス関数で正規化することで、前記行列を正規化する
　請求項１から４のいずれか一項に記載の物体追跡装置。
　前記対応情報を用いて前記第２位置情報を補正する補正手段を更に備える
　請求項１から５のいずれか一項に記載の物体追跡装置。
　前記補正手段は、前記対応情報を重みとして用いる注意機構を用いて、前記第２位置情報を補正する
　請求項６に記載の物体追跡装置。
　前記対応情報は、行列を用いて前記第１画像中の物体と前記第２画像中の物体との対応関係を示し、
　前記第２位置情報は、前記第２画像中の物体の位置に関する情報を示す位置マップを含み、
　前記注意機構は、前記位置マップと前記対応情報との行列積を算出する処理を行うことで、前記第２位置情報である前記位置マップを補正する
　請求項７に記載の物体追跡装置。
　前記注意機構は、前記位置マップと前記対応情報との行列積を算出することで得られる補正マップを前記位置マップに加算する処理を行うことで、前記第２位置情報である前記位置マップを補正する
　請求項８に記載の物体追跡装置。
　前記第１生成手段は、前記第１及び第２画像が入力されると前記第１及び第２位置情報を夫々出力する演算モデルから、前記第１及び第２位置情報と、前記演算モデルの中間出力に相当する中間出力情報とを取得し、
　前記第１生成手段は、前記第１及び第２位置情報と前記中間出力情報とに基づいて前記第１及び第２特徴ベクトルを算出する
　請求項１から９のいずれか一項に記載の物体追跡装置。
　前記第１及び第２画像から前記第１及び第２位置情報を生成する第３生成手段と、
　前記対応情報を用いて前記第２位置情報を補正する補正手段と、
　学習用の前記第１及び第２画像を含む学習用データを前記第３生成手段に入力し、前記学習用データが前記第３生成手段に入力された場合に前記補正手段が補正した前記第２位置情報に関する第１損失関数に基づいて、前記第１から第３生成手段及び前記補正手段のうちの少なくとも一つの動作内容を規定する学習モデルを更新する学習手段と
　を更に備える請求項１から１０のいずれか一項に記載の物体追跡装置。
　前記学習手段は、前記第１損失関数と、前記学習用データが前記第３生成手段に入力された場合に前記第３生成手段が生成した前記第１位置情報に関する第２損失関数と、前記学習用データが前記第３生成手段に入力された場合に前記第３生成手段が生成した前記第２位置情報に関する第３損失関数とに基づいて、前記学習モデルを更新し、
　前記学習手段は、前記第１及び第３損失関数全体の重みと、前記第２損失関数の重みとが等しくなるように、前記第１から第３損失関数に対して重み付け処理を施し、前記重み付け処理が施された前記第１から第３損失関数に基づいて、前記学習モデルを生成する
　請求項１１に記載の物体追跡装置。
　前記学習手段は、前記第１時刻と前記第２時刻との間隔が異なる複数の前記学習用データセットを前記第１生成手段に入力する
　請求項１１又は１２に記載の物体追跡装置。
　第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成することと、
　前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成することと
　を含む物体追跡方法。
　コンピュータに物体追跡方法を実行させるコンピュータプログラムが記録された、一時的でない記録媒体であって、
　前記物体追跡方法は、
　第１時刻に撮影された第１画像中の物体の位置に関する第１位置情報及び前記第１時刻とは異なる第２時刻に撮影された第２画像中の物体の位置に関する第２位置情報に基づいて、前記第１位置情報の特徴量を示す第１特徴ベクトルと、前記第２位置情報の特徴量を示す第２特徴ベクトルとを生成することと、
　前記第１及び第２特徴ベクトルを用いた演算処理によって得られる情報を、前記第１画像中の物体と前記第２画像中の物体との対応関係を示す対応情報として生成することと
　を含む記録媒体。