JP2019020777A

JP2019020777A - 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体

Info

Publication number: JP2019020777A
Application number: JP2017135652A
Authority: JP
Inventors: 池田　和世; Kazuyo Ikeda; 和世池田; 椎山　弘隆; Hirotaka Shiiyama; 弘隆椎山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-07-11
Filing date: 2017-07-11
Publication date: 2019-02-07
Also published as: US20190019016A1; US10467461B2

Abstract

【課題】複数のカメラが設置された領域において、対象となる人物（物体）が各カメラに写ったことを効率よく把握することができる情報処理装置を提供する。
【解決手段】情報処理装置は、複数のカメラが設置された小域において各カメラが撮像した動画を取得し、取得した動画のフレーム画像中に出現する物体を検出する。また、検出した物体の画像特徴（特徴量）を抽出して記憶する。検索時に指定された物体の特徴量を用いて検索を行った後、得られた検索結果の物体を追尾して取得した特徴量を用いて再度検索を行う。
【選択図】図３

Description

本発明は、複数の撮像装置で撮像された物体を検索して把握する技術に関する。

近年、セキュリティのために店舗内への複数の監視カメラを設置するケースが増えてきている。また、監視目的の映像を取得するだけでなく、映像中の人物を検出して各カメラ間の撮像結果に基づいて人物を照合する。このようにして、店舗内での人物の移動経路や所定場所での滞留時間の分析を行い当該店舗のマーケティング調査に使用することも提案されている。なお、カメラ間の撮像結果に基づいて人物を照合する方法としては、顔認証を利用する方法が一般的に行われている。

例えば、特許文献１では、店舗の入り口に設置されたカメラに写った人物の顔画像を認証すべき顔画像として登録し、店舗内の各カメラに写った人物の顔画像と登録された顔画像を照合する方法を提案している。照合によって同一人物と判定された結果を利用することにより、店舗内での移動経路を求めることが可能になり、また、照合された時間を計測することにより滞留時間を求めることが可能になる、としている。

ところで、入口に設置されたカメラで撮像される顔画像と、店舗内の各カメラで撮像される顔画像とでは、照明の条件やカメラの光軸と顔の向きの関係が異なっている。そのため、各顔画像の類似度が低下してしまい照合に失敗することがあり、移動経路や滞留時間を正しく求めることができなくなる状況が発生することがある。
このような問題に対し、特許文献１では、照合に失敗した顔画像の類似度を判定するための閾値に応じて、２枚目以降の顔画像を追加登録してそれ以降は２枚目以降の顔画像も照合に用いる、としている。

特開２０１０−５５５９４号公報

しかしながら、特許文献１に開示されている逐次的に顔画像を追加登録する方法では、追加登録される前の照合においては失敗が生じてしまう可能性がある。また、追加登録するために用いる基準が照合時の類似度だけであるため、本人とは別の人物に対して顔画像を登録してしまう可能性があり、別の人物に対して照合を行ってしまうことがある。

例えば、類似画像検索システムのように、単純に事前に用意した顔画像を用いて後から顔の類似度を用いて検索するだけでは、検索結果として採用する類似度の閾値の値を高くすると検索漏れが発生することがある。また、閾値の値を低くしてしまうと検索で指定した人物とは異なる別の人物が検索結果として出力されてしまう、という問題がある。
このように照合の誤りや検索の誤り等が発生した場合には移動経路や滞留時間を正確に求めることができない、という課題が残る。

本発明は、複数の撮像装置が設置された領域において、対象となる人物（物体）が各撮像装置に写ったことを効率よく把握することができる情報処理装置を提供することを、主たる目的とする。

本発明の情報処理装置は、複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する動画取得手段と、前記動画取得手段が取得した動画のフレーム画像中に出現する物体を検出する物体検出手段と、前記物体検出手段が検出した物体の画像特徴を取得する第一物体特徴取得手段と、前記第一物体特徴取得手段が取得した画像特徴を記憶する物体特徴記憶手段と、前記物体検出手段が検出した物体を一つの動画の中で追尾する物体追尾手段と、前記物体検出手段が検出した物体の中から検索対象の物体の画像特徴を取得する第二物体特徴取得手段と、前記第二物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する第一物体検索手段と、前記物体特徴記憶手段に記憶された画像特徴の中から、前記第一物体検索手段が特定した物体に対応する前記物体追尾手段が追尾した物体の画像特徴を取得する第三物体特徴取得手段と、前記第三物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する第二物体検索手段と、を有することを特徴とする。

本発明によれば、複数の撮像装置が設置された領域において、対象となる人物（物体）が各撮像装置に写ったことを効率よく把握することができる。

第１実施形態に係る情報処理システムの構成の一例を示す図。情報処理装置がネットワークカメラを介して店舗内での人物の移動経路や滞留時間を導出するユースケースを説明するための図。情報処理装置の機能構成の一例を説明するための図。情報処理装置が店舗内の人物の動き（入店、退出及び店舗内における移動）を記録する処理手順の一例を示すフローチャート。情報処理装置が店舗内の人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出する処理手順の一例を示すフローチャート。ステップＳ５１０の処理の詳細を示すフローチャート。第２実施形態に係る情報処理装置の機能構成の一例を示す図。情報処理装置が店舗内の人物の動き（入店、退出及び店舗内における移動）を記録する処理手順の一例を示すフローチャート。情報処理装置が店舗内の人物の動きを解析し、その結果に基づいて人物の移動経路と滞留時間を導出する処理手順の一例を示すフローチャート。

以下、本発明の実施形態について図面を参照して詳細に説明する。なお、以下で説明する実施形態は、本発明を具体的に実施した場合の一例を示すものであり、これに限るものではない。

［第１実施形態］
図１は、本実施形態に係る情報処理システムの構成の一例を示す図である。
情報処理システムＳは、情報処理装置３００、入力デバイス３０９、モニタ３１０、ネットワークカメラ３１２を含んで構成される。
なお、情報処理装置３００のハードウェア構成は、例えば図１に示すように単一の情報処理装置として構成してもよいし、サーバ装置やクライアント装置等のように複数の情報処理装置に各機能を分散して構成してもよい。例えば、複数の情報処理装置で構成する場合には、互いに通信可能となるようにＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ（ＬＡＮ）などを介して接続する。また、情報処理装置は、パーソナルコンピュータ（ＰＣ）やワークステーション（ＷＳ）等の情報処理装置によって実現することができる。

情報処理装置３００は、ＣＰＵ（Central Processing Unit）３０１、ＲＯＭ（Read Only Memory）３０２、ＲＡＭ（Random Access Memory）３０３、外部記憶装置３０４を含んで構成される。情報処理装置３００は、また、入力デバイスＩ／Ｆ（インターフェイス）３０５、出力デバイスＩ／Ｆ３０６、通信Ｉ／Ｆ３０７、システムバス３０８を有する。

ＣＰＵ３０１は、情報処理装置３００の動作を統括的に制御する。ＲＯＭ３０２は、変更を必要としないプログラムやパラメータを格納する。ＲＡＭ３０３は、外部装置などから供給されるプログラムやデータを一時記憶する。
なお、後述する情報処理装置３００の各動作は、ＲＯＭ３０２等のコンピュータ読み取り可能な記憶媒体に格納されたプログラムをＣＰＵ３０１が実行することにより実行される。

外部記憶装置３０４は、情報処理装置３００に設置されたハードディスクやメモリカードなどの記憶装置である。なお、外部記憶装置３０４は、情報処理装置３００から着脱可能なフレキシブルディスク（ＦＤ）やＣｏｍｐａｃｔＤｉｓｋ（ＣＤ）等の光ディスク、磁気や光カード、ＩＣカード、メモリカードなどを用いて構成することができる。
入力デバイスＩ／Ｆ３０５は、データを入力するポインティングデバイスやキーボードなどの入力デバイス３０９を介したユーザからの操作を受けるためのインターフェイスである。
出力デバイスＩ／Ｆ３０６は、表示装置として機能するモニタ３１０の表示画面に情報処理装置３００が保持するデータ、あるいは当該情報処理装置３００に供給されたデータなどを表示するためのインターフェイスである。
通信Ｉ／Ｆ３０７は、情報処理装置３００とインターネットなどのネットワーク回線３１１とを接続するための通信インターフェイスである。
システムバス３０８は、３０１〜３０７の各ユニットを通信可能に接続する伝送路である。

ネットワークカメラ３１２は、例えば店舗内の状況を監視するために設置された監視カメラなど映像を撮像する撮像装置である。ネットワークカメラ３１２は、ネットワーク回線３１１を介して情報処理装置３００に接続される。

図２は、情報処理装置３００がネットワークカメラを介して店舗内での人物の移動経路や滞留時間を導出するユースケースを説明するための図である。
図２では、例えば店舗内における陳列棚のレイアウトに対応してネットワークカメラを配置した一例を示している。また、情報処理システムＳでは、店舗内に存在する人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出するものとして説明を進める。

ネットワークカメラ２０１、２０２は、店舗の出入口方向を撮像するように配置されており、店舗内から外へ出ていく（退出する）人物を撮像する。ネットワークカメラ２０３、２０４は、店舗の出入口方向を撮像するように配置されており、外から店舗内に入ってくる人物を撮像する。ネットワークカメラ２０５〜２１６は、店舗内における陳列棚のレイアウトに対応して配置されており、店舗内に存在する人物を撮像する。
このように所定の領域（エリア）に配置されたネットワークカメラ２０１〜２１６の撮像結果（動画）を用いて、店舗内における人物の移動経路や滞留時間を求めるものとする。なお、ネットワークカメラ２０１〜２１６は、図１に示すネットワークカメラ３１２に対応するものである。

図３は、情報処理装置３００の機能構成の一例を説明するための図である。
情報処理装置３００は、動画取得部１００、物体検出部１１０、物体追尾部１２０、第一物体特徴取得部１３０、物体特徴記憶部１４０、第二物体特徴取得部１５０、第一物体検索部１６０、第三物体特徴取得部１７０、第二物体検索部１８０を含んで構成される。

動画取得部１００は、ネットワークカメラ２０１〜２１６それぞれの撮像結果（例えば、動画）を取得する。
物体検出部１１０は、動画取得部１００が取得した各動画に基づいて、動画のフレーム画像中に出現する物体を検出する。なお、本実施形態に係る情報処理装置３００では、「物体」は人物であり、物体検出部１１０は人物の顔（顔の位置）を検出するものとして説明を進める。

物体追尾部１２０は、物体検出部１１０を介して検出された人物の顔に基づいて、当該人物の追尾を行う。具体的には、動画取得部１００が取得した一つの動画の中のフレームに対して同一人物の「顔」の対応付けを行い同一の人物（物体）として特定する。そして、動画中に出現した人物に対して他人と区別するための人物ＩＤを付与して、各人物の動画中の出現時刻と消失時刻を導出する。このようにして追尾することにより、人物の移動経路を把握することができる。

第一物体特徴取得部１３０は、物体検出部１１０が検出した人物の顔画像に基づいて、当該人物を識別するための特徴量（クエリ特徴量）を抽出して画像の特徴量（画像特徴）を取得する。
物体特徴記憶部１４０は、第一物体特徴取得部１３０が取得した画像特徴（特徴量）を外部記憶装置３０４に記憶する。画像の特徴量は、物体追尾部１２０が付与した人物ＩＤ、人物の出現時刻と消失時刻、人物が写ったカメラを一意に識別するためのカメラＩＤとを関連付けて記憶する。
第二物体特徴取得部１５０は、店舗内から店舗外へ出ていく人物を撮像するネットワークカメラ２０１、２０２が取得した撮像結果（動画）に基づいて人物の顔の画像特徴（特徴量）を取得する。なお、第二物体特徴取得部１５０による人物の顔画像の特徴量の取得は、物体特徴記憶部１４０に記憶されている顔画像の特徴量を取得するように構成してもよい。
なお、情報処理システムＳでは、店舗内の人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出することから、店舗内へ入り、その後店舗外へ退出した人物が検索対象の人物（物体）となる。

第一物体検索部１６０は、第二物体特徴取得部１５０が取得した顔画像の特徴量に基づいて、物体特徴記憶部１４０に記憶されている各ネットワークカメラ（２０３〜２１６）のカメラに写った人物の顔を検索する。具体的には、例えばクエリ特徴量と物体特徴記憶部１４０に記憶されている画像特徴（特徴量）の類似度を計算し、計算結果に基づいて所定の類似度以上の特徴量に対応した人物ＩＤを導出して人物を特定する。

第三物体特徴取得部１７０は、第一物体検索部１６０が導出した人物ＩＤに対応付けられた人物の顔画像の特徴量を物体特徴記憶部１４０から取得する。
第二物体検索部１８０は、第三物体特徴取得部１７０が取得した人物の顔画像の特徴量に基づいて、物体特徴記憶部１４０に記憶されている各ネットワークカメラ（２０３〜２１６）のカメラに写った人物の顔を検索する。

図４は、情報処理装置３００が店舗内の人物の動き（入店、退出及び店舗内における移動）を記録する処理手順の一例を示すフローチャートである。
なお、図４に示す各処理は、主としてＣＰＵ３０１により実行される。

ＣＰＵ３０１は、動画取得部１００を介して、各ネットワークカメラの撮像結果（動画）を取得する（Ｓ４０１）。
ＣＰＵ３０１は、物体検出部１１０を介して、動画取得部１００で取得された複数の動画それぞれのフレーム画像中に出現する顔（顔の位置）を検出する（Ｓ４０２）。なお、顔を検出する方法は、例えば広く知られているViola-Jones法を用いることができる。

ＣＰＵ３０１は、物体追尾部１２０を介して、物体検出部１１０が検出した各人物について、取得した各動画の中においてそれぞれの追尾を行う（Ｓ４０３）。この追尾は、例えば一つの動画中の各フレームに対して同一人物の顔の対応付けを行い、動画中に出現した人物に対して他人と区別するための人物ＩＤを付与する。
また、フレーム間における人物の対応付けは、カルマンフィルタ等を用いて過去のフレームの位置から現在のフレームの位置を予測し、予測した位置に最も近い位置に検出された顔を対応付けることによって行うことができる。また、カメラに対して人物が後向きになって顔が見えなくなった場合、人体を検出することによって顔の位置を推定することにより対応付けを行うことができる。
なお、人物（人体）を検出する方法は、例えばＤａｌａｌとＴｒｉｇｇｓが提案したＨＯＧ（ＨｉｓｔｏｇｒａｍｓＯｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）を特徴量として用いた検出方法等を用いることができる。

また、顔の検出も人体の検出もできない場合、色ヒストグラム等を用いたテンプレートマッチングを用いて対応付けを行なうことができる。ただし、テンプレートマッチングによる対応付けは信頼度が低いため、所定以上のフレームでテンプレートマッチングを行う場合には、追尾処理を打ち切って新たに別人として人物ＩＤを発行するものとする。
また、検出結果や位置の予測に基づいて、追尾する人物同士（物体同士）の交差が発生しそうか否かを判定して、交差が発生すると判定した場合には追尾を打ち切って、つまり追尾を終了して新たに別人として人物ＩＤを発行する。
これは、人物の追尾に誤りがある場合、第三物体特徴取得部１７０において第一物体検索部１６０を介して検索の対象とした人物以外の顔画像の特徴量を取得してしまい、第二物体検索部１８０において誤った検索を行うことを避けるためである。

ＣＰＵ３０１は、物体追尾部１２０を介して、追尾した各人物に対して各ネットワークカメラにおける出現時刻と消失時刻を導出する。出現時刻は、人物が物体検出部１１０において最初に検出された時刻であり、消失時刻は、人物の追尾を打ち切った時の時刻、もしくは人物が店舗内から退場して追尾が終了した時刻である。

ＣＰＵ３０１は、第一物体特徴取得部１３０を介して、物体検出部１１０が検出した人物の顔画像に基づいて、人物を識別するための顔画像の特徴量を抽出して画像特徴を取得する（Ｓ４０４）。なお、顔画像の特徴量の取得方法は、例えば顔画像の特徴量を求める方法として広く用いられているＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）を用いることができる。

ＣＰＵ３０１は、物体特徴記憶部１４０を介して、第一物体特徴取得部１３０が取得した画像特徴（特徴量）を外部記憶装置３０４に記憶する（Ｓ４０５）。
特徴量は、物体追尾部１２０で付与した人物ＩＤ、人物の出現時刻と消失時刻、人物が写ったネットワークカメラのカメラＩＤとを関連付けて記憶される。その後、ＣＰＵ３０１は、ステップＳ４０１の処理に戻る。

図５は、情報処理装置３００が店舗内の人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出する処理手順の一例を示すフローチャートである。なお、図５に示す各処理は、主としてＣＰＵ３０１により実行される。
ＣＰＵ３０１は、第二物体特徴取得部１５０、動画取得部１００を介して、ネットワークカメラ２０１、２０２の撮像結果（動画）を取得する（Ｓ５０１）。
ＣＰＵ３０１は、第二物体特徴取得部１５０、物体検出部１１０を介して、ステップ５０１の処理において取得した複数の動画の各フレーム画像中に出現する顔（顔の位置）を検出する（Ｓ５０２）。

ＣＰＵ３０１は、第二物体特徴取得部１５０、物体追尾部１２０を介して、ステップ５０２の処理において検出された各人物について、取得した各動画の中においてそれぞれの追尾を行う（Ｓ５０３）。なお本処理は、ステップＳ４０３の処理と同様の処理であるため詳細な説明は省略するが、ステップＳ４０３の処理と同様に人物ＩＤを付与する。

ＣＰＵ３０１は、第二物体特徴取得部１５０、第一物体特徴取得部１３０を介して、ステップＳ５０２の処理において検出した人物の顔画像に基づいて、人物を識別するための顔画像の特徴量を抽出して画像特徴を取得する（Ｓ５０４）。なお本処理は、ステップＳ４０４の処理と同様の処理であるため詳細な説明は省略する。

ＣＰＵ３０１は、ステップＳ５０４の処理において取得した顔画像の特徴量をＲＡＭ３０３に一時記憶する（Ｓ５０５）。なお、特徴量はステップＳ５０３の処理において付与した人物ＩＤと関連付けて記憶する。

ＣＰＵ３０１は、第二物体特徴取得部１５０を介して、ステップＳ５０３の処理において追尾対象とした人物が店舗内から店舗外へ出たか否か、つまり追尾対象の人物が店舗内から外へ退場したか否かを判定する（Ｓ５０６）。
例えば、ネットワークカメラ２０１、２０２は、図２に示すように、店舗の出入口に向かって店舗の外から撮像しており、また、天井に設置されている。そのため、フレーム画像の下端に人物が消えていった時に店舗の外を出た（追尾対象の人物が退場した）と判定する。

ＣＰＵ３０１は、追尾対象の人物が店舗外へと退場したと判定した場合（Ｓ５０６：Ｙｅｓ）、ステップＳ５０７の処理に進む。また、そうでない場合（Ｓ５０６：Ｎｏ）、ステップＳ５０１の処理へ戻る。

ＣＰＵ３０１は、第二物体特徴取得部１５０を介して、ステップＳ５０６の処理において店舗外へと退場した人物の顔特徴を、ステップＳ５０５の処理において一時記憶しておいた顔画像の特徴量の中から取得する（Ｓ５０７）。なお、ステップＳ５０５の処理では、人物の顔画像の特徴量と人物ＩＤを関連付けて記憶しているため、ステップＳ５０３の処理において発行した人物ＩＤを用いることにより容易に顔画像の特徴量を取得することができる。

ＣＰＵ３０１は、第一物体検索部１６０を介して、ステップＳ５０７の処理において取得した顔画像の特徴量に基づいて、店舗外へと退場した人物と同一人物の人物ＩＤを物体特徴記憶部１４０が記憶した人物ＩＤの中から検索する（Ｓ５０８）。
具体的には、例えばステップＳ５０７の処理において取得した特徴量と物体特徴記憶部１４０に格納されている特徴量の類似度を算出する。類似度が所定の閾値以上である場合には、これに対応する人物ＩＤとカメラＩＤを検索結果として取得する。
なお、特徴量は一般的にベクトル表現されているため、類似度としてＬ２距離を類似度としてもよいし、内積を類似度としてもよい。また、ステップＳ５０７の処理では、一般的に複数の顔画像の特徴量が取得される。そのため、すべての特徴量を用いて検索を行ってもよいが、後述するステップＳ６０１の処理のように特徴量の数を削減した後に検索を行うように構成してもよい。

ＣＰＵ３０１は、第三物体特徴取得部１７０を介して、ステップＳ５０８の処理において検索した人物ＩＤに対応付けられた人物の顔の画像特徴（特徴量）を物体特徴記憶部１４０から取得する（Ｓ５０９）。
なお、物体特徴記憶部１４０にはステップＳ４０３の処理において追尾した結果取得した人物の顔画像の特徴量が全て人物ＩＤに対応づけられて記憶されている。そのため、第三物体特徴取得部１７０は、ステップＳ５０８の処理において検索された人物を追尾して顔画像の特徴量を取得しているともいえる。

ＣＰＵ３０１は、第二物体検索部１８０を介して、ステップＳ５０９の処理において取得した人物の顔画像の特徴量に基づいて、店舗外へと退場した人物と同一人物の人物ＩＤの特徴量を物体特徴記憶部１４０が記憶した人物ＩＤの中から検索する（Ｓ５１０）。ＣＰＵ３０１は、また、検索した特徴量とそれに対応した人物ＩＤとカメラＩＤを取得する。
本処理では、ステップＳ５０９の処理において取得した人物の顔画像の特徴量を用いることにより、ステップＳ５０８の処理において第一物体検索部１６０が検索できなかった人物ＩＤを検索することが可能になる。なお、本処理の詳細については、図６を用いて後述する。

ＣＰＵ３０１は、ステップＳ５０６の処理において店舗外へ退場した人物に対して、各ネットワークカメラに出現した時間、すなわち、各カメラに最初に写り始めた時刻（出現時刻）とカメラに写らなくなった時刻（消失時刻）を導出する（Ｓ５１１）。
ここでは、ステップＳ５１０の処理において検索した人物ＩＤに対応付けられて物体特徴記憶部１４０に記憶されている出現時刻のうち、最も古い時刻をカメラに最初に映り始めた時刻とする。また、ステップＳ５１０の処理において検索した人物ＩＤに対応付けられて物体特徴記憶部１４０に記憶されている消失時刻のうち、最も新しい時刻をカメラから写らなくなった消失時刻とする。

ＣＰＵ３０１は、ステップＳ５０６の処理において店舗外へ退場した人物の滞留時間（店舗内の滞在時間）を導出する（Ｓ５１２）。
例えば、ステップＳ５１１の処理において導出した各カメラの消失時刻から出現時刻を減算することにより、各カメラにおける滞留時間を導出することができる。また、ステップＳ５１１の処理において導出した各カメラの出現時刻のうち最も古いものを最古出現時刻とし、同様に消失時刻のうち最も新しいものを最新消失時刻とする。最新消失時刻から最古出現時刻を減算することにより、店舗外へ退場した人物の店舗内滞在時間（滞留時間）を導出することができる。

ＣＰＵ３０１は、また、ステップＳ５０６の処理において店舗外へ退場した人物の移動経路を導出して、滞留時間とともにモニタ３１０に表示する。
なお、移動経路は、各カメラの出現時刻を古い順に並べることにより対象となる人物が出現したカメラの順番、すなわち移動経路を導出することができる。
移動経路の表示は、例えば図２に示すような店舗のレイアウトと各ネットワークカメラをモニタ３１０の表示画面に表示して、順番に人物が出現したカメラに線を引いていくことにより移動経路を表示することができる。

なお、後述するステップＳ６０５の処理において、第二物体検索部１８０が類似度の閾値（類似するか否かを判定するための閾値）を下げて検索した人物ＩＤのみを含むカメラに対して引く線は、類似度の閾値を下げるごとに検索の信頼度が下がる。そのため、閾値の値に応じて線の色を変更して表示する。
また、滞留時間も同様に、類似度の閾値を下げるごとに信頼度が下がっていく。そのため、閾値を下げることによって追加された各カメラの出現時間が分かるように表示する。例えば、パイチャートや棒グラフのように、閾値毎の時間の比率を分かりやすく可視化できる表示形態を用いる。具体的には、滞留時間の閾値の値毎の比率を各カメラ毎の滞留時間、また、入店から退店までの滞留時間の数字表示とともに表示する。

ＣＰＵ３０１は、ステップＳ５０８およびステップＳ５１０の処理において検索された人物ＩＤに対応づけられて物体特徴記憶部１４０に格納されている情報、すなわち、顔画像の特徴量、出現時刻、消失時刻、カメラＩＤ、および、人物ＩＤをすべて削除する（Ｓ５１３）。
その後ＣＰＵ３０１は、ステップＳ５０１の処理に戻る。

図６は、ステップＳ５１０の処理の詳細を示すフローチャートである。
ＣＰＵ３０１は、ステップＳ５０９の処理において取得した顔画像の特徴量の数を削減する（Ｓ６０１）。顔画像の特徴量の数を削減する条件、つまり検索対象から除外する条件としては以下のようなものがある。例えば、ステップＳ５０８の処理において検索された顔画像の特徴量はすでに検索済みであるため削除する。また、後述するステップＳ６０２の処理において検索された顔画像の特徴量も削除する。

次に、カメラ毎に顔画像の特徴量を削減する。同じカメラに対応した特徴量同士で類似度を算出し、類似度が所定の閾値よりも高い場合には片方の特徴量を削除する。削除する基準としては、他の特徴量との類似度が閾値を超えた個数が多いものを削除する。個数が同じ場合は、他の特徴楼との類似度の合計が高いものを削除する。次に、すべてのカメラで残った特徴量に対して類似度を基準にして削除する。

なお、特徴量を削減する方法として撮像情景の類似性、つまり撮像条件の類似度に基づいた条件であってもよい。例えば、顔の向きや照明によって特徴量を分類しておき、顔の向きや照明毎にステップＳ５０７の処理において取得した顔画像の特徴量との類似度が最も低いものを選ぶようにしてもよい。
例えば、ステップＳ４０２の処理において顔を検出した後で顔の向きを求めておき、ステップＳ４０５の処理において顔画像の特徴量と対応させて顔の向きを記憶しておくことによって、本ステップで処理することが可能になる。

ＣＰＵ３０１は、ステップＳ６０１の処理において削減した顔画像の特徴量に基づいて、店舗外へ退場した人物と同一人物の人物ＩＤの特徴量を、物体特徴記憶部１４０が記憶した人物ＩＤの中から検索する（Ｓ６０２）。ＣＰＵ３０１は、特徴量とそれに対応した人物ＩＤとカメラＩＤを取得する。なお、本処理は、ステップＳ５０８の処理と同様の処理であるため詳細な説明は省略する。

ＣＰＵ３０１は、ステップＳ６０２の処理において検索した人物ＩＤの中から、移動経路として矛盾する人物ＩＤを削除する（Ｓ６０３）。ここで矛盾する人物ＩＤとは、例えばネットワークカメラ２０６、２１３ように、同時に写ることができないカメラの両方で同時刻に写っていると特定（検索）された人物ＩＤである。
具体的には、各カメラにおける出現時刻と消失時刻を導出した導出結果に基づいて、カメラ間で出現時間が重なっている場合、矛盾していると判定することができる。矛盾している場合には、ステップＳ５０８およびステップＳ６０２の処理において検索された特徴量に対して、ステップＳ５０７の処理において取得した特徴量との類似度を求めて最も低い特徴量を削除する。特徴量を削除することにより、それに対応した人物ＩＤも削除される。そして、再度、矛盾していないかどうかを判定し、矛盾が無くなるまで一つずつ類似度を削除する処理を繰り返す。

ＣＰＵ３０１は、移動経路として検索漏れが無いか否かを判定する（Ｓ６０４）。検索漏れがあると判定された場合（Ｓ６０４：Ｙｅｓ）、ステップＳ６０５の処理へ進む。
例えば、店舗に入ってくる人物を撮像するためのネットワークカメラ２０３、２０４のように、移動経路として必ず通らないといけないのにそのカメラで人物が検出できていない場合、経路的に矛盾があるものとして検索漏れがあると判定する。
なお、ネットワークカメラ２０３、２０４の両方に検索結果があるか否かは、それに対応したカメラＩＤが検索結果として残っているか否かにより判断することができる。

ＣＰＵ３０１は、ステップＳ６０２の処理において使用する類似度の閾値を所定の値だけ低下させる（Ｓ６０５）。
ＣＰＵ３０１は、ステップＳ６０５の処理において低下させた閾値の値が下限値であるか否かを判定する（Ｓ６０６）。下限値でない場合（Ｓ６０６：Ｎｏ）、ステップＳ６０７の処理へ進む。
ＣＰＵ３０１は、第三物体特徴取得部１７０を介して、ステップＳ６０３の処理において削除されずに残っている人物ＩＤに対応付けられた人物ＩＤに対応した人物の顔画像の特徴量を物体特徴記憶部１４０から取得する（Ｓ６０７）。その後ＣＰＵ３０１は、ステップＳ６０１へ戻る。

このように本実施形態に係る情報処理装置３００では、複数のカメラで撮像された物体（人物）を漏れなく誤ることなく検索することができる。具体的には、追尾された物体の画像特徴（特徴量）を抽出し、その特徴量を用いて検索を行う。

また、追尾された物体の特徴量は複数得られるためにそれをそのまま検索に用いてしまうと処理時間が長くなってしまう。情報処理装置３００では、類似する特徴量を削除してから検索を行うことにより、処理時間を短縮して効率よく検出することができる。
また、情報処理装置３００では、検索で使用する類似度の閾値を徐々に下げて検索を繰り返すことにより、検索漏れをさらに低減することができる。
また、情報処理装置３００では、人物同士が交差しそうな場合には追尾を打ち切ることにより、別の物体を検索することを防ぐことができる。また、人物がカメラに出現する時刻を導出することにより、各人物の店舗内の滞留時間を正確に求めることができる。

［第２実施形態］
以下、第１実施形態とは異なる機能構成を有する情報処理装置について説明する。
なお、第１実施形態において説明した機能構成と同じものは同一の符号を付すとともに、その説明を省略する。

図７は、本実施形態に係る情報処理装置３００の機能構成の一例を示す図である。
本実施形態に係る情報処理装置３００が有する動画取得部１００、物体検出部１１０、第一物体特徴取得部１３０は、第１実施形態において既に説明したものと同じ機能であるためその説明を省略する。
以下、本実施形態に係る物体追尾部１２０、物体特徴記憶部１４０、第二物体特徴取得部１５０、第一物体検索部１６０、第三物体特徴取得部１７０、第二物体検索部１８０について説明する。

物体特徴記憶部７４０は、第一物体特徴取得部１３０が取得した特徴量を外部記憶装置３０４に記憶する。
なお、本実施形態に係る特徴量は、物体検出部１１０が検出した顔の位置を示す矩形の座標、すなわち矩形左上と右下のＸ、Ｙ座標（位置情報）、顔が撮像された時刻（撮像時刻）、人物が写ったカメラを一意に識別するカメラＩＤとを対応づけて記憶するものとする。

第二物体特徴取得部７５０は、店舗内から店舗外へ出ていく人物を撮像するネットワークカメラ２０１、２０２が取得した撮像結果（動画）に基づいて人物の顔画像の特徴量を取得する。なお、第二物体特徴取得部７５０による人物の顔画像の特徴量の取得は、物体特徴記憶部７４０に記憶されている顔画像の特徴量を取得するように構成してもよい。

第一物体検索部７６０は、第二物体特徴取得部７５０が取得した顔画像の特徴量（クエリ特徴量）に基づいて、物体特徴記憶部７４０に記憶されているネットワークカメラ２０３から２１６のカメラに写った人物の顔を検索する。すなわち、クエリ特徴量と物体特徴記憶部７４０に記憶されている特徴量の類似度を計算し、所定の類似度以上の特徴量を求める。
物体追尾部７２０は、第一物体検索部７６０により検索された特徴量に対応付けられて物体特徴記憶部７４０に記憶された顔の位置を示す矩形の座標に基づいて、物体特徴記憶部７４０に格納されている顔画像の特徴量を追尾する。

第三物体特徴取得部７７０は、物体追尾部１２０が追尾した顔画像の特徴量を物体特徴記憶部７４０から取得する。
第二物体検索部７８０は、第三物体特徴取得部７７０が取得した人物の顔画像の特徴量に基づいて、物体特徴記憶部７４０に記憶されている各ネットワークカメラ（２０３〜２１６）のカメラに写った人物の顔を検索する。

図８に、本実施形態に係る情報処理装置３００が店舗内の人物の動き（入店、退出及び店舗内における移動）を記録する処理手順の一例を示すフローチャートである。
なお、図８に示す各処理は、主としてＣＰＵ３０１により実行される。また、ステップＳ８０１、Ｓ８０２、Ｓ８０４の処理は、それぞれ図４に示すステップＳ４０１、Ｓ４０３、Ｓ４０４の処理と同じ処理であるため説明は省略する。同様に、ステップＳ９１０〜Ｓ９１３の各処理は、それぞれ図４に示すステップＳ５１０〜Ｓ５１３の処理と同じ処理であるため説明は省略する。

ＣＰＵ３０１は、物体特徴記憶部７４０を介して、第一物体特徴取得部１３０が取得した特徴量を外部記憶装置３０４に記憶する（Ｓ８０５）。
特徴量は、物体検出部１１０が検出した顔の位置を示す矩形の座標、すなわち矩形左上と右下のＸ、Ｙ座標、顔が撮像された時の時刻（撮像時刻）、人物が写ったネットワークカメラのカメラＩＤとを対応づけて記憶される。その後、ＣＰＵ３０１は、ステップＳ８０１の処理に戻る。

図９は、本実施形態に係る情報処理装置３００が店舗内の人物の動きを解析し、その結果に基づいて人物の移動経路と滞留時間を導出する処理手順の一例を示すフローチャートである。なお、図９に示す各処理は、主としてＣＰＵ３０１により実行される。
なお、ステップＳ９０１〜Ｓ９０７の各処理は、図５に示すステップＳ５０１〜Ｓ５０７の各処理と同じ処理であるため説明を省略する。ただし、本実施形態においてはステップＳ９０３の処理は必須のものではない。また、ステップＳ９０３の処理を行わない場合、ステップＳ９０５の処理において特徴量を人物ＩＤと対応付ける必要はない。

また、ステップＳ９０６の処理では、ステップＳ９０２の処理においてフレーム画像の下端で顔が検出された場合には当該顔の人物が店舗外へ退場したと判定する。
また、ステップＳ９０７の処理では、フレーム画像の下端で検出された顔以外の特徴量はＲＡＭ３０３から削除する。

ＣＰＵ３０１は、第一物体検索部７６０を介して、ステップＳ９０７の処理において取得した顔画像の特徴量に基づいて、店舗外へ退場した人物と同一人物の顔画像の特徴量を物体特徴記憶部７４０から検索する（Ｓ９０８）。
本処理では、検索方法はステップＳ５０８の処理と同じであるが、検索結果として人物ＩＤを求める必要はない。人物ＩＤの導出に代わり、顔画像の特徴量と関連付けられて物体特徴記憶部７４０に記憶されている顔の位置を示す矩形の座標（顔矩形座標）、撮像時刻、カメラＩＤを検索結果として取得する。

ＣＰＵ３０１は、物体追尾部７２０を介して、ステップＳ９０８の処理における検索結果に基づいて、各カメラＩＤ毎に物体特徴記憶部７４０に記憶されている顔を追尾する。
この追尾は、例えば検索結果として得られた撮像時刻の前後の近傍時刻で撮像された顔の矩形座標に基づいて、カルマンフィルタ等を用いて時間および位置関係から検索結果と同一人物とみなせる顔を特定することにより行うことができる。
なお、物体特徴記憶部７４０には顔画像の特徴量が記憶されているため、人物が交差した場合など判断が困難になることがある。このような場合には、特徴量の類似度に応じて同一人物と判定してもよい。追尾によって同一人物であるとみなされた顔に対しては、人物を区別するための人物ＩＤを付与して物体特徴記憶部１４０に記憶する。

ＣＰＵ３０１は、第三物体特徴取得部７７０を介して、同一人物と判定された顔画像の特徴量を物体特徴記憶部７４０から取得する（Ｓ９０９）。

このように本実施形態に係る情報処理装置３００では、撮像時刻を利用して矛盾する検索結果を削除することができる。これにより、別の物体を検索してしまうことを効果的に防ぐことができる。また、移動経路や滞留時間をより正確に求めることが可能になる。
また、第二物体検索手段で使用した類似度の閾値の値に応じて移動経路や滞留時間の表示形態を変化させることにより、移動経路や滞留時間の信頼性を判断することが可能になる。

なお、各実施形態においては、店舗内の複数のカメラで人物を検索し、移動経路と滞留時間を求める例を示した。これに限らず本発明は、店舗とは異なるエリアに設置された複数のカメラに写った人物以外の物体の検索、および、移動経路と滞留時間の導出に幅広く適用可能である。
例えば、市街地の人の流れを解析するために、市街地のエリア内に入ってくる人と出ていく人を撮像するカメラを含めた複数のカメラを設置し、エリア内に入ってから出ていくまでの人の移動経路や滞留時間を求めることができる。このような場合は、個人を識別するために顔画像の特徴量を用いずに、服装、体型、歩き方などの、人体の特徴を用いてもよい。
また、牧場内での家畜の行動を観察するために、牧場内に複数のカメラを設置し、家畜小屋から外に出てから家畜小屋に戻ってくるまでの移動経路と滞留時間を求める用途にも適用可能である。この場合は、家畜を識別するために、例えば、白黒の斑のある牛に対しては、斑のパターンで家畜の個体を識別することが可能である。

本発明は、上述の実施形態の１以上の機能を実現するコンピュータプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがコンピュータプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上記説明した実施形態は、本発明をより具体的に説明するためのものであり、本発明の範囲が、これらの例に限定されるものではない。

Claims

複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する動画取得手段と、
前記動画取得手段が取得した動画のフレーム画像中に出現する物体を検出する物体検出手段と、
前記物体検出手段が検出した物体の画像特徴を取得する第一物体特徴取得手段と、
前記第一物体特徴取得手段が取得した画像特徴を記憶する物体特徴記憶手段と、
前記物体検出手段が検出した物体を一つの動画の中で追尾する物体追尾手段と、
前記物体検出手段が検出した物体の中から検索対象の物体の画像特徴を取得する第二物体特徴取得手段と、
前記第二物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する第一物体検索手段と、
前記物体特徴記憶手段に記憶された画像特徴の中から、前記第一物体検索手段が特定した物体に対応する前記物体追尾手段が追尾した物体の画像特徴を取得する第三物体特徴取得手段と、
前記第三物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する第二物体検索手段と、を有することを特徴とする、
情報処理装置。
前記物体特徴記憶手段は、前記物体追尾手段が追尾対象とした物体と、当該物体の画像特徴とを関連付けて記憶することを特徴とする、
請求項１に記載の情報処理装置。
前記物体特徴記憶手段は、前記物体検出手段が検出した物体の位置情報を、当該物体の画像特徴と関連付けて記憶し、
前記物体追尾手段は、前記物体の位置情報に基づいて追尾を行うことを特徴とする、
請求項１又は２に記載の情報処理装置。
前記第二物体検索手段は、前記第三物体特徴取得手段が取得した画像特徴のうち、所定に条件に基づいて特定された画像特徴を除外して検索を行うことを特徴とする、
請求項１、２又は３に記載の情報処理装置。
前記条件は、前記物体追尾手段が追尾した物体における画像特徴の類似度、又は、撮像条件の類似度に基づく条件であることを特徴とする、
請求項４に記載の情報処理装置。
前記第二物体検索手段は、前記特定する際に使用する類似度の閾値を下げて検索を行うことを特徴とする、
請求項１乃至５いずれか一項に記載の情報処理装置。
前記物体追尾手段は、追尾対象の物体同士が交差するか否かを判定し、交差すると判定した場合には追尾を終了することを特徴とする、
請求項１乃至６いずれか一項に記載の情報処理装置。
前記物体特徴記憶手段は、前記画像特徴を前記動画が撮像された時刻と関連付けて記憶し、
前記第二物体検索手段の検索結果に基づいて、前記検索対象の物体が各動画において出現する時刻を導出する制御手段を有することを特徴とする、
請求項１乃至７いずれか一項に記載の情報処理装置。
前記第二物体検索手段は、前記制御手段の導出結果に基づいて、前記検索の結果から矛盾する検索結果を除外することを特徴とする、
請求項８に記載の情報処理装置。
前記制御手段は、前記導出結果に基づいて、少なくとも前記物体の移動経路、又は、滞留時間を算出することを特徴とする、
請求項９に記載の情報処理装置。
前記物体の移動経路、又は、滞留時間を表示する表示手段を有し、
前記表示手段は、前記第二物体検索手段が使用する類似度の閾値の値に応じて表示形態を変化させることを特徴とする、
請求項１０に記載の情報処理装置。
前記物体検出手段が検出する物体は、人物の顔、もしくは人体であることを特徴とする、
請求項１乃至１１いずれか一項に記載の情報処理装置。
情報処理装置の制御方法であって、
複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する工程と、
前記取得した動画のフレーム画像中に出現する物体を検出する工程と、
前記検出した物体の画像特徴を取得する工程と、
前記取得した画像特徴を記憶する工程と、
前記検出した物体を一つの動画の中で追尾する工程と、
前記検出した物体の中から検索対象の物体の画像特徴を取得する工程と、
前記取得した画像特徴に基づいて、前記記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する工程と、
前記記憶された画像特徴の中から、前記特定した物体に対応する前記追尾対象の物体の画像特徴を取得する工程と、
前記取得した画像特徴に基づいて、前記記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する工程と、を有することを特徴とする、
情報処理装置の制御方法。
コンピュータを情報処理装置として動作させるためのコンピュータプログラムであって、
前記コンピュータを、
複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する動画取得手段、
前記動画取得手段が取得した動画のフレーム画像中に出現する物体を検出する物体検出手段、
前記物体検出手段が検出した物体の画像特徴を取得する第一物体特徴取得手段、
前記第一物体特徴取得手段が取得した画像特徴を記憶する物体特徴記憶手段、
前記物体検出手段が検出した物体を一つの動画の中で追尾する物体追尾手段、
前記物体検出手段が検出した物体の中から検索対象の物体の画像特徴を取得する第二物体特徴取得手段、
前記第二物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する第一物体検索手段、
前記物体特徴記憶手段に記憶された画像特徴の中から、前記第一物体検索手段が特定した物体に対応する前記物体追尾手段が追尾した物体の画像特徴を取得する第三物体特徴取得手段、
前記第三物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する第二物体検索手段、として機能させることを特徴とする、
コンピュータプログラム。
請求項１４に記載のコンピュータプログラムをコンピュータが読み取り可能に記憶した記憶媒体。