JP2019020777A - 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体 - Google Patents
情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体 Download PDFInfo
- Publication number
- JP2019020777A JP2019020777A JP2017135652A JP2017135652A JP2019020777A JP 2019020777 A JP2019020777 A JP 2019020777A JP 2017135652 A JP2017135652 A JP 2017135652A JP 2017135652 A JP2017135652 A JP 2017135652A JP 2019020777 A JP2019020777 A JP 2019020777A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- image
- information processing
- person
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims description 97
- 238000004590 computer program Methods 0.000 title claims description 6
- 230000033001 locomotion Effects 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 30
- 238000003384 imaging method Methods 0.000 claims description 30
- 238000009795 derivation Methods 0.000 claims description 4
- 230000008094 contradictory effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 4
- 230000008034 disappearance Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 244000144972 livestock Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000519995 Stachys sylvatica Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
- G06V40/173—Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/90—Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】複数のカメラが設置された領域において、対象となる人物(物体)が各カメラに写ったことを効率よく把握することができる情報処理装置を提供する。
【解決手段】情報処理装置は、複数のカメラが設置された小域において各カメラが撮像した動画を取得し、取得した動画のフレーム画像中に出現する物体を検出する。また、検出した物体の画像特徴(特徴量)を抽出して記憶する。検索時に指定された物体の特徴量を用いて検索を行った後、得られた検索結果の物体を追尾して取得した特徴量を用いて再度検索を行う。
【選択図】図3
【解決手段】情報処理装置は、複数のカメラが設置された小域において各カメラが撮像した動画を取得し、取得した動画のフレーム画像中に出現する物体を検出する。また、検出した物体の画像特徴(特徴量)を抽出して記憶する。検索時に指定された物体の特徴量を用いて検索を行った後、得られた検索結果の物体を追尾して取得した特徴量を用いて再度検索を行う。
【選択図】図3
Description
本発明は、複数の撮像装置で撮像された物体を検索して把握する技術に関する。
近年、セキュリティのために店舗内への複数の監視カメラを設置するケースが増えてきている。また、監視目的の映像を取得するだけでなく、映像中の人物を検出して各カメラ間の撮像結果に基づいて人物を照合する。このようにして、店舗内での人物の移動経路や所定場所での滞留時間の分析を行い当該店舗のマーケティング調査に使用することも提案されている。なお、カメラ間の撮像結果に基づいて人物を照合する方法としては、顔認証を利用する方法が一般的に行われている。
例えば、特許文献1では、店舗の入り口に設置されたカメラに写った人物の顔画像を認証すべき顔画像として登録し、店舗内の各カメラに写った人物の顔画像と登録された顔画像を照合する方法を提案している。照合によって同一人物と判定された結果を利用することにより、店舗内での移動経路を求めることが可能になり、また、照合された時間を計測することにより滞留時間を求めることが可能になる、としている。
ところで、入口に設置されたカメラで撮像される顔画像と、店舗内の各カメラで撮像される顔画像とでは、照明の条件やカメラの光軸と顔の向きの関係が異なっている。そのため、各顔画像の類似度が低下してしまい照合に失敗することがあり、移動経路や滞留時間を正しく求めることができなくなる状況が発生することがある。
このような問題に対し、特許文献1では、照合に失敗した顔画像の類似度を判定するための閾値に応じて、2枚目以降の顔画像を追加登録してそれ以降は2枚目以降の顔画像も照合に用いる、としている。
このような問題に対し、特許文献1では、照合に失敗した顔画像の類似度を判定するための閾値に応じて、2枚目以降の顔画像を追加登録してそれ以降は2枚目以降の顔画像も照合に用いる、としている。
しかしながら、特許文献1に開示されている逐次的に顔画像を追加登録する方法では、追加登録される前の照合においては失敗が生じてしまう可能性がある。また、追加登録するために用いる基準が照合時の類似度だけであるため、本人とは別の人物に対して顔画像を登録してしまう可能性があり、別の人物に対して照合を行ってしまうことがある。
例えば、類似画像検索システムのように、単純に事前に用意した顔画像を用いて後から顔の類似度を用いて検索するだけでは、検索結果として採用する類似度の閾値の値を高くすると検索漏れが発生することがある。また、閾値の値を低くしてしまうと検索で指定した人物とは異なる別の人物が検索結果として出力されてしまう、という問題がある。
このように照合の誤りや検索の誤り等が発生した場合には移動経路や滞留時間を正確に求めることができない、という課題が残る。
このように照合の誤りや検索の誤り等が発生した場合には移動経路や滞留時間を正確に求めることができない、という課題が残る。
本発明は、複数の撮像装置が設置された領域において、対象となる人物(物体)が各撮像装置に写ったことを効率よく把握することができる情報処理装置を提供することを、主たる目的とする。
本発明の情報処理装置は、複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する動画取得手段と、前記動画取得手段が取得した動画のフレーム画像中に出現する物体を検出する物体検出手段と、前記物体検出手段が検出した物体の画像特徴を取得する第一物体特徴取得手段と、前記第一物体特徴取得手段が取得した画像特徴を記憶する物体特徴記憶手段と、前記物体検出手段が検出した物体を一つの動画の中で追尾する物体追尾手段と、前記物体検出手段が検出した物体の中から検索対象の物体の画像特徴を取得する第二物体特徴取得手段と、前記第二物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する第一物体検索手段と、前記物体特徴記憶手段に記憶された画像特徴の中から、前記第一物体検索手段が特定した物体に対応する前記物体追尾手段が追尾した物体の画像特徴を取得する第三物体特徴取得手段と、前記第三物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する第二物体検索手段と、を有することを特徴とする。
本発明によれば、複数の撮像装置が設置された領域において、対象となる人物(物体)が各撮像装置に写ったことを効率よく把握することができる。
以下、本発明の実施形態について図面を参照して詳細に説明する。なお、以下で説明する実施形態は、本発明を具体的に実施した場合の一例を示すものであり、これに限るものではない。
[第1実施形態]
図1は、本実施形態に係る情報処理システムの構成の一例を示す図である。
情報処理システムSは、情報処理装置300、入力デバイス309、モニタ310、ネットワークカメラ312を含んで構成される。
なお、情報処理装置300のハードウェア構成は、例えば図1に示すように単一の情報処理装置として構成してもよいし、サーバ装置やクライアント装置等のように複数の情報処理装置に各機能を分散して構成してもよい。例えば、複数の情報処理装置で構成する場合には、互いに通信可能となるようにLocal Area Network(LAN)などを介して接続する。また、情報処理装置は、パーソナルコンピュータ(PC)やワークステーション(WS)等の情報処理装置によって実現することができる。
図1は、本実施形態に係る情報処理システムの構成の一例を示す図である。
情報処理システムSは、情報処理装置300、入力デバイス309、モニタ310、ネットワークカメラ312を含んで構成される。
なお、情報処理装置300のハードウェア構成は、例えば図1に示すように単一の情報処理装置として構成してもよいし、サーバ装置やクライアント装置等のように複数の情報処理装置に各機能を分散して構成してもよい。例えば、複数の情報処理装置で構成する場合には、互いに通信可能となるようにLocal Area Network(LAN)などを介して接続する。また、情報処理装置は、パーソナルコンピュータ(PC)やワークステーション(WS)等の情報処理装置によって実現することができる。
情報処理装置300は、CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303、外部記憶装置304を含んで構成される。情報処理装置300は、また、入力デバイスI/F(インターフェイス)305、出力デバイスI/F306、通信I/F307、システムバス308を有する。
CPU301は、情報処理装置300の動作を統括的に制御する。ROM302は、変更を必要としないプログラムやパラメータを格納する。RAM303は、外部装置などから供給されるプログラムやデータを一時記憶する。
なお、後述する情報処理装置300の各動作は、ROM302等のコンピュータ読み取り可能な記憶媒体に格納されたプログラムをCPU301が実行することにより実行される。
なお、後述する情報処理装置300の各動作は、ROM302等のコンピュータ読み取り可能な記憶媒体に格納されたプログラムをCPU301が実行することにより実行される。
外部記憶装置304は、情報処理装置300に設置されたハードディスクやメモリカードなどの記憶装置である。なお、外部記憶装置304は、情報処理装置300から着脱可能なフレキシブルディスク(FD)やCompact Disk(CD)等の光ディスク、磁気や光カード、ICカード、メモリカードなどを用いて構成することができる。
入力デバイスI/F305は、データを入力するポインティングデバイスやキーボードなどの入力デバイス309を介したユーザからの操作を受けるためのインターフェイスである。
出力デバイスI/F306は、表示装置として機能するモニタ310の表示画面に情報処理装置300が保持するデータ、あるいは当該情報処理装置300に供給されたデータなどを表示するためのインターフェイスである。
通信I/F307は、情報処理装置300とインターネットなどのネットワーク回線311とを接続するための通信インターフェイスである。
システムバス308は、301〜307の各ユニットを通信可能に接続する伝送路である。
入力デバイスI/F305は、データを入力するポインティングデバイスやキーボードなどの入力デバイス309を介したユーザからの操作を受けるためのインターフェイスである。
出力デバイスI/F306は、表示装置として機能するモニタ310の表示画面に情報処理装置300が保持するデータ、あるいは当該情報処理装置300に供給されたデータなどを表示するためのインターフェイスである。
通信I/F307は、情報処理装置300とインターネットなどのネットワーク回線311とを接続するための通信インターフェイスである。
システムバス308は、301〜307の各ユニットを通信可能に接続する伝送路である。
ネットワークカメラ312は、例えば店舗内の状況を監視するために設置された監視カメラなど映像を撮像する撮像装置である。ネットワークカメラ312は、ネットワーク回線311を介して情報処理装置300に接続される。
図2は、情報処理装置300がネットワークカメラを介して店舗内での人物の移動経路や滞留時間を導出するユースケースを説明するための図である。
図2では、例えば店舗内における陳列棚のレイアウトに対応してネットワークカメラを配置した一例を示している。また、情報処理システムSでは、店舗内に存在する人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出するものとして説明を進める。
図2では、例えば店舗内における陳列棚のレイアウトに対応してネットワークカメラを配置した一例を示している。また、情報処理システムSでは、店舗内に存在する人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出するものとして説明を進める。
ネットワークカメラ201、202は、店舗の出入口方向を撮像するように配置されており、店舗内から外へ出ていく(退出する)人物を撮像する。ネットワークカメラ203、204は、店舗の出入口方向を撮像するように配置されており、外から店舗内に入ってくる人物を撮像する。ネットワークカメラ205〜216は、店舗内における陳列棚のレイアウトに対応して配置されており、店舗内に存在する人物を撮像する。
このように所定の領域(エリア)に配置されたネットワークカメラ201〜216の撮像結果(動画)を用いて、店舗内における人物の移動経路や滞留時間を求めるものとする。なお、ネットワークカメラ201〜216は、図1に示すネットワークカメラ312に対応するものである。
このように所定の領域(エリア)に配置されたネットワークカメラ201〜216の撮像結果(動画)を用いて、店舗内における人物の移動経路や滞留時間を求めるものとする。なお、ネットワークカメラ201〜216は、図1に示すネットワークカメラ312に対応するものである。
図3は、情報処理装置300の機能構成の一例を説明するための図である。
情報処理装置300は、動画取得部100、物体検出部110、物体追尾部120、第一物体特徴取得部130、物体特徴記憶部140、第二物体特徴取得部150、第一物体検索部160、第三物体特徴取得部170、第二物体検索部180を含んで構成される。
情報処理装置300は、動画取得部100、物体検出部110、物体追尾部120、第一物体特徴取得部130、物体特徴記憶部140、第二物体特徴取得部150、第一物体検索部160、第三物体特徴取得部170、第二物体検索部180を含んで構成される。
動画取得部100は、ネットワークカメラ201〜216それぞれの撮像結果(例えば、動画)を取得する。
物体検出部110は、動画取得部100が取得した各動画に基づいて、動画のフレーム画像中に出現する物体を検出する。なお、本実施形態に係る情報処理装置300では、「物体」は人物であり、物体検出部110は人物の顔(顔の位置)を検出するものとして説明を進める。
物体検出部110は、動画取得部100が取得した各動画に基づいて、動画のフレーム画像中に出現する物体を検出する。なお、本実施形態に係る情報処理装置300では、「物体」は人物であり、物体検出部110は人物の顔(顔の位置)を検出するものとして説明を進める。
物体追尾部120は、物体検出部110を介して検出された人物の顔に基づいて、当該人物の追尾を行う。具体的には、動画取得部100が取得した一つの動画の中のフレームに対して同一人物の「顔」の対応付けを行い同一の人物(物体)として特定する。そして、動画中に出現した人物に対して他人と区別するための人物IDを付与して、各人物の動画中の出現時刻と消失時刻を導出する。このようにして追尾することにより、人物の移動経路を把握することができる。
第一物体特徴取得部130は、物体検出部110が検出した人物の顔画像に基づいて、当該人物を識別するための特徴量(クエリ特徴量)を抽出して画像の特徴量(画像特徴)を取得する。
物体特徴記憶部140は、第一物体特徴取得部130が取得した画像特徴(特徴量)を外部記憶装置304に記憶する。画像の特徴量は、物体追尾部120が付与した人物ID、人物の出現時刻と消失時刻、人物が写ったカメラを一意に識別するためのカメラIDとを関連付けて記憶する。
第二物体特徴取得部150は、店舗内から店舗外へ出ていく人物を撮像するネットワークカメラ201、202が取得した撮像結果(動画)に基づいて人物の顔の画像特徴(特徴量)を取得する。なお、第二物体特徴取得部150による人物の顔画像の特徴量の取得は、物体特徴記憶部140に記憶されている顔画像の特徴量を取得するように構成してもよい。
なお、情報処理システムSでは、店舗内の人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出することから、店舗内へ入り、その後店舗外へ退出した人物が検索対象の人物(物体)となる。
物体特徴記憶部140は、第一物体特徴取得部130が取得した画像特徴(特徴量)を外部記憶装置304に記憶する。画像の特徴量は、物体追尾部120が付与した人物ID、人物の出現時刻と消失時刻、人物が写ったカメラを一意に識別するためのカメラIDとを関連付けて記憶する。
第二物体特徴取得部150は、店舗内から店舗外へ出ていく人物を撮像するネットワークカメラ201、202が取得した撮像結果(動画)に基づいて人物の顔の画像特徴(特徴量)を取得する。なお、第二物体特徴取得部150による人物の顔画像の特徴量の取得は、物体特徴記憶部140に記憶されている顔画像の特徴量を取得するように構成してもよい。
なお、情報処理システムSでは、店舗内の人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出することから、店舗内へ入り、その後店舗外へ退出した人物が検索対象の人物(物体)となる。
第一物体検索部160は、第二物体特徴取得部150が取得した顔画像の特徴量に基づいて、物体特徴記憶部140に記憶されている各ネットワークカメラ(203〜216)のカメラに写った人物の顔を検索する。具体的には、例えばクエリ特徴量と物体特徴記憶部140に記憶されている画像特徴(特徴量)の類似度を計算し、計算結果に基づいて所定の類似度以上の特徴量に対応した人物IDを導出して人物を特定する。
第三物体特徴取得部170は、第一物体検索部160が導出した人物IDに対応付けられた人物の顔画像の特徴量を物体特徴記憶部140から取得する。
第二物体検索部180は、第三物体特徴取得部170が取得した人物の顔画像の特徴量に基づいて、物体特徴記憶部140に記憶されている各ネットワークカメラ(203〜216)のカメラに写った人物の顔を検索する。
第二物体検索部180は、第三物体特徴取得部170が取得した人物の顔画像の特徴量に基づいて、物体特徴記憶部140に記憶されている各ネットワークカメラ(203〜216)のカメラに写った人物の顔を検索する。
図4は、情報処理装置300が店舗内の人物の動き(入店、退出及び店舗内における移動)を記録する処理手順の一例を示すフローチャートである。
なお、図4に示す各処理は、主としてCPU301により実行される。
なお、図4に示す各処理は、主としてCPU301により実行される。
CPU301は、動画取得部100を介して、各ネットワークカメラの撮像結果(動画)を取得する(S401)。
CPU301は、物体検出部110を介して、動画取得部100で取得された複数の動画それぞれのフレーム画像中に出現する顔(顔の位置)を検出する(S402)。なお、顔を検出する方法は、例えば広く知られているViola-Jones法を用いることができる。
CPU301は、物体検出部110を介して、動画取得部100で取得された複数の動画それぞれのフレーム画像中に出現する顔(顔の位置)を検出する(S402)。なお、顔を検出する方法は、例えば広く知られているViola-Jones法を用いることができる。
CPU301は、物体追尾部120を介して、物体検出部110が検出した各人物について、取得した各動画の中においてそれぞれの追尾を行う(S403)。この追尾は、例えば一つの動画中の各フレームに対して同一人物の顔の対応付けを行い、動画中に出現した人物に対して他人と区別するための人物IDを付与する。
また、フレーム間における人物の対応付けは、カルマンフィルタ等を用いて過去のフレームの位置から現在のフレームの位置を予測し、予測した位置に最も近い位置に検出された顔を対応付けることによって行うことができる。また、カメラに対して人物が後向きになって顔が見えなくなった場合、人体を検出することによって顔の位置を推定することにより対応付けを行うことができる。
なお、人物(人体)を検出する方法は、例えばDalalとTriggsが提案したHOG(Histograms Of Oriented Gradients)を特徴量として用いた検出方法等を用いることができる。
また、フレーム間における人物の対応付けは、カルマンフィルタ等を用いて過去のフレームの位置から現在のフレームの位置を予測し、予測した位置に最も近い位置に検出された顔を対応付けることによって行うことができる。また、カメラに対して人物が後向きになって顔が見えなくなった場合、人体を検出することによって顔の位置を推定することにより対応付けを行うことができる。
なお、人物(人体)を検出する方法は、例えばDalalとTriggsが提案したHOG(Histograms Of Oriented Gradients)を特徴量として用いた検出方法等を用いることができる。
また、顔の検出も人体の検出もできない場合、色ヒストグラム等を用いたテンプレートマッチングを用いて対応付けを行なうことができる。ただし、テンプレートマッチングによる対応付けは信頼度が低いため、所定以上のフレームでテンプレートマッチングを行う場合には、追尾処理を打ち切って新たに別人として人物IDを発行するものとする。
また、検出結果や位置の予測に基づいて、追尾する人物同士(物体同士)の交差が発生しそうか否かを判定して、交差が発生すると判定した場合には追尾を打ち切って、つまり追尾を終了して新たに別人として人物IDを発行する。
これは、人物の追尾に誤りがある場合、第三物体特徴取得部170において第一物体検索部160を介して検索の対象とした人物以外の顔画像の特徴量を取得してしまい、第二物体検索部180において誤った検索を行うことを避けるためである。
また、検出結果や位置の予測に基づいて、追尾する人物同士(物体同士)の交差が発生しそうか否かを判定して、交差が発生すると判定した場合には追尾を打ち切って、つまり追尾を終了して新たに別人として人物IDを発行する。
これは、人物の追尾に誤りがある場合、第三物体特徴取得部170において第一物体検索部160を介して検索の対象とした人物以外の顔画像の特徴量を取得してしまい、第二物体検索部180において誤った検索を行うことを避けるためである。
CPU301は、物体追尾部120を介して、追尾した各人物に対して各ネットワークカメラにおける出現時刻と消失時刻を導出する。出現時刻は、人物が物体検出部110において最初に検出された時刻であり、消失時刻は、人物の追尾を打ち切った時の時刻、もしくは人物が店舗内から退場して追尾が終了した時刻である。
CPU301は、第一物体特徴取得部130を介して、物体検出部110が検出した人物の顔画像に基づいて、人物を識別するための顔画像の特徴量を抽出して画像特徴を取得する(S404)。なお、顔画像の特徴量の取得方法は、例えば顔画像の特徴量を求める方法として広く用いられているLBP(Local Binary Pattern)を用いることができる。
CPU301は、物体特徴記憶部140を介して、第一物体特徴取得部130が取得した画像特徴(特徴量)を外部記憶装置304に記憶する(S405)。
特徴量は、物体追尾部120で付与した人物ID、人物の出現時刻と消失時刻、人物が写ったネットワークカメラのカメラIDとを関連付けて記憶される。その後、CPU301は、ステップS401の処理に戻る。
特徴量は、物体追尾部120で付与した人物ID、人物の出現時刻と消失時刻、人物が写ったネットワークカメラのカメラIDとを関連付けて記憶される。その後、CPU301は、ステップS401の処理に戻る。
図5は、情報処理装置300が店舗内の人物を検索し、その結果に基づいて人物の移動経路と滞留時間を導出する処理手順の一例を示すフローチャートである。なお、図5に示す各処理は、主としてCPU301により実行される。
CPU301は、第二物体特徴取得部150、動画取得部100を介して、ネットワークカメラ201、202の撮像結果(動画)を取得する(S501)。
CPU301は、第二物体特徴取得部150、物体検出部110を介して、ステップ501の処理において取得した複数の動画の各フレーム画像中に出現する顔(顔の位置)を検出する(S502)。
CPU301は、第二物体特徴取得部150、動画取得部100を介して、ネットワークカメラ201、202の撮像結果(動画)を取得する(S501)。
CPU301は、第二物体特徴取得部150、物体検出部110を介して、ステップ501の処理において取得した複数の動画の各フレーム画像中に出現する顔(顔の位置)を検出する(S502)。
CPU301は、第二物体特徴取得部150、物体追尾部120を介して、ステップ502の処理において検出された各人物について、取得した各動画の中においてそれぞれの追尾を行う(S503)。なお本処理は、ステップS403の処理と同様の処理であるため詳細な説明は省略するが、ステップS403の処理と同様に人物IDを付与する。
CPU301は、第二物体特徴取得部150、第一物体特徴取得部130を介して、ステップS502の処理において検出した人物の顔画像に基づいて、人物を識別するための顔画像の特徴量を抽出して画像特徴を取得する(S504)。なお本処理は、ステップS404の処理と同様の処理であるため詳細な説明は省略する。
CPU301は、ステップS504の処理において取得した顔画像の特徴量をRAM303に一時記憶する(S505)。なお、特徴量はステップS503の処理において付与した人物IDと関連付けて記憶する。
CPU301は、第二物体特徴取得部150を介して、ステップS503の処理において追尾対象とした人物が店舗内から店舗外へ出たか否か、つまり追尾対象の人物が店舗内から外へ退場したか否かを判定する(S506)。
例えば、ネットワークカメラ201、202は、図2に示すように、店舗の出入口に向かって店舗の外から撮像しており、また、天井に設置されている。そのため、フレーム画像の下端に人物が消えていった時に店舗の外を出た(追尾対象の人物が退場した)と判定する。
例えば、ネットワークカメラ201、202は、図2に示すように、店舗の出入口に向かって店舗の外から撮像しており、また、天井に設置されている。そのため、フレーム画像の下端に人物が消えていった時に店舗の外を出た(追尾対象の人物が退場した)と判定する。
CPU301は、追尾対象の人物が店舗外へと退場したと判定した場合(S506:Yes)、ステップS507の処理に進む。また、そうでない場合(S506:No)、ステップS501の処理へ戻る。
CPU301は、第二物体特徴取得部150を介して、ステップS506の処理において店舗外へと退場した人物の顔特徴を、ステップS505の処理において一時記憶しておいた顔画像の特徴量の中から取得する(S507)。なお、ステップS505の処理では、人物の顔画像の特徴量と人物IDを関連付けて記憶しているため、ステップS503の処理において発行した人物IDを用いることにより容易に顔画像の特徴量を取得することができる。
CPU301は、第一物体検索部160を介して、ステップS507の処理において取得した顔画像の特徴量に基づいて、店舗外へと退場した人物と同一人物の人物IDを物体特徴記憶部140が記憶した人物IDの中から検索する(S508)。
具体的には、例えばステップS507の処理において取得した特徴量と物体特徴記憶部140に格納されている特徴量の類似度を算出する。類似度が所定の閾値以上である場合には、これに対応する人物IDとカメラIDを検索結果として取得する。
なお、特徴量は一般的にベクトル表現されているため、類似度としてL2距離を類似度としてもよいし、内積を類似度としてもよい。また、ステップS507の処理では、一般的に複数の顔画像の特徴量が取得される。そのため、すべての特徴量を用いて検索を行ってもよいが、後述するステップS601の処理のように特徴量の数を削減した後に検索を行うように構成してもよい。
具体的には、例えばステップS507の処理において取得した特徴量と物体特徴記憶部140に格納されている特徴量の類似度を算出する。類似度が所定の閾値以上である場合には、これに対応する人物IDとカメラIDを検索結果として取得する。
なお、特徴量は一般的にベクトル表現されているため、類似度としてL2距離を類似度としてもよいし、内積を類似度としてもよい。また、ステップS507の処理では、一般的に複数の顔画像の特徴量が取得される。そのため、すべての特徴量を用いて検索を行ってもよいが、後述するステップS601の処理のように特徴量の数を削減した後に検索を行うように構成してもよい。
CPU301は、第三物体特徴取得部170を介して、ステップS508の処理において検索した人物IDに対応付けられた人物の顔の画像特徴(特徴量)を物体特徴記憶部140から取得する(S509)。
なお、物体特徴記憶部140にはステップS403の処理において追尾した結果取得した人物の顔画像の特徴量が全て人物IDに対応づけられて記憶されている。そのため、第三物体特徴取得部170は、ステップS508の処理において検索された人物を追尾して顔画像の特徴量を取得しているともいえる。
なお、物体特徴記憶部140にはステップS403の処理において追尾した結果取得した人物の顔画像の特徴量が全て人物IDに対応づけられて記憶されている。そのため、第三物体特徴取得部170は、ステップS508の処理において検索された人物を追尾して顔画像の特徴量を取得しているともいえる。
CPU301は、第二物体検索部180を介して、ステップS509の処理において取得した人物の顔画像の特徴量に基づいて、店舗外へと退場した人物と同一人物の人物IDの特徴量を物体特徴記憶部140が記憶した人物IDの中から検索する(S510)。CPU301は、また、検索した特徴量とそれに対応した人物IDとカメラIDを取得する。
本処理では、ステップS509の処理において取得した人物の顔画像の特徴量を用いることにより、ステップS508の処理において第一物体検索部160が検索できなかった人物IDを検索することが可能になる。なお、本処理の詳細については、図6を用いて後述する。
本処理では、ステップS509の処理において取得した人物の顔画像の特徴量を用いることにより、ステップS508の処理において第一物体検索部160が検索できなかった人物IDを検索することが可能になる。なお、本処理の詳細については、図6を用いて後述する。
CPU301は、ステップS506の処理において店舗外へ退場した人物に対して、各ネットワークカメラに出現した時間、すなわち、各カメラに最初に写り始めた時刻(出現時刻)とカメラに写らなくなった時刻(消失時刻)を導出する(S511)。
ここでは、ステップS510の処理において検索した人物IDに対応付けられて物体特徴記憶部140に記憶されている出現時刻のうち、最も古い時刻をカメラに最初に映り始めた時刻とする。また、ステップS510の処理において検索した人物IDに対応付けられて物体特徴記憶部140に記憶されている消失時刻のうち、最も新しい時刻をカメラから写らなくなった消失時刻とする。
ここでは、ステップS510の処理において検索した人物IDに対応付けられて物体特徴記憶部140に記憶されている出現時刻のうち、最も古い時刻をカメラに最初に映り始めた時刻とする。また、ステップS510の処理において検索した人物IDに対応付けられて物体特徴記憶部140に記憶されている消失時刻のうち、最も新しい時刻をカメラから写らなくなった消失時刻とする。
CPU301は、ステップS506の処理において店舗外へ退場した人物の滞留時間(店舗内の滞在時間)を導出する(S512)。
例えば、ステップS511の処理において導出した各カメラの消失時刻から出現時刻を減算することにより、各カメラにおける滞留時間を導出することができる。また、ステップS511の処理において導出した各カメラの出現時刻のうち最も古いものを最古出現時刻とし、同様に消失時刻のうち最も新しいものを最新消失時刻とする。最新消失時刻から最古出現時刻を減算することにより、店舗外へ退場した人物の店舗内滞在時間(滞留時間)を導出することができる。
例えば、ステップS511の処理において導出した各カメラの消失時刻から出現時刻を減算することにより、各カメラにおける滞留時間を導出することができる。また、ステップS511の処理において導出した各カメラの出現時刻のうち最も古いものを最古出現時刻とし、同様に消失時刻のうち最も新しいものを最新消失時刻とする。最新消失時刻から最古出現時刻を減算することにより、店舗外へ退場した人物の店舗内滞在時間(滞留時間)を導出することができる。
CPU301は、また、ステップS506の処理において店舗外へ退場した人物の移動経路を導出して、滞留時間とともにモニタ310に表示する。
なお、移動経路は、各カメラの出現時刻を古い順に並べることにより対象となる人物が出現したカメラの順番、すなわち移動経路を導出することができる。
移動経路の表示は、例えば図2に示すような店舗のレイアウトと各ネットワークカメラをモニタ310の表示画面に表示して、順番に人物が出現したカメラに線を引いていくことにより移動経路を表示することができる。
なお、移動経路は、各カメラの出現時刻を古い順に並べることにより対象となる人物が出現したカメラの順番、すなわち移動経路を導出することができる。
移動経路の表示は、例えば図2に示すような店舗のレイアウトと各ネットワークカメラをモニタ310の表示画面に表示して、順番に人物が出現したカメラに線を引いていくことにより移動経路を表示することができる。
なお、後述するステップS605の処理において、第二物体検索部180が類似度の閾値(類似するか否かを判定するための閾値)を下げて検索した人物IDのみを含むカメラに対して引く線は、類似度の閾値を下げるごとに検索の信頼度が下がる。そのため、閾値の値に応じて線の色を変更して表示する。
また、滞留時間も同様に、類似度の閾値を下げるごとに信頼度が下がっていく。そのため、閾値を下げることによって追加された各カメラの出現時間が分かるように表示する。例えば、パイチャートや棒グラフのように、閾値毎の時間の比率を分かりやすく可視化できる表示形態を用いる。具体的には、滞留時間の閾値の値毎の比率を各カメラ毎の滞留時間、また、入店から退店までの滞留時間の数字表示とともに表示する。
また、滞留時間も同様に、類似度の閾値を下げるごとに信頼度が下がっていく。そのため、閾値を下げることによって追加された各カメラの出現時間が分かるように表示する。例えば、パイチャートや棒グラフのように、閾値毎の時間の比率を分かりやすく可視化できる表示形態を用いる。具体的には、滞留時間の閾値の値毎の比率を各カメラ毎の滞留時間、また、入店から退店までの滞留時間の数字表示とともに表示する。
CPU301は、ステップS508およびステップS510の処理において検索された人物IDに対応づけられて物体特徴記憶部140に格納されている情報、すなわち、顔画像の特徴量、出現時刻、消失時刻、カメラID、および、人物IDをすべて削除する(S513)。
その後CPU301は、ステップS501の処理に戻る。
その後CPU301は、ステップS501の処理に戻る。
図6は、ステップS510の処理の詳細を示すフローチャートである。
CPU301は、ステップS509の処理において取得した顔画像の特徴量の数を削減する(S601)。顔画像の特徴量の数を削減する条件、つまり検索対象から除外する条件としては以下のようなものがある。例えば、ステップS508の処理において検索された顔画像の特徴量はすでに検索済みであるため削除する。また、後述するステップS602の処理において検索された顔画像の特徴量も削除する。
CPU301は、ステップS509の処理において取得した顔画像の特徴量の数を削減する(S601)。顔画像の特徴量の数を削減する条件、つまり検索対象から除外する条件としては以下のようなものがある。例えば、ステップS508の処理において検索された顔画像の特徴量はすでに検索済みであるため削除する。また、後述するステップS602の処理において検索された顔画像の特徴量も削除する。
次に、カメラ毎に顔画像の特徴量を削減する。同じカメラに対応した特徴量同士で類似度を算出し、類似度が所定の閾値よりも高い場合には片方の特徴量を削除する。削除する基準としては、他の特徴量との類似度が閾値を超えた個数が多いものを削除する。個数が同じ場合は、他の特徴楼との類似度の合計が高いものを削除する。次に、すべてのカメラで残った特徴量に対して類似度を基準にして削除する。
なお、特徴量を削減する方法として撮像情景の類似性、つまり撮像条件の類似度に基づいた条件であってもよい。例えば、顔の向きや照明によって特徴量を分類しておき、顔の向きや照明毎にステップS507の処理において取得した顔画像の特徴量との類似度が最も低いものを選ぶようにしてもよい。
例えば、ステップS402の処理において顔を検出した後で顔の向きを求めておき、ステップS405の処理において顔画像の特徴量と対応させて顔の向きを記憶しておくことによって、本ステップで処理することが可能になる。
例えば、ステップS402の処理において顔を検出した後で顔の向きを求めておき、ステップS405の処理において顔画像の特徴量と対応させて顔の向きを記憶しておくことによって、本ステップで処理することが可能になる。
CPU301は、ステップS601の処理において削減した顔画像の特徴量に基づいて、店舗外へ退場した人物と同一人物の人物IDの特徴量を、物体特徴記憶部140が記憶した人物IDの中から検索する(S602)。CPU301は、特徴量とそれに対応した人物IDとカメラIDを取得する。なお、本処理は、ステップS508の処理と同様の処理であるため詳細な説明は省略する。
CPU301は、ステップS602の処理において検索した人物IDの中から、移動経路として矛盾する人物IDを削除する(S603)。ここで矛盾する人物IDとは、例えばネットワークカメラ206、213ように、同時に写ることができないカメラの両方で同時刻に写っていると特定(検索)された人物IDである。
具体的には、各カメラにおける出現時刻と消失時刻を導出した導出結果に基づいて、カメラ間で出現時間が重なっている場合、矛盾していると判定することができる。矛盾している場合には、ステップS508およびステップS602の処理において検索された特徴量に対して、ステップS507の処理において取得した特徴量との類似度を求めて最も低い特徴量を削除する。特徴量を削除することにより、それに対応した人物IDも削除される。そして、再度、矛盾していないかどうかを判定し、矛盾が無くなるまで一つずつ類似度を削除する処理を繰り返す。
具体的には、各カメラにおける出現時刻と消失時刻を導出した導出結果に基づいて、カメラ間で出現時間が重なっている場合、矛盾していると判定することができる。矛盾している場合には、ステップS508およびステップS602の処理において検索された特徴量に対して、ステップS507の処理において取得した特徴量との類似度を求めて最も低い特徴量を削除する。特徴量を削除することにより、それに対応した人物IDも削除される。そして、再度、矛盾していないかどうかを判定し、矛盾が無くなるまで一つずつ類似度を削除する処理を繰り返す。
CPU301は、移動経路として検索漏れが無いか否かを判定する(S604)。検索漏れがあると判定された場合(S604:Yes)、ステップS605の処理へ進む。
例えば、店舗に入ってくる人物を撮像するためのネットワークカメラ203、204のように、移動経路として必ず通らないといけないのにそのカメラで人物が検出できていない場合、経路的に矛盾があるものとして検索漏れがあると判定する。
なお、ネットワークカメラ203、204の両方に検索結果があるか否かは、それに対応したカメラIDが検索結果として残っているか否かにより判断することができる。
例えば、店舗に入ってくる人物を撮像するためのネットワークカメラ203、204のように、移動経路として必ず通らないといけないのにそのカメラで人物が検出できていない場合、経路的に矛盾があるものとして検索漏れがあると判定する。
なお、ネットワークカメラ203、204の両方に検索結果があるか否かは、それに対応したカメラIDが検索結果として残っているか否かにより判断することができる。
CPU301は、ステップS602の処理において使用する類似度の閾値を所定の値だけ低下させる(S605)。
CPU301は、ステップS605の処理において低下させた閾値の値が下限値であるか否かを判定する(S606)。下限値でない場合(S606:No)、ステップS607の処理へ進む。
CPU301は、第三物体特徴取得部170を介して、ステップS603の処理において削除されずに残っている人物IDに対応付けられた人物IDに対応した人物の顔画像の特徴量を物体特徴記憶部140から取得する(S607)。その後CPU301は、ステップS601へ戻る。
CPU301は、ステップS605の処理において低下させた閾値の値が下限値であるか否かを判定する(S606)。下限値でない場合(S606:No)、ステップS607の処理へ進む。
CPU301は、第三物体特徴取得部170を介して、ステップS603の処理において削除されずに残っている人物IDに対応付けられた人物IDに対応した人物の顔画像の特徴量を物体特徴記憶部140から取得する(S607)。その後CPU301は、ステップS601へ戻る。
このように本実施形態に係る情報処理装置300では、複数のカメラで撮像された物体(人物)を漏れなく誤ることなく検索することができる。具体的には、追尾された物体の画像特徴(特徴量)を抽出し、その特徴量を用いて検索を行う。
また、追尾された物体の特徴量は複数得られるためにそれをそのまま検索に用いてしまうと処理時間が長くなってしまう。情報処理装置300では、類似する特徴量を削除してから検索を行うことにより、処理時間を短縮して効率よく検出することができる。
また、情報処理装置300では、検索で使用する類似度の閾値を徐々に下げて検索を繰り返すことにより、検索漏れをさらに低減することができる。
また、情報処理装置300では、人物同士が交差しそうな場合には追尾を打ち切ることにより、別の物体を検索することを防ぐことができる。また、人物がカメラに出現する時刻を導出することにより、各人物の店舗内の滞留時間を正確に求めることができる。
また、情報処理装置300では、検索で使用する類似度の閾値を徐々に下げて検索を繰り返すことにより、検索漏れをさらに低減することができる。
また、情報処理装置300では、人物同士が交差しそうな場合には追尾を打ち切ることにより、別の物体を検索することを防ぐことができる。また、人物がカメラに出現する時刻を導出することにより、各人物の店舗内の滞留時間を正確に求めることができる。
[第2実施形態]
以下、第1実施形態とは異なる機能構成を有する情報処理装置について説明する。
なお、第1実施形態において説明した機能構成と同じものは同一の符号を付すとともに、その説明を省略する。
以下、第1実施形態とは異なる機能構成を有する情報処理装置について説明する。
なお、第1実施形態において説明した機能構成と同じものは同一の符号を付すとともに、その説明を省略する。
図7は、本実施形態に係る情報処理装置300の機能構成の一例を示す図である。
本実施形態に係る情報処理装置300が有する動画取得部100、物体検出部110、第一物体特徴取得部130は、第1実施形態において既に説明したものと同じ機能であるためその説明を省略する。
以下、本実施形態に係る物体追尾部120、物体特徴記憶部140、第二物体特徴取得部150、第一物体検索部160、第三物体特徴取得部170、第二物体検索部180について説明する。
本実施形態に係る情報処理装置300が有する動画取得部100、物体検出部110、第一物体特徴取得部130は、第1実施形態において既に説明したものと同じ機能であるためその説明を省略する。
以下、本実施形態に係る物体追尾部120、物体特徴記憶部140、第二物体特徴取得部150、第一物体検索部160、第三物体特徴取得部170、第二物体検索部180について説明する。
物体特徴記憶部740は、第一物体特徴取得部130が取得した特徴量を外部記憶装置304に記憶する。
なお、本実施形態に係る特徴量は、物体検出部110が検出した顔の位置を示す矩形の座標、すなわち矩形左上と右下のX、Y座標(位置情報)、顔が撮像された時刻(撮像時刻)、人物が写ったカメラを一意に識別するカメラIDとを対応づけて記憶するものとする。
なお、本実施形態に係る特徴量は、物体検出部110が検出した顔の位置を示す矩形の座標、すなわち矩形左上と右下のX、Y座標(位置情報)、顔が撮像された時刻(撮像時刻)、人物が写ったカメラを一意に識別するカメラIDとを対応づけて記憶するものとする。
第二物体特徴取得部750は、店舗内から店舗外へ出ていく人物を撮像するネットワークカメラ201、202が取得した撮像結果(動画)に基づいて人物の顔画像の特徴量を取得する。なお、第二物体特徴取得部750による人物の顔画像の特徴量の取得は、物体特徴記憶部740に記憶されている顔画像の特徴量を取得するように構成してもよい。
第一物体検索部760は、第二物体特徴取得部750が取得した顔画像の特徴量(クエリ特徴量)に基づいて、物体特徴記憶部740に記憶されているネットワークカメラ203から216のカメラに写った人物の顔を検索する。すなわち、クエリ特徴量と物体特徴記憶部740に記憶されている特徴量の類似度を計算し、所定の類似度以上の特徴量を求める。
物体追尾部720は、第一物体検索部760により検索された特徴量に対応付けられて物体特徴記憶部740に記憶された顔の位置を示す矩形の座標に基づいて、物体特徴記憶部740に格納されている顔画像の特徴量を追尾する。
物体追尾部720は、第一物体検索部760により検索された特徴量に対応付けられて物体特徴記憶部740に記憶された顔の位置を示す矩形の座標に基づいて、物体特徴記憶部740に格納されている顔画像の特徴量を追尾する。
第三物体特徴取得部770は、物体追尾部120が追尾した顔画像の特徴量を物体特徴記憶部740から取得する。
第二物体検索部780は、第三物体特徴取得部770が取得した人物の顔画像の特徴量に基づいて、物体特徴記憶部740に記憶されている各ネットワークカメラ(203〜216)のカメラに写った人物の顔を検索する。
第二物体検索部780は、第三物体特徴取得部770が取得した人物の顔画像の特徴量に基づいて、物体特徴記憶部740に記憶されている各ネットワークカメラ(203〜216)のカメラに写った人物の顔を検索する。
図8に、本実施形態に係る情報処理装置300が店舗内の人物の動き(入店、退出及び店舗内における移動)を記録する処理手順の一例を示すフローチャートである。
なお、図8に示す各処理は、主としてCPU301により実行される。また、ステップS801、S802、S804の処理は、それぞれ図4に示すステップS401、S403、S404の処理と同じ処理であるため説明は省略する。同様に、ステップS910〜S913の各処理は、それぞれ図4に示すステップS510〜S513の処理と同じ処理であるため説明は省略する。
なお、図8に示す各処理は、主としてCPU301により実行される。また、ステップS801、S802、S804の処理は、それぞれ図4に示すステップS401、S403、S404の処理と同じ処理であるため説明は省略する。同様に、ステップS910〜S913の各処理は、それぞれ図4に示すステップS510〜S513の処理と同じ処理であるため説明は省略する。
CPU301は、物体特徴記憶部740を介して、第一物体特徴取得部130が取得した特徴量を外部記憶装置304に記憶する(S805)。
特徴量は、物体検出部110が検出した顔の位置を示す矩形の座標、すなわち矩形左上と右下のX、Y座標、顔が撮像された時の時刻(撮像時刻)、人物が写ったネットワークカメラのカメラIDとを対応づけて記憶される。その後、CPU301は、ステップS801の処理に戻る。
特徴量は、物体検出部110が検出した顔の位置を示す矩形の座標、すなわち矩形左上と右下のX、Y座標、顔が撮像された時の時刻(撮像時刻)、人物が写ったネットワークカメラのカメラIDとを対応づけて記憶される。その後、CPU301は、ステップS801の処理に戻る。
図9は、本実施形態に係る情報処理装置300が店舗内の人物の動きを解析し、その結果に基づいて人物の移動経路と滞留時間を導出する処理手順の一例を示すフローチャートである。なお、図9に示す各処理は、主としてCPU301により実行される。
なお、ステップS901〜S907の各処理は、図5に示すステップS501〜S507の各処理と同じ処理であるため説明を省略する。ただし、本実施形態においてはステップS903の処理は必須のものではない。また、ステップS903の処理を行わない場合、ステップS905の処理において特徴量を人物IDと対応付ける必要はない。
なお、ステップS901〜S907の各処理は、図5に示すステップS501〜S507の各処理と同じ処理であるため説明を省略する。ただし、本実施形態においてはステップS903の処理は必須のものではない。また、ステップS903の処理を行わない場合、ステップS905の処理において特徴量を人物IDと対応付ける必要はない。
また、ステップS906の処理では、ステップS902の処理においてフレーム画像の下端で顔が検出された場合には当該顔の人物が店舗外へ退場したと判定する。
また、ステップS907の処理では、フレーム画像の下端で検出された顔以外の特徴量はRAM303から削除する。
また、ステップS907の処理では、フレーム画像の下端で検出された顔以外の特徴量はRAM303から削除する。
CPU301は、第一物体検索部760を介して、ステップS907の処理において取得した顔画像の特徴量に基づいて、店舗外へ退場した人物と同一人物の顔画像の特徴量を物体特徴記憶部740から検索する(S908)。
本処理では、検索方法はステップS508の処理と同じであるが、検索結果として人物IDを求める必要はない。人物IDの導出に代わり、顔画像の特徴量と関連付けられて物体特徴記憶部740に記憶されている顔の位置を示す矩形の座標(顔矩形座標)、撮像時刻、カメラIDを検索結果として取得する。
本処理では、検索方法はステップS508の処理と同じであるが、検索結果として人物IDを求める必要はない。人物IDの導出に代わり、顔画像の特徴量と関連付けられて物体特徴記憶部740に記憶されている顔の位置を示す矩形の座標(顔矩形座標)、撮像時刻、カメラIDを検索結果として取得する。
CPU301は、物体追尾部720を介して、ステップS908の処理における検索結果に基づいて、各カメラID毎に物体特徴記憶部740に記憶されている顔を追尾する。
この追尾は、例えば検索結果として得られた撮像時刻の前後の近傍時刻で撮像された顔の矩形座標に基づいて、カルマンフィルタ等を用いて時間および位置関係から検索結果と同一人物とみなせる顔を特定することにより行うことができる。
なお、物体特徴記憶部740には顔画像の特徴量が記憶されているため、人物が交差した場合など判断が困難になることがある。このような場合には、特徴量の類似度に応じて同一人物と判定してもよい。追尾によって同一人物であるとみなされた顔に対しては、人物を区別するための人物IDを付与して物体特徴記憶部140に記憶する。
この追尾は、例えば検索結果として得られた撮像時刻の前後の近傍時刻で撮像された顔の矩形座標に基づいて、カルマンフィルタ等を用いて時間および位置関係から検索結果と同一人物とみなせる顔を特定することにより行うことができる。
なお、物体特徴記憶部740には顔画像の特徴量が記憶されているため、人物が交差した場合など判断が困難になることがある。このような場合には、特徴量の類似度に応じて同一人物と判定してもよい。追尾によって同一人物であるとみなされた顔に対しては、人物を区別するための人物IDを付与して物体特徴記憶部140に記憶する。
CPU301は、第三物体特徴取得部770を介して、同一人物と判定された顔画像の特徴量を物体特徴記憶部740から取得する(S909)。
このように本実施形態に係る情報処理装置300では、撮像時刻を利用して矛盾する検索結果を削除することができる。これにより、別の物体を検索してしまうことを効果的に防ぐことができる。また、移動経路や滞留時間をより正確に求めることが可能になる。
また、第二物体検索手段で使用した類似度の閾値の値に応じて移動経路や滞留時間の表示形態を変化させることにより、移動経路や滞留時間の信頼性を判断することが可能になる。
また、第二物体検索手段で使用した類似度の閾値の値に応じて移動経路や滞留時間の表示形態を変化させることにより、移動経路や滞留時間の信頼性を判断することが可能になる。
なお、各実施形態においては、店舗内の複数のカメラで人物を検索し、移動経路と滞留時間を求める例を示した。これに限らず本発明は、店舗とは異なるエリアに設置された複数のカメラに写った人物以外の物体の検索、および、移動経路と滞留時間の導出に幅広く適用可能である。
例えば、市街地の人の流れを解析するために、市街地のエリア内に入ってくる人と出ていく人を撮像するカメラを含めた複数のカメラを設置し、エリア内に入ってから出ていくまでの人の移動経路や滞留時間を求めることができる。このような場合は、個人を識別するために顔画像の特徴量を用いずに、服装、体型、歩き方などの、人体の特徴を用いてもよい。
また、牧場内での家畜の行動を観察するために、牧場内に複数のカメラを設置し、家畜小屋から外に出てから家畜小屋に戻ってくるまでの移動経路と滞留時間を求める用途にも適用可能である。この場合は、家畜を識別するために、例えば、白黒の斑のある牛に対しては、斑のパターンで家畜の個体を識別することが可能である。
例えば、市街地の人の流れを解析するために、市街地のエリア内に入ってくる人と出ていく人を撮像するカメラを含めた複数のカメラを設置し、エリア内に入ってから出ていくまでの人の移動経路や滞留時間を求めることができる。このような場合は、個人を識別するために顔画像の特徴量を用いずに、服装、体型、歩き方などの、人体の特徴を用いてもよい。
また、牧場内での家畜の行動を観察するために、牧場内に複数のカメラを設置し、家畜小屋から外に出てから家畜小屋に戻ってくるまでの移動経路と滞留時間を求める用途にも適用可能である。この場合は、家畜を識別するために、例えば、白黒の斑のある牛に対しては、斑のパターンで家畜の個体を識別することが可能である。
本発明は、上述の実施形態の1以上の機能を実現するコンピュータプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがコンピュータプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上記説明した実施形態は、本発明をより具体的に説明するためのものであり、本発明の範囲が、これらの例に限定されるものではない。
Claims (15)
- 複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する動画取得手段と、
前記動画取得手段が取得した動画のフレーム画像中に出現する物体を検出する物体検出手段と、
前記物体検出手段が検出した物体の画像特徴を取得する第一物体特徴取得手段と、
前記第一物体特徴取得手段が取得した画像特徴を記憶する物体特徴記憶手段と、
前記物体検出手段が検出した物体を一つの動画の中で追尾する物体追尾手段と、
前記物体検出手段が検出した物体の中から検索対象の物体の画像特徴を取得する第二物体特徴取得手段と、
前記第二物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する第一物体検索手段と、
前記物体特徴記憶手段に記憶された画像特徴の中から、前記第一物体検索手段が特定した物体に対応する前記物体追尾手段が追尾した物体の画像特徴を取得する第三物体特徴取得手段と、
前記第三物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する第二物体検索手段と、を有することを特徴とする、
情報処理装置。 - 前記物体特徴記憶手段は、前記物体追尾手段が追尾対象とした物体と、当該物体の画像特徴とを関連付けて記憶することを特徴とする、
請求項1に記載の情報処理装置。 - 前記物体特徴記憶手段は、前記物体検出手段が検出した物体の位置情報を、当該物体の画像特徴と関連付けて記憶し、
前記物体追尾手段は、前記物体の位置情報に基づいて追尾を行うことを特徴とする、
請求項1又は2に記載の情報処理装置。 - 前記第二物体検索手段は、前記第三物体特徴取得手段が取得した画像特徴のうち、所定に条件に基づいて特定された画像特徴を除外して検索を行うことを特徴とする、
請求項1、2又は3に記載の情報処理装置。 - 前記条件は、前記物体追尾手段が追尾した物体における画像特徴の類似度、又は、撮像条件の類似度に基づく条件であることを特徴とする、
請求項4に記載の情報処理装置。 - 前記第二物体検索手段は、前記特定する際に使用する類似度の閾値を下げて検索を行うことを特徴とする、
請求項1乃至5いずれか一項に記載の情報処理装置。 - 前記物体追尾手段は、追尾対象の物体同士が交差するか否かを判定し、交差すると判定した場合には追尾を終了することを特徴とする、
請求項1乃至6いずれか一項に記載の情報処理装置。 - 前記物体特徴記憶手段は、前記画像特徴を前記動画が撮像された時刻と関連付けて記憶し、
前記第二物体検索手段の検索結果に基づいて、前記検索対象の物体が各動画において出現する時刻を導出する制御手段を有することを特徴とする、
請求項1乃至7いずれか一項に記載の情報処理装置。 - 前記第二物体検索手段は、前記制御手段の導出結果に基づいて、前記検索の結果から矛盾する検索結果を除外することを特徴とする、
請求項8に記載の情報処理装置。 - 前記制御手段は、前記導出結果に基づいて、少なくとも前記物体の移動経路、又は、滞留時間を算出することを特徴とする、
請求項9に記載の情報処理装置。 - 前記物体の移動経路、又は、滞留時間を表示する表示手段を有し、
前記表示手段は、前記第二物体検索手段が使用する類似度の閾値の値に応じて表示形態を変化させることを特徴とする、
請求項10に記載の情報処理装置。 - 前記物体検出手段が検出する物体は、人物の顔、もしくは人体であることを特徴とする、
請求項1乃至11いずれか一項に記載の情報処理装置。 - 情報処理装置の制御方法であって、
複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する工程と、
前記取得した動画のフレーム画像中に出現する物体を検出する工程と、
前記検出した物体の画像特徴を取得する工程と、
前記取得した画像特徴を記憶する工程と、
前記検出した物体を一つの動画の中で追尾する工程と、
前記検出した物体の中から検索対象の物体の画像特徴を取得する工程と、
前記取得した画像特徴に基づいて、前記記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する工程と、
前記記憶された画像特徴の中から、前記特定した物体に対応する前記追尾対象の物体の画像特徴を取得する工程と、
前記取得した画像特徴に基づいて、前記記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する工程と、を有することを特徴とする、
情報処理装置の制御方法。 - コンピュータを情報処理装置として動作させるためのコンピュータプログラムであって、
前記コンピュータを、
複数の撮像装置が設置された領域において各撮像装置が撮像した動画を取得する動画取得手段、
前記動画取得手段が取得した動画のフレーム画像中に出現する物体を検出する物体検出手段、
前記物体検出手段が検出した物体の画像特徴を取得する第一物体特徴取得手段、
前記第一物体特徴取得手段が取得した画像特徴を記憶する物体特徴記憶手段、
前記物体検出手段が検出した物体を一つの動画の中で追尾する物体追尾手段、
前記物体検出手段が検出した物体の中から検索対象の物体の画像特徴を取得する第二物体特徴取得手段、
前記第二物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から所定の閾値以上の類似度を有する物体を検索して特定する第一物体検索手段、
前記物体特徴記憶手段に記憶された画像特徴の中から、前記第一物体検索手段が特定した物体に対応する前記物体追尾手段が追尾した物体の画像特徴を取得する第三物体特徴取得手段、
前記第三物体特徴取得手段が取得した画像特徴に基づいて、前記物体特徴記憶手段に記憶された画像特徴の中から前記所定の閾値以上の類似度を有する物体を検索して特定する第二物体検索手段、として機能させることを特徴とする、
コンピュータプログラム。 - 請求項14に記載のコンピュータプログラムをコンピュータが読み取り可能に記憶した記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017135652A JP2019020777A (ja) | 2017-07-11 | 2017-07-11 | 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体 |
US16/030,246 US10467461B2 (en) | 2017-07-11 | 2018-07-09 | Apparatus for searching for object and control method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017135652A JP2019020777A (ja) | 2017-07-11 | 2017-07-11 | 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019020777A true JP2019020777A (ja) | 2019-02-07 |
Family
ID=64999024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017135652A Pending JP2019020777A (ja) | 2017-07-11 | 2017-07-11 | 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10467461B2 (ja) |
JP (1) | JP2019020777A (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11328513B1 (en) | 2017-11-07 | 2022-05-10 | Amazon Technologies, Inc. | Agent re-verification and resolution using imaging |
JP6573346B1 (ja) | 2018-09-20 | 2019-09-11 | パナソニック株式会社 | 人物検索システムおよび人物検索方法 |
CN110047096B (zh) * | 2019-04-28 | 2019-11-22 | 中南民族大学 | 一种基于深度条件随机场模型的多目标跟踪方法和系统 |
CN111177440B (zh) * | 2019-12-20 | 2023-11-07 | 北京旷视科技有限公司 | 目标图像的检索方法、装置、计算机设备和存储介质 |
US20230036394A1 (en) * | 2021-07-14 | 2023-02-02 | Rakuten Group, Inc. | Reducing sample selection bias in a machine learning-based recommender system |
KR20230029258A (ko) * | 2021-08-24 | 2023-03-03 | 한국과학기술연구원 | 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템 |
CN115546737B (zh) * | 2022-12-02 | 2023-05-16 | 天讯瑞达通信技术有限公司 | 一种机房监控方法 |
US12086857B2 (en) * | 2022-12-19 | 2024-09-10 | Google Llc | Search with machine-learned model-generated queries |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4753193B2 (ja) | 2008-07-31 | 2011-08-24 | 九州日本電気ソフトウェア株式会社 | 動線管理システムおよびプログラム |
US9984473B2 (en) * | 2014-07-09 | 2018-05-29 | Nant Holdings Ip, Llc | Feature trackability ranking, systems and methods |
-
2017
- 2017-07-11 JP JP2017135652A patent/JP2019020777A/ja active Pending
-
2018
- 2018-07-09 US US16/030,246 patent/US10467461B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190019016A1 (en) | 2019-01-17 |
US10467461B2 (en) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019020777A (ja) | 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体 | |
JP4984728B2 (ja) | 被写体照合装置および被写体照合方法 | |
JP7282851B2 (ja) | 装置、方法及びプログラム | |
JP5001260B2 (ja) | オブジェクト追跡方法及びオブジェクト追跡装置 | |
JP6666488B2 (ja) | 画像抽出装置 | |
KR101434768B1 (ko) | 이동 물체 추적 시스템 및 이동 물체 추적 방법 | |
KR20210090139A (ko) | 정보처리장치, 정보처리방법 및 기억매체 | |
US10664523B2 (en) | Information processing apparatus, information processing method, and storage medium | |
KR20180042802A (ko) | 정의된 영역 내의 객체를 추적하기 위한 방법 및 시스템 | |
JP6185517B2 (ja) | 画像監視装置 | |
KR20170077366A (ko) | 얼굴 인식 시스템 및 방법 | |
JP7196932B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US11544926B2 (en) | Image processing apparatus, method of processing image, and storage medium | |
JP7145622B2 (ja) | 情報処理装置、情報処理装置の制御方法、被写体検出システム、及び、プログラム | |
JP2020052822A (ja) | 情報処理装置、認証システムおよびそれらの制御方法、プログラム | |
JP2018186397A (ja) | 情報処理装置、映像監視システム、情報処理方法及びプログラム | |
US20190355130A1 (en) | Image processing device, image processing method, and recording medium storing program | |
JP7566548B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
Yang et al. | An online approach and evaluation method for tracking people across cameras in extremely long video sequence | |
JP6555940B2 (ja) | 被写体追跡装置、撮像装置、及び被写体追跡装置の制御方法 | |
JP7374632B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6762754B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2007179224A (ja) | 情報処理装置および方法、並びにプログラム | |
JP2022011666A (ja) | 画像処理装置、画像処理方法およびプログラム | |
US11403880B2 (en) | Method and apparatus for facilitating identification |