JP7252775B2 - Video analysis support device and method - Google Patents
Video analysis support device and method Download PDFInfo
- Publication number
- JP7252775B2 JP7252775B2 JP2019024915A JP2019024915A JP7252775B2 JP 7252775 B2 JP7252775 B2 JP 7252775B2 JP 2019024915 A JP2019024915 A JP 2019024915A JP 2019024915 A JP2019024915 A JP 2019024915A JP 7252775 B2 JP7252775 B2 JP 7252775B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- region
- detection target
- coordinate system
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Description
本発明は、概して、検知対象物の検知のような映像解析処理を支援する技術に関する。 The present invention relates generally to techniques for assisting video analytics processes, such as detection of objects to be sensed.
本技術分野の背景技術として、例えば、特開2018-022234号公報(特許文献1)がある。特許文献1には、「検知領域選択部103は、路面検出部102による路面領域の検出結果と、時系列検証部105による時系列検証の結果とに基づいて、検知対象物である他車両を検知するための車両検知領域を入力画像内に設定する。このとき検知領域選択部103は、時系列検証部105による時系列検証の結果に基づいて路面領域補間部106が路面領域の補間を行った場合には、その補間結果を基に、補間された路面領域を含めて車両検知領域を設定する。」と記載されている。
As a background art of this technical field, there is, for example, Japanese Patent Application Laid-Open No. 2018-022234 (Patent Document 1). In
映像中の検知対象物(人物、荷物、動物、船舶または車両といった物体)を検知する映像解析では、検知対象物の現れる可能性の無い場所に存在する物体を検知対象物であると誤って検知する場合や、壁面、ガラス面または鏡などに映った検知対象物の鏡像を検知対象物として誤って検知する場合がある。 In video analysis that detects detection targets (objects such as people, packages, animals, ships, and vehicles) in images, objects that exist in places where there is no possibility of detection targets being detected are mistakenly detected as detection targets. In some cases, the mirror image of the detection target reflected on a wall, glass surface, mirror, or the like may be erroneously detected as the detection target.
このような誤検知を低減するためには、映像のうち検知対象物の出現する可能性のある領域(以下、検知対象領域)についてのみ検知対象物の有無を判断するか、あるいは、検知結果の画像上の位置情報が検知対象領域内に含まれていない場合にはその検知結果を棄却すればよい。以上の処理によって、映像解析における物体検知の精度を向上することが可能である。 In order to reduce such erroneous detection, it is necessary to determine the presence or absence of the detection target only in areas where the detection target may appear in the image (hereinafter referred to as the detection target area), or to determine the presence or absence of the detection result. If the position information on the image is not included in the detection target area, the detection result may be rejected. Through the above processing, it is possible to improve the accuracy of object detection in video analysis.
ただし、検知対象領域が不適切であると、検知精度向上(言い換えれば誤検知低減)の効果が十分に発揮されない。 However, if the detection target area is inappropriate, the effect of improving detection accuracy (in other words, reducing false detections) will not be sufficiently exhibited.
このため、適切な検知対象領域を設定することが、検知精度の向上に重要な要素の一つである。 Therefore, setting an appropriate detection target area is one of the important factors for improving the detection accuracy.
しかし、適切な検知対象領域の設定は、下記のうちの少なくとも一つが理由から困難である。
・カメラにより撮影された映像において、一つのピクセルに対応した実際の大きさは、カメラの姿勢、撮影倍率(画角)および位置といった種々の撮影条件によって、ピクセル位置が異なれば異なり得る。ピクセル位置毎に実際の大きさを推定することは困難である。
・実際の大きさの基準となる物体(検知対象物またはその他の物体)が映っていれば、映像における各ピクセルについて対応する実際の大きさを推定することは期待できる。しかし、そのような物体が映っている映像を必ず撮影できるとは限らない。そのような物体を映っている映像を取得するため一定時間撮影し続ける必要がある。この問題は、物体が映ることが比較的少ないケース(例えばカメラが監視カメラである)では、特に大きいと考えられる。
・現場でのカメラの設置工事は、通常、当該カメラにより検知したい検知対象物が存在しない時間帯で行われる。このため、カメラの設置が終了し検知対象物が存在する時間帯になったときに検知対象領域の設定を始めることが可能になるといった問題がある。
However, setting an appropriate detection target area is difficult for at least one of the following reasons.
・In an image captured by a camera, the actual size corresponding to one pixel may differ depending on the pixel position due to various shooting conditions such as camera posture, shooting magnification (angle of view) and position. Estimating the actual magnitude for each pixel location is difficult.
• If an object (a sensing object or other object) for which the actual size is based is visible, it is expected to estimate the corresponding actual size for each pixel in the image. However, it is not always possible to shoot an image including such an object. In order to obtain images of such objects, it is necessary to continue shooting for a certain period of time. This problem is considered to be particularly large in cases where relatively few objects are captured (for example, the camera is a surveillance camera).
- On-site camera installation work is usually carried out during hours when there are no objects to be detected by the camera. For this reason, there is a problem that setting of the detection target area can be started when the installation of the camera is finished and the time period when the detection target exists.
本発明の一態様によれば、映像解析支援装置が、入力された画像座標系の映像を基に、該当領域を推定し且つカメラパラメータを算出する。当該装置が、該当領域の座標を算出されたカメラパラメータを用いて画像座標から世界座標に変換することで世界座標系の該当領域を導出し、当該導出された該当領域を基に世界座標系の検知対象領域を導出し、当該導出された検知対象領域の座標を上記算出されたカメラパラメータを用いて世界座標から画像座標に変換することで画像座標系の検知対象領域を導出する。 According to one aspect of the present invention, a video analysis support device estimates a relevant region and calculates camera parameters based on an input video in an image coordinate system. The device derives the relevant region of the world coordinate system by converting the coordinates of the relevant region from the image coordinates to the world coordinates using the calculated camera parameters, and based on the derived relevant region, the world coordinate system A detection target region is derived, and the coordinates of the derived detection target region are converted from world coordinates to image coordinates using the calculated camera parameters, thereby deriving the detection target region of the image coordinate system.
本発明の一態様によれば、映像が一つの静止画像であり検知対象物が当該静止画像に映っていなくても適切な検知対象領域を導出することが可能となる。 According to one aspect of the present invention, it is possible to derive an appropriate detection target region even if the video is a single still image and the detection target is not shown in the still image.
上記した以外の課題、構成、および効果は、以下の実施例の説明により明らかにされる。 Problems, configurations, and effects other than those described above will be clarified by the following description of the embodiments.
以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボードおよびポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
In the following description, an "interface device" may be one or more interface devices. The one or more interface devices may be at least one of the following:
- One or more I/O (Input/Output) interface devices. An I/O (Input/Output) interface device is an interface device for at least one of an I/O device and a remote display computer. The I/O interface device to the display computer may be a communications interface device. The at least one I/O device may be any of a user interface device, eg, an input device such as a keyboard and pointing device, and an output device such as a display device.
- One or more communication interface devices. The one or more communication interface devices may be one or more of the same type of communication interface device (e.g., one or more NICs (Network Interface Cards)) or two or more different types of communication interface devices (e.g., NIC and It may be an HBA (Host Bus Adapter).
また、以下の説明では、「メモリ」は、一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。 Also, in the following description, "memory" may be one or more memory devices, typically a main memory device. At least one memory device in the memory may be a volatile memory device or a non-volatile memory device.
また、以下の説明では、「永続記憶装置」は、一つ以上の永続記憶デバイスである。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)であり、具体的には、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)である。 Also, in the following description, a "persistent storage device" is one or more persistent storage devices. A permanent storage device is typically a non-volatile storage device (for example, an auxiliary storage device), and specifically, for example, an HDD (Hard Disk Drive) or SSD (Solid State Drive).
また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。 Also, in the following description, "storage" may be at least memory of memory and persistent storage.
また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスである。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスであるが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部または全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。 Also, in the following description, a "processor" is one or more processor devices. The at least one processor device is typically a microprocessor device such as a CPU (Central Processing Unit), but may be another type of processor device such as a GPU (Graphics Processing Unit). At least one processor device may be single-core or multi-core. At least one processor device may be a processor core. At least one processor device may be a broadly defined processor device such as a hardware circuit (for example, FPGA (Field-Programmable Gate Array) or ASIC (Application Specific Integrated Circuit)) that performs part or all of processing.
また、以下の説明では、「xxxテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部または一部が一つのテーブルであってもよい。 In the following description, the expression "xxx table" may be used to describe information that provides an output for an input. A learning model such as a neural network that generates Therefore, the "xxx table" can be called "xxx information". Also, in the following description, the configuration of each table is an example, and one table may be divided into two or more tables, or all or part of two or more tables may be one table. may
また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶装置および/またはインターフェース装置等を用いながら行うため、処理の主語が、プロセッサ(或いは、そのプロセッサを有するコントローラのようなデバイス)とされてもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な(例えば非一時的な)記録媒体であってもよい。また、以下の説明において、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。 Further, in the following explanation, the processing may be explained with the subject of "program", but the program is executed by the processor, so that the specified processing can be performed by the storage device and/or the interface device as appropriate. As it occurs while in use, the subject of processing may be a processor (or a device, such as a controller, having that processor). A program may be installed on a device, such as a computer, from a program source. The program source may be, for example, a program distribution server or a computer-readable (eg, non-temporary) recording medium. Also, in the following description, two or more programs may be implemented as one program, and one program may be implemented as two or more programs.
また、以下の説明では、「kkk部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGAまたはASIC)によって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置および/またはインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。 In addition, in the following description, the function may be described using the expression “kkk unit”, but the function may be realized by executing one or more computer programs by a processor, or may be realized by executing one or more computer programs. It may be realized by the above hardware circuits (FPGA or ASIC, for example). When a function is realized by executing a program by a processor, the defined processing is performed while appropriately using a storage device and/or an interface device, etc., so the function may be at least part of the processor. good. A process described with a function as the subject may be a process performed by a processor or a device having the processor. Programs may be installed from program sources. The program source may be, for example, a program distribution computer or a computer-readable recording medium (for example, a non-temporary recording medium). The description of each function is an example, and multiple functions may be combined into one function, or one function may be divided into multiple functions.
また、以下の説明では、「映像解析支援装置」は、一つ以上の計算機で構成されてよい。具体的には、例えば、計算機が表示デバイスを有していて計算機が自分の表示デバイスに情報を表示する場合、当該計算機が映像解析支援装置でよい。また、例えば、第1計算機(例えばサーバ計算機)が表示用情報を遠隔の第2計算機(表示用計算機(例えばクライアント計算機))に送信し表示用計算機がその情報を表示する場合(第1計算機が第2計算機に情報を表示する場合)、第1計算機と第2計算機とのうちの少なくとも第1計算機が映像解析支援装置でよい。つまり、映像解析支援装置が「表示用情報を表示する」ことは、当該装置が有する表示デバイスに表示用情報を表示することであってもよいし、当該装置が表示用計算機に表示用情報を送信することであってもよい(後者の場合は表示用計算機によって表示用情報が表示される)。 Also, in the following description, the “video analysis support device” may be configured with one or more computers. Specifically, for example, when a computer has a display device and displays information on its own display device, the computer may be the video analysis support device. Also, for example, when the first computer (eg server computer) transmits display information to a remote second computer (display computer (eg client computer)) and the display computer displays the information (the first computer When displaying information on the second computer), at least the first computer out of the first computer and the second computer may be the video analysis support device. In other words, the fact that the video analysis support device "displays the display information" may be displaying the display information on the display device of the device, or the device may display the display information on the display computer. (In the latter case, the information for display is displayed by a computer for display).
以下、図面を参照して本発明の実施例を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の実施例1の映像解析システム100の全体構成図である。
FIG. 1 is an overall configuration diagram of a
本実施例の映像解析システム100は、映像撮影装置101、映像記憶装置102、入力デバイス103、表示デバイス104、およびサーバ計算機110を備える。
A
映像撮影装置101は、映像を撮影して映像データを作成し、それを出力する装置である。映像撮影装置101は、ビデオカメラ、スチルカメラ、高感度カメラ、低照度カメラ、暗視カメラ、サーマルカメラ、X線カメラなどであってもよいし、これらのうちのいずれかを含む複数台で構成されてもよい。つまり、映像撮影装置101は、少なくとも一台のカメラを有する装置(例えば一台のカメラそれ自体)でよい。
The
映像記憶装置102は、映像データを保存し、要求に応じて出力する記憶装置であり、コンピュータ内蔵のハードディスクドライブ、または、NAS(Network Attached Storage)もしくはSAN(Storage Area Network)などのネットワークで接続されたストレージシステムを用いて構成することができる。
The
映像撮影装置101または映像記憶装置102から出力された映像は、いずれもサーバ計算機110の映像入力部111に入力される。映像解析システム100は、図1に示すように映像撮影装置101および映像記憶装置102の両方を備えてもよいが、いずれか一方のみを備えてもよい。映像解析システム100が映像撮影装置101および映像記憶装置102の両方を備える場合、映像入力部111への映像データの入力元が必要に応じて映像撮影装置101または映像記憶装置102に切り替えられてもよいし、映像撮影装置101から出力された映像データが一旦映像記憶装置102に記憶され、そこから映像入力部111に入力されてもよい。その場合、映像記憶装置102は、例えば、映像撮影装置101から継続的に入力される映像データを一時的に保持するキャッシュメモリであってもよい。
Images output from the
なお、映像記憶装置102に保存される映像データ及び映像撮影装置101によって作成される映像データは、どのような形式のデータであってもよい。例えば、映像撮影装置101がビデオカメラであり、それによって撮影された動画像データが映像データとして出力されてもよいし、そのような映像データが映像記憶装置102に記憶されてもよい。あるいは、映像撮影装置101がスチルカメラであり、それによって所定の間隔(少なくとも撮影された物体を追跡できる程度の間隔)で撮影された一連の静止画像データが映像データとして出力されてもよいし、そのような映像データが映像記憶装置102に記憶されてもよい。
Note that the image data stored in the
入力デバイス103は、マウス、キーボード、タッチデバイスなど、ユーザの操作をサーバ計算機110に伝えるための入力インターフェースである。表示デバイス104は、液晶ディスプレイなどの出力インターフェースであり、サーバ計算機110の映像解析結果の表示、ユーザとの対話的操作などのために用いられる。例えば、いわゆるタッチパネル等を用いることによって入力デバイス103と表示デバイス104は一体化されてもよい。
The
サーバ計算機110は、映像解析支援装置の一例である。サーバ計算機110は、入力された映像データが示す画像座標系の映像における物体検知処理の対象とする領域を限定するためのマスク領域(画像座標系の検知対象領域)を生成(導出)し、入力された映像データがのうち生成されたマスク領域内について映像解析処理(検知対象物がマスク領域に存在するか否かを判断することを含んだ処理)を行う装置として機能する。なお、サーバ計算機110は、入力された映像データが示す映像における物体検知処理の対象とする領域を限定するためのマスク領域の生成を行うが映像解析処理を行わない装置として機能してもよい。
The
サーバ計算機110が扱う映像は、一箇所以上の場所で撮影された定点観測の映像であってもよいし、車載カメラ、ドローン搭載のカメラ、ウェアラブルカメラ、アクションカメラなどのような移動体に設置されたカメラによって撮影された映像であってもよい。
The images handled by the
サーバ計算機110は、映像入力部111、カメラパラメータ算出部121、領域推定部123、領域導出部30(例えば、座標変換部122および領域設定部124)、領域ストア125、映像解析部131および管理情報ストア10を備える。
The
映像入力部111は、映像撮影装置101によって撮影された映像データを受け取るか、または、映像記憶装置102から映像データを読み出し、それをサーバ計算機110内部で使用するデータ形式に変換する。具体的には、例えば、映像入力部111は、動画像(動画データ形式)をフレーム(静止画データ形式)に分解する動画デコード処理を行う。得られたフレームは、カメラパラメータ算出部121、領域推定部123、および映像解析部131に送られる。すなわち、本実施例では、映像入力部111から入力される映像は、静止画像である。
The
カメラパラメータ算出部121は、映像入力部111から受け付けた映像を基に、カメラパラメータの推定を行う。座標変換部122は、領域設定部124よりカメラパラメータと座標を受け付け、画像座標と世界座標の相互変換処理を実施する。画像座標とは、画像平面上の座標(画像座標系の座標)であり、世界座標とは画像中におさめられた被写体が存在する空間上の座標(世界座標系の画像)である。座標変換部122は、領域設定部124から受け付けた座標に対する座標変換処理を行い、変換された座標は領域設定部124に送られる。本実施例では、カメラパラメータ算出部121は、映像が受け付けられる都度に当該映像を基にカメラパラメータを算出するが、本発明では、例えば下記のうちの少なくとも一つが採用されてもよい。
・カメラパラメータ算出部121が無くてもよい。この場合、全てのカメラの各々について、予めカメラパラメータは決まっていてよい。少なくとも一つのカメラについて、カメラパラメータの少なくとも一部は、例えば後述するようにユーザにより手動で変更されてもよい。
・一部のカメラについては、映像が受け付けられる都度に当該映像を基にカメラパラメータ算出部121によりカメラパラメータが算出され、残りのカメラについては、カメラパラメータ算出部121は動作せず予めカメラパラメータは決まっていてよい。予め決まっているカメラパラメータの少なくとも一部は、例えば後述するようにユーザにより手動で変更されてもよい。
The
- The
・For some cameras, the camera parameters are calculated by the camera
カメラパラメータとは、座標変換部122が画像座標と世界座標の変換を行うために必要な数値データであり、カメラの姿勢(例えば、世界座標上のカメラ位置、カメラのパン角、カメラのチルト角、およびカメラのロール角)、カメラの画角(焦点距離)、撮像する画像のアスペクト比などと紐づいている。画像座標(u,v)と世界座標(X,Y,Z)は(数1)により相互に変換が可能であり、(数1)の行列Cがカメラパラメータである。カメラパラメータの導出には公知のいかなる手法を用いてもよい。例えば、世界座標が既知の構造物が含まれるフレーム複数枚を映像入力部111より受け付け、世界座標と画像座標の対応点のデータセットを基にバンドル調整法による計算を行うことで求めてもよい。
領域推定部123は、映像入力部111より受け付けた映像を基に、機械学習の手法を適用して、予め設定された領域、または、入力デバイス103によりユーザに指定された領域である該当領域を推定する。
Based on the image received from the
領域推定に関する機械学習手法とは、例えば、画像を部分領域に分割し、特徴抽出器により各々の部分領域から画像特徴を抽出し、識別器により画像特徴を基に部分領域画像が所望の領域であるかを識別し、それら部分領域画像の識別結果を統合して元の画像中の所望の領域を提示する領域推定機能について、複数の正解情報を有する画像(訓練データ)を基に、特徴抽出器と識別器のパラメータを自動最適化することで、訓練データに含まれない未知の画像に対しても有効な領域推定機能を獲得する手法である。 A machine learning method related to region estimation, for example, divides an image into partial regions, extracts image features from each partial region with a feature extractor, and classifies the partial region image in a desired region based on the image features with a classifier. A region estimation function that identifies whether there is a partial region image and presents a desired region in the original image by integrating the identification results of these partial region images. By automatically optimizing the parameters of the classifier and the classifier, it is a method that acquires an effective region estimation function even for unknown images that are not included in the training data.
このような処理手法の具体例として、Deep Learning(深層学習)が知られている。Deep learningを用いた特徴パラメータの抽出方法の一例としては、畳み込みニューラルネットワークを用いた特徴抽出方法が知られている。畳み込みニューラルネットワークでは、ニューロンユニットと呼ばれる入出力関数(活性化関数)が、小画像領域毎に多数組み合わされており、さらにこれが複数の層状に積み重ねられてピラミッド構造になっている。この方法によれば、検知対象とする対象物の位置や画像サイズを変えながら、段階的に対象物を識別できるようにニューロンユニットの各層毎に識別器パラメータを抽出して、最終的には、対象物全体を識別可能な識別器パラメータを得ることができる。畳み込みニューラルネットワークを応用した領域推定手法は、一般に意味領域推定(セマンティックセグメンテーション)と呼ばれており、具体的なネットワークモデルとして、FCN、U-Net、SegNet、PSPNet、Mask R-CNNなどが知られている。 Deep learning is known as a specific example of such a processing technique. As an example of a feature parameter extraction method using deep learning, a feature extraction method using a convolutional neural network is known. In a convolutional neural network, a large number of input/output functions (activation functions) called neuron units are combined for each small image area, and these are stacked in multiple layers to form a pyramid structure. According to this method, classifier parameters are extracted for each layer of the neuron unit so that the object can be identified step by step while changing the position and image size of the object to be detected, and finally, It is possible to obtain discriminator parameters that can discriminate the entire object. Region estimation methods that apply convolutional neural networks are generally called semantic region estimation (semantic segmentation), and specific network models include FCN, U-Net, SegNet, PSPNet, and Mask R-CNN. ing.
領域設定部124は、領域推定部123が推定した該当領域に、予め用意された設定ルール、または、入力デバイス103によりユーザから指定された設定ルールを適用し、座標変換部122による座標変換を活用して検知対象領域を導出する。領域設定部124により導出された検知対象領域は、領域ストア125に保存される。なお、サーバ計算機110が映像解析部131を有しない場合には、領域設定部124により導出された検知対象領域は、ファイル出力されてもよいし、外部のシステムに送られてもよい。検知対象領域の導出手順の詳細は後述する。また、領域設定部124は、領域ストア125内の画像座標系の検知対象領域を表示デバイス104に表示してもよい。
The
映像解析部131は、映像入力部111より受け付けたフレーム(静止画像としての映像)に対し、領域ストア125より取得された検知対象領域内について映像解析処理を実施する。映像解析部131が実施する映像解析処理は、検知対象領域に検知対象物が存在するか否かの判断を含む検知処理でもよいし、その他の処理(例えば、物体追跡処理、特徴抽出処理など)を含んでもよい。ここで言う物体は、人物、動物、車両、船舶、荷物など、あらゆる一般的な物体でなく、それらのうちいずれの物体も検知対象物として指定されてもよい。映像解析部131における映像解析結果は、表示に適切な情報に加工されたのち、表示デバイス104に送られる。
The
また、映像解析部131は、映像入力部111より受け付けたフレーム全体に対し映像解析処理を実施し、映像解析処理により得られた結果が検知対象領域に収まらない場合、その情報を棄却してもよい。例えば、映像解析部131が映像入力部111より受け付けたフレームに対し物体検知処理を行う場合、映像解析部131は、下記を含むフィルタリング処理を実施してもよい。
・検知結果の領域が領域ストア125より受け付けた検知対象領域内に収まる場合は、検知結果を出力する。
・取得された任意の物体の検知結果の領域が領域ストア125より受け付けた検知対象領域内に収まらない場合は、検知結果を出力しない。
Further, the
- If the detection result area fits within the detection target area received from the
- If the acquired detection result area of any object does not fit within the detection target area received from the
図2は、本発明の実施例1の映像解析システム100のハードウェア構成図である。
FIG. 2 is a hardware configuration diagram of the
サーバ計算機110は、例えば、相互に接続されたプロセッサ201および記憶装置202を有する一般的な計算機である。プロセッサ201は、映像解析処理の演算が可能な任意の処理装置によって構成される。例えば、プロセッサ201は、CPU、GPU、FPGA、ASICのいずれかを含んでもよい。記憶装置202は任意の種類の記憶媒体によって構成される。例えば、記憶装置202は、半導体メモリ及びハードディスクドライブを含んでもよい。
The
この例において、図1に示した映像入力部111、カメラパラメータ算出部121、座標変換部122、領域推定部123、領域設定部124、映像解析部131といった機能部は、プロセッサ201が記憶装置202に格納された処理プログラム203を実行することによって実現される。言い換えると、この例において、上記の各機能部が実行する処理は、実際には、処理プログラム203に記述された命令に従うプロセッサ201によって実行される。また、領域ストア125および管理情報ストア10の各々は、記憶装置202に含まれる記憶領域でよい。管理情報ストア10には、設定ルールを示す情報を含んだ管理情報が格納される。管理情報は、例えばカメラパラメータを含んでよい。
In this example, functional units such as the
サーバ計算機110は、さらに、プロセッサに接続されたネットワークインターフェース装置(NIF)204を含む。映像撮影装置101は、例えば、ネットワークインターフェース装置204を介してサーバ計算機110に接続される。映像記憶装置102は、ネットワークインターフェース装置204を介してサーバ計算機110に接続されたNASまたはSANであってもよいし、記憶装置202に含まれてもよい。
入力デバイス103および表示デバイス104は、サーバ計算機110に接続されたクライアント計算機が有する入力デバイスおよび表示デバイスでよい。
The
図3は、本発明の実施例1の映像解析システム100のシーケンス図である。
FIG. 3 is a sequence diagram of the
図3を用いて、映像解析システム100の各構成要素の動作シーケンスについて述べる。
The operation sequence of each component of the
はじめに、映像入力部111は、映像撮影装置101または映像記憶装置102より受け付けた映像からフレームを抽出する。抽出されたフレームは、カメラパラメータ算出部121(ステップS301)および領域推定部123(ステップS302)に送られる。なお、映像入力部111は、映像が背景以外の物体を含む場合、背景のみからなるフレームの選別処理、または、映像データの学習による背景画像に相当するフレームの生成処理により背景画像に相当するフレームを導出してもよい。この場合、ステップS301およびステップS302では、導出された背景画像に相当するフレームがカメラパラメータ算出部121および領域推定部123に送られる。
First, the
次に、カメラパラメータ算出部121は、映像入力部111より受け付けたフレームを基にカメラパラメータを算出する。算出されたカメラパラメータは領域設定部124に送られる(ステップS303)。カメラパラメータの算出において、入力デバイス103によるユーザの入力情報を用いる場合は、入力デバイス103によるユーザの入力情報がカメラパラメータ算出部121に送られる(ステップS304)。あるいは、カメラパラメータ算出部121は、予め記憶装置202内に格納されたカメラパラメータ算出に必要な情報(例えばカメラ姿勢および画角)を読み出してカメラパラメータを算出してもよい。なお、カメラパラメータ算出部121は、カメラパラメータの算出を行わず、予め記憶装置202内に格納されたカメラパラメータを読み出して使用してもよい。この場合、映像入力部111より受け付けたフレームに対応するカメラパラメータを読み出すものとする。
Next, the
次に、領域推定部123は、映像入力部111より受け付けたフレームに対し、予め設定された領域を推定する。領域推定部123は、単一の領域を推定してもよいし、同一種類の複数の領域を推定してもよいし、異種の複数の領域を推定してもよい。推定された領域は、領域設定部124に送られる(ステップS305)。なお、領域設定部124に送られる領域は、どのようなデータ形式であってもよい。例えば、領域を示す画像であってもよいし、領域の輪郭を示す点集合であってもよい。
Next, the
領域設定部124は、領域推定部123より受け付けた領域とカメラパラメータ算出部121より受け付けたカメラパラメータを基に、検知対象領域を導出する。導出においてユーザの入力が必要な場合、入力デバイス103によるユーザの入力を受け付ける(ステップS306)。また、検知対象領域の導出において、領域を構成する点の画像座標と世界座標の変換を行うため、領域設定部124は、領域を構成する点の座標とカメラパラメータを座標変換部122に通知し、画像座標から世界座標へ、または世界座標から画像座標へ変換された結果を受け取る(ステップS307)。なお、領域設定部124から座標変換部122に通知される領域を構成する点の座標は、領域内に含まれる座標から等間隔に抜粋した座標の集合であってもよいし、領域を示す輪郭線上の座標の集合であってもよい。輪郭線の座標の集合を用いる場合には、領域設定部124は領域推定部123より受け付けた領域に対して輪郭線抽出処理を実施する。ステップS307は、図3では一度の記載となっているが、複数回実施されてもよい。導出された検知対象領域は領域ストア125に送られる(ステップS308)。なお、ステップS308と同時に、領域ストア125の検知対象領域が更新されたことが、映像解析部131に通知されてもよい。また、検知対象領域は、NIF204を介して、映像解析システム100とは異なるシステムや装置に送られてもよい。
The
上記のステップS301~S308の処理により、検知対象領域の導出および登録が完了する(図3において“R”)。上記の処理により、映像解析システム100は、検知対象物が映像に映っていなくても当該映像から検知対象物の出現する可能性ある領域である検知対象領域を導出することが可能である。
Derivation and registration of the detection target area are completed by the above steps S301 to S308 (“R” in FIG. 3). Through the above processing, the
次に映像解析部131は、領域ストア125の登録済みの検知対象領域を読み出す(ステップS309)。映像解析部131は、検知対象領域を表示デバイス104によりユーザに提示してもよく、入力デバイス103を用いたユーザによる検知対象領域の修正を受け付けてもよい(ステップS310)。
Next, the
次に映像解析部131は、映像入力部111よりフレームを受け付け(ステップS311)、フレームの検知対象領域内について映像解析処理を実施する。映像解析結果は、表示デバイス104に送られる(ステップS312)。なお、映像解析部131は、映像入力部111より受け付けたフレーム全体について映像解析処理を実施した後に、検知対象領域内のみを映像解析結果として選択するフィルタ処理を行ってもよい。また、映像解析部131の映像解析結果は、表示デバイス104に送られず、記憶装置202に保存されてもよいし、NIF204を介して映像解析システム100とは異なるシステムに送られてもよい。
Next, the
上記のステップS301~ステップS312により、検知対象領域の導出、登録および検知対象領域を用いた映像解析処理が完了する。上記の処理により、映像解析システム100は、検知対象領域内についての映像解析結果のみを導出することが可能である。
Through steps S301 to S312 described above, the derivation and registration of the detection target area and the video analysis processing using the detection target area are completed. Through the above processing, the
次に、カメラパラメータ算出部121が映像入力部111よりフレームを受け付け(ステップS321)、カメラパラメータを算出し、算出されたパラメータが領域設定部124に送られる(ステップS322)という一連の処理が、周期的あるいは断続的に実施される場合に、領域設定部124がカメラパラメータの変動を検知したならば、画像座標系の検知対象領域を変動前のカメラパラメータを用いて座標変換部122により世界座標に変換(ステップS323)し、さらに、世界座標に変換された検知対象領域を変動後のカメラパラメータを用いて座標変換部122により画像座標に変換する(ステップS327)ことにより、カメラパラメータの変動分に追従して、検知対象領域を補正(変更)する。補正された検知対象領域は領域ストア125に送られ、領域ストア125の保有する検知対象領域が更新されてもよい(ステップ324)。ステップS321~ステップS324の処理は、ステップS306においてユーザによる検知対象領域の修正が実施される場合に、カメラの姿勢や画角が変化したとしても、再度のユーザによる修正を省略できるという効果を持つ。
Next, the camera
図4A~図4Hを参照して、本発明の実施例1の映像解析システム100による領域設定手順の一例を説明する。
An example of the region setting procedure by the
図4Aは、映像撮影装置101の世界座標系の撮影範囲の一例を示す。図4Aによれば、家屋、歩道および車道が被写体となるように街頭に映像撮影装置101が設置されている。図4Aに示した矢印は、世界座標(X, Y, Z)が存在する世界座標系を示す。画像座標(u,v)が存在する画像座標系は、図中記載を省略するが、図4Aが示すフレーム枠左上を原点とし、原点から右へ水平に延びた軸がu軸となり、原点から鉛直に下へ延びた軸がv軸となる座標系である。
FIG. 4A shows an example of the shooting range of the world coordinate system of the
図4Bは、図4Aに示した世界座標系のXY平面(Z=0)に沿って、家屋、歩道および車道の位置関係を示している。図4A中における黒い領域81は人物であり、領域設定手順には直接関連がないが参考として記載した。
FIG. 4B shows the positional relationship of houses, sidewalks and roadways along the XY plane (Z=0) of the world coordinate system shown in FIG. 4A. A
図4C~図4Hを用いて、図4Aに例示の撮影範囲の背景画像のフレームに対し、映像解析システム100を用いて検知対象領域を抽出する例について説明する。
4C to 4H, an example of extracting a detection target region using the
図4Cは、ステップS305において領域推定部123が図4Aにおける車道領域を推定した結果である。この例では、領域推定部123が車道領域を推定する例について記載するが、車道以外の物体を推定対象としてもよい。ただし、領域推定手法として、Deep Learningを応用した意味領域推定手法を活用する場合、場所によらず類似した外観である可能性が高い物体を領域推定対象とすることで、訓練データ収集が行いやすく、かつ、汎化による適用場所の拡大が期待できる。一般に、家屋や歩道に比較して、車道は外観の場所依存性が低いと考えられるため、本実施例においては領域推定部123による推定の対象が車道とされている。図4Aの例以外の場合、領域推定部123による領域推定対象は、例えば、商業施設におけるレジや入口、埠頭における海面、高速道路における道路、料金所またはサービスエリア入口、海上付近における橋脚、空または地平線でよい。
FIG. 4C shows the result of estimating the roadway area in FIG. 4A by the
図4Dの斜線部領域は、ステップS307により、図4Cの車道推定領域が画像座標から世界座標に変換された結果である。図4Dに記載のXY平面は、図4Cにおける車道推定領域を含む面であり、図4Cに記載のXY平面(Z=0)としている。ただし、画像座標に対する世界座標の取り方は任意であり、図4記載以外の面がXY平面となるようにXYZ座標が定められてもよい。 The shaded area in FIG. 4D is the result of converting the estimated roadway area in FIG. 4C from image coordinates to world coordinates in step S307. The XY plane shown in FIG. 4D is a plane including the estimated roadway area in FIG. 4C, and is the XY plane (Z=0) shown in FIG. 4C. However, the method of setting the world coordinates for the image coordinates is arbitrary, and the XYZ coordinates may be determined so that the planes other than those shown in FIG. 4 are on the XY plane.
図4Eの斜線部領域は、領域設定部124において図4Dの世界座標に変換された車道推定領域を基に、オフセット補正によりその両端を歩道として推定された領域である。図4Eの例によれば、世界座標系の該当領域に対するオフセット補正により該当領域を含まない領域が世界座標系の検知対象領域として導出される。図4Eの例では、車道推定領域を基にその外周両端の任意の距離の範囲を歩道として指定する例について示したが、領域推定部123により推定した領域を参照するものであれば、どのような領域指定手法を用いてもよい。
The hatched area in FIG. 4E is an area in which both ends are estimated as sidewalks by offset correction based on the estimated roadway area converted to the world coordinates in FIG. 4D by the
図4Fの斜線部領域は、ステップS307により、領域設定部124において推定された歩道推定領域を画像座標に変換し、フレーム中に図示したものである。上記の通り、図4C、図4D、図4E、図4Fの順に説明した処理によれば、領域推定部123により歩道を推定しない場合においても、車道の推定結果を基に歩道領域を推定することが可能となる。
The shaded area in FIG. 4F is a frame obtained by transforming the estimated sidewalk area estimated by the
図4Eにおいて、さらに、世界座標のXY平面上の歩道推定領域について、異なるZの値に対応する画像座標を求めることによって、歩道推定領域の上空の画像内の位置を取得することができる。この手法によれば、歩道推定領域上を任意の高さの物体が移動する際の画像上の領域を求めることができる。このように、領域設定部124は、このように複数のZ座標において画像座標に変換した歩道推定領域を用いて検知対象領域を導出する。図4Gおよび図4Hはともに歩道推定領域上を人物が移動する場合のフレーム上の出現範囲を示したものである。図4Gは図4Hよりも背の高い人物を解析対象とした場合の結果を示している。つまり、図4Gの場合は、図4Hの場合に比較して、より大きいZにおける歩道推定領域の画像座標を用いて検知対象領域を導出した結果について示している。このように、図4C、図4D、図4E、図4Fおよび図4G、または、図4C、図4D、図4E、図4F、図4Hの順に説明した処理によれば、領域推定部123により推定した領域を基に、検知対象のサイズを考慮した検知対象領域の設定が可能となる。
In FIG. 4E, furthermore, for the estimated sidewalk area on the XY plane of the world coordinates, the image coordinates corresponding to different Z values can be obtained to obtain the position in the sky image of the estimated sidewalk area. According to this method, it is possible to obtain an area on the image when an object of arbitrary height moves on the sidewalk estimation area. In this manner, the
図5は、ユーザがカメラと検知対象に適した検知対象領域設定ルールを設定する際の設定画面である。領域設定部124は、設定画面を通じて設定されたルールに基づき、図4を用いて説明した手順で検知対象領域を設定する。また、図5および図6におけるUI(ユーザインターフェース)は、GUI(Graphical User Interface)部品でよい。このため、図5および図6に示す画面は、GUI画面でよい。
FIG. 5 is a setting screen when the user sets a detection target area setting rule suitable for a camera and a detection target. The
図5に示す画面には、例えばUI501~504がある。
The screen shown in FIG. 5 includes
はじめに、ユーザはカメラ選択UI501のドロップダウンリストより検知対象ルールを設定したい映像撮影装置101または映像記憶装置102に含まれるカメラまたは映像を選択する。カメラ選択UI501は、一つ以上のカメラのうちの所望のカメラの選択を受け付けるユーザインターフェースである。
First, the user selects a camera or video included in the
次に、ユーザは、検知対象選択UI502において検知対象領域設定ルールを指定する。ここでは、ユーザはルール名を新規に入力してもよいし、ドロップダウンリストに表示される候補を選択してもよい。
Next, the user specifies a detection target area setting rule on the detection
次に、ユーザは、サイズ入力UI503において、検知対象サイズを入力する。ここでは、検知対象サイズとして高さのみを入力する例を示したが、幅または奥行などを含む複雑な形状について指定してもよく、この場合、設定画面は、検知対象サイズ入力部に相当の入力UIを有するものとする。
Next, the user inputs the detection target size on the
次に、ユーザは、ルール指定UI504において、世界座標上で、領域推定部123が推定した領域(図中黒色)を基に別の領域を設定するための設定ルールが入力される。図5のルール指定UI504は、領域推定部123が推定した領域の左端側に指定した幅の領域が1つと、領域推定部123が推定した領域の右端側に指定した幅の領域が1つの合計2つの領域(図中斜線部)を設定するルールを入力している例である。ルール指定UI504には、二次元画像に代えて三次元画像が表示されてよい。検知対象選択UI502、サイズ入力UI503およびルール指定UI504が、設定UIの一例でよい。
Next, the user inputs a setting rule for setting another area based on the area (black in the figure) estimated by the
以上の通り、設定画面によりユーザは、領域設定部124が検知対象領域を設定するための領域設定ルールを設定することが可能である。
As described above, the setting screen allows the user to set the area setting rule for the
図6は、ユーザがカメラと検知対象に適した検知対象領域設定ルールが設定されているかを確認するための領域確認画面である。 FIG. 6 is an area confirmation screen for the user to confirm whether the detection target area setting rule suitable for the camera and the detection target is set.
図6に示す画面には、例えばUI501~503およびUI601および602がある。カメラ選択UI501、検知対象選択UI502、サイズ入力UI503は、図5と同様であるから説明を省略する。
The screen shown in FIG. 6 includes
領域UI601には、ステップS308またはステップS324によって導出された画像座標系の検知対象領域が表示される。カメラパラメータUI602にはステップS308またはステップS324における検知対象領域の導出に用いられたカメラパラメータが表示される。なお、図6のカメラパラメータUI602では、カメラパラメータとして行列Cを表示する例を示したが、公知の手法により、カメラのチルト角、パン角、画角、カメラの設置高さなどのいずれか一つ以上を含むパラメータに変換した値を表示してもよい。
The
ユーザは、領域UI601により、領域設定部124により導出された検知対象領域が所望の領域となっているか確認することができる。さらに、検知対象領域またはカメラパラメータのいずれかを修正したい場合には、領域UI601に表示された領域やカメラパラメータUI602に表示されたカメラパラメータを直接編集することができる。
The user can confirm through the
次に、実施例2の映像解析システム100について説明する。その際、実施例1との相違点を主に説明し、実施例1との共通点については説明を省略または簡略する。
Next, the
本実施例では、リバーシブルレーン(中央線変移)とバス専用レーンを有する車道に対し、時間により異なる検知対象領域を設定する例について説明する。実施例2において、以降に記載する内容以外の部分は、全て実施例1記載の映像解析システム100と共通である。
In this embodiment, an example will be described in which different detection target regions are set depending on time on a roadway having a reversible lane (center line transition) and a bus-only lane. In the second embodiment, all parts other than the contents described below are common to the
図7Aは、左側2斜線右側3車線で、右側1車線はバス専用レーンとなっている車道を車道中央上方にあるカメラを用いて撮像した画像である。図7Bは、図7Aと同じ場所を撮像しているが、リバーシブルレーンにより中央線が移動し、左側3車線右側2車線となっている状態を撮像した例である。 FIG. 7A is an image of a roadway with two diagonal lines on the left side and three lanes on the right side, and the one lane on the right side is a dedicated bus lane, taken using a camera located above the center of the roadway. FIG. 7B is an example of imaging the same location as in FIG. 7A, but the center line has moved due to the reversible lanes, resulting in three lanes on the left side and two lanes on the right side.
リバーシブルレーンとリバーシブルレーンに伴う曜日および時間帯指定のバス専用レーンがある車道では、図7A、図7Bのように、時間および曜日により通行区分が切り替わる。このような車道において、進行方向違反や車両区分違反を検知するためには、進行方向と車両区分の変化に対応できるよう、時間および曜日により異なる検知対象領域を設定する必要がある。 On a roadway with reversible lanes and dedicated bus lanes with designated days of the week and time slots associated with the reversible lanes, traffic classifications change depending on the time and day of the week, as shown in FIGS. 7A and 7B. In order to detect traveling direction violations and vehicle classification violations on such roads, it is necessary to set different detection target areas depending on the time and day of the week so as to be able to respond to changes in the traveling direction and vehicle classification.
図7C~図7Eを用いて、図7Aまたは図7Bの背景画像のフレームに対し、映像解析システム100を用いて検知対象領域を抽出する例について説明する。背景画像は、図7Aおよび図7Bのいずれであってもよい。
An example of extracting a detection target region using the
図7Cのハッチング領域は、ステップS305において領域推定部123が図7Aまたは図7Bを基に車道を推定し、ステップS307により、車道推定領域が画像座標から世界座標に変換された結果である。図7Cに記載のY軸は、図7Aまたは図7Bの車道における車両の進行方向であり、図7Cに記載のX軸は、図7Aまたは図7Bの車道を横断する方向である。
The hatched area in FIG. 7C is the result of the
図7Dは領域設定部124が検知対象領域を設定する際に参照する設定ルールを表として示したものである。図7Dの表は、時間帯によって領域設定のルールが変わることと、それぞれの領域が対応する車線および通行区分を示している。
FIG. 7D shows a table of setting rules that the
実施例2の場合、図7Cに示した通り、領域推定部123は車道領域の推定のみを行い、領域設定部124は、図7D記載の時間帯別の領域設定ルールによって車両領域から図7Aおよび図7Bのように時間帯によって切り替わる場所に対応した検知対象領域の導出を実現する。図7Dでは1箇所の時間帯別の領域設定ルールが記載されている例を示したが、さらに、カメラIDまたはカメラ設定場所を示すデータや曜日、天候、気温などによる場合分けが行われてもよい。また、図7Dに示したような設定ルールは、領域設定部124が保持してもよいが、本実施例では、記憶装置202内の管理情報ストア10に格納される。さらに、設定ルールに関するデータのフォーマットやデータの形式はいかなるものであってもよい。例えば、テキストデータであってもよいしデータベースであってもよい。また、これらのデータはあらかじめ領域設定部124または記憶装置202に登録されていてもよいし、入力デバイス103によってユーザの入力を受け付けてもよい。
In the case of the second embodiment, as shown in FIG. 7C, the
図7Eの斜線部領域3箇所は、領域設定部124において図7Cの世界座標に変換された車道推定領域を基に、図7Dの領域設定ルールのうちNo.1の行に基づき導出された左2車線、右2車線、右1車線の領域である。図7Dの領域設定ルールは、車道推定領域の分割方法が記載されており、No.1を例にとると、X軸方向に左端から0~40%の距離の領域が左車線の領域、40~80%の距離の領域が右車線、80~100%の距離の領域が右車線かつバス専用レーンであることを示している。同様に、図7Fの斜線部領域2箇所は、領域設定部124において図7Cの世界座標に変換された車道推定領域を基に、図7Dの領域設定ルールのうちNo.2の行に基づき導出された左3車線、右2車線の領域である。
The three shaded areas in FIG. 7E are the left coordinates derived based on the row No. 1 of the area setting rules in FIG. 7D based on the estimated roadway area converted to the world coordinates in FIG. It is an area of 2 lanes, 2 right lanes, and 1 right lane. The area setting rule in FIG. 7D describes how to divide the estimated roadway area. Taking No. 1 as an example, the
ステップS307により、図7Eおよび図7Fで求められた領域は画像座標に変換され、領域設定部124において検知対象領域が導出される。
By step S307, the regions obtained in FIGS. 7E and 7F are converted into image coordinates, and the
このように、上記説明した処理によれば、領域推定部123により推定した領域を基に、時間・曜日・天候・気温などによって変化する検知対象領域の設定が可能となる。
Thus, according to the above-described processing, it is possible to set a detection target area that changes depending on the time, day of the week, weather, temperature, etc., based on the area estimated by the
以上の実施例1および2の説明を、例えば下記のように総括することができる。なお、下記の総括は、上述の説明に無い事項(例えば変形例)を含んでもよい。 The description of Examples 1 and 2 above can be summarized, for example, as follows. It should be noted that the following summary may include matters (for example, modified examples) that are not included in the above description.
映像解析支援装置の一例であるサーバ計算機110が、映像入力部111と、領域推定部123と、領域導出部30とを有する。映像入力部111が、映像撮影装置101(カメラの一例)により撮影された画像座標系の映像を、例えば映像撮影装置101(または映像記憶装置102)から入力する。領域推定部123が、当該入力された画像座標系の映像を基に当該映像における該当領域を推定する。領域導出部30が、当該推定された該当領域の座標をカメラパラメータを用いて画像座標から世界座標に変換することで世界座標系の該当領域を導出し、当該導出された該当領域を基に世界座標系の検知対象領域を導出し、当該設定された検知対象領域の座標をカメラパラメータを用いて世界座標から画像座標に変換することで画像座標系の検知対象領域を導出する。このように、映像が一つの静止画像であり検知対象物が当該静止画像に映っていなくても、カメラパラメータを用いて世界座標系の該当領域が導出されて当該該当領域を基に世界座標系の検知対象領域が導出され、同カメラパラメータを用いて当該領域が、マスク領域(または他の用途)に使用可能な画像座標系の検知対象領域が導出される。これにより、映像が一つの静止画像であり検知対象物が当該静止画像に映っていなくても適切な検知対象領域を導出することが可能となる。
A
世界座標系の検知対象領域の導出は、世界座標系の該当領域の世界座標変更に関するルールである設定ルール(例えば、世界座標系の該当領域の世界座標に適用されるオフセットを含んだルール)を適用することでよい。このように、世界座標系の該当領域を基に世界座標系の検知対象領域が導出されるので、当該世界座標系の検知対象領域は適切であることが期待でき、以って、適切な画像座標系の検知対象領域の導出が期待できる。 Derivation of the detection target area in the world coordinate system is based on setting rules (e.g., rules including offsets applied to the world coordinates of the relevant area in the world coordinate system) that are rules for changing the world coordinates of the relevant area in the world coordinate system. can be applied. In this way, since the detection target area of the world coordinate system is derived based on the relevant area of the world coordinate system, it can be expected that the detection target area of the world coordinate system is appropriate. Derivation of the detection target area of the coordinate system can be expected.
領域導出部30は、世界座標系の該当領域の変更後の世界座標を決める情報(例えば、該当領域の世界座標に適用されるオフセット、又は、該当領域の変更後の世界座標それ自体)の指定を受け付けるユーザインターフェースである設定UIを提供してよい。上記適用される設定ルールは、設定UIを介して指定された情報に従う設定ルールでよい。これにより、該当領域に設定ルールを適用することで導出される世界座標系の検知対象領域を適切にすることが期待できる。
The
領域導出部30は、設定UIを介して指定された情報に従う設定ルールを用いて設定された世界座標系の検知対象領域と当該世界座標系の検知対象領域に基づく画像座標系の検知対象領域とのうちの少なくとも一つを出力するユーザインターフェースである領域UI601を提供してよい。領域UI601に出力されている検知対象領域を見て、ユーザは、設定UIを介して指定した情報が適切か否かを判断できる。
The
領域導出部30は、指定された情報が設定UIを介して変更された場合、当該変更された情報に従う設定ルールに基づき、領域UIに出される領域を変更してよい。これにより、ユーザは、変更後の情報が適切か否かを判断できる。
When the specified information is changed via the setting UI, the
領域導出部30は、世界座標系の検知対象領域と画像座標系の検知対象領域のうちの少なくとも一つと当該領域の導出に使用され当該領域に関連付けられカメラパラメータとを記憶装置202に格納してよい。領域導出部30は、領域UI601に出力される領域に関連付けられているカメラパラメータを出力し当該カメラパラメータの変更を受け付けるユーザインターフェースであるカメラパラメータUI602を提供してよい。これにより、ユーザは、検知対象領域に影響したカメラパラメータを知ることができる。
The
領域導出部30は、指定された情報が設定UIを介して変更された場合とカメラパラメータUI602を介してカメラパラメータが変更された場合との少なくとも一つの場合、当該変更に基づき、領域UI601に出される領域を変更してよい。これにより、ユーザは、変更後の情報またはカメラパラメータが適切か否かを判断できる。
In at least one of the case where the designated information is changed via the setting UI and the case where the camera parameters are changed via the
複数の時間帯の各々について、当該時間帯に関し一つまたは複数の世界座標系の検知対象領域をそれぞれ設定することに適用される一つまたは複数の設定ルールがあってよい(例えば図7D参照)。領域導出部30は、世界座標系の検知対象領域を設定するときの時刻に属する時間帯に対応した一つ以上の設定ルールを用いて一つ以上の世界座標系の検知対象領域を導出してよい。これにより、撮影範囲に関する環境に適切な世界座標系の検知対象領域を導出することが期待できる。
For each of the multiple time slots, there may be one or more configuration rules that are applied to respectively configure one or more world coordinate system sensing regions for that time slot (see, for example, FIG. 7D). . The
領域導出部30は、映像撮影装置101による撮影される範囲に関わる情報の指定を受け付けるユーザインターフェースである設定UIを提供してよい。上記適用される設定ルールは、設定UIを介して指定された情報から決定された設定ルールでよい。設定ルールに関する詳細よりも撮影範囲に関わる情報の方をユーザが把握している場合には、当該情報が指定されることで適切な設定ルールが領域導出部30により生成されることになり、結果として、ユーザにとって利便性が高い場合があり得る。この仕組みが採用される場合、サーバ計算機110の記憶装置202は、映像撮影装置101による撮影される範囲に関わる情報と複数の設定ルールとの関連付けを示す情報である変換情報を格納してよい。変換情報は、管理情報の一部でよい。領域導出部30は、設定UIを介して、映像撮影装置101による撮影される範囲に関わる情報が指定された場合、当該指定された情報に対応する一つ以上の設定ルールを変換情報から特定し、特定された一つ以上の設定ルールを設定または設定UIに表示してよい。なお、設定UIを介して指定される情報(撮影範囲に関する情報)は、下記のうちの少なくとも一つ、
・撮影時刻、
・撮影場所、
・撮影時刻および撮影場所における天候、および、
・検知対象物のサイズ、または当該サイズに影響する対象物属性、
でよい。このような情報はユーザが把握し易い情報であると考えられ、故に、ユーザにとっての利便性の向上が期待される。
The
・ Shooting time,
・Shooting location,
・The weather at the shooting time and shooting location, and
- the size of the object to be detected, or object attributes that affect the size;
OK. Such information is considered to be information that is easy for the user to grasp, and therefore, it is expected that the convenience for the user will be improved.
映像解析部131が更に備えられてもよい。映像解析部131は、導出された画像座標系の検知対象領域を用いて、撮影され入力された画像座標系の映像に検知対象物が映っているか否かの判断を含む映像解析処理を行ってよい。このように、映像解析部131と映像解析部131により行われる映像解析処理で使用される画像座標系の検知対象領域を導出する処理とが同一の装置で行われるので、利便性の向上が期待される。
A
カメラパラメータ算出部121が更に備えられてもよい。カメラパラメータ算出部121は、映像入力部111により入力された映像を基に、カメラパラメータを算出(推定)してよい。記世界座標系の該当領域の導出と画像座標系の検知対象領域の導出との各々において用いられるカメラパラメータは、カメラパラメータ算出部121により算出されたカメラパラメータでよい。これにより、撮影条件(例えば、カメラの姿勢、撮影倍率(画角)および位置)が変更された後の映像を基に算出されるカメラパラメータにも変更があるため、撮影条件が変更されても適切な検知対象領域を導出することを維持することができる。
A
領域導出部30は、世界座標系の検知対象領域と画像座標系の検知対象領域のうちの少なくとも一つと当該領域の導出に使用され当該領域に関連付けられカメラパラメータとを記憶装置202に格納してもよい。領域導出部30は、画像座標系の検知対象領域に関連付けられているカメラパラメータが、算出されたカメラパラメータと異なっていれば、当該算出されたカメラパラメータに基づき、記憶装置内の画像座標系の検知対象領域を変更してよい。このようにして、撮影条件の変更に伴いカメラパラメータの変更があっても適切な検知対象領域を導出することを維持することができる。
The
以上、幾つかの実施例を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施例にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実行することが可能である。 Although several embodiments have been described above, these are examples for explaining the present invention, and are not meant to limit the scope of the present invention only to these embodiments. The invention can also be implemented in various other forms.
100:映像解析システム 100: Video analysis system
Claims (12)
当該入力された画像座標系の映像を基に、複数の正解情報を有する画像を用いて学習されたネットワークモデルを用いて、当該映像における該当領域を推定する領域推定部と、
前記推定された該当領域の座標をカメラパラメータを用いて画像座標から世界座標に変換することで世界座標系の該当領域を導出し、前記領域推定部により推定された該当領域とは別の世界座標上の領域を設定するための設定ルールを当該導出された該当領域に適用することで、当該導出された該当領域に対するオフセット補正により、当該導出された該当領域を含まない別の世界座標系の領域であって検知対象物の出現する可能性のある領域である世界座標系の検知対象領域を導出し、当該導出された検知対象領域の座標を前記カメラパラメータを用いて世界座標から画像座標に変換することで画像座標系の検知対象領域を導出する領域導出部と
を備える映像解析支援装置。 an image input unit for inputting an image in an image coordinate system captured by a camera;
a region estimating unit for estimating a corresponding region in the video based on the input video in the image coordinate system, using a network model trained using images having a plurality of correct information;
Deriving a corresponding region in a world coordinate system by converting the estimated coordinates of the corresponding region from image coordinates to world coordinates using camera parameters, and obtaining world coordinates different from the corresponding region estimated by the region estimating unit. By applying the setting rule for setting the above area to the derived corresponding area, the offset correction for the derived corresponding area can be performed in another world coordinate system that does not include the derived corresponding area . Deriving a detection target area in the world coordinate system, which is an area in which the detection target may appear, and converting the coordinates of the derived detection target area from the world coordinates to the image coordinates using the camera parameters. A video analysis support device, comprising: a region derivation unit that derives a detection target region in an image coordinate system by transformation.
前記適用される設定ルールは、前記設定UIを介して指定された情報に従う設定ルールである、
請求項1に記載の映像解析支援装置。 The area derivation unit provides a setting UI, which is a user interface for accepting specification of information that determines the changed world coordinates of the corresponding area of the world coordinate system,
The applicable setting rule is a setting rule according to information specified via the setting UI.
The video analysis support device according to claim 1 .
請求項2に記載の映像解析支援装置。 The area derivation unit is configured to: detect a detection target area in a world coordinate system derived using a setting rule according to information specified via the setting UI; and a detection target area in an image coordinate system based on the detection target area in the world coordinate system. Provide a region UI that is a user interface that outputs at least one of
3. The video analysis support device according to claim 2 .
請求項3に記載の映像解析支援装置。 When the specified information is changed via the setting UI, the area deriving unit changes the area displayed on the area UI based on a setting rule according to the changed information.
The video analysis support device according to claim 3 .
前記領域導出部は、前記領域UIに出力される領域に関連付けられているカメラパラメータを出力し当該カメラパラメータの変更を受け付けるユーザインターフェースであるカメラパラメータUIを提供する、
請求項3に記載の映像解析支援装置。 The region derivation unit stores at least one of a detection target region in the world coordinate system and a detection target region in the image coordinate system, and camera parameters associated with the region and used for deriving the region in a storage device. ,
The area derivation unit provides a camera parameter UI, which is a user interface that outputs camera parameters associated with the area output to the area UI and receives changes to the camera parameters.
The video analysis support device according to claim 3 .
請求項5に記載の映像解析支援装置。 In at least one of a case where the specified information is changed via the setting UI and a case where camera parameters are changed via the camera parameter UI, the region derivation unit calculates the change the region displayed in the region UI,
The video analysis support device according to claim 5 .
前記領域導出部は、世界座標系の検知対象領域を設定するときの時刻に属する時間帯に対応した一つ以上の設定ルールを用いて一つ以上の世界座標系の検知対象領域を導出する、
請求項1に記載の映像解析支援装置。 for each of the plurality of time zones, there are one or more configuration rules applied to respectively derive one or more world coordinate system sensing regions of interest for that time zone;
The region derivation unit derives one or more detection target regions in the world coordinate system using one or more setting rules corresponding to the time zone belonging to the time when setting the detection target region in the world coordinate system,
The video analysis support device according to claim 1 .
前記適用される設定ルールは、前記設定UIを介して指定された情報から決定された設定ルールである、
請求項1に記載の映像解析支援装置。 The region derivation unit provides a setting UI, which is a user interface for accepting designation of information related to the range captured by the camera,
The applicable setting rule is a setting rule determined from information specified via the setting UI.
The video analysis support device according to claim 1 .
を更に備える請求項1に記載の映像解析支援装置。 A video analysis unit that uses the derived detection target area of the image coordinate system to perform video analysis processing including determination of whether or not the detection target object appears in the captured and input video of the image coordinate system;
The video analysis support device according to claim 1, further comprising:
前記世界座標系の該当領域の導出と前記画像座標系の検知対象領域の導出との各々において用いられるカメラパラメータは、前記算出されたカメラパラメータである、
請求項1に記載の映像解析支援装置。 further comprising a camera parameter calculation unit that calculates camera parameters based on the input video;
The camera parameters used in each of the derivation of the corresponding region in the world coordinate system and the derivation of the detection target region in the image coordinate system are the calculated camera parameters.
The video analysis support device according to claim 1.
前記領域導出部は、前記画像座標系の検知対象領域に関連付けられているカメラパラメータが、算出されたカメラパラメータと異なっていれば、当該算出されたカメラパラメータに基づき、前記記憶装置内の画像座標系の検知対象領域を変更する、
請求項10に記載の映像解析支援装置。 The region derivation unit stores at least one of a detection target region in the world coordinate system and a detection target region in the image coordinate system, and camera parameters associated with the region and used for deriving the region in a storage device. ,
If the camera parameters associated with the detection target region in the image coordinate system are different from the calculated camera parameters, the region derivation unit calculates the image coordinates in the storage device based on the calculated camera parameters. change the detection target region of the system,
The video analysis support device according to claim 10 .
コンピュータが、当該入力された画像座標系の映像を基に、複数の正解情報を有する画像を用いて学習されたネットワークモデルを用いて、当該映像における該当領域を推定するステップと、
コンピュータが、前記推定された該当領域の座標をカメラパラメータを用いて画像座標から世界座標に変換することで世界座標系の該当領域を導出するステップと、
コンピュータが、前記推定するステップにより推定された該当領域とは別の世界座標上の領域を設定するための設定ルールを当該導出された該当領域に適用することで、当該導出された該当領域に対するオフセット補正により、当該導出された該当領域を含まない別の世界座標系の領域であって検知対象物の出現する可能性のある領域である世界座標系の検知対象領域を導出するステップと、
コンピュータが、当該導出された検知対象領域の座標を前記カメラパラメータを用いて世界座標から画像座標に変換することで画像座標系の検知対象領域を導出するステップと
を有する映像解析支援方法。 a computer inputting an image in an image coordinate system captured by a camera;
a step in which a computer estimates a corresponding region in the video based on the input video in the image coordinate system, using a network model trained using an image having a plurality of correct information;
a computer deriving the region of interest in the world coordinate system by transforming the estimated coordinates of the region of interest from image coordinates to world coordinates using camera parameters;
A computer applies a setting rule for setting a region on world coordinates different from the region estimated by the estimating step to the derived region, a step of deriving , by offset correction, a detection target area in a world coordinate system that is an area in another world coordinate system that does not include the derived relevant area and is an area in which a detection target may appear;
a step of a computer deriving a detection target area in an image coordinate system by transforming the derived coordinates of the detection target area from world coordinates to image coordinates using the camera parameters;
A video analysis support method having
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019024915A JP7252775B2 (en) | 2019-02-14 | 2019-02-14 | Video analysis support device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019024915A JP7252775B2 (en) | 2019-02-14 | 2019-02-14 | Video analysis support device and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135152A JP2020135152A (en) | 2020-08-31 |
JP7252775B2 true JP7252775B2 (en) | 2023-04-05 |
Family
ID=72278760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019024915A Active JP7252775B2 (en) | 2019-02-14 | 2019-02-14 | Video analysis support device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7252775B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267019A (en) * | 2021-12-29 | 2022-04-01 | 北京精英路通科技有限公司 | Identification method, device, equipment and storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011097284A (en) | 2009-10-28 | 2011-05-12 | Panasonic Corp | Monitoring device |
-
2019
- 2019-02-14 JP JP2019024915A patent/JP7252775B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011097284A (en) | 2009-10-28 | 2011-05-12 | Panasonic Corp | Monitoring device |
Also Published As
Publication number | Publication date |
---|---|
JP2020135152A (en) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10964054B2 (en) | Method and device for positioning | |
WO2020206708A1 (en) | Obstacle recognition method and apparatus, computer device, and storage medium | |
JP7422105B2 (en) | Obtaining method, device, electronic device, computer-readable storage medium, and computer program for obtaining three-dimensional position of an obstacle for use in roadside computing device | |
AU2018379393B2 (en) | Monitoring systems, and computer implemented methods for processing data in monitoring systems, programmed to enable identification and tracking of human targets in crowded environments | |
KR102253989B1 (en) | object tracking method for CCTV video by use of Deep Learning object detector | |
JP2011505610A (en) | Method and apparatus for mapping distance sensor data to image sensor data | |
JP7209115B2 (en) | Detection, 3D reconstruction and tracking of multiple rigid objects moving in relatively close proximity | |
WO2021239156A1 (en) | Traffic target recognition model training method, and traffic target positioning method and apparatus | |
CN113281780B (en) | Method and device for marking image data and electronic equipment | |
EP2476999B1 (en) | Method for measuring displacement, device for measuring displacement, and program for measuring displacement | |
US11861900B2 (en) | Multi-view visual data damage detection | |
JP2016212784A (en) | Image processing apparatus and image processing method | |
CN115147328A (en) | Three-dimensional target detection method and device | |
US20230394832A1 (en) | Method, system and computer readable media for object detection coverage estimation | |
CN112541403B (en) | Indoor personnel falling detection method by utilizing infrared camera | |
KR102295183B1 (en) | object tracking method for CCTV video by use of CCTV projection model | |
Zhang et al. | Longitudinal-scanline-based arterial traffic video analytics with coordinate transformation assisted by 3D infrastructure data | |
US20220148200A1 (en) | Estimating the movement of an image position | |
JP4882577B2 (en) | Object tracking device and control method thereof, object tracking system, object tracking program, and recording medium recording the program | |
JP7252775B2 (en) | Video analysis support device and method | |
CN114663598A (en) | Three-dimensional modeling method, device and storage medium | |
JP6798609B2 (en) | Video analysis device, video analysis method and program | |
WO2022107548A1 (en) | Three-dimensional skeleton detection method and three-dimensional skeleton detection device | |
JP7258101B2 (en) | Image stabilization method, device, electronic device, storage medium, computer program product, roadside unit and cloud control platform | |
CN116259001A (en) | Multi-view fusion three-dimensional pedestrian posture estimation and tracking method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7252775 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |