[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2023132428A1 - 재순위화를 통한 객체 검색 - Google Patents

재순위화를 통한 객체 검색 Download PDF

Info

Publication number
WO2023132428A1
WO2023132428A1 PCT/KR2022/012313 KR2022012313W WO2023132428A1 WO 2023132428 A1 WO2023132428 A1 WO 2023132428A1 KR 2022012313 W KR2022012313 W KR 2022012313W WO 2023132428 A1 WO2023132428 A1 WO 2023132428A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
database
feature vector
probe
Prior art date
Application number
PCT/KR2022/012313
Other languages
English (en)
French (fr)
Inventor
박성연
신현학
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Publication of WO2023132428A1 publication Critical patent/WO2023132428A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present specification relates to an apparatus and method for searching for a person through a re-ranking technique.
  • the re-ranking algorithm is a method of improving the performance of search results by independently calculating the degree of relevance to a query in search results, instead of directly changing the internal structure of the image search system.
  • the re-ranking algorithm has advantages in terms of development because it does not need to be specifically aware of the internal structure of the image search system and additional algorithms can be applied without modifying the existing system. .
  • the re-ranking algorithm has its origins based on Pseudo Relevance Feedback. Unlike general relevance feedback, provisional fit feedback is a method of giving feedback in the form of unsupervised learning, rather than giving feedback in the form of supervised learning according to the results of humans. This self-learning is mainly performed using information about the ranking list of the initial image search, which is a feature that can be used in the re-ranking step, and visual information of search result images.
  • images captured through a plurality of cameras spaced apart from each other are firstly ranked based on similarity between images and secondarily re-ranked based on the Jacquard distance between images. Its purpose is to provide a method of searching for the same object more efficiently in
  • the present specification limits the search object size in the database in order to solve the problem of a rapid increase in the amount of computation required for calculating the similarity between images and calculating the Jacquard distance, so that the same object can be detected in images taken through a plurality of cameras spaced apart from each other. It is an object of the present invention to provide a more efficient search method.
  • An image search apparatus in a monitoring camera system includes a database in which images taken from a plurality of cameras spaced apart from each other and metadata of the images are stored; and when a probe image including a person of interest is input, at least one image for searching for an image including the object of interest is selected from the database based on at least one predetermined criterion, and a feature vector of the probe image is selected. Extracting at least one candidate image similar to the probe image based on a distance between the selected image and a feature vector of the selected at least one image, and extracting the candidate image based on a similarity between the probe image and the candidate image.
  • a processor for re-racking the images includes.
  • the similarity may be obtained based on the Jacquard distance.
  • the metadata may include a gender of a person included in the image, a feature vector, a capturing time of the image, and a capturing location.
  • the processor may calculate a difference between feature vectors between the plurality of images before receiving an image search request through the probe image input and store the calculated value in the database.
  • the processor When a new first image is received from any one of the plurality of cameras, the processor extracts a first feature vector of the first image, and the first feature vector and a plurality of images previously stored in the database. A difference value between the feature vectors may be calculated and stored in the database.
  • the processor may take a plurality of images at different shooting locations and shooting times as input data, train a neural network to extract a gender and a feature vector of a person included in the images, and store the trained neural network in a memory. .
  • the predetermined criterion includes the gender, time, and location information
  • the processor performs primary filtering on the image data stored in the database based on the gender of the person included in the probe image, and the photographing time Secondary filtering may be performed based on , and tertiary filtering may be performed based on the photographing location to limit a search range of an image including the same person as the person included in the probe image.
  • the processor may extract a candidate image group similar to the probe image by calculating a Euclidean distance between a feature vector of an image included in the limited search range and a feature vector of the probe image.
  • An image search apparatus in a surveillance camera system includes a database in which a plurality of images photographed from a plurality of cameras spaced apart from each other and a difference value between feature information between the plurality of images are stored; a feature extraction unit extracting a gender of a person included in the image and a feature vector of the image; When a probe image including a person of interest is input, at least one image to be compared with the probe image is selected based on metadata of the probe image in the database, and the selected image is selected based on similarity with the person of interest.
  • a processor that prioritizes images and re-ranks the ranked images based on similarity, wherein the feature extraction unit inputs a plurality of images having different shooting locations and shooting times. data, and a neural network trained to extract a gender and a feature vector of a person included in the image, and the processor may calculate a difference value of feature information between the plurality of images before the probe image is input.
  • the processor may store a photographing time and a photographing location of the images, a gender extracted through the feature extraction unit, and a feature vector of the images in the database. .
  • the database calculates and stores difference values of feature vectors between the plurality of images in advance, and the processor, when receiving a new first image from any one of the plurality of cameras, obtains the first image from the feature extractor.
  • a first feature vector of a first image may be extracted, and a difference value between the first feature vector and a feature vector between a plurality of images previously stored in the database may be calculated and stored in the database.
  • the processor may limit a comparison target range to be compared with the probe image among images included in the database based on a gender of a person included in the probe image, a capturing time, and a capturing location of the probe image.
  • the processor may rank the selected images based on a Euclidean distance between a feature vector of the probe image and a feature vector of the image selected as the comparison target range.
  • the probe image may be input by a user through an input means of the image search device or may be selected from the database.
  • An image search method in a surveillance camera system includes storing images taken from a plurality of cameras spaced apart from each other and metadata of the images in a database; selecting at least one image for searching for an image including the object of interest based on at least one predetermined criterion in the database when a probe image including a person of interest is input; ranking at least one candidate image similar to the probe image based on a distance between a feature vector of the probe image and a feature vector of the selected at least one image; and re-racking the candidate image based on a similarity between the probe image and the candidate image.
  • the metadata may include a gender of a person included in the image, a feature vector, a capturing time of the image, and a capturing location.
  • difference values of feature vectors between the plurality of images may be calculated and stored before an image search request is received through the probe image input.
  • the image search method may include extracting a first feature vector of the first image when a new first image is received from one of the plurality of cameras; and calculating a difference between the first feature vector and a feature vector between a plurality of images previously stored in the database and storing the difference in the database.
  • the step of storing the meta data of the images in the database may include learning a neural network to extract a gender and a feature vector of a person included in the images, using a plurality of images having different shooting locations and shooting times as input data. step; and obtaining a gender and a feature vector of a person included in the image by using the learned neural network.
  • An image search method in a monitoring camera system includes storing a plurality of images photographed from a plurality of cameras spaced apart from each other and a difference between feature information between the plurality of images in a database; extracting a gender of a person included in the image and a feature vector of the image using a pre-learned artificial neural network; selecting at least one image to be compared with the probe image based on metadata of the probe image in the database when a probe image including a person of interest is input; ranking the selected images based on similarities with the person of interest; and re-ranking the ranked images based on similarity, wherein the artificial neural network takes a plurality of images having different capturing positions and capturing times as input data, and It can be learned and stored to extract the gender and feature vector of the person included in the image.
  • firstly ranking is performed based on similarity between images, and secondarily, the ranking is performed based on the Jacquard distance between images, thereby capturing images through a plurality of cameras spaced apart from each other. The same object can be searched more efficiently in the image.
  • the size of the search object in the database is limited, so that images are taken through a plurality of cameras spaced apart from each other. The same object can be searched more efficiently in the image.
  • FIG. 1 is a diagram for explaining a surveillance camera system for implementing an image processing method of a surveillance camera according to an embodiment of the present specification.
  • Figure 2 is a schematic block diagram of a surveillance camera according to an embodiment of the present specification.
  • FIG. 3 is a diagram for explaining an AI device (module) applied to analysis of surveillance camera images according to an embodiment of the present specification.
  • FIG. 4 is a flowchart of an image search method in a surveillance camera system according to an embodiment of the present specification.
  • FIG. 5 is a diagram for explaining an example of configuring a database according to an embodiment of the present specification.
  • FIG. 6 is a diagram for explaining an example of filtering a search range in a database to search for an image including the same person as a person to be searched according to an embodiment of the present specification.
  • FIG. 7A is an example of first ranking an image similar to a person to be searched among images selected from a database according to an embodiment of the present specification
  • FIG. 7B is an example of performing re-ranking after the first ranking. .
  • FIG. 1 is a diagram for explaining a surveillance camera system for implementing an image processing method of a surveillance camera according to an embodiment of the present specification.
  • an image management system 10 includes photographing devices 100a, 100b, and 100c (hereinafter referred to as 100 for convenience of explanation) and an image management server 200. can do.
  • the photographing device 100 may be an electronic device for photographing disposed at a fixed location in a specific place, may be an electronic device for photographing that may move automatically or manually along a certain path, or may be moved by a person or robot. It may be an electronic device for photography.
  • the photographing device 100 may be an IP camera used by connecting to the wired or wireless Internet.
  • the photographing device 100 may be a PTZ camera having pan, tilt, and zoom functions.
  • the photographing device 100 may have a function of recording or taking a picture of an area to be monitored.
  • the photographing device 100 may have a function of recording sound generated in the area to be monitored.
  • the photographing device 100 may have a function of generating a notification or recording or taking a picture when a change, such as motion or sound, occurs in the area to be monitored.
  • the photographing device 100 may include a plurality of photographing devices 100a, 100b, and 100c installed in different spaces.
  • the first photographing device 100a and the second photographing device 100b may be spaced apart by a first distance
  • the second photographing device 100b and the third photographing device 100c may be spaced apart by a second distance.
  • each of the photographing devices 100a, 100b, and 100c may be a system implemented in the form of a CCTV that is respectively disposed at a location capable of photographing the same person at predetermined time intervals.
  • the image management server 200 may be a device having a function of receiving, storing, and/or searching an image captured by the photographing device 100 and/or an image obtained by editing the image.
  • the video management server 200 may analyze the received data to correspond to the purpose. For example, the image management server 200 may detect an object using an object detection algorithm to detect an object in an image.
  • An AI-based algorithm may be applied to the object detection algorithm, and an object may be detected by applying a pre-learned artificial neural network model.
  • the video management server 200 may function as a video search device.
  • the image search apparatus can quickly and easily search images obtained from a plurality of monitoring camera channels by inputting a specific image, an object included in the specific image, or a specific channel as a search condition.
  • the image search device must precede the process of building a database so that the user can easily search for images, and an embodiment of the present specification performs an image search according to specific search conditions. suggest a way to limit
  • the video management server 200 may be a network video recorder (NVR) or a digital video recorder (DVR) that performs a function of storing video obtained through a network. Alternatively, it may be a Central Management System (CMS) capable of remotely monitoring images by managing and controlling images in an integrated manner. Meanwhile, the image management server 200 is not limited thereto and may be a personal computer or a portable terminal. However, this is an example, and the technical idea of the present specification is not limited thereto, and any device capable of displaying and/or storing multimedia objects transmitted from one or more surveillance cameras through a network can be used without limitation.
  • NVR network video recorder
  • DVR digital video recorder
  • CMS Central Management System
  • the image management server 200 is not limited thereto and may be a personal computer or a portable terminal. However, this is an example, and the technical idea of the present specification is not limited thereto, and any device capable of displaying and/or storing multimedia objects transmitted from one or more surveillance cameras through a network can be used without limitation.
  • the video management server 200 may store various learning models suitable for video analysis purposes.
  • a model capable of acquiring the movement speed of the detected object may be stored.
  • the learned models take as input data images captured by the plurality of photographing devices 100a, 100b, and 100c, that is, images having different image capturing times and different image capturing locations, and character included in the captured images. It may also include a learning model that outputs the gender of the image and the feature vector value of the image.
  • the video management server 200 may analyze the received video to generate meta data and index information for the meta data.
  • the image management server 200 may analyze image information and/or sound information included in the received image together or separately to generate metadata and index information for the corresponding metadata.
  • the meta data may further include time information at which the image was captured, information on a location at which the image was captured, and the like.
  • the image management system 10 may further include an external device 300 capable of wired/wireless communication with the photographing device 100 and/or the image management server 200.
  • the external device 300 may transmit an information provision request signal requesting provision of all or part of the video to the video management server 200 .
  • the external device 300 is the video management server 200, as a result of image analysis, whether or not there is an object, the moving speed of the object, a shutter speed adjustment value according to the moving speed of the object, a noise removal value according to the moving speed of the object, and a sensor gain value.
  • An information provision request signal requesting the like may be transmitted.
  • the external device 300 may transmit an information provision request signal requesting metadata obtained by analyzing an image to the image management server 200 and/or index information for the metadata.
  • the image management system 10 may further include a communication network 400 that is a wired/wireless communication path between the photographing device 100 , the image management server 200 , and/or the external device 300 .
  • the communication network 400 may include, for example, wired networks such as LANs (Local Area Networks), WANs (Wide Area Networks), MANs (Metropolitan Area Networks), ISDNs (Integrated Service Digital Networks), wireless LANs, CDMA, Bluetooth, and satellite communication.
  • wired networks such as LANs (Local Area Networks), WANs (Wide Area Networks), MANs (Metropolitan Area Networks), ISDNs (Integrated Service Digital Networks), wireless LANs, CDMA, Bluetooth, and satellite communication.
  • LANs Local Area Networks
  • WANs Wide Area Networks
  • MANs Metropolitan Area Networks
  • ISDNs Integrated Service Digital Networks
  • wireless LANs Code Division Multiple Access
  • CDMA Code Division Multiple Access
  • Bluetooth Code Division Multiple Access
  • FIG. 2 is a block diagram showing the configuration of an image search apparatus according to an embodiment of the present specification.
  • the image search device 200 includes a communication unit 210, an input unit 220, an interface 230, a display unit 240, an AI processor 250, a memory 260, and a database 270.
  • a communication unit 210 can include
  • the image search apparatus 200 may analyze metadata transmitted from the camera 100 to extract characteristic information of an object included in an image.
  • a database that the user can search for is built by comparing with previously stored feature information of the object.
  • the image search apparatus 200 includes a processor 280, a memory 260, an input unit 220, and a display unit 240.
  • these components may be connected to each other and communicate with each other through a bus.
  • the communication unit 210 may receive video data, audio data, still images, and/or metadata from the camera device 100 .
  • the communication unit 210 may receive video data, audio data, still images, and/or metadata from the camera 100 in real time.
  • the communication interface may perform at least one communication function among wired and wireless local area network (LAN), Wi-Fi, ZigBee, Bluetooth, and near field communication.
  • LAN local area network
  • Wi-Fi Wireless Fidelity
  • ZigBee ZigBee
  • Bluetooth near field communication
  • All components included in the processor 280 may be connected to the bus through at least one interface or adapter, or directly connected to the bus.
  • the bus may be connected to other subsystems other than the above-described components.
  • the bus may include a memory bus, a memory controller, a peripheral bus, and a local bus.
  • the processor 280 controls overall operations of the image search device 200 .
  • characteristic information of an object included in an image may be extracted from the metadata and stored in the database 270 .
  • this specification may include the gender of the object (human) included in the image, feature information of the image, and location information where the image capturing device is located, information about capturing time, and the like.
  • the processor 280 and/or the AI processor 250 may implement a function of a feature extraction unit (not shown) that extracts feature information from an image, and the feature extraction unit may include the processor 280 , AI processor 250 and may be configured as an independent module.
  • a difference value between feature vectors of each image may be additionally stored based on feature vector information of all images stored in the database 270 .
  • the difference between the feature vectors can be primarily used as a basis for determining the degree of similarity between images.
  • N images are stored in the database 270
  • a total of N (N-1) feature vector difference values may be configured and stored.
  • the processor 280 calculates ImageN+1 with I1, I2, I3, and ?IN and feature vector difference values, respectively, to obtain a total of N (N + 1) images.
  • a database may be configured by configuring feature vector difference values.
  • processor 280 it is preferable to use a central processing unit (CPU), a micro controller nit (MCU), or a digital signal processor (DSP), but is not limited thereto and various logic operation processors may be used.
  • CPU central processing unit
  • MCU micro controller nit
  • DSP digital signal processor
  • the memory 260 stores various kinds of object information, and the database 270 is built by the processor 280 .
  • the memory 260 includes a non-volatile memory device and a volatile memory device.
  • the non-volatile memory device is a NAND flash memory that is small in volume, lightweight, and resistant to external impact
  • the volatile memory device is a DDR SDRAM.
  • the image search device 200 may be connected to a network. Accordingly, the image search device 200 may be connected to other devices through a network and transmit/receive various data and signals including metadata.
  • the display unit 240 may display search results performed according to search conditions input by the user so that the user can see them.
  • the input unit 220 includes a mouse, keyboard, joystick, remote control, and the like. These inputs may be connected to the bus through an input interface 141 including a serial port, parallel port, game port, USB, and the like. However, if the image search device 200 provides a touch function, the display unit 240 may include a touch sensor. In this case, the input unit 220 does not need to be provided separately, and the user can directly input a touch signal through the display unit 240 .
  • the display unit 240 may use various methods such as a liquid crystal display (LCD), an organic liquid crystal display (OLED), a cathode ray tube (CRT), and a plasma display panel (PDP).
  • the display unit 240 may be connected to a bus through a video interface (not shown), and data transmission between the display unit 240 and the bus may be controlled by the graphic controller 132 .
  • the interface 230 may include a network interface, a video interface, an input interface, and the like.
  • Network interfaces may include network interface cards, modems, and the like.
  • the AI processor 250 is for artificial intelligence image processing, and applies a deep learning-based object detection algorithm learned as an object of interest from an image acquired through a surveillance camera system according to an embodiment of the present specification. .
  • the AI processor 250 may be implemented as a module with the processor 260 that controls the entire system or as an independent module.
  • Embodiments of the present specification may apply a You Only Lock Once (YOLO) algorithm in object detection.
  • YOLO is an AI algorithm that is suitable for surveillance cameras that process real-time video because of its fast object detection speed.
  • the YOLO algorithm resizes one input image and passes through a single neural network only once, indicating the position of each object. It outputs the bounding box and the classification probability of what the object is. Finally, one object is recognized (detection) once through non-max suppression.
  • the object recognition algorithm disclosed in this specification is not limited to the aforementioned YOLO and can be implemented with various deep learning algorithms.
  • the learning model for object recognition applied in the present specification may include a neural network model trained to extract a person's gender when the object included in the above-described image is a person.
  • a neural network model trained to extract a person's gender when the object included in the above-described image is a person.
  • As learning data for learning the neural network model a plurality of images having different photographing location information and photographing time information of images acquired from a plurality of surveillance cameras separated by a certain distance or more are defined as input data, and from the plurality of images It can be learned to design a network that extracts gender and image feature information.
  • FIG. 3 is a diagram for explaining an AI device (module) applied to an image search device according to an embodiment of the present specification.
  • the AI device 20 may include an electronic device including an AI module capable of performing AI processing or a server including an AI module.
  • the AI device 20 may be included as a configuration of at least a portion of a monitoring camera or video management server and may be provided to perform at least a portion of AI processing together.
  • AI processing may include all operations related to a control unit (processor) of a surveillance camera or video management server.
  • a surveillance camera or a video management server may perform AI processing on the acquired video signal to perform processing/determination and control signal generation operations.
  • the AI device 20 may be a client device that directly uses AI processing results or a device in a cloud environment that provides AI processing results to other devices.
  • the AI device 20 is a computing device capable of learning a neural network, and may be implemented in various electronic devices such as a server, a desktop PC, a notebook PC, and a tablet PC.
  • the AI device 20 may include an AI processor 21, a memory 25 and/or a communication unit 27.
  • the AI processor 21 may learn a neural network using a program stored in the memory 25 .
  • the AI processor 21 may learn a neural network for recognizing data related to surveillance cameras.
  • the neural network for recognizing the related data of the surveillance camera may be designed to simulate the structure of the human brain on a computer, and may include a plurality of network nodes having weights that simulate the neurons of the human neural network. there is.
  • a plurality of network modes may transmit and receive data according to a connection relationship, respectively, so as to simulate synaptic activity of neurons that transmit and receive signals through synapses.
  • the neural network may include a deep learning model developed from a neural network model.
  • a plurality of network nodes may exchange data according to a convolution connection relationship while being located in different layers.
  • Examples of neural network models are deep neural networks (DNN), convolutional deep neural networks (CNN), recurrent Boltzmann machines (RNNs), restricted Boltzmann machines (RBMs), deep trust It includes various deep learning techniques such as deep belief networks (DBN) and deep Q-network, and can be applied to fields such as computer vision, voice recognition, natural language processing, and voice/signal processing.
  • DNN deep neural networks
  • CNN convolutional deep neural networks
  • RNNs recurrent Boltzmann machines
  • RBMs restricted Boltzmann machines
  • DNN deep belief networks
  • Q-network deep Q-network
  • the processor performing the functions described above may be a general-purpose processor (eg, CPU), or may be an AI-only processor (eg, GPU) for artificial intelligence learning.
  • a general-purpose processor eg, CPU
  • an AI-only processor eg, GPU
  • the memory 25 may store various programs and data necessary for the operation of the AI device 20 .
  • the memory 25 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), or a solid state drive (SDD).
  • the memory 25 is accessed by the AI processor 21, and reading/writing/modifying/deleting/updating of data by the AI processor 21 can be performed.
  • the memory 25 may store a neural network model (eg, the deep learning model 26) generated through a learning algorithm for data classification/recognition according to an embodiment of the present invention.
  • the AI processor 21 may include a data learning unit 22 that learns a neural network for data classification/recognition.
  • the data learning unit 22 may learn criteria regarding which training data to use to determine data classification/recognition and how to classify and recognize data using the training data.
  • the data learning unit 22 may acquire learning data to be used for learning and learn the deep learning model by applying the obtained learning data to the deep learning model.
  • the data learning unit 22 may be manufactured in the form of at least one hardware chip and mounted on the AI device 20 .
  • the data learning unit 22 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or manufactured as a part of a general-purpose processor (CPU) or a graphics-only processor (GPU) for the AI device 20. may be mounted.
  • the data learning unit 22 may be implemented as a software module.
  • the software module When implemented as a software module (or a program module including instructions), the software module may be stored in a computer-readable, non-transitory computer readable recording medium (non-transitory computer readable media). In this case, at least one software module may be provided by an Operating System (OS) or an application.
  • OS Operating System
  • the data learning unit 22 may include a training data acquisition unit 23 and a model learning unit 24 .
  • the training data acquisition unit 23 may acquire training data required for a neural network model for classifying and recognizing data.
  • the model learning unit 24 may learn to have a criterion for determining how to classify predetermined data by using the acquired training data.
  • the model learning unit 24 may learn the neural network model through supervised learning using at least some of the learning data as a criterion.
  • the model learning unit 24 may learn the neural network model through unsupervised learning in which a decision criterion is discovered by self-learning using learning data without guidance.
  • the model learning unit 24 may learn the neural network model through reinforcement learning using feedback about whether the result of the situation judgment according to learning is correct.
  • the model learning unit 24 may train the neural network model using a learning algorithm including error back-propagation or gradient decent.
  • the model learning unit 24 may store the learned neural network model in memory.
  • the model learning unit 24 may store the learned neural network model in a memory of a server connected to the AI device 20 through a wired or wireless network.
  • the data learning unit 22 further includes a training data pre-processing unit (not shown) and a learning data selection unit (not shown) to improve the analysis result of the recognition model or save resources or time required for generating the recognition model. You may.
  • the learning data pre-processing unit may pre-process the acquired data so that the acquired data can be used for learning for situation determination.
  • the learning data pre-processing unit may process the acquired data into a preset format so that the model learning unit 24 can use the acquired learning data for learning for image recognition.
  • the learning data selector may select data necessary for learning from among the learning data acquired by the learning data acquisition unit 23 or the training data preprocessed by the preprocessor.
  • the selected training data will be provided to the model learning unit 24.
  • the data learning unit 22 may further include a model evaluation unit (not shown) to improve the analysis result of the neural network model.
  • the model evaluation unit inputs evaluation data to the neural network model, and when an analysis result output from the evaluation data does not satisfy a predetermined criterion, it may cause the model learning unit 22 to learn again.
  • the evaluation data may be predefined data for evaluating the recognition model.
  • the model evaluator may evaluate that the predetermined criterion is not satisfied when the number or ratio of the evaluation data for which the analysis result is inaccurate among the analysis results of the learned recognition model for the evaluation data exceeds a preset threshold. there is.
  • the communication unit 27 may transmit the AI processing result by the AI processor 21 to an external electronic device.
  • external electronic devices may include surveillance cameras, Bluetooth devices, self-driving vehicles, robots, drones, AR devices, mobile devices, home appliances, and the like.
  • the AI device 20 shown in FIG. 3 has been functionally divided into an AI processor 21, a memory 25, a communication unit 27, etc., but the above-mentioned components are integrated into one module and the AI module Note that it can also be called
  • one or more of a surveillance camera, an autonomous vehicle, a user terminal, and a server is an artificial intelligence module, a robot, an augmented reality (AR) device, a virtual reality (VT) device, and a 5G , 6G service-related devices, etc. may be linked.
  • AR augmented reality
  • VT virtual reality
  • 5G , 6G service-related devices, etc. may be linked.
  • FIG. 4 is a flowchart of an image search method in a surveillance camera system according to an embodiment of the present specification.
  • the image search method disclosed in FIG. 4 may be implemented through the processor 280 of the image search apparatus 200 described in FIG. 2 .
  • the processor 280 may configure a database of the video search device (NVR) (S400).
  • the database may be updated by extracting an image distance between old image data and new image data.
  • the image distance may mean feature information of an image obtained through an artificial intelligence learning model.
  • the feature information of the image may mean a feature vector of the image, or may mean a difference between feature vectors of two images. The process of constructing and updating the database will be described later in detail with reference to FIG. 5 .
  • the database may store a feature vector difference value calculated in advance between images, and this is done by utilizing image distance information stored in the database when a search request for a specific object is received from a user of the image search device in the future, There is no need to additionally calculate the feature vector difference value.
  • the processor 280 may check whether a probe image is input (S410).
  • the probe image may mean an image including an object to be searched through the image search apparatus 200 .
  • the input of the probe image may be input by a user through an input unit of the image search device 200 .
  • the probe image may be input as an image to be searched through the image search device through a method in which one of the images captured by a plurality of surveillance cameras spaced apart from each other and stored in the memory of the image search device 200 is selected. there is.
  • the processor 280 determines that a search request for a specific image (or object) has been received from the user through the input of the probe image (S410: Y), the processor 280 determines the search for the probe image according to a predetermined criterion in the pre-configured database. Images to be included in the comparison target group may be selected (S420).
  • the predetermined criterion may include the entire surveillance camera system, such as the characteristics of the probe image, the installation location of the captured camera, and the recording time, and will be described in detail with reference to FIG. 6 .
  • the processor 280 extracts at least one image as a candidate image by comparing the similarity between the selected image and the probe image, and converts the extracted candidate image to the similarity level. It can be ranked (sorted) by criterion (S430).
  • the similarity of images may mean a Euclidean distance between feature vectors of probe image data and feature vectors of images selected from a database.
  • the methods for determining the degree of similarity between the target image and the target image for example, when the processor 280 applies a k-nearest neighbor search algorithm, the person included in the probe image , when the feature information on the person included in the comparison image of the database is clearly distinguished, it can be effectively determined whether the person is the same person. However, if there are many people in the database who have a similar body shape or clothing to the person to be searched for, there may be cases where it is determined that they are not the same person among the images extracted as prioritized images because they are judged to have a high similarity. .
  • re-ranking is performed on the image group for which ranking has been primarily performed in S430 in order to analyze the above-described problem (S440).
  • the processor 280 calculates the Euclidean distance, first ranks the feature vectors in similar order, and then calculates the Jaccard distance through Equation 1 below.
  • d j (p, g i ) means the Jacquard distance between the probe image and the ith candidate image among the candidate images (first-ranked images) stored in the database
  • d p,gi denotes the Euclidean distance between the probe image and the ith candidate image among candidate images (primary ranked images) stored in the database
  • N denotes the number of candidate images stored in the database.
  • the Jaccard distance has a higher value as the i-th image of the probe image and the candidate image of the database are similar. This can be used as a basis for determining that they are the same person by giving more reliability when the sets of mutually extracted candidate images are similar.
  • the processor 280 may readjust the priorities by obtaining a final distance through a weighted sum of the calculated Jacquard distance and Euclidean distance.
  • FIG. 5 is a diagram for explaining an example of configuring a database according to an embodiment of the present specification.
  • the processor 280 may receive a new image (hereinafter referred to as a first image) (S500).
  • the new image is a new image that has never been stored in the database, and is an image received through a plurality of cameras spaced apart from each other.
  • information related to the first image may be processed and additionally stored in a database.
  • the information related to the first image may include metadata of the first image.
  • the meta data of the first image may include information about a capturing location and a capturing time of the first image.
  • the information related to the first image may include feature information of the first image.
  • the feature information of the first image may include a feature vector extracted through an AI feature information extraction process (S510).
  • the processor 280 may extract a difference between the feature vector of the first image and the feature vector of images pre-stored in the database and store the extracted difference in the database (S520). That is, for all images stored in the database, feature vector differences between them are calculated and stored. Accordingly, when a specific image among the images stored in the database is selected as the probe image, the processor 280 does not need to additionally calculate the degree of similarity between the images to search for an image including the same person as the person included in the probe image. Ranking of similar images may be performed based on the feature vector difference value stored in the database.
  • the processor extracts the feature information (including feature vectors) of the new image when a new image for which feature information is not stored in the database is received, and the image pre-stored in the database.
  • the database may be reconstructed so that the similarity between the new image and the pre-stored image may be determined by performing an operation of extracting feature vectors and differences of .
  • FIG. 6 is a diagram for explaining an example of filtering a search range in a database to search for an image including the same person as a person to be searched according to an embodiment of the present specification.
  • a person candidate identical to the object of interest is based on the feature vector of the object selected in the database and the person's gender and spatio-temporal information. are classified in the database selection unit.
  • the processor 280 may check feature information of a probe image (S600).
  • the feature information of the probe image may include a feature vector of the image, a capturing position of the image, a capturing time, gender information of a person included in the image, and the like.
  • information on the shooting location and shooting time of the video can be received together in the form of metadata when the video is received from a surveillance camera, and the feature vector information, gender information, etc. are provided by the video search device 200. can be extracted through an AI image analysis process.
  • the processor 280 may first select only data of the same gender in the database based on the gender of the object of interest included in the probe image (S610). In this case, if a male and a female image exist together among the images stored in the database, it may be configured to be selected as a comparison target image.
  • the processor 280 may additionally select only data for a time similar to the capture time information of the probe image from the database (S620). This is to limit the search range to only the same date and similar time.
  • the processor 280 may select data based on information on the location of the probe image (S630).
  • the image search device since the image search device is in a state of acquiring information on a plurality of cameras installed spatially apart from each other, the search range for the same person can be limited based on information on cameras installed in adjacent places.
  • the target range for determining the degree of similarity with the probe image can be reduced based on gender, photographing time, and photographing location. there is.
  • FIG. 7A is an example of first ranking an image similar to a person to be searched among images selected from a database according to an embodiment of the present specification
  • FIG. 7B is an example of performing re-ranking after the first ranking. .
  • FIG. 7A illustrates the result of S430 of FIG. 4 (selecting and ranking candidate images). For example, the order of P1, N1, P2, N2, P3, N3, N4, N5, P4, N6 as a result of determining similarity through comparison of Euclidean distance values with probe images among images in the selected database
  • the similarity ranking can be determined by
  • N1 is not the same person as the person of interest in the probe image, but shows a higher priority than P2, which is the same person.
  • N2 has higher priority than P3, and N3, N4, and N5 have higher priority than P4. (Images containing the same person of interest as the person of interest in the probe image are assumed to be P1, P2, P3, and P4)
  • priorities can be re-ranked by additionally calculating the Jacquard distance from the result of FIG. Since the priorities are sorted high, the accuracy of image retrieval can be increased.
  • the above specification it is possible to implement as a computer readable code in the medium on which the program is recorded.
  • the computer-readable medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include Hard Disk Drive (HDD), Solid State Disk (SSD), Silicon Disk Drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. , and also includes those implemented in the form of a carrier wave (eg, transmission over the Internet). Accordingly, the above detailed description should not be construed as limiting in all respects and should be considered illustrative. The scope of this specification should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of this specification.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

감시 카메라 시스템에서의 영상 검색 장치 및 방법이 개시된다. 본 명세서의 일 실시예에 따른 영상 검색 장치는, 서로 이격된 복수의 카메라로부터 촬영된 영상 및 상기 영상의 메타 데이터를 저장하는 데이터베이스 및 프로브 영상이 입력되면 미리 정해진 기준에 따라 프로브 영상의 관심 인물과 동일한 인물을 검색하기 위한 검색 범위를 제한하고, 제한된 검색 범위 내의 영상에서 영상의 특징 벡터 정보에 기초하여 1차적인 순위화를 수행하고, 그 후 1차 순위화 결과를 바탕으로 추가적인 영상 유사도를 기반으로 재순위화를 수행한다. 이에 따라, 영상 검색에 소요되는 연산량을 줄이면서 영상 검색의 정확도를 향상시킬 수 있다. 본 명세서는 감시용 카메라, 자율주행 차량, 사용자 단말기 및 서버 중 하나 이상이 인공 지능(Artificial Intelligence) 모듈, 로봇, 증강현실(Augmented Reality, AR) 장치, 가상 현실(Virtual reality, VT) 장치, 5G 서비스와 관련된 장치 등과 연계될 수 있다.

Description

재순위화를 통한 객체 검색
본 명세서는 재순위화 기법을 통해 사람을 검색하는 장치 및 방법에 관한 것이다.
재순위화 알고리즘은, 영상 검색 시스템의 내부적인 구조를 직접적으로 변경하는 대신, 검색된 결과에서 질의(Query)와의 연관도를 독립적으로 계산하여, 검색 결과의 성능을 높이는 방식이다.
재순위화 알고리즘은 영상 검색 시스템의 내부 구조에 대해 구체적으로 인지할 필요가 없다는 점, 기존 시스템을 정정하지 않은 채로 추가적인 알고리즘을 적용할 수 있다는 점 때문에 재순위화 알고리즘은 개발적인 측면에서 장점이 있다.
재순위화 알고리즘은 그 기원을 잠정적 적합 피드백(Pseudo Relevance Feedback)에 기초하고 있다. 잠정적 적합 피드백은 일반적인 적합성 피드백(Relevance Feedback)과 달리, 인간이 결과에 따라 지도 학습(Supervised Learning) 방식으로 피드백을 주는 것이 아니라, 자율학습(Unsupervised Learning)의 방식으로 피드백을 주는 방식이다. 이러한 자율학습은 주로 재순위화 단계에서 사용할 수 있는 특징인, 초기 영상 검색의 순위 리스트에 대한 정보와, 검색 결과 영상들의 시각적 정보를 사용하여 이루어진다.
일반적으로 복수의 카메라에서 획득한 영상이 저장장치에 저장된 상태에서, 동일한 사람을 찾고 검색하는 기술은 저장된 데이터가 방대할 경우, 동일한 사람을 정확하게 검색하기 쉽지 않다. 이를 위해 최근 다양한 시점에서 촬영된 다수의 영상을 바탕으로 훈련된 딥러닝 네트워크를 바탕으로 추출된 특징정보를 활용하고 있지만, 이러한 방법은 검색 시 추출된 특징이 유사한 사람들이 다수 존재할 경우 신뢰도 높은 검색 결과를 획득하기가 어려운 문제가 있다.
전술한 문제를 해결하기 위해 영상 간 유사도에 기초하여 1차적으로 순위화를 진행하고, 2차적으로 영상 간 자카드 거리에 기초하여 재순위화를 수행함으로써, 서로 이격된 복수의 카메라를 통해 촬영된 영상에서 동일한 객체를 보다 효율적으로 검색하는 방법을 제공하는 것을 목적으로 한다.
또한, 본 명세서는 영상 간 유사도 산출 및 자카드 거리 산출에 소요되는 연산량이 급증하는 문제를 해결하기 위하여 데이터 베이스 내의 검색 대상 크기를 한정함으로써, 서로 이격된 복수의 카메라를 통해 촬영된 영상에서 동일한 객체를 보다 효율적으로 검색하는 방법을 제공하는 것을 목적으로 한다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 이하의 발명의 상세한 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서의 일 실시예에 따른 감시 카메라 시스템에서의 영상 검색 장치는, 서로 이격된 복수의 카메라로부터 촬영된 영상 및 상기 영상의 메타 데이터가 저장되는 데이터베이스; 및 관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 데이터베이스에서 적어도 하나의 미리 정해진 기준에 기초하여 상기 관심 객체가 포함된 영상을 검색하기 위한 적어도 하나의 영상을 선별하고, 상기 프로브 영상의 특징벡터와 상기 선별된 적어도 하나의 영상의 특징벡터 간의 거리(distance)에 기초하여 상기 프로브 영상과 유사한 적어도 하나의 후보 영상을 추출하고, 상기 프로브 영상과 상기 후보 영상 간의 유사도(similarity) 에 기초하여 상기 후보 영상에 대하여 재순위화(re-racking)하는 프로세서;를 포함한다.
상기 유사도는 자카드 거리에 기초하여 획득될 수 있다.
상기 메타 데이터는, 상기 영상에 포함된 사람의 성별, 특징벡터, 상기 영상의 촬영 시간, 촬영 위치를 포함할 수 있다.
상기 프로세서는, 상기 프로브 영상 입력을 통해 영상 검색 요청이 수신되기 전에 상기 복수의 영상 간의 특징벡터의 차이 값을 계산하여 상기 데이터 베이스에 저장할 수 있다.
상기 프로세서는, 상기 복수의 카메라 중 어느 하나로부터 새로운 제1 영상을 수신한 경우, 상기 제1 영상의 제1 특징벡터를 추출하고, 상기 제1 특징벡터와 상기 데이터 베이스에 사전에 저장된 복수의 영상 간 특징벡터의 차이값을 계산하여 상기 데이터 베이스에 저장할 수 있다.
상기 프로세서는, 상기 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 신경망을 학습시키고, 학습된 신경망을 메모리에 저장할 수 있다.
상기 미리 정해진 기준은, 상기 성별, 시간, 위치 정보를 포함하고, 상기 프로세서는, 상기 데이터베이스에 저장된 영상 데이터를 상기 프로브 영상에 포함된 사람의 성별을 기준으로 1차 필터링을 수행하고, 상기 촬영 시간에 기초하여 2차 필터링을 수행하고, 상기 촬영 위치에 기초하여 3차 필터링을 수행하여 상기 프로브 영상에 포함된 사람과 동일한 사람이 포함된 영상의 검색범위를 한정할 수 있다.
상기 프로세서는, 상기 한정된 검색범위에 포함된 영상의 특징벡터와 상기 프로브 영상의 특징벡터의 유클리디언 거리(distance)를 산출하여, 상기 프로브 영상과 유사한 후보영상군을 추출할 수 있다.
본 명세서의 일 실시예에 따른 감시 카메라 시스템에서의 영상 검색 장치는, 서로 이격된 복수의 카메라로부터 촬영된 복수의 영상 및 상기 복수의 영상 간 특징정보의 차이값이 저장되는 데이터 베이스; 상기 영상에 포함된 사람의 성별 및 상기 영상의 특징벡터를 추출하는 특징 추출부; 관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 데이터 베이스 중 상기 프로브 영상의 메타 데이터에 기초하여 상기 프로브 영상과 비교할 적어도 하나의 영상을 선별하고, 상기 관심 인물과의 유사도에 기초하여 상기 선별된 영상을 순위화 하고, 상기 순위화된 영상을 유사도(similarity)에 기초하여 재순위(Re-ranking) 하는 프로세서;를 포함하고, 상기 특징 추출부는 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 학습된 신경망을 포함하고, 상기 프로세서는 상기 프로브 영상이 입력되기 전 상기 복수의 영상 간 특징정보의 차이값을 계산할 수 있다.
상기 프로세서는, 상기 복수의 카메라로부터 촬영된 복수의 영상을 수신한 경우, 상기 영상의 촬영시간, 촬영위치, 상기 특징추출부를 통해 추출된 성별 및 상기 영상의 특징벡터를 상기 데이터 베이스에 저장할 수 있다.
상기 데이터 베이스는, 상기 복수의 영상 간의 특징벡터의 차이값을 사전에 계산하여 저장하고, 상기 프로세서는, 상기 복수의 카메라 중 어느 하나로부터 새로운 제1 영상을 수신한 경우, 상기 특징 추출부로부터 상기 제1 영상의 제1 특징벡터를 추출하고, 상기 제1 특징벡터와 상기 데이터 베이스에 사전에 저장된 복수의 영상 간 특징벡터의 차이값을 계산하여 상기 데이터 베이스에 저장할 수 있다.
상기 프로세서는, 상기 프로브 영상에 포함된 사람의 성별, 상기 프로브 영상의 촬영 시간, 촬영 위치에 기초하여 상기 데이터베이스에 포함된 영상 중 상기 프로브 영상과 비교할 비교대상 범위를 한정할 수 있다.
상기 프로세서는, 상기 프로브 영상의 특징벡터와 상기 비교대상 범위로 선별된 영상의 특징벡터 간의 유클리디언 거리(distance)에 기초하여, 상기 선별된 영상을 순위화 할 수 있다.
상기 프로브 영상은 상기 영상 검색 장치의 입력수단을 통해 사용자에 의해 입력되거나, 상기 데이터베이스로부터 선택될 수 있다.
본 명세서의 다른 실시예에 따른 감시 카메라 시스템에서의 영상 검색 방법은, 서로 이격된 복수의 카메라로부터 촬영된 영상 및 상기 영상의 메타 데이터를 데이터 베이스에 저장하는 단계; 관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 데이터베이스에서 적어도 하나의 미리 정해진 기준에 기초하여 상기 관심 객체가 포함된 영상을 검색하기 위한 적어도 하나의 영상을 선별하는 단계; 상기 프로브 영상의 특징벡터와 상기 선별된 적어도 하나의 영상의 특징벡터 간의 거리(distance)에 기초하여 상기 프로브 영상과 유사한 적어도 하나의 후보 영상을 순위화하는 단계; 및 상기 프로브 영상과 상기 후보 영상 간의 유사도(similarity) 에 기초하여 상기 후보 영상에 대하여 재순위화(re-racking)하는 단계;를 포함한다.
상기 메타 데이터는, 상기 영상에 포함된 사람의 성별, 특징벡터, 상기 영상의 촬영 시간, 촬영 위치를 포함할 수 있다.
상기 데이터 베이스에 저장하는 단계는, 상기 프로브 영상 입력을 통해 영상 검색 요청이 수신되기 전에 상기 복수의 영상 간의 특징벡터의 차이 값을 계산하여 저장할 수 있다.
상기 영상 검색 방법은, 상기 복수의 카메라 중 어느 하나로부터 새로운 제1 영상을 수신한 경우, 상기 제1 영상의 제1 특징벡터를 추출하는 단계; 및 상기 제1 특징벡터와 상기 데이터 베이스에 사전에 저장된 복수의 영상 간 특징벡터의 차이값을 계산하여 상기 데이터 베이스에 저장하는 단계;를 더 포함할 수 있다.
상기 영상의 메타 데이터를 데이터 베이스에 저장하는 단계는, 상기 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 신경망을 학습시키는 단계; 및 상기 학습된 신경망을 이용하여 상기 영상에 포함된 사람의 성별, 특징벡터를 획득하는 단계;를 포함할 수 있다.
본 명세서의 일 실시예에 따른 감시 카메라 시스템에서의 영상 검색 방법은, 서로 이격된 복수의 카메라로부터 촬영된 복수의 영상 및 상기 복수의 영상 간 특징정보의 차이값을 데이터 베이스에 저장하는 단계; 미리 학습된 인공 신경망을 이용하여 상기 영상에 포함된 사람의 성별 및 상기 영상의 특징벡터를 추출하는 단계; 관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 데이터 베이스 중 상기 프로브 영상의 메타 데이터에 기초하여 상기 프로브 영상과 비교할 적어도 하나의 영상을 선별하는 단계; 상기 관심 인물과의 유사도에 기초하여 상기 선별된 영상을 순위화 하는 단계; 상기 순위화된 영상을 유사도(similarity) 에 기초하여 재순위화(Re-ranking) 하는 단계;를 포함하고, 상기 인공 신경망은 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 학습되어 저장될 수 있다.
본 명세서의 일 실시예에 따르면, 영상 간 유사도에 기초하여 1차적으로 순위화를 진행하고, 2차적으로 영상 간 자카드 거리에 기초하여 재순위화를 수행함으로써, 서로 이격된 복수의 카메라를 통해 촬영된 영상에서 동일한 객체를 보다 효율적으로 검색할 수 있다.
또한, 본 명세서의 일 실시예에 따르면, 영상 간 유사도 산출 및 자카드 거리 산출에 소요되는 연산량이 급증하는 문제를 해결하기 위하여 데이터 베이스 내의 검색 대상 크기를 한정함으로써, 서로 이격된 복수의 카메라를 통해 촬영된 영상에서 동일한 객체를 보다 효율적으로 검색할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을도 설명한다.
도 1은 본 명세서의 일 실시예에 따른 감시 카메라의 영상 처리 방법을 구현하기 위한 감시 카메라 시스템을 설명하기 위한 도면이다.
도 2는 본 명세서의 일 실시예에 따른 감시 카메라의 개략적인 블록도이다.
도 3은 본 명세서의 일 실시예에 따른 감시 카메라 영상의 분석에 적용되는 AI 장치(모듈)을 설명하기 위한 도면이다.
도 4는 본 명세서의 일 실시예에 따른 감시 카메라 시스템에서의 영상 검색 방법의 흐름도이다.
도 5는 본 명세서의 일 실시예에 따라 데이터 베이스를 구성하는 예를 설명하기 위한 도면이다.
도 6은 본 명세서의 일 실시예에 따라 검색 대상 인물과 동일한 인물을 포함하는 영상을 검색하기 위하여 데이터 베이스에서 검색 범위를 필터링하는 예를 설명하기 위한 도면이다.
도 7a는 본 명세서의 일 실시예에 따라 데이터 베이스에서 선별된 영상 중 검색 대상 인물과 유사한 영상을 1차적으로 순위화한 예시이고, 도 7b는 1차 순위화 이후 재순위화화를 수행한 예시이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 명세서의 일 실시예에 따른 감시 카메라의 영상 처리 방법을 구현하기 위한 감시 카메라 시스템을 설명하기 위한 도면이다.
도 1을 참조하면, 본 명세서의 일 실시예에 따른 영상 관리 시스템(10)은 촬영 장치(100a, 100b, 100c, 이하, 설명의 편의를 위해 100으로 호칭) 및 영상 관리 서버(200)을 포함할 수 있다. 촬영 장치(100)는 특정 장소의 고정된 위치에 배치되는 촬영용 전자 장치일 수도 있고, 일정한 경로를 따라 자 동 또는 수동으로 움직일 수 있는 촬영용 전자 장치일 수도 있고, 사람 또는 로봇 등에 의하여 이동될 수 있는 촬영용 전자 장치일 수도 있다. 촬영 장치(100)는 유무선 인터넷에 연결하여 사용하는 IP 카메라일 수 있다. 촬영 장치(100)는 팬(pan), 틸트(tilt), 및 줌(zoom) 기능을 갖는 PTZ 카메라일 수 있다. 촬영 장치(100)는 감시 하는 영역을 녹화하거나 사진을 촬영하는 기능을 가질 수 있다. 촬영 장치(100)는 감시하는 영역에서 발생하는 소리를 녹음하는 기능을 가질 수 있다. 촬영 장치(100)는 감시하는 영역에서 움직임 또는 소리 등 변화가 발생 할 경우, 이에 대한 알림을 발생시키거나 녹화 또는 사진 촬영을 수행하는 기능을 가질 수 있다.
상기 촬영 장치(100)는 서로 다른 공간에 설치된 복수의 촬영 장치(100a, 100b, 100c)를 포함할 수 있다. 예를 들어, 제1 촬영 장치(100a)와 제2 촬영 장치(100b)는 제1 간격으로 이격되며, 제2 촬영 장치(100b)와 제3 촬영 장치(100c)는 제2 간격으로 이격되어 있을 수 있다. 즉, 각각의 촬영장치(100a, 100b, 100c)는 동일한 인물에 대하여 소정의 시간 간격을 두고 촬영 가능한 위치에 각각 배치되어 있는 CCTV 형태로 구현되는 시스템일 수 있다.
영상 관리 서버(200)는 촬영 장치(100)를 통하여 촬영된 영상 자체 및/또는 해당 영상을 편집하여 얻어지는 영상을 수신하여 저장 및/또는 검색기능을 갖는 장치일 수 있다. 영상 관리 서버(200)는 수신한 용도에 대응되도록 분석할 수 있다. 예를 들어, 영상 관리 서버(200)는 영상에서 객체를 검출하기 위해 객체 검출 알고리즘을 이용하여 객체를 검출할 수 있다. 상기 객체 검출 알고리즘은 AI 기반 알고리즘이 적용될 수 있으며, 미리 학습된 인공신경망 모델을 적용하여 객체를 검출할 수 있다.
본 명세서의 일 실시예에 따르면, 상기 영상 관리 서버(200)는 영상 검색 장치로서의 기능을 수행할 수 있다. 상기 영상 검색 장치는, 복수의 감시 카메라 채널로부터 획득하는 영상들에 대하여 특정 영상, 특정 영상에 포함된 객체 또는 특정 채널을 검색 조건으로 입력하면 빠르고 용이하게 검색할 수 있다. 영상 검색 장치는 사용자가 영상을 용이하게 검색할 수 있도록 데이터 베이스를 구축하는 과정이 선행되어야 하며, 본 명세서의 일 실시예는 특정 검색 조건에 따라 영상 검색을 수행함에 검색 대상의 크기를 제한하여 연산량을 제한하는 방법을 제안한다.
한편, 상기 영상 관리 서버(200)는 네트워크를 통해 획득된 영상을 저장하는 기능을 수행하는 NVR(Network Video Recoder) 또는 DVR(Digital Video Recoder)일 수 있다. 또는 영상을 통합적으로 관리 및 제어하여, 원격으로 영상을 모니터링할 수 있는 CMS(Central Management System)일 수도 있다. 한편, 이에 한정되지 않고 영상 관리 서버(200)는 퍼스널 컴퓨터 또는 휴대용 단말기일 수도 있다. 다만, 이는 예시적인 것으로 본 명세서의 기술적 사상은 이에 제한되는 것은 아니며, 네트워크를 통해 하나 이상의 감시 카메라로부터 멀티 미디어 개체를 전송 받아 디스플레이 및/또는 저장할 수 있는 장치이면 제한없이 사용될 수 있음은 물론이다.
한편, 영상 관리 서버(200)는 영상 분석 목적에 맞는 다양한 학습 모델을 저장하고 있을 수 있다. 전술한 객체 검출을 위한 학습 모델 외에, 검출된 객체의 이동 속도를 획득할 수 있는 모델을 저장하고 있을 수도 있다. 여기서 상기 학습된 모델들은 상기 복수의 촬영 장치(100a, 100b, 100c)를 통해 촬영된 영상 즉, 영상 촬영 시간과 영상 촬영 위치가 서로 다른 영상을 입력데이터로 하여, 상기 촬영된 영상에 포함된 인물의 성별과 영상의 특징벡터 값을 출력하는 학습 모델을 포함할 수도 있다.
또한, 영상 관리 서버(200)는 수신한 영상을 분석하여 메타 데이터와 해당 메타 데이터에 대한 인덱스 정보를 생성할 수 있다. 영상 관리 서버(200)는 수신한 영상에 포함된 영상 정보 및 /또는 음향 정보를 함께 또는 별도로 분석하여 메타 데이터와 해당 메타 데이터에 대한 인덱스 정보를 생성할 수 있다. 상기 메타 데이터는 영상이 촬영된 시간정보, 촬영 위치 정보 등을 더 포함할 수도 있다.
영상 관리 시스템(10)은 촬영 장치(100) 및/또는 영상 관리 서버(200)와 유무선 통신을 수행할 수 있는 외부 장 치(300)를 더 포함할 수 있다.
외부 장치(300)는 영상 관리 서버(200)로 영상 전체 또는 일부의 제공을 요청하는 정보 제공 요청 신호를 송신 할 수 있다. 외부 장치(300)는 영상 관리 서버(200)로 영상 분석 결과 객체의 존재 여부, 객체의 이동 속도, 객체의 이동 속도에 따른 셔터 속도 조절값, 객체의 이동 속도에 따른 노이즈 제거값, 센서 이득값 등을 요청하는 정보 제공 요청 신호를 송신할 수 있다. 또한 외부 장치(300)는 영상 관리 서버(200)로 영상을 분석하여 얻어진 메타 데이터 및/또는 메타 데이터에 대한 인덱스 정보를 요청하는 정보 제공 요청 신호를 송신할 수 있다.
영상 관리 시스템(10)은 촬영 장치(100), 영상 관리 서버(200), 및/또는 외부 장치(300) 간의 유무선 통신 경로 인 통신망(400)을 더 포함할 수 있다. 통신망(400)은 예컨대 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트 워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 명세서의 범위가 이에 한정되는 것은 아니다.
도 2는 본 명세서의 일 실시예에 따른 영상 검색 장치의 구성을 나타낸 블록도이다.
도 2를 참조하면, 영상 검색장치(200)는 통신부(210), 입력부(220), 인터페이스(230), 디스플레이부(240), AI 프로세서(250), 메모리(260), 데이터베이스(270)를 포함할 수 있다.
영상 검색 장치(200)는 카메라(100) 로부터 전송받은 메타데이터를 분석하여, 영상에 포함된 객체의 특징 정보를 추출할 수 있다. 그리고, 기 저장된 객체의 특징 정보와 비교하여 사용자가 검색할 수 있는 데이터베이스(Database)를 구축한다. 이를 위해, 영상 검색 장치(200)는 프로세서(280), 메모리(260), 입력부(220), 디스플레이부(240)를 포함한다. 그리고, 이들 구성요소들은 버스를 통해 상호간에 연결되어 통신할 수 있다.
통신부(210)는 영상 데이터, 음성 데이터, 스틸 이미지, 및/또는 메타데이터를 카메라 장치(100)로부터 수신할 수 있다. 일 실시예에 따른 통신부(210)는 영상 데이터, 음성 데이터, 스틸 이미지, 및/또는 메타데이터를 카메라(100)로부터 실시간으로 수신할 수 있다. 통신 인터페이스는 유무선 LAN(Local Area Network), 와이파이(Wi-Fi), 지그비(ZigBee), 블루투스(Bluetooth), 근거리 통신(Near Field Communication) 중 적어도 하나의 통신 기능을 수행할 수 있다.
프로세서(280)에 포함된 모든 구성요소들은 적어도 하나의 인터페이스 또는 어댑터를 통해 버스에 접속되거나, 직접 버스에 연결될 수 있다. 또한, 버스는 상기 기술한 구성요소 외에 다른 서브 시스템들과 연결될 수도 있다. 버스는 메모리 버스, 메모리 컨트롤러, 주변 버스(Peripheral Bus), 로컬 버스를 포함할 수 있다.
프로세서(280)는 영상 검색 장치(200)의 전반적인 동작을 제어한다. 예를 들어, 카메라(100) 또는 별도의 VA 엔진으로부터 메타데이터를 전송받으면, 메타데이터로부터 영상에 포함된 객체의 특징 정보를 추출하여 데이터 베이스(270)에 저장할 수 있다. 상기 메타데이터의 예시로서, 본 명세서는 영상에 포함된 객체(사람)의 성별, 영상의 특징정보, 그리고 영상 촬영장치가 위치하는 위치정보, 촬영 시간 정보 등을 포함할 수 있다.
본 명세서의 일 실시예에 따르면 프로세서(280) 및/또는 AI 프로세서(250)가 영상으로부터 특징정보를 추출하는 특징 추출부(미도시)의 기능을 구현할 수 있으며, 상기 특징 추출부는 프로세서(280), AI 프로세서(250)와 독립된 모듈로 구성될 수도 있다.
본 명세서의 일 실시예에 따르면, 데이터베이스(270)에 저장되는 모든 영상의 특징벡터 정보에 기초하여 각 영상의 특징벡터의 차이값을 추가적으로 저장할 수 있다. 상기 특징벡터의 차이값은 1차적으로 각 영상들의 유사도를 판단할 수 있는 근거로 활용할 수 있다. 따라서, 데이터베이스(270)에 N개의 영상이 저장되어 있는 경우, 총 N(N-1) 개의 특징벡터 차이값을 구성하여 저장할 수 있다. 여기서, 감시 카메라를 통해 N+1 번째 영상이 수신되는 경우, 프로세서(280)는 ImageN+1을 I1, I2, I3,쪋IN 과 각각 특징벡터 차이값을 계산하여 총 N(N+1)개의 특징벡터 차이값을 구성하여 데이터베이스를 구성할 수 있다.
이에 따라, 본 명세서의 일 실시예에 따르면, 특정 검색 조건이 입력되기 전에 전술한 바와 같이 영상 간 특징벡터 차이값이 모두 계산되어 저장되어 있는 상태이므로, 실제로 영상 검색이 수행되는 과정에서는 특징벡터 차이를 계산하는데 소요되는 리소스를 최소한으로 줄일 수 있다.
프로세서(280)로는 CPU(Central Processing Unit), MCU(Micro Controller nit) 또는 DSP(Digital Signal Processor) 등을 사용하는 것이 바람직하나, 이에 제한되지 않고 다양한 논리 연산 프로세서가 사용될 수 있다.
메모리(260)는 각종 객체 정보들을 저장하고, 프로세서(280)에 의해 데이터베이스(270)가 구축된다. 메모리(260)는 비휘발성 메모리 장치 및 휘발성 메모리 장치를 포함한다. 비휘발성 메모리 장치는 부피가 작고 가벼우며 외부의 충격에 강한 NAND 플래시 메모리이고, 휘발성 메모리 장치는 DDR SDRAM인 것이 바람직하다.
영상 검색 장치(200)는 네트워크에 연결될 수도 있다. 따라서 영상 검색 장치(200)는 다른 장치들과 네트워크를 통하여 연결되어, 메타데이터를 포함한 각종 데이터 및 신호들을 송수신할 수 있다.
디스플레이부(240)는 사용자가 입력한 검색 조건에 따라 수행한 검색 결과를, 사용자가 볼 수 있도록 표시할 수 있다.
입력부(220)로는 마우스, 키보드, 조이스틱, 리모콘 등이 있다. 이러한 입력부는 직렬 포트, 병렬포트, 게임 포트, USB 등을 포함하는 입력 인터페이스(141)를 통해 버스에 연결될 수 있다. 그러나 만약 영상 검색 장치(200)가 터치 기능을 제공한다면, 디스플레이부(240)는 터치 센서를 포함할 수 있다. 이 경우에는 입력부(220)가 별도로 마련될 필요가 없고, 사용자가 디스플레이부(240)를 통해 직접 터치 신호를 입력할 수 있다.
영상 검색 장치(200)가 터치 기능을 제공하더라도, 디스플레이부(240)가 터치 센서를 포함하지 않는다면 별도의 터치 패드가 입력부(220)로서 마련될 수도 있다. 디스플레이부(240)는 LCD(Liquid Crystal Display), OLED(Organic Liquid Crystal Display), CRT(Cathode Ray Tube), PDP(Plasma Display Panel) 등 다양한 방식이 사용될 수 있다. 이러한 디스플레이부(240)는 비디오 인터페이스(미도시)를 통하여 버스에 연결되고, 디스플레이부(240)와 버스간의 데이터 전송은 그래픽 컨트롤러(132)에 의해 제어될 수 있다.
인터페이스(230)는 네트워크 인터페이스, 비디오 인터페이스, 입력 인터페이스 등을 포함할 수 있다. 네트워크 인터페이스는 네트워크 인터페이스 카드, 모뎀 등을 포함할 수 있다.
AI 프로세서(250)는 인공지능 영상 처리를 위한 것으로서, 본 명세서의 일 실시예에 따라 감시 카메라 시스템을 통해 획득된 영상에서 관심객체로 학습된 딥러닝 기반의 객체 탐지(Objection Detection) 알고리즘을 적용한다. 상기 AI 프로세서(250)는 시스템 전반에 걸쳐 제어하는 프로세서(260)와 하나의 모듈로 구현되거나 독립된 모듈로 구현될 수 있다. 본 명세서의 일 실시예들은 객체 탐지에 있어서 YOLO(You Only Lock Once) 알고리즘을 적용할 수 있다. YOLO은 객체 검출 속도가 빠르기 때문에 실시간 동영상을 처리하는 감시 카메라에 적당한 AI 알고리즘이다. YOLO 알고리즘은 다른 객체 기반 알고리즘들(Faster R-CNN, R_FCN, FPN-FRCN 등)과 달리 한 장의 입력 영상을 리사이즈(Resize)후 단일 신경망을 단 한 번 통과시킨 결과로 각 객체의 위치를 인디케이팅하는 바운딩 박스(Bounding Box)와 객체가 무엇인지 분류 확률을 출력한다. 최종적으로 Non-max suppression을 통해 하나의 객체를 한번 인식(detection)한다.
한편, 본 명세서에 개시되는 객체 인식 알고리즘은 전술한 YOLO에 한정되지 않고 다양한 딥러닝 알고리즘으로 구현될 수 있음을 밝혀둔다.
한편, 본 명세서에 적용되는 객체 인식을 위한 학습 모델은 전술한 영상에 포함된 객체가 사람인 경우, 사람의 성별을 추출할 수 있도록 학습된 신경망 모델을 포함할 수 있다. 상기 신경망 모델을 학습하기 위한 학습 데이터로서, 일정 거리 이상 이격되어 있는 복수의 감시 카메라로부터 획득되는 영상의 촬영위치 정보, 촬영 시간 정보가 서로 다른 복수의 영상을 입력 데이터로 정의하고, 복수의 영상으로부터 성별과 영상의 특징정보가 추출되도록 하는 네트워크가 설계되도록 학습될 수 있다.
도 3은 본 명세서의 일 실시예에 따른 영상 검색 장치에 적용되는 AI 장치(모듈)을 설명하기 위한 도면이다.
도 3을 살펴보면, AI 장치(20)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 또한, AI 장치(20)는 감시 카메라 또는 영상 관리 서버의 적어도 일부의 구성으로 포함되어 AI 프로세싱 중 적어도 일부를 함께 수행하도록 구비될 수도 있다.
AI 프로세싱은 감시카메라 또는 영상 관리 서버의 제어부(프로세서)와 관련된 모든 동작들을 포함할 수 있다. 예를 들어, 감시 카메라 또는 영상 관리 서버는 획득된 영상 신호를 AI 프로세싱 하여 처리/판단, 제어 신호 생성 동작을 수행할 수 있다.
AI 장치(20)는 AI 프로세싱 결과를 직접 이용하는 클라이언트 디바이스이거나, AI 프로세싱 결과를 다른 기기에 제공하는 클라우드 환경의 디바이스일 수도 있다. AI 장치(20)는 신경망을 학습할 수 있는 컴퓨팅 장치로서, 서버, 데스크탑 PC, 노트북 PC, 태블릿 PC 등과 같은 다양한 전자 장치로 구현될 수 있다.
AI 장치(20)는 AI 프로세서(21), 메모리(25) 및/또는 통신부(27)를 포함할 수 있다.
AI 프로세서(21)는 메모리(25)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, AI 프로세서(21)는 감시 카메라의 관련 데이터를 인식하기 위한 신경망을 학습할 수 있다. 여기서, 감시 카메라의 관련 데이터를 인식하기 위한 신경망은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 갖는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 모드들은 뉴런이 시냅스(synapse)를 통해 신호를 주고 받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고 받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 신경망 모델의 예는 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들을 포함하며, 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
한편, 전술한 바와 같은 기능을 수행하는 프로세서는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.
메모리(25)는 AI 장치(20)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리(25)는 비 휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SDD) 등으로 구현할 수 있다. 메모리(25)는 AI 프로세서(21)에 의해 액세스되며, AI 프로세서(21)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리(25)는 본 발명의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 딥 러닝 모델(26))을 저장할 수 있다.
한편, AI 프로세서(21)는 데이터 분류/인식을 위한 신경망을 학습하는 데이터 학습부(22)를 포함할 수 있다. 데이터 학습부(22)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 데이터 학습부(22)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 딥러닝 모델에 적용함으로써, 딥러닝 모델을 학습할 수 있다.
데이터 학습부(22)는 적어도 하나의 하드웨어 칩 형태로 제작되어 AI 장치(20)에 탑재될 수 있다. 예를 들어, 데이터 학습부(22)는 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 AI 장치(20)에 탑재될 수도 있다. 또한, 데이터 학습부(22)는 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.
데이터 학습부(22)는 학습 데이터 획득부(23) 및 모델 학습부(24)를 포함할 수 있다.
학습 데이터 획득부(23)는 데이터를 분류하고 인식하기 위한 신경망 모델에 필요한 학습 데이터를 획득할 수 있다.
모델 학습부(24)는 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류할지에 관한 판단 기준을 가지도록 학습할 수 있다. 이 때 모델 학습부(24)는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또는 모델 학습부(24)는 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통해 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부(24)는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하여 강화 학습(reinforcement learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부(24)는 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다.
신경망 모델이 학습되면, 모델 학습부(24)는 학습된 신경망 모델을 메모리에 저장할 수 있다. 모델 학습부(24)는 학습된 신경망 모델을 AI 장치(20)와 유선 또는 무선 네트워크로 연결된 서버의 메모리에 저장할 수도 있다.
데이터 학습부(22)는 인식 모델의 분석 결과를 향상시키거나, 인식 모델의 생성에 필요한 리소스 또는 시간을 절약하기 위해 학습 데이터 전처리부(미도시) 및 학습 데이터 선택부(미도시)를 더 포함할 수도 있다.
학습 데이터 전처리부는 획득된 데이터가 상황 판단을 위한 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 예를 들어, 학습 데이터 전처리부는, 모델 학습부(24)가 이미지 인식을 위한 학습을 위하여 획득된 학습 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
또한, 학습 데이터 선택부는, 학습 데이터 획득부(23)에서 획득된 학습 데이터 또는 전처리부에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다.선택된 학습 데이터는 모델 학습부(24)에 제공될 수 있다.
또한, 데이터 학습부(22)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(미도시)를 더 포함할 수도 있다.
모델 평가부는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(22)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델을 평가하기 위한 기 정의된 데이터일 수 있다. 일 예로, 모델 평가부는 평가 데이터에 대한 학습된 인식 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정되 임계치를 초과하는 경우, 소정 기준을 만족하지 못한 것으로 평가할 수 있다.
통신부(27)는 AI 프로세서(21)에 의한 AI 프로세싱 결과를 외부 전자 기기로 전송할 수 있다. 예를 들어, 외부 전자 기기는 감시카메라, 블루투스 장치, 자율주행 차량, 로봇, 드론, AR 기기, 모바일 기기, 가전 기기 등을 포함할 수 있다.
한편, 도 3에 도시된 AI 장치(20)는 AI 프로세서(21)와 메모리(25), 통신부(27) 등으로 기능적으로 구분하여 설명하였지만, 전술한 구성요소들이 하나의 모듈로 통합되어 AI 모듈로 호칭될 수도 있음을 밝혀둔다.
본 명세서는 감시용 카메라, 자율주행 차량, 사용자 단말기 및 서버 중 하나 이상이 인공 지능(Artificial Intelligence) 모듈, 로봇, 증강현실(Augmented Reality, AR) 장치, 가상 현실(Virtual reality, VT) 장치, 5G, 6G 서비스와 관련된 장치 등과 연계될 수 있다.
도 4는 본 명세서의 일 실시예에 따른 감시 카메라 시스템에서의 영상 검색 방법의 흐름도이다. 도 4에 개시된 영상 검색 방법은, 도 2에서 설명한 영상 검색 장치(200)의 프로세서(280)를 통해 구현될 수 있다.
도 4를 참조하면, 프로세서(280)는 영상 검색 장치(NVR)의 데이터 베이스를 구성할 수 있다(S400). 상기 데이터 베이스는, 기존 영상 데이터와 새로운 영상 데이터의 영상 디스턴스(distance)를 추출함으로써, 업데이트될 수 있다. 여기서 상기 영상 디스턴스라 함은 인공지능 학습모델을 통해 획득된 영상의 특징정보를 의미할 수 있다. 상기 영상의 특징정보는 영상의 특징벡터를 의미할 수 있으며, 두 영상 각각의 특징벡트의 차이값을 의미할 수도 있다. 데이터 베이스를 구성 및 업데이트하는 과정에 대해서는 도 5를 통해 구체적으로 후술하기로 한다.
상기 데이터 베이스는 영상들 간의 사전에 계산된 특징벡터 차이값을 저장할 수 있으며, 이는 향후 영상 검색 장치의 사용자에 의해 특정 객체의 검색 요청을 수신한 경우, 데이터 베이스에 저장된 영상 디스턴스 정보를 활용함으로써, 특징벡터 차이값을 추가적으로 계산할 필요가 없다.
프로세서(280)는 프로브 영상이 입력여부를 확인할 수 있다(S410). 여기서, 프로브 영상은 영상 검색 장치(200)를 통해 검색하고자 하는 객체를 포함하는 영상을 의미할 수 있다. 상기 프로브 영상의 입력은, 영상 검색 장치(200)의 입력부를 통해 사용자에 의해 입력될 수 있다. 상기 프로브 영상은, 서로 이격된 복수의 감시 가카메라를 통해 촬영되어 영상 검색 장치(200)의 메모리에 저장된 영상들 중 하나가 선택되는 방법을 통해 영상 검색 장치를 통해 검색하고자 하는 영상으로 입력될 수도 있다.
프로세서(280)는, 프로브 영상 입력을 통해 사용자로부터 특정 영상(또는 객체)의 검색 요청을 수신한 것으로 판단한 경우(S410:Y), 기 구성되어 있는 데이터 베이스에서 미리 정해진 기준에 따라 프로브 영상과의 비교 대상군에 포함될 영상을 선별할 수 있다(S420). 상기 미리 정해진 기준은, 프로브 영상의 특징, 촬영된 카메라의 설치 장소, 촬영 시간 등 감시 카메라 전체 시스템이 고려될 수 있으며, 도 6을 통해 보다 구체적으로 설명한다.
프로세서(280)는 S420을 통해 프로브 영상과 비교할 영상을 데이터 베이스에서 선별한 경우, 선별된 영상과 프로브 영상의 유사도 비교를 통해 적어도 하나 이상의 영상을 후보 영상으로 추출하고, 추출된 후보 영상을 상기 유사도 기준으로 순위화(정렬) 할 수 있다(S430).
여기서, 영상의 유사도라 함은, 프로브 영상 데이터의 특징 벡터와 데이터베이스에서 선별된 영상에 대한 특징벡터들 과의 유클리디언 거리(distance)를 의미할 수 있다. 타겟 영상과의 비교대상 영상의 유사도를 판단하는 방법 중, 예를 들어, 프로세서(280)는 k-최근접 이웃 탐색(k-nearest neighbor search) 알고리즘을 적용하는 경우, 프로브 영상에 포함된 사람과, 데이터베이스의 비교 영상에 포함된 사람에 대한 특징정보가 명확하게 구분되는 경우에는 효과적으로 동일한 사람인지 여부를 판단할 수 있다. 그러나, 데이터 베이스 내에, 검색하고자 하는 사람과 체형 또는 의상이 유사한 사람이 다수 존재하는 경우, 유사도가 높은 것으로 판단되어 선순위 영상으로 추출되는 영상들 중에 동일한 사람이 아닌 것으로 판단되는 경우가 발생될 수 있다.
본 명세서의 일 실시예에 따르면, 전술한 문제점을 개석하기 위해 S430 에서 1차적으로 순위화를 수행한 영상 그룹에 대하여 재순위화(Re-ranking)을 수행한다(S440)
프로세서(280)는 유클리디언 거리를 계산하여 특징벡터가 유사한 순으로 1차적으로 순위화한 후, 아래 수학식 1을 통해 자카드 거리(Jaccard distance)를 산출한다.
Figure PCTKR2022012313-appb-img-000001
여기서, dj(p,gi) 는 프로브 영상과 데이터 베이스에 저장된 후보 영상(1차 순위화된 영상) 중 i 번째 후보 영상 간의 자카드 거리를 의미하며,
dp,gi는 프로브 영상과 데이터 베이스에 저장된 후보 영상(1차 순위화된 영상) 중 i 번째 후보 영상 간의 유클리디언 거리를 의미하며,
N은 데이터 베이스에 저장된 후보 영상의 개수를 의미한다.
자카드 거리(Jaccard distance)는, 프로브 영상과 데이터 베이스의 후보 영상 중 i 번째 영상이 유사해질수록 높은 값을 갖는다. 이는 상호간의 추출한 후보 영상의 집합이 유사한 경우에 보다 신뢰성을 부여하여 동일 인물이라고 판단하는 근거로 활용할 수 있다.
일 실시예에 따라, 프로세서(280)는 상기 계산된 자카드 거리와 유클리디언 거리의 가중합을 통해 최종 거리(Final Distance)를 획득함으로써, 우선순위를 재조정할 수도 있다.
도 5는 본 명세서의 일 실시예에 따라 데이터 베이스를 구성하는 예를 설명하기 위한 도면이다.
도 5를 참조하면, 프로세서(280)는 새로운 영상(이하, 제1 영상이라 함)을 수신할 수 있다(S500). 상기 새로운 영상은 데이터 베이스에 저장된 적이 없는 새로운 영상으로서, 서로 이격되어 있는 복수의 카메라를 통해 수신된 영상이다.
본 명세서의 일 실시예는, 상기 제1 영상을 향후 영상 검색 과정에서 활용하기 위해, 상기 제1 영상과 관련된 정보들이 가공되어 데이터 베이스에 추가적으로 저장될 수 있다.
여기서 상기 제1 영상과 관련된 정보라 함은, 제1 영상의 메타 데이터를 포함할 수 있다. 상기 제1 영상의 메타 데이터는, 제1 영상의 촬영위치, 촬영시간 정보를 포함할 수 있다.
또한, 상기 제1 영상과 관련된 정보는, 상기 제1 영상의 특징정보를 포함할 수 있다. 상기 제1 영상의 특징 정보는 AI 특징정보 추출과정을 통해 추출되는 특징벡터를 포함할 수 있다(S510).
프로세서(280)는 상기 제1 영상의 특징벡터와, 데이터 베이스에 기 저장된 영상들의 특징벡터와의 차이를 추출하여 데이터 베이스에 저장할 수 있다(S520). 즉, 상기 데이터 베이스에 저장된 모든 영상들은 상호간의 특징벡터 차이값이 산출되어 저장되어 있다. 이에 따라, 데이터 베이스에 저장된 영상 중 특정 영상이 프로브 영상으로 선택된 경우, 프로세서(280)는 프로브 영상에 포함된 사람과 동일한 사람을 포함하는 영상을 검색하기 위하여 영상 간 유사도를 추가적으로 계산할 필요가 없이, 데이터 베이스에 저장된 특징벡터 차이값에 기초하여 유사 영상의 순위화를 수행할 수 있다.
한편, 프로세서 도 5에 도시된 바와 같이, 데이터 베이스에 특징정보 등이 저장되어 있지 않은 새로운 영상이 수신된 경우, 상기 새로운 영상의 특징정보(특징벡터 포함)를 추출하여, 데이터 베이스에 기 저장된 영상들의 특징벡터와 차이를 추출하는 연산을 수행하여, 새로운 영상이 기 저장된 영상과의 유사도를 판단할 수 있도록 데이터 베이스를 재구성할 수 있다.
도 6은 본 명세서의 일 실시예에 따라 검색 대상 인물과 동일한 인물을 포함하는 영상을 검색하기 위하여 데이터 베이스에서 검색 범위를 필터링하는 예를 설명하기 위한 도면이다.
본 명세서의 일 실시예에 따르면, 영상 검색 장치의 사용자가 검색하고자 하는 대상 객체를 선택하면, 데이터 베이스 내에서 선택된 객체에 대한 특징 벡터와 사람의 성별 및 시공간 정보를 기반으로 관심 객체와 동일한 사람 후보를 데이터 베이스 선별부에서 분류를 한다.
도 6을 참조하면, 프로세서(280)는 프로브 영상의 특징정보를 확인할 수 있다(S600). 상기 프로브 영상의 특징정보는, 전술한 바와 같이, 영상의 특징벡터, 영상의 촬영위치, 촬영시간, 영상에 포함된 사람의 성별 정보 등을 포함할 수 있다. 전술한 바와 같이, 상기 영상의 촬영 위치정보, 촬영 시간 정보는 감시 카메라로부터 영상을 수신할 경우, 메타 데이터 형식으로 함께 수신할 수 있으며, 상기 특징벡터 정보, 성별 정보 등은 영상 검색 장치(200)에서 AI 영상 분석 과정을 통해 추출될 수 있다.
프로세서(280)는 우선 프로브 영상에 포함된 관심 객체의 성별을 기반으로 데이터 베이스 내에 같은 성별에 대한 데이터만 선별할 수 있다(S610). 이 때, 데이터 베이스에 저장된 영상 중 남성 및 여성이 함께 존재하는 영상인 경우, 비교 대상 영상으로 선별되도록 구성될 수 있다.
그리고, 프로세서(280)는 프로브 영상의 촬영 시간 정보와 유사한 시간에 대한 데이터만을 데이터 베이스에서 추가적으로 선별할 수 있다(S620). 동일 날짜 및 유사 시간에 대해서만 검색 범위를 제한하기 위함이다.
마지막으로, 프로세서(280)는 프로브 영상의 촬영 위치 정보를 기반으로 데이터를 선별할 수 있다(S630). 한편, 영상 검색 장치는 공간적으로 이격되어 설치된 복수의 카메라의 정보를 획득하고 있는 상태이므로 인접한 장소에 설치되어 있는 카메라들에 대한 정보 위주로 동일한 사람에 대한 검색 범위를 제한할 수 있다.
이와 같이, 본 명세서의 일 실시예는 재순위화(Re-ranking) 과정에서 소요되는 연산량을 줄이기 위해, 프로브 영상과의 유사도를 판단할 대상 범위를 성별, 촬영시간, 촬영위치 기반으로 축소할 수 있다.
도 7a는 본 명세서의 일 실시예에 따라 데이터 베이스에서 선별된 영상 중 검색 대상 인물과 유사한 영상을 1차적으로 순위화한 예시이고, 도 7b는 1차 순위화 이후 재순위화화를 수행한 예시이다.
도 7a는 도 4의 S430(후보 영상을 선정하여 순위화)의 결과를 예시한다. 예를 들어, 선별된 데이터 베이스 내의 영상 중 프로브 영상과의 유클리디언 디스턴스 값의 비교를 통해 유사도를 판단한 결과, P1, N1, P2, N2, P3, N3, N4, N5, P4, N6의 순서로 유사도 순위가 결정될 수 있다. 그러나, 실제로 N1은 프로브 영상의 관심 인물과 동일한 인물이 아니지만, 동일한 인물인 P2 보다 우선순위가 높은 결과를 보여준다. 마찬가지고, N2가 P3 보다 우선순위가 높으며, N3, N4, N5는 P4 보다 우선순위가 높게 결정되었다. (프로브 영상의 관심 인물과 동일한 인물을 포함하는 영상은 P1, P2, P3, P4로 가정)
즉, 도 7a의 경우, 단순히 영상간 특징벡터의 차이 값 만으로 비교한 결과, 관심 인물의 의상, 외형 등이 특징벡터 값 설정에 고려되기 때문에 동일하지 않은 사람이 동일한 사람보다 유사도가 높은 결과가 나올 수 있다.
본 명세서는 도 7a의 결과에서 자카드 거리를 추가적으로 계산함으로써, 우선순위를 재 순위화 할 수 있으며, 재순위화 결과, P1, P2, P3, P4가 N1, N2, N3, N4, N5, N6 보다 우선순위가 높게 정렬되어, 영상 검색의 정확도를 높일 수 있다.
전술한 본 명세서, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 명세서의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 명세서의 범위에 포함된다.

Claims (20)

  1. 서로 이격된 복수의 카메라로부터 촬영된 영상 및 상기 영상의 메타 데이터가 저장되는 데이터베이스; 및
    관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 데이터베이스에서 적어도 하나의 미리 정해진 기준에 기초하여 상기 관심 객체가 포함된 영상을 검색하기 위한 적어도 하나의 영상을 선별하고, 상기 프로브 영상의 특징벡터와 상기 선별된 적어도 하나의 영상의 특징벡터 간의 거리(distance)에 기초하여 상기 프로브 영상과 유사한 적어도 하나의 후보 영상을 추출하고, 상기 프로브 영상과 상기 후보 영상 간의 유사도(similarity) 에 기초하여 상기 후보 영상에 대하여 재순위화(Re-ranking)하는 프로세서;
    를 포함하는 것을 특징으로 하는 영상 검색 장치.
  2. 제 1 항에 있어서,
    상기 메타 데이터는,
    상기 영상에 포함된 사람의 성별, 특징벡터, 상기 영상의 촬영 시간, 촬영 위치를 포함하는 것을 특징으로 하는 영상 검색 장치.
  3. 제 2 항에 있어서,
    상기 프로세서는,
    상기 프로브 영상이 입력되기 전 상기 복수의 영상 간의 특징벡터의 차이 값을 사전에 계산하여 상기 데이터 베이스에 저장하는 것을 특징으로 하는 영상 검색 장치.
  4. 제 3 항에 있어서,
    상기 프로세서는,
    상기 복수의 카메라 중 어느 하나로부터 새로운 제1 영상을 수신한 경우, 상기 제1 영상의 제1 특징벡터를 추출하고, 상기 제1 특징벡터와 상기 데이터 베이스에 사전에 저장된 복수의 영상 간 특징벡터의 차이값을 계산하여 상기 데이터 베이스에 저장하는 것을 특징으로 하는 영상 검색 장치.
  5. 제 2 항에 있어서,
    상기 프로세서는,
    상기 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 신경망을 학습시키고, 학습된 신경망을 메모리에 저장하는 것을 특징으로 하는 영상 검색 장치.
  6. 제 2 항에 있어서,
    상기 미리 정해진 기준은, 상기 성별, 시간, 위치 정보를 포함하고,
    상기 프로세서는,
    상기 데이터베이스에 저장된 영상 데이터를 상기 프로브 영상에 포함된 사람의 성별을 기준으로 1차 필터링을 수행하고, 상기 촬영 시간에 기초하여 2차 필터링을 수행하고, 상기 촬영 위치에 기초하여 3차 필터링을 수행하여 상기 프로브 영상에 포함된 사람과 동일한 사람이 포함된 영상의 검색범위를 한정하는 것을 특징으로 하는 영상 검색 장치.
  7. 제 6 항에 있어서,
    상기 프로세서는,
    상기 한정된 검색범위에 포함된 영상의 특징벡터와 상기 프로브 영상의 특징벡터의 유클리디언 거리(distance)를 산출하여, 상기 프로브 영상과 유사한 후보영상군을 추출하는 것을 특징으로 하는 영상 검색 장치.
  8. 제 1 항에 있어서,
    상기 유사도는 자카드 거리(jaccard distance)에 따른 영상 유사도를 포함하는 것을 특징으로 하는 영상 검색 장치.
  9. 서로 이격된 복수의 카메라로부터 촬영된 복수의 영상 및 상기 복수의 영상 간 특징정보의 차이값이 저장되는 데이터 베이스;
    상기 영상에 포함된 사람의 성별 및 상기 영상의 특징벡터를 추출하는 특징 추출부;
    관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 관심 인물과의 유사도에 기초하여 상기 선별된 영상을 순위화 하고, 상기 순위화된 영상을 유사도(similarity) 에 기초하여 재순위(Re-ranking) 하는 프로세서;를 포함하고,
    상기 특징 추출부는 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 학습된 신경망을 포함하고,
    상기 프로세서는 상기 프로브 영상이 입력되기 전 상기 복수의 영상 간 특징벡터의 차이값을 계산하는 것을 특징으로 하는 영상 검색 장치.
  10. 제 9 항에 있어서,
    상기 프로세서는,
    상기 복수의 카메라로부터 촬영된 복수의 영상을 수신한 경우, 상기 영상의 촬영시간, 촬영위치, 상기 특징추출부를 통해 추출된 성별 및 상기 영상의 특징벡터를 상기 데이터 베이스에 저장하는 것을 특징으로 하는 영상 검색 장치.
  11. 제 10 항에 있어서,
    상기 프로세서는,
    상기 복수의 카메라 중 어느 하나로부터 새로운 제1 영상을 수신한 경우, 상기 특징 추출부로부터 상기 제1 영상의 제1 특징벡터를 추출하고, 상기 제1 특징벡터와 상기 데이터 베이스에 사전에 저장된 복수의 영상 간 특징벡터의 차이값을 계산하여 상기 데이터 베이스에 저장하는 것을 특징으로 하는 영상 검색 장치.
  12. 제 9 항에 있어서,
    상기 프로세서는,
    상기 프로브 영상에 포함된 사람의 성별, 상기 프로브 영상의 촬영 시간, 촬영 위치에 기초하여 상기 데이터베이스에 포함된 영상 중 상기 프로브 영상과 비교할 비교대상 범위를 한정하는 것을 특징으로 하는 영상 검색 장치.
  13. 제 11 항에 있어서,
    상기 프로세서는,
    상기 프로브 영상의 특징벡터와 상기 비교대상 범위로 선별된 영상의 특징벡터 간의 유클리디언 거리(distance)에 기초하여, 상기 선별된 영상을 순위화 하는 것을 특징으로 하는 영상 검색 장치.
  14. 제 9 항에 있어서,
    상기 프로브 영상은 상기 영상 검색 장치의 입력수단을 통해 사용자에 의해 입력되거나, 상기 데이터베이스로부터 선택되는 것을 특징으로 하는 영상 검색 장치.
  15. 서로 이격된 복수의 카메라로부터 촬영된 영상 및 상기 영상의 메타 데이터를 데이터 베이스에 저장하는 단계;
    관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 데이터베이스에서 적어도 하나의 미리 정해진 기준에 기초하여 상기 관심 객체가 포함된 영상을 검색하기 위한 적어도 하나의 영상을 선별하는 단계;
    상기 프로브 영상의 특징벡터와 상기 선별된 적어도 하나의 영상의 특징벡터 간의 거리(distance)에 기초하여 상기 프로브 영상과 유사한 적어도 하나의 후보 영상을 순위화하는 단계; 및
    상기 프로브 영상과 상기 후보 영상 간의 유사도(similarity)에 기초하여 상기 후보 영상에 대하여 재순위화(re-racking)하는 단계;
    를 포함하는 영상 검색 방법.
  16. 제 15 항에 있어서,
    상기 메타 데이터는,
    상기 영상에 포함된 사람의 성별, 특징벡터, 상기 영상의 촬영 시간, 촬영 위치를 포함하는 것을 특징으로 하는 영상 검색 방법.
  17. 제 16 항에 있어서,
    상기 데이터 베이스에 저장하는 단계는,
    상기 프로브 영상이 입력되기 전 상기 복수의 영상 간의 특징벡터의 차이 값을 사전에 계산하여 저장하는 것을 포함하는 것을 특징으로 하는 영상 검색 방법.
  18. 제 17 항에 있어서,
    상기 복수의 카메라 중 어느 하나로부터 새로운 제1 영상을 수신한 경우, 상기 제1 영상의 제1 특징벡터를 추출하는 단계; 및
    상기 제1 특징벡터와 상기 데이터 베이스에 사전에 저장된 복수의 영상 간 특징벡터의 차이값을 계산하여 상기 데이터 베이스에 저장하는 단계;
    를 더 포함하는 것을 특징으로 하는 영상 검색 방법.
  19. 제 16 항에 있어서,
    상기 영상의 메타 데이터를 데이터 베이스에 저장하는 단계는,
    상기 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 신경망을 학습시키는 단계;
    상기 학습된 신경망을 이용하여 상기 영상에 포함된 사람의 성별, 특징벡터를 획득하는 단계;
    를 포함하는 것을 특징으로 하는 영상 검색 방법.
  20. 서로 이격된 복수의 카메라로부터 촬영된 복수의 영상 및 상기 복수의 영상 간 특징정보의 차이값을 사전에 계산하여 데이터 베이스에 저장하는 단계;
    미리 학습된 인공 신경망을 이용하여 상기 영상에 포함된 사람의 성별 및 상기 영상의 특징벡터를 추출하는 단계;
    관심 인물을 포함하는 프로브 영상이 입력된 경우, 상기 데이터 베이스 중 상기 프로브 영상의 메타 데이터에 기초하여 상기 프로브 영상과 비교할 적어도 하나의 영상을 선별하는 단계;
    상기 관심 인물과의 유사도에 기초하여 상기 선별된 영상을 순위화 하는 단계;
    상기 순위화된 영상을 자카드 거리(jaccard distance)에 기초하여 재순위화(Re-ranking) 하는 단계;를 포함하고,
    상기 인공 신경망은 촬영 위치 및 촬영 시간이 서로 다른 복수의 영상을 입력 데이터로 하고, 상기 영상에 포함된 사람의 성별 및 특징벡터를 추출하도록 학습되어 저장되고,
    상기 프로브 영상이 입력되기 전 상기 복수의 영상 간 특징벡터의 차이값이 계산되어 상기 데이터 베이스에 저장되는 것을 특징으로 하는 영상 검색 방법.
PCT/KR2022/012313 2022-01-07 2022-08-18 재순위화를 통한 객체 검색 WO2023132428A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0002789 2022-01-07
KR1020220002789A KR20230106977A (ko) 2022-01-07 2022-01-07 재순위화를 통한 객체 검색

Publications (1)

Publication Number Publication Date
WO2023132428A1 true WO2023132428A1 (ko) 2023-07-13

Family

ID=87073928

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/012313 WO2023132428A1 (ko) 2022-01-07 2022-08-18 재순위화를 통한 객체 검색

Country Status (2)

Country Link
KR (1) KR20230106977A (ko)
WO (1) WO2023132428A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130243328A1 (en) * 2012-03-15 2013-09-19 Omron Corporation Registration determination device, control method and control program therefor, and electronic apparatus
KR20140089810A (ko) * 2013-01-07 2014-07-16 한남대학교 산학협력단 Cctv 환경에서의 얼굴 인식 기반 보안 관리 시스템 및 방법
KR20180034976A (ko) * 2016-09-28 2018-04-05 (주)유비쿼터스통신 범죄자 추적 안경, 인공지능시스템(빅데이터) 및 스마트더스트 프로젝트 통합무선보안솔루션
KR20190021130A (ko) * 2017-08-22 2019-03-05 삼성전자주식회사 얼굴 이미지 기반의 유사 이미지 검출 방법 및 장치
KR20210010092A (ko) * 2019-07-19 2021-01-27 한국과학기술연구원 검색 데이터베이스를 구축하기 위한 관심영상 선별 방법 및 이를 수행하는 영상 관제 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130243328A1 (en) * 2012-03-15 2013-09-19 Omron Corporation Registration determination device, control method and control program therefor, and electronic apparatus
KR20140089810A (ko) * 2013-01-07 2014-07-16 한남대학교 산학협력단 Cctv 환경에서의 얼굴 인식 기반 보안 관리 시스템 및 방법
KR20180034976A (ko) * 2016-09-28 2018-04-05 (주)유비쿼터스통신 범죄자 추적 안경, 인공지능시스템(빅데이터) 및 스마트더스트 프로젝트 통합무선보안솔루션
KR20190021130A (ko) * 2017-08-22 2019-03-05 삼성전자주식회사 얼굴 이미지 기반의 유사 이미지 검출 방법 및 장치
KR20210010092A (ko) * 2019-07-19 2021-01-27 한국과학기술연구원 검색 데이터베이스를 구축하기 위한 관심영상 선별 방법 및 이를 수행하는 영상 관제 시스템

Also Published As

Publication number Publication date
KR20230106977A (ko) 2023-07-14

Similar Documents

Publication Publication Date Title
WO2019031714A1 (ko) 객체를 인식하는 방법 및 장치
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
WO2021017606A1 (zh) 视频处理方法、装置、电子设备及存储介质
WO2017213398A1 (en) Learning model for salient facial region detection
WO2019098414A1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
WO2017164478A1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
WO2011096651A2 (ko) 얼굴 식별 방법 및 그 장치
WO2020122432A1 (ko) 전자 장치 및 그의 3d 이미지 표시 방법
WO2022097927A1 (en) Method of live video event detection based on natural language queries, and an apparatus for the same
WO2019093599A1 (ko) 사용자 관심 정보 생성 장치 및 그 방법
WO2018131875A1 (en) Display apparatus and method for providing service thereof
WO2021101045A1 (en) Electronic apparatus and method for controlling thereof
WO2021100919A1 (ko) 행동 시퀀스 기반으로 이상행동 여부를 판단하는 방법, 프로그램 및 시스템
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
WO2023210914A1 (en) Method for knowledge distillation and model generation
CN110516707B (zh) 一种图像标注方法及其装置、存储介质
WO2020256517A2 (ko) 전방위 화상정보 기반의 자동위상 매핑 처리 방법 및 그 시스템
WO2021080033A1 (ko) 음성 분석 방법 및 장치
WO2023132428A1 (ko) 재순위화를 통한 객체 검색
WO2023158205A1 (ko) Ai 기반 객체인식을 통한 감시 카메라 영상의 노이즈 제거
WO2021085785A1 (en) Electronic apparatus and method for controlling thereof
WO2023080667A1 (ko) Ai 기반 객체인식을 통한 감시카메라 wdr 영상 처리
WO2022131793A1 (en) Method and apparatus for recognizing handwriting inputs in multiple-user environment
WO2022196929A1 (ko) 이미지에서 삭제할 객체를 추천하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
WO2024228482A1 (ko) 객체 재인식을 위한 신경망 모델의 적응적 업데이트

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22918965

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE