KR20220153667A - 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 - Google Patents
특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 Download PDFInfo
- Publication number
- KR20220153667A KR20220153667A KR1020227038225A KR20227038225A KR20220153667A KR 20220153667 A KR20220153667 A KR 20220153667A KR 1020227038225 A KR1020227038225 A KR 1020227038225A KR 20227038225 A KR20227038225 A KR 20227038225A KR 20220153667 A KR20220153667 A KR 20220153667A
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- pixel
- feature map
- level feature
- level
- Prior art date
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 57
- 238000004590 computer program Methods 0.000 title claims description 16
- 238000013507 mapping Methods 0.000 claims abstract description 87
- 230000011218 segmentation Effects 0.000 claims abstract description 76
- 238000002372 labelling Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims description 64
- 238000011176 pooling Methods 0.000 claims description 17
- 238000000926 separation method Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 인공 지능 분야, 구체적으로 컴퓨터 비전 및 딥 러닝 기술에 관한 것으로, 특징 추출 방법, 장치, 기기, 저장 매체 및 프로그램 제품을 제공한다. 상기 방법의 구체적인 실시형태는, 비디오 중 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득하되, T는 2보다 큰 양의 정수인 단계; 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻는 단계; 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻되, 스코어 맵의 각 점은 제T 프레임의 픽셀 레벨 특징 맵의 각 위치와 제T-1 프레임의 예측 타깃 분할 라벨링 이미지의 유사도를 특성화하는 단계를 포함한다. 상기 실시형태는 전후 프레임 사이의 정보가 더 잘 추출될 수 있도록 한다.
Description
관련 출원의 상호 참조
본 특허출원은 2021년 4월 13일 제출된 발명의 명칭이 "특징 추출 방법, 장치, 기기, 저장 매체 및 프로그램 제품"이고 출원번호가 202110396281.7인 중국특허출원의 우선권을 주장하는 바, 그 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 인공 지능 분야에 관한 것으로, 구체적으로 컴퓨터 비전 및 딥 러닝 기술에 관한 것이다.
VOS(Video Object Segmentation, 비디오 타깃 분할)는 컴퓨터 비전 분야의 하나의 기본 작업으로서, 증강 현실 및 자율 주행과 같은 많은 잠재적인 응용 장면을 갖는다. 반지도 비디오 타깃 분할은 비디오 시퀀스가 초기 마스크(Mask)만 있는 상황에서 특징을 추출하여, 타깃을 분할해야 한다. 현재 반지도 비디오 타깃 분할은 특징을 추출할 경우 일반적으로 비디오 중의 전후 프레임의 특징을 각각 추출한다.
본 발명의 실시예는 특징 추출 방법, 장치, 기기, 저장 매체 및 프로그램 제품을 제공한다.
제1 양태에 따르면, 본 발명의 실시예는 비디오 중 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득하되, T는 2보다 큰 양의 정수인 단계; 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻는 단계; 및 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻되, 스코어 맵의 각 점은 제T 프레임의 픽셀 레벨 특징 맵의 각 위치와 제T-1 프레임의 예측 타깃 분할 라벨링 이미지의 유사도를 특성화하는 단계를 포함하는 특징 추출 방법을 제시한다.
제2 양태에 따르면, 본 발명의 실시예는 비디오 중 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득하도록 구성되되, T는 2보다 큰 양의 정수인 획득 모듈; 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻도록 구성되는 매핑 모듈; 및 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻도록 구성되되, 스코어 맵의 각 점은 제T 프레임의 픽셀 레벨 특징 맵의 각 위치와 제T-1 프레임의 예측 타깃 분할 라벨링 이미지의 유사도를 특성화하는 콘볼루션 모듈을 포함하는 특징 추출 장치를 제시한다.
제3 양태에 따르면, 본 발명의 실시예는 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고; 여기서, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 명령은 적어도 하나의 프로세서에 의해 실행되어, 적어도 하나의 프로세서가 제1 양태 중 임의의 하나의 실시형태에 따른 방법을 수행할 수 있도록 하는 전자 기기를 제시한다.
제4 양태에 따르면, 본 발명의 실시예는 컴퓨터 명령이 저장되고, 컴퓨터 명령은 컴퓨터가 제1 양태 중 임의의 하나의 실시형태에 따른 방법을 수행하도록 하는 비일시적 컴퓨터 판독 가능 저장 매체를 제시한다.
제5 양태에 따르면, 본 발명의 실시예는 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1 양태 중 임의의 하나의 실시형태에 따른 방법을 구현하는 컴퓨터 프로그램 제품을 제시한다.
본 발명의 실시예에서 제공되는 특징 추출 방법은, 전 프레임의 특성을 결합하여 후 프레임의 특징을 추출함으로써, 전후 프레임 사이의 정보가 더 잘 추출될 수 있도록 한다.
본 부분에서 설명되는 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 나타내거나 본 발명의 범위를 한정하려는 것이 아님을 이해해야 할 것이다. 본 발명의 다른 특징은 아래의 명세서를 통해 쉽게 이해될 것이다.
아래 첨부 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 장점이 보다 명확해질 것이다. 도면은 본 방안을 더 잘 이해하기 위한 것이고, 본 발명을 한정하지 않는다. 여기서,
도 1은 본 발명이 적용될 수 있는 예시적인 시스템 아키텍처 다이어그램이다.
도 2는 본 발명에 따른 특징 추출 방법의 일 실시예의 흐름도이다.
도 3은 본 발명의 실시예의 특징 추출 방법을 구현할 수 있는 장면도이다.
도 4는 본 발명에 따른 특징 병합 방법의 일 실시예의 흐름도이다.
도 5는 본 발명에 따른 분할 예측 방법의 일 실시예의 흐름도이다.
도 6은 본 발명의 실시예의 분할 예측 방법을 구현할 수 있는 장면도이다.
도 7은 본 발명에 따른 특징 추출 장치의 일 실시예의 구조 모식도이다.
도 8은 본 발명의 실시예의 특징 추출 방법을 구현하기 위한 전자 기기의 블록도이다.
도 1은 본 발명이 적용될 수 있는 예시적인 시스템 아키텍처 다이어그램이다.
도 2는 본 발명에 따른 특징 추출 방법의 일 실시예의 흐름도이다.
도 3은 본 발명의 실시예의 특징 추출 방법을 구현할 수 있는 장면도이다.
도 4는 본 발명에 따른 특징 병합 방법의 일 실시예의 흐름도이다.
도 5는 본 발명에 따른 분할 예측 방법의 일 실시예의 흐름도이다.
도 6은 본 발명의 실시예의 분할 예측 방법을 구현할 수 있는 장면도이다.
도 7은 본 발명에 따른 특징 추출 장치의 일 실시예의 구조 모식도이다.
도 8은 본 발명의 실시예의 특징 추출 방법을 구현하기 위한 전자 기기의 블록도이다.
아래 도면과 결부시켜 본 발명의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 정신을 벗어나지 않으면서 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 수행할 수 있음을 이해해야 한다. 마찬가지로, 명료함과 간결함을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 첨부 도면을 참조하고 실시예를 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 특징 추출 방법 또는 특징 추출 장치가 적용될 수 있는 실시예의 예시적인 시스템 아키텍처(100)를 나타낸다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 비디오 수집 기기(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 비디오 수집 기기(101) 및 서버(103) 사이에서 통신 링크의 매체를 제공한다. 네트워크(102)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
비디오 수집 기기(101)는 네트워크(102)를 통해 서버(103)와 인터랙션함으로써, 이미지 등을 수신 또는 송신할 수 있다.
비디오 수집 기기(101)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 비디오 수집 기기(101)가 하드웨어인 경우, 카메라를 구비하는 다양한 전자 기기일 수 있다. 비디오 수집 기기(101)가 소프트웨어인 경우, 상기 전자 기기에 설치될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(103)는 다양한 서비스를 제공하는 서버일 수 있다. 예를 들면, 서버(103)는 비디오 수집 기기(101)로부터 획득한 비디오 스트림에 대해 분석 등 처리를 수행하고, 처리 결과(예를 들면 비디오 중 비디오 프레임의 스코어 맵)를 생성할 수 있다.
설명해야 할 것은, 서버(103)는 하드웨어 또는 소프트웨어일 수 있다. 서버(103)가 하드웨어인 경우 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(103)가 소프트웨어인 경우 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
설명해야 할 것은, 본 발명의 실시예가 제공하는 특징 추출 방법은 일반적으로 서버(103)에 의해 수행되고, 상응하게, 특징 추출 장치는 일반적으로 서버(103)에 설치된다.
이해해야 할 것은, 도 1 중의 비디오 수집 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이며, 실제 필요에 따라 임의의 개수의 비디오 수집 기기, 네트워크 및 서버를 구비할 수 있다.
계속하여 도 2를 참조하면, 이는 본 발명에 따른 특징 추출 방법의 일 실시예의 프로세스(200)를 나타낸다. 상기 특징 추출 방법은 하기 단계를 포함한다.
단계(201)에서, 비디오 중 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득한다.
본 실시예에서, 특징 추출 방법의 수행 주체(예를 들어 도 1에 도시된 바와 같은 서버(103))는 비디오 중 제T-1 프레임의 예측 분할 라벨링 이미지(Prediction T-1) 및 제T 프레임의 픽셀 레벨 특징 맵(Pixel-level Embedding)을 획득할 수 있다. 여기서, T는 2보다 큰 양의 정수이다.
일반적으로, 비디오 수집 기기는 이의 카메라 범위 내의 비디오를 수집할 수 있다. 타깃이 비디오 수집 기기의 카메라 범위 내에 나타날 경우, 수집된 비디오에 타깃이 존재한다. 여기서, 타깃은 사람, 동물, 식물, 건물, 물체 등을 포함하되 이에 한정되지 않는 현실 세계에 존재하는 모든 유형의 물체일 수 있다. 제T-1 프레임의 예측 분할 라벨링 이미지는 제T-1 프레임 중의 타깃을 분할하기 위한 예측된 라벨링 이미지일 수 있다. 예를 들어, 제T-1 프레임 중 타깃의 가장자리를 라벨링하여 생성되는 이미지이다. 또 예를 들어, 제T-1 프레임 중 타깃의 가장자리를 라벨링하여, 타깃에 속하는 픽셀 및 물체에 속하지 않는 픽셀을 각각 상이한 픽셀값으로 설정하여 생성되는 이미지이다. 제T 프레임의 픽셀 레벨 특징 맵은 특징 추출 네트워크를 사용하여 픽셀 레벨 특징 추출하여 얻은 것일 수 있고, 제T 프레임에 구비되는 픽셀 레벨 특징을 특성화한다.
설명해야 할 것은, 제T-1 프레임의 예측 분할 라벨링 이미지는 본 발명의 실시예에서 제공되는 분할 예측 방법을 이용하여 예측하여 얻은 것일 수 있고, 다른 VOS 네트워크를 이용하여 예측하여 얻은 것일 수도 있으며, 여기서는 구체적으로 한정하지 않는다. 제T 프레임의 픽셀 레벨 특징 맵을 추출하는 특징 추출 네트워크는 CFBI(Collaborative Video Object Segmentation by Foreground-Background Integration, 전경-배경 통합에 의한 협업 비디오 타깃 분할) 네트워크 중의 백본 네트워크(Backbone)일 수 있고, 다른 VOS 네트워크 중의 백본 네트워크일 수도 있으며, 여기서는 구체적으로 한정하지 않는다.
단계(202)에서, 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻을 수 있다. 여기서, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵은 동일한 특징 공간에 있다. 예를 들어, 127×127×3의 예측 분할 라벨링 이미지에 있어서, 특징 매핑 동작을 통해, 6×6×128의 매핑 특징 맵을 얻는다. 마찬가지로, 255×255×3의 픽셀 레벨 특징 맵에 있어서, 특징 매핑 동작을 통해, 22×22×128의 매핑 특징 맵을 얻는다.
본 실시예의 일부 선택 가능한 실시형태에서, 변환 행렬을 이용하여, 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 하나의 특징 공간에서 다른 특징 공간으로 매핑하면, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻을 수 있다. 여기서, 변환 행렬은 이미지를 선형 변환하여, 이미지를 하나의 공간에서 다른 공간으로 매핑할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 수행 주체는 CNN(Convolutional Neural Network, 콘볼루션 신경망) 중의 콘볼루션층 및 풀링층을 사용하여, 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 기설정된 특징 공간에 각각 매핑하면, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻을 수 있다. 여기서, 딥 러닝 방법을 이용하여 매핑하면, 이미지를 선형 변환할 수 있고, 이미지를 비선형 변환할 수도 있다. 상이한 콘볼루션층 및 풀링층을 설치하는 것을 통해, 이미지를 임의의 공간에 매핑할 수 있어, 유연성이 더 뛰어나다.
단계(203)에서, 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵(Score map)을 얻을 수 있다. 여기서, 스코어 맵의 각 점은 제T 프레임의 픽셀 레벨 특징 맵의 각 위치와 제T-1 프레임의 예측 분할 라벨링 이미지의 유사도를 특성화할 수 있다. 예를 들어, 22×22×128의 매핑 특징 맵은 6×6×128의 매핑 특징 맵의 콘볼루션 커널 6×6에 의해 콘볼루션되어, 17×17×1의 스코어 맵을 얻는다. 여기서, 17×17×1의 스코어 맵의 하나의 점은 255×255×3의 픽셀 레벨 특징 맵의 하나의 15×15×3의 영역과 127×127×3의 예측 분할 라벨링 이미지의 유사도를 특성화할 수 있다. 스코어 맵의 하나의 점은 픽셀 레벨 특징 맵의 하나의 15×15×3의 영역에 대응된다.
또한, 상기 수행 주체는 제T 프레임의 스코어 맵에 기반하여 제T 프레임의 유사도가 가장 높은 위치를 산출할 수 있고, 반대로 제T-1 프레임에서 타깃의 위치를 산출하여, 제T 프레임의 스코어 맵의 정확도를 검증한다.
본 발명의 실시예에서 제공되는 특징 추출 방법은, 먼저 비디오 중 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득하고; 다음 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻으며; 마지막으로 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻는다. 전 프레임의 특성을 결합하여 후 프레임의 특징을 추출함으로써, 전후 프레임 사이의 정보가 더 잘 추출될 수 있도록 한다. 또한, 후 프레임의 픽셀 레벨 특징 맵을 전체로 입력하여, 전후 프레임의 특징 맵의 유사도 매칭을 직접 산출함으로써, 계산 작업량을 줄였다.
이해를 돕기 위해, 도 3은 본 발명의 실시예의 특징 추출 방법을 구현할 수 있는 장면도를 나타낸다. 도 3에 도시된 바와 같이, z는 제T-1 프레임의 127×127×3의 예측 분할 라벨링 이미지를 대표한다. X는 제T 프레임의 255×255×3의 픽셀 레벨 특징 맵을 대표한다. φ는 원래 이미지를 특정한 특징 공간에 매핑하는 특징 매핑 동작을 대표하고, 여기서는 CNN 중의 콘볼루션층 및 풀링층을 사용한다. Z는 φ를 통해, 6×6×128의 매핑 특징 맵을 얻는다. 마찬가지로, x는 φ를 통해, 22×22×128의 매핑 특징 맵을 얻는다. *는 콘볼루션 동작을 대표하고, 22×22×128의 매핑 특징 맵은 6×6×128의 매핑 특징 맵의 콘볼루션 커널 6×6에 의해 콘볼루션되어, 17×17×1의 스코어 맵을 얻는다. 17×17×1의 스코어 맵의 하나의 점은 255×255×3의 픽셀 레벨 특징 맵의 하나의 15×15×3의 영역과 127×127×3의 예측 분할 라벨링 이미지의 유사도를 특성화할 수 있다. 스코어 맵의 하나의 점은 픽셀 레벨 특징 맵의 하나의 15×15×3의 영역에 대응된다.
도 4를 더 참조하면, 본 발명에 따른 특징 병합 방법의 일 실시예의 프로세스(400)를 나타낸다. 상기 특징 병합 방법은 하기 단계를 포함한다.
단계(401)에서, 비디오 중 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득한다.
단계(402)에서, 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻는다.
단계(403), 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻는다.
본 실시예에서, 단계(401)-단계(403)의 구체적인 동작은 이미 도 2에 도시된 실시예의 단계(201)-단계(203)에서 상세하게 설명하였고, 여기서 더 이상 설명하지 않는다.
단계(404)에서, 비디오 중 참조 프레임의 픽셀 레벨 특징 맵을 획득하고, 제T 프레임의 픽셀 레벨 특징 맵과 참조 프레임의 픽셀 레벨 특징 맵을 매칭하여, 제T 프레임의 제1 매칭 특징 맵을 얻는다.
본 실시예에서, 특징 추출 방법의 수행 주체(예를 들어 도 1에 도시된 바와 같은 서버(103))는 비디오 중 참조 프레임의 픽셀 레벨 특징 맵을 획득하고, 제T 프레임의 픽셀 레벨 특징 맵과 참조 프레임의 픽셀 레벨 특징 맵을 매칭하여, 제T 프레임의 제1 매칭 특징 맵을 얻을 수 있다. 여기서, 참조 프레임에는 분할 라벨링 이미지가 구비되고, 일반적으로 비디오 중의 제1 프레임이다. 참조 프레임 중의 타깃을 분할 라벨링하면, 참조 프레임의 분할 라벨링 이미지를 얻을 수 있다. 여기서 분할 라벨링은 일반적으로 인공 분할 라벨링이다.
일반적으로, FEELVOS(Fast End-to-End Embedding Learning for Video Object Segmentation, 비디오 타깃 분할을 위한 신속한 종단 간 임베딩 러닝) 네트워크에 적용될 경우, 상기 수행 주체는 제T 프레임의 픽셀 레벨 특징 맵과 참조 프레임의 픽셀 레벨 특징 맵을 직접 매칭할 수 있다. CFBI 네트워크에 적용될 경우, 상기 수행 주체는 먼저 참조 프레임의 픽셀 레벨 특징 맵을 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵으로 분리한 다음, 제T 프레임의 픽셀 레벨 특징 맵과 매칭할 수도 있다. 여기서, 전경은 화면에서 타깃 앞에 위치하는, 카메라에 가까운 물체를 가리킨다. 배경은 화면에서 타깃 뒤에 위치하는, 카메라에서 떨어진 물체를 가리킨다. 제1 매칭 특징 맵은 픽셀 레벨 특징 맵에 속하고, 이의 각 점은 제T 프레임의 픽셀 레벨 특징 맵과 참조 프레임의 픽셀 레벨 특징 맵이 각 점에서의 매칭도를 특성화할 수 있다.
설명해야 할 것은, 참조 프레임의 픽셀 레벨 특징 맵의 획득 방식은 도 2에 도시된 실시예 중의 제T 프레임의 픽셀 레벨 특징 맵의 획득 방식을 참조할 수 있고, 여기서 더 이상 설명하지 않는다.
단계(405)에서, 제T-1 프레임의 픽셀 레벨 특징 맵을 획득하고, 제T 프레임의 픽셀 레벨 특징 맵과 제T-1 프레임의 픽셀 레벨 특징 맵을 매칭하여, 제T 프레임의 제2 매칭 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T-1 프레임의 픽셀 레벨 특징 맵을 획득하고, 제T 프레임의 픽셀 레벨 특징 맵과 제T-1 프레임의 픽셀 레벨 특징 맵을 매칭하여, 제T 프레임의 제2 매칭 특징 맵을 얻을 수 있다.
일반적으로, 상기 수행 주체는 제T 프레임의 픽셀 레벨 특징 맵과 제T-1 프레임의 픽셀 레벨 특징 맵을 직접 매칭할 수 있고, 먼저 제T-1 프레임의 픽셀 레벨 특징 맵을 제T-1 프레임의 전경 픽셀 레벨 특징 맵(Pixel-level FG) 및 배경 픽셀 레벨 특징 맵(Pixel-level BG)으로 분리한 다음, 제T 프레임의 픽셀 레벨 특징 맵과 매칭할 수도 있다. 제2 매칭 특징 맵은 픽셀 레벨 특징 맵에 속하고, 이의 각 점은 제T 프레임의 픽셀 레벨 특징 맵과 제T-1 프레임의 픽셀 레벨 특징 맵이 각 점에서의 매칭도를 특성화할 수 있다.
설명해야 할 것은, 제T-1 프레임의 픽셀 레벨 특징 맵의 획득 방식은 도 2에 도시된 실시예 중의 제T 프레임의 픽셀 레벨 특징 맵의 획득 방식을 참조할 수 있고, 여기서 더 이상 설명하지 않는다.
단계(406)에서, 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵을 병합하여, 병합 픽셀 레벨 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵을 병합하여, 병합 픽셀 레벨 특징 맵을 얻을 수 있다. 예를 들어, 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵에 대해 연결(concat) 동작을 수행하면, 병합 픽셀 레벨 특징 맵을 얻을 수 있다.
설명해야 할 것은, 단계(401)-단계(403), 단계(404) 및 단계(405) 세 부분은 동시에 수행될 수 있고, 어떤 부분이 다른 부분보다 먼저 수행될 수도 있으며, 여기서는 수행 순서에 대해 한정하지 않는다.
본 발명의 실시예에서 제공되는 특징 병합 방법은, 전 프레임의 특성을 결합하여 후 프레임의 특징을 추출함으로써, 전후 프레임 사이의 정보가 더 잘 추출될 수 있도록 한다. 참조 프레임 및 전 프레임에 각각 기반하여 특징 매칭을 함으로써, 네트워크 구조가 간단하고 신속하며, 후 프레임의 매칭 특징을 신속하게 얻을 수 있어, 특징 매칭 작업량을 줄인다. 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵을 병합하여, 병합 픽셀 레벨 특징 맵을 얻음으로써, 병합 픽셀 레벨 특징 맵이 전후 프레임의 특성을 충분히 고려하도록 하고, 정보 내용이 더 풍부하며, 더 많은 분할 타깃에 필요한 정보를 포함한다.
도 5를 더 참조하면, 이는 본 발명에 따른 분할 예측 방법의 일 실시예의 프로세스(500)를 나타낸다. 상기 분할 예측 방법은 하기 단계를 포함한다.
단계(501)에서, 비디오 중 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득한다.
단계(502)에서, 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻는다.
단계(503)에서, 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻는다.
본 실시예에서, 단계(501)-단계(503)의 구체적 동작은 이미 도 4에 도시된 실시예 중 단계(401)-단계(403)에서 상세하게 설명하였고, 여기서 더 이상 설명하지 않는다.
단계(504), 참조 프레임의 분할 라벨링 이미지를 다운샘플링하여, 참조 프레임의 마스크를 얻는다.
본 실시예에서, 특징 추출 방법의 수행 주체(예를 들어 도 1에 도시된 바와 같은 서버(103))는 참조 프레임의 분할 라벨링 이미지(Groundtruth)를 다운샘플링(Downsample)하여, 참조 프레임의 마스크를 얻을 수 있다.
여기서, 참조 프레임의 분할 라벨링 이미지는 참조 프레임 중 타깃의 가장자리를 라벨링하여, 타깃에 속하는 픽셀 및 물체에 속하지 않는 픽셀을 각각 상이한 픽셀값으로 설정하여 생성되는 이미지일 수 있다. 예를 들어, 타깃에 속하는 픽셀을 1로 설정하고, 물체에 속하지 않는 픽셀을 0으로 설정한다. 또 예를 들어, 타깃에 속하는 픽셀을 0으로 설정하고, 물체에 속하지 않는 픽셀을 1로 설정한다. 다운샘플링, 즉 이미지 축소의 주요 목적은, 이미지가 디스플레이 영역의 크기에 부합되도록 하고; 이미지에 대응되는 축약도를 생성하는 것이다. 다운샘플링의 원리는, 사이즈가 M*N인 이미지에 있어서, 이미지의 s*s 창 내부 영역을 하나의 픽셀로 변환하고(일반적으로 픽셀점의 값이 창 내부의 모든 픽셀의 평균값임), 즉 (M/s)*(N/s) 사이즈의 이미지를 얻는다. 여기서, M, N, s는 양의 정수이고, s는 M 및 N의 공약수이다. 참조 프레임의 마스크는 참조 프레임의 픽셀 레벨 특징 맵으로부터 관심 영역을 추출할 수 있다. 예를 들어, 참조 프레임의 마스크와 참조 프레임의 픽셀 레벨 특징 맵을 연산하면, 관심 영역 이미지를 얻을 수 있다. 여기서, 관심 영역 이미지는 전경 또는 배경 중 하나만 포함한다.
단계(505)에서, 참조 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 참조 프레임의 픽셀 레벨 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 참조 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 참조 프레임의 픽셀 레벨 특징 맵을 얻을 수 있다. 여기서, 참조 프레임을 CFBI 네트워크 중의 백본 네트워크에 입력하여 픽셀 레벨 특징을 추출하면, 참조 프레임의 픽셀 레벨 특징 맵을 얻을 수 있다.
단계(506)에서, 참조 프레임의 마스크를 이용하여 참조 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 참조 프레임의 마스크를 이용하여 참조 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여(Pixel Separation), 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻을 수 있다.
예를 들어, 전경 픽셀이 1이고, 배경 픽셀이 0인 마스크에 있어서, 이와 픽셀 레벨 특징 맵을 연산하여, 전경 픽셀 레벨 특징 맵을 얻는다. 전경 픽셀이 0이고, 배경 픽셀이 1인 마스크에 있어서, 이와 픽셀 레벨 특징 맵을 연산하여, 배경 픽셀 레벨 특징 맵을 얻는다.
단계(507)에서, 제T 프레임의 픽셀 레벨 특징 맵을 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 전역 매칭을 수행하여, 제T 프레임의 제1 매칭 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T 프레임의 픽셀 레벨 특징 맵을 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 전역 매칭을 수행하여(F-G Global Matching), 제T 프레임의 제1 매칭 특징 맵을 얻을 수 있다.
일반적으로, 참조 프레임의 픽셀과 매칭할 경우, 제T 프레임의 전체 평면에서 매칭 검색을 수행한다. 구체적으로, 제T 프레임의 픽셀 레벨 특징 맵을 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 각각 전역 매칭을 한다.
단계(508)에서, 제T-1 프레임의 예측 분할 라벨링 이미지를 다운샘플링하여, 제T-1 프레임의 마스크를 얻는다.
본 실시예에서, 상기 수행 주체는 제T-1 프레임의 예측 분할 라벨링 이미지를 다운샘플링하여, 제T-1 프레임의 마스크를 얻을 수 있다.
여기서, 제T-1 프레임의 분할 라벨링 이미지는 제T-1 프레임 중 타깃의 가장자리를 라벨링하여, 타깃에 속하는 픽셀 및 물체에 속하지 않는 픽셀을 각각 상이한 픽셀값으로 설정하여 생성되는 이미지일 수 있다. 예를 들어, 타깃에 속하는 픽셀을 1로 설정하고, 물체에 속하지 않는 픽셀을 0으로 설정한다. 또 예를 들어, 타깃에 속하는 픽셀을 0으로 설정하고, 물체에 속하지 않는 픽셀을 1로 설정한다. 제T-1 프레임의 마스크는 제T-1 프레임의 픽셀 레벨 특징 맵으로부터 관심 영역을 추출할 수 있다. 예를 들어, 제T-1 프레임의 마스크와 제T-1 프레임의 픽셀 레벨 특징 맵을 연산하면, 관심 영역 이미지를 얻을 수 있다. 여기서, 관심 영역 이미지는 전경 또는 배경 중 하나만 포함한다.
단계(509)에서, 제T-1 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 제T-1 프레임의 픽셀 레벨 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T-1 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 제T-1 프레임의 픽셀 레벨 특징 맵을 얻을 수 있다. 여기서, 제T-1 프레임을 CFBI 네트워크 중의 백본 네트워크에 입력하여 픽셀 레벨 특징을 추출하면, 제T-1 프레임의 픽셀 레벨 특징 맵을 얻을 수 있다.
단계(510)에서, 제T-1 프레임의 마스크를 이용하여 제T-1 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T-1 프레임의 마스크를 이용하여 제T-1 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻을 수 있다.
예를 들어, 전경 픽셀이 1이고, 배경 픽셀이 0인 마스크에 있어서, 이와 픽셀 레벨 특징 맵을 연산하면, 전경 픽셀 레벨 특징 맵을 얻는다. 전경 픽셀이 0이고, 배경 픽셀이 1인 마스크에 있어서, 이와 픽셀 레벨 특징 맵을 연산하면, 배경 픽셀 레벨 특징 맵을 얻는다.
단계(511)에서, 제T 프레임의 픽셀 레벨 특징 맵을 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 다중 로컬 매칭을 수행하여, 제T 프레임의 제2 매칭 특징 맵을 얻는다.
본 실시예에서, 상기 수행 주체는 제T 프레임의 픽셀 레벨 특징 맵을 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 다중 로컬 매칭을 수행하여(F-G Multi-Local Matching), 제T 프레임의 제2 매칭 특징 맵을 얻을 수 있다.
일반적으로, 제T-1 프레임의 픽셀과 매칭할 경우, 프레임 간의 운동 범위가 제한되어 있으므로, 제T-1 프레임 픽셀의 영역 내에서 매칭 검색을 수행한다. 상이한 비디오는 종종 상이한 운동 속도를 구비하므로, 여러 창(영역)의 매칭 형식을 사용하여, 네트워크가 상이한 운동 속도의 물체를 처리할 경우 더 견고하도록 한다. 구체적으로, 제T 프레임의 픽셀 레벨 특징 맵을 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 각각 다중 로컬 매칭한다. 여기서, 다중 로컬 매칭은 작은 창에서 큰 창으로 여러 창을 설정하고, 하나의 창에서 한 번의 부분 매칭을 한다.
단계(512)에서, 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵을 병합하여, 병합 픽셀 레벨 특징 맵을 얻는다.
본 실시예에서, 단계(512)의 구체적 동작은 이미 도 4에 도시된 실시예 중 단계(406)에서 상세하게 설명하였고, 여기서 더 이상 설명하지 않는다.
단계(513)에서, 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 참조 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻는다.
본 실시예에서, 상기 수행 주체는 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 참조 프레임의 전경 인스턴스 레벨 특징 벡터(Instance-level FG) 및 배경 인스턴스 레벨 특징 벡터(Instance-level BG)를 얻을 수 있다.
일반적으로, 전경 픽셀 특징 맵 및 배경 픽셀 특징 맵을 특징 채널에서 전역 풀링하고, 픽셀 스케일 특징 맵을 인스턴스 스케일 풀링 벡터로 전환한다. 풀링 벡터는 주의력 메커니즘에 기반하여, CFBI 네트워크의 협업 적분기(Collaborative Ensembler) 중의 특징 채널을 조절한다. 이로써, 네트워크는 인스턴스 스케일 정보를 더 잘 획득할 수 있다.
단계(514)에서, 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻는다.
본 실시예에서, 상기 수행 주체는 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻을 수 있다.
일반적으로, 전경 픽셀 특징 맵 및 배경 픽셀 특징 맵을 특징 채널에서 전역 풀링하고, 픽셀 스케일 특징 맵을 인스턴스 스케일 풀링 벡터로 전환한다. 풀링 벡터는 주의력 메커니즘에 기반하여, CFBI 네트워크의 협업 적분기 중의 특징 채널을 조절한다. 이로써, 네트워크는 인스턴스 스케일 정보를 더 잘 획득할 수 있다.
단계(515)에서, 참조 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터, 및 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터를 병합하여, 병합 인스턴스 레벨 특징 벡터를 얻는다.
본 실시예에서, 상기 수행 주체는 참조 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터, 및 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터를 병합하여, 병합 인스턴스 레벨 특징 벡터를 얻을 수 있다. 예를 들어, 참조 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터, 및 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터에 대해 연결 동작을 수행하면, 병합 인스턴스 레벨 특징 맵을 얻을 수 있다.
단계(516)에서, 제T 프레임의 로우 레벨 픽셀 레벨 특징 맵, 병합 픽셀 레벨 특징 벡터 및 병합 인스턴스 레벨 특징 벡터를 협업 적분기에 입력하여, 제T 프레임의 예측 분할 라벨링 이미지를 얻는다.
본 실시예에서, 상기 수행 주체는 제T 프레임의 로우 레벨 픽셀 레벨 특징 맵(low-level-feature), 병합 픽셀 레벨 특징 벡터 및 인스턴스 레벨 특징 벡터를 협업 적분기에 입력하여, 제T 프레임의 예측 분할 라벨링 이미지(Prediction T)를 얻을 수 있다. 제T 프레임의 예측 분할 라벨링 이미지에 기반하여 제T 프레임을 분할하면, 제T 프레임 중의 타깃을 얻을 수 있다.
학습된 전경과 배경의 픽셀 레벨 및 인스턴스 레벨의 정보를 암묵적으로 집계하기 위해, 협업 적분기를 사용하여 비교적 큰 수용 필드를 구축하여, 정확한 예측을 구현한다.
본 발명의 실시예에서 제공되는 분할 예측 방법은, 전경 픽셀로부터 임베딩 러닝할 뿐만 아니라, 배경 픽셀로부터 임베딩 러닝하여 협업하고, 전경과 배경의 특징의 대비를 형성하여, 배경 혼란을 완화함으로써, 분할 예측 결과의 정확도를 향상한다. 전경 픽셀 및 배경 픽셀의 협업 하에, 나아가 픽셀 레벨 및 인스턴스 레벨로부터 임베딩 매칭한다. 픽셀 레벨 매칭에 있어서, 다양한 타깃 이동 속도에서 로컬 매칭의 견고성을 향상한다. 인스턴스 레벨 매칭에 있어서, 하나의 주의력 메커니즘을 설계하여, 픽셀 레벨 매칭을 효과적으로 강화한다. CFBI 네트워크의 기초상에서 트랙 네트워크의 사상을 추가하여, 전후 프레임 사이의정보가 더 잘 추출될 수 있도록 한다. CFBI 네트워크에 한 층의 지도 신호를 더 추가하는 것에 해당되고, 추출된 특징은 모델이 필요로 하는 것을 더 잘 대표하여, 네트워크 분할 효과를 향상한다.
설명해야 할 것은, 특징 추출 방법은 CFBI 네트워크에 사용될 수 있을 뿐만 아니라, 다른 VOS 네트워크에 사용될 수도 있고, 네트워크에 임베딩되는 위치는 실제 상황에 따라 대응되게 조절할 수 있다.
이해를 돕기 위해, 도 6은 본 발명의 실시예의 분할 예측 방법을 구현할 수 있는 장면도를 나타낸다. 도 6에 도시된 바와 같이, 비디오 중의 제1 프레임, 제T-1 프레임 및 제T 프레임을 CFBI 네트워크 중의 Backbone에 입력하여, 제1 프레임, 제T-1 프레임 및 제T 프레임의 Pixel-level Embedding을 얻고, 제1 프레임의 Groundtruth 및 제T-1 프레임의 Prediction T-1을 Downsample하여, 제1 프레임 및 제T-1 프레임의 Mask를 얻는다. 제T-1 프레임의 Prediction T-1의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 Pixel-level Embedding의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 Score map을 얻는다. 제1 프레임의 Mask를 이용하여 제1 프레임의 Pixel-level Embedding을 Pixel Separation하여, 제1 프레임의 Pixel-level FG 및 Pixel-level BG를 얻는다. 제T 프레임의 Pixel-level Embedding을 제1 프레임의 Pixel-level FG 및 Pixel-level BG와 F-G Global Matching하여, 제T 프레임의 제1 매칭 특징 맵을 얻는다. 제T-1 프레임의 Mask를 이용하여 제T-1 프레임의 Pixel-level Embedding을 Pixel Separation하여, 제T-1 프레임의 Pixel-level FG 및 Pixel-level BG를 얻는다. 제T 프레임의 Pixel-level Embedding을 제T-1 프레임의 Pixel-level FG 및 Pixel-level BG와 F-G Multi-Local Matching하여, 제T 프레임의 제2 매칭 특징 맵을 얻는다. 제1 프레임 및 제T-1 프레임의 Pixel-level FG 및 Pixel-level BG를 특징 채널에서 전역 풀링하여, 제1 프레임 및 제T-1 프레임의 Instance-level FG 및 Instance-level BG를 얻는다. 제T 프레임의 Score map, 제1 매칭 특징 맵 및 제2 매칭 특징 맵에 대해 concat 동작을 수행한다. 동시에 제1 프레임 및 제T-1 프레임의 Instance-level FG 및 Instance-level BG에 대해 concat 동작을 수행한다. 병합 특징과 제T 프레임의 low-level-feature을 Collaborative Ensembler에 함께 입력하면, 제T 프레임의 Prediction T를 얻을 수 있다.
도 7을 더 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 발명은 특징 추출 장치의 일 실시예를 제공하고, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되며, 상기 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.
도 7에 도시된 바와 같이, 본 실시예의 특징 추출 장치(700)는 획득 모듈(701), 매핑 모듈(702) 및 콘볼루션 모듈(703)을 포함할 수 있다. 여기서, 획득 모듈(701)은, 비디오 중 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 회득하도록 구성되되, T는 2보다 큰 양의 정수이고; 매핑 모듈(702)은, 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 제T-1 프레임의 매핑 특징 맵 및 제T 프레임의 매핑 특징 맵을 얻도록 구성되며; 콘볼루션 모듈(703)은, 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 제T 프레임의 스코어 맵을 얻도록 구성되되, 스코어 맵의 각 점은 제T 프레임의 픽셀 레벨 특징 맵의 각 위치와 제T-1 프레임의 예측 분할 라벨링 이미지의 유사도를 특성화한다.
본 실시예에서, 특징 추출 장치(700) 중 획득 모듈(701), 매핑 모듈(702) 및 콘볼루션 모듈(703)의 구체적 처리 및 이에 따른 기술적 효과는 도 2에 대응되는 실시예 중의 단계(201)-단계(203)의 관련 설명을 각각 참조할 수 있고, 여기서 더 이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 실시형태에서, 매핑 모듈(702)은 또한, 콘볼루션 신경망 중의 콘볼루션층 및 풀링층을 사용하여, 제T-1 프레임의 예측 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 각각 기설정된 특징 공간에 매핑하도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, 특징 추출 장치(700)는, 비디오 중 참조 프레임의 픽셀 레벨 특징 맵을 획득하고, 제T 프레임의 픽셀 레벨 특징 맵과 참조 프레임의 픽셀 레벨 특징 맵을 매칭하여, 제T 프레임의 제1 매칭 특징 맵을 얻도록 구성되되, 참조 프레임에는 분할 라벨링 이미지가 구비되는 제1 매칭 모듈; 제T-1 프레임의 픽셀 레벨 특징 맵을 획득하고, 제T 프레임의 픽셀 레벨 특징 맵과 제T-1 프레임의 픽셀 레벨 특징 맵을 매칭하여, 제T 프레임의 제2 매칭 특징 맵을 얻도록 구성되는 제2 매칭 모듈; 및 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵을 병합하여, 병합 픽셀 레벨 특징 맵을 얻도록 구성되는 제1 병합 모듈을 더 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 제1 매칭 모듈은 또한, 참조 프레임의 분할 라벨링 이미지를 다운샘플링하여, 참조 프레임의 마스크를 얻고; 참조 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 참조 프레임의 픽셀 레벨 특징 맵을 얻으며; 참조 프레임의 마스크를 이용하여 참조 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻고; 제T 프레임의 픽셀 레벨 특징 맵을 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 전역 매칭을 수행하여, 제T 프레임의 제1 매칭 특징 맵을 얻도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, 제2 매칭 모듈은 또한, 제T-1 프레임의 예측 분할 라벨링 이미지를 다운샘플링하여, 제T-1 프레임의 마스크를 얻고; 제T-1 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 제T-1 프레임의 픽셀 레벨 특징 맵을 얻으며; 제T-1 프레임의 마스크를 이용하여 제T-1 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻고; 제T 프레임의 픽셀 레벨 특징 맵을 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 다중 로컬 매칭을 수행하여, 제T 프레임의 제2 매칭 특징 맵을 얻도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, 특징 추출 장치(700)는, 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 참조 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻도록 구성되는 제1 풀링 모듈; 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵 특징 채널에서 전역 풀링하여, 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻도록 구성되는 제2 풀링 모듈; 및 참조 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터, 및 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터를 병합하여, 병합 인스턴스 레벨 특징 벡터를 얻도록 구성되는 제2 병합 모듈을 더 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 특징 추출 장치(700)는, 제T 프레임의 로우 레벨 픽셀 레벨 특징 맵, 병합 픽셀 레벨 특징 벡터 및 병합 인스턴스 레벨 특징 벡터를 협업 적분기에 입력하여, 제T 프레임의 예측 분할 라벨링 이미지를 얻도록 구성되는 예측 모듈을 더 포함한다. ,
본 발명의 기술적 해결수단에서, 사용자의 개인정보 획득, 저장 및 응용 등은 관련 법령의 규정을 준수하고 공서양속에 위배되지 않는다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 더 제공한다.
도 8은 본 발명의 실시예를 수행할 수 있는 예시적 전자 기기(800)의 예시적 블록도를 나타낸다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 발명의 구현을 한정하려는 의도가 아니다.
도 8에 도시된 바와 같이, 기기(800)는 판독 전용 메모리(ROM)(802)에 저장된 컴퓨터 프로그램 또는 저장 유닛(808)으로부터 랜덤 액세스 메모리(RAM)(803)에 로딩된 컴퓨터 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 컴퓨팅 유닛(801)을 포함한다. RAM(803)에는, 기기(800)의 동작에 필요한 다양한 프로그램 및 데이터가 저장될 수 있다. 컴퓨팅 유닛(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(805) 역시 버스(804)에 연결된다.
키보드, 마우스 등과 같은 입력 유닛(806); 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(807); 자기 디스크, 광 디스크 등과 같은 저장 유닛(808); 및 랜 카드, 모뎀, 무선 통신 트랜시버 등과 같은 통신 유닛(809)을 포함하는 기기(800) 중의 복수의 부재는 I/O 인터페이스(805)에 연결된다. 통신 유닛(809)은 기기(800)가 인터넷과 같은 컴퓨터 네트위크 및/또는 다양한 전신망을 통해 다른 기기와 정보/데이터를 교환하도록 허용한다.
컴퓨팅 유닛(801)은 처리 및 컴퓨팅 기능을 갖는 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(801)의 일부 예시는 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 다양한 전용 인공 지능(AI) 컴퓨팅 칩, 다양한 기계 학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만 이에 한정되지 않는다. 컴퓨팅 유닛(801)은 특징 추출 방법과 같은, 위에서 설명된 각 방법 및 처리를 수행한다. 예를 들어, 일부 실시예에서, 특징 추출 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 이는 기계 판독 가능 매체, 예를 들어 저장 유닛(808)에 물리적으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및/또는 통신 유닛(809)에 의해 기기(800)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(803)에 로딩되고 컴퓨팅 유닛(801)에 의해 실행될 경우, 위에서 설명되는 특징 추출 방법 중 하나 이상의 단계를 수행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(801)은 다른 임의의 적절한 방식을 통해(예를 들어, 펌웨어를 이용) 특징 추출 방법을 수행하도록 구성될 수 있다.
본문에서 이상 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그램 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩의 시스템(SOC), 복합 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 구현하는 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공될 수 있으며, 프로그램 코드는 프로세서 또는 컨트롤러에 의해 실행될 경우, 흐름도 및/또는 블록도에 지정된 기능/동작이 수행되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 부분적으로 기계에서 실행되며, 일부는 원격 기계에서 실행되거나 완전히 원격 기계 또는 서버에서 실행될 수 있다.
본 발명의 컨텍스트에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예는 하나 이상의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, CD-ROM, 광학 저장 기기, 자기 저장 기기 또는 상술한 내용의 임의의 적절한 조합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 적용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN), 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 분산형 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.
위에서 설명한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가적 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.
Claims (17)
- 특징 추출 방법으로서,
비디오 중 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득하되, T는 2보다 큰 양의 정수인 단계;
상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 상기 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 상기 제T-1 프레임의 매핑 특징 맵 및 상기 제T 프레임의 매핑 특징 맵을 얻는 단계; 및
상기 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 상기 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 상기 제T 프레임의 스코어 맵을 얻되, 상기 스코어 맵의 각 점은 상기 제T 프레임의 픽셀 레벨 특징 맵의 각 위치와 상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지의 유사도를 특성화하는 단계를 포함하는 특징 추출 방법. - 제1항에 있어서,
상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 상기 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하는 단계는,
콘볼루션 신경망 중의 콘볼루션층 및 풀링층을 사용하여, 상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 상기 제T 프레임의 픽셀 레벨 특징 맵을 각각 기설정된 특징 공간에 매핑하는 단계를 포함하는 특징 추출 방법. - 제1항 또는 제2항에 있어서,
상기 방법은,
상기 비디오 중 참조 프레임의 픽셀 레벨 특징 맵을 획득하고, 상기 제T 프레임의 픽셀 레벨 특징 맵과 상기 참조 프레임의 픽셀 레벨 특징 맵을 매칭하여, 상기 제T 프레임의 제1 매칭 특징 맵을 얻되, 상기 참조 프레임에는 타깃 분할 라벨링 이미지가 구비되는 단계;
상기 제T-1 프레임의 픽셀 레벨 특징 맵을 획득하고, 상기 제T 프레임의 픽셀 레벨 특징 맵과 상기 제T-1 프레임의 픽셀 레벨 특징 맵을 매칭하여, 상기 제T 프레임의 제2 매칭 특징 맵을 얻는 단계; 및
상기 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵을 병합하여, 병합 픽셀 레벨 특징 맵을 얻는 단계를 더 포함하는 특징 추출 방법. - 제3항에 있어서,
상기 비디오 중 참조 프레임의 픽셀 레벨 특징 맵을 획득하고, 상기 제T 프레임의 픽셀 레벨 특징 맵과 상기 참조 프레임의 픽셀 레벨 특징 맵을 매칭하여, 상기 제T 프레임의 제1 매칭 특징 맵을 얻는 단계는,
상기 참조 프레임의 타깃 분할 라벨링 이미지를 다운샘플링하여, 상기 참조 프레임의 마스크를 얻는 단계;
상기 참조 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 상기 참조 프레임의 픽셀 레벨 특징 맵을 얻는 단계;
상기 참조 프레임의 마스크를 이용하여 상기 참조 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 상기 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻는 단계; 및
상기 제T 프레임의 픽셀 레벨 특징 맵을 상기 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 전역 매칭을 수행하여, 상기 제T 프레임의 제1 매칭 특징 맵을 얻는 단계를 포함하는 특징 추출 방법. - 제4항에 있어서,
상기 제T-1 프레임의 픽셀 레벨 특징 맵을 획득하고, 상기 제T 프레임의 픽셀 레벨 특징 맵과 상기 제T-1 프레임의 픽셀 레벨 특징 맵을 매칭하여, 상기 제T 프레임의 제2 매칭 특징 맵을 얻는 단계는,
상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지를 다운샘플링하여, 상기 제T-1 프레임의 마스크를 얻는 단계;
상기 제T-1 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 상기 제T-1 프레임의 픽셀 레벨 특징 맵을 얻는 단계;
상기 제T-1 프레임의 마스크를 이용하여 상기 제T-1 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 상기 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻는 단계; 및
상기 제T 프레임의 픽셀 레벨 특징 맵을 상기 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 다중 로컬 매칭을 수행하여, 상기 제T 프레임의 제2 매칭 특징 맵을 얻는 단계를 포함하는 특징 추출 방법. - 제5항에 있어서,
상기 방법은,
상기 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 상기 참조 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻는 단계;
상기 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 상기 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻는 단계; 및
상기 참조 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터, 및 상기 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터를 병합하여, 병합 인스턴스 레벨 특징 벡터를 얻는 단계를 더 포함하는 특징 추출 방법. - 제6항에 있어서,
상기 방법은,
상기 제T 프레임의 로우 레벨 픽셀 레벨 특징 맵, 상기 병합 픽셀 레벨 특징 벡터 및 상기 병합 인스턴스 레벨 특징 벡터를 협업 적분기에 입력하여, 상기 제T 프레임의 예측 타깃 분할 라벨링 이미지를 얻는 단계를 더 포함하는 특징 추출 방법. - 특징 추출 장치로서,
비디오 중 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 제T 프레임의 픽셀 레벨 특징 맵을 획득하도록 구성되되, T는 2보다 큰 양의 정수인 획득 모듈;
상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 상기 제T 프레임의 픽셀 레벨 특징 맵에 대해 각각 특징 매핑을 수행하여, 상기 제T-1 프레임의 매핑 특징 맵 및 상기 제T 프레임의 매핑 특징 맵을 얻도록 구성되는 매핑 모듈; 및
상기 제T-1 프레임의 매핑 특징 맵의 콘볼루션 커널을 이용하여 상기 제T 프레임의 매핑 특징 맵을 콘볼루션하여, 상기 제T 프레임의 스코어 맵을 얻도록 구성되되, 상기 스코어 맵의 각 점은 상기 제T 프레임의 픽셀 레벨 특징 맵의 각 위치와 상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지의 유사도를 특성화하는 콘볼루션 모듈을 포함하는 특징 추출 장치. - 제8항에 있어서,
상기 매핑 모듈은 또한,
콘볼루션 신경망 중의 콘볼루션층 및 풀링층을 사용하여, 상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지 및 상기 제T 프레임의 픽셀 레벨 특징 맵을 각각 기설정된 특징 공간에 매핑하도록 구성되는 특징 추출 장치. - 제8항 또는 제9항에 있어서,
상기 장치는,
상기 비디오 중 참조 프레임의 픽셀 레벨 특징 맵을 획득하고, 상기 제T 프레임의 픽셀 레벨 특징 맵과 상기 참조 프레임의 픽셀 레벨 특징 맵을 매칭하여, 상기 제T 프레임의 제1 매칭 특징 맵을 얻도록 구성되되, 상기 참조 프레임에는 타깃 분할 라벨링 이미지가 구비되는 제1 매칭 모듈;
상기 제T-1 프레임의 픽셀 레벨 특징 맵을 획득하고, 상기 제T 프레임의 픽셀 레벨 특징 맵과 상기 제T-1 프레임의 픽셀 레벨 특징 맵을 매칭하여, 상기 제T 프레임의 제2 매칭 특징 맵을 얻도록 구성되는 제2 매칭 모듈; 및
상기 제T 프레임의 스코어 맵, 제1 매칭 특징 맵 및 제2 매칭 특징 맵을 병합하여, 병합 픽셀 레벨 특징 맵을 얻도록 구성되는 제1 병합 모듈을 더 포함하는 특징 추출 장치. - 제10항에 있어서,
상기 제1 매칭 모듈은 또한,
상기 참조 프레임의 타깃 분할 라벨링 이미지를 다운샘플링하여, 상기 참조 프레임의 마스크를 얻고;
상기 참조 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 상기 참조 프레임의 픽셀 레벨 특징 맵을 얻으며;
상기 참조 프레임의 마스크를 이용하여 상기 참조 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 상기 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻고;
상기 제T 프레임의 픽셀 레벨 특징 맵을 상기 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 전역 매칭을 수행하여, 상기 제T 프레임의 제1 매칭 특징 맵을 얻도록 구성되는 특징 추출 장치. - 제11항에 있어서,
상기 제2 매칭 모듈은 또한,
상기 제T-1 프레임의 예측 타깃 분할 라벨링 이미지를 다운샘플링하여, 상기 제T-1 프레임의 마스크를 얻고;
상기 제T-1 프레임을 미리 트레이닝된 특징 추출 네트워크에 입력하여, 상기 제T-1 프레임의 픽셀 레벨 특징 맵을 얻으며;
상기 제T-1 프레임의 마스크를 이용하여 상기 제T-1 프레임의 픽셀 레벨 특징 맵에 대해 픽셀 레벨 분리를 수행하여, 상기 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 얻고;
상기 제T 프레임의 픽셀 레벨 특징 맵을 상기 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵과 전경-배경 다중 로컬 매칭을 수행하여, 상기 제T 프레임의 제2 매칭 특징 맵을 얻도록 구성되는 특징 추출 장치. - 제12항에 있어서,
상기 장치는,
상기 참조 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 상기 참조 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻도록 구성되는 제1 풀링 모듈;
상기 제T-1 프레임의 전경 픽셀 레벨 특징 맵 및 배경 픽셀 레벨 특징 맵을 특징 채널에서 전역 풀링하여, 상기 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터 및 배경 인스턴스 레벨 특징 벡터를 얻도록 구성되는 제2 풀링 모듈; 및
상기 참조 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터, 및 상기 제T-1 프레임의 전경 인스턴스 레벨 특징 벡터와 배경 인스턴스 레벨 특징 벡터를 병합하여, 병합 인스턴스 레벨 특징 벡터를 얻도록 구성되는 제2 병합 모듈을 더 포함하는 특징 추출 장치. - 제13항에 있어서,
상기 장치는,
상기 제T 프레임의 로우 레벨 픽셀 레벨 특징 맵, 상기 병합 픽셀 레벨 특징 벡터 및 상기 병합 인스턴스 레벨 특징 벡터를 협업 적분기에 입력하여, 상기 제T 프레임의 예측 타깃 분할 라벨링 이미지를 얻도록 구성되는 예측 모듈을 더 포함하는 특징 추출 장치. - 전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고;
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 전자 기기. - 컴퓨터 명령이 저장되는 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 명령이 저장되는 비일시적 컴퓨터 판독 가능 저장 매체. - 컴퓨터 프로그램이 포함되는 컴퓨터 프로그램 제품으로서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제7항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램 제품.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110396281.7A CN112861830B (zh) | 2021-04-13 | 2021-04-13 | 特征提取方法、装置、设备、存储介质以及程序产品 |
CN202110396281.7 | 2021-04-13 | ||
PCT/CN2022/075069 WO2022218012A1 (zh) | 2021-04-13 | 2022-01-29 | 特征提取方法、装置、设备、存储介质以及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220153667A true KR20220153667A (ko) | 2022-11-18 |
Family
ID=75992531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227038225A KR20220153667A (ko) | 2021-04-13 | 2022-01-29 | 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230030431A1 (ko) |
JP (1) | JP2023525462A (ko) |
KR (1) | KR20220153667A (ko) |
CN (1) | CN112861830B (ko) |
WO (1) | WO2022218012A1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861830B (zh) * | 2021-04-13 | 2023-08-25 | 北京百度网讯科技有限公司 | 特征提取方法、装置、设备、存储介质以及程序产品 |
CN113570607B (zh) * | 2021-06-30 | 2024-02-06 | 北京百度网讯科技有限公司 | 目标分割的方法、装置及电子设备 |
CN113610885B (zh) * | 2021-07-12 | 2023-08-22 | 大连民族大学 | 使用差异对比学习网络的半监督目标视频分割方法及系统 |
CN116580249B (zh) * | 2023-06-06 | 2024-02-20 | 河北中废通拍卖有限公司 | 基于集成学习模型的拍品分类方法、系统及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214238B (zh) * | 2017-06-30 | 2022-06-28 | 阿波罗智能技术(北京)有限公司 | 多目标跟踪方法、装置、设备及存储介质 |
US10671855B2 (en) * | 2018-04-10 | 2020-06-02 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
CN108898086B (zh) * | 2018-06-20 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 视频图像处理方法及装置、计算机可读介质和电子设备 |
US10269125B1 (en) * | 2018-10-05 | 2019-04-23 | StradVision, Inc. | Method for tracking object by using convolutional neural network including tracking network and computing device using the same |
CN110427839B (zh) * | 2018-12-26 | 2022-05-06 | 厦门瞳景物联科技股份有限公司 | 基于多层特征融合的视频目标检测方法 |
US11763565B2 (en) * | 2019-11-08 | 2023-09-19 | Intel Corporation | Fine-grain object segmentation in video with deep features and multi-level graphical models |
CN111260688A (zh) * | 2020-01-13 | 2020-06-09 | 深圳大学 | 一种孪生双路目标跟踪方法 |
CN111462132A (zh) * | 2020-03-20 | 2020-07-28 | 西北大学 | 一种基于深度学习的视频物体分割方法及系统 |
CN111507997B (zh) * | 2020-04-22 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及计算机存储介质 |
CN112132232A (zh) * | 2020-10-19 | 2020-12-25 | 武汉千屏影像技术有限责任公司 | 医学图像的分类标注方法和系统、服务器 |
CN112434618B (zh) * | 2020-11-26 | 2023-06-23 | 西安电子科技大学 | 基于稀疏前景先验的视频目标检测方法、存储介质及设备 |
CN112861830B (zh) * | 2021-04-13 | 2023-08-25 | 北京百度网讯科技有限公司 | 特征提取方法、装置、设备、存储介质以及程序产品 |
-
2021
- 2021-04-13 CN CN202110396281.7A patent/CN112861830B/zh active Active
-
2022
- 2022-01-29 JP JP2022560927A patent/JP2023525462A/ja not_active Ceased
- 2022-01-29 WO PCT/CN2022/075069 patent/WO2022218012A1/zh active Application Filing
- 2022-01-29 KR KR1020227038225A patent/KR20220153667A/ko not_active Application Discontinuation
- 2022-10-11 US US17/963,865 patent/US20230030431A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN112861830B (zh) | 2023-08-25 |
JP2023525462A (ja) | 2023-06-16 |
WO2022218012A1 (zh) | 2022-10-20 |
US20230030431A1 (en) | 2023-02-02 |
CN112861830A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11321593B2 (en) | Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device | |
CN113657390B (zh) | 文本检测模型的训练方法和检测文本方法、装置和设备 | |
US11270158B2 (en) | Instance segmentation methods and apparatuses, electronic devices, programs, and media | |
KR20220153667A (ko) | 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN112529073A (zh) | 模型训练方法、姿态估计方法、装置及电子设备 | |
EP3872760B1 (en) | Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image | |
US11030750B2 (en) | Multi-level convolutional LSTM model for the segmentation of MR images | |
CN111767853B (zh) | 车道线检测方法和装置 | |
CN111523447B (zh) | 车辆跟踪方法、装置、电子设备及存储介质 | |
JP7273129B2 (ja) | 車線検出方法、装置、電子機器、記憶媒体及び車両 | |
CN112528858A (zh) | 人体姿态估计模型的训练方法、装置、设备、介质及产品 | |
US11641446B2 (en) | Method for video frame interpolation, and electronic device | |
CN113378712A (zh) | 物体检测模型的训练方法、图像检测方法及其装置 | |
EP4123605A2 (en) | Method of transferring image, and method and apparatus of training image transfer model | |
CN113569855A (zh) | 一种舌象分割方法、设备及存储介质 | |
CN116611491A (zh) | 目标检测模型的训练方法、装置、电子设备和存储介质 | |
CN113177483B (zh) | 视频目标分割方法、装置、设备以及存储介质 | |
CN114549904A (zh) | 视觉处理及模型训练方法、设备、存储介质及程序产品 | |
CN113343979B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN112085842A (zh) | 深度值确定方法及装置、电子设备和存储介质 | |
CN113065585B (zh) | 图像合成模型的训练方法、装置与电子设备 | |
CN116363429A (zh) | 图像识别模型的训练方法、图像识别方法、装置及设备 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN114282664A (zh) | 自反馈模型训练方法、装置、路侧设备及云控平台 | |
CN115147850B (zh) | 文字生成模型的训练方法、文字生成方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITB | Written withdrawal of application |