KR20210040873A - 이미지 충진 방법, 장치, 기기, 저장매체 및 프로그램 - Google Patents
이미지 충진 방법, 장치, 기기, 저장매체 및 프로그램 Download PDFInfo
- Publication number
- KR20210040873A KR20210040873A KR1020210038536A KR20210038536A KR20210040873A KR 20210040873 A KR20210040873 A KR 20210040873A KR 1020210038536 A KR1020210038536 A KR 1020210038536A KR 20210038536 A KR20210038536 A KR 20210038536A KR 20210040873 A KR20210040873 A KR 20210040873A
- Authority
- KR
- South Korea
- Prior art keywords
- layer
- image
- sampling
- loss function
- feature layer
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000005070 sampling Methods 0.000 claims abstract description 122
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 21
- 238000012217 deletion Methods 0.000 claims description 20
- 230000037430 deletion Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Image Processing (AREA)
Abstract
본 출원의 실시예는 이미지 충진 방법, 장치, 기기, 저장매체 및 프로그램을 개시하는 바, 인공 지능, 딥러닝, 컴퓨터 시각, 이미지 충진 기술분야에 관한 것이다. 이미지 충진 방법은, 충진할 이미지의 특징을 다층 코딩 처리하여 크기가 층별로 감소되는 다층 코딩 특징층을 생성하는 단계; 다층 코딩 특징층에 대해 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함하는 층별 코딩 처리를 진행하여 다층 디코딩 특징층, 및 결실 영역이 존재하지 않는 제1 이미지를 얻는 단계; 제1 이미지에 대해 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대한 접합 작업을 포함하는 업 샘플링 처리를 진행하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻는 단계를 포함한다. 본 출원을 이용하여 고품질의 이미지 충진을 실현할 수 있다.
Description
본 출원은 인공 지능, 딥러닝, 컴퓨터 시각, 이미지 충진 기술분야에 관한 것이고 구체적으로, 이미지 충진 방법, 장치, 기기 및 저장매체에 관한 것이다.
이미지 충진 기술은 이미지 편집, 이미지 복구, 이미지의 특정 객체 제거 등과 같은 광범위한 애플리케이션 시나리오가 있다. 기존의 이미지 충진 기술의 대부분은 블록 매칭 또는 질감 매칭 방법을 기반으로, 일반적인 컨볼루션 신경망 처리를 사용하는데, 충진 효과에 진실감이 부족하고 질감이 부자연스러우며 인위적 가공에 따른 흠결이 현저하고 효율이 저하되는 등 문제점이 존재한다.
본 출원은 이미지 충진 방법, 장치, 기기 및 저장매체를 제공한다.
본 출원의 제1 양태는 이미지 충진 방법을 제공한다. 이는,
결실 영역을 포함하는 충진할 이미지의 특징에 대해 다층 코딩 처리를 진행하여 크기가 층별로 감소되는 다층 코딩 특징층을 생성하는 단계;
다층 코딩 특징층에 대해 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함하는 층별 코딩 처리를 진행하여 다층 디코딩 특징층, 및 결실 영역이 존재하지 않는 제1 이미지를 얻는 단계;
제1 이미지에 대해 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대한 접합 작업을 포함하는 업 샘플링 처리를 진행하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻는 단계를 포함한다.
본 출원의 제2 양태는 이미지 충진 장치를 제공한다. 이는,
결실 영역을 포함하는 충진할 이미지의 특징을 다층 코딩 처리하여 크기가 층별로 감소되는 다층 코딩 특징층을 생성하기 위한 코딩 모듈;
다층 코딩 특징층에 대해 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함하는 층별 코딩 처리를 진행하여 다층 디코딩 특징층, 및 결실 영역이 존재하지 않는 제1 이미지를 얻기 위한 복원 모듈;
제1 이미지에 대해 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대한 접합 작업을 포함하는 업 샘플링 처리를 진행하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻기 위한 튜닝 모듈을 포함한다.
본 출원의 제3 양태는 전자기기를 제공한다. 이는,
적어도 하나의 프로세서; 및
적어도 하나의 프로세서와 통신 연결된 메모리를 포함하며,
메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고 명령은 적어도 하나의 프로세서에 의해 실행되어 적어도 하나의 프로세서가 상기와 같은 방법을 수행할 수 있도록 한다.
본 출원의 제4 양태는, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하며, 컴퓨터 명령은 컴퓨터가 상기와 같은 방법을 수행하도록 한다.
본 출원의 실시예는 충진할 이미지의 다층 코딩 및 디코딩 과정에서, 이미지의 객체, 장면, 질감 등 정보를 이용하여 결실 영역을 충진한 후, 충진된 이미지에 대해 전체적인 튜닝을 진행하되, 튜닝 과정에서 업 샘플링 특징 및 디코딩 특징층의 특징을 결합함으로써, 실제 응용에서 우수한 충진 효과를 획득할 수 있다.
본 명세서에서 설명한 내용은 본 출원의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니고 본 출원의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 출원의 기타 특징은 아래의 명세서를 통해 더 용이하게 이해할 수 있을 것이다.
도면은 본 해결수단을 더 잘 이해하기 위한 것으로 본 출원에 대해 한정하는 것이 아니다. 여기서,
도 1은 본 출원의 일 실시예에 따른 이미지 충진 방법의 흐름 블록도;
도 2는 본 출원의 일 실시예에 따른 이미지 충진 장치의 구조 블록도;
도 3은 본 출원의 다른 일 실시예에 따른 이미지 충진 장치의 구조 블록도;
도 4는 본 출원의 일 실시예에 따른 예시적인 충진할 이미지;
도 5는 본 출원의 일 실시예에 따른 이미지 충진 방법의 논리적 프로세스 다이어그램;
도 6은 도 4의 실시예를 이미지 충진 처리한 후 얻은 예시적인 이미지;
도 7은 본 출원의 실시예에 따른 이미지 충진 방법을 실현하는 전자기기의 블록도이다.
도 1은 본 출원의 일 실시예에 따른 이미지 충진 방법의 흐름 블록도;
도 2는 본 출원의 일 실시예에 따른 이미지 충진 장치의 구조 블록도;
도 3은 본 출원의 다른 일 실시예에 따른 이미지 충진 장치의 구조 블록도;
도 4는 본 출원의 일 실시예에 따른 예시적인 충진할 이미지;
도 5는 본 출원의 일 실시예에 따른 이미지 충진 방법의 논리적 프로세스 다이어그램;
도 6은 도 4의 실시예를 이미지 충진 처리한 후 얻은 예시적인 이미지;
도 7은 본 출원의 실시예에 따른 이미지 충진 방법을 실현하는 전자기기의 블록도이다.
이하 도면과 결부하여 본 출원의 예시적인 실시예를 설명하되, 여기서 본 출원의 실시예를 포함하는 여러 가지 세부구성은 이해를 돕기 위한 것으로 이들은 예시적인 것으로 간주해야 한다. 따라서 본 기술분야에서 통상의 지식을 가진 자들은 본 출원의 범위와 정신을 벗어나지 않으면서 여기서 설명한 실시예에 대하여 여러 가지 변화와 수정을 진행할 수 있다는 것을 알 수 있다. 마찬가지로 명료함과 간결함을 위하여 아래 설명에서는 공지 기능과 구조에 대한 설명을 생략하였다.
도 1은 본 출원의 실시예에 따른 이미지 충진 방법의 흐름 블록도를 나타냈으며, 다음과 같은 단계를 포함한다.
단계 S101: 결실 영역을 포함하는 충진할 이미지의 특징에 대해 다층 코딩 처리를 진행하여 크기가 층별로 감소되는 다층 코딩 특징층을 생성한다.
단계 S102: 다층 코딩 특징층에 대해 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함하는 층별 코딩 처리를 진행하여 다층 디코딩 특징층, 및 결실 영역이 존재하지 않는 제1 이미지를 얻는다.
단계 S103: 제1 이미지에 대해 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대한 접합 작업을 포함하는 업 샘플링 처리를 진행하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻는다.
본 출원의 실시예에서, 충진할 이미지는 결실이 있는 이미지이며, 예를 들면 이미지에서 삭제하고자 하는 타겟 객체가 제거된 이미지이다. 따라서 본 출원의 실시예의 충진할 이미지는 완전한 이미지가 아니고 이미지에서 결실된 부분 영역이 바로 충진할 영역이다.
본 출원의 실시예에 따르면, 충진할 이미지에 대하여 신경망 모델을 사용하여 직접 충진 처리하는 것이 아니고 먼저 결실이 있는 충진할 이미지를 다층 코딩 처리하여 충진할 이미지의 다층 코딩 특징층을 얻을 수 있다. 여기서, 특징층은 L층을 포함할 수 있고 L은 구체적인 상황에 따라 설정(예를 들면 7층) 될 수 있다. 여기서, 각 층은 이전 특징층을 기반으로 계속하여 코딩하고 다층 코딩 특징층의 크기는 층별로 감소되며 다층 특징층은 모두 충진할 이미지의 특징을 포함하고 충진할 이미지는 결실 영역을 포함하므로 다층 특징층은 모두 결실 영역 정보를 갖는 특징 정보이다.
여기서, 충진할 이미지의 결실 영역은 하나일 수 있거나 다수일 수 있다. 이하, 결실 영역의 개수가 하나인 경우를 들어 설명을 진행하나, 다수의 경우에 대하여 동일하게 처리할 수 있다.
이어서, 본 출원의 실시예에 따르면, 얻은 다층 코딩 특징층을 복원하되 구체적으로 층별 코딩 처리를 진행하여 대응되는 다층 디코딩 특징층 및 제1 이미지를 얻을 수 있다. 여기서, 충진할 이미지에 대한 다층 코딩 및 층별 코딩 처리를 통하여 원본 이미지의 결실 영역은 사실상 코딩 및 디코딩 과정에서 이미 충진되었으므로 얻은 제1 이미지는 완전한 이미지이고 결실 영역이 존재하지 않는다. 다음, 상기 제1 이미지를 튜닝해야 한다. 즉 충진 효과를 튜닝해야 한다.
구체적으로, 본 출원의 실시예는 제1 이미지를 업 샘플링 처리하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻는다. 여기서, 업 샘플링 처리를 진행할 경우, 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대하여 접합 작업을 진행하여야 하며 여기서 디코딩 특징층은 전술한 층별 디코딩 시에 얻은 디코딩 특징층인 것을 유의해야 한다.
예를 들면, 업 샘플링 처리는 각 층의 길이와 폭을 각각 이전 층의 길이와 폭의 k배(k는 정수, 예를 들면 2배, 3배)로 변환시키고 길이와 폭을 변환시키는 동시에 채널 차원의 특징도 변환시키는 것이다. 또한, 본 출원의 실시예는 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대하여 접합 작업을 진행하여야 한다. 따라서 본 출원의 실시예의 튜닝 처리는 제1 이미지를 입력으로 사용하고, 제1 이미지를 업 샘플링하여 얻은 업 샘플링층 f1 및 f1과 크기가 동일한 디코딩 특징층을 접합하며, 접합된 특징층을 다음 업 샘플링을 위한 입력으로 사용하고 이와 같이 여러 번(예를 들면 7번) 업 샘플링 처리하여 제2 이미지를 얻으면, 제2 이미지는 본 출원의 실시예를 충진 처리한 후 얻은 이미지이다. 상기 튜닝 처리를 통해, 코딩 및 디코딩 처리에 의해 얻은 제1 이미지의 충진 효과는 어느 정도 최적화될 수 있다.
본 출원의 실시예에서, 충진할 이미지에는 객체, 장면 및 질감 등 정보가 포함되기에 충진할 이미지에 대한 다층 코딩 및 후속적인 디코딩 과정에서 이미지의 객체, 장면 및 질감 등 정보를 이용하여 결실 영역을 충진할 수 있고, 이어서 충진된 이미지를 전체적으로 튜닝하되 튜닝 과정에서 업 샘플링 특징 및 디코딩 특징층의 특징을 결합할 수 있다. 이로써 실제 응용에서 우수한 충진 효과를 획득할 수 있다.
나아가, 본 출원의 실시예에서, 상기 튜닝 결과를 2차 튜닝할 수도 있다. 구체적으로, 제2 이미지를 다층 업 샘플링 처리하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제3 이미지를 얻으며 업 샘플링 처리는 크기가 동일한 현재 업 샘플링 처리 과정의 업 샘플링 특징층 및 이전 업 샘플링 처리 과정의 업 샘플링 특징층에 대한 접합 작업을 포함한다.
다시 말해서, 전술한 제2 이미지에 대해 다시 유사한 업 샘플링 처리를 진행할 수 있다. 여기서, 크기가 동일한 현재 업 샘플링 처리 과정(2차 튜닝 시)의 업 샘플링 특징층 및 이전 업 샘플링 처리 과정(1차 튜닝 시)의 업 샘플링 특징층을 접합함으로써, 제2 이미지의 충진 효과를 보다 최적화시켜, 더 우수한 충진 효과를 갖는 제3 이미지를 얻는다.
코딩 처리에 관하여, 본 출원의 일 실시형태에서, 충진할 이미지의 특징을 다층 코딩 처리하여 다층 코딩 특징층을 생성하는 단계는 다음과 같은 처리를 포함할 수 있다.
충진할 이미지를 다운 샘플링 처리하여 다층 다운 샘플링 특징층을 생성하되, 여기서 각 층의 다운 샘플링 특징층의 길이와 폭은 이전 층의 다운 샘플링 특징층의 길이와 폭의 1/k로 변환된다.
코딩 처리에 관하여, 이와 대응되도록, 다층 코딩 특징층을 층별 코딩 처리하여 다층 디코딩 특징층 및 제1 이미지를 얻는 단계는 다음과 같은 처리를 포함할 수 있다.
다층 코딩 특징층을 업 샘플링 처리하여 다층 업 샘플링 특징층을 얻되, 여기서 각 층의 업 샘플링 특징층의 길이와 폭은 이전 층의 업 샘플링 특징층의 길이와 폭의 k배로 변환되며 여기서 k는 양의 정수이다.
본 출원의 실시예는 이미지의 업 샘플링 및 다운 샘플링 처리를 합리하게 설계하여 결실이 있는 이미지를 충진할 수 있고 충진 효과가 우수하다.
본 출원의 실시예에서, 상이한 특징층에 대하여 접합 작업을 진행하는 것은 구체적으로 크기가 동일한 두 개의 특징층의 행렬을 채널 차원에서 접합하는 것이다. 이러한 접합 처리를 통해 두 개의 특징층의 특징을 융합하여 전체적인 충진 효과를 강화시키는 목적을 달성할 수 있다.
예를 들면, 본 출원의 실시예에서, 선택적으로, 업 샘플링 특징층과 디코딩 특징층 각각에 대응되는 행렬의 길이와 폭의 차원은 동일하고 이미지 채널의 개수는 상이하다. 예를 들면, 업 샘플링 특징층은 3차원 행렬 [w, h, c1]로 표시되고 디코딩 특징층은 3차원 행렬 [w, h, c2]로 표시되며, 여기서 w 및 h는 각각 길이와 폭이고 c1은 업 샘플링 특징층의 채널 개수이며 c2는 디코딩 특징층의 채널 개수이다. 특징 변환 작업을 통해 업 샘플링 특징층의 행렬 [w, h, c1]과 디코딩 특징층의 행렬 [w, h, c2]를 채널 차원에서 접합하여 3차원 행렬 [w, h, c1+c2]를 얻을 수 있고 이러한 접합 처리를 통해 양자의 특징이 융합되도록 하여 전체적인 충진 효과를 강화시키는 목적을 달성할 수 있다. 본 출원의 실시예에서, 충진할 이미지의 특징을 다층 코딩 처리하기 이전에, 전처리를 진행하여 타겟 이미지의 타겟 영역을 제거하여 충진할 이미지를 얻으며 충진할 이미지의 결실된 영역은 충진할 영역이다.
상기 방법의 실시예에 대응하여, 본 출원의 실시예는 이미지 충진 장치(100)를 더 제공한다. 도 2를 참조하면 이미지 충진 장치(100)는,
결실 영역을 포함하는 충진할 이미지의 특징을 다층 코딩 처리하여 크기가 층별로 감소되는 다층 코딩 특징층을 생성하기 위한 코딩 모듈(101);
다층 코딩 특징층에 대해 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함하는 층별 코딩 처리를 진행하여 다층 디코딩 특징층, 및 결실 영역이 존재하지 않는 제1 이미지를 얻기 위한 복원 모듈(102);
제1 이미지에 대해 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대한 접합 작업을 포함하는 업 샘플링 처리를 진행하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻기 위한 튜닝 모듈(103)을 포함한다.
도 3에 도시된 바와 같이, 일 실시형태에서, 이미지 충진 장치(100)는,
제2 이미지를 다층 업 샘플링 처리하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제3 이미지를 얻기 위한 것으로, 업 샘플링 처리는 크기가 동일한 현재 업 샘플링 처리 과정의 업 샘플링 특징층 및 이전 업 샘플링 처리 과정의 업 샘플링 특징층에 대한 접합 작업을 포함하는 2차 튜닝 모듈(104)을 더 포함한다.
일 실시형태에서, 코딩 모듈(101)은, 충진할 이미지를 다운 샘플링 처리하여 다층 다운 샘플링 특징층을 생성하기 위한 다운 샘플링 처리 서브 모듈을 포함하고 여기서 각 층의 다운 샘플링 특징층의 길이와 폭은 이전 층의 다운 샘플링 특징층의 길이와 폭의 1/k로 변환되며;
복원 모듈(102)은, 다층 코딩 특징층을 업 샘플링 처리하여 다층 업 샘플링 특징층을 얻기 위한 업 샘플링 처리 서브 모듈을 포함하고, 여기서 각 층의 업 샘플링 특징층의 길이와 폭은 이전 층의 업 샘플링 특징층의 길이와 폭의 k배로 변환되며 k는 양의 정수이다.
일 실시형태에서, 복원 모듈(102) 또는 튜닝 모듈(103)의 접합 작업은, 크기가 동일한 두 개의 특징층의 행렬을 채널 차원에서 접합하는 단계를 포함한다.
일 실시형태에서, 이미지 충진 장치(100)는,
타겟 이미지의 타겟 영역을 제거하여 충진할 이미지를 얻기 위한 전처리 모듈(105)을 더 포함하고, 충진할 이미지의 결실 영역은 충진할 영역이다.
본 출원의 실시예의 이미지 충진 장치(100)의 각각의 모듈의 기능은 전술한 방법 실시예에서 설명된 내용에 대응된다. 즉, 이미지 충진 장치(100)의 각각의 모듈은 전술한 이미지 충진 방법의 각각의 단계를 실현하기 위한 것으로 동일하면서 유익한 기술적 효과를 획득할 수 있다.
일 실시형태에서, 코딩 모듈(101), 복원 모듈(102), 튜닝 모듈(103)은 각각 훈련 데이터를 이용하여 신경망을 훈련시켜 생성되고 훈련 데이터는 결실이 있는 충진할 이미지 및 대응되는 완전한 이미지를 포함하며, 여기서 복원 모듈(102)은 제1 손실 함수에 대응되고 튜닝 모듈은 제2 손실 함수 및 제3 손실 함수에 대응되며 2차 튜닝 모듈(104)은 제1 손실 함수, 제2 손실 함수, 제3 손실 함수 및 제4 손실 함수에 대응되고 각각의 모듈은 훈련이 완성된 후 상기 이미지 충진 장치를 구축하여 얻되, 여기서,
제1 손실 함수는 픽셀 레벨의 복원 손실 함수이고 제2 손실 함수는 지각 손실 함수이며 제3 손실 함수는 스타일 손실 함수이고 제4 손실 함수는 총 변동 손실 함수이다.
본 출원의 실시예에서, 훈련 데이터를 이용하여 신경망(예를 들면 컨볼루션 신경망, 순환 신경망 또는 기타 유형의 신경망)을 각각 훈련시켜, 충진할 이미지의 특징을 다층 코딩 처리할 수 있는 신경망 모델(코딩 모듈(101)), 상기 다층 코딩 특징층을 층별로 코딩 처리할 수 있는 신경망 모델(복원 모듈(102)) 및 상기 제1 이미지를 튜닝 처리할 수 있는 신경망 모델(튜닝 모듈(103))을 각각 얻을 수 있다.
훈련을 완성한 후, 각각의 신경망 모델 또는 모듈을 논리적으로 연결시켜 이미지 충진 장치(100)를 얻을 수 있다. 사용 시, 충진할 이미지를 이미지 충진 장치에 입력하고 각각의 모듈에 의한 처리를 거친 후, 충진된 이미지를 출력할 수 있다.
이하 본 출원의 실시예에 사용된 여러 가지 손실 함수를 설명한다.
본 출원의 일 실시형태에서, 제1 손실 함수는 하기와 같은 픽셀 레벨의 복원 손실 함수를 사용한다.
여기서, L hole 는 결실 영역에 사용되는 손실 함수를 표시하고 L valid 는 비결실 영역에 사용되는 손실 함수를 표시하며 N Igt 는 총 픽셀 개수를 표시하고 M은 마스크를 표시하며 I out 는 충진된 이미지를 표시하고 I gt 는 완전한 이미지를 표시한다.
제2 손실 함수는 하기와 같은 의미 레벨의 지각 손실 함수를 사용한다.
제3 손실 함수는 고급 스타일 손실 함수를 사용하고 하기와 같다.
제4 손실 함수는 총 변동 손실 함수를 사용하고 하기와 같다.
여기서, I com 은 조합된 이미지이고 충진할 영역은 네트워크 출력 이미지에서의 대응되는 부분이며 기타 영역은 완전한 이미지에서의 대응되는 부분이고 은 이미지의 제i항 제j열의 픽셀이며 N은 총 픽셀 개수이다.
훈련 시, 먼저 복원 네트워크를 훈련시키되 픽셀 레벨의 복원 손실 함수를 사용하며 훈련이 완성된 후, 제1 튜닝 네트워크를 도입하고 의미 레벨의 지각 손실 함수 및 고급 스타일 손실 함수를 사용하며 훈련이 완성된 후, 제2 튜닝 네트워크를 도입하고 픽셀 레벨의 복원 손실 함수, 의미 레벨의 지각 손실 함수, 고급 스타일 손실 함수 및 총 변동 손실 함수를 사용할 수 있다. 훈련이 완성된 후 전체적인 모델을 형성하여 충진된 이미지를 출력할 수 있다.
본 출원의 실시예는 상기 네 개의 손실 함수 및 훈련 시의 사용 방식을 구체적으로 설계하여 최종 모델의 충진 효과를 최적화시킬 수 있고 충진 효과가 더욱 생생하며 진실하고 자연스럽게 된다.
도 4를 참조하면, 이는 본 출원의 일 실시예에 따른 충진할 이미지를 예시적으로 도시한다. 설명의 편리를 위해 도 4에서는 도색하는 방식으로 해변의 한 쌍의 라운지 의자와 같은 제거할 객체를 표기했다.
본 출원의 실시예의 이미지 충진 방법에 따르면, 선택적으로, 전처리 모듈은 타겟 이미지를 전처리할 수 있다. 상기 전처리는 타겟 이미지의 타겟 영역을 제거하여 충진할 이미지를 얻는 것으로, 상기 충진할 이미지의 결실된 영역은 충진할 영역이다.
도 4의 실시예에서, 타겟 원본 이미지는 라운지 의자가 포함된 해변 사진이고 이미 알려진 이미지 분할 기술(예를 들면, 에지 분할, 의미 분할의 방식)을 통해 라운지 의자를 원본 사진에서 잘라내어 라운지 의자 영역이 결실된 해변 이미지와 같은 결실이 있는 충진할 이미지를 얻을 수 있으며 결실된 영역은 바로 충진할 영역이다.
도 5는 본 출원의 실시예의 이미지 충진 방법의 논리적 프로세스 다이어그램을 예시적으로 도시한다. 도 5를 결합하면, 먼저 코딩 모듈은 충진할 이미지의 특징을 다층 코딩 처리하여 다층 코딩 특징층을 생성하며 다층 코딩 특징층의 크기는 층별로 감소된다. 선택적으로, 다운 샘플링 코딩을 통해 실현될 수 있으며 상술한 바와 같이, 각 층의 길이와 폭을 이전 층의 1/k(k는 양의 정수이고 예를 들면 1/2, 1/3 등)로 변환하고 길이와 폭을 변환하는 동시에 채널 차원의 특징 변환을 진행한다.
다음, 복원 모듈이 다층 코딩 특징층을 층별 코딩 처리하여 다층 디코딩 특징층 및 제1 이미지를 얻고 제1 이미지에는 결실 영역이 존재하지 않으며 층별 코딩 처리는 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함한다. 선택적으로, 복원 처리는 코딩 과정의 역과정, 즉 업 샘플링 과정으로 이해할 수 있으며 각 층의 길이와 폭은 이전 층의 예컨대 2배와 같은 길이와 폭으로 변환되는 동시에, 채널 차원의 특징도 변환된다. 여기서, 각 층이 처리 타겟은, 1) 디코딩 모듈의 이전 층의 출력 f1; 및 2) 코딩 모듈에서 f1과 길이와 폭이 동일한 층의 특징 f2를 포함한다. 다음, f1 및 f2를 채널 차원에서 접합하고 이와 같이 각각의 코딩 특징층을 층별로 디코딩한다.
여기서, 충진할 해변 이미지에 결실 영역 외의 장면, 객체, 질감 등 정보로서 예컨대 바다, 해변, 나무, 수면에 비친 나무의 그림자 등이 포함되기에 상기 코딩 및 복원 과정에서, 결실 영역 주변의 모든 장면 정보가 포함될 수 있고 이를 기반으로 얻은 완전한 이미지는 바다, 해변, 나무, 수면에 비친 나무의 그림자 등 중의 적어도 하나를 보완하여 완전한 이미지를 1차적으로 얻는다. 다음, 다중 레벨의 튜닝 모듈을 통해 이미지를 튜닝할 수 있다. 도 9는 튜닝된 이미지를 예시적으로 도시하며 도 6에서 라운지 의자에 대응되는 영역의 충진에는 해변과 수면에 비친 나무의 그림자의 특징이 융합되어 충진 효과가 진실하고 자연스러운 것을 알 수 있다.
본 출원의 실시예에 따르면, 본 출원은 전자기기 및 판독 가능 저장매체를 더 제공한다. 도 7에 도시된 것은 본 출원의 실시예의 플렉시블 분산 트레이닝 방법을 실현하는 전자기기의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 작업대, 개인 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 여러 가지 형식의 디지털 컴퓨터를 가리킨다. 전자기기는 개인 디지털 프로세싱, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 여러 가지 형식의 이동장치를 더 나타낼 수 있다. 본 명세서에 도시된 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시적인 것일 뿐 본 명세서에서 설명 및/또는 요구한 본 출원의 실현을 한정하기 위한 것이 아니다.
도 7에 도시된 바와 같이, 이 전자기기는, 하나 또는 다수의 프로세서(1001), 메모리(1002) 및 각 부품을 연결하기 위한, 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각 부품은 상이한 버스를 이용하여 서로 연결되고 공용 메인보드에 장착되거나 또는 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자기기 내에서 수행되는 명령을 처리할 수 있으며, 상기 명령은 메모리에 저장되거나 또는 메모리에 저장되어 외부 입력/출력 장치(예를 들어 인터페이스에 커플링된 디스플레이 기기)에 그래픽 사용자 인터페이스(Graphical User Interface, GUI)의 그래픽 정보를 표시하는 명령을 포함한다. 기타 실시형태에서 만약 필요하면 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리 및 다수의 메모리와 함께 사용할 수 있다. 마찬가지로 다수의 전자기기를 연결할 수 있고 각 기기는 일부 필요한 조작(예를 들면 서버 어레이, 하나의 그룹의 블레이드 서버 또는 멀티 프로세서 시스템으로 함)을 제공할 수 있다. 도 7에서는 하나의 프로세서(1001)를 예로 들었다.
메모리(1002)는 본 출원에서 제공하는 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 메모리에는 적어도 하나의 프로세서에 의해 수행될 수 있는 명령이 저장되어 적어도 하나의 프로세서로 하여금 본 출원에서 제공하는 플렉시블 분산 트레이닝 방법을 수행하도록 할 수 있다. 본 출원의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고 이 컴퓨터 명령은 컴퓨터로 하여금 본 출원에서 제공하는 플렉시블 분산 트레이닝 방법을 수행하도록 한다.
메모리(1002)는 비일시적 컴퓨터 판독 가능 저장매체로서 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들면 본 출원의 실시예에서의 플렉시블 분산 트레이닝 방법에 대응되는 명령/모듈을 저장하는데 사용될 수 있다. 프로세서(1001)는 메모리(1002)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 작동시킴으로써 서버의 여러 가지 기능 애플리케이션 및 데이터 처리를 수행, 즉 상기 방법 실시예에서의 플렉시블 분산 트레이닝 방법을 실현한다.
메모리(1002)는 프로그램 저장영역과 데이터 저장영역을 포함할 수 있으며, 여기서 프로그램 저장영역은 운영체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고 데이터 저장영역은 안면 초해상도에 따른 전자기기의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 이 외에, 메모리(1002)는 고속 랜덤 액세스 메모리를 포함할 수 있고 비일시적 메모리, 예를 들면 적어도 하나의 디스크 저장 디바이스, 플래시 저장 디바이스 또는 기타 비일시적 솔리드 스테이트 저장 디바이스를 더 포함할 수 있다. 일부 실시예에서, 메모리(1002)는 선택적으로 프로세서(1001)에 대해 원격으로 설치되는 메모리를 포함하고 이러한 원격 메모리는 네트워크를 통해 검색 결과의 분석 처리 전자기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하나 이에 한정되지 않는다.
본 출원의 실시예의 플렉시블 분산 트레이닝 방법에 대응되는 전자기기는 입력 장치(1003)와 출력 장치(1004)를 더 포함할 수 있다. 프로세서(1001), 메모리(1002), 입력 장치(1003)와 출력 장치(1004)는 버스 또는 기타 방식을 통해 연결될 수 있고 본 출원의 도 7의 실시예에서는 버스를 통해 연결되는 것을 예로 들었다.
입력 장치(1003)는 입력된 숫자 또는 문자부호 정보를 수신할 수 있고 또한 사용자 설정 및 기능 제어와 관련되는 키 신호 입력을 수신할 수 있다. 상기 입력 장치(1003)는, 예를 들면 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 지시바, 하나 또는 다수의 마우스버튼, 트랙볼, 조이스틱 등 입력 장치이다. 출력 장치(1004)는 디스플레이 기기, 보조 조명장치(예를 들면, LED)와 촉각 피드백 장치(예를 들면, 진동모터) 등을 포함할 수 있다. 이 디스플레이 기기는 액정 디스플레이(Liquid Crystal Display,LCD), 발광 다이오드(Light Emitting Diode,LED) 디스플레이와 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시예에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 전용 집적회로(Application Specific Integrated Circuits,ASIC), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현할 수 있다. 이러한 여러 가지 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석되며 이 프로그래밍 가능 프로세서는 전용 또는 범용 프로그래밍 가능 프로세서로서 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터와 명령을 수신할 수 있고 데이터와 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 한다)은 프로그래밍 가능 프로세서의 기계 명령을 포함하고 고급 프로세스 및/또는 오브젝트를 향한 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 용어 "기계 판독 가능 매체"와 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들면 자기 디스크, 시디롬, 메모리 프로그래밍 가능 로직 장치(programmable logic device, PLD))를 가리키고 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는 임의의 신호를 가리킨다.
사용자와 인터랙티브를 진행하고 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있도록 하기 위하여 이 컴퓨터는, 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들면 CRT(Cathode Ray Tube, 음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 방향 지시 장치(예를 들면, 마우스 또는 트랙볼)를 구비하고 사용자는 이 키보드와 이 방향 지시 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치는 사용자와의 인터랙티브에 사용될 수도 있는 바, 예를 들면 사용자에게 제공된 피드백은 임의의 형식의 감각 피드백(예를 들면 시각적 피드백, 청각적 피드백 또는 촉각적 피드백) 일 수 있고 임의의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함)에 의해 사용자로부터의 입력을 수신할 수 있다.
여기서 설명한 시스템과 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버) 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버) 또는 프론트엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터, 사용자는 이 그래픽 사용자 인터페이스 또는 이 네트워크 브라우저를 통해 여기서 설명한 시스템과 기술의 실시형태와 인터랙티브를 진행할 수 있다) 또는 이러한 백그라운드 부품, 미들웨어 부품 또는 전단 부품을 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면 통신 네트워크)를 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망(Local Area Network, LAN), 광역 통신망(Wide Area Network, WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리하는 동시에 통신 네트워크를 통해 인터랙티브를 진행한다. 상응하는 컴퓨터에서 운행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 구비하여 클라이언트와 서버의 관계를 발생시킨다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트로도 알려진 클라우드 서버일 수 있고 클라우드 컴퓨팅 서비스 체제의 호스팅 제품으로서, 기존의 관리가 어려우며 서비스 확장성이 약한 물리적 호스트와 VPS 서비스("Virtual Private Server", 또는 "VPS"라고 약칭) 서비스에 존재하는 흠결을 해결한다.
이해해야 할 것은, 이상에서 설명한 여러 가지 형태의 과정을 사용하되 단계를 다시 정렬시키고 증가 또는 삭제할 수 있다. 예를 들면 본 출원에서 기재한 각 단계는 동시에 수행할 수도 있고 순차적으로 수행할 수도 있으며 상이한 순서로 수행할 수도 있는 바, 본 출원에서 개시한 기술적 해결수단에서 기대하는 결과를 실현할 수만 있다면 본 명세서에서는 이에 대해 한정하지 않는다.
상기 구체적인 실시형태는 본 출원의 보호범위를 한정하지 않는다. 본 기술분야에서 통상의 지식을 가진 자들은 설계 요구와 기타 요소에 근거하여 여러 가지 수정, 조합, 하위 조합과 대체를 진행할 수 있다는 것을 이해할 수 있다. 본 출원의 정신과 원칙 내에서 진행한 모든 수정, 균등한 대체와 개선은 모두 본 출원의 보호범위 내에 포함된다.
Claims (15)
- 결실 영역을 포함하는 충진할 이미지의 특징에 대해 다층 코딩 처리를 진행하여 크기가 층별로 감소되는 다층 코딩 특징층을 생성하는 단계;
상기 다층 코딩 특징층에 대해 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함하는 층별 디코딩 처리를 진행하여 다층 디코딩 특징층, 및 결실 영역이 존재하지 않는 제1 이미지를 얻는 단계;
상기 제1 이미지에 대해 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대한 접합 작업을 포함하는 업 샘플링 처리를 진행하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻는 단계를 포함하는 것을 특징으로 하는 이미지 충진 방법. - 제1항에 있어서,
상기 제2 이미지를 다층 업 샘플링 처리하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제3 이미지를 얻되, 상기 업 샘플링 처리는 크기가 동일한 현재 업 샘플링 처리 과정의 업 샘플링 특징층 및 이전 업 샘플링 처리 과정의 업 샘플링 특징층에 대한 접합 작업을 포함하는 단계를 더 포함하는 것을 특징으로 하는 이미지 충진 방법. - 제1항에 있어서,
충진할 이미지의 특징을 다층 코딩 처리하여 다층 코딩 특징층을 생성하는 상기 단계는, 상기 충진할 이미지를 다운 샘플링 처리하여 다층 다운 샘플링 특징층을 생성하되 여기서 각 층의 다운 샘플링 특징층의 길이와 폭은 이전 층의 다운 샘플링 특징층의 길이와 폭의 1/k로 변환되는 단계를 포함하고;
상기 다층 코딩 특징층을 층별 디코딩 처리하여 다층 디코딩 특징층 및 제1 이미지를 얻는 상기 단계는, 상기 다층 코딩 특징층을 업 샘플링 처리하여 다층 업 샘플링 특징층을 얻되 여기서 각 층의 업 샘플링 특징층의 길이와 폭은 이전 층의 업 샘플링 특징층의 길이와 폭의 k배로 변환되며 k는 양의 정수인 단계를 포함하는 것을 특징으로 하는 이미지 충진 방법. - 제1항에 있어서,
상기 접합 작업은, 크기가 동일한 두 개의 특징층의 행렬을 채널 차원에서 접합하는 단계를 포함하는 것을 특징으로 하는 이미지 충진 방법. - 제1항에 있어서,
충진할 이미지의 특징을 다층 코딩 처리하는 상기 단계 이전에, 상기 방법은,
타겟 이미지의 타겟 영역을 제거하여 충진할 이미지를 얻는 단계를 더 포함하며, 상기 충진할 이미지에서 결실된 영역은 충진할 영역인 것을 특징으로 하는 이미지 충진 방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 다층 코딩 처리, 상기 층별 디코딩 처리 및 상기 업 샘플링 처리는 각각 코딩 모듈, 복원 모듈 및 튜닝 모듈에 의해 수행되고,
여기서, 상기 코딩 모듈, 상기 복원 모듈 및 상기 튜닝 모듈은 각각 훈련 데이터를 이용하여 신경망을 훈련시켜 생성되고, 훈련 데이터는 결실이 있는 충진할 이미지 및 대응되는 완전한 이미지를 포함하며, 여기서 상기 복원 모듈은 제1 손실 함수에 대응되고 상기 튜닝 모듈은 제2 손실 함수 및 제3 손실 함수에 대응되며 상기 2차 튜닝 모듈은 제1 손실 함수, 제2 손실 함수, 제3 손실 함수 및 제4 손실 함수에 대응되고 각각의 모듈은 훈련이 완성된 후 상기 이미지 충진 장치를 구축하여 얻되, 여기서,
상기 제1 손실 함수는 픽셀 레벨의 복원 손실 함수이고 상기 제2 손실 함수는 지각 손실 함수이며 상기 제3 손실 함수는 스타일 손실 함수이고 상기 제4 손실 함수는 총 변동 손실 함수인 것을 특징으로 하는 이미지 충진 방법. - 결실 영역을 포함하는 충진할 이미지의 특징을 다층 코딩 처리하여 크기가 층별로 감소되는 다층 코딩 특징층을 생성하기 위한 코딩 모듈;
상기 다층 코딩 특징층에 대해 크기가 동일한 디코딩 특징층 및 코딩 특징층에 대한 접합 작업을 포함하는 층별 디코딩 처리를 진행하여 다층 디코딩 특징층, 및 결실 영역이 존재하지 않는 제1 이미지를 얻기 위한 복원 모듈;
상기 제1 이미지에 대해 크기가 동일한 업 샘플링 특징층 및 디코딩 특징층에 대한 접합 작업을 포함하는 업 샘플링 처리를 진행하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제2 이미지를 얻기 위한 튜닝 모듈을 포함하는 것을 특징으로 하는 이미지 충진 장치. - 제7항에 있어서,
상기 제2 이미지를 다층 업 샘플링 처리하여 다층 업 샘플링 특징층 및 업 샘플링 처리를 통해 튜닝된 제3 이미지를 얻기 위한 2차 튜닝 모듈을 더 포함하고, 상기 업 샘플링 처리는 크기가 동일한 현재 업 샘플링 처리 과정의 업 샘플링 특징층 및 이전 업 샘플링 처리 과정의 업 샘플링 특징층에 대한 접합 작업을 포함하는 것을 특징으로 하는 이미지 충진 장치. - 제7항에 있어서,
상기 코딩 모듈은, 상기 충진할 이미지를 다운 샘플링 처리하여 다층 다운 샘플링 특징층을 생성하기 위한 다운 샘플링 처리 서브 모듈을 포함하고, 여기서 각 층의 다운 샘플링 특징층의 길이와 폭은 이전 층의 다운 샘플링 특징층의 길이와 폭의 1/k로 변환되며;
상기 복원 모듈은, 상기 다층 코딩 특징층을 업 샘플링 처리하여 다층 업 샘플링 특징층을 얻기 위한 업 샘플링 처리 서브 모듈을 포함하고, 여기서 각 층의 업 샘플링 특징층의 길이와 폭은 이전 층의 업 샘플링 특징층의 길이와 폭의 k배로 변환되며 k는 양의 정수인 것을 특징으로 하는 이미지 충진 장치. - 제7항에 있어서,
상기 복원 모듈 또는 상기 튜닝 모듈의 접합 작업은, 크기가 동일한 두 개의 특징층의 행렬을 채널 차원에서 접합하는 단계를 포함하는 것을 특징으로 하는 이미지 충진 장치. - 제7항에 있어서,
타겟 이미지의 타겟 영역을 제거하여 충진할 이미지를 얻기 위한 전처리 모듈을 더 포함하고, 상기 충진할 이미지의 결실 영역은 충진할 영역인 것을 특징으로 하는 이미지 충진 장치. - 제7항 내지 제11항 중 어느 한 항에 있어서,
상기 코딩 모듈, 상기 복원 모듈, 상기 튜닝 모듈은 각각 훈련 데이터를 이용하여 신경망을 훈련시켜 생성되고 훈련 데이터는 결실이 있는 충진할 이미지 및 대응되는 완전한 이미지를 포함하며, 여기서 상기 복원 모듈은 제1 손실 함수에 대응되고 상기 튜닝 모듈은 제2 손실 함수 및 제3 손실 함수에 대응되며 상기 2차 튜닝 모듈은 제1 손실 함수, 제2 손실 함수, 제3 손실 함수 및 제4 손실 함수에 대응되고 각각의 모듈은 훈련이 완성된 후 상기 이미지 충진 장치를 구축하여 얻으며, 여기서,
상기 제1 손실 함수는 픽셀 레벨의 복원 손실 함수이고 상기 제2 손실 함수는 지각 손실 함수이며 상기 제3 손실 함수는 스타일 손실 함수이고 상기 제4 손실 함수는 총 변동 손실 함수인 것을 특징으로 하는 이미지 충진 장치. - 적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자기기. - 컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 하기 위한 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체.
- 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항의 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010610906.0 | 2020-06-30 | ||
CN202010610906.0A CN111768466B (zh) | 2020-06-30 | 2020-06-30 | 图像填充方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210040873A true KR20210040873A (ko) | 2021-04-14 |
Family
ID=72724713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210038536A KR20210040873A (ko) | 2020-06-30 | 2021-03-25 | 이미지 충진 방법, 장치, 기기, 저장매체 및 프로그램 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11983849B2 (ko) |
EP (1) | EP3862966A3 (ko) |
JP (1) | JP7094412B2 (ko) |
KR (1) | KR20210040873A (ko) |
CN (1) | CN111768466B (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078404A1 (zh) * | 2022-10-14 | 2024-04-18 | 维沃移动通信有限公司 | 特征图处理方法、装置及设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381147B (zh) * | 2020-11-16 | 2024-04-26 | 虎博网络技术(上海)有限公司 | 动态图片相似度模型建立、相似度计算方法和装置 |
CN112862909A (zh) * | 2021-02-05 | 2021-05-28 | 北京百度网讯科技有限公司 | 一种数据处理方法、装置、设备以及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004193957A (ja) | 2002-12-11 | 2004-07-08 | Konica Minolta Holdings Inc | 画像処理装置、画像処理方法、画像処理プログラムおよび画像記録装置 |
KR102215805B1 (ko) | 2018-01-30 | 2021-02-17 | 연세대학교 원주산학협력단 | 딥러닝 기술을 통한 흉부 물질 분리 영상 획득 방법 및 시스템 |
US10755147B2 (en) * | 2018-07-03 | 2020-08-25 | General Electric Company | Classification and localization based on annotation information |
JP7026813B2 (ja) | 2018-09-28 | 2022-02-28 | 富士フイルム株式会社 | 学習装置、学習装置の作動プログラム及び作動方法 |
CN110648293B (zh) * | 2019-09-19 | 2022-06-24 | 北京百度网讯科技有限公司 | 图像修复方法、装置及电子设备 |
CN111210443B (zh) | 2020-01-03 | 2022-09-13 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
-
2020
- 2020-06-30 CN CN202010610906.0A patent/CN111768466B/zh active Active
-
2021
- 2021-03-16 US US17/203,437 patent/US11983849B2/en active Active
- 2021-03-19 EP EP21163622.0A patent/EP3862966A3/en not_active Ceased
- 2021-03-25 JP JP2021051058A patent/JP7094412B2/ja active Active
- 2021-03-25 KR KR1020210038536A patent/KR20210040873A/ko not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078404A1 (zh) * | 2022-10-14 | 2024-04-18 | 维沃移动通信有限公司 | 特征图处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP7094412B2 (ja) | 2022-07-01 |
US20210201448A1 (en) | 2021-07-01 |
US11983849B2 (en) | 2024-05-14 |
EP3862966A3 (en) | 2021-09-08 |
EP3862966A2 (en) | 2021-08-11 |
CN111768466B (zh) | 2024-01-12 |
CN111768466A (zh) | 2020-10-13 |
JP2021103567A (ja) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7395686B2 (ja) | 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 | |
KR20210040873A (ko) | 이미지 충진 방법, 장치, 기기, 저장매체 및 프로그램 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
CN110648294B (zh) | 图像修复方法、装置及电子设备 | |
CN111402399A (zh) | 人脸驱动和直播方法、装置、电子设备及存储介质 | |
CN111340905B (zh) | 图像风格化方法、装置、设备和介质 | |
JP7376006B2 (ja) | 駆動可能3dキャラクター生成方法、装置、電子機器、及び記憶媒体 | |
CN110648293B (zh) | 图像修复方法、装置及电子设备 | |
CN111242874B (zh) | 图像修复的方法、装置、电子设备和存储介质 | |
CN111932464A (zh) | 超分辨率模型使用和训练方法、装置、设备及介质 | |
CN114792355A (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN116797768A (zh) | 全景图像减少现实的方法和装置 | |
CN117911588A (zh) | 虚拟对象脸部驱动及模型训练方法、装置、设备和介质 | |
CN111784799B (zh) | 图像填充方法、装置、设备及存储介质 | |
CN113902631A (zh) | 图像处理方法、电子设备和存储介质 | |
CN117079651B (zh) | 一种基于大规模语言模型的语音交叉实时增强现实方法 | |
US11995749B2 (en) | Rig-space neural rendering of digital assets | |
CN111738913B (zh) | 视频填充方法、装置、设备及存储介质 | |
CN113240780B (zh) | 生成动画的方法和装置 | |
US20220058779A1 (en) | Inpainting method and apparatus for human image, and electronic device | |
CN115775300A (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
CN115578261A (zh) | 图像处理方法、深度学习模型的训练方法、装置 | |
JP7090285B2 (ja) | 復元性の高い画像の圧縮と解凍 | |
JP2023548823A (ja) | サブネットワークを含むニューラルネットワークを用いてピクチャを符号化又は復号する方法及び機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |