KR101428531B1

KR101428531B1 - 움직임 벡터의 정규화 및 윤곽선의 패턴 분석을 이용한 복수 영상 기반 초해상도 영상 생성 방법

Info

Publication number: KR101428531B1
Application number: KR1020130017312A
Authority: KR
Inventors: 유지상; 권순찬
Original assignee: 광운대학교 산학협력단
Priority date: 2013-02-19
Filing date: 2013-02-19
Publication date: 2014-08-26

Abstract

저해상도 영상을 입력받아 움직임 벡터의 정규화 및 윤곽선(edge)의 패턴 분석을 이용하여 초해상도 영상을 생성하는 복수 영상 기반 초해상도 영상 생성 방법에 관한 것으로서, (a) 상기 저해상도 영상에서 목표 시점의 영상 및 상기 목표 시점의 전후 시점의 영상을 선정하는 단계; (b) 상기 목표 시점 및 전후 시점의 영상(이하 대상 영상)의 부화소를 화소로 확장하고, 6-tap FIR(finite impulse response) 필터(이하 6탭 필터)를 적용하여 보간하는 단계; (c) 상기 목표 시점의 확장된 영상을 기준으로, 상기 전후 시점의 확장된 영상에서의 블록 단위의 움직임 벡터를 추정하는 단계; 및, (d) 상기 대상 영상의 확장 배수의 나머지 연산(modulo)으로, 추정된 움직임 벡터를 정규화하는 단계; (e) 윤곽선 패턴 분석에 따라 움직임 벡터에 의한 정합점을 검증하는 단계; 및, (f) 1차원 커널 추정식을 통한 확장된 영상의 최종 부화소의 화소값을 추정하는 단계를 포함하는 구성을 마련한다.
상기와 같은 초해상도 영상 생성 방법에 의하여, 기존의 이중선형(bi-linear) 보간법, 단일영상 기반의 초해상도 영상 생성 방법, 및 복수 영상 기반의 초해상도 영상 생성 방법 보다 객관적, 주관적으로 우수한 성능을 가질 수 있다.

Description

움직임 벡터의 정규화 및 윤곽선의 패턴 분석을 이용한 복수 영상 기반 초해상도 영상 생성 방법 { A Multi-Frame-Based Super Resolution Method by Using Motion Vector Normalization and Edge Pattern Analysis }

본 발명은 움직임 벡터의 정규화 및 윤곽선(edge)의 패턴 분석을 이용하여 복수 영상에 기반한 초해상도 영상을 생성하는, 복수 영상 기반 초해상도 영상 생성 방법에 관한 것이다.

일반적으로, 영상의 해상도를 확대하기 위해 기존 화소들 사이에 적절한 값을 삽입하는 기술을 영상 보간법(interpolation)이라 한다. 디지털 카메라 혹은 휴대기기에 내장되어 있는 카메라와 같이 디지털 영상 획득 매체의 증가와 매체간의 성능 차이로 인하여 저해상도 영상을 보완하는 영상 보간법의 중요성은 점점 더 커지고 있다.

기존의 전통적인 영상 보간법은 저해상도 영상 화소의 가중치 합(weighted-sum)에 기반을 두고 있으며, 그 중 대표적인 방법으로 최단입점(nearest neighborhood) 보간법, 이중선형(bi-linear) 보간법, 고등차수(bi-cubic) 보간법 등이 있다[비특허문헌 1]. 그러나 이러한 방법들은 일종의 저주파 통과 필터(low pass filter)의 개념으로, 필연적으로 영상 내 경계부분이 모호해지는 번짐(blurring) 현상이 나타난다.

이와 같은 문제를 해결하기 위해 다양한 초해상도(super resolution) 영상 생성 기법의 연구가 진행된 바 있다. 초해상도 영상 생성 기법은 동영상에서 1초에 재생되는 영상의 수가 통상 20에서 30장으로 서로 상관도가 매우 높은 특성을 이용하여, 목표 영상을 기준으로 연속된 복수의 저해상도 영상의 정보를 이용하여 하나의 고해상도 영상을 얻는 기술이다[비특허문헌 2].

또한 최근에는 그 의미가 확장되어 단일영상을 사용한 초해상도 영상 생성 기법 또한 다양하게 제안되었다. 그 중 하나로 입력 영상에 이산 웨이블릿 변환 (Discrete Wavelet Transform; DWT) 을 이용한 방법이 제안되었다[비특허문헌 3]. 이 기법은 이산 웨이블릿 변환 시 거쳐야 하는 다운 샘플링(down-sampling) 과정을 생략하는 것을 가장 큰 특징으로 한다. 이를 통해 원본 영상과 같은 크기의 저주파-저주파(LL), 저주파-고주파(LH), 고주파-저주파(HL), 고주파-고주파(HH) 부대역(sub-bands)들을 얻은 후 LL 부대역을 제외한 나머지 고주파 부대역에 다양한 처리를 한 뒤 역 변환을 하면, 고주파 성분이 잘 보존된 확대 영상을 얻을 수 있다. 그러나 이 방법은 전통적인 보간법과 마찬가지로 외부의 부가적인 정보를 사용하지 않는다는 점에서 성능이 제한적이다.

또한, 복수 영상을 기반으로 초해상도 영상 생성 기법들이 제안되고 있다.

공통적으로 초해상도 영상 생성 기법은 도 1에 보인 것처럼 한 장의 저해상도 영상의 생성과정을 가정한다. 초해상도 영상 생성 기법은 그림에 나타난 것처럼 어떤 자연 영상(nature scene)이 디지털 신호화 되는 과정에서 다운 샘플링 되고, 센서의 오작동 등으로 인하여 잡음이 더해져 하나의 저화질 영상이 생성된다고 가정하고 이 문제를 역으로 해결하는 과정으로 설명된다[비특허문헌 2].

일반적으로, 복수 영상 기반의 초해상도 영상 생성 기법들이 공통적으로 가지는 흐름도는 도 2에 보인 것과 같다.

도 2에서 보는 바와 같이,첫 번째 단계로 초해상도 영상 생성 기법을 적용하려는 목표 영상을 포함하여 총 t장의 영상이 입력된다. 이 경우, 저해상도 영상 y₁부터 y_t는 인접한 영상이어야 하며, 장면의 전환이 발생해서는 안 된다. 이렇게 정해진 입력영상들은 목표 영상을 기준으로 그 위치관계를 정합해야 한다. 그 후 위치관계를 기반으로 하여 얻어진 정합점들은 고해상도 영상의 화소 값을 추정하는 데 사용한다. 이러한 결과에 최종적으로 블록현상 제거 필터(de-blocking filter) 혹은 초점복원 필터(de-blurring filter)적용 등을 후처리 과정으로 하여 한 장의 고해상도 영상 X를 얻게 된다[비특허문헌 7].

그러나 기존에 제안된 복수영상 기반의 초해상도 영상 생성 기법들의 경우, 초해상도 영상 생성 기법이 적용되는 입력 영상이 단순 회전(rotation)이나 전역이동과 같은 병진이동(global translation)과, 매우 작은 부화소(sub-pixel) 단위의 움직임만을 포함하고 있어야 좋은 결과를 얻을 수 있고[비특허문헌 4, 5], 이러한 제한을 극복하기 위해 몇 가지 다른 기법이 제안되었으나[비특허문헌 6, 7] 이 기법들의 경우 객체의 내부 질감(texture)을 모호하게 하는 문제점이 있다.

다른 방법으로는 한 장의 고해상도 영상을 핵심영상(key-frame)으로 하여 이 정보를 기반으로 인접한 영상들에 적용하는 초해상도 영상 생성 기법이 제안되었으나[비특허문헌 8], 이 방법은 동영상 압축에 쓰이는 기법으로, 핵심영상으로 사용할 최소 한 장의 고해상도 영상이 존재하지 않으면 적용할 수 없다는 단점이 있다.

[비특허문헌 1] G.B. Kang, Y.S. Yang and J.H. Kim, "A study on interpolation for enlarged still image," KIICE General Conference, pp. 643-648, Bukyung univ., Korea, May. 2001. [비특허문헌 2] S.C. Park, M.K. Park, and M.G. Kang, "Super resolution image reconstruction: a technical overview," IEEE Signal Processing Magazine, vol. 20, no. 3, pp. 21-36, May, 2003. [비특허문헌 3] J.M. Lim and J. Yoo, "super resolution Algorithm using Discrete Wavelet Transform for Single-image," KOSBE Journals, vol. 17, no. 2, pp. 344-353, Mar., 2012. [비특허문헌 4] S.C. Kwon and J. Yoo, "super resolution algorithm by motion estimation with sub-pixel accuracy using 6-tap FIR filter," KICS Journals, vol. 37, no. 6, pp. 464-472, Jun., 2012. [비특허문헌 5] V.K. Asari, M.N. Islam and M.A. Karim, "Super resolution enhancement technique for low resolution video," IEEE trans. on Consumer Electronics, vol. 56, no. 2, pp. 919-924, May, 2010. [비특허문헌 6] S. Farsiu and P. Milanfar, "Kernel regression for image processing and reconstruction," IEEE trans. on Image Processing, vol. 16, no. 2, pp. 349-366, Feb., 2007. [비특허문헌 7] M. Elad, H. Takeda and P. Milanfar, "Generalizing the nonlocal-means to super resolution reconstruction," IEEE trans. on Image Processing, vol. 18, no. 1, pp. 36-51, Jan., 2009. [비특허문헌 8] S.C. Jeong and Y.L. Choi, "Video super resolution algorithm using bi-directional overlapped block motion compensation and on-the-fly dictionary training," IEEE trans. on Circuits and Systems for Video Technology, vol. 21, no. 3, pp. 274-285, Mar., 2011. [비특허문헌 9] T.H. Kim, Y.S. Moon and C.S. Han, "Estimation of real boundary with subpixel accuracy in digital imagery," KSPE Journals, vol. 16, no. 8, pp. 16-22. Aug., 1999. [비특허문헌 10] T. Wiegand, G. J. Sullivan, G. Bjontegaard, and A. Luthra, "Overview of the H.264/AVC video coding standard," IEEE trans. on circuits and systems for video technology, vol. 13, no. 7, pp. 560-576, Jul., 2003. [비특허문헌 11] N. Hirai, T. Kato, T. Song and T. Shimamoto, "An efficient architecture for spiral-type motion estimation for H.264/AVC," IEEK General Conference, pp. 314-317, Je-ju, Korea, Jul., 2009. [비특허문헌 12] Y. Ismail and J.B. McNeely, M. Shaaban, H. Mahmoud and M.A. Bayoumi, "Fast motion estimation system using dynamic models for H.264/AVC video coding," IEEE trans. on Circuits and Systems for Video Technology, vol. 22, no. 1, pp. 28-42, Jan., 2012. [비특허문헌 13] H.M. Wong, O.C. Au, A. Chang, S.K. Yip and C.W. Ho, "Fast mode decision and motion estimation for H.264(FMDME)," IEEE Int. Symposium on Circuits and Systems, pp. 21-24, Greece, May, 2006. [비특허문헌 14] S. Winkler, "The evolution of video quality measurement: From PSNR to hybrid metrics," IEEE trans. on Broadcasting, vol. 54, no. 3, pp. 660-668, Sep., 2008.

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 움직임 벡터의 정규화 및 윤곽선(edge)의 패턴 분석을 이용하여 복수 영상에 기반한 초해상도 영상을 생성하는, 복수 영상 기반 초해상도 영상 생성 방법을 제공하는 것이다. 특히, 본 발명에서는 도 2의 초해상도 영상 생성 과정 중 2번째와 3번째 단계인 정합과 고해상도 보간의 내용을 주로 개선한다.

보다 구체적으로, 본 발명의 목적은 종래 방법의 단점인 부화소 단위의 움직임에 대한 제한을 움직임 벡터의 정규화 기법을 통해 해결하고, 윤곽선 패턴 분석을 기반으로 한 2×2 블록 단위의 움직임 추정을 통해 병진이동에 대한 제한을 해결하는, 복수 영상 기반 초해상도 영상 생성 방법을 제공하는 것이다.

상기 목적을 달성하기 위해 본 발명은 저해상도 영상을 입력받아 초해상도 영상을 생성하는 복수 영상 기반 초해상도 영상 생성 방법에 관한 것으로서, (a) 상기 저해상도 영상에서 목표 시점의 영상 및 상기 목표 시점의 전후 시점의 영상을 선정하는 단계; (b) 상기 목표 시점 및 전후 시점의 영상(이하 대상 영상)의 부화소를 화소로 확장하고, 6-tap FIR(finite impulse response) 필터(이하 6탭 필터)를 적용하여 보간하는 단계; (c) 상기 목표 시점의 확장된 영상을 기준으로, 상기 전후 시점의 확장된 영상에서의 블록 단위의 움직임 벡터를 추정하는 단계; 및, (d) 상기 대상 영상의 확장 배수의 나머지 연산(modulo)으로, 추정된 움직임 벡터를 정규화하는 단계; (e) 윤곽선 패턴 분석에 따라 움직임 벡터에 의한 정합점을 검증하는 단계; 및, (f) 1차원 커널 추정식을 통한 확장된 영상의 최종 부화소의 화소값을 추정하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명은 복수 영상 기반 초해상도 영상 생성 방법에 있어서, 상기 (b)단계에서, 상기 대상 영상들에 6탭 필터를 적용하여 1/2화소를 구하고 선형보간법을 적용하여 1/4화소를 구하여, 상기 대상 영상을 16배로 확장하는 것을 특징으로 한다.

또, 본 발명은 복수 영상 기반 초해상도 영상 생성 방법에 있어서, 상기 (c)단계에서, 2×2 블록단위의 움직임 추정을 추정하되, 영상 간 유사블록의 탐색 기준은 SAD(sum of absolute difference)값을 이용하는 것을 특징으로 한다.

또, 본 발명은 복수 영상 기반 초해상도 영상 생성 방법에 있어서, 상기 (d)단계에서, 상기 움직임 벡터가 0이 아닌 경우, 영상의 가로 또는 세로의 확장 배수로 상기 움직임 벡터를 나머지 연산(modulo)하여 정규화하는 것을 특징으로 한다.

또, 본 발명은 복수 영상 기반 초해상도 영상 생성 방법에 있어서, 상기 (e)단계에서, 2×2 블록단위로 윤곽선 패턴을 대비하여 분석하는 것을 특징으로 한다.

또, 본 발명은 복수 영상 기반 초해상도 영상 생성 방법에 있어서, 상기 (f)단계에서, 나다라야-왓슨(nadaraya-watson) 커널 추정식을 이용하는 것을 특징으로 한다.

상술한 바와 같이, 본 발명에 따른 복수 영상 기반 초해상도 영상 생성 방법에 의하면, 기존의 이중선형(bi-linear) 보간법, 단일영상 기반의 초해상도 영상 생성 기법, 및 복수 영상 기반의 초해상도 영상 생성 기법 보다 객관적, 주관적으로 우수한 성능을 가지는 효과가 얻어진다.

도 1은 종래기술에 의한 저해상도 영상이 생성되는 과정을 설명하는 흐름도.
도 2는 종래기술에 의한 복수 영상 기반 초해상도 영상 생성 방법을 설명하는 흐름도.
도 3은 본 발명을 실시하기 위한 전체 시스템의 구성도.
도 4는 본 발명에 따른 디지털 변환(ADC) 과정에서 발생하는 앨리어싱의 일례를 도시한 것.
도 5는 본 발명에 따른 화소이동의 예로서, (a) 정수단위의 화소이동과, (b) 부화소단위의 화소이동을 도시한 것이고, 각 화면의 첫 번째 열이 f(t-1)영상이고, 두 번째 열이 f(t) 영상임.
도 6은 본 발명의 일실시예에 따른 복수 영상 기반 초해상도 영상 생성 방법을 설명하는 흐름도.
도 7은 본 발명에 따른 6-tap FIR 필터 설명을 위한 화소 배치도.
도 8은 본 발명에 따른 움직임 추정에서의 영상 간 시간적 중복성 이용하는 일례로서, (a) (t-1)번째 영상과 (b) (t)번째 영상임.
도 9는 본 발명에 따른 직임 벡터 정규화 방법을 설명하는 흐름도.
도 10은 본 발명에 따른 윤곽선의 패턴을 고려하지 않은 정합점의 사용 예로서, (a) 다양한 정합점의 위치이고, (b) 패턴 분석 적용 전과, (c) 패턴 분석 적용 후의 영상임.
도 11은 본 발명에 따른 윤곽선의 패턴 고려를 위한 2×2 블록의 8가지 패턴을 도시한 것.
도 12는 본 발명에 따른 정합점들과 목표 보간점의 위치의 예로서, (a) 보간 전, (b) 보간 후의 위치임.
도 13은 본 발명의 실험에 따른 각 실험 영상의 PSNR 측정결과(db)에 대한 표.
도 14는 본 발명의 실험에 따른 Mother and daughter (6번째 영상)으로서, (a) 원본영상, (b) 이중선형, (c) SR[3], (d) SR[4], (e) 본원발명에 의한 결과 영상.
도 15는 본 발명의 실험에 따른 News (8번째 영상)으로서, (a) 원본영상, (b) 이중선형, (c) SR[3], (d) SR[4], (e) 본원발명에 의한 결과 영상.
도 16은 본 발명의 실험에 따른 Carphone (19번째 영상)으로서, (a) 원본영상, (b) 이중선형, (c) SR[3], (d) SR[4], (e) 본원발명에 의한 결과 영상.
도 17은 본 발명의 실험에 따른 Coastguard (4번째 영상)으로서, (a) 원본영상, (b) 이중선형, (c) SR[3], (d) SR[4], (e) 본원발명에 의한 결과 영상.
도 18은 본 발명의 실험에 따른 Tempete (3번째 영상)으로서, (a) 원본영상, (b) 이중선형, (c) SR[3], (d) SR[4], (e) 본원발명에 의한 결과 영상.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 3을 참조하여 설명한다.

도 3에서 보는 바와 같이, 본 발명에 따른 복수 영상 기반 초해상도 영상 생성 방법은 저해상도 영상(10)을 입력받아 초해상도 영상(20)을 생성하는 컴퓨터 단말(30) 상의 프로그램 시스템으로 실시될 수 있다. 즉, 초해상도 영상 생성 방법은 프로그램으로 구성되어 컴퓨터 단말(30)에 설치되어 실행될 수 있다. 컴퓨터 단말(30)에 설치된 프로그램은 하나의 프로그램 시스템(40)과 같이 동작할 수 있다.

한편, 다른 실시예로서, 초해상도 영상 생성 방법은 프로그램으로 구성되어 범용 컴퓨터에서 동작하는 것 외에 ASIC(주문형 반도체) 등 하나의 전자회로로 구성되어 실시될 수 있다. 또는 저해상도 영상(10)을 입력받아 초해상도 영상(20)을 생성하는 것만을 전용으로 처리하는 전용 컴퓨터 단말(30)로 개발될 수도 있다. 이를 초해상도 영상 생성 장치(40)라 부르기로 한다. 그 외 가능한 다른 형태도 실시될 수 있다.

저해상도 영상(10)은 컴퓨터 단말(30)에 직접 입력되어 저장되고, 초해상도 영상 생성 장치(40)에 의해 처리된다. 또는, 저해상도 영상(10)은 컴퓨터 단말(30)의 저장매체에 미리 저장되고, 초해상도 영상 생성 장치(40)에 의해 저장된 저해상도 영상(10)을 읽어 입력될 수도 있다.

저해상도 영상(10) 및 초해상도 영상(20)은 시간상으로 연속된 프레임(또는 연속된 시점의 프레임)으로 구성된다. 하나의 프레임은 하나의 이미지를 갖는다. 또한, 영상(10,20)은 하나의 프레임(또는 이미지)을 가질 수도 있다. 즉, 영상(10,20)은 하나의 이미지인 경우에도 해당된다.

저해상도 영상에서 초해상도 영상을 생성하는 것은, 곧 하나의 저해상도 프레임(또는 이미지)에서 하나의 초해상도 프레임(또는 이미지)을 생성하는 것을 의미하고, 또한, 모든 시점의 프레임에 대하여 각 초해상도 프레임이 생성되어 전체 저해상도 영상에 대한 초해상도 영상을 생성한다는 것을 의미한다.

이하에서 특별한 구별의 필요성이 없는 한, 영상이란 용어를 프레임 용어와 혼용하여 사용하기로 한다.

다음으로, 본 발명을 설명하기에 앞서, 본 발명에 따른 초해상도 영상 생성에서 기본적으로 이용되는 부화소(sub-pixel) 단위의 화소 이동에 관한 개념에 대하여 구체적으로 설명한다.

인간이 육안으로 보는 자연 영상은 연속적인 아날로그 신호이다. 영상신호를 컴퓨터 처리가 가능한 디지털 신호로 변환하기 위해서는 음성신호와 같이 신호를 디지털화 하는 과정이 필요하다. 그런데 임의의 자연 영상(nature scene)이 도 4에 보인 것처럼 저해상도 영상이 되는 과정에서 영상획득 기기의 센서 간 샘플링 간격으로 인한 필연적인 앨리어싱(aliasing)이 발생한다. 이로 인해 원 영상신호의 고주파 성분이 손실된다[비특허문헌 9].

초당 20에서 30장의 영상(또는 프레임)으로 구성된 동영상에서 현재의 영상(프레임)을 f(t)라 하고, 바로 전의 영상(프레임)을 f(t-1)라고 가정하면 장면의 전환 부분이 아닌 경우 두 영상은 서로 근소한 차이만을 가질 것이다. 도 5는 영상 간 존재하는 객체의 움직임을 보인다. 도 5에서 왼쪽 열은 f(t-1)영상, 오른쪽 열은 f(t)영상을 의미한다[비특허문헌 4].

도 5의 (a)는 영상 간 객체의 이동이 샘플링 간격인 정수단위로 이동한 경우를 보인다. 이 경우 디지털화 된 영상은 f(t-1)과 f(t)의 해당 객체가 같은 윤곽선 정보를 가지게 된다. 도 5의 (b)는 영상 간 객체가 샘플링 간격보다 작은 부화소 단위로 이동한 경우이다. 이 경우 첫 번째 경우와 달리 두 영상은 같은 객체에 대하여 서로 다른 윤곽선 정보를 가지게 된다[비특허문헌 2].

첫 번째 경우처럼 복수의 영상이 서로 같은 윤곽선 정보를 가지고 있다면, 해당 영상들로는 초해상도 영상 생성 방법 적용이 불가능하고 이 경우 영상 간에 정수 단위의 화소이동이 일어났다고 정의한다. 그러나 두 번째 경우는 서로 다른 윤곽선 정보를 조합하여 초해상도 영상 생성 방법을 적용할 수 있으며 이 경우 영상 간에 부화소 단위의 화소이동이 일어났다고 정의한다[비특허문헌 4]. 따라서 복수 영상을 기반으로 하는 초해상도 영상 생성 방법을 적용하기 위해서는 입력 영상 간 부화소 단위의 이동이 보장되어야 한다.

다음으로, 본 발명의 일실시예에 따른 복수 영상 기반 초해상도 영상 생성 방법을 도 6을 참조하여 보다 구체적으로 설명한다.

도 6에서 보는 바와 같이, 제안한 방법은 저해상도의 영상에서 목표 시점 프레임을 선정하는 단계(S10), 6-tap FIR(finite impulse response) 필터를 통한 부화소 확장 보간 단계(S20); 블록 단위의 움직임 추정(motion estimation) 단계(S30); 움직임 벡터 정규화 단계(S40); 블록단위 윤곽선(edge)의 패턴 분석에 따라 움직임 벡터의 정합점 검증 단계(S50); 및, 1차원 커널 추정식을 통한 최종 초해상도 영상 생성 단계(S60)로 구성된다. 추가적으로, 모든 시점에 대한 반복하는 단계(S70)를 포함하여 모든 시점 프레임에 대하여 초고해상도 영상을 생성할 수 있다.

즉, 우선 저해상도의 동영상이 입력으로 주어지면, 동영상을 구성하는 각 영상 단위(또는 프레임 단위)로 제안하는 방법을 적용하게 된다(S10). 일례로서, 방법을 적용하고자 하는 영상(또는 프레임)을 포함하여 전, 후 각 3장 총 7장의 영상(프레임)이 사용되게 된다.

여기에 부화소 단위의 정합을 위해 6-tap FIR 필터를 이용하여 부화소 보간이 적용된다(S20). 이 과정을 거치게 되면 각 입력 저해상도 영상들은 가로, 세로 각 4배씩 총 16배로 영상이 확장된다. 다음으로 여기에 2×2 블록 단위의 움직임 추정을 적용하여 움직임 벡터를 추출하고(S30), 추출된 움직임 벡터는 정규화를 거치게 된다(S40). 또한 해당 블록의 패턴이 제안한 방법에 의해 정의되면 그 결과에 따라서 정합점들이 선택적으로 화소 값 계산에 사용된다(S50). 마지막으로 1차원의 커널 추정식을 통하여 목표 화소의 위치와 정합점들의 위치간 거리에 따른 가중 합(weighted-sum)으로 최종 화소 값을 계산한다(S60).

이렇게 모든 시점의 영상(프레임)에 방법이 적용된 영상들이 모여 하나의 고해상도 동영상이 출력된다(S70).

한편, 최종적으로 생성된 영상에 대하여 블록현상 제거 필터(de-blocking filter) 혹은 초점복원 필터(de-blurring filter)적용 등 후처리 과정을 적용할 수 있으나, 본 발명에서는 이에 대한 설명을 생략한다.

먼저, 저해상도의 영상에서 목표 시점 프레임을 선정하는 단계(S10)를 보다 구체적으로 설명한다.

앞서 설명한 바와 같이, 저해상도 영상은 시간상으로 연속된 영상(프레임) 또는 연속된 시점의 영상(프레임)으로 구성된다. 저해상도의 동영상이 입력으로 주어지면, 동영상을 구성하는 각 영상 단위(또는 프레임 단위) 중 하나 영상(프레임)을 선정한다. 이때의 영상을 목표 시점의 영상(또는 목표 영상)이라고 부르기로 한다.

목표 시점의 영상과, 상기 목표 시점의 전후 소정의 시점 M까지의 영상을 선정한다. 목표 시점의 영상을 f(t)라 하면, f(t-M), ..., f(t-2), f(t-1), f(t), f(t+1), f(t+2), ..., f(t+M) 등 총 2M+1장의 영상(프레임)이 사용된다. 예를 들어, 소정의 M 시점이 3까지이면, 목표 시점 영상을 포함하여 전후 시점 모두 총 7장의 영상이 사용된다.

다음으로, 6-tap FIR 필터를 통한 부화소 확장 보간 단계(S20)를 설명한다.

복수 영상 간 초해상도 영상 생성 방법이 가능하기 위해서는 입력영상들이 부화소 단위의 움직임 벡터를 가져야 하며, 부화소 단위의 움직임을 찾아내기 위해 입력영상들에 대한 부화소 확장이 필요하다. 본 발명에서는 1/4 화소(quarter-pixel) 단위의 움직임 추정을 통한 정합방법을 사용하기 때문에, 입력 영상들에 대하여 가로 4배, 세로 4배로 총 16배의 영상 확장이 필요하다.

여기에 사용되는 방법은 대표적으로 이중선형(bi-linear), 고등차수(bi-cubic), 란초스(Lanczos) 보간법 등이 있다[비특허문헌 4]. 이러한 부화소 확장 방법들 중 움직임 추정 및 초해상도 영상 생성 방법에 가장 적합한 보간법은 H.264/AVC의 표준에서 사용되는 6-tap FIR 필터로서 기존 방법에서 실험적으로 증명되었다[비특허문헌 4].

따라서 본 발명에서는 6-tap FIR 필터 기반의 부화소 확장을 적용한다. 수학식 1은 1/2 화소(half-pixel)탐색 과정에 사용된다[비특허문헌 10].

[수학식 1]

여기서 b와 h는 각각 1/2 화소 단위의 화소 값을 의미하고, A, C, G, M, R, T, E, F, H, I, J는 각각 정수단위의 원본 화소 값을 의미한다.

또한, 각 정수단위의 화소에 곱해지는 숫자는 가중치를 나타낸다. 도 7에 수학식 1에 따른 화소의 배치도를 보인다. 도 7에서 대문자로 표시되어 있는 회색 사각형은 원본 정수 화소를 의미한다.

도 7과 같이 1/2화소를 구한 후, 1/4 화소(quarter-pixel)는 수학식 2와 같이 선형 보간법을 적용해 구할 수 있다[비특허문헌 10].

[수학식 2]

다음으로, 부화소 확장 영상에 대한 블록 단위의 움직임 추정 단계(S30)를 설명한다.

앞서 설명한 수학식 1과 2를 이용하여 가로 4배와 세로 4배, 총 16배로 부화소로 확장된 입력영상들을 가지고 목표 영상에 대하여 블록단위의 움직임 추정을 적용하게 된다(S30).

움직임 추정은 원래 영상압축을 통해 제안된 방법으로 도 8과 같이 현재 영상과 다음 영상의 시간적 중복성(temporal redundancy)을 이용하여 이전 영상의 차분(difference)만을 저장하여 현재영상을 만들어 내는 압축 원리를 가진다[비특허문헌 11].

본 발명에서는 2×2 블록단위의 움직임 추정을 이용함으로써 영상 간 복잡한 움직임이나 지역적인 움직임(local motion)에 강한 영상 정합이 가능하다. 영상 간 유사블록의 탐색 기준은 수학식 3의 SAD(sum of absolute difference)값을 이용한다[비특허문헌 11].

[수학식 3]

여기서 SAD(i,j)는 탐색영역 내 (i,j)위치의 SAD값을 나타내고, x와 y는 처리 블록 내의 좌표를 나타내며, 0과 1의 값을 가질 수 있다. B_t는 목표 영상내의 처리 블록, B_p는 p번 입력 저해상도 영상내의 처리 블록을 나타낸다.

움직임 추정은 많은 연산을 필요로 하는 과정으로, 그 속도를 높이기 위해 다양한 방법이 제안되었으나[비특허문헌 12, 13] 모두 탐색의 정확도를 어느 정도 감소시킨다.

움직임 추정의 고속화는 종래의 공지 기술을 이용할 수 있다. 특히, 초해상도 영상 생성 방법의 결과는 정합의 정확도에 의해 크게 좌우되므로 본 발명에서는 전역탐색(full search) 방식의 움직임 추정을 사용한다.

다음으로, 움직임 벡터 정규화 단계(S40)를 설명한다. 앞서의 과정을 통해 영상 간의 움직임 벡터를 찾은 후 이를 정규화 하는 과정이 필요하다.

앞에서 언급한 바와 같이 복수 영상을 기반으로 하는 초해상도 영상 생성 방법은 입력영상 간 목표 영상에 대하여 부화소 단위의 이동이 보장되어야 한다[비특허문헌 2]. 즉, 영상 내 객체의 움직임은 반드시 한 화소 이내의 부화소 범위에서 나타나야 한다. 그러나 이러한 제한사항은 초해상도 영상 생성 방법을 적용할 수 있는 영상을 상당히 제한적으로 만든다. 다시 말해 움직이지 않는 사물이나 배경을 하나의 영상매체로 얻을 경우 쉽게 이러한 영상을 획득할 수 있으나, 객체의 움직임이 복잡하거나 클 경우 기존의 초해상도 영상 생성 방법을 적용하기 힘들다. 실제로 일반적인 동영상은 이러한 조건을 충분히 만족하지 않는다.

따라서 본 발명에서는 움직임 벡터의 정규화를 통해 한 화소 이상의 큰 움직임 벡터를 갖는 일반적인 경우에 대해서도 초해상도 영상 생성 방법을 적용할 수 있도록 한다.

도 9는 이에 따른 움직임 벡터 정규화 방법의 흐름도이다.

먼저 전체 p장의 입력영상에서 목표 영상 내 하나의 처리 블록에 대하여 나머지 (p-1)장에 대한 블록 움직임 추정을 한다. 움직임추정 결과로 한 개의 목표 보간점에 대하여 총 2×2×(p-1)개의 움직임 벡터를 얻을 수 있다. 즉, 블록을 구성하는 화소가 2×2 개 이므로, 목표 시점을 제외하고 나머지 (p-1)장에서 움직임 추정의 결과로서, 각 장마다 한 블록씩 얻게 되어 총 벡터 수는 2×2×(p-1)개가 된다.

이 벡터가 0의 값을 가지는 경우 목표 보간점과의 거리가 0이므로 정규화를 거치지 않고 그 값을 그대로 사용한다. 만약 0의 벡터 값을 가지는 화소가 복수 개라면, 해당 화소들의 값을 평균하여 목표 보간점에 대입한다.

0의 벡터 값을 가지는 화소란, 기본적으로 움직임 추정을 하면 ‘기준 화소’가 ‘움직임 추정이 가해지는 화소들 중에 가장 유사한 화소’와의 거리가 나오게 되는데 이 거리(벡터)가 0인 경우를 말한다. 즉, 움직임이 매우 적은 특성을 가진 정적인 동영상과 같이, 움직임 벡터가 0이 나오는 경우이다. 또한 목표 보간점은, 저해상도 영상을 고해상도 영상으로 옮겨놨을 때 필연적으로 화소의 빈자리(보간해야할 부분)가 발생하는데 이 부분을 목표 보간 점이라 한다.

반대로 추출한 움직임 벡터의 거리가 0이 아닌 경우, 4의 나머지 연산(modulo)으로 움직임 벡터를 정규화한다. 여기서 4의 나머지 연산을 하는 이유는 1/4화소 정확도의 움직임 추정을 위해 입력영상들에 대하여 가로 4배, 세로 4배의 부화소 확장을 적용하였기 때문이다.

만약 나머지 연산의 결과가 0이라면, 해당 화소는 부화소 단위가 아닌 정수단위의 이동 량을 가지므로 목표점 보간에 사용하지 않는다. 나머지 연산의 결과가 0인 경우를 제외하고 4의 나머지 연산의 결과로 가능한 값은 1, 2, 3으로, 각각에 대하여 0.25, 0.5, 0.75의 부화소 이동 량을 부여하고 해당 화소 값을 저장한다.

즉, 영상을 확장한 배수(또는 확장 배수, 예로서 4배)의 나머지 연산(modulo)으로 단위화하여, 추정된 움직임 벡터를 정규화한다.

이렇게 얻어지는 정규화 된 움직임 벡터가 가리키는 각 입력 저해상도 영상의 정합점들과 그 화소 값들은 이하에서 언급할 커널 추정법(kernel estimation)을 통한 목표 화소 보간에 사용된다.

다음으로, 윤곽선 패턴 분석에 따라 움직임 벡터에 의한 정합점을 검증하는 단계(S50)를 설명한다.

기존 복수 영상 기반의 초해상도 영상 생성 방법들의 경우 정합의 결과로서 얻은 화소 값들에 대해 정합의 정확도나 윤곽선의 패턴을 고려하지 않고 다양한 보간법을 통해 목표 보간점의 화소 값을 구한다. 그러나 이 부분을 고려하지 않으면 적합하지 않은 화소 값이라 해도 부화소 이내의 움직임 조건만 만족하면 사용될 수 있어 제안하는 방법의 결과 품질을 저하시킨다.

이 오류를 도 10에 보인다. 도 10의 (a)에 보인 것처럼 검게 칠해진 부분은 윤곽선을 나타내며, 이 윤곽선이 포함된 블록을 초해상도 복원 시 사용하기 위한 정합점들 중 일부를 붉은색과 파란색으로 나타내었다. 파란색으로 표시된 위치에 속해있는 정합점들은 사용되기에 적합하지만, 붉은색으로 표시된 위치의 정합점들을 사용하면 화소 값의 정확도가 떨어지고, 경우에 따라 화소 값이 튀는 격자현상이 나타날 수 있다. 이러한 오류를 개선하기 전과 개선한 후의 결과를 도 10의 (b) 와 (c)에 각각 보이고 붉은 원으로 표시하였다.

본 발명에서는 2×2 블록단위의 처리를 함으로써 도 11에 보인 것처럼 총 여덟 가지의 윤곽선 패턴 분석을 할 수 있다.

판단의 기준은 다음과 같다.

예를 들어 도 11의 ①의 경우 a와 b, c와 d의 화소 값의 차이가 매우 근소해야 하고, a와 c, b와 d의 화소 값의 차이는 충분히 커야 한다. 이러한 차이 값 역시 문턱 값을 정해서 판별하며, 문턱 값에 따라 패턴 분석의 민감도를 조절할 수 있다. 이러한 기준에 의해 ①의 패턴으로 판단이 될 경우, 모인 정합점들에 대하여 c와 d범위 내에 있는 점들은 사용하지 않는다. 나머지 7개 윤곽선 패턴의 경우도 마찬가지의 방식을 적용한다.

이러한 윤곽선의 패턴분석방법 외에, 수학식 4를 이용하여 부화소 탐색으로 구해진 목표 보간점과 일정한 문턱 값 이상 차이가 나는 정합점들은 사용하지 않는다.

[수학식 4]

여기서 V(P_t)는 정합점 탐색의 기준이 되는 원본 화소 값을, V(P_r)은 각 정합점의 화소 값을 의미한다. 최적의 T값을 통하여 잘못된 정합점의 사용으로 나타날 수 있는 격자 현상을 해결할 수 있다.

이 단계에서 설명한 두 가지 방법을 이용하여 결과영상에서 경계 부근의 잡음을 효과적으로 제거할 수 있다.

부연하면, 정합점이 구해지는 때의 영상은 수학식 1과 2를 통해 확장된 상태에서 얻어지는 영상이고, 기준화소는 f(t)내부의 화소이다. 정합점 화소란 나머지 시점(f(t-2) 등)에서 얻어지는 화소이다. 윤곽선 패턴 분석을 통해 일부 정합점을 버리고, 기준화소와 일정 이상 차이가 날 경우 정합점을 버린다. 이 두 단계를 거쳐 남은 신뢰도가 높은 정합점을 보간에 사용한다.

결과적으로, 앞의 실시예에서, 목표 영상을 16배 부화소 확장을 하고, 각 확장된 부화소의 값이 제대로 구해졌는지를 전후 시점의 영상을 통해 검증한다. 이때, 움직임 벡터를 통한 정합점에 의한 윤곽선패턴으로 검증한다. 부화소 확장(수학식1)은 단순히 원본 저해상도 목표 시점영상을 이루는 화소들에 계수를 곱하여 얻어지는 확장 영상이다. 여기서 임시로 채워진 화소들을 기준으로 다른 나머지 시점들과의 움직임 추정 및 윤곽선 패턴분석으로 값을 보정하는 것이다.

다음으로, 1차원 커널 추정식을 통한 확장된 영상의 최종 부화소의 화소값을 추정하는 단계(S60)를 설명한다.

앞서의 단계를 통해 선택된 정합점들을 이용하여 목표로 하는 보간점의 화소 값을 추정한다. 본 발명에서 사용되는 1차원의 커널 추정법(kernel estimation)은 데이터가 주어졌을 때 복수 표본의 위치와 해당 값을 근거로 하여 임의 위치의 값을 구하는 추정법이다.

커널 추정법은 추정 식의 차수에 따라 그 정확도가 결정되나, 차수 증가에 따른 식의 복잡도가 매우 커지기 때문에 일반적으로 차수를 0으로 하여 정규화 한 추정 식을 사용한다. 수학식 5에 보인 것처럼 추정 식의 차수를 0으로 하여 정규화 된 경우 이를 나다라야-왓슨(nadaraya-watson) 커널 추정식이라 한다[비특허문헌 14].

[수학식 5]

여기서 K(u)는 가우시안 기반의 커널 식을 의미하며, 수학식 6으로 나타낼 수 있다.

[수학식 6]

또한, 수학식 6의 x_i-x는 목표 보간점과 i번째 정합점 사이의 유클리드 거리(euclidean distance)를 나타내고, Y_i는 i번째 정합점의 화소 값을, h는 커널 추정 식의 대역폭(bandwidth)을 나타낸다.

앞 단계에서 설명한 정규화 과정을 통해 얻은 움직임 벡터는 가로와 세로 방향으로 각각 0.25, 0.5, 0.75의 값을 가질 수 있다.

도 12에 정합점들과 보간하고자 하는 목표점과의 위치관계를 보인다. 도 12의 (a)에 보인 것처럼 각 정합점들의 목표 보간점과의 유클리드 거리와 해당 화소 값이 앞서 설명한 수학식 5에서 사용된다. 이를 통해 최종적인 목표 보간점의 화소 값을 구할 수 있다.

요약하면, 우선 6탭 필터를 적용하여 모든(7장) 영상이 16배씩 확장된다. 그 후 목표 시점 영상을 기준으로 하여 나머지 여섯장에 움직임 추정을 하면 움직임 벡터들(normalization 적용 된)과 그 벡터가 가리키는 정합점이 추출되고, 이 정합점을 그대로 사용하는 것이 아니라 두 단계로 걸러낸 후에 남은 정합점들을 보간에 사용된다. 결국 정합점이란 6탭 필터에 의해 구해진 화소(또는 부화소)를 포함한 전체 화소(전후시점 구분없이 전체 화소)가 후보가 될 수 있다.

다음으로, 본 발명의 효과를 실험을 통해 구체적으로 설명한다.

본 발명에서 제안한 방법의 성능을 확인하기 위한 실험 조건은 다음과 같다. 우선 352×288(CIF) 크기의 'Mother and Daughter', 'News', 'Carphone', 'Coastguard', 'Tempete', 5개의 동영상들에 대하여 각각 연속된 30장의 영상을 176×144 (QCIF) 크기로 다운 샘플링(down-sampling) 한다. 그 후 다운 샘플링 된 영상에 각각 이중선형(bi-linear)보간법, 이산 웨이블릿 변환 (Discrete Wavelet Transform; DWT) 기반의 초해상도 영상 생성 방법[비특허문헌 3], 기존에 제안된 복수 영상 기반의 초해상도 영상 생성 방법[비특허문헌 4]과 제안된 본 발명의 방법을 적용하여 다시 원본 크기로 복원 후 주관적, 객관적으로 결과를 비교하는 방식으로 실험을 진행한다. 객관적인 성능 비교를 위하여 본 발명에서는 수학식 7의 PSNR을 기준으로 사용한다[비특허문헌 14].

[수학식 7]

여기서 f는 원본 영상, g는 비교하고자 하는 영상, M과 N은 각각 영상의 가로와 세로의 길이를 나타낸다. 이 수치가 높을수록 비교하고자 하는 영상 g는 원본영상 f에 가깝고, 방법의 성능이 우수한 것으로 정의한다.

도 13의 표에 총 5개의 실험 영상에 따른 각각의 PSNR(Peak Signal to Noise Ratio) 측정결과를 나타내었다. 최초 30장의 실험영상을 대상으로 PSNR을 측정하고, 그 평균수치를 나타내었다. 표에서 확인할 수 있듯이 제안하는 본 발명의 방법을 기존 방법들과 비교했을 때, 각 실험영상에 따라 다르지만 가장 높은 PSNR 수치를 나타내는 것을 확인할 수 있다. 특히 이중선형(Bi-linear) 보간법과의 차이는 평균 2.5db이상으로 매우 큰 것을 알 수 있으며, 'Mother and daughter', 'News' 영상의 경우 3.8db 이상의 높은 수치차이를 나타낸다.

도 14부터 도 18을 통해 실험영상에 따른 각 보간 방법의 주관적 화질 비교를 보인다. 자세한 비교를 위해 영상의 일부를 8배 확대하여 함께 보인다.

도 14부터 도 18를 보면 도 13의 표에서의 PSNR 차이와 같이 이중선형 보간법과의 선명도 차이가 매우 크다는 것을 알 수 있다. 특히 도 14부터 도 16의 각 확대 영상에서는 영상 내 인물의 얼굴과 경계 부근에서 기존에 제안된 방법들에 비하여 뚜렷한 윤곽선을 가진다는 것을 확인 할 수 있다.

또한 도 17의 (d)에 확대 된 객체 하단부에 2장에서 언급한 잘못된 정합점들의 사용 시 나타날 수 있는 잡음과 그것이 제안된 방법을 통해 제거된 결과를 눈으로 확인할 수 있다. 마지막으로 도 18의 (d)에서 역시 정합오류로 인한 잡음이 관측되지만 그림 (e)에서 깨끗이 제거된 모습을 볼 수 있다. 도 14부터 도 18의 (c) 가 나타내는 이산 웨이블릿 변환 기반의 초해상도 영상 생성 방법[비특허문헌 3]의 경우 기존의 이중선형 보간법 보다는 객관적, 주관적으로 좋은 성능을 보이지만, 서론에서 언급한 것과 같이 외부의 정보를 활용할 수 없다는 점에서 화질 상승의 한계가 있다는 사실을 객관적 수치 비교를 통해 확인할 수 있다.

본 발명에서는 기존의 단일영상 초해상도 영상 생성 방법과 복수 영상 기반의 초해상도 영상 생성 방법이 포함하고 있는 여러 제한 사항을 완화할 수 있는 새로운 초해상도 영상 생성 방법을 제안하였다. 제안하는 방법에서는 동영상 내 영상들간에 부화소 단위의 움직임만이 존재해야 하는 제한을 움직임 벡터의 정규화를 통해 다양한 동영상에 초해상도 영상 생성 방법을 적용 가능하도록 범위를 확대하고, 윤곽선(edge)의 패턴 분석을 통하여 각 영상의 내용에 적응적인 보간을 하도록 하였다. 실험 결과 제안하는 초해상도 영상 생성 방법이 기존의 이중선형(bi-linear) 보간법, 단일영상 기반의 초해상도 영상 생성 방법과 복수 영상 기반의 초해상도 영상 생성 방법보다 객관적, 주관적으로 우수한 성능을 가진다는 것을 확인할 수 있었다.

이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

10 : 저해상도 영상 20 : 초해상도 영상
30 : 컴퓨터 단말 40 : 프로그램 시스템

Claims

복수개의 시간상으로 연속된 저해상도 영상을 입력받아 초해상도 영상을 생성하는 복수 영상 기반 초해상도 영상 생성 방법에 있어서,
(a) 상기 저해상도 영상에서 목표 시점의 영상 및 상기 목표 시점의 전후 시점의 영상을 선정하는 단계;
(b) 상기 목표 시점 및 전후 시점의 영상(이하 대상 영상)의 부화소를 화소로 확장하고, 6-tap FIR(finite impulse response) 필터(이하 6탭 필터)를 적용하여 보간하는 단계;
(c) 상기 목표 시점의 확장된 영상을 기준으로, 상기 전후 시점의 확장된 영상에서의 블록 단위의 움직임 벡터를 추정하는 단계; 및,
(d) 상기 대상 영상의 확장 배수의 나머지 연산(modulo)으로, 추정된 움직임 벡터를 정규화하는 단계;
(e) 윤곽선 패턴 분석에 따라 움직임 벡터에 의한 정합점을 검증하는 단계; 및,
(f) 1차원 커널 추정식을 통한 확장된 영상의 최종 부화소의 화소값을 추정하는 단계를 포함하는 것을 특징으로 하는 복수 영상 기반 초해상도 영상 생성 방법.
제1항에 있어서,
상기 (b)단계에서, 상기 대상 영상들에 6탭 필터를 적용하여 1/2화소를 구하고 선형보간법을 적용하여 1/4화소를 구하여, 상기 대상 영상을 16배로 확장하는 것을 특징으로 하는 복수 영상 기반 초해상도 영상 생성 방법.
제1항에 있어서,
상기 (c)단계에서, 2×2 블록단위의 움직임 추정을 추정하되, 영상 간 유사블록의 탐색 기준은 SAD(sum of absolute difference)값을 이용하는 것을 특징으로 하는 복수 영상 기반 초해상도 영상 생성 방법.
제1항에 있어서,
상기 (d)단계에서, 상기 움직임 벡터가 0이 아닌 경우, 영상의 가로 또는 세로의 확장 배수로 상기 움직임 벡터를 나머지 연산(modulo)하여 정규화하는 것을 특징으로 하는 복수 영상 기반 초해상도 영상 생성 방법.
제1항에 있어서,
상기 (e)단계에서, 2×2 블록단위로 윤곽선 패턴을 대비하여 분석하는 것을 특징으로 하는 복수 영상 기반 초해상도 영상 생성 방법.
제1항에 있어서,
상기 (f)단계에서, 나다라야-왓슨(nadaraya-watson) 커널 추정식을 이용하는 것을 특징으로 하는 복수 영상 기반 초해상도 영상 생성 방법.