KR20210002124A

KR20210002124A - 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 및 컴퓨터 판독가능 정보 기록 매체

Info

Publication number: KR20210002124A
Application number: KR1020207037536A
Authority: KR
Inventors: 다까유끼 이시다; 게이이찌 조노
Original assignee: 닛본 덴끼 가부시끼가이샤
Priority date: 2015-12-02
Filing date: 2016-11-14
Publication date: 2021-01-06
Also published as: JP2017103622A; CA3077470A1; JP6132006B1; BR112018010465A8; US10645421B2; CA3138227A1; CA3138227C; BR112018010465A2; BR112018010465B1; EP3386200A4; CA3077470C; KR20180077209A; CA3006941A1; US10827201B2; KR102242880B1; US20200221132A1; CA3006941C; WO2017094482A1; KR102198120B1; EP3386200A1

Abstract

비디오 인코딩 디바이스에서, 전송 섹션은, 비디오 신호의 동적 범위가 SDR(Standard Dynamic Range)일 때 ITU-R BT.709에 의해 지정되는 특성들에 대응하는 값을 transfer_characteristics 신택스 내에 1로 설정하고, 비디오 신호의 동적 범위가 HDR(High Dynamic Range)일 때, HLG(Hybrid Log Gamma)에 의해 지정되는 특성들 중 하나에 대응하는 값을 18로 설정하거나 또는 PQ(Perceptual Quantizer)에 의해 지정되는 특성들 중 하나에 대응하는 값을 16으로 설정한다.

Description

비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 및 컴퓨터 판독가능 정보 기록 매체{VIDEO ENCODING METHOD, VIDEO ENCODING DEVICE, VIDEO DECODING METHOD, VIDEO DECODING DEVICE, AND COMPUTER READABLE INFORMATION RECORDING MEDIUM}

본 발명은 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 프로그램, 및 비디오 시스템에 관한 것이다.

더 높은 해상도의 비디오에 대한 요구에 응답하여, 가로 1920 × 세로 1080(픽셀)의 풀HD(고선명도) 비디오 콘텐츠가 제공되었다. 또한, 가로 3840 × 세로 2160(픽셀)(이하, "4K"로 지칭됨)의 고해상도 비디오의 시험 방송 및 상업 방송이 시작되었다. 더욱이, 가로 7680 × 세로 4320(픽셀)(이하, "8K"로 지칭됨)의 고선명도 비디오의 상업 방송이 계획되었다.

비디오 콘텐츠 분배 시스템에서, 일반적으로, 송신기는 H.264/AVC(Advanced Video Coding) 표준 또는 HEVC(High Efficiency Video Coding) 표준에 기초하여 비디오 신호를 인코딩하고, 수신기는 비디오 신호를 재생하기 위해 디코딩 프로세스를 수행한다. 8K에서는, 큰 수의 픽셀들로 인해 인코딩 프로세스 및 디코딩 프로세스에서의 처리 부하(processing load)가 크다.

예를 들어, 8K에서 처리 부하를 감소시키기 위한 방법으로서, 비특허문헌(NPL) 1은 슬라이스들을 사용한 화면 4분할 인코딩을 기술한다(도 11 참조). 도 12에 도시된 바와 같이, NPL 1에 따르면, 화면 4분할 인코딩이 사용되는 경우에서, 2개의 슬라이스들 사이의 경계(슬라이스 경계) 부근의 블록에서의 모션 보상(motion compensation)(MC)에 대한 모션 벡터는 인터 예측을 수행할 때 슬라이스 수직(세로) 방향으로의 컴포넌트가 128픽셀보다 작거나 이와 동일하다는 제약을 갖는다. 한편, 슬라이스 경계 부근에 속하지 않는 블록은 슬라이스 경계를 가로질러 수직 방향으로의 모션 벡터 범위의 어떠한 제약(이하, "모션 벡터 제한"으로 지칭됨)에도 종속되지 않는다.

4K 또는 8K에 대해, 표준 동적 범위(standard dynamic range)(이하, "SDR"로 지칭됨)의 비디오 신호뿐만 아니라 ARIB STD-B67 표준의 높은 동적 범위(high dynamic range)(이하, "HDR"로 지칭됨) 표준인 하이브리드 로그 감마(Hybrid Log Gamma)(이하, "HLG"로 지칭됨), SMPTE(미국 영화ㆍ텔레비전 기술자 협회)(Society of Motion Picture and Television Engineers) ST. 2084 표준의 HDR 표준인 지각 양자화기(Perceptual Quantizer)(이하, "PQ"로 지칭됨), 및 기타 등등의 비디오 신호의 사용이 연구 중에 있다. 이는 SDR/HDR 스위칭을 고려해야할 필요가 있게 만든다.

NPL 1: ARIB (Association of Radio Industries and Businesses) standard STD-B32 3.0 edition, 2014년 7월 31일, Association of Radio Industries and Businesses

모션 벡터 제한이 있는 경우, 화면 내의 대상 또는 전체 화면이 세로 방향으로 빠르게 움직이는 장면을 인코딩할 때, 슬라이스 경계에서 최적 모션 벡터가 선택되지 못할 수 있다. 이는 로컬 이미지 품질 저하를 초래할 수 있다. 빠른 움직임에 대해 M 값이 클수록, 저하의 정도가 높다. M 값은 레퍼런스 화상 간격(reference picture interval)이다. 여기서, "최적 모션 벡터"는 비디오 인코딩 디바이스에서 인터 예측(inter prediction)(인터-화면 예측(inter-screen prediction)) 프로세스를 수행하는 예측기에서 선택되는 주요(primary)(정상) 모션 벡터를 의미한다.

도 14는 M = 4인 경우 및 M = 8 인 경우의 각각에서 레퍼런스 화상 간격을 도시한다. 일반적으로, M 값이 작은 경우, 인터-프레임 거리는 짧기 때문에, 모션 벡터 값이 작아지는 경향이 있다. 그러나, 특히 움직임이 없는 장면에서, 시간 방향(temporal direction)에서의 층들(layers)의 수가 감소하는 경향이 있다. 결과적으로, 층들에 대한 코드 양 할당이 제약되기 때문에, 코딩 효율이 감소한다. 한편, M 값이 큰 경우, 인터-프레임 거리가 길기 때문에, 모션 벡터 값이 커지는 경향이 있다. 그러나, 특히 움직임이 없는 장면에서, 시간 방향에서의 층들의 수가 증가하는 경향이 있다. 결과적으로, 계층(hierarchy)(층)에 따른 코드 양 할당의 제약이 완화되고, 이는 코딩 효율에서의 증가를 초래한다. 예시로서, M 값이 8에서 4로 변경될 때, 모션 벡터 값은 반으로 감소된다. M 값이 4에서 8로 변경될 때, 모션 벡터 값은 두배가 된다.

NPL 1은 SOP(Set of Pictures)의 개념을 도입한다. SOP는 시간 스케일러블 인코딩(스케일러블 인코딩)을 수행하는 경우에 각각의 AU(Access Unit)의 인코딩 순서 및 레퍼런스 관계를 기술하는 단위이다. 시간 스케일러블 인코딩은 프레임이 복수의 프레임들의 비디오로부터 부분적으로 추출될 수 있게 하는 인코딩이다.

SOP 구조로서, L = 0의 구조, L = 1의 구조, L = 2의 구조, 및 L = 3의 구조가 있다. 도 15에 도시된 바와 같이, Lx (x = 0, 1, 2, 3)는 다음의 구조이다:

- L = 0의 구조: 시간 ID가 0인 화상 또는 화상들만으로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들(rows)의 수가 1이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 0이다.)

- L = 1의 구조: 시간 ID가 0인 화상 또는 화상들, 및 시간 ID가 1인 화상 또는 화상들로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들의 수가 2이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 1이다.)

- L = 2의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 및 시간 ID가 2인 화상 또는 화상들로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들의 수가 3이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 2이다.)

- L = 3의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 및 시간 ID가 3인 화상 또는 화상들로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들의 수가 4이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 3이다.)

이 설명에서, M = 1은 L = 0의 SOP 구조에 대응하고, M = 2는 N = 1인 경우의 L = 1의 SOP 구조(도 15 참조)에 대응하고, M = 3은 N = 2인 경우의 L = 1의 SOP 구조(도 15 참조)에 대응하고, M = 4는 L = 2의 SOP 구조에 대응하고, M = 8은 L = 3의 SOP 구조에 대응한다.

움직임이 없는 장면(예를 들어, 화면 내의 대상 또는 전체 화면이 빠르게 움직이지 않는 장면)에 대해, 상기 언급한 바와 같이, 코딩 효율은 레퍼런스 화상 간격(M 값)이 클수록 높다. 따라서, 8K와 같은 고선명도 비디오를 낮은 비율로 인코딩하기 위해, 비디오 인코딩 디바이스는 기본적으로 M = 8로 바람직하게 동작한다.

그러나, 상기 언급한 바와 같이, M 값이 증가되면 모션 벡터 값이 증가하는 경향이 있다. 따라서, 특히 화면 내의 대상 또는 전체 화면이 세로 방향으로 빠르게 움직이는 장면에서, 모션 벡터 제한으로 인해 이미지 품질이 저하된다. 이는 모션 벡터 제한으로 인해 최적 모션 벡터가 슬라이스 경계에서 선택되지 못할 수 있기 때문이다.

본 발명은 비디오 화면을 분할한 후 압축을 수행하고 슬라이스 경계 부근에서의 모션 벡터 선택이 제약되는 인코딩 방법을 이용하는 경우에 이미지 품질 저하를 방지하는 것을 목적으로 한다. 또한, 전술한 바와 같이 4K 또는 8K에서 SDR/HDR 스위칭이 고려될 필요가 있기 때문에, 본 발명은 SDR/HDR 스위칭도 고려하면서 이미지 품질 저하를 방지하는 것을 목적으로 한다.

본 발명에 따른 비디오 인코딩 방법은 동적 범위 관련 비디오 신호 정보를 이용하여, 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 방법이며, 비디오 인코딩 방법은 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위) 신호로부터 HDR(높은 동적 범위) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하는 단계를 포함한다.

본 발명에 따른 비디오 인코딩 디바이스는 동적 범위 관련 비디오 신호 정보를 이용하여, 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 디바이스이며, 비디오 인코딩 디바이스는 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위) 신호로부터 HDR(높은 동적 범위) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 선택하기 위한 인코딩 섹션을 포함한다.

본 발명에 따른 비디오 인코딩 프로그램은 동적 범위 관련 비디오 신호 정보를 이용하여 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 디바이스 내의 컴퓨터로 하여금 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하는 프로세스를 실행하게 하기 위한 비디오 인코딩 프로그램이다.

본 발명에 따른 비디오 디코딩 방법은 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 방법이며, 비디오 디코딩 방법은 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위한 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 사용하여 생성되는 비트스트림으로부터 비디오를 획득하는 단계를 포함한다.

본 발명에 따른 비디오 디코딩 디바이스는 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 디바이스이며, 비디오 디코딩 디바이스는 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위한 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하여 생성되는 비트스트림으로부터 비디오를 획득하기 위한 디코딩 섹션을 포함한다.

본 발명에 따른 비디오 디코딩 프로그램은 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 디바이스 내의 컴퓨터로 하여금, 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하여 생성되는 비트스트림으로부터 비디오를 획득하는 프로세스를 실행하게 하기 위한 비디오 디코딩 프로그램이다.

본 발명에 따른 비디오 시스템은: 상기 언급된 비디오 인코딩 디바이스; 오디오 신호를 인코딩하기 위한 오디오 인코딩 섹션; 및 비디오 인코딩 디바이스로부터의 비트스트림 및 오디오 인코딩 섹션으로부터의 비트스트림을 다중화하고, 결과로 나온 다중화된 비트스트림을 출력하기 위한 다중화 섹션을 포함하는 비디오 시스템이다.

본 발명에 따르면, SDR/HDR 스위칭에 응답하면서 이미지 품질 저하가 방지될 수 있다.

도 1은 비디오 인코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다.
도 2는 비디오 디코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다.
도 3은 비디오 인코딩 디바이스의 예시적인 실시예 1에서의 동작을 도시하는 흐름도이다.
도 4는 비디오 인코딩 디바이스의 예시적인 실시예 2에서의 동작을 도시하는 흐름도이다.
도 5는 비디오 인코딩 디바이스의 예시적인 실시예 3에서의 동작을 도시하는 흐름도이다.
도 6은 비디오 시스템의 예시를 도시하는 블록도이다.
도 7은 비디오 시스템의 또 다른 예시를 도시하는 블록도이다.
도 8은 비디오 인코딩 디바이스 및 비디오 디코딩 디바이스의 기능들을 실현할 수 있는 정보 처리 시스템의 구조적인 예시를 도시하는 블록도이다.
도 9는 비디오 인코딩 디바이스의 주요부들을 도시하는 블록도이다.
도 10은 비디오 디코딩 디바이스의 주요부들을 도시하는 블록도이다.
도 11은 화면 분할의 예시를 도시하는 설명도이다.
도 12는 모션 벡터 제한(motion vector restriction)을 도시하는 설명도이다.
도 13은 SOP 구조들을 도시하는 설명도이다.
도 14는 레퍼런스 화상 간격(reference picture interval)의 예시를 도시하는 설명도이다.
도 15는 SOP 구조들을 도시하는 설명도이다.

본 발명의 예시적인 실시예들이 도면들을 참조하여 아래에 기술된다.

도 1은 비디오 인코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다. 도 1에 도시된 비디오 인코딩 디바이스(100)는 인코딩 섹션(101), 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)을 포함한다. 비디오 인코딩 디바이스(100)가 HEVC 표준에 기초하여 인코딩 프로세스를 수행하지만, 인코딩 프로세스는 H.264/AVC 표준과 같은 또 다른 표준에 기초하여 수행될 수 있다. 다음은 8K 비디오가 입력되는 예시를 기술한다.

인코딩 섹션(101)은 입력 이미지를 복수의 화면들로 분할하기 위한 화면 분할기(102), 주파수 변환기/양자화기(103), 역 양자화기/역 주파수 변환기(104), 버퍼(105), 예측기(106), 및 엔트로피 인코더(107)를 포함한다.

화면 분할기(102)는 입력 비디오 화면을 4개의 화면들로 분할한다(도 11 참조). 주파수 변환기/양자화기(103)는 입력 비디오 신호에서 예측 신호를 감산(subtract)으로써 획득된 예측 에러 이미지(prediction error image)를 주파수 변환한다. 또한, 주파수 변환기/양자화기(103)는 주파수 변환된 예측 에러 이미지(주파수 변환 계수)를 양자화한다. 양자화된 주파수 변환 계수는 이하에서 "변환 양자화 값(transform quantization value)"으로 지칭된다.

엔트로피 인코더(107)는 예측 파라미터들 및 변환 양자화 값을 엔트로피 인코딩(entropy-encode)하고, 비트스트림을 출력한다. 예측 파라미터들은 예측 모드(인트라 예측(intra prediction), 인터 예측(inter prediction)), 인트라 예측 블록 사이즈, 인트라 예측 방향, 인터 예측 블록 사이즈, 및 모션 벡터와 같은, CTU(코딩 트리 유닛)(Coding Tree Unit) 및 블록 예측과 관련된 정보이다.

예측기(106)는 입력 비디오 신호에 대한 예측 신호를 생성한다. 예측 신호는 인트라 예측 또는 인터프레임 예측에 기초하여 생성된다.

역 양자화기/역 주파수 변환기(104)는 변환 양자화 값을 역 양자화한다. 또한, 역 양자화기/역 변환기(104)는 역 양자화에 의해 획득된 주파수 변환 계수를 역 주파수 변환한다. 예측 신호가 역 주파수 변환에 의해 획득된 재구성된 예측 에러 이미지에 부가되고, 결과는 버퍼(105)로 공급된다. 버퍼(105)는 재구성된 이미지를 저장한다.

분석 섹션(111)은 인코딩 통계 정보를 분석한다. 판정 섹션(112)은 분석 섹션(111)에 의한 분석의 결과에 기초하여, 최적 모션 벡터(optimum motion vector)가 상기 언급된 모션 벡터 제한과 함께 슬라이스 경계 부근에서 선택가능한지 여부를 판정한다. 인코딩 통계 정보는 지난 프레임(past frame)(예를 들어, 인코딩될 현재 프레임 바로 앞의 프레임)의 인코딩 결과의 정보이다. 인코딩 통계 정보의 특정 예시가 나중에 기술될 것이다.

여기서, "슬라이스 경계 부근"은 최적 모션 벡터가 선택될 수 없는 영역이다. 예를 들어, 후술하는 제어를 실현할 때, "슬라이스 경계 부근"은 편의상 슬라이스 경계로부터 ±128 픽셀들의 범위 또는 슬라이스 경계로부터 ±256 픽셀들의 범위로 설정될 수 있다. 더욱이, 후술하는 제어를 실현할 때, "슬라이스 경계 부근"의 범위는 비디오의 상태(예를 들어, 큰/작은 움직임)에 따라 적절한 대로 변경될 수 있다. 예시로서, "슬라이스 경계 부근"의 범위는 값이 큰 모션 벡터들의 생성 비율이 높은 경우 넓게 설정될 수 있다.

M 값 결정 섹션(113)은 판정 섹션(112)에 의한 판정의 결과에 기초하여, 적응적으로 M 값을 결정한다. 앞서 언급한 바와 같이, M 값을 결정하는 것은 SOP 구조에서 Lx (x = 0, 1, 2, 3) 구조를 결정하는 것과 동일하다. 인코딩 통계 정보는 나중에 기술될 것이다.

도 2는 비디오 디코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다. 도 2에 도시된 비디오 디코딩 디바이스(200)는 엔트로피 디코더(202), 역 양자화기/역 주파수 변환기(203), 예측기(204), 및 버퍼(205)를 포함한다.

엔트로피 디코더(202)는 비디오의 비트스트림을 엔트로피 디코딩한다. 엔트로피 디코더(202)는 엔트로피 디코딩된 변환 양자화 값을 역 양자화기/역 주파수 변환기(203)에 공급한다.

역 양자화기/역 주파수 변환기(203)는 주파수 변환 계수를 획득하기 위해, 양자화 스텝 사이즈(quantization step size)로 휘도(luminance) 및 색 차이의 변환 양자화 값을 역 양자화한다. 또한, 역 양자화기/역 주파수 변환기(203)는 역 양자화에 의해 획득된 주파수 변환 계수를 역 주파수 변환한다.

역 주파수 변환 후에, 예측기(204)는 버퍼(205) 내에 저장되는 재구성된 화상의 이미지를 이용하여 예측 신호를 생성한다(예측은 "모션 보상 예측(motion compensation prediction)" 또는 "MC 레퍼런스"라고도 지칭된다). 예측기(204)로부터 공급되는 예측 신호는 역 양자화기/역 주파수 변환기(203)에 의한 역 주파수 변환에 의해 획득된 재구성된 예측 에러 이미지에 부가되고, 결과는 재구성된 화상으로서 버퍼(205)에 공급된다. 버퍼(205)에 저장되는 재구성된 화상은 이후 디코딩된 비디오로서 출력된다.

비디오 인코딩 디바이스(100) 내의 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)의 동작들은 아래에 기술된다.

예시적인 실시예 1

도 3은 도 1에 도시된 비디오 인코딩 디바이스(100)의 예시적인 실시예 1에서의 동작을 도시하는 흐름도이다. 예시적인 실시예 1에서, 8K 비디오는 4개로 분할되고(도 11 참조), 슬라이스 경계 부근에 모션 벡터 제한이 있다고 가정한다. 모션 벡터 제한으로서, ±128이 예시로서 이용된다. 8K 비디오가 4개로 분할되고 모션 벡터 제한이 있는 경우는 또한 다른 예시적인 실시예들에 적용된다. M 값의 초기 값은 8이다(M = 8).

분석 섹션(111)은 버퍼(105)에 저장된 지난 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)를 분석한다. 구체적으로, 분석 섹션(111)은 슬라이스 경계 외의 블록들 내의 모션 벡터들의 평균값 또는 중앙값을 계산한다(이하, 평균값 또는 중앙값은 M_avg로 표시된다)(단계 S101). 예시적인 실시예 1에서, 인코딩 통계 정보는 모션 벡터 값들이고, 분석 결과는 모션 벡터들의 평균값 또는 중앙값이다.

판정 섹션(112)은 모션 벡터 제한으로서의 ±128과 비교하여 M_avg가 얼마나 큰지를 판정한다(단계 S102).

M 값 결정 섹션(113)은 M_avg의 크기의 판정의 결과에 기초하여, M 값을 결정한다(단계 S103).

예를 들어, M 값 결정 섹션(113)은 이하의 방식으로 판정 결과에 기초하여 M 값을 결정한다.

앞선 경우들 (1) 및 (2)에서와 같이, M 값이 임의의 다른 값인 경우에도, M 값을 8로 설정할 때, 모션 벡터 제한 하에서 슬라이스 경계 부근의 모션 벡터 값이 ±128 내에 있다고 추정될 수 있으면, M 값 결정 섹션(113)은 M 값을 8로 복귀시킨다. 다시 말해서, 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터가 선택될 수 있다고 추정될 수 있는 경우에, M 값 결정 섹션(113)은 M 값을 8로 복귀시킨다. 다른 경우들에서도, M 값 결정 섹션(113)은 슬라이스 경계 부근의 모션 벡터 값이 M_avg에 따라 ±128 내에 있도록 M 값을 결정한다.

상기 언급된 경우 분석(case analysis)(임계값 설정)은 예시이고, 임계값들은 변경될 수 있으며 보다 세밀한 경우들이 설정될 수 있다.

예시적인 실시예 1에서의 비디오 인코딩 디바이스의 제어는 다음의 개념에 기초한다.

비디오가 전체 화면이 빠르게 움직이는 장면의 비디오인 경우, 슬라이스 경계 부근의 영역 및 슬라이스 경계 부근 외의 영역 모두에서, 생성된 모든 모션 벡터들에 대해 값이 큰 모션 벡터들의 수의 비율이 높다. 그러나, 모션 벡터 제한 때문에, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다. 따라서, 판정 섹션(112)은 슬라이스 경계 외의 영역에서 생성된 인코딩 통계 정보로서 모션 벡터들(모션 벡터 제한이 없기 때문에 정상, 즉 최적 모션 벡터들)에 기초하여, 인코딩될 화면이 빠르게 움직이는 장면의 비디오 화면인지 여부를 추정한다. 판정 섹션(112)이 비디오가 빠르게 움직이는 장면의 비디오라고 추정하는 경우, M 값 결정 섹션(113)은 슬라이스 경계 부근에서 최적 모션 벡터가 선택될 수 있도록 M 값을 변경한다.

비디오가 빠르게 움직이는 장면의 비디오인 경우, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다. 따라서, 비디오가 빠르게 움직이는 장면의 비디오인 것으로 추정하는 것은 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않는 것으로 추정하는 것과 동일하다.

앞서 언급된 바와 같이, M 값 및 SOP 구조는 상호 관련이 있다. 따라서, M 값 결정 섹션(113)에 의해 M 값을 결정하는 것은 SOP 구조(즉, Lx(x = 0, 1, 2, 3) 구조)를 결정하는 것과 동일하다.

예시적인 실시예 2

도 4는 도 1에 도시된 비디오 인코딩 디바이스(100)의 예시적인 실시예 2에서의 동작을 도시하는 흐름도이다.

분석 섹션(111)은 버퍼(105)에 저장된 지난 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)를 분석한다. 구체적으로, 분석 섹션(111)은 슬라이스 경계 이외의 범위 내의 모든 블록들(예를 들어, 예측 유닛들(PU))에 대한 인트라 예측(인트라 화면 예측)이 사용되는 블록들의 백분율 P₁을 계산한다(단계 S201). 분석 섹션(111)은 또한 슬라이스 경계 부근의 모든 블록들에 대한 인트라 예측이 사용되는 블록들의 백분율 P₂를 계산한다(단계 S202). 예시적인 실시예 2에서, 인코딩 통계 정보는 슬라이스 경계 부근의 블록들의 예측 모드들(구체적으로, 인트라 예측 블록들의 수)이고, 분석 결과는 백분율 P₁ 및 백분율 P₂이다.

판정 섹션(112)은 백분율 P₁과 백분율 P₂를 비교하고, 그것들의 차이의 정도를 판정한다. 구체적으로, 판정 섹션(112)은 백분율 P₂가 백분율 P₁과 비교할 때 상당히 높은지 여부를 판정한다. 예를 들어, 판정 섹션(112)은 백분율 P₂와 백분율 P₁ 간의 차이가 미리 결정된 값보다 큰지 여부를 판정한다(단계 S203).

백분율 P₂와 백분율 P₁ 간의 차이가 미리 결정된 값보다 큰 경우, M 값 결정 섹션(113)은 M 값을 감소시킨다(단계 S204). 여기서, 복수의 미리 결정된 값들이 제공될 수 있다. 예를 들어, 이 경우에, 차이가 제1 미리 결정된 값보다 크다면, M 값은 복수의 레벨들만큼 감소될 수 있고, 차이가 제2 미리 결정된 값(<제1 미리 결정된 값)보다 크다면, M 값은 하나의 레벨만큼 감소될 수 있다.

백분율 P₂와 백분율 P₁ 간의 차이가 미리 결정된 값보다 크지 않은 경우, M 값 결정 섹션(113)은 M 값을 유지하거나 증가시킨다(단계 S205). 예를 들어, 차이가 제3 미리 결정된 값(<제2 미리 결정된 값)보다 크지 않다면, M 값 결정 섹션(113)은 M 값을 증가시키고, 차이가 제3 미리 결정된 값보다 크다면, M 값을 유지시킨다.

예시적인 실시예 2에서의 비디오 인코딩 디바이스의 제어는 다음 개념에 기초한다.

화면 내의 각각의 블록을 인코딩할 때, 인코딩 섹션(101)은 예측 모드로서, 인트라 예측 및 인터 예측 중 임의의 것을 이용할 수 있다. 비디오가 전체 화면이 빠르게 움직이는 장면의 비디오일 때, 값이 큰 모션 벡터들의 수에서의 생성 비율은 인터 예측이 사용될 때(모션 벡터 제한이 없는 경우) 슬라이스 경계 부근에서도 높은 것으로 간주된다. 그러나, 모션 벡터 제한이 있기 때문에, 슬라이스 경계 부근에서 최적 모션 벡터(큰 모션 벡터)가 생성될 수 없으며, 그 결과 슬라이스 경계 부근에서는 인트라 예측이 빈번하게 사용된다. 반면에, 슬라이스 경계 부근 이외에서는, 모션 벡터 제한이 없기 때문에, 슬라이스 경계 부근에서와 비교할 때 인트라 예측이 빈번하게 사용되지 않는다.

따라서, 백분율 P₁과 백분율 P₂간의 차이가 상당한 경우, 빠르게 움직이는 장면의 비디오 신호가 인코딩 섹션(101)에 입력되는 것으로 추정된다.

비디오가 빠르게 움직이는 장면의 비디오인 경우, 최적 모션 벡터가 슬라이스 경계 부근에서 선택되지 않을 가능성이 있다. 따라서, 비디오가 빠르게 움직이는 장면의 비디오라고 추정하는 것은 모션 벡터 제한 하에서 백분율 P₁과 백분율 P₂ 간의 차이가 상당하다는 것과 동일하다.

예를 들어, 차이가 상당한지 여부를 판정하기 위한 미리 결정된 값으로서, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있는 것으로 추정하는 것을 가능하게 하는 그러한 값은, 임계값으로서 사용된다면, 경험적으로 또는 실험적으로 선택된다.

예시적인 실시예 3

도 5는 도 1에 도시된 비디오 인코딩 디바이스(100)의 예시적인 실시예 3에서의 동작을 도시하는 흐름도이다.

분석 섹션(111)은 버퍼(105)에 저장된 지난 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)를 분석한다. 구체적으로, 분석 섹션(111)은 앞의 프레임(예를 들어, 인코딩될 현재 프레임보다 두 프레임 앞의 프레임)의 슬라이스 경계 부근의 블록들 내의 생성된 코드 양 C₁을 계산한다(단계 S301). 분석 섹션(111)은 또한 바로 앞의 프레임의 슬라이스 경계 부근의 블록들 내에서 생성된 코드 양 C₂를 계산한다(단계 S302). 예시적인 실시예 3에서, 인코딩 통계 정보는 슬라이스 경계 부근의 블록들 내에서 생성된 코드 양이고, 분석 결과는 생성된 코드 양 C₁ 및 생성된 코드 양 C₂이다.

판정 섹션(112)은 생성된 코드 양 C₁과 생성된 코드 양 C₂를 비교하고, 그것들의 차이의 정도를 판정한다. 구체적으로, 판정 섹션(112)은 생성된 코드 양 C₂가 생성된 코드 양 C₁과 비교할 때 상당히 큰지 여부를 판정한다. 예를 들어, 판정 섹션(112)은 생성된 코드 양 C₂와 생성된 코드 양 C₁ 간의 차이가 미리 결정된 양보다 큰지 여부를 판정한다(단계 S303).

M 값 결정 섹션(113)은 생성된 코드 양 C₂와 생성된 코드 양 C₁ 간의 차이가 미리 결정된 양보다 큰 경우, M 값을 감소시킨다(단계 S304). 여기서, 복수의 미리 결정된 양들이 제공될 수 있다. 예를 들어, 이 경우에, M 값은 차이가 제1 미리 결정된 양보다 큰 경우에는 복수의 레벨들만큼 감소될 수 있고, 차이가 제2 미리 결정된 양(<제1 미리 결정된 양)보다 큰 경우에는 하나의 레벨만큼 감소될 수 있다.

생성된 코드 양 C₂와 생성된 코드 양 C₁ 간의 차이가 미리 결정된 양보다 크지 않은 경우, M 값 결정 섹션(113)은 M 값을 유지시키거나 증가시킨다(단계 S305). 예를 들어, M 값 결정 섹션(113)은 차이가 제3 미리 결정된 양(<제2 미리 결정된 양)보다 크지 않은 경우에는 M 값을 증가시키고, 차이가 제3 미리 결정된 양보다 큰 경우에는 M 값을 유지시킨다.

예시적인 실시예 3에서의 비디오 인코딩 디바이스의 제어는 다음 개념에 기초한다.

앞서 언급된 바와 같이, 비디오가 전체 화면이 빠르게 움직이는 장면의 비디오일 때, 값이 큰 모션 벡터들의 수에서의 비율은 인터 예측이 사용될 때(모션 벡터 제한이 없는 경우) 슬라이스 경계 부근에서도 높은 것으로 간주된다. 그러나, 모션 벡터 제한이 있기 때문에, 슬라이스 경계 부근에서는 최적 모션 벡터(큰 모션 벡터)가 생성될 수 없고, 그 결과 슬라이스 경계 부근에서 인트라 예측이 빈번하게 사용된다. 일반적으로, 인터 예측이 사용될 때와 비교할 때, 인트라 예측이 사용될 때 큰 코드 양이 생성된다.

따라서, 생성된 코드 양 C₂가 생성된 코드 양 C₁과 비교하여 상당히 큰 경우, 상황이 빠르게 움직이는 장면의 비디오 신호가 인코딩 섹션(101)에 입력되는 그러한 상황으로 바뀐 것으로 추정된다.

비디오가 빠르게 움직이는 장면의 비디오가 된 경우, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다. 따라서, 비디오가 빠르게 움직이는 장면의 비디오가 된 것으로 추정하는 것은 생성된 코드 양 C₂가 모션 벡터 제한 하에서 상당히 증가했다는 것과 동일하다.

예를 들어, 생성된 코드 양이 상당히 증가했는지 여부를 판정하기 위한 미리 결정된 양으로서, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다고 추정하는 것을 가능하게 하는 그러한 양은, 임계값으로서 사용되는 경우, 경험적으로 또는 실험적으로 선택된다.

상기 기술한 바와 같이, 전술한 예시적인 실시예들의 각각에서, M 값은 지난 인코딩 결과(인코딩 통계 정보)에 기초하여 적응적으로 변경된다. 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터(즉, 모션 벡터 제한 내에 있지 않은 모션 벡터)가 선택가능한지 여부가 인코딩 통계 정보에 기초하여 추정된다. 최적 모션 벡터가 선택가능하지 않은 것으로 추정되는 경우, M 값은 더 작은 값으로 변경된다. 최적 모션 벡터가 선택가능한 것으로 추정되는 경우, 현재 M 값으로도 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터가 선택가능하다는 이유로, M 값은 유지되거나 더 큰 값으로 변경된다.

따라서, 모션 벡터 제한으로 인해 슬라이스 경계 부근에서 최적 모션 벡터가 선택가능하지 않은 그러한 상태는 최대한 피할 수 있다. 이는 로컬 이미지 품질 저하의 가능성을 감소시킨다. M 값이 움직임의 속도에 따라 적응적으로 변경되기 때문에, 양호한 이미지 품질이 달성될 수 있다.

더욱이, M 값이 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)에 기초하여 변경되기 때문에, 사전 분석(pre-analysis)(현재 프레임을 인코딩할 때 사전처리로서 수행되는 분석)의 필요가 없다. 이는 사전 분석이 수행된 경우와 비교할 때, 인코딩에 대한 처리 시간의 증가를 방지한다.

비디오 인코딩 디바이스(100)에서, 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)은 예시적인 실시예들 1 내지 3 중 임의의 둘 또는 모두를 포함하도록 구성될 수 있다.

비디오 인코딩 디바이스(100)에서, M 값 결정 섹션(113)은 또한 외부로부터 설정되는 SDR/HDR 스위칭 정보를 이용하여 인코딩 구조를 결정할 수 있고, 엔트로피 인코더(107)는 SDR/HDR 스위칭 정보를 비디오 디코딩 디바이스에 전송할 수 있다.

구체적으로, M 값 결정 섹션(113)은 인코딩 시퀀스(encoding sequence)(CVS)가 외부로부터 설정된 SDR/HDR 스위칭의 위치(시간 위치)에서 종료되도록 M 값을 제어한다.

간단하게 하기 위해, fNumSwitch를 현재 시간 위치에서의 프레임으로부터 스위칭 시간 위치에서의 프레임까지의 프레임들의 수라고 하고, M을 임시로 결정된 M값으로 한다.

fNumSwitch가 1보다 크거나 같고 M이 fNumSwitch보다 클 때, M 값 결정 섹션(113)은 M을 fNumSwitch보다 크지 않은 값으로 업데이트한다.

다른 경우들에서 fNumSwitch가 0일 때, M 값 결정 섹션은 CVS가 이전에 인코딩된 프레임에서 종료되도록 M을 1로 설정한다. 다시 말해서, 비디오 인코딩 디바이스는 현재 프레임을 IDR 화상으로서 압축한다. 또한, 비디오 디코딩 디바이스에 SDR/HDR 스위칭 정보를 전송하기 위해, 엔트로피 인코더(107)는 스위칭된 SDR 또는 HDR의 정보를 IDR 화상의 SPS의 VUI의 transfer_characteristics 신택스(syntax)에 설정한다. 예를 들어, HLG의 HDR로 스위칭하는 경우, transfer_characteristics 신택스에 18이 설정된다. PQ의 HDR로 스위칭하는 경우, transfer_characteristics 신택스에 16이 설정된다. Rec. ITU-R BT.2020의 SDR로 스위칭하는 경우, transfer_characteristics 신택스에 14가 설정된다. IEC 61966-2-4의 SDR로 스위칭하는 경우, transfer_characteristics 신택스에 11이 설정된다. Rec. ITU-R BT.709의 SDR로 스위칭하는 경우, transfer_characteristics 신택스에 1이 설정된다. 여기서, 엔트로피 인코더(107)는 IDR 화상의 비트스트림 전에 EOS 비트스트림을 출력할 수 있다.

다른 경우들에서, M 값 결정 섹션(113)은 M을 그대로 출력한다.

상기 언급한 SDR 또는 HDR에 대응하는 transfer_characteristics 신택스의 값과 속성 사이의 관계가 다음 표에 도시된다.

도 2에 도시된 비디오 디코딩 디바이스는 예시적인 실시예 1 내지 3에 기술된 바와 같이 모션 벡터 제한을 만족하는 범위 내에 설정된 M 값을 이용하여 인코딩된 비트스트림을 디코딩한다.

도 2에 도시된 비디오 디코딩 디바이스는 또한 비트스트림을 디코딩함으로써, 비디오 인코딩 디바이스로부터 전송된 SDR/HDR 스위칭 정보를 수신할 수 있다.

구체적으로, 비디오 디코딩 디바이스 내의 엔트로피 디코더(202)는 SPS의 VUI의 transfer_characteristics 신택스의 값을 디코딩함으로써, SDR/HDR 스위칭 정보를 수신할 수 있다. 예를 들어, transfer_characteristics 신택스가 18인 경우, 엔트로피 디코더(202)는 HLG의 HDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 16인 경우, 엔트로피 디코더(202)는 PQ의 HDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 14인 경우, 엔트로피 디코더(202)는 Rec. ITU-R BT.2020의 SDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 11인 경우, 엔트로피 디코더(202)는 IEC 61966-2-4의 SDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 1인 경우, 엔트로피 디코더(202)는 Rec. ITU-R BT.709로의 스위칭을 수신한다. 여기서, SDR/HDR 스위칭은 단지 M = 1로 인코딩되는 IDR 화상의 SPS를 디코딩함으로써 수신(검출)된다. EOS 비트스트림은 IDR 비트스트림 전에 수신(검출)될 수 있다.

전술한 비디오 디코딩 디바이스를 이용하는 수신 단말(reception terminal)은 SDR/HDR 스위칭 정보를 획득할 수 있고, 비디오 신호의 속성에 따라 비디오 디스플레이를 조정할 수 있다. 따라서, SDR/HDR 스위칭 디스플레이를 지원하면서 이미지 품질 저하 없는 비디오 디스플레이가 실현될 수 있다.

도 6은 비디오 시스템의 예시를 도시하는 블록도이다. 도 6에 도시된 비디오 시스템은 전술한 예시적인 실시예들의 각각에서의 비디오 인코딩 디바이스(100), 및 도 2에 도시된 비디오 디코딩 디바이스(200)가 무선 전송 경로 또는 유선 전송 경로(300)에 의해 연결되는 시스템이다. 비디오 인코딩 디바이스(100)는 전술한 예시적인 실시예들 1 내지 3 중 임의의 하나에서의 비디오 인코딩 디바이스(100)이다. 비디오 인코딩 디바이스(100)에서, 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)은 예시적인 실시예들 1 내지 3 중 임의의 둘 또는 전부에 따른 프로세스들을 수행하도록 구성될 수 있다.

상기 언급된 예시에서, 비디오 디코딩 측에 SDR/HDR 스위칭 정보를 전송하기 위한 전송 수단은 엔트로피 인코더(107)에 의해 실현되고, 비디오 인코딩 측으로부터 전송된 인코딩된 비디오 및 SDR/HDR 스위칭 정보를 디코딩하기 위한 디코딩 수단은 엔트로피 디코더(202)에 의해 실현된다. 그러나, 엔트로피 인코딩을 수행하기 위한 엔트로피 인코더가 엔트로피 인코더에 의해 생성된 인코딩된 데이터, 및 SDR/HDR 스위칭 정보를 다중화하기 위한 멀티플렉서(multiplexer)에서 분리되고, 엔트로피 디코딩을 수행하기 위한 엔트로피 디코더는 다중화된 비트스트림으로부터의 SDR/HDR 스위칭 정보 및 비디오를 역 다중화하기 위한 역-멀티플렉서에서 분리되는 경우, 비디오 시스템은 멀티플렉서를 포함하지 않은 부분들로 구성된 비디오 인코딩 디바이스, 및 역-멀티플렉서를 포함하지 않은 부분들로 구성된 비디오 디코딩 디바이스를 포함하는 시스템일 수 있다.

도 7은 비디오 시스템의 또 다른 예시를 도시하는 블록도이다. 도 7에 도시된 비디오 시스템은 오디오 인코딩 섹션(401), 비디오 인코딩 섹션(402), 및 다중화 섹션(403)을 포함한다.

오디오 인코딩 섹션(401)은 오디오 비트스트림을 생성 및 출력하기 위해, 예를 들어, ARIB STD-B32 표준에 정의된 MPEG-4 AAC(고급 오디오 코딩)(Advanced Audio Coding) 표준 또는 MPEG-4 ALS(오디오 무손실 코딩)(Audio Lossless Coding) 표준에 기초하여, 비디오 및 오디오를 포함하는 데이터(콘텐츠)의 가운데서 오디오 신호를 인코딩한다.

비디오 인코딩 섹션(402)은 비디오 비트스트림을 생성 및 출력하기 위해 예시로서 도 1에 도시된 바와 같이 구성된다.

다중화 섹션(403)은 비트스트림을 생성 및 출력하기 위해, 예를 들어, ARIB STD-B32 표준에 기초하여, 오디오 비트스트림, 비디오 비트스트림, 및 다른 정보를 다중화한다.

전술한 예시적인 실시예들의 각각은 하드웨어에 의해 실현되거나, 컴퓨터 프로그램에 의해 실현될 수 있다.

도 8에 도시된 정보 처리 시스템은 프로세서(1001), 프로그램 메모리(1002), 비디오 데이터를 저장하기 위한 저장 매체(1003), 및 비트스트림을 저장하기 위한 저장 매체(1004)를 포함한다. 저장 매체(1003) 및 저장 매체(1004)는 별개의 저장 매체들, 또는 동일한 저장 매체 내에 포함되는 저장 구역들일 수 있다. 하드 디스크와 같은 자기 저장 매체가 저장 매체로서 사용될 수 있다.

도 8에 도시된 정보 처리 시스템에서, 도 1 또는 도 2에 도시된 블록들(버퍼 블록 제외)의 기능들을 실현하기 위한 프로그램(비디오 인코딩 프로그램 또는 비디오 디코딩 프로그램)이 프로그램 메모리(1002) 내에 저장된다. 프로세서(1001)는 프로그램 메모리(1002) 내에 저장된 프로그램에 따른 프로세스들을 실행함으로써, 도 1에 도시된 비디오 인코딩 디바이스 또는 도 2에 도시된 비디오 디코딩 디바이스의 기능들을 실현한다.

도 9는 비디오 인코딩 디바이스의 주요부들을 도시하는 블록도이다. 도 9에 도시된 바와 같이, 비디오 인코딩 디바이스(10)는: 인코딩 통계 정보를 분석하기 위한 분석 섹션(11)(예시적인 실시예들에서의 분석 섹션(111)에 대응); 분석 섹션(11)의 분석 결과에 기초하여, 슬라이스 경계 부근에서 최적 모션 벡터가 선택가능한지 여부를 추정하기 위한 추정 섹션(12)(예시적인 실시예들에서의 판정 섹션(112)에 의해 실현됨); 추정 섹션(12)의 추정 결과 및 SDR/HDR 스위칭 정보에 기초하여, 시간 ID(Temporal ID)가 0인 화상 또는 화상들만으로 구성된 SOP 구조, 시간 ID가 0인 화상 또는 화상들, 및 시간 ID가 1인 화상 또는 화상들로 구성된 SOP 구조, 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 및 시간 ID가 2인 화상 또는 화상들로 구성된 SOP 구조, 및 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 및 시간 ID가 3인 화상 또는 화상들로 구성된 SOP 구조 중 임의의 하나로서 인코딩 구조를 적응적으로 결정하기 위한 인코딩 구조 결정 섹션(13)(예시적인 실시예들에서의 M 값 결정 섹션(113)에 의해 실현됨); 및 비디오 디코딩 측에 SDR/HDR 스위칭 정보를 전송하기 위한 전송 섹션(14)(예시적인 실시예들에서의 엔트로피 인코더(107)에 의해 실현됨)을 포함한다.

도 10은 비디오 디코딩 디바이스의 주요부들을 도시하는 블록도이다. 도 10에 도시된 바와 같이, 비디오 디코딩 디바이스(20)는 비디오 인코딩 측으로부터 전송된 시간 ID가 0인 화상만으로 구성된 SOP 구조, 시간 ID가 0인 화상, 및 시간 ID가 1인 화상으로 구성된 SOP 구조, 시간 ID가 0인 화상, 시간 ID가 1인 화상, 및 시간 ID가 2인 화상으로 구성된 SOP 구조, 및 시간 ID가 0인 화상, 시간 ID가 1인 화상, 시간 ID가 2인 화상, 및 시간 ID가 3인 화상으로 구성된 SOP 구조 중 임의의 하나, 및 SDR/HDR 스위칭 정보로 인코딩된 비디오를 디코딩하기 위한 디코딩 섹션(21)(예시적인 실시예들에서의 엔트로피 디코더(202)에 의해 실현됨)을 포함한다.

디코딩 섹션(21)은 설정 인코딩 구조로서, 시간 ID가 0인 화상만으로 구성된 SOP 구조, 시간 ID가 0인 화상, 및 시간 ID가 1인 화상으로 구성된 SOP 구조, 시간 ID가 0인 화상, 시간 ID가 1인 화상, 및 시간 ID가 2인 화상으로 구성된 SOP 구조, 및 시간 ID가 0인 화상, 시간 ID가 1인 화상, 시간 ID가 2인 화상, 및 시간 ID가 3인 화상으로 구성된 SOP 구조 중 임의의 하나에 기초하여 인코딩된 비트스트림을 디코딩할 수 있다.

또한, 도 11에 도시된 바와 같이 화면이 4개의 슬라이스들로 분할되고, 도 12에 도시된 바와 같이 하나의 슬라이스 모션 보상(motion compensation)(MC)의 PU는 또 다른 슬라이스를 참조하는 경우, 디코딩 섹션(21)은 슬라이스 경계를 가로지르는 동일한 PU에 의한 MC 레퍼런스가 슬라이스 경계로부터 128라인 내의 픽셀만을 참조한다는 제한 하에서 인코딩된 비트스트림을 디코딩할 수 있다.

예시적인 실시예들에서, 120P 움직이는 이미지를 취급하는 경우에, 도 13에 도시된 바와 같은 다음의 SOP 구조들이 비디오 인코딩 및 디코딩 측들 상에서 사용될 수 있다.

- L = 0의 구조: 시간 ID가 0인 화상 또는 화상들만으로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 1이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 0이다.)

- L = 1의 구조: 시간 ID가 0인 화상 또는 화상들, 및 시간 ID가 1(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 2이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 1(또는 M)이다.)

- L = 2의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 및 시간 ID가 2(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 3이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 2(또는 M)이다.)

- L = 3의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 및 시간 ID가 3(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 4이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 3(또는 M)이다.)

- L = 4의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 시간 ID가 3인 화상 또는 화상들, 및 시간 ID가 4(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 5이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 5(또는 M)이다.)

본 발명이 예시적인 실시예들 및 예시들을 참조하여 기술되었지만, 본 발명은 전술한 예시적인 실시예들 및 예시들에 한정되지 않는다. 본 발명의 범주 내에서 본 기술분야의 통상의 기술자에 의해 이해할 수 있는 다양한 변경들이 본 발명의 구조들 및 상세들에 대해 이루어질 수 있다.

본 출원은 그 개시내용 전체가 본 명세서에 포함되는 2015년 12월 2일에 출원된 일본 특허 출원 제2015-235525호에 기초하여 우선권을 주장한다.

10 비디오 인코딩 디바이스
11 분석 섹션
12 추정 섹션
13 인코딩 구조 결정 섹션
14 전송 섹션
20 비디오 디코딩 디바이스
21 디코딩 섹션
100 비디오 인코딩 디바이스
101 인코딩 섹션
102 화면 분할기
103 주파수 변환기/양자화기
104 역 양자화기/역 주파수 변환기
105 버퍼
106 예측기
107 엔트로피 인코더
111 분석 섹션
112 판정 섹션
113 M 값 결정 섹션
200 비디오 디코딩 디바이스
202 엔트로피 디코더
203 역 양자화기/역 주파수 변환기
204 예측기
205 버퍼
401 오디오 인코딩 섹션
402 비디오 인코딩 섹션
403 다중화 섹션
1001 프로세서
1002 프로그램 메모리
1003, 1004 저장 매체

Claims

비디오 인코딩 방법이며,
비디오 신호를 포함하는 비트스트림 내의 각각의 SPS(Sequence Parameter Set)의 VUI(Video Usability Information)의 transfer_characteristics 신택스(syntax) 내에, 상기 비디오 신호의 동적 범위에 관련된 정보를 설정하는 단계
를 포함하고,
상기 비디오 신호의 동적 범위가 SDR(표준 동적 범위)(Standard Dynamic Range)일 때, ITU-R BT.709에 의해 지정되는 특성들에 대응하는 값이 1로 상기 transfer_characteristics 신택스 내에 설정되고,
상기 비디오 신호의 동적 범위가 HDR(높은 동적 범위)(High Dynamic Range)일 때, HLG(하이브리드 로그 감마)(Hybrid Log Gamma)에 의해 지정되는 특성들 중 하나에 대응하는 값이 18로, 또는, PQ(지각 양자화기)(Perceptual Quantizer)에 의해 지정되는 특성들 중 하나에 대응하는 값이 16으로 상기 transfer_characteristics 신택스 내에 설정되고,
상기 비트스트림 내의 모든 화상은, 적어도, Temporal ID가 0인, 비디오 인코딩 방법.
비디오 인코딩 디바이스이며,
비디오 신호를 포함하는 비트스트림 내의 각각의 SPS(Sequence Parameter Set)의 VUI(Video Usability Information)의 transfer_characteristics 신택스 내에, 상기 비디오 신호의 동적 범위와 관련된 정보를 설정하는 전송 섹션
을 포함하고,
상기 전송 섹션은, 상기 비디오 신호의 동적 범위가 SDR(Standard Dynamic Range)일 때, ITU-R BT.709에 의해 지정되는 특성들에 대응하는 값을 1로 상기 transfer_characteristics 신택스 내에 설정하고,
상기 전송 섹션은, 상기 비디오 신호의 동적 범위가 HDR(High Dynamic Range)일 때, HLG(Hybrid Log Gamma)에 의해 지정되는 특성들 중 하나에 대응하는 값을 18로, 또는 PQ(Perceptual Quantizer)에 의해 지정되는 특성들 중 하나에 대응하는 값을 16으로, 상기 transfer_characteristics 신택스 내에 설정하고,
상기 비트스트림 내의 모든 화상은, 적어도, Temporal ID가 0인, 비디오 인코딩 디바이스.
비디오 인코딩 프로그램을 저장하는 컴퓨터 판독가능 정보 기록 매체이며,
상기 비디오 인코딩 프로그램은 프로세서에 의해 실행될 때,
비디오 신호를 포함하는 비트스트림 내의 각각의 SPS(Sequence Parameter Set)의 VUI(Video Usability Information)의 transfer_characteristics 신택스 내에, 상기 비디오 신호의 동적 범위와 관련된 정보를 설정하는 것
을 수행하고,
상기 비디오 신호의 동적 범위가 SDR(Standard Dynamic Range)일 때, ITU-R BT.709에 의해 지정되는 특성들에 대응하는 값이 1로 상기 transfer_characteristics 신택스 내에 설정되고,
상기 비디오 신호의 동적 범위가 HDR(High Dynamic Range)일 때, HLG(Hybrid Log Gamma)에 의해 지정되는 특성들 중 하나에 대응하는 값이 18로, 또는, PQ(Perceptual Quantizer)에 의해 지정되는 특성들 중 하나에 대응하는 값이 16으로 상기 transfer_characteristics 신택스 내에 설정되고,
상기 비트스트림 내의 모든 화상은, 적어도, Temporal ID가 0인, 컴퓨터 판독가능 정보 기록 매체.
비디오 디코딩 방법이며,
비트스트림 내의 각각의 SPS(Sequence Parameter Set)의 VUI(Video Usability Information)의 transfer_characteristics 신택스(syntax) 내에, 비디오 신호의 동적 범위에 관련된 정보를 포함하는 비트스트림으로부터 비디오 신호를 획득하는 단계
를 포함하고,
상기 비디오 신호의 동적 범위가 SDR(표준 동적 범위)(Standard Dynamic Range)일 때, ITU-R BT.709에 의해 지정되는 특성들에 대응하는 값이 상기 transfer_characteristics 신택스 내에 1로 설정되고,
상기 비디오 신호의 동적 범위가 HDR(높은 동적 범위)(High Dynamic Range)일 때, HLG(하이브리드 로그 감마)(Hybrid Log Gamma)에 의해 지정되는 특성들 중 하나에 대응하는 값이 18로, 또는, PQ(지각 양자화기)(Perceptual Quantizer)에 의해 지정되는 특성들 중 하나에 대응하는 값이 16으로 상기 transfer_characteristics 신택스 내에 설정되고,
상기 비트스트림 내의 모든 화상은, 적어도, Temporal ID가 0인, 비디오 디코딩 방법.
비디오 디코딩 디바이스이며,
비트스트림 내의 각각의 SPS(Sequence Parameter Set)의 VUI(Video Usability Information)의 transfer_characteristics 신택스 내에, 비디오 신호의 동적 범위와 관련된 정보를 포함하는 비트스트림으로부터 비디오 신호를 획득하는 디코딩 섹션
을 포함하고,
상기 비디오 신호의 동적 범위가 SDR(표준 동적 범위)(Standard Dynamic Range)일 때, ITU-R BT.709에 의해 지정되는 특성들에 대응하는 값이 상기 transfer_characteristics 신택스 내에 1로 설정되고,
상기 비디오 신호의 동적 범위가 HDR(높은 동적 범위)(High Dynamic Range)일 때, HLG(하이브리드 로그 감마)(Hybrid Log Gamma)에 의해 지정되는 특성들 중 하나에 대응하는 값이 18로, 또는, PQ(지각 양자화기)(Perceptual Quantizer)에 의해 지정되는 특성들 중 하나에 대응하는 값이 16으로 상기 transfer_characteristics 신택스 내에 설정되고,
상기 비트스트림 내의 모든 화상은, 적어도, Temporal ID가 0인, 비디오 디코딩 디바이스.
비디오 디코딩 프로그램을 저장하는 비일시적인 컴퓨터 판독가능 정보 기록 매체이며,
상기 비디오 디코딩 프로그램은 프로세서에 의해 실행될 때,
비트스트림 내의 각각의 SPS(Sequence Parameter Set)의 VUI(Video Usability Information)의 transfer_characteristics 신택스 내에, 비디오 신호의 동적 범위와 관련된 정보를 포함하는 비트스트림으로부터 비디오 신호를 획득하는 것
을 수행하고,
상기 비디오 신호의 동적 범위가 SDR(표준 동적 범위)(Standard Dynamic Range)일 때, ITU-R BT.709에 의해 지정되는 특성들에 대응하는 값이 상기 transfer_characteristics 신택스 내에 1로 설정되고,
상기 비디오 신호의 동적 범위가 HDR(높은 동적 범위)(High Dynamic Range)일 때, HLG(하이브리드 로그 감마)(Hybrid Log Gamma)에 의해 지정되는 특성들 중 하나에 대응하는 값이 18로, 또는, PQ(지각 양자화기)(Perceptual Quantizer)에 의해 지정되는 특성들 중 하나에 대응하는 값이 16으로 상기 transfer_characteristics 신택스 내에 설정되고,
상기 비트스트림 내의 모든 화상은, 적어도, Temporal ID가 0인, 컴퓨터 판독가능 정보 기록 매체.