KR20240135410A

KR20240135410A - 동영상 처리 방법, 장치 및 매체

Info

Publication number: KR20240135410A
Application number: KR1020247026589A
Authority: KR
Inventors: 예-쿠이 왕
Original assignee: 바이트댄스 아이엔씨
Priority date: 2022-01-11
Filing date: 2023-01-11
Publication date: 2024-09-10
Also published as: US20240364843A1; WO2023137321A3; EP4464024A2; CN118525518A; JP2025502160A; EP4464024A4; WO2023137321A2

Abstract

본 개시의 실시예는, 동영상 처리를 위한 해결책을 제공한다. 동영상 처리 방법이 제안된다. 상기 방법은, 동영상의 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계를 포함하며, 여기서 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

Description

동영상 처리 방법, 장치 및 매체

[관련출원]

본 출원은 2022년 1월 11일에 출원된 미국 가출원 일련번호 제63/298,461호의 우선권을 주장하며, 그 내용 전체가 본 명세서에 참조로 명시적으로 통합되어 있다.

본 개시의 실시형태는, 일반적으로 동영상 처리 기술에 관한 것이며, 보다 구체적으로는, 미디어 파일에서 외부 스트림 트랙의 시그널링에 관한 것이다.

미디어 스트리밍 애플리케이션은 일반적으로 인터넷 프로토콜(IP), 전송 제어 프로토콜(TCP) 및 하이퍼텍스트 전송 프로토콜(HTTP)의 전송 방법에 기초하며, 일반적으로, ISO 기반 미디어 파일 형식(ISOBMFF)과 같은 파일 형식에 의존한다. 이러한 스트리밍 시스템 중 하나는 HTTP(DASH)를 통한 동적 적응 스트리밍이다. DASH에서, 멀티미디어 콘텐츠의 동영상 및/또는 오디오 데이터에 대한 여러 표현이 있을 수 있으며, 다른 표현은 다른 코딩 특성(예: 동영상 코딩 표준의 다른 프로필 또는 레벨, 다른 비트 전송률, 다른 공간 해상도 등)에 해당할 수 있다. 또한 확장 종속 랜덤 액세스 포인트(EDRAP) 픽처 기반의 동영상 코딩 및 스트리밍이 제안된다. 따라서, 외부 스트림 트랙의 시그널링에 대해 연구할 가치가 있다.

본 개시의 실시형태는 동영상 처리를 위한 해결책을 제공한다.

제1 측면에서, 동영상 처리 방법이 제안된다. 상기 방법은, 동영상의 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계를 포함하며, 여기서 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

본 개시의 제1 측면에 따른 방법에 따르면, 외부 스트림 트랙의 샘플이 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하기 위해 새로운 제한된 방식이 채택된다. 제안된 방법은 종래 해결책에 비해, EDRAP 기반 기술을 보다 효율적으로 지원할 수 있다는 장점이 있다.

제2 측면에서, 동영상 데이터를 처리하는 장치가 제안된다. 상기 동영상 데이터를 처리하는 장치에는 프로세서 및 명령이 포함된 비일시적 메모리가 포함된다. 상기 명령은 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 본 개시의 제1 측면에 따른 방법을 수행하도록 한다.

제3 측면에서, 비일시적 컴퓨터 판독 가능 저장 매체가 제안된다. 상기 비일시적 컴퓨터 판독 가능 저장 매체에는 프로세서로 하여금 본 개시의 제1 측면에 따른 방법을 수행하도록 하는 명령이 저장된다.

제4 측면에서, 다른 비일시적 컴퓨터 판독 가능 기록 매체가 제안된다. 상기 비일시적 컴퓨터 판독 가능 기록 매체에는 동영상 처리 장치에 의해 수행되는 방법을 통해 생성된 동영상의 비트스트림이 저장된다. 상기 방법은, 상기 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계를 포함하며, 여기서 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

제5 측면에서, 동영상의 비트스트림을 저장하는 방법이 제안된다. 상기 방법은 상기 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계 및 상기 비트스트림을 비일시적 컴퓨터 판독 가능 기록 매체에 저장하는 단계를 포함한다. 여기서, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

제6 측면에서, 다른 비일시적 컴퓨터 판독 가능 기록 매체가 제안된다. 상기 비일시적 컴퓨터 판독 가능 기록 매체에는 동영상 처리 장치에 의해 수행되는 방법을 통해 생성된 동영상의 미디어 파일이 저장된다. 상기 방법은 상기 동영상의 비트스트림과 상기 미디어 파일 간의 변환을 수행하는 단계를 포함한다. 여기서, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

제7 측면에서, 동영상의 미디어 파일을 저장하는 방법이 제안된다. 상기 방법은, 상기 동영상의 비트스트림과 상기 미디어 파일 간의 변환을 수행하는 단계 및 상기 미디어 파일을 비일시적 컴퓨터 판독 가능 기록 매체에 저장하는 단계를 포함한다. 여기서, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

본 요약은, 아래의 상세한 설명에서 자세히 설명되는 개념의 선택을 간소화된 형태로 설명하기 위해 제공된다. 본 요약은 청구된 주제의 주요 특징 또는 필수적인 특징을 식별하기 위한 것이 아니며, 청구된 주제의 범위를 제한하기 위해 사용하려는 의도도 없다.

첨부된 도면을 참조한 이하의 상세한 설명을 통해, 본 개시의 예시적인 실시예의 상기 목적 및 기타 목적, 특징 및 이점이 더욱 명백해진다. 본 개시의 예시적인 실시예에서, 동일한 참조번호는 일반적으로 동일한 구성요소를 지칭한다.
도 1은 본 개시의 일부 실시형태에 따른 예시적인 동영상 코딩 시스템을 나타내는 블록도이다.
도 2는 본 개시의 일부 실시형태에 따른 예시적인 동영상 인코더를 나타내는 블록도이다.
도 3은 본 개시의 일부 실시형태에 따른 예시적인 동영상 디코더를 나타내는 블록도이다.
도 4는 랜덤 액세스 포인트(RAP)의 개념을 설명하기 위한 도이다.
도 5는 RAP의 개념을 설명하기 위한 다른 도이다.
도 6은 종속 랜덤 액세스 포인트(DRAP)의 개념을 설명하기 위한 도이다.
도 7은 DRAP의 개념을 설명하기 위한 다른 도이다.
도 8은 확장 종속 랜덤 액세스 포인트(EDRAP)의 개념을 설명하기 위한 도이다.
도 9는 EDRAP의 개념을 설명하기 위한 다른 도이다.
도 10은 EDRAP 기반 동영상 스트리밍을 나타내기 위한 도이다.
도 11은 EDRAP 기반 동영상 스트리밍을 나타내기 위한 다른 도이다.
도 12는 본 개시의 일부 실시예에 따른 동영상 처리 방법의 흐름을 나타내는 도이다.
도 13은 본 개시의 다양한 실시예가 구현될 수 있는 컴퓨팅 장치를 나타내는 블록도이다.
도면 전체에서, 동일하거나 유사한 참조 부호는 일반적으로 동일하거나 유사한 요소를 지칭한다.

이하, 일부 실시예를 참조하여 본 개시의 원리를 설명한다. 이러한 실시예는, 설명의 목적으로만 기재되며, 본 개시의 범위에 대한 어떠한 제한도 제시하지 않고, 당업자가 본 개시를 이해하고 구현하는 데 도움을 주는 것으로 이해되어야 한다. 본 명세서에 설명되는 개시는 아래에서 설명되는 방법 외에도 다양한 방법으로 구현될 수 있다.

달리 정의되지 않는 한, 아래의 설명 및 청구범위에서 본 명세서에 사용된 모든 기술 용어 및 과학 용어는 본 개시가 속하는 기술분야에서 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다.

본 개시에 있어서, "일 실시예", "실시예", "예시적인 실시예" 등의 언급은 설명된 실시형태가 특정 기능, 구조 또는 특성을 포함할 수 있다는 것을 나타내지만, 모든 실시형태가 반드시 특정 기능, 구조 또는 특성을 포함해야 하는 것은 아니다. 또한, 이러한 문구는 반드시 동일한 실시형태를 언급하는 것은 아니다. 또한, 특정 기능, 구조 또는 특성이 예시적인 실시형태와 관련하여 설명되는 경우, 명시적으로 설명되었는지 여부에 관계없이 다른 실시형태와 관련하여 이러한 기능, 구조 또는 특성에 영향을 미치는 것은 당업자의 지식 범위 내에 있는 것으로 제출된다.

"제1" 및 "제2" 등의 용어는 본 명세서에서 다양한 요소를 설명하기 위해 사용될 수 있지만, 이러한 요소는 이러한 용어에 의해 제한되어서는 안 된다는 것을 이해해야 한다. 이러한 용어는 한 요소를 다른 요소와 구별하기 위해서만 사용된다. 예를 들어, 예시적인 실시형태의 범위를 벗어나지 않으면서 제1 요소는 제2 요소로 명명될 수 있고, 유사하게 제2 요소가 제1 요소로 명명될 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "및/또는"은 나열된 용어 중 하나 이상의 모든 조합을 포함한다.

본 명세서에 사용되는 용어는 특정한 실시형태만을 설명하기 위해 사용되는 것으로, 예시적인 실시형태를 한정하려는 의도가 없다. 본 명세서에서 사용되는 단수 형태는 문맥상 명백하게 달리 지시하지 않는 한 복수 형태도 포함하도록 의도된다. 본 명세서에 사용되는 용어 "구성하다", "구성되는", "갖는", "가지는", "포함하는" 및/또는 "포함되는"은 언급된 특징, 요소 및/또는 구성요소 등의 존재를 지정하지만, 하나 이상의 다른 특징, 요소, 구성요소 및/또는 이들의 조합이 존재할 수 있거나 추가되는 것을 배제하지 않는다.

예제 환경

도 1은, 본 개시의 기술을 이용할 수 있는 예시적인 동영상 코딩 시스템(100)을 나타내는 블록도이다. 도시된 바와 같이, 동영상 코딩 시스템(100)은 소스 디바이스(110) 및 대상 디바이스(120)를 포함할 수 있다. 소스 디바이스(110)는 동영상 인코딩 디바이스라고도 지칭될 수 있으며, 대상 디바이스(120)는 동영상 디코딩 디바이스라고도 지칭될 수 있다. 작동 시, 소스 디바이스(110)는 인코딩된 동영상 데이터를 생성하도록 구성될 수 있고, 대상 디바이스(120)는 소스 디바이스(110)에 의해 생성된 인코딩된 동영상 데이터를 디코딩하도록 구성될 수 있다. 소스 디바이스(110)는 동영상 소스(112), 동영상 인코더(114) 및 입력/출력(I/O) 인터페이스(116)를 포함할 수 있다.

동영상 소스(112)는 동영상 캡처 디바이스와 같은 소스를 포함할 수 있다. 동영상 캡처 디바이스의 예에는 동영상 콘텐츠 제공자로부터 동영상 데이터를 수신하기 위한 인터페이스, 동영상 데이터를 생성하기 위한 컴퓨터 그래픽 시스템 및/또는 이들의 조합이 포함되지만 이에 제한되지는 않는다.

동영상 데이터는 하나 이상의 픽처를 포함할 수 있다. 동영상 인코더(114)는 동영상 소스(112)로부터의 동영상 데이터를 인코딩하여 비트스트림을 생성한다. 비트스트림은 동영상 데이터의 코딩된 표현을 형성하는 비트 시퀀스를 포함할 수 있다. 비트스트림은 코딩된 픽처 및 관련 데이터를 포함할 수 있다. 코딩된 픽처는 픽처의 코딩된 표현이다. 관련 데이터에는 시퀀스 매개변수 세트, 픽처 매개변수 세트 및 기타 구문 구조가 포함될 수 있다. I/O 인터페이스(116)는 변조기/복조기 및/또는 송신기를 포함할 수 있다. 인코딩된 동영상 데이터는 네트워크(130A)를 통해 I/O 인터페이스(116)에 의해 대상 디바이스(120)에 직접 전송될 수 있다. 인코딩된 동영상 데이터는 또한 대상 디바이스(120)에 의한 액세스를 위해 저장 매체/서버(130B)에 저장될 수 있다.

대상 디바이스(120)는 I/O 인터페이스(126), 동영상 디코더(124) 및 디스플레이 디바이스(122)를 포함할 수 있다. I/O 인터페이스(126)는 수신기 및/또는 모뎀을 포함할 수 있다. I/O 인터페이스(126)는 소스 디바이스(110) 또는 저장 매체/서버(130B)로부터 인코딩된 동영상 데이터를 획득할 수 있다. 동영상 디코더(124)는 인코딩된 동영상 데이터를 디코딩할 수 있다. 디스플레이 디바이스(122)는 디코딩된 동영상 데이터를 사용자에게 디스플레이할 수 있다. 디스플레이 디바이스(122)는 대상 디바이스(120)에 통합되거나, 외부 디스플레이 디바이스와 인터페이싱하도록 구성된 대상 디바이스(120)의 외부에 있을 수 있다.

동영상 인코더(114) 및 동영상 디코더(124)는 고효율 동영상 코딩(High Efficiency Video Coding, HEVC) 표준, 다용도 동영상 코딩(Versatile Video Coding, VVC) 표준 및 기타 현재 표준 및/또는 추가 표준과 같은 동영상 압축 표준에 따라 동작할 수 있다.

도 2는 본 개시의 일부 실시형태에 따른, 도 1에 예시된 시스템(100)의 동영상 인코더(114)의 예일 수 있는 동영상 인코더(200)의 예를 나타내는 블록도이다.

동영상 인코더(200)는 본 개시의 기술 중 일부 또는 전부를 구현하도록 구성될 수 있다. 도 2의 예에서, 동영상 인코더(200)는 복수의 기능적 구성요소를 포함한다. 본 개시에서 설명되는 기술은 동영상 인코더(200)의 다양한 구성요소 사이에 공유될 수도 있다. 일부 예에서, 프로세서는 본 개시에 설명된 기술 중 일부 또는 전부를 수행하도록 구성될 수 있다.

일부 실시예에서, 동영상 인코더(200)는 분할 유닛(201), 모드 선택 유닛(203), 모션 추정 유닛(204), 모션 보상 유닛(205) 및 인트라 예측 유닛(206)을 포함할 수 있는 예측 유닛(202), 잔차 생성 유닛(207), 변환 유닛(208), 양자화 유닛(209), 역양자화 유닛(210), 역변환 유닛(211), 재구성 유닛(212), 버퍼(213) 및 엔트로피 인코딩 유닛(214)을 포함할 수 있다.

다른 예에서, 동영상 인코더(200)는 더 많은 기능적 구성요소, 더 적은 기능적 구성요소 또는 다른 기능적 구성요소를 포함할 수 있다. 일 예에서, 예측 유닛(202)은 블록 내 복사(IBC) 유닛을 포함할 수 있다. IBC 유닛은 적어도 하나의 참조 픽처가 현재 동영상 블록이 위치하는 픽처인 IBC 모드에서 예측을 수행할 수 있다.

또한, 모션 추정 유닛(204) 및 모션 보상 유닛(205)과 같은 일부 구성요소는 통합될 수 있지만, 도 2의 예에서는 설명을 위해 별도로 표시된다.

분할 유닛(201)은 픽처를 하나 이상의 동영상 블록으로 분할할 수 있다. 동영상 인코더(200) 및 동영상 디코더(300)는 다양한 동영상 블록 크기를 지원할 수 있다.

모드 선택 유닛(203)은, 예를 들어 에러 결과에 기초하여 인트라 또는 인터 코딩 모드 중 하나를 선택하고, 그 결과로부터 얻어진 인트라 코딩 또는 인터 코딩된 블록을, 잔차 블록 데이터를 생성하기 위한 잔차 생성 유닛(207)에 제공하고, 인코딩된 블록을 재구성하여 참조 픽처로서 사용하기 위해 재구성 유닛(212)에 제공할 수 있다. 일부 예에서, 모드 선택 유닛(203)은 예측이 인터 예측 신호 및 인트라 예측 신호에 기초하는 인트라 및 인터 예측(Intra and Inter Predication, CIIP) 모드의 조합을 선택할 수 있다. 모드 선택 유닛(203)은 인터 예측의 경우 블록에 대한 모션 벡터의 해상도(예를 들어, 서브 픽셀 또는 정수 픽셀 정밀도)를 선택할 수도 있다.

현재 동영상 블록에 대해 인터 예측을 수행하기 위해, 모션 추정 유닛(204)은 버퍼(213)로부터의 하나 이상의 참조 프레임을 현재 동영상 블록과 비교함으로써 현재 동영상 블록에 대한 모션 정보를 생성할 수 있다. 모션 보상 유닛(205)은 버퍼(213)로부터 현재 동영상 블록과 관련된 픽처를 제외한 픽처의 모션 정보 및 디코딩된 샘플에 기초하여 현재 동영상 블록에 대한 예측 동영상 블록을 결정할 수 있다.

모션 추정 유닛(204) 및 모션 보상 유닛(205)은 예를 들어, 현재 동영상 블록이 I-슬라이스, P-슬라이스 또는 B-슬라이스에 있는지 여부에 따라 현재 동영상 블록에 대해 서로 다른 연산을 수행할 수 있다. 본 명세서에서 사용된 바와 같이, "I-슬라이스"는 매크로블록으로 구성된 픽처의 일부를 의미할 수 있으며, 이는 모두 동일한 픽처의 매크로블록에 기초한다. 또한, 본 명세서에서 사용되는 바와 같이, 일부 측면에서 "P-슬라이스" 및 "B-슬라이스"는 동일한 픽처의 매크로블록에 의존하지 않는 매크로블록으로 구성된 픽처의 부분을 지칭할 수 있다.

일부 예에서, 모션 추정 유닛(204)은 현재 동영상 블록에 대한 단방향 예측을 수행할 수 있고, 모션 추정 유닛(204)은 현재 동영상 블록의 참조 동영상 블록에 대해 리스트 0 또는 리스트 1의 참조 픽처를 검색할 수 있다. 그 후, 모션 추정 유닛(204)은 참조 동영상 블록을 포함하는 리스트 0 또는 리스트 1의 참조 픽처를 나타내는 참조 인덱스와 현재 동영상 블록과 참조 동영상 블록 사이의 공간적 변위를 나타내는 모션 벡터를 생성할 수 있다. 모션 추정 유닛(204)은 참조 인덱스, 예측 방향 지시자 및 모션 벡터를 현재 동영상 블록의 모션 정보로 출력할 수 있다. 모션 보상 유닛(205)은 현재 동영상 블록의 모션 정보에 의해 지시되는 참조 동영상 블록을 기초로 현재 동영상 블록의 예측 동영상 블록을 생성할 수 있다.

대안적으로, 다른 예에서, 모션 추정 유닛(204)은 현재 동영상 블록에 대해 양방향 예측을 수행할 수 있다. 모션 추정 유닛(204)은 현재 동영상 블록의 참조 동영상 블록에 대해 리스트 0의 참조 픽처를 검색할 수 있고, 현재 동영상 블록의 다른 참조 동영상 블록에 대해 리스트 1의 참조 픽처를 검색할 수도 있다. 그 다음, 모션 추정 유닛(204)은 참조 동영상 블록과 현재 동영상 블록 사이의 공간적 변위를 나타내는 모션 벡터 및 참조 동영상 블록을 포함하는 리스트 0 및 리스트 1의 참조 픽처를 나타내는 참조 인덱스를 생성할 수 있다. 모션 추정 유닛(204)은 현재 동영상 블록의 참조 인덱스 및 모션 벡터를 현재 동영상 블록의 모션 정보로서 출력할 수 있다. 모션 보상 유닛(205)은 현재 동영상 블록의 모션 정보에 의해 표시된 참조 동영상 블록에 기초하여 현재 동영상 블록의 예측 동영상 블록을 생성할 수 있다.

일부 예에서, 모션 추정 유닛(204)은 디코더의 디코딩 처리를 위한 모션 정보의 전체 세트를 출력할 수 있다. 대안적으로, 일부 실시예에서, 모션 추정 유닛(204)은 다른 동영상 블록의 모션 정보를 참조하여 현재 동영상 블록의 모션 정보를 시그널링할 수 있다. 예를 들어, 모션 추정 유닛(204)은 현재 동영상 블록의 모션 정보가 인접한 동영상 블록의 모션 정보와 충분히 유사하다고 결정할 수 있다.

일 예에서, 모션 추정 유닛(204)은 현재 동영상 블록과 연관된 구문 구조에서, 현재 동영상 블록이 다른 동영상 블록과 동일한 모션 정보를 갖는다는 것을 동영상 디코더(300)에 지시하는 값을 지시할 수 있다.

다른 예에서, 모션 추정 유닛(204)은 현재 동영상 블록과 연관된 구문 구조에서, 다른 동영상 블록 및 모션 벡터 차이(MVD)를 식별할 수 있다. 모션 벡터 차이는 현재 동영상 블록의 모션 벡터와 지시된 동영상 블록의 모션 벡터 간의 차이를 지시한다. 동영상 디코더(300)는 지시된 동영상 블록의 모션 벡터와 모션 벡터 차이를 사용하여 현재 동영상 블록의 모션 벡터를 결정할 수 있다.

위에서 논의된 바와 같이, 동영상 인코더(200)는 모션 벡터를 예측적으로 시그널링할 수도 있다. 동영상 인코더(200)에 의해 구현될 수 있는 예측 시그널링 기술의 두 가지 예에는 고급 모션 벡터 예측(Advanced Motion Vector Predication, AMVP) 및 병합 모드 시그널링이 포함된다.

인트라 예측 유닛(206)은 현재 동영상 블록에 대해 인트라 예측을 수행할 수 있다. 인트라 예측 유닛(206)이 현재 동영상 블록에 대해 인트라 예측을 수행하는 경우, 인트라 예측 유닛(206)은 동일 픽쳐 내 다른 동영상 블록의 디코딩된 샘플에 기초하여, 현재 동영상 블록에 대한 예측 데이터를 생성할 수 있다. 현재 동영상 블록에 대한 예측 데이터에는 예측된 동영상 블록 및 다양한 구문 요소가 포함될 수 있다.

잔차 생성 유닛(207)은 현재 동영상 블록에서 현재 동영상 블록의 예측 동영상 블록을 빼는 것(예를 들어, 마이너스 부호로 지시됨)을 통해 현재 동영상 블록에 대한 잔차 데이터를 생성할 수 있다. 현재 동영상 블록의 잔차 데이터는 현재 동영상 블록의 샘플의 서로 다른 샘플 구성요소에 대응하는 잔차 동영상 블록을 포함할 수 있다.

다른 예에서, 스킵 모드에서 현재 동영상 블록에 대한 현재 동영상 블록의 잔차 데이터가 없을 수도 있고, 잔차 생성 유닛(207)은 감산 연산을 수행하지 않을 수도 있다.

변환 처리 유닛(208)은 현재 동영상 블록과 연관된 잔차 동영상 블록에 하나 이상의 변환을 적용함으로써 현재 동영상 블록에 대한 하나 이상의 변환 계수 동영상 블록을 생성할 수 있다.

변환 처리 유닛(208)이 현재 동영상 블록과 연관된 변환 계수 동영상 블록을 생성한 후, 양자화 유닛(209)은 현재 동영상 블록과 연관된 하나 이상의 양자화 매개변수(QP) 값에 기초하여 현재 동영상 블록과 연관된 변환 계수 동영상 블록을 양자화할 수 있.

역양자화부(210) 및 역변환부(211)는 변환계수 동영상 블록에 각각 역양자화 및 역변환을 적용하여 변환 계수 동영상 블록으로부터 잔차 동영상 블록을 재구성할 수 있다. 재구성 유닛(212)은 버퍼(213)에 저장할 현재 동영상 블록과 연관된 재구성된 동영상 블록을 생성하기 위해, 재구성된 잔차 동영상 블록을 예측 유닛(202)에 의해 생성된 하나 이상의 예측 동영상 블록으로부터의 대응 샘플에 추가할 수 있다.

재구성 유닛(212)이 동영상 블록을 재구성한 후, 루프 필터링 동작이 수행되어 동영상 블록 내의 동영상 블로킹 아티팩트를 감소시킬 수 있다.

엔트로피 인코딩 유닛(214)은 동영상 인코더(200)의 다른 기능적 구성요소로부터 데이터를 수신할 수 있다. 엔트로피 인코딩 유닛(214)이 데이터를 수신하면, 엔트로피 인코딩 유닛(214)은 하나 이상의 엔트로피 인코딩 동작을 수행하여 엔트로피 인코딩 데이터를 생성하고, 엔트로피 인코딩 데이터를 포함하는 비트스트림을 출력할 수 있다.

도 3은 본 개시의 일부 실시형태에 따른, 도 1에 예시된 시스템(100)의 동영상 디코더(124)의 예일 수 있는 동영상 디코더(300)의 예를 나타내는 블록도이다.

동영상 디코더(300)는 본 개시의 기술 중 일부 또는 전부를 수행하도록 구성될 수 있다. 도 3의 예에서, 동영상 디코더(300)는 복수의 기능 구성요소를 포함한다. 본 개시에 설명된 기술은 동영상 디코더(300)의 다양한 구성요소 사이에 공유될 수도 있다. 일부 예에서, 프로세서는 본 개시에 설명된 기술 중 일부 또는 전부를 수행하도록 구성될 수 있다.

도 3의 예에서, 동영상 디코더(300)는 엔트로피 디코딩 유닛301), 모션 보상 유닛(302), 인트라 예측 유닛(303), 역양자화 유닛(304), 역변환 유닛(305), 재구성 유닛(306) 및 버퍼(307)를 포함한다. 동영상 디코더(300)는 일부 예에서 동영상 인코더(200)에 관해 설명된 인코딩 패스와 일반적으로 상호 대응하는 디코딩 패스를 수행할 수도 있다.

엔트로피 디코딩 유닛(301)은 인코딩된 비트스트림을 검색할 수 있다. 인코딩된 비트스트림은 엔트로피 코딩된 동영상 데이터(예를 들어, 동영상 데이터의 인코딩된 블록)를 포함할 수 있다. 엔트로피 디코딩 유닛(301)은 엔트로피 코딩된 동영상 데이터를 디코딩할 수 있고, 모션 보상 유닛(302)은 엔트로피 디코딩된 동영상 데이터로부터 모션 벡터, 모션 벡터 정밀도, 참조 픽처 리스트 인덱스 및 기타 모션 정보를 포함하는 모션 정보를 결정할 수 있다. 예를 들어, 모션 보상 유닛(302)은 AMVP 및 병합 모드를 수행함으로써 이러한 정보를 결정할 수 있다. 인접한 PB 및 참조 화면의 데이터에 기초하여 가장 가능성이 높은 몇 가지 후보를 도출하는 것을 포함하여 AMVP가 사용된다. 모션 정보에는 일반적으로 수평 및 수직 모션 벡터 변위 값, 하나 또는 두 개의 참조 픽처 인덱스 및 B 슬라이스의 예측 영역의 경우, 참조 픽처 리스티가 각 인덱스와 연관되어 있다는 식별이 포함된다. 본 명세서에서 사용된 바와 같이, 일부 측면에서, "병합 모드"는 공간적으로 또는 시간적으로 인접한 블록으로부터 모션 정보를 도출하는 것을 의미할 수 있다.

모션 보상 유닛(302)은 보간 필터에 기초하여 보간을 수행하여 모션 보정 블록을 생성할 수 있다. 하위 픽셀 정밀도로 사용되는 보간 필터의 식별자가 구문 요소에 포함될 수 있다.

모션 보상 유닛(302)은 동영상 블록의 인코딩 중에 동영상 인코더(200)에 의해 사용되는 보간 필터를 사용하여 참조 블록의 서브 정수 픽셀에 대한 보간된 값을 계산할 수 있다. 모션 보상 유닛(302)은 수신된 구문 정보에 따라 동영상 인코더(200)에 의해 사용되는 보간 필터를 결정하고, 보간 필터를 사용하여 예측 블록을 생성할 수 있다.

모션 보상 유닛(302)은 인코딩된 동영상 시퀀스의 프레임 및/또는 슬라이스를 인코딩하는 데 사용되는 블록의 크기, 인코딩된 동영상 시퀀스 픽처의 각 매크로블록이 어떻게 분할되는지 설명하는 분할 정보, 각 분할이 인코딩되는 방식을 지시하는 모드, 각 인터 인코딩된 블록에 대한 하나 이상의 참조 프레임(및 참조 프레임 리스트) 및 인코딩된 동영상 시퀀스를 디코딩하기 위한 기타 정보를 결정하기 위해 구문 정보의 적어도 일부를 사용할 수 있다. 본 명세서에서 사용된 바와 같이, 일부 측면에서, "슬라이스"는 엔트로피 코딩, 신호 예측 및 잔차 신호 재구성의 관점에서, 동일한 픽처의 다른 슬라이스와 독립적으로 디코딩될 수 있는 데이터 구조를 지칭할 수 있다. 슬라이스는 전체 픽처일 수 있고 픽처의 영역일 수도 있다.

인트라 예측 유닛(303)은 예를 들어 비트스트림에서 수신된 인트라 예측 모드를 사용하여 공간적으로 인접한 블록으로부터 예측 블록을 형성할 수 있다. 역양자화 유닛(304)은 비트스트림에 제공되고, 엔트로피 디코딩 유닛(301)에 의해 디코딩된 양자화 동영상 블록 계수를 역 양자화, 즉 비양자화 한다. 역변환 유닛(305)은 역변환을 적용한다.

재구성 유닛(306)은 예를 들어, 모션 보상 유닛(302) 또는 인트라 예측 유닛(303)에 의해 생성된 대응하는 예측 블록과 잔차 블록을 합산함으로써 디코딩된 블록을 얻을 수 있다. 원하는 경우, 블록화 아티팩트를 제거하기 위해 디블록킹 필터를 적용하여 디코딩된 블록을 필터링할 수도 있다. 그런 다음, 디코딩된 동영상 블록은 버퍼(307)에 저장되며, 이는 후속 모션 보상/인트라 예측을 위한 참조 블록을 제공하고 또한 디스플레이 장치에 표시하기 위해 디코딩된 동영상을 생성한다.

이하, 본 개시의 일부 예시적인 실시예를 상세히 설명한다. 본 명세서에서는 이해를 쉽게 하기 위해 섹션 표제가 사용되었으며, 섹션에 개시된 실시형태가 해당 섹션에만 제한되지 않는다는 점을 이해해야 한다. 또한, 특정 실시형태는 다용도 동영상 코딩 또는 다른 특정 동영상 코덱을 참조하여 설명되지만, 개시된 기술은 다른 동영상 코딩 기술에도 적용될 수 있다. 또한, 일부 실시예에서는 동영상 코딩 단계를 자세히 설명하지만, 코딩을 취소하는 대응하는 해당 디코딩 단계는 디코더에 의해 구현되는 것으로 이해될 것이다. 또한, 동영상 처리라는 용어는 동영상 코딩 또는 압축, 동영상 디코딩 또는 압축 해제 및 동영상 픽셀을 하나의 압축 형식에서 다른 압축 형식으로 또는 다른 압축 비트율로 표현하는 동영상 트랜스코딩을 포함한다.

1. 요약

본 개시는 미디어 파일 형식에 관한 것이다. 구체적으로, 이는 적절한 샘플 항목 유형을 갖는 외부 스트림 트랙(EST)을 시그널링하는 것과 관련이 있으며, EST에서 하나의 샘플에 하나 이상의 코딩된 픽처를 포함할 수 있도록 허용한다. EST는 메인 스트림 트랙(MST)에서 확장 종속 랜덤 액세스 포인트(EDRAP) 픽처에서의 랜덤 액세스하는 데 필요한 외부 픽처를 제공한다. 이러한 아이디어는 ISO 기본 미디어 파일 형식(ISOBMFF) 및 ISOBMFF에서 파생된 파일 형식 등의 임의의 미디어 파일 형식에 따라, 개별적으로 또는 다양한 조합으로 미디어 파일에 적용될 수 있다.

2. 배경

2.1. 동영상 코딩 표준

동영상 코딩 표준은 주로 잘 알려진 ITU-T 및 ISO/IEC 표준의 개발을 통해 발전해 왔다. ITU-T는 H.261과 H.263을 제작하였고, ISO/IEC는 MPEG-1과 MPEG-4 Visual을 제작하였으며, 이 두 조직은 공동으로 H.262/MPEG-2 Video, H.264/MPEG-4 고도 동영상 코딩(AVC) 및 H.265/HEVC 표준을 제작하였다. H.262 이후, 동영상 코딩 표준은 시간적 예측과 변환 코딩이 활용되는 하이브리드 동영상 코딩 구조에 기초한 것이다. HEVC를 초과하는 미래의 동영상 코딩 기술을 탐구하기 위해, 2015년 VCEG와 MPEG이 공동으로 합동 동영상 탐험대(Joint Video Exploration Team, JVET)를 설립하였다. 그 이후로, JVET는 많은 새로운 방법을 채택하여 공통 탐사 모델(Joint Exploration Model, JEM)이라는 참조 소프트웨어에 추가하였다. 그 후, 다용도 동영상 코딩(VVC) 프로젝트가 공식적으로 시작되었을 때, 합동 동영상 탐험대(JVET)는 합동 동영상 전문가팀(JVET)으로 이름이 변경되었다. VVC는 HEVC에 비해 비트율을 50% 감소시키는 것을 목표로 하는 새로운 코딩 표준으로, 2020년 7월 1일에 끝난 제19차 회의에서 JVET 에 의해 최종 확정되었다.

다용도 동영상 코딩(VVC) 표준(ITU-T H.266 | ISO/IEC 23090-3) 및 관련 다용도 보충 향상 정보 표준(ITU-T H.274 | ISO/IEC 23002-7)은 텔레비전 방송, 화상 회의 또는 저장 매체에서의 재생과 같은 종래의 용도와, 적응형 비트 전송률 스트리밍, 동영상 영역 추출, 여러 코딩된 동영상 비트스트림으로부터의 콘텐츠 구성 및 병합, 다중 뷰 동영상, 확장 가능한 레이어 코딩 및 뷰포트 적응형 360° 몰입형 미디어와 같은 더욱 새롭고 고급 사용 사례를 포함하는 최대한 광범위한 응용 분야에서 사용하도록 설계되었다.

2.2. 파일 형식 표준

미디어 스트리밍 애플리케이션은 일반적으로 IP, TCP 및 HTTP 전송 방법에 기초하며, 일반적으로 ISO 기반 미디어 파일 형식(ISOBMFF)과 같은 파일 형식에 의존한다. 이러한 스트리밍 시스템 중 하나는 HTTP를 통한 동적 적응 스트리밍(DASH)이다. ISOBMFF 및 DASH와 함께 동영상 형식을 사용하려면, AVC 파일 형식 및 HEVC 파일 형식과 같은 동영상 형식에 특정한 파일 형식 사양은 ISOBMFF 트랙과 DASH 표현 및 세그먼트에서 동영상 콘텐츠를 캡슐화하는 데 필요할 경우가 있다. 프로필, 계층 및 레벨 및 기타 여러 정보와 같이 동영상 비트스트림에 대한 중요한 정보는, 예를 들어 스트리밍 세션 시작 시 초기화와 스트리밍 세션 중 스트림 적응을 위해 적절한 미디어 세그먼트를 선택하기 위해, 콘텐츠 선택 목적으로 파일 형식 레벨 메타데이터 및/또는 DASH 미디어 프레젠테이션 설명(MPD)으로 개시되어야 한다. 마찬가지로, ISOBMFF에서 이미지 형식을 사용하려면, AVC 이미지 파일 형식과 HEVC 이미지 파일 형식과 같이, 해당 이미지 형식에 특정한 파일 형식 사양이 필요하다.

2.3. HEVC 및 VVC에서의 랜덤 액세스와 이의 지원

랜덤 액세스는 디코딩 순서에서 비트스트림의 첫 번째 픽처가 아닌 픽처로부터 비트스트림에 대한 액세스 및 디코딩을 시작하는 것을 지칭한다. 방송/멀티캐스트 및 다자간 화상 회의에서 튜닝 및 채널 전환을 지원하고, 로컬 재생 및 스트리밍에서 탐색하고, 스트리밍에서 스트림 적응을 지원하기 위해 비트스트림에는, 일반적으로 인트라 코딩된 픽처이지만 인터 코딩된 픽처일 수도 있는 빈번한 랜덤 액세스 포인트가 포함되어야 한다(예: 점진적 디코딩 새로 고침의 경우).

HEVC에는 NAL 유닛 유형을 통해 NAL 유닛 헤더에 인트라 랜덤 액세스 포인트(IRAP) 픽처 시그널링이 포함된다. 인스턴트 디코더 새로 고침(IDR), 클린 랜덤 액세스(CRA) 및 끊어진 링크 액세스(BLA) 픽처의 세 가지 유형의 IRAP 픽처가 지원된다. IDR 픽처는 픽처 간 예측 구조를 제한하여 현재 픽처 그룹(GOP) 이전의 픽처를 참조하지 않도록 제한하며, 일반적으로 폐쇄형 GOP 랜덤 액세스 포인트라고 한다. CRA 픽처는 특정 픽처가 현재 GOP 이전의 픽처를 참조할 수 있도록 허용하여 제한이 적고, 랜덤 액세스의 경우 모두 삭제된다. CRA 픽처는 일반적으로 개방형 GOP 랜덤 액세스 포인트라고 한다. BLA 픽처는 일반적으로 스트림 전환 중에 CRA 픽처에서 두 개의 비트스트림 또는 그 일부를 접합하는 과정에서 발생한다. IRAP 픽처를 사용할 수 있는 시스템을 만들기 위해, 총 6개의 서로 다른 NAL 유닛을 정의하여 IRAP 픽처의 속성을 시그널링하며, 이는 ISO 기반 미디어 파일 형식(ISOBMFF)에서 정의된 스트림 액세스 포인트 유형을 더 잘 일치시키는 데 사용할 수 있으며, 이는 HTTP를 통한 동적 적응형 스트리밍(DASH)에서 랜덤 액세스 지원에 사용된다.

VVC는 세 가지 유형의 IRAP 픽처, 두 가지 유형의 IDR 픽처(한 유형은 연관된 RADL 픽처가 있거나 없음) 및 한 가지 유형의 CRA 픽처를 지원한다. 이는 기본적으로 HEVC와 동일하다. HEVC의 BLA 픽처 유형은 주로 다음 2 가지 이유에 의해 VVC에 포함되지 않는다. i) BLA 픽처의 기본 기능은 CRA 픽처와 시퀀스 종료 NAL 유닛을 통해 구현할 수 있으며, 이 NAL 유닛이 있으면 후속 픽처가 단일 계층 비트스트림에서 새로운 CVS를 시작한다는 것을 지시한다. ii) NAL 유닛 헤더의 NAL 유닛 유형 필드에 6비트 대신 5비트를 사용한 것에서 지시된 듯이, VVC 개발 중에, HEVC보다 적은 NAL 유닛 유형을 지정하려는 요구가 있었다.

VVC와 HEVC 간 랜덤 액세스 지원에서 또 다른 주요 차이점은 VVC에서 보다 규범적인 방식으로 GDR을 지원한다는 것이다. GDR에서 비트스트림의 디코딩은 인터 코딩된 픽처에서 시작할 수 있으며, 처음에는 전체 픽처 영역을 올바르게 디코딩할 수 있지만 여러 픽처를 디코딩한 후에는 전체 픽처 영역을 올바르게 디코딩할 수 있다. AVC와 HEVC도 GDR를 지원하며, GDR 랜덤 액세스 포인트와 복구 포인트를 시그널링하기 위해 복구 포인트 SEI 메시지를 사용한다. VVC에서는 GDR 픽처를 지시하기 위해, 새로운 NAL 유닛 유형이 지정되고 복구 포인트는 픽처 헤더 구문 구조에서 시그널링된다. CVS와 비트스트림은 GDR 픽처로 시작할 수 있다. 즉, 전체 비트스트림에는 단일 인트라 코딩된 픽처 없이 인터 코딩된 픽처만 포함될 수 있다. 이러한 방식으로 GDR 지원을 지정하는 주요 이점은 GDR에 적합한 동작을 제공하는 것이다. GDR는 인코더가 전체 픽처를 인트라 코딩하는 것과는 달리, 여러 픽처에 인트라 코딩된 슬라이스 또는 블록을 분산시켜 비트스트림의 비트 전송률을 부드럽게 할 수 있으며, 따라서 엔드투엔드 지연을 크게 줄일 수 있다. 이는 무선 디스플레이, 온라인 게임, 드론 기반 애플리케이션과 같은 초저지연 애플리케이션이 대중화됨에 따라 이전보다 더 중요한 것으로 간주되고 있다.

VVC의 다른 GDR 관련 기능은 가상 경계 신호이다. GDR 픽처와 복구 포인트 사이의 픽처에서 새로 고침된 영역(즉, 올바르게 디코딩된 영역)과 새로 고침되지 않은 영역 사이의 경계는 가상 경계로 시그널링될 수 있으며, 신호가 전달되면 경계를 가로지르는 루프 내 필터링이 적용되지 않으므로 경계에서 또는 경계 근처의 일부 샘플에 대한 디코딩 불일치가 발생하지 않는다. 이는 애플리케이션이 GDR 프로세스 중에 올바르게 디코딩된 영역을 표시하려고 할 때 유용할 수 있다.

IRAP 픽처와 GDR 픽처는 통칭하여 랜덤 액세스 포인트(RAP) 픽처라고 할 수 있다.

2.4 확장 종속 랜덤 액세스 포인트(EDRAP) 기반 동영상 코딩, 저장 및 스트리밍

2.4.1 개념 및 표준 지원

EDRAP 기반 동영상 코딩, 저장 및 스트리밍의 개념은 아래와 같이 도 4 내지 도 11을 참조하여 설명한다.

도 4와 도 5는 기존의 랜덤 액세스 포인트(RAP) 개념을 설명하는 도이다. 애플리케이션(예: 적응형 스트리밍)은 RAP 주기 1초 또는 2초와 같은 랜덤 액세스 포인트(RAP)의 빈도를 결정한다. 일반적으로, RAP는 도 4에 도시된 바와 같이, IRAP 픽처를 코딩하여 제공된다. RAP 픽처 사이의 키가 아닌 픽처에 대한 인터 예측 참조는 표시되지 않으며, 왼쪽에서 오른쪽으로 출력 순서가 지정된다. CRA6에서 랜덤 액세스하는 경우, 디코더는 도 5에 도시된 바와 같이, 픽처를 수신하고 올바르게 디코딩한다.

도 6과 도 7은 종속 랜덤 액세스 포인트(DRAP)의 개념을 설명하는 도이다. DRAP 접근 방식은 도 6에 도시된 바와 같이, DRAP 픽처(및 후속 픽처)가 인터 예측을 위해 이전 IRAP 픽처를 참조할 수 있도록 하여 향상된 코딩 효율을 제공한다. RAP 픽처 사이의 키가 아닌 픽처에 대한 인터 예측은 표시되지 않으며 왼쪽에서 오른쪽으로 출력 순서가 지정된다. DRAP6에서 랜덤 액세스하는 경우, 디코더는 도 7에 도시된 바와 같이, 픽처를 수신하고 올바르게 디코딩한다.

도 8과 도 9는 확장 종속 랜덤 액세스 포인트(EDRAP)의 개념을 설명하는 도이다. EDRAP 접근 방식은, 도 8에 도시된 바와 같이, EDRAP 픽처(및 후속 픽처)가 이전 RAP 픽처(IRAP 또는 EDRAP) 중 일부를 참조할 수 있도록 하여 좀 더 유연성을 제공한다. RAP 픽처 사이의 키가 아닌 픽처에 대한 인터 예측은 표시되지 않으며, 출력 순서가 왼쪽에서 오른쪽으로 지정된다. EDRAP6에서 랜덤 액세스하는 경우, 디코더는 도 9에 도시된 바와 같이, 픽처를 수신하고 올바르게 디코딩한다.

도 10과 도 11은 EDRAP 기반 동영상 스트리밍을 설명하는 도이다. EDRAP6에서 시작하는 세그먼트에서 랜덤 액세스하거나 해당 세그먼트로 전환할 때 디코더는 도 11에 도시된 바와 같이, 세그먼트를 수신하고 디코딩한다.

EDRAP 기반 동영상 코딩은 VSEI 표준에 대한 개발 중인 수정안에 포함된 EDRAP 지시 SEI 메시지에 의해 지원되고, 저장 부분은 ISOBMFF 표준에 대한 개발 중인 수정안에 포함된 EDRAP 샘플 그룹 및 연관된 외부 스트림 트랙 참조에 의해 지원되며, 스트리밍 부분은 DASH 표준에 대한 개발 중인 수정안에 포함된 메인 스트림 표현(MSR) 설명자 및 외부 스트림 표현(ESR) 설명자에 의해 지원된다.

2.4.2 EDRAP 지시 SEI 메시지

VSEI 표준에 대한 수정안이 개발 중이다. 이 수정안의 최신 초안 사양에는 EDRAP 지시 SEI 메시지 사양이 포함된다.

EDRAP 지시 SEI 메시지의 구문과 의미는 다음과 같다.

확장된 DRAP(EDRAP) 지시 SEI 메시지와 연관된 픽처는 EDRAP 픽처라고 지칭한다.EDRAP 지시 SEI 메시지의 존재는 이 하위 절에 지정된 픽처 순서 및 픽처 참조에 대한 제약 조건이 적용됨을 지시한다. 이러한 제약 조건을 통해 디코더는 동일한 CLVS 내에 있고 edrap_ref_rap_id[ i ] 구문 요소로 식별되는 디코딩 순서의 IRAP 또는 EDRAP 픽처 목록으로 구성된 referenceablePicture 목록 외에, 동일한 계층에 있는 다른 픽처를 디코딩할 필요가 없고, 동일한 계층에 있는 EDRAP 픽처와 디코딩 순서와 출력 순서에서 그 뒤에 오는 픽처를 적절히 디코딩할 수 있다.

모두 적용되어야 하는 EDRAP 지시 SEI 메시지의 존재로 지시되는 제약 조건은 다음과 같다.

- EDRAP 픽처는 후행 픽처이다.

- EDRAP 픽처는 시간적 하위 계층 식별자가 0이다.

- EDRAP 픽처는 참조 픽처 목록의 활성 항목에서 referenceablePicture를 제외한 동일한 계층에 있는 픽처를 포함하지 않는다.

- 동일한 계층에 있고 디코딩 순서와 출력 순서 모두에서 EDRAP 픽처 뒤에 오는 임의의 픽처는 참조 픽처 목록의 활성 항목에 referenceablePicture를 제외한 동일한 계층에 있고, 디코딩 순서 또는 출력 순서에서 EDRAP 픽처 앞에 있는 픽처를 포함하지 않는다.

- referenceablePicture 목록에 있는 모든 픽처는 참조 픽처 목록의 활성 항목에 동일한 계층에 있고, referenceablePicture 목록에서 이전 위치에 있는 픽처가 아닌 픽처를 포함하지 않는다.

참고-따라서, referenceablePicture 목록의 첫 번째 픽처는 IRAP 픽처 대신 EDRAP 픽처인 경우에도, 참조 픽처 목록의 활성 항목에 있는 동일한 계층의 픽처를 포함하지 않는다.

edrap_rap_id_minus1 더하기 1은 EDRAP 픽처의 RapPicId로 표시되는 RAP 픽처 식별자를 지정한다.

각 IRAP 또는 EDRAP 픽처는 RapPicId 값과 연관된다. IRAP 픽처의 RapPicId 값은 0과 같다고 추론된다. 동일한 IRAP 픽처와 연관된 임의의 두 개의 EDRAP 픽처에 대한 RapPicId 값은 달라야 한다.

edrap_leading_pictures_decodable_flag가 1이면 다음 두 가지 제약 조건이 모두 적용된다.

- 동일한 계층에 있고 디코딩 순서에서 EDRAP 픽처 뒤에 오는 모든 픽처는 출력 순서에서 동일한 계층에 있고 디코딩 순서에서 EDRAP 픽처 앞에 있는 픽처 뒤에 와야 한다.

- 동일한 계층에 있고 디코딩 순서에서 EDRAP 픽처 뒤에 오며, 출력 순서에서 EDRAP 픽처 앞에 있는 모든 픽처는 참조 픽처 목록의 활성 항목에 referenceablePicture를 제외하고는 동일한 계층에 있고, 디코딩 순서에서 EDRAP 픽처 앞에 있는 픽처를 포함하지 말아야 한다.

edrap_leading_pictures_decodable_flag가 0이면 이러한 제약이 부과되지 않는다.

edrap_reserved_zero_12bits는 이 사양의 이 버전을 준수하는 비트스트림에서 0과 동일해야 한다. edrap_reserved_zero_12bits의 다른 값은 ITU-T | ISO/IEC에서 향후 사용을 위해 예약되어 있다. 디코드는 edrap_reserved_zero_12bits의 값을 무시해야 한다.

edrap_num_ref_rap_pics_minus1 더하기 1은 EDRAP 픽처와 동일한 CLVS 내에 있는, EDRAP 픽처의 참조 픽처 목록의 활성 항목에 포함될 수 있는 IRAP 또는 EDRAP 픽처의 수를 지시한다.

edrap_ref_rap_id[i]는 EDRAP 픽처의 참조 픽처 목록의 활성 항목에 포함될 수 있는 i번째 RAP 픽처의 RapPicId를 지시한다. i번째 RAP 픽처는 현재 EDRAP 픽처와 연관된 IRAP 픽처이거나, 현재 EDRAP 픽처와 동일한 IRAP 픽처와 연관된 EDRAP 픽처 여야 한다.

2.4.3 EDRAP 샘플 그룹 및 관련 외부 스트림 트랙 참조

ISOBMFF 표준에 대한 수정안이 개발 중이다. 이 수정안의 최신 초안 사양에는 EDRAP 샘플 그룹 및 관련 외부 스트림 트랙 참조의 사양이 포함된다.

이 두 개의 ISOBMFF 기능의 사양은 다음과 같다.

3.1 정의

외부 기본 스트림

외부 픽처가 있는 액세스 유닛을 포함하는 기본 스트림

외부 픽처

EST의 외부 기본 스트림에 있는 픽처이며, MST의 특정 EDRAP 픽처에서 랜덤 액세스할 경우, MST의 기본 스트림을 디코딩할 때 인터 예측 참조에 필요한 픽처

외부 스트림 트랙(EST)

외부 기본 스트림을 포함하는 트랙

메인 스트림 트랙 (MST)

동영상 기본 스트림을 포함하는 트랙

3.2 약어

EDRAP 확장 종속 랜덤 액세스 포인트

EST 외부 스트림 트랙

MST 메인 스트림 트랙

8.3.3.4 연관된 외부 스트림 트랙 참조

'aest' 유형의 트랙 참조(즉, "연관된 외부 스트림 트랙")는 EST를 참조하는 MST에 포함될 수 있다.

MST에 'aest' 유형의 트랙 참조가 있는 경우, 다음이 적용된다.

- MST에는 EDRAP 픽처가 포함된 샘플이 하나 이상 있어야 한다.

- EDRAP 픽처가 포함된 MST의 각 샘플 sampleA에 대해, sampleA와 동일한 디코딩 시간을 갖는 연관된 EST에 샘플 sampleB가 하나만 있어야 하며, sampleB에서 시작하는 연관된 EST의 여러 연속 샘플은 sampleA에 포함된 EDRAP 픽처에서 랜덤 액세스할 때 필요한 모든 외부 픽처를 독점적으로 포함해야 한다.

EST의 모든 샘플은 동기화 샘플로 식별되어야 한다. EST 트랙 헤더 플래그는 track_in_movie와 track_in_preview를 모두 0으로 설정해야 한다.

10.11 확장된 DRAP(EDRAP) 샘플 그룹

10.11.1 정의

이 샘플 그룹은 하위 절 10.8에 지정된 DRAP 샘플 그룹과 유사하지만, 보다 유연한 교차 RAP 참조를 가능하게 한다.

EDRAP 샘플은 디코딩 순서와 출력 순서에 따라 모든 샘플을 올바르게 디코딩할 수 있는 샘플로, EDRAP 샘플보다 디코딩 순서가 앞선 가장 가까운 초기 샘플과 하나 이상의 다른 식별된 EDRAP 샘플을 참조할 수 있는 경우이다.

초기 샘플은 Sync 샘플 또는 SAP 샘플 그룹으로 표시된 SAP 유형 1, 2 또는 3의 SAP 샘플이다. 예를 들어, 파일의 32번째 샘플이 I-픽처로 구성된 초기 샘플인 경우, 48번째 샘플은 P-픽처로 구성될 수 있으며, EDRAP 샘플 그룹의 멤버로 표시되어 32번째 샘플을 먼저 디코딩(샘플 33 내지 47은 무시)한 다음, 48번째 샘플에서 계속 디코딩하여 48번째 샘플에서 랜덤 액세스를 수행할 수 있음을 지시할 수 있다.

참고: EDRAP 샘플은 유형 1, 2 및 3의 SAP 샘플과 조합하여서만 사용할 수 있다. 이는 이전 SAP 샘플과 디코딩 순서에서 EDRAP 샘플보다 먼저 식별된 0개 이상의 다른 EDRAP 샘플을 EDRAP 샘플과 디코딩 순서 및 출력 순서에서 EDRAP 샘플과 그 뒤에 오는 샘플과 연결하여 디코딩 가능한 샘플 시퀀스를 생성하는 기능을 활성화하기 위한 것이다.

샘플은 다음 조건이 참인 경우에만 EDRAP 샘플 그룹의 멤버가 될 수 있다.

- EDRAP 샘플은 가장 가까운 선행 초기 샘플과 디코딩 순서에서 EDRAP 샘플보다 먼저 식별된 하나 이상의 다른 EDRAP 샘플만 참조한다.

- EDRAP 샘플과 디코딩 순서 및 출력 순서에서 EDRAP 샘플 뒤에 오는 모든 샘플은, Sync 샘플 또는 SAP 샘플 그룹으로 표시된 유형 1, 2 또는 3의 가장 가까운 이전 SAP 샘플을 디코딩하고, 디코딩 순서에서 EDRAP 샘플보다 먼저 식별된 0개 이상의 다른 EDRAP 샘플을 디코딩한 후 EDRAP 샘플에서 디코딩을 시작하면 올바르게 디코딩될 수 있다.

10.11.2 구문

class VisualEdrapEntry()

extends VisualSampleGroupEntry('edrp') {

unsigned int(3) edrap_type;

unsigned int(3) num_ref_edrap_pics;

unsigned int(26) reserved = 0;

for(i=0; i<num_ref_edrap_pics; i++)

unsigned int(16) ref_edrap_idx_delta[i];

}

10.11.3 의미론

edrap_type은 음이 아닌 정수이다. edrap_type이 1~3 범위에 있는 경우, 가장 가까운 선행 SAP 또는 다른 EDRAP 샘플에 의존하지 않았다면, EDRAP 샘플이 해당했을 SAP_type(부록 I에 지정된 바와 같이)을 지시한다. 다른 유형 값은 예약되어 있다.

num_ref_edrap_pics는 EDRAP 샘플에서 디코딩을 시작할 때 디코딩 순서와 출력 순서에서 EDRAP 샘플과 그 뒤에 오는 모든 샘플을 올바르게 디코딩하기 위해 참조해야 하는, EDRAP 샘플보다 디코딩 순서가 앞선 다른 EDRAP 샘플의 수를 지시한다.

reserved는 0과 같아야 한다. 이 하위 절의 의미는 예약이 0인 샘플 그룹 설명 항목에만 적용된다. 구문 분석기는 이 샘플 그룹을 구문 분석할 때 예약이 0보다 큰 샘플 그룹 설명 항목을 허용하고 무시해야 한다.

ref_edrap_idx_delta[i]는 이 EDRAP 샘플의 샘플 그룹 인덱스(즉, 디코딩 순서에 따른 이 샘플 그룹에 있는 모든 샘플 목록 인덱스)와 디코딩 순서에서 EDRAP 샘플보다 앞선 i번째 RAP 샘플의 샘플 그룹 인덱스의 차이를 지시하며, 이 EDRAP 샘플에서 디코딩을 시작할 때, 디코딩 순서와 출력 순서 모두에서 EDRAP 샘플과 EDRAP 샘플 뒤에 오는 모든 샘플을 올바르게 디코딩하기 위해 참조하는 데 필요하다. 값 1은 i번째 RAP 샘플이 샘플 그룹에서 디코딩 순서에서 이 EDRAP 샘플보다 앞선 최신 RAP 샘플임을 지시하고, 값 2는 i번째 RAP 샘플이 샘플 그룹에서 두 번째로 최신의 RAP 샘플이고 디코딩 순서에서 이 EDRAP 샘플보다 앞선다는 것을 지시한다.

2.5 ISOBMFF 에서 샘플 항목 유형 변환

ISOBMFF에는 보호된 콘텐츠 또는 렌더링 전에 일부 특수한 포스트 디코더 처리 요구 사항이 필요한 콘텐츠 유형에 대해 샘플 항목 유형을 변환할 수 있는 기능이 포함되어 있다. 이러한 포스트 디코더 처리 요구 사항의 예로는, 입체 동영상 지원을 위한 프레임 패킹 및 전방향 또는 360도 동영상 지원을 위한 프로젝션이 있다.

파일 작성자가 플레이어 또는 렌더러에서 특정 작업을 요구하는 상황을 처리하기 위해, ISOBMFF에는 플레이어가 파일을 간단히 검사하여 비트스트림을 렌더링에 필요한 요구 사항을 파악하고 추가 처리가 필요한 파일을 디코딩하고 렌더링하는 레거시 플레이어를 중지할 수 있는 메커니즘이 포함되어 있다. 이 메커니즘은 모든 유형의 동영상 코덱에 적용된다.

이 메커니즘은 샘플 항목이 일반 샘플 항목 'encv', 'enca' 등의 뒤에 숨겨져 암호화되거나 캡슐화된 미디어를 나타내는 콘텐츠 보호 변환과 유사하다. 제한된 동영상에 대한 유사한 메커니즘은 일반 샘플 항목 'resv'를 사용하여 변환을 사용한다. 이 방법은 콘텐츠를 올바르게 제공하는 플레이어에서만 디코딩해야 하는 경우에 적용될 수 있다.

제한된 샘플 입력 변환 및 관련 시그널링은 다음과 같이 지정된다.

2.5.1 제한된 샘플 항목 변환

제한된 샘플 항목은 다음 변환 절차가 적용된 샘플 항목으로 정의된다.

1) 샘플 항목의 4자리 코드는 제한된 동영상을 의미하는 샘플 항목 코드 'resv'로 대체된다.

2) RestrictedSchemeInfoBox가 샘플 설명에 추가되고 다른 모든 박스는 수정되지 않는다.

3) 원래 샘플 항목 유형은 RestrictedSchemeInfoBox에 포함된 OriginalFormatBox에 저장된다.

RestrictedSchemeInfoBox는 식별자 'sinf' 대신 'rinf'를 사용한다는 점을 제외하면ProtectionSchemeInfoBox와 형식이 완전히 동일하다(아래 참조).

원래 샘플 항목 유형은(암호화된 미디어의 ProtectionSchemeInfoBox와 동일한 방식으로) RestrictedSchemeInfoBox에 위치하는 OriginalFormatBox에 포함되어 있다.

제한의 정확한 성질은 SchemeTypeBox에 정의되어 있으며, 해당 방식에 필요한 데이터는 보호 정보와 유사하게 SchemeInformationBox에 저장된다.

제한과 보호는 동시에 적용될 수 있다. 변환 순서는 샘플 항목의 4자리 코드에 따른다. 예를 들어, 샘플 항목 유형이 'resv'인 경우, 위의 변환을 실행 취소하면 샘플 항목 유형이 'encv'로 변경될 수 있으며, 이는 미디어가 보호됨을 지시한다.

파일 작성자가 레거시 플레이어에 의해 파일을 재생하는 것을 중단하지 않고 자문 정보만 제공하려는 경우, 4자리 코드를 변환하지 않고 샘플 항목 내부에 RestrictedSchemeInfoBox를 배치할 수 있다. 이 경우, OriginalFormatBox를 포함할 필요가 없다.

2.5.2 제한된 방식 정보 박스

2.5.2.1 정의

박스 유형: 'rinf'

컨테이너: 제한된 샘플 항목 또는 샘플 항목

필수: 제한된 샘플 항목의 경우 예, 그렇지 않은 경우 아니요

수량: 0 또는 1

RestrictedSchemeInfoBox에는 적용된 제한 방식와 해당 매개변수를 이해하는 데 필요한 모든 정보가 포함되어 있다. 또한 미디어의 원래(변형되지 않은) 샘플 항목 유형을 문서화한다. RestrictedSchemeInfoBox는 컨테이너 박스이다. 'resv'와 같은 제한된 스트림을 지시하는 코드를 사용하는 샘플 항목에서는 필수 항목이다.

제한된 샘플 항목에서 사용되는 경우, 이 박스에는 원래 샘플 항목 유형을 문서화하는 OriginalFormatBox와 SchemeTypeBox가 포함되어야 한다. 제한 방식에 따라 SchemeInformationBox가 필요할 수 있다.

2.5.2.2 구문

aligned(8) class RestrictedSchemeInfoBox(fmt) extends Box('rinf') {

OriginalFormatBox(fmt) original_format;

SchemeTypeBox scheme_type_box;

SchemeInformationBox info; // optional

}

2.5.3 스킴 유형 박스

2.5.3.1 정의

박스 유형: 'schm'

컨테이너: ProtectionSchemeInfoBox, RestrictedSchemeInfoBox,

또는 SRTPProcessBox

필수: 아니요

수량: 'sinf'의 경우, 보호 구조에 따라 0 또는 1이고, 'rinf' 및 'srpp'의 경우, 정확히 1이다.

SchemeTypeBox는 보호 또는 제한 방식을 식별한다.

2.5.3.2 구문

aligned(8) class SchemeTypeBox extends FullBox('schm', 0, flags) {

unsigned int(32) scheme_type; // 4CC identifying the scheme

unsigned int(32) scheme_version; // scheme version

if (flags & 0x000001) {

utf8string scheme_uri; // browser uri

}

2.5.3.3 의미론

scheme_type은 보호 또는 제한 방식을 정의하는 코드로, 일반적으로 4자리 코드로 표현된다.

scheme_version은 방식의 버전(콘텐츠를 만드는 데 사용됨)이다.

scheme_URI는 사용자의 시스템에 방식이 설치되어 있지 않은 경우, 사용자를 웹 페이지로 안내하는 옵션을 허용하는 절대 URI이다.

2.5.4 방식 정보 박스

2.5.4.1 정의

박스 유형: 'schi'

컨테이너: ProtectionSchemeInfoBox, RestrictedSchemeInfoBox,

또는 SRTPProcessBox

필수: 아니요

수량: 0 또는 1

SchemeInformationBox는 사용 중인 방식에 의해서만 해석되는 컨테이너 박스이다. 암호화 또는 제한 시스템에 필요한 모든 정보가 여기에 저장된다. 이 박스의 내용은 SchemeTypeBox에 선언된 방식에 의해 유형과 형식이 정의되는 일련의 박스이다.

2.5.4.2 구문

aligned(8) class SchemeInformationBox extends Box('schi') {

Box scheme_specific_data[];

}

2.5.5 원래 형식 박스

2.5.5.1 정의

박스 유형: 'frma'

컨테이너: ProtectionSchemeInfoBox, RestrictedSchemeInfoBox, 또는

CompleteTrackInfoBox

필수: 보호된 샘플 항목, 제한된 샘플 항목 또는 불완전한 트랙의 샘플 항목에서 사용되는 경우, 예.

수량: 정확히 1개.

OriginalFormatBox에는 변환되지 않은 원래 샘플 설명의 4자리 코드가 포함되어 있다.

2.5.5.2 구문

aligned(8) class OriginalFormatBox(codingname) extends Box ('frma') {

unsigned int(32) data_format = codingname;

// format of decrypted, encoded data (in case of protection)

// or un-transformed sample entry (in case of restriction

// and complete track information)

}

2.5.5.3 의미론

data_format은 변환되지 않은 원래 샘플 항목의 4자리 코드이다(예: 스트림에 보호되거나 제한된 MPEG-4 시각적 자료가 포함된 경우 'mp4v').

3. 문제점

EDRAP 기반 동영상 코딩, 저장 및 스트리밍의 저장 부분에 대한 기존 설계와 관련된 한 가지 문제가 있다. 외부 스트림 트랙(EST)의 샘플에는 하나 이상의 코딩된 픽처가 있을 수 있다. 따라서, 일반 동영상 샘플 항목 유형(예: VCC 샘플 항목 유형 또는 HEVC 샘플 항목 유형)을 EST에 사용하는 경우, 각 샘플에는 하나의 코딩된 픽처만 포함되어야 한다는 일반적인 요구 사항을 위반하게 된다.

4. 자세한 해결책

위의 문제를 해결하기 위해 아래에 요약된 방법이 공개된다. 이 해결책은 일반적인 개념을 설명하기 위한 예시로 간주되어야 하며, 좁은 의미로 해석되어서는 안 된다. 또한 이러한 해결책은 개별적으로 적용되거나 어떤 방식으로든 조합하여 사용할 수 있다.

1) 일 예에서, 일반 동영상 샘플 항목 유형을 숨기기 위해, 'aest'와 같은 새로운 제한된 방식 유형을 사용하여 샘플 항목 유형 변환. 다음 중 하나 이상이 적용된다.

a. 샘플 항목의 4자리 코드는 샘플 항목 코드 'resv'이다.

b. 일반 동영상 샘플 항목 유형은 RestrictedSchemeInfoBox에 포함된 OriginalFormatBox에 저장된다.

c. RestrictedSchemeInfoBox에 있는 SchemeTypeBox의 scheme_type 필드는 트랙의 샘플이 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하는 값과 같다.

i. 일 예에서, scheme_type 필드의 값은 'aest'와 같다.

d. SchemeTypeBox의 플래그 필드의 비트 0은 0과 같으므로 (flags & 0x000001)의 값은 0과 같다.

e. 일 예에서, 또한, EST와 관련된 정보를 포함하기 위해, EsternalStreamInfoBox라는 명칭의 새로운 박스가 지정된다. 새로운 박스에는 다음 필드 중 하나 이상이 포함될 수 있다.

i. EST와 연관된 메인 스트림 트랙(MST)의 트랙 ID를 지시하는 필드.

ii. EST의 모든 샘플에서 코딩된 픽처의 최대 수를 지시하는 필드.

iii. EST의 각 샘플에서 첫 번째 코딩된 픽처가 IRAP 픽처인지 여부를 지시하는 필드.

iv. EST의 각 샘플에 샘플의 코딩된 픽처를 디코딩하는 데 필요한 모든 매개변수 세트가 포함되어 있는지 여부를 지시하는 필드.

v. EST의 각 샘플에 대해 EDRAP 지시 SEI 메시지의 해당 edrap_leading_pictures_decodable_flag가 1일 때, 연관된 MST의 해당 EDRAP 픽처가 제약 조건을 충족시키는지 여부를 지시하는 필드.

5. 실시예

다음은, 섹션 4에 요약된 일부 해결책의 측면에 대한 일부 예시적인 실시형태이다. 추가 또는 수정된 대부분의 관련성이 있는 부분은 밑줄이 그어져 있으며, 일부 삭제된 부분은 표시되어 있다. 그 외 편집상의 변경 사항으로 강조 표시되지 않은 부분이 있을 수 있다.

5.1 실시예 1

본 실시예는, 항목 1.e 및 모든 하위 항목을 제외한 항목 1 및 모든 하위 항목에 대한 것이다.

8.3.3.4 연관된 외부 스트림 트랙 참조

MST에 'aest' 유형의 트랙 참조가 있는 경우 다음이 적용된다.

- MST에는 EDRAP 픽처가 포함된 샘플이 하나 이상 있어야 한다.

- EDRAP 픽처가 포함된 MST의 각 샘플 sampleA에 대해, 연관된 EST에 sampleA와 동일한 디코딩 시간을 갖는 샘플 sampleB가 하나만 있어야 하며, sampleB에서 시작하는 연관된 EST의 여러 연속 샘플은 sampleA에 포함된 EDRAP 픽처에서 랜덤 액세스하는 데 필요한 모든 외부 픽처를 독점적으로 포함해야 한다.

각 EST마다 다음과 같이 제한된 방식을 사용해야 한다.

1) 샘플 항목의 4자리 코드는 샘플 항목 코드 'resv'이다.

2) 일반 동영상 샘플 항목 유형은 RestrictedSchemeInfoBox에 포함된 OriginalFormatBox 내에 저장된다.

3) RestrictedSchemeInfoBox에 있는 SchemeTypeBox의 scheme_type 필드는 'aest'와 같으며, 이는 트랙의 샘플에 하나 이상의 코딩된 픽처가 포함될 수 있음을 지시한다.

4) SchemeTypeBox의 플래그 필드의 비트 0이 0이므로 (플래그 & 0x000001)의 값이 0이다.

본 개시의 실시형태에 대한 더 자세한 내용은, 미디어 파일에서 외부 스트림 트랙의 시그널링과 관련하여 아래에 설명된다. 본 개시의 실시형태는 일반적인 개념을 설명하기 위한 예로 간주되어야 하며, 좁은 의미로 해석되어서는 안 된다. 또한, 이러한 실시형태는 개별적으로 적용되거나 어떠한 방식으로든 조합될 수 있다.

본 명세서에서 사용되는 용어 "샘플"은 단일 시간과 관련된 모든 데이터를 나타낼 수 있다. 용어 "샘플 항목"은 트랙에서 일부 샘플의 형식을 정의하고 설명하는 구조를 지칭할 수 있다. 용어 "트랙"은 관련 샘플의 타이밍된 시퀀스를 지칭할 수 있다. 용어 "박스"는 고유한 유형 식별자와 길이로 정의된 객체 지향 구축 블록을 지칭할 수 있다.

도 12는, 본 개시의 일부 실시형태에 따른 동영상 처리 방법(1200)의 흐름을 나타내는 도이다. 방법(1200)은 클라이언트 또는 서버에서 구현될 수 있다. 본 명세서에서 사용되는 용어 "클라이언트"는 컴퓨터 네트워크의 클라이언트 서버 모델의 일부로 서버에 의해 제공되는 서비스에 액세스하는 컴퓨터 하드웨어 또는 소프트웨어를 지칭할 수 있다. 예를 들어, 클라이언트는 스마트폰 또는 태블릿일 수 있다. 본 명세서에서 사용되는 용어 "서버"는 컴퓨팅이 가능한 장치를 지칭할 수 있으며, 이 경우, 클라이언트는 네트워크를 통해 서비스에 액세스한다. 서버는 물리적 컴퓨팅 장치 또는 가상 컴퓨팅 장치일 수 있다.

도 12에 도시된 바와 같이, 단계 1202에서 동영상의 비트스트림과 동영상의 미디어 파일 간의 변환이 수행된다. 미디어 파일은 국제 표준화 기구(ISO) 기반 미디어 파일 형식과 같이 파일 형식의 맥락에서 미디어 콘텐츠의 제한적 또는 무제한적 프레젠테이션을 설정하는 데이터 모음이다. 일부 실시형태에서, 변환은 미디어 파일을 생성하고 비트스트림을 미디어 파일에 저장하는 단계를 포함할 수 있다. 추가적으로 또는 대안적으로, 변환은 비트스트림을 재구성하기 위해 미디어 파일을 구문 분석하는 단계를 포함할 수 있다.

일부 실시예에서, 미디어 파일은 외부 스트림 트랙을 포함한다. 예를 들어, EDRAP 기반 동영상 처리의 맥락에서, 외부 스트림 트랙은 해당 메인 스트림 트랙에 의해 참조될 수 있다. 외부 스트림 트랙은 샘플 세트를 포함한다. 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화된다. 제한이 아닌 예시로서, 제한된 방식을 사용하는 샘플 항목 변환은 샘플 항목 유형을 숨기는 데 적용될 수 있다. 샘플 항목 유형은 샘플 항목의 원래 샘플 항목 유형일 수 있다. 샘플 항목 유형은 샘플 항목의 현재 샘플 항목 유형과 같은 다른 샘플 항목 유형일 수 있음을 이해해야 한다. 본 개시의 범위는 이와 관련하여 제한되지 않는다.

또한, 샘플 항목은 제한된 방식과 연관된 지시를 포함하고, 지시의 값은 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다. 제한이 아닌 예시로서, 샘플 항목은 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조(예: RestrictedSchemeInfoBox라고도 하는 제한된 방식 정보 박스)를 포함할 수 있다. 제1 데이터 구조는 제한된 방식을 식별하는 제2 데이터 구조(예: SchemeTypeBox라고도 하는 방식 유형 박스)를 포함할 수 있다.

또한, 지시는 제2 데이터 구조에 있는 제1 필드(예: scheme_type 필드라고도 하는 방식 유형 필드)를 포함할 수 있다. 일 예에서, 제1 필드의 값은 'aest'와 같은 미리 정해진 코드와 같을 수 있다. 방식 유형 필드가 미리 정해진 값과 같은 제한된 방식이 트랙에 사용되는 경우, 샘플 항목과 연관된 샘플은 원래 트랙의 샘플을 하나 이상 포함할 수 있다. 미리 정해진 코드는 'spkt'와 같은 다른 임의의 적합한 코드일 수 있음을 이해해야 한다. 또한, 상기 도면 및/또는 예시는 단지 설명의 목적을 위해 설명된다는 것을 이해해야 한다. 본 개시의 범위는 이와 관련하여 제한되지 않는다.

위의 내용을 고려하여, 외부 스트림 트랙의 샘플이 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하기 위해 새로운 제한된 방식이 사용된다. 기존 해결책에 비해 제안된 방법은 EDRAP 기반 기술을 보다 효율적으로 지원할 수 있는 장점이 있다.

일부 실시예에서, 제한된 방식의 고유 리소스 식별자(URI)는 미디어 파일에 없을 수 있다. 예를 들어, 샘플 항목은 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조(예: 제한된 방식 정보 박스)를 포함할 수 있고, 제1 데이터 구조는 제한된 방식을 식별하는 제2 데이터 구조(예: 스킴 유형 박스)를 포함할 수 있다. 제2 데이터 구조에서 플래그 필드의 최하위 비트(즉, 비트 0)의 값은 0과 같을 수 있다.

일부 실시예에서, 샘플 항목 유형은 'resv' 또는 이와 유사한 미리 정해진 샘플 항목 코드로 캡슐화될 수 있다. 또한, 샘플 항목은 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조(예: 제한된 방식 정보 박스)를 포함할 수 있다. 제1 데이터 구조는 샘플 항목 유형을 저장하는 제3 데이터 구조(예: OriginalFormatBox라고도 하는 원래 형식 박스)를 포함할 수 있다.

일부 추가적 또는 대체적 실시예에서, 미디어 파일은 외부 스트림 트랙과 연관된 정보를 포함하는 제4 데이터 구조(예: EsternalStreamInfoBox라고도 하는 외부 스트림 정보 박스)를 포함할 수 있다. 제한이 아닌 예시로서, 제4 데이터 구조는, (1) 외부 스트림 트랙과 연관된 메인 스트림 트랙의 트랙 정체(ID)를 나타내는 필드, (2) 외부 스트림 트랙의 샘플에서 허용되는 최대 코딩된 픽처 수를 지시하는 필드, (3) 외부 스트림 트랙의 각 샘플에서 첫 번째 코딩된 픽처가 인트라 랜덤 액세스 포인트(IRAP) 픽처일 수 있는지 여부를 지시하는 필드로서, 첫 번째 코딩된 픽처는 해당 샘플의 첫 번째 위치에 있을 수 있는 필드, (4) 외부 스트림 트랙의 각 샘플에 해당 샘플의 코딩된 픽처를 디코딩하는 데 필요한 모든 매개변수 세트가 포함되어 있는지 여부를 지시하는 필드, 또는 (5) 외부 스트림 트랙에 있는 각 샘플에 대해, 디코딩 프로세스가 EDRAP 픽처에서 시작될 때 외부 스트림 트랙과 연관된 메인 스트림 트랙의 해당 EDRAP 픽처의 선행 픽처가 디코딩 가능한지 여부를 나타내는 필드 중 하나 이상을 포함할 수 있다.

일부 실시예에서, 다음의 두 제약 조건이 충족되는 경우, 외부 스트림 트랙과 연관된 메인 스트림 트랙에서 해당 EDRAP 픽처의 선행 픽처는 디코딩 프로세스가 EDRAP 픽처에서 시작할 때 디코딩할 수 있다. (1) 동일한 계층에 있고 디코딩 순서에서 EDRAP 픽처 뒤에 오는 모든 픽처는 출력 순서에서 동일한 계층에 있고, 디코딩 순서에서 EDRAP 픽처 앞에 있는 모든 픽처 뒤에 와야 한다. (2) 동일한 계층에 있고 디코딩 순서에서 EDRAP 픽처 뒤에 오고 출력 순서에서 EDRAP 픽처 앞에 있는 모든 픽처는 참조 픽처 목록의 활성 항목에 referenceablePicture를 제외하고, 동일한 계층에 있고 디코딩 순서에서 EDRAP 픽처 앞에 있는 모든 픽처를 포함하지 말아야 한다.

본 개시의 실시예에 따르면, 비일시적 컴퓨터 판독 가능 기록 매체가 제안된다. 동영상의 비트스트림이 비일시적 컴퓨터 판독 가능 기록 매체에 저장된다. 비트스트림은 동영상 처리 장치에 의해 수행되는 방법을 통해 생성될 수 있다. 이 방법에 따르면, 비트스트림과 동영상의 미디어 파일 간의 변환이 수행된다. 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함한다. 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 따라 캡슐화된다. 샘플 항목은 제한된 방식과 연관된 지시를 포함하고, 지시의 값은 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

본 개시의 실시예에 따르면, 동영상의 비트스트림을 저장하는 방법이 제안된다. 이 방법에서, 비트스트림과 동영상의 미디어 파일 간의 변환이 수행된다. 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함한다. 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화된다. 샘플 항목은 제한된 방식과 연관된 지시를 포함하고, 지시의 값은 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다. 또한, 비트스트림은 비일시적 컴퓨터 판독 가능 기록 매체에 저장된다.

본 개시의 실시예에 따르면, 다른 비일시적 컴퓨터 판독 가능 기록 매체가 제안된다. 동영상의 미디어 파일은 비일시적 컴퓨터 판독 가능 기록 매체에 저장된다. 비트스트림은 동영상 처리 장치에 의해 수행되는 방법을 통해 생성될 수 있다. 이 방법에 따르면, 동영상의 비트스트림과 미디어 파일 간의 변환이 수행된다. 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함한다. 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화된다. 샘플 항목은 제한된 방식과 연관된 지시를 포함하고, 지시의 값은 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

본 개시의 실시예에 따르면, 동영상의 미디어 파일을 저장하는 방법이 제안된다. 이 방법에서, 동영상의 비트스트림과 미디어 파일 간의 변환이 수행된다. 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함한다. 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화된다. 샘플 항목은 제한된 방식과 연관된 지시를 포함하고, 지시의 값은 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다. 또한, 미디어 파일은 비일시적 컴퓨터 판독 가능 기록 매체에 저장된다.

본 발명의 구현은 다음 조항을 고려하여 설명될 수 있으며, 그 특징은 임의의 합리적인 방식으로 조합될 수 있다.

조항 1. 동영상 처리 방법으로서, 동영상의 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계를 포함하며, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

조항 2. 조항 1의 방법으로서, 상기 샘플 항목 유형은 원래 샘플 항목 유형이다.

조항 3. 조항 1 내지 조항 2 중 어느 하나의 방법으로서, 상기 샘플 항목은 상기 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조를 포함하고, 상기 제1 데이터 구조는 상기 제한된 방식을 식별하는 제2 데이터 구조를 포함하며, 상기 지시는 상기 제2 데이터 구조의 제1 필드를 포함한다.

조항 4. 조항 3의 방법으로서, 상기 제1 데이터 구조는 제한된 방식 정보 박스이고, 상기 제2 데이터 구조는 방식 유형 박스이며, 상기 제1 필드는 방식 유형 필드이다.

조항 5. 조항 3 내지 조항 4 중 어느 하나의 방법으로서, 상기 제1 필드의 값은 미리 정해진 코드와 같다.

조항 6. 조항 1 내지 조항 5 중 어느 하나의 방법으로서, 상기 제한된 방식의 고유 리소스 식별자(URI)가 상기 미디어 파일에 없다.

조항 7. 조항 1 내지 조항 6 중 어느 하나의 방법으로서, 상기 샘플 항목은 상기 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조를 포함하고, 상기 제1 데이터 구조는 상기 제한된 방식을 식별하는 제2 데이터 구조를 포함하며, 상기 제2 데이터 구조의 플래그 필드의 최하위 비트의 값은 0과 같다.

조항 8. 조항 7의 방법으로서, 상기 제1 데이터 구조는 제한된 방식 정보 박스이고, 상기 제2 데이터 구조는 스킴 유형 박스이다.

조항 9. 조항 1 내지 조항 8 중 어느 하나의 방법으로서, 상기 샘플 항목 유형은 미리 정해진 샘플 항목 코드로 캡슐화된다.

조항 10. 조항 1 내지 조항 9 중 어느 하나의 방법으로서, 상기 샘플 항목은 상기 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조를 포함하고, 상기 제1 데이터 구조는 상기 샘플 항목 유형을 저장하는 제3 데이터 구조를 포함한다.

조항 11. 조항 10의 방법으로서, 상기 제1 데이터 구조는 제한된 방식 정보 박스이고, 상기 제3 데이터 구조는 원래 형식 박스이다.

조항 12. 조항 1 내지 조항 11 중 어느 하나의 방법으로서, 상기 미디어 파일은 상기 외부 스트림 트랙과 연관된 정보를 포함하는 제4 데이터 구조를 포함한다.

조항 13. 조항 12의 방법으로서, 상기 제4 데이터 구조는, 상기 외부 스트림 트랙과 연관된 메인 스트림 트랙의 트랙 정체(ID)를 지시하는 필드, 상기 외부 스트림 트랙의 샘플에서 허용되는 최대 코딩된 픽처 수를 지시하는 필드, 상기 외부 스트림 트랙의 각 샘플에서 첫 번째로 코딩된 픽처가 인트라 랜덤 액세스 포인트(IRAP) 픽처인지 여부를 지시하는 필드로서, 상기 첫 번째로 코딩된 픽처는 해당 샘플의 첫 번째 위치에 있는 필드, 상부 외부 스트림 트랙의 각 샘플에 상기 해당 샘플의 코딩된 픽처를 디코딩하는 데 필요한 모든 매개변수 세트가 포함되어 있는지 여부를 지시하는 필드, 또는 상기 외부 스트림 트랙의 각 샘플에 대해 디코딩 프로세스가 EDRAP 픽처에서 시작될 때, 상기 외부 스트림 트랙과 연관된 메인 스트림 트랙의 해당 확장 종속 랜덤 액세스 포인트(EDRAP) 픽처의 선행 픽처가 디코딩 가능한지 여부를 지시하는 필드 중 적어도 하나를 포함한다.

조항 14. 조항 1 내지 조항 13 중 어느 하나의 방법으로서, 상기 제4 데이터 구조는 외부 스트림 정보 박스이다.

조항 15. 조항 1 내지 조항 14 중 어느 하나의 방법으로서, 상기 미디어 파일은 국제 표준화 기구(ISO) 기반 미디어 파일 형식이다.

조항 16. 조항 1 내지 조항 15 중 어느 하나의 방법으로서, 상기 변환은 상기 미디어 파일을 생성하고, 상기 비트스트림을 상기 미디어 파일에 저장하는 단계를 포함한다.

조항 17. 조항 1 내지 조항 15 중 어느 하나의 방법으로서, 상기 변환은 상기 미디어 파일을 구문 분석하여 상기 비트스트림을 재구성하는 단계를 포함한다.

조항 18. 프로세서 및 명령이 포함된 비일시적 메모리를 포함하는, 동영상 데이터를 처리하는 장치로서, 상기 명령은 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 조항 1 내지 조항 17 중 어느 하나에 따른 방법을 수행하도록 한다.

조항 19. 비일시적 컴퓨터 판독 가능 저장 매체로서, 프로세서로 하여금 조항 1 내지 조항 17 중 어느 하나에 따른 방법을 수행하도록 하는 명령이 저장된다.

조항 20. 동영상 처리 장치에 의해 수행되는 방법을 통해 생성된 동영상의 비트스트림을 저장하는, 비일시적 컴퓨터 판독 가능 기록 매체로서, 상기 방법은 상기 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계를 포함하며, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

조항 21. 동영상의 비트스트림을 저장하는 방법으로서, 상기 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계 및 상기 비트스트림을 비일시적 컴퓨터 판독 가능 기록 매체에 저장하는 단계를 포함하며, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

조항 22. 동영상 처리 장치에 의해 수행되는 방법을 통해 생성된 동영상의 미디어 파일을 저장하는, 비일시적 컴퓨터 판독 가능 기록 매체로서, 상기 방법은 상기 동영상의 비트스트림과 상기 미디어 파일 간의 변환을 수행하는 단계를 포함하며, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

조항 23. 동영상의 미디어 파일을 저장하는 방법으로서, 상기 동영상의 비트스트림과 상기 미디어 파일 간의 변환을 수행하는 단계 및 상기 미디어 파일을 비일시적 컴퓨터 판독 가능 기록 매체에 저장하는 단계를 포함하며, 상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시한다.

예시 디바이스

도 13은 본 개시의 다양한 실시형태가 구현될 수 있는 컴퓨팅 디바이스(1300)를 나타내는 블록도이다. 컴퓨팅 디바이스(1300)는 소스 디바이스(110)(또는 동영상 인코더(114 또는 200)) 또는 대상 디바이스(120)(또는 동영상 디코더(124 또는 300))로서 구현되거나 그 내에 포함될 수 있다.

도 13에 도시된 컴퓨팅 디바이스(1300)는 단지 예시를 위한 것이며, 어떠한 방식으로도 본 개시의 실시예의 기능 및 범위에 대한 제한을 시사하지 않는다는 것이 이해될 것이다.

도 13에 도시된 바와 같이, 컴퓨팅 디바이스(1300)는 범용 컴퓨팅 디바이스(1300)를 포함한다. 컴퓨팅 디바이스(1300)는 적어도 하나 이상의 프로세서 또는 처리 유닛(1310), 메모리(1320), 저장 유닛(1330), 하나 이상의 통신 유닛(1340), 하나 이상의 입력 디바이스(1350) 및 하나 이상의 출력 디바이스(1360)를 포함할 수 있다.

일부 실시예에서, 컴퓨팅 디바이스(1300)는 컴퓨팅 기능이 있는 임의의 사용자 단말기 또는 서버 단말기로서 구현될 수 있다. 서버 단말기는 서비스 제공자가 제공하는 서버, 대규모 컴퓨팅 디바이스 등이 될 수 있다. 사용자 단말기에는 휴대 전화, 방송국, 유닛, 장치, 멀티미디어 컴퓨터, 멀티미디어 태블릿, 인터넷 노드, 커뮤니케이터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 넷북 컴퓨터, 태블릿 컴퓨터, 개인 통신 시스템(PCS) 장치, 개인 내비게이션 장치, 개인 정보 단말기(PDA), 오디오/동영상 플레이어, 디지털 카메라/동영상 카메라, 위치 확인 장치, 텔레비전 수신기, 라디오 방송 수신기, 전자책 디바이스, 게임 디바이스 또는 이러한 디바이스의 액세서리 및 주변 장치 또는 이들의 조합을 포함한 임의의 유형의 이동 단말기, 고정 단말기 또는 휴대용 단말기일 수 있다. 컴퓨팅 디바이스(1300)는 사용자에 대한 임의의 유형의 인터페이스(예를 들어, "웨어러블" 회로 등)를 지원할 수 있는 것으로 고려된다.

처리 유닛(1310)은 물리적 또는 가상의 프로세서일 수 있으며, 메모리(1320)에 저장된 프로그램을 기반으로, 다양한 프로세스를 구현할 수 있다. 다중 프로세서 시스템에서, 컴퓨팅 디바이스(1300)의 병렬 처리 기능을 향상시키기 위해, 다중 처리 유닛이 컴퓨터 실행 가능 명령을 병렬로 수행한다. 처리 유닛(1310)은 중앙 처리 유닛(CPU), 마이크로프로세서, 컨트롤러 또는 마이크로컨트롤러라고도 지칭될 수 있다.

컴퓨팅 디바이스(1300)는 일반적으로 다양한 컴퓨터 저장 매체를 포함한다. 이러한 매체는 휘발성 및 비휘발성 매체, 또는 분리 가능형 및 분리 불가능형 매체를 포함하지만 이에 제한되지 않는 컴퓨팅 디바이스(1300)에 의해 액세스 가능한 임의의 매체일 수 있다. 메모리(1320)는 휘발성 메모리(예를 들어, 레지스터, 캐시, 랜덤 액세스 메모리 (RAM)), 비휘발성 메모리(예를 들어, 읽기 전용 메모리(ROM)), 전기적으로 소거 가능한 프로그램 가능 읽기 전용 메모리(EEPROM) 또는 플래시 메모리) 또는 이들의 임의의 조합일 수 있다. 저장 유닛(1330)은 임의의 분리 가능형 또는 분리 불가능형 매체일 수 있으며, 정보 및/또는 데이터를 저장하는 데 사용될 수 있고, 컴퓨팅 디바이스(1300)에서 액세스될 수 있는 메모리, 플래시 메모리 드라이브, 자기 디스크 또는 다른 매체와 같은 기계 판독 가능 매체를 포함할 수 있다.

컴퓨팅 디바이스(1300)는 추가적인 분리 가능형/분리 불가능형, 휘발성/비휘발성 메모리 매체를 추가로 포함할 수 있다. 도 13에는 도시되지 않았지만, 분리 가능형 비휘발성 자기 디스크에서 읽거나 쓰기 위한 자기 디스크 드라이브와, 분리 가능형 비휘발성 광 디스크에서 읽거나 쓰기 위한 광 디스크 드라이브를 제공할 수 있다. 이러한 경우, 각 드라이브는 하나 이상의 데이터 매체 인터페이스를 통해 버스(미도시)에 연결될 수 있다.

통신 유닛(1340)은 통신 매체를 통해 추가 컴퓨팅 디바이스와 통신한다. 또한, 컴퓨팅 디바이스(1300)의 구성요소 기능은 단일 컴퓨팅 클러스터 또는 통신 연결을 통해 통신할 수 있는 복수의 컴퓨팅 기계에 의해 구현될 수 있다. 따라서, 컴퓨팅 디바이스(1300)는 하나 이상의 다른 서버, 네트워크에 연결된 개인용 컴퓨터(PC) 또는 추가적인 일반 네트워크 노드와의 논리적 연결을 사용하여 네트워크 환경에서 작동할 수 있다.

입력 디바이스(1350)는 마우스, 키보드, 트래킹 볼, 음성 입력 디바이스 등과 같은 다양한 입력 디바이스 중 하나 이상일 수 있다. 출력 디바이스(1360)는 디스플레이, 확성기, 프린터 등과 같은 다양한 출력 디바이스 중 하나 이상일 수 있다. 통신 유닛(1340)을 통해, 컴퓨팅 디바이스(1300)는 저장 디바이스 및 디스플레이 디바이스와 같은 하나 이상의 외부 디바이스(미도시), 사용자가 컴퓨팅 디바이스(1300)와 상호 작용할 수 있도록 하는 하나 이상의 디바이스, 또는 필요한 경우, 컴퓨팅 디바이스(1300)가 하나 이상의 다른 컴퓨팅 디바이스와 통신할 수 있도록 하는 임의의 디바이스(네트워크 카드, 모뎀 등과 같은)와 추가로 통신할 수 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(미도시)를 통해 수행될 수 있다.

일부 실시예에서, 단일 디바이스에 통합되는 대신, 컴퓨팅 디바이스(1300)의 일부 또는 모든 구성요소는 클라우드 컴퓨팅 아키텍처로 배열될 수도 있다. 클라우드 컴퓨팅 아키텍처에서, 구성요소는 원격으로 제공될 수 있으며 함께 작동하여 본 개시에 설명된 기능을 구현할 수 있다. 일부 실시예에서, 클라우드 컴퓨팅은 컴퓨팅, 소프트웨어, 데이터 액세스 및 저장 서비스를 제공하며, 이러한 서비스를 제공하는 시스템 또는 하드웨어의 물리적 위치 또는 구성을 최종 사용자는 알 필요가 없다. 다양한 실시예에서, 클라우드 컴퓨팅은 적합한 프로토콜을 사용하여 광역 네트워크(인터넷 등)를 통해 서비스를 제공한다. 예를 들어, 클라우드 컴퓨팅 공급자는 웹 브라우저나 기타 컴퓨팅 구성요소를 통해 액세스할 수 있는 광역 네트워크를 통해 애플리케이션을 제공한다. 클라우드 컴퓨팅 아키텍처의 소프트웨어 또는 구성요소와 대응하는 데이터는, 원격 위치에 있는 서버에 저장될 수 있다. 클라우드 컴퓨팅 환경의 컴퓨팅 자원은 원격 데이터 센터의 위치에 병합되거나 분산될 수 있다. 클라우드 컴퓨팅 인프라는 사용자를 위한 단일 액세스 포인트로 작동하지만 공유 데이터 센터를 통해 서비스를 제공할 수 있다. 따라서 클라우드 컴퓨팅 아키텍처는, 본 명세서에 설명된 구성요소 및 기능을 원격 위치에 있는 서비스 제공업체로부터 제공하는 데 사용될 수 있다. 대안적으로, 이들은 종래의 서버로부터 제공될 수 있고, 또한 클라이언트 디바이스에 직접 또는 다른 방식으로 설치될 수도 있다.

컴퓨팅 디바이스(1300)는 본 개시의 실시예에 있어서, 동영상 인코딩/디코딩을 구현하는 데 사용될 수 있다. 메모리(1320)는 하나 이상의 프로그램 명령을 갖는 하나 이상의 동영상 코딩 모듈(1325)을 포함할 수 있다. 이러한 모듈은 본 명세서에 설명된 다양한 실시예의 기능을 수행하기 위해 처리 유닛(1310)에 의해 액세스 가능하고 실행 가능하다.

동영상 인코딩을 수행하는 예시적인 실시예에서, 입력 디바이스(1350)는 인코딩될 동영상 데이터를 입력(1370)으로 수신할 수 있다. 동영상 데이터는 예를 들어, 동영상 코딩 모듈(1325)에 의해 처리되어 인코딩된 비트스트림을 생성할 수 있다. 인코딩된 비트스트림은 출력 디바이스(1360)를 통해 출력(1380)으로 제공될 수 있다.

동영상 디코딩을 수행하는 예시적인 실시예에서, 입력 디바이스(1350)는 인코딩된 비트스트림을 입력(1370)으로 수신할 수 있다. 인코딩된 비트스트림은 예를 들어, 동영상 코딩 모듈(1325)에 의해 처리되어 디코딩된 동영상 데이터를 생성할 수 있다. 디코딩된 동영상 데이터는 출력 디바이스(1360)를 통해 출력(1380)으로 제공될 수 있다.

본 개시는, 바람직한 실시예를 참조하여 특별히 도시되고 설명되었지만, 당업자는 첨부된 청구범위를 통해 정의된 바와 같은 본 출원의 사상 및 범위를 벗어나지 않으면서 형태 및 세부 사항의 다양한 변경이 이루어질 수 있음을 이해할 것이다. 이러한 변형은 본 출원의 범위에 포함되도록 의도된다. 따라서, 본 출원의 실시예에 대한 전술한 설명은 제한하려고 하는 의도가 없다.

Claims

동영상 처리 방법으로서,
동영상의 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계를 포함하며,
상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하는, 방법.
제1항에 있어서,
상기 샘플 항목 유형은 원래 샘플 항목 유형인, 방법.
제1항 내지 제2항 중 어느 한 항에 있어서,
상기 샘플 항목은 상기 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조를 포함하고, 상기 제1 데이터 구조는 상기 제한된 방식을 식별하는 제2 데이터 구조를 포함하며, 상기 지시는 상기 제2 데이터 구조의 제1 필드를 포함하는, 방법.
제3항에 있어서,
상기 제1 데이터 구조는 제한된 방식 정보 박스이고, 상기 제2 데이터 구조는 방식 유형 박스이며, 상기 제1 필드는 방식 유형 필드인, 방법.
제3항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 필드의 값은 미리 정해진 코드와 같은, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 제한된 방식의 고유 리소스 식별자(URI)가 상기 미디어 파일에 없는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 샘플 항목은 상기 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조를 포함하고, 상기 제1 데이터 구조는 상기 제한된 방식을 식별하는 제2 데이터 구조를 포함하며, 상기 제2 데이터 구조의 플래그 필드의 최하위 비트의 값은 0과 같은, 방법.
제7항에 있어서,
상기 제1 데이터 구조는 제한된 방식 정보 박스이고, 상기 제2 데이터 구조는 스킴 유형 박스인, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 샘플 항목 유형은 미리 정해진 샘플 항목 코드로 캡슐화되는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 샘플 항목은 상기 제한된 방식에 대한 정보를 포함하는 제1 데이터 구조를 포함하고, 상기 제1 데이터 구조는 상기 샘플 항목 유형을 저장하는 제3 데이터 구조를 포함하는, 방법.
제10항에 있어서,
상기 제1 데이터 구조는 제한된 방식 정보 박스이고, 상기 제3 데이터 구조는 원래 형식 박스인, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 미디어 파일은 상기 외부 스트림 트랙과 연관된 정보를 포함하는 제4 데이터 구조를 포함하는, 방법.
제12항에 있어서,
상기 제4 데이터 구조는,
상기 외부 스트림 트랙과 연관된 메인 스트림 트랙의 트랙 정체 (ID)를 지시하는 필드,
상기 외부 스트림 트랙의 샘플에서 허용되는 최대 코딩된 픽처 수를 지시하는 필드,
상기 외부 스트림 트랙의 각 샘플에서 첫 번째로 코딩된 픽처가 인트라 랜덤 액세스 포인트(IRAP) 픽처인지 여부를 지시하는 필드로서, 상기 첫 번째로 코딩된 픽처는 해당 샘플의 첫 번째 위치에 있는 필드,
상부 외부 스트림 트랙의 각 샘플에 상기 해당 샘플의 코딩된 픽처를 디코딩하는 데 필요한 모든 매개변수 세트가 포함되어 있는지 여부를 지시하는 필드, 또는
상기 외부 스트림 트랙의 각 샘플에 대해 디코딩 프로세스가 EDRAP 픽처에서 시작될 때, 상기 외부 스트림 트랙과 연관된 메인 스트림 트랙의 해당 확장 종속 랜덤 액세스 포인트(EDRAP) 픽처의 선행 픽처가 디코딩 가능한지 여부를 지시하는 필드 중 적어도 하나를 포함하는, 방법.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 제4 데이터 구조는 외부 스트림 정보 박스인, 방법.
제1항 내지 제14항 중 어느 한 항에 있어서,
상기 미디어 파일은 국제 표준화 기구 (ISO) 기반 미디어 파일 형식인, 방법.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 변환은 상기 미디어 파일을 생성하고, 상기 비트스트림을 상기 미디어 파일에 저장하는 단계를 포함하는, 방법.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 변환은 상기 미디어 파일을 구문 분석하여 상기 비트스트림을 재구성하는 단계를 포함하는, 방법.
프로세서 및 명령이 포함된 비일시적 메모리를 포함하는, 동영상 데이터를 처리하는 장치로서,
상기 명령은 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1항 내지 제17항 중 어느 한 항에 따른 방법을 수행하도록 하는, 장치.
프로세서로 하여금 제1항 내지 제17항 중 어느 한 항에 따른 방법을 수행하도록 하는 명령을 저장하는, 비일시적 컴퓨터 판독 가능 저장 매체.
동영상 처리 장치에 의해 수행되는 방법을 통해 생성된 동영상의 비트스트림을 저장하는, 비일시적 컴퓨터 판독 가능 기록 매체로서, 상기 방법은
상기 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계를 포함하며,
상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하는, 비일시적 컴퓨터 판독 가능 기록 매체.
동영상의 비트스트림을 저장하는 방법으로서,
상기 비트스트림과 상기 동영상의 미디어 파일 간의 변환을 수행하는 단계; 및
상기 비트스트림을 비일시적 컴퓨터 판독 가능 기록 매체에 저장하는 단계를 포함하며,
상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하는, 방법.
동영상 처리 장치에 의해 수행되는 방법을 통해 생성된 동영상의 미디어 파일을 저장하는, 비일시적 컴퓨터 판독 가능 기록 매체로서,
상기 방법은
상기 동영상의 비트스트림과 상기 미디어 파일 간의 변환을 수행하는 단계를 포함하며,
상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하는, 비일시적 컴퓨터 판독 가능 기록 매체.
동영상의 미디어 파일을 저장하는 방법으로서,
상기 동영상의 비트스트림과 상기 미디어 파일 간의 변환을 수행하는 단계; 및
상기 미디어 파일을 비일시적 컴퓨터 판독 가능 기록 매체에 저장하는 단계를 포함하며,
상기 미디어 파일은 샘플 세트를 포함하는 외부 스트림 트랙을 포함하고, 상기 샘플 세트에 대한 샘플 항목의 샘플 항목 유형은 제한된 방식에 기초하여 캡슐화 되며, 상기 샘플 항목은 상기 제한된 방식으로 연관된 지시를 포함하고, 상기 지시의 값은 상기 샘플 세트의 샘플이 상기 외부 스트림 트랙의 하나 이상의 코딩된 픽처를 포함할 수 있음을 지시하는, 방법.