WO2015102462A1

WO2015102462A1 - 다중 영상의 단일 비트 스트림 생성방법 및 생성장치

Info

Publication number: WO2015102462A1
Application number: PCT/KR2015/000090
Authority: WO
Inventors: 임정연; 서동범; 신재섭; 손세훈; 김형덕
Original assignee: 에스케이텔레콤 주식회사; 주식회사 픽스트리
Priority date: 2014-01-06
Filing date: 2015-01-06
Publication date: 2015-07-09

Abstract

복수의 개별 비디오 스트림을 획득하는 영상 획득부; 상기 영상 획득부가 획득한 각 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 추출하는 영상정보 추출부; 및 각 개별 영상 코드를 디스플레이 픽처의 설정된 레이아웃 형태 내에서 해당 개별 비디오 스트림을 지정된 위치에 대응하도록 재구성하여 병합 영상 코드를 생성하고 각 개별 헤더 정보를 이용하여 상기 병합 영상 코드에 대응되는 병합 헤더 정보를 생성하여 병합 영상 코드 및 상기 병합 헤더 정보를 포함하는 병합 비디오 스트림을 생성하는 비트 스트림 생성부를 포함하는 단일 비트 스트림 생성장치 및 방법을 제공한다.

Description

다중 영상의 단일 비트 스트림 생성방법 및 생성장치

본 실시예는 다중 영상의 단일 비트 스트림 생성방법 및 생성장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

방송서비스에서는 채널별로 각각의 영상 콘텐츠를 전송할 수 있는데, 최근에는 4채널의 영상을 1채널로 시청할 수 있게 하는 멀티 채널 서비스가 제공되고 있다. 또한, 야구나 축구 등 운동 경기장에서 다각도로 찍는 영상을 사용자가 선택하여 볼 수 있게 하는 멀티 뷰 서비스가 제공되고 있으며, 영상 공유와 같이 여러 개의 영상을 한 번에 디스플레이하여 동시에 재생하는 것이 가능하다. 이러한 서비스는 각 채널의 비디오 비트 스트림을 각각 받아 사용자 단말기에서 따로 재생되도록 할 수도 있으나, 여러 채널의 비디오 영상을 수신하여 재생함에 있어 사용자 단말기에 할당된 자원이 충분하지 않으므로 대개 송신단에서 여러 채널의 영상을 믹싱하여(mixing) 1개의 채널로 전송되도록 한다.

또한, 비디오 컨퍼런스 콜(video conference call) 또는 영상 그룹 콜을 하는 경우에는 각 참여자의 영상의 전송받아 하드웨어 또는 소프트웨어 형태의 믹싱 장비를 이용하여 각각 사용자에게 적합한 영상으로 레이아웃한다. 그리고, 1개의 채널로 전송 가능하도록 인코딩 상태의 부호화 코드를 트랜스코딩(디코딩 후 다시 인코딩)을 한다. 예를 들어, 4명(A, B, C, D)의 사용자가 비디오 컨퍼런스 콜 및 영상 그룹 콜을 하는 경우, A는 자신의 영상을 제외한 B, C, D의 영상이 혼합된 1개의 영상을 수신하고, B는 자신의 영상을 제외한 A, C, D의 영상이 혼합된 1개의 영상을 수신한다. CCTV 관제시스템에서도 다중 영상을 하나의 화면에서 통합하여 모니터링할 수 있도록 각 카메라로부터 전달된 영상을 전달받아 하나의 화면으로 믹싱하여 활용되고 있다.

또한, 다중 채널의 입력 영상에 대한 비트 스트림의 비트 전송률을 조정하여 비트 스트림을 최적화하는 과정에서도 전체 영상 또는 특정 영상에 대한 ROI(Region of Interest)를 설정하여 인코딩/트랜스코딩할 수 있으나 ROI의 위치가 고정되어 있으며, ROI의 위치를 변경하여 트랜스코딩하는 경우에도 전체 영상에 대해 트랜스코딩을 해야 하는 문제점이 있다.

이와 같은 비디오 컨퍼런스 콜 또는 영상 그룹 콜의 경우에는 제공받은 영상의 인코딩 상태에서 디코딩한 후 다시 인코딩을 해야하는 트랜스 코딩이 필요하므로 영상의 품질이 저하될 가능성이 높아질 뿐만 아니라 트랜스 코딩을 수행함에 따라 코딩 시간이 지연되어 이에 따라 디스플레이 시간이 지연되는 문제점이 있다.

본 실시예는 다중 채널로 다수의 입력 영상에 의한 비트 스트림을 수신하는 경우 트랜스 코딩없이 다수의 비트 스트림 자체와 각 비트 스트림의 헤더를 표현하는 정보를 갱신하여 하나의 병합된 화면으로 제공할 수 있는비트 스트림을 생성하는 다중 영상의 단일 비트 스트림 생성방법 및 생성장치를 제공하는데 주된 목적이 있다.

본 실시예의 일 측면에 의하면, 복수의 개별 비디오 스트림을 획득하는 영상 획득부; 상기 영상 획득부가 획득한 각 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 추출하는 영상정보 추출부; 및 각 개별 영상 코드를 디스플레이 픽처의 설정된 레이아웃 형태 내에서 해당 개별 비디오 스트림을 지정된 위치에 대응하도록 재구성하여 병합 영상 코드를 생성하고 각 개별 헤더 정보를 이용하여 상기 병합 영상 코드에 대응되는 병합 헤더 정보를 생성하여 병합 영상 코드 및 상기 병합 헤더 정보를 포함하는 병합 비디오 스트림을 생성하는 비트 스트림 생성부를 포함하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치를 제공한다.

본 실시예의 다른 측면에 의하면, 다중 영상의 단일 비트 스트림 생성장치를 이용한 단일 비트 스트림 생성방법에 있어서, 복수의 개별 비디오 스트림을 획득하는 영상획득 과정; 상기 영상 획득부가 획득한 각 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 추출하는 영상정보 추출 과정; 각 개별 영상 코드를 디스플레이 픽처의 설정된 레이아웃 형태 내에서 해당 개별 비디오 스트림을 지정된 위치에 대응하도록 재구성하여 병합 영상 코드를 생성하는 과정; 및 각 개별 헤더 정보를 이용하여 상기 병합 영상 코드에 대응되는 병합 헤더 정보를 생성하여 병합 영상 코드 및 상기 병합 헤더 정보를 포함하는 병합 비디오 스트림을 생성하는 과정을 포함하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성방법을 제공한다.

이상에서 설명한 바와 같이, 본 실시예에 의하면, 다중 채널로 다수의 입력 영상에 의한 비트 스트림을 수신하는 경우 트랜스 코딩없이 다수의 비트 스트림 자체와 각 비트 스트림의 헤더를 표현하는 정보를 갱신하여 하나의 병합된 화면으로 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 다중 영상의 단일 비트 스트림 생성장치가 네트워크를 통해 사용자 단말기들과 연결된 상태를 나타낸 개략도이다.

도 2는 본 발명의 일 실시예에 따른 다중 영상의 단일 비트 스트림 생성장치의 블록도이다.

도 3은 3행 3열의 타일 구조로 분할된 디스플레이 영상의 개략도이다.

도 4는 본 발명의 일 실시예에 따른 NAL 유닛의 구조를 나타낸 개략도이다.

도 5는 본 발명의 일 실시예에 따른 멀티 비트 스트림의 동기화 기능을 설명하기 위한 개략도이다.

도 6은 본 발명의 일 실시예에 따른 다중 영상의 단일 영상 비트 스트림 생성방법을 나타낸 블록도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 본 발명을 설명함에 있어, '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일 실시예에 따른 다중 영상의 단일 비트 스트림 생성장치가 네트워크를 통해 사용자 단말기들과 연결된 상태를 나타낸 개략도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 다중 영상의 단일 비트 스트림 생성장치(110)는 네트워크를 통해 복수의 사용자 단말기(120, 130, 140)와 연결되어 있음을 알 수 있다.

다중 영상의 단일 비트 스트림 생성장치(110)는 제2 사용자 단말기(130)에서 촬영된 영상과 제3 사용자 단말기(140)에서 촬영된 영상을 제1 사용자 단말기(120)에서 동시에 디스플레이되도록 하고, 제1 사용자 단말기(120)에서 촬영된 영상과 제3 사용자 단말기(140)에서 촬영된 영상을 제2 사용자 단말기(130)에서 동시에 디스플레이되도록 한다. 그리고, 제1 사용자 단말기(120)에서 촬영된 영상과 제2 사용자 단말기(130)에서 촬영된 영상을 제3 사용자 단말기(140)에서 동시에 디스플레이되도록 한다. 여기서, 다중 영상의 단일 비트 스트림 생성장치(110)는 제1 사용자 단말기(120) 내지 제3 사용자 단말기(140) 중 어느 하나의 사용자 단말기에 나머지 다른 사용자 단말기로부터 입력된 영상의 비트 스트림을 트랜스 코딩이 없이 디스플레이되도록 한다.

제1 사용자 단말기(120) 내지 제3 사용자 단말기(140)는 개인용 컴퓨터(PC : Personal Computer), 노트북 컴퓨터, 테블릿, 개인 휴대 단말기(PDA : Personal Digital Assistant), 게임 콘솔, 휴대형 멀티미디어 플레이어(PMP : Portable Multimedia Player), 플레이스테이션 포터블 (PSP : PlayStation Portable), 무선통신 단말기(Wireless Communication Terminal), 스마트폰(Smart Phone), TV, 셋탑박스(Set-Top Box), 미디어 플레이어 등과 같은 사용자 단말기일 수 있다.

전술한 바와 같은 다중 영상의 단일 비트 스트림 생성장치(110)는 IPTV, 지상파, 케이블 TV, 사내방송 및 인터넷 방송 등에서 여러 대의 카메라 출력 또는 VoD 등으로 제공되는 복수의 영상의 비트 스트림들을 트랜스 코딩이 없이 한 화면에 디스플레이되도록 한다.

도 2는 본 발명의 일 실시예에 따른 다중 영상의 단일 비트 스트림 생성장치의 블록도이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 다중 영상의 단일 비트 스트림 생성장치는 영상 획득부(210), 영상정보 추출부(220), 비트 스트림 생성부(230), 타일 설정부(240), 오디오채널 선택부(250), 채널선택 입력부(260), 오디오 복호부(280) 및 영상 요청부(290)를 포함하여 구현될 수 있다. 실시예에 따라서는 영상 획득부(210), 영상정보 추출부(220), 비트 스트림 생성부(230), 타일 설정부(240), 오디오채널 선택부(250), 채널선택 입력부(260), 오디오 복호부(280) 및 영상 요청부(290) 중에서 일부 구성요소는 생략되거나 다른 구성요소를 추가하여 구현될 수도 있다.

영상 획득부(210)는 다중 채널을 통해 입력되는 복수의 개별 비디오 스트림을 획득한다. 복수의 개별 비디오 스트림은 각 영상을 부호화한 것으로서 각 개별 비디오 스트림의 단위 픽처는 하나 또는 그 이상의 슬라이스로 구성되며 각 슬라이스는 하나 또는 그 이상의 타일을 갖는 구조로 생성될 수 있다.

슬라이스 및 타일 구조는 복수 개의 코딩 블록(CTB: Coding Tree Block)을 포함하는 직사각형 형태의 구조이고, H.265 HEVC(High Efficiency Video Coding)의 인코딩(encoding)과 디코딩(decoding)을 하기 위한 데이터 구조이다. 각 타일 구조는 CTB의 행렬(matrix) 형태이다. 예를 들어, 어느 한 타일 구조는 CTB의 3×3 행렬 형태일 수 있으며, 이에 한정되지 않고 다양한 크기의 CTB 행렬일 수 있음은 물론이다.

영상정보 추출부(220)는 영상 획득부(210)가 획득한 각 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 포함하는 영상정보를 추출한다. 개별 영상 코드는 실제 비디오 코딩 스트림(VCL: Video Coding Layer)을 가지는 NAL(Network Abstract Layer)을 의미하며, 개별 헤더 정보는, 예컨대, 슬라이스의 개수, 슬라이스 당 타일의 개수, 타일 각각의 크기, 픽처의 화소샘플의 갯수 등의 헤더 정보를 포함하는 NVCL(Non Video Coding layer)을 포함한다.

비트 스트림 생성부(230)는 단말기에 디스플레이되는 영상에 대한 설정된 레이아웃 형태와 영상정보 추출부(220)가 추출한 영상정보를 이용하여, 복수의 개별 비디오 스트림에 대한 동기화를 수행하여 하나의 비디오 스트림을 생성한다. 상세하게는, 비트 스트림 생성부(230)는 영상정보 추출부(220)가 추출한 각각의 개별 영상 코드를 이용하여 복수의 인코딩된 영상의 비트 스트림을 동기화하여 하나의 화면에 디스플레이될 수 있도록 설정된 레이아웃 형태 내에서 해당 개별 비디오 스트림에 대응되는 지정된 위치로 삽입하여 하나의 화면으로 디스플레이되는 병합 영상 코드를 생성한다.

비트 스트림 생성부(230)는 각 개별 헤더 정보를 이용하여 병합 영상 코드에 대응되는 병합 헤더 정보를 생성하여 병합 영상 코드 및 병합 헤더 정보를 포함하는 병합 비디오 스트림을 생성한다.

여기서, 생성된 병합 비디오 스트림은 하나의 디스플레이 픽처당 복수의 타일 구조로 구성됨을 지시하는 정보가 병합 헤더 정보에 포함된다. 또한, 병합 헤더 정보에는 픽처 내 타일의 가로 개수 및 세로 개수에 대한 정보와 각 타일의 가로 샘플의 수 및 세로 샘플의 수를 나타내는 정보가 포함된다. 각 개별 영상 코드가 기설정된 위치의 타일의 영상 코드로서 재구성된다.

하나의 병합된 비디오 스트림을 디스플레이하는 화면에 디스플레이되는 타일의 개수는 기설정된 개수로 지정될 수 있다. 이는 디스플레이하고자 하는 단말기에서 이미 설정된 숫자의 개별 비디오 화면을 디스플레이하도록 설정될 수 있으며, 다중 영상의 단일 비트 스트림 생성장치(110)에서 설정할 수도 있다. 또한, 하나의 병합된 비디오 스트림을 디스플레이하는 화면에 디스플레이되는 타일의 개수는 사용자가 선택하여 설정될 수 있다. 이 경우, 사용자는 소정의 선택장치를 사용하여 디스플레이될 개별 영상을 선택함으로써 해당 선택된 비디오 스트림이 하나의 화면에 디스플레이될 수 있다. 이러한 디스플레이될 개별 영상을 선택 기능은 채널선택 입력부(260)가 수행하여 비트 스트림 생성부(230)에게 전송할 수도 있다.

채널선택 입력부(260)는 가용 채널 중에서 한 화면에 디스플레이하고자 하는 채널을 n 개 선택하도록 한다.

도 3의 경우와 같이 하나의 디스플레이 화면에 가로로 3개, 세로로 3개의 타일이 설정될 수 있으며 각 타일은 CTB의 개수가 결정된다. 각 타일의 CTB의 개수는 개별 비디오 스트림에서 부호화된 CTB의 개수와 동일하게 결정된다.

도 3에서, 어느 하나의 타일의 폭 방향의 샘플 개수는 그에 세로로 인접하는 타일의 폭 방향의 샘플 개수와 같다. 또한, 어느 하나의 타일의 높이 방향의 샘플 개수는 그에 가로로 인접하는 타일의 높이 방향의 샘플 개수와 같다.

예컨대, 타일 410, 440, 470의 가로 방향의 샘플 개수는 같도록 설정된다. 또한, 타일 410, 420, 430에서 세로 방향의 샘플 개수는 같도록 설정된다. 이와 같이 설정됨으로써 HEVC의 타일 구조를 적용할 수 있다.

각 디스플레이할 타일의 크기는 디스플레이하고자 하는 단말기 또는 다중 영상의 단일 비트 스트림 생성장치(110)에서 설정할 수도 있으며, 사용자가 구비된 키보드 등의 소정의 선택장치를 이용하여 각 디스플레이할 타일의 크기를 설정할 수도 있다.

다중 영상의 단일 비트 스트림 생성장치(110)에서 타일 설정부(240)가 위와 같이 지정되는 타일의 개수 및 각 타일의 크기에 대한 정보를 수신하여 디스플레이되는 타일의 개수 및 각 타일의 크기를 설정한다.

비트 스트림 생성부(230)는 타일의 구성에 대한 선택정보를 수신하여 선택된 n 개의 타일을 포함하는 디스플레이 픽처의 화면 구성을 선택한다.

비트 스트림 생성부(230)는 n개의 타일을 구성함에 있어서, 각 개별 비디오 스트림에 대하여 I-프레임 단위로 정렬 후, 각 개별 비디오를 타일 단위로 하여 디스플레이 픽처의 화면을 구성한다. I-프레임 단위로 정렬은 비트 스트림 생성부(230)에서 이루어질 수도 있지만, 영상 획득부(210)로 연결된 채널의 디먹서(Demuxer, 도시하지 않음)에서 이루어질 수도 있다. 디먹서에서는 I 프레임을 기준으로 시간축으로 동일하게 정렬 후에, STC(System Time Clock)-PCR(Program Clock Reference)값으로 비디오 및 오디오의 PTS(Presentation Time Stamp) 값을 보정하여 각 개별 비디오 및 오디오를 동기화 한다.

각 채널의 비트 스트림은 같은 GoP(Group of Picture) 구조를 갖도록 한다.

각 채널의 비트 스트림을 정렬할 때는, 모든 채널에 대하여 GOP 구조의 순서 상 같은 위치의 프레임끼리 정렬하도록 한다. 예를 들면, GOP 상 I 프레임을 기준으로 모든 채널의 비트 스트림을 정렬하거나 B 프레임이 존재하는 경우에는 같은 순서 상의 B 프레임끼리 정렬하거나 또는 같은 순서 상의 P 프레임끼리 정렬하도록 한다.

비트 스트림 생성부(230), GoP 구조가 IPPP 구조(즉, 비트 스트림이 I 프레임 하나와 나머지는 연속된 P 프레임만으로 구성된 픽처 구조)일 경우에는 모든 영상의 비트 스트림에 대하여 일정 시간동안 I 프레임을 기다려도 I 프레임이 오지 않는 경우에는 I 프레임 단위로 정렬하는 것을 포기하고 P 프레임으로 정렬을 시도한다. P 프레임으로 정렬하고자 하는 경우에는 각 영상의 비트 스트림에서 I 프레임을 버리고 P 프레임을 획득하여 정렬시킨 후에 n 개의 타일을 형성한다. 이 경우에도 GoP 구조 상의 같은 위치의 P 프레임에 대하여 정렬하도록 할 수도 있다.

비트 스트림 생성부(230), 비트스트림의 GoP 구조가 일정한 구조로 반복되는 형태인 경우 같은 GOP 구조상의 서로 같은 위치의 I 프레임을 기준으로 모든 채널의 비트 스트림을 정렬하도록 하거나, 서로 같은 위치의 B 프레임을 기준으로 모든 채널의 비트 스트림을 정렬하도록 하거나, 서로 같은 위치의 P 프레임을 기준으로 모든 채널의 비트 스트림을 정렬하도록 한 후, 병합 비트스트림을 생성한다.

만일, n 개의 타일의 선택으로서 디스플레이할 화면 구성이 직사각형을 이루지 못하는 경우에, 예컨대, 타일 490에 대응되는 비디오 스트림이 선택되지 않은 경우, 영상정보 추출부(220)는 기설정된 특정 영상정보를 디스플레이 픽처의 특정 위치에 대응되는 타일에 대응하는 비디오 스트림으로서 추가로 영상 서버로부터 입력받거나 다중 영상의 단일 비트 스트림 생성장치(110)의 내부에 저장된 광고 영상을 입력 받아 해당 광고 등과 같은 영상의 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 포함하는 영상정보를 추출한다.

비트 스트림 생성부(230)는, 영상정보 추출부(220)로부터 해당 광고 영상에 대한 개별 영상 코드 및 개별 헤더 정보를 포함하는 영상정보를 수신하고 병합 비디오 스트림을 생성하여 해당 광고 영상이 타일 490 위치에 디스플레이되도록 한다. 경우에 따라서는 해당 타일 영역은 검은 화면(블랙 영상)으로서 서비스가 없는 화면이 출력되도록 할 수도 있다.

비트 스트림 생성부(230)는, 인코딩되어 있는 형태의 광고 영상 또는 블랙 영상을 수신할 수도 있으나, 다중 영상의 단일 비트 스트림 생성장치(110)의 내부에 저장된 광고, 블랙 영상 데이터 등을 이용하여 광고나 블랙 영상을 해당 사이즈에 맞게 인코딩하여 제공할 수도 있다. 또한, 비트 스트림 생성부(230)는 해당 사이즈에 맞는 광고 영상 또는 블랙 영상을 영상 서버에게 요청하여 영상 서버로부터 이를 수신할 수도 있다.

한편, 영상정보 추출부(220)는 단일 비트 스트림 생성장치(110)의 내부에 저장된 광고 영상을 입력받는 경우 디스플레이시킬 위치의 해당 타일의 크기에 대응되는 가로 및 세로의 샘플 개수를 갖는 광고 영상을 선택적으로 수신한다.

도 3을 참조하면, 타일의 내부의 각 CTB에 표시된 번호는 단말기(120, 130, 140)에서 병합 비디오 스트림을 수신하여 복호화하는 경우 복호화되는 순서를 나타낸다.

비트 스트림 생성부(230)는, 디스플레이 영상의 상부에 위치한 행의 타일부터 영상의 하부에 위치한 행의 타일까지 순차적으로 영상의 비트 스트림을 생성한다.

영상은 3행 3열의 형렬 형태이므로 총 9개의 타일(410, 420, 430, 440, 450, 460, 470, 480, 490)을 포함하며, 도 3에서 각각의 타일(410, 420, 430, 440, 450, 460, 470, 480, 490)은 굵은 선으로 구분되어 있다. 각각의 타일(410, 420, 430, 440, 450, 460, 470, 480, 490)의 크기는 서로 동일하거나 다를 수 있다.

각각의 타일(410, 420, 430, 440, 450, 460, 470, 480, 490)은 복수의 CTB (Coding Tree Block)를 포함하며, 각각의 타일(410, 420, 430, 440, 450, 460, 470, 480, 490)에 포함되는 CTB의 개수는 서로 동일하거나 다를 수 있다.

제1 타일(410)은 총 12개의 CTB로 구성되고, 그 스캐닝 순서는 각각의 CTB 내의 숫자와 같이 설정될 수 있다. 즉, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11의 CTB 순서로 디스플레이 스캐닝 순서가 설정될 수 있다.

전술한 바에 의하면, 타일 및 CTB가 특정한 개수로 설정되었으나, 이에 한정되지 않고 다양한 개수로 설정될 수 있음은 물론이다. 또한, 영상의 상부에 위치한 행의 타일(또는 CTB)부터 영상의 하부에 위치한 행의 타일(또는 CTB)까지 차례로 스캐닝되도록 설정될 수 있으나, 이에 한정되지 않고 다양한 스캐닝 순서로 설정될 수 있으며, 각 타일을 병렬로 복호화 처리될 수도 있음은 물론이다.

한편, 단말기(120, 130, 140)에서는 이러한 스캐닝을 거쳐 병합 비디오 스트림을 복호화하여 디스플레이 화면을 생성하는데, 이때 사용자 단말기에 디스플레이되는 영상이 사용자 단말기의 화면 배치에 적합하도록 입력 영상의 크기 및 화면비율이 조정될 수 있다. 이 경우, 타일 설정부(240)에서 단말기(120, 130, 140)에서 생성되는 화면의 크기를 미리 확인하여 해당 타일의 크기를 미리 단말기(120, 130, 140)에서 생성되는 화면의 크기에 맞추어 설정하는 방법도 있고, 병합된 비트 스트림을 디코딩 후, 디스플레이 하는 단말기 내부에서 사용자 단말기의 화면 배치에 적합하도록 각 타일에 대응되는 영상을 원하는 크기로 리사이징하여 디스플레이하는 방법도 있다.

오디오채널 선택부(250)는 복수의 개별 비디오 스트림 중에서 오디오 신호를 듣고자 하는 개별 비디오 스트림을 선택하는 제1 선택정보를 수신하여 수신된 제1 선택정보에 따라 복수의 개별 비디오 스트림 중에서 선택된 어느 하나의 개별 비디오 스트림에 대응하는 오디오 스트림을 오디오 복호부(280)로 전송하고, 오디오 복호부(280)는 수신한 오디오 스트림을 복호화하여 오디오를 출력한다. 경우에 따라서는 오디오 채널 선택부(250)에서 선택된 어느 하나의 오디오 스트림이 비트 스트림 생성부(230)로 전송되어 병합 비디오 스트림과 동기화되어 출력될 수도 있다.

비트 스트림 생성부(230)는 수신한 오디오 스트림을 병합 비디오 스트림과 동기화하여 출력하여 단말기(120, 130, 140)에게 전송한다. 이때, 동기화된 비디오 스트림과 오디오 스트림은 MPEG-2 TS나 기타 다중화 기술을 적용하여 다중화되어 출력 되거나, 동기화된 시간 정보를 포함하는 포맷의 헤더 정보가 비디오 스트림, 오디오 스트림 각각에 추가되어 출력될 수도 있다.

전술한 바와 같은 다중 영상의 단일 비트 스트림 생성장치(110)는 채널선택 입력부(260)를 포함할 수 있고, 다음과 같은 기능을 추가적으로 포함할 수 있다.

비트 스트림 생성부(230)는 채널선택 입력부(260)로부터 특정 채널의 영상에 대한 선택 정보를 받아 채널선택 입력부(260)가 선택 입력을 받은 특정 채널의 입력 영상에 대한 비트 스트림을 생성한다.

채널선택 입력부(260)는 단말기(120, 130, 140)에서 입력한 사용자의 선택정보 또는 다중 영상의 단일 비트 스트림 생성장치(110)에서 설정된 선택정보를 비트 스트림 생성부(230)로 전송한다.

도 4는 본 발명의 일 실시예에 따른 NAL 유닛의 구조를 나타낸 개략도이다. 참고로, 도 4에서의 화살표는 참조 관계를 나타낸다. 도 4를 참조하면, NAL 유닛은 NAL 헤더(header)와 RBSP(Raw Bytes Sequence Payload)로 구성된다.

표 1은 SPS 헤더와 관련된 신택스를 도시한 표이다.

표 1

seq_parameter_set_rbsp(　) {	Descriptor
sps_video_parameter_set_id	u(4)
sps_max_sub_layers_minus1	u(3)
sps_temporal_id_nesting_flag	u(1)
profile_tier_level(　sps_max_sub_layers_minus1　)
sps_seq_parameter_set_id	ue(v)
chroma_format_idc	ue(v)
if( chroma_format_idc =　= 3 )
separate_colour_plane_flag	u(1)
pic_width_in_luma_samples	ue(v)
pic_height_in_luma_samples	ue(v)
conformance_window_flag	u(1)
if( conformance_window_flag ) {
conf_win_left_offset	ue(v)
conf_win_right_offset	ue(v)
conf_win_top_offset	ue(v)
conf_win_bottom_offset	ue(v)
}
bit_depth_luma_minus8	ue(v)
bit_depth_chroma_minus8	ue(v)
log2_max_pic_order_cnt_lsb_minus4	ue(v)
sps_sub_layer_ordering_info_present_flag	u(1)
for( i = ( sps_sub_layer_ordering_info_present_flag ? 0 : sps_max_sub_layers_minus1 ); i <= sps_max_sub_layers_minus1; i++ ) {
sps_max_dec_pic_buffering_minus1[　i　]	ue(v)
sps_max_num_reorder_pics[　i　]	ue(v)
sps_max_latency_increase_plus1[　i　]	ue(v)
}
log2_min_luma_coding_block_size_minus3	ue(v)
log2_diff_max_min_luma_coding_block_size	ue(v)
log2_min_transform_block_size_minus2	ue(v)
log2_diff_max_min_transform_block_size	ue(v)
max_transform_hierarchy_depth_inter	ue(v)
max_transform_hierarchy_depth_intra	ue(v)
scaling_list_enabled_flag	u(1)
if( scaling_list_enabled_flag ) {
sps_scaling_list_data_present_flag	u(1)
if( sps_scaling_list_data_present_flag )
scaling_list_data(　)
}
amp_enabled_flag	u(1)
sample_adaptive_offset_enabled_flag	u(1)
pcm_enabled_flag	u(1)
if( pcm_enabled_flag ) {
pcm_sample_bit_depth_luma_minus1	u(4)
pcm_sample_bit_depth_chroma_minus1	u(4)
log2_min_pcm_luma_coding_block_size_minus3	ue(v)
log2_diff_max_min_pcm_luma_coding_block_size	ue(v)
pcm_loop_filter_disabled_flag	u(1)
}
num_short_term_ref_pic_sets	ue(v)
for( i = 0; i < num_short_term_ref_pic_sets; i++)
short_term_ref_pic_set(　i　)
long_term_ref_pics_present_flag	u(1)
if( long_term_ref_pics_present_flag ) {
num_long_term_ref_pics_sps	ue(v)
for( i = 0; i < num_long_term_ref_pics_sps; i++ ) {
lt_ref_pic_poc_lsb_sps[　i　]	u(v)
used_by_curr_pic_lt_sps_flag[　i　]	u(1)
}
}
sps_temporal_mvp_enabled_flag	u(1)
strong_intra_smoothing_enabled_flag	u(1)
vui_parameters_present_flag	u(1)
if( vui_parameters_present_flag )
vui_parameters(　)
sps_extension_present_flag	u(1)
if( sps_extension_present_flag ) {
for( i = 0; i < 1; i++ )
sps_extension_flag[　i　]	u(1)
sps_extension_7bits	u(7)
if( sps_extension_flag[　0　] ) {
transform_skip_rotation_enabled_flag	u(1)
transform_skip_context_enabled_flag	u(1)
intra_block_copy_enabled_flag	u(1)
implicit_rdpcm_enabled_flag	u(1)
explicit_rdpcm_enabled_flag	u(1)
extended_precision_processing_flag	u(1)
intra_smoothing_disabled_flag	u(1)
high_precision_offsets_enabled_flag	u(1)
fast_rice_adaptation_enabled_flag	u(1)
cabac_bypass_alignment_enabled_flag	u(1)
}
if( sps_extension_7bits )
while( more_rbsp_data(　) )
sps_extension_data_flag	u(1)
}
rbsp_trailing_bits(　)
}

표 2는 PPS 헤더와 관련된 신택스를 도시한 표이다.

표 2

pic_parameter_set_rbsp(　) {	Descriptor
pps_pic_parameter_set_id	ue(v)
pps_seq_parameter_set_id	ue(v)
dependent_slice_segments_enabled_flag	u(1)
output_flag_present_flag	u(1)
num_extra_slice_header_bits	u(3)
sign_data_hiding_enabled_flag	u(1)
cabac_init_present_flag	u(1)
num_ref_idx_l0_default_active_minus1	ue(v)
num_ref_idx_l1_default_active_minus1	ue(v)
init_qp_minus26	se(v)
constrained_intra_pred_flag	u(1)
transform_skip_enabled_flag	u(1)
cu_qp_delta_enabled_flag	u(1)
if( cu_qp_delta_enabled_flag )
diff_cu_qp_delta_depth	ue(v)
pps_cb_qp_offset	se(v)
pps_cr_qp_offset	se(v)
pps_slice_chroma_qp_offsets_present_flag	u(1)
weighted_pred_flag	u(1)
weighted_bipred_flag	u(1)
transquant_bypass_enabled_flag	u(1)
tiles_enabled_flag	u(1)
entropy_coding_sync_enabled_flag	u(1)
if( tiles_enabled_flag ) {
num_tile_columns_minus1	ue(v)
num_tile_rows_minus1	ue(v)
uniform_spacing_flag	u(1)
if( !uniform_spacing_flag ) {
for( i = 0; i < num_tile_columns_minus1; i++ )
column_width_minus1[　i　]	ue(v)
for( i = 0; i < num_tile_rows_minus1; i++ )
row_height_minus1[　i　]	ue(v)
}
loop_filter_across_tiles_enabled_flag	u(1)
}
pps_loop_filter_across_slices_enabled_flag	u(1)
deblocking_filter_control_present_flag	u(1)
if( deblocking_filter_control_present_flag ) {
deblocking_filter_override_enabled_flag	u(1)
pps_deblocking_filter_disabled_flag	u(1)
if( !pps_deblocking_filter_disabled_flag ) {
pps_beta_offset_div2	se(v)
pps_tc_offset_div2	se(v)
}
}
pps_scaling_list_data_present_flag	u(1)
if( pps_scaling_list_data_present_flag )
scaling_list_data(　)
lists_modification_present_flag	u(1)
log2_parallel_merge_level_minus2	ue(v)
slice_segment_header_extension_present_flag	u(1)
pps_extension_present_flag	u(1)
if( pps_extension_present_flag ) {
for( i = 0; i < 1; i++ )
pps_extension_flag[　i　]	u(1)
pps_extension_7bits	u(7)
}
if( pps_extension_flag[　0　] ) {
if( transform_skip_enabled_flag )
log2_max_transform_skip_block_size_minus2	ue(v)
cross_component_prediction_enabled_flag	u(1)
chroma_qp_adjustment_enabled_flag	u(1)
if( chroma_qp_adjustment_enabled_flag ) {
diff_cu_chroma_qp_adjustment_depth	ue(v)
chroma_qp_adjustment_table_size_minus1	ue(v)
for( i = 0; i <= chroma_qp_adjustment_table_size_minus1; i++ ) {
cb_qp_adjustment[　i　]	se(v)
cr_qp_adjustment[　i　]	se(v)
}
}
log2_sao_offset_scale_luma	ue(v)
log2_sao_offset_scale_chroma	ue(v)
}
if( pps_extension_7bits )
while( more_rbsp_data(　) )
pps_extension_data_flag	u(1)
rbsp_trailing_bits(　)
}

표 3은 Slice 헤더와 관련된 신택스를 도시한 표이다.

표 3

slice_segment_header(　) {	Descriptor
first_slice_segment_in_pic_flag	u(1)
if( nal_unit_type >= BLA_W_LP && nal_unit_type <= RSV_IRAP_VCL23 )
no_output_of_prior_pics_flag	u(1)
slice_pic_parameter_set_id	ue(v)
if( !first_slice_segment_in_pic_flag ) {
if( dependent_slice_segments_enabled_flag )
dependent_slice_segment_flag	u(1)
slice_segment_address	u(v)
}
if( !dependent_slice_segment_flag ) {
for( i = 0; i < num_extra_slice_header_bits; i++ )
slice_reserved_flag[　i　]	u(1)
slice_type	ue(v)
if( output_flag_present_flag )
pic_output_flag	u(1)
if( separate_colour_plane_flag =　= 1 )
colour_plane_id	u(2)
if( nal_unit_type != IDR_W_RADL && nal_unit_type != IDR_N_LP ) {
slice_pic_order_cnt_lsb	u(v)
short_term_ref_pic_set_sps_flag	u(1)
if( !short_term_ref_pic_set_sps_flag )
short_term_ref_pic_set(　num_short_term_ref_pic_sets　)
else if( num_short_term_ref_pic_sets > 1 )
short_term_ref_pic_set_idx	u(v)
if( long_term_ref_pics_present_flag ) {
if( num_long_term_ref_pics_sps > 0 )
num_long_term_sps	ue(v)
num_long_term_pics	ue(v)
for( i = 0; i < num_long_term_sps + num_long_term_pics; i++ ) {
if( i < num_long_term_sps ) {
if( num_long_term_ref_pics_sps > 1 )
lt_idx_sps[　i　]	u(v)
} else {
poc_lsb_lt[　i　]	u(v)
used_by_curr_pic_lt_flag[　i　]	u(1)
}
delta_poc_msb_present_flag[　i　]	u(1)
if( delta_poc_msb_present_flag[　i　] )
delta_poc_msb_cycle_lt[　i　]	ue(v)
}
}
if( sps_temporal_mvp_enabled_flag )
slice_temporal_mvp_enabled_flag	u(1)
}
if( sample_adaptive_offset_enabled_flag ) {
slice_sao_luma_flag	u(1)
if( ChromaArrayType != 0 )
slice_sao_chroma_flag	u(1)
}
if( slice_type =　= P \|　\| slice_type =　= B ) {
num_ref_idx_active_override_flag	u(1)
if( num_ref_idx_active_override_flag ) {
num_ref_idx_l0_active_minus1	ue(v)
if( slice_type =　= B )
num_ref_idx_l1_active_minus1	ue(v)
}
if( lists_modification_present_flag && NumPocTotalCurr > 1 )
ref_pic_lists_modification(　)
if( slice_type =　= B )
mvd_l1_zero_flag	u(1)
if( cabac_init_present_flag )
cabac_init_flag	u(1)
if( slice_temporal_mvp_enabled_flag ) {
if( slice_type =　= B )
collocated_from_l0_flag	u(1)
if( ( collocated_from_l0_flag && num_ref_idx_l0_active_minus1 > 0 ) \|　\| ( !collocated_from_l0_flag && num_ref_idx_l1_active_minus1 > 0 ) )
collocated_ref_idx	ue(v)
}
if( ( weighted_pred_flag && slice_type =　= P ) \|　\| ( weighted_bipred_flag && slice_type =　= B ) )
pred_weight_table(　)
five_minus_max_num_merge_cand	ue(v)
}
slice_qp_delta	se(v)
if( pps_slice_chroma_qp_offsets_present_flag ) {
slice_cb_qp_offset	se(v)
slice_cr_qp_offset	se(v)
}
if( chroma_qp_adjustment_enabled_flag )
slice_chroma_qp_adjustment_enabled_flag	u(1)
if( deblocking_filter_override_enabled_flag )
deblocking_filter_override_flag	u(1)
if( deblocking_filter_override_flag ) {
slice_deblocking_filter_disabled_flag	u(1)
if( !slice_deblocking_filter_disabled_flag ) {
slice_beta_offset_div2	se(v)
slice_tc_offset_div2	se(v)
}
}
if(　pps_loop_filter_across_slices_enabled_flag && ( slice_sao_luma_flag \|　\| slice_sao_chroma_flag \|　\| !slice_deblocking_filter_disabled_flag ) )
slice_loop_filter_across_slices_enabled_flag	u(1)
}
if( tiles_enabled_flag \|　\| entropy_coding_sync_enabled_flag ) {
num_entry_point_offsets	ue(v)
if( num_entry_point_offsets > 0 ) {
offset_len_minus1	ue(v)
for( i = 0; i < num_entry_point_offsets; i++ )
entry_point_offset_minus1[　i　]	u(v)
}
}
if( slice_segment_header_extension_present_flag ) {
slice_segment_header_extension_length	ue(v)
for( i = 0; i < slice_segment_header_extension_length; i++)
slice_segment_header_extension_data_byte[　i　]	u(8)
}
byte_alignment(　)
}

표 4는 General slice segment의 데이터 신택스를 도시한 표이다.

표 4

slice_segment_data(　) {	Descriptor
do {
coding_tree_unit(　)
end_of_slice_segment_flag	ae(v)
CtbAddrInTs++
CtbAddrInRs = CtbAddrTsToRs[　CtbAddrInTs　]
if( !end_of_slice_segment_flag && ( ( tiles_enabled_flag && TileId[　CtbAddrInTs　] != TileId[　CtbAddrInTs　-　1　] ) \|　\| ( entropy_coding_sync_enabled_flag && CtbAddrInTs % PicWidthInCtbsY =　= 0 ) ) ) {
end_of_sub_stream_one_bit /* equal to 1 */	ae(v)
byte_alignment(　)
}
} while( !end_of_slice_segment_flag )
}

인코딩된 개별 영상의 비트 스트림은 NAL(Network Abstract Layer)의 단위인 NAL 유닛(unit)에 전달된다. NAL 유닛의 NAL 헤더는 Non-VCL(Non-Video Coding Unit) NAL 유닛 및 VCL NAL 유닛으로 구성된다. Non-VCL NAL 유닛은 VPS(Video parameter Set) NAL을 의미하는 NAL(VPS), SPS(Sequence Parameter Set) NAL을 의미하는 NAL(SPS), PPS(Picture Parameter Set) NAL을 의미하는 NAL(PPS), 및 SEI (Supplemental Enhancement Information) NAL을 의미하는 NAL(SEI)로 구성된다. 특히, SPS는 인코딩 툴(tool)의 온/오프(ON/OFF) 정보를 포함하고, PPS는 타일과 관련된 정보를 포함한다. 본 발명의 일 실시예에서는 디코더(decoder)의 사양에 맞추어 영상처리되도록 하기 위해 비트 스트림 생성부(230)는 NAL 헤더의 SPS와 PPS의 정보 등을 수정하여 타일구조로 변환함으로써 다중 영상의 단일 비트 스트림을 생성한다.

VCL NAL 유닛은 제1 프레임(Frame 1), 제2 프레임(Frame 2) 등의 복수의 프레임을 포함할 수 있다. 각 프레임은 3개의 연속적인 NAL(VCL)을 포함한다.

병합 비디오 스트림에서 타일에 관한 정보는 PPS에 설정된다. 예컨대. PPS에 설정되는 정보인 tiles_enabled_flag는 타일 구조가 픽처 내에 존재하는지 여부를 나타내는 정보이다.

병합 비디오 스트림에서 각 타일의 크기는 num_tile_columns_minus1, num_tile_rows_minus1, uniform_spacing_flag를 사용하여 설정된다.

num_tile_columns_minus1는 병합 비디오 스트림에서 타일의 가로 개수를 나타내며, num_tile_rows_minus1는 병합 비디오 스트림에서 타일의 세로 개수를 나타낸다. uniform_spacing_flag는 타일의 크기가 모두 동일한지 여부를 나타내는 정보이다.

타일의 크기가 모두 동일한 경우에는 num_tile_columns_minus1와 num_tile_rows_minus1 정보를 참조함으로써 타일의 사이즈를 확인할 수 있도록 한다. 타일의 크기가 동일하지 않은 경우에는 가로 타일의 각 사이즈를 column_width_minus1[i]에 설정하고 세로로 타일의 각 사이즈를 row_height_minus1[i]에 설정한다.

한편, 각 개별 비디오 스트림은 병합 비디오 스트림을 생성 가능하도록 하기 위하여 제약 조건을 갖는다.

예컨대, 모든 개별 비디오 스트림의 개별 헤더 정보에는 슬라이스의 경계를 가로질러 루프 필터링을 수행할 수 없음을 지시하는 정보(예컨대, loop_filter_across_tiles_enabled_flag=0)가 포함된다. 이러한 한정조건 하에서 인코딩된 개별 비디오 스트림은 여러 개의 개별 비디오 스트림과 함께 하나로 병합되어 병합 비디오 스트림을 생성하는 경우에 타일의 경계에서 루프 필터링이 발생하지 않으므로 타일 경계에서 화질이 열화되는 것을 방지한다. 이 경우 하나의 개별 비디오 스트림에 대응되는 하나의 타일은 하나의 슬라이스로 구성되도록 한다. 경우에 따라서 하나의 타일에는 복수의 슬라이스가 포함될 수도 있다.

개별 비디오 스트림은, 인코딩 시에 예측 단위에서 머지(Merge), Mergeskip 등의 움직임벡터 코딩 모드인 경우에 움직임벡터가 해당 개별 비디오 스트림에서 영상의 범위를 넘는 패딩 부분을 참조하지 않도록 인코딩된다. 따라서, 머지(Merge) 또는 Mergeskip 등의 모드로 움직임 벡터를 산출하는 경우, 움직임벡터 후보로 결정하기 위하여 타일 경계를 넘어서 움직임 정보를 참조하는 것을 방지한다.

또한, 인코딩 시에, 예측 단위의 움직임 추정시에 움직임 추정의 범위가 패딩 부분을 넘어가지 않도록 인코딩된다. 이 역시 병합 비디오 스트림을 복호화하는 경우 타일 경계를 넘어 움직임 예측을 하는 경우가 발생하지 않도록 방지한다.

또한, 개별 비디오 스트림은 단일 비트 스트림 생성장치(110)에 입력되기 전의 인코딩 과정에서, 예측 단위에서 움직임 벡터 부호화 시에 현재 부호화하는 예측 단위의 블록과 동일한 위치에 존재하는 다른 픽처의 움직임 벡터(Temporal 움직임 벡터)를 참조할 수 없음을 지시하는 정보가 개별 헤더 정보에 포함된다. 따라서, 어느 하나의 개별 스트림이 Temporal 움직임 벡터를 참조하여 예측을 하는 경우 이후의 다른 픽처를 기다리거나 데이터를 필요 이상으로 버퍼링해야 하는 문제가 발생할 수 있다. 따라서, Temporal 움직임 벡터가 참조되지 않도록 설정됨으로 인하여 각 개별 비디오 스트림을 동기화하기 위한 딜레이가 발생할 가능성을 줄여 전체 병합 비디오 스트림의 복호화 성능 저하를 방지한다.

병합 비디오 스트림의 헤더 정보는 병합 비디오 스트림에 대응되는 SPS, PPS, 슬라이스 헤더 정보 등을 생성함에 있어서 아래에 해당하는 정보들은 다른 개별 비디오 스트림의 헤더 정보들과는 다르게 수정한다.

SPS에는 pic_width_in_luma_samples 및 pic_width_in_luma_samples를 병합될 영상 화면의 사이즈로 변경하여, 병합 영상의 가로 사이즈 및 세로 사이즈를 설정한다.

표 5는 개별 비디오 스트림과 병합 비디오 스트림에서 일부 NAL 헤더에서 가지는 값의 변화를 비교하여 나타낸 것이다. 특히 표 5는 PPS에서 설정되는 파라미터를 나타낸 것이다.

표 5

Syntax 필드	변경 이전 값(개별 비디오 스트림)	변경 이후 값(병합 비디오 스트림)
tiles_enabled_flag	0	1
num_tile_columns_minus1	해당 사항 없음	종축 방향 타일 개수
num_tile_rows_minus1	해당 사항 없음	횡축 방향 타일 개수
loop_filter_across_tiles_enabled_flag	해당 사항 없음	0

한편, 각 개별 비디오 스트림은 CTU 단위로 분할되도록 하여 타일로 병합 가능하도록 한다.

각 개별 비디오 스트림에서는 타일 구조가 가능하지 않도록 하는 정보를 개별 헤더 정보에 포함시켜 인코딩된 정보가 수신되도록 함으로써, 병합 비디오 스트림을 구성하는 한 개의 개별 비디오 스트림(하나의 타일)에는 한 개의 슬라이스가 할당되도록 설정할 수도 있다. 그렇지 않은 경우, end_of_slice_segment_flag, end_of_sub_stream_one_bit의 값을 수정하기 위해서 영상의 비트 스트림(Bit stream)을 전부 파싱(Parsing)해야 하는 문제가 생긴다.

병합 비디오 스트림의 병합 헤더 정보에는 첫번째 슬라이스 헤더에만 픽처 내에서 첫째 슬라이스인지 여부를 나타내는 정보 first_slice_segment_in_pic_flag를 포함하고, 병합 비디오 스트림 상의 병합된 전체 픽처 내의 첫번째 슬라이스인 경우에는 first_slice_segment_in_pic_flag를 1로 설정하고, 나머지 슬라이스에 대해서는 첫째 슬라이스가 아니라는 의미로 first_slice_segment_in_pic_flag=0으로 설정한다. 또한, slice_segment_address를 설정함으로써 전체 픽처를 기준으로 한 각 슬라이스의 위치를 재설정해 준다. 각 타일 내의 슬라이스의 slice_segment_address는 슬라이스 내의 첫번째 CTU의 전체 통합 영상 상의 절대 위치를 나타내는 주소로 사용된다. 즉, 병합된 전체 픽처에서 각 타일에 포함된 슬라이스의 첫번째 CTU의 순서를 slice_segment_address로 설정한다. 이 순서는 병합된 전체 픽처에서 순차스캔(raster scan) 순서상 해당 CTU의 순서이다. 또한, 모든 슬라이스 헤더에는 슬라이스 내의 타일의 오프셋을 의미하는 num_entry_point_offsets을 0으로 설정한다.

영상 정보 추출부(220)는 개별 비디오 스트림을 파싱하면서 개별 비디오 스트림에서 기설정 타입의 제2 바이트 스트링이 파싱되는 경우 이를 제1 바이트 스트링으로 변환한 후 병합 비디오 스트림을 생성한다. 예컨대, 개별 비디오 스트림에서 헥사 코드로 네 바이트의 00 00 03 00 내지 00 00 03 03이 파싱되는 경우, 여기서 세번째 바이트인 03을 제거하고 기설정된 3 바이트의 제1 바이트 스트링(예컨대, 00 00 00 내지 00 00 03)으로 변환한다.

비트 스트림 생성부(230)는 병합 비디오 스트림을 생성하는 과정에서 병합 비디오 스트림을 스캔하여 3 바이트의 제1 코드 바이트 스트링(예컨대, 00 00 00)이 발견되는 경우 두번째와 세번째 바이트 사이에 헥사 코드 0x03을 추가하여 4 바이트의 기설정 제2 바이트 스트링(예컨대 00 00 03 00)으로 변환하여 병합 비디오 스트림을 출력한다.

도 5는 본 발명의 일 실시예에 따른 멀티 비트 스트림의 동기화 기능을 설명하기 위한 개략도이다. 도 5를 살펴보면, 제1 내지 제4 카메라(단말기, 511, 512, 513, 514), 비트 스트림 생성장치(520) 및 사용자 단말기(530)가 도시되어 있다.

제1 내지 제4 카메라(511, 512, 513, 514)를 통해 축구장의 다양한 뷰 (view)를 촬영한 영상(A, B, C, D)이 제공되며, 비트 스트림 생성장치(520)가 촬영한 영상을 받아 사용자 단말기(530)에 통합된 영상(A, B, C, D)을 제공할 수 있다.

사용자 단말기(530)가 특정한 채널을 선택하여 멀티 뷰 서비스를 요청하면, 비트 스트림 생성장치(520)는 입력 대기 중인 카메라에서 출력되는 영상 비트 스트림의 수와 GoP(Group of Picture) 정보(Closed GoP 여부, GoP 수, 해상도) 등의 인코딩 정보를 미리 공유하여 콜 셋업(call setup)한다. 그리고, 비트 스트림 생성장치(520)와 사용자 단말기(530) 사이의 콜 셋업이 완료되면, 비트 스트림 생성장치(520)는 사용자 단말기(530)에 비트 스트림을 전송한다. 비트 스트림 전송 전에, 비트 스트림 생성장치(520)는 전송규격의 전송시간, 프레임의 특성을 나타내는 전송 프로토콜의 페이로드 타입(payload type) 정보 및 GoP 정보를 이용하여 동일한 프레임으로 디코딩되도록 동기화한다. 비트 스트림 생성장치(520)는 전달된 각각의 비트 스트림의 버퍼링(buffering)을 거쳐 입력 영상에 맞추거나, 페이로드 타입이 임계 지연값을 초과하는 경우 앞서 동기화된 프레임이 아닌 프레임 중 일부 프레임을 일부 삭제하는 형태로 동기화할 수 있다.

비트 스트림 생성장치(520)는 제1 내지 제4 카메라(511, 512, 513, 514)를 통해 전달된 각각의 영상의 개별 비트 스트림들을 타일 구조로 변환하고, 개별 비트 스트림에 대응되는 영상의 크기가 모두 같은 경우 가로 및 세로가 2배인 단말기의 영상의 크기에 맞추어 개별 영상들을 나열하여 하나의 영상으로 제공할 수 있다.

또한, 비트 스트림 생성장치(520)는 제공받은 비트 스트림들의 해상도 조절(spatial scalability)이 가능한 경우 필요한 해상도로 비트 스트림을 생성하여 사용자 단말기(530)의 크기에 맞게 조절할 수 있다. 이를 위해 타일 구조 상의 영상의 순서 및 디코딩 구조에 따라 여러 개의 영상이 동시에 디코딩될 수 있도록 비트 스트림의 시퀀스(sequence)를 혼합하고, 타일 구조를 셋팅하여 제공한다.

타일 구조로 여러 영상 비트 스트림을 병합시에 해상도 조절이 필요한 경우, 첫번째 방법으로, 비트 스트림 생성장치(520) 내의 영상 요청부(290)가 해당 해상도에 대응하는 크기의 영상을 영상 서버 또는 영상 생성 단말기에게 요청하여 영상의 원하는 디스플레이 사이즈로 인코딩하여 비트 스트림으로 전송하도록 하여 이를 수신하는 방법이 있다.

두번째 방법으로는, 해당 크기의 영상이 영상 서버 또는 영상 생성 단말기에 준비되어 있지 않은 경우에는 영상 요청부(290)는 디스플레이 하고자 하는 크기와 유사한 크기의 영상을 영상 서버 또는 영상 생성 단말기에게 요청하여 각 타일에 대응하는 비트 스트림을 수신한다. 이때, 비트 스트림 생성장치(520)는 수신된 복수의 비트 스트림을 병합 비트스트림으로 생성하여 출력하고 병합 비트 스트림을 수신한 단말기에서 각 타일의 영상을 원하는 크기의 해상도로 리사이즈하여 출력하는 방법 등을 사용할 수 있다.

예를 들어, 제1 카메라(511)의 타일이 스캐닝 순서상 첫 번째이므로, 제1 카메라(511)의 n번 프레임, 제2 카메라(512)의 n번 프레임, 제3 카메라(513)의 n번 프레임, 제4 카메라(514)의 n번 프레임, 제1 카메라(511)의 n+1번 프레임, 제2 카메라(512)의 n+1번 프레임, 제3 카메라(513)의 n+1번 프레임, 제4 카메라(514)의 n+1번 프레임과 같은 형태로 혼합될 수 있다.

본 발명의 일 실시예에 따른 다중 영상의 단일 영상 비트 스트림 생성방법은, 디스플레이될 개별 영상을 선택하는 채널선택 입력과정(S610), 한 화면에 디스플레이되는 타일의 개수 및 각 타일의 크기에 대한 정보를 수신하여 디스플레이되는 타일의 개수 및 각 타일의 크기를 설정하는 타일 설정과정(S620), 복수의 개별 비디오 스트림을 획득하는 영상획득 과정(S630), 획득한 각 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 추출하는 영상정보 추출 과정(S640), 각 개별 영상 코드를 디스플레이 픽처의 설정된 레이아웃 형태 내에서 해당 개별 비디오 스트림에 대응되는 지정된 위치로 삽입하여 병합 영상 코드를 생성하는 과정(S650) 및 각 개별 헤더 정보를 이용하여 병합 영상 코드에 대응되는 병합 헤더 정보를 생성하여 병합 영상 코드 및 병합 헤더 정보를 포함하는 병합 비디오 스트림을 생성하는 과정(S660)을 포함한다.

채널선택 입력과정(S610), 타일 설정과정(S620), 영상획득 과정(S630), 영상정보 추출 과정(S640)은 각각 채널선택 입력부(260), 타일 설정부(240), 영상 획득부(210), 영상정보 추출부(220)의 동작에 대응되고, 병합 영상 코드를 생성하는 과정(S650) 및 병합 비디오 스트림을 생성하는 과정(S660)은 비트 스트림 생성부(230)의 동작에 대응되므로 상세한 설명은 생략한다.

도 6에서는 과정 S610 내지 과정 S640을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 6에 기재된 순서를 변경하여 실행하거나 과정 S610 내지 과정 S640 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 6은 시계열적인 순서로 한정되는 것은 아니다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

(부호의 설명)

110, 520 : 다중 영상의 단일 비트 스트림 생성장치

120 : 제1 사용자 단말기

130 : 제2 사용자 단말기

140 : 제3 사용자 단말기

210 : 영상 획득부

220 : 영상정보 추출부

230 : 비트 스트림 생성부

240 : 타일 설정부

250 : 오디오채널 선택부

260 : 채널선택 입력부

280 : 오디오 복호부

290 : 영상 요청부

511 : 제1 카메라

512 : 제2 카메라

513 : 제3 카메라

514 : 제4 카메라

530 : 사용자 단말기

CROSS-REFERENCE TO RELATED APPLICATION

본 특허출원은 2014년 01월 06일 한국에 출원한 특허출원번호 제 10-2014-0001447 호, 2014년 10월 29일 한국에 출원한 특허출원번호 제 10-2014-0147846 호에 대해 미국 특허법 119(a)조(35 U.S.C 119(a))에 따라 우선권을 주장하면, 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다. 아울러, 본 특허출원은 미국 이외에 국가에 대해서도 위와 동일한 이유로 우선권을 주장하면 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다.

Claims

복수의 개별 비디오 스트림을 획득하는 영상 획득부;

상기 영상 획득부가 획득한 각 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 추출하는 영상정보 추출부; 및

각 개별 영상 코드를 디스플레이 픽처의 설정된 레이아웃 형태 내에서 해당 개별 비디오 스트림을 지정된 위치에 대응하도록 재구성하여 병합 영상 코드를 생성하고 각 개별 헤더 정보를 이용하여 상기 병합 영상 코드에 대응되는 병합 헤더 정보를 생성하여 병합 영상 코드 및 상기 병합 헤더 정보를 포함하는 병합 비디오 스트림을 생성하는 비트 스트림 생성부

를 포함하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제1항에 있어서,

상기 다중 영상의 단일 비트 스트림 생성장치는, 제1 선택정보를 수신하여 상기 제1 선택정보에 따라 상기 복수의 개별 비디오 스트림 중에서 어느 하나의 개별 비디오 스트림에 대응하는 오디오 스트림을 복호화하는 오디오 복호부를 더 포함하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제1항에 있어서,

상기 병합 비디오 스트림은 복수의 타일로 구성됨을 지시하는 정보가 상기 병합 헤더 정보에 포함되는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제3항에 있어서,

각 개별 영상 코드가 기설정된 위치의 타일에 따라 재구성되는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제3항에 있어서,

슬라이스의 경계를 가로질러 루프 필터링을 수행할 수 없음을 지시하는 정보가 모든 개별 헤더 정보에 포함되는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제3항에 있어서,

상기 타일은 하나 또는 복수의 슬라이스로 구성되는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제1항에 있어서,

상기 개별 비디오 스트림을 파싱하여 상기 개별 비디오 스트림에서 기설정 형태의 바이트 스트링이 파싱되는 경우 이를 제1 바이트 스트링으로 변환한 후 상기 병합 비디오 스트림을 생성하고, 상기 병합 비디오 스트림을 스캔하여 상기 제1 바이트 스트링이 발견되는 경우 이를 상기 기설정 바이트 스트링으로 변환하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제1항에 있어서,

예측 단위에서 움직임 벡터 부호화 시에 현재 부호화하는 예측 단위의 블록과 동일한 위치에 존재하는 다른 픽처의 움직임 벡터를 참조할 수 없음을 지시하는 정보가 상기 개별 헤더 정보에 포함되는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제3항에 있어서,

상기 비트 스트림 생성부는, 사용자의 선택정보를 수신하여 각 타일의 크기를 결정하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제3항에 있어서,

상기 비트 스트림 생성부는, 사용자의 선택정보를 수신하여 n 개의 타일을 포함하는 상기 디스플레이 픽처의 화면 구성을 선택하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제10항에 있어서, 상기 비트 스트림 생성부는,

상기 n 개의 타일의 선택으로서 상기 화면 구성이 직사각형을 이루지 못하는 경우에는 기설정된 특정 영상정보를 상기 디스플레이 픽처의 특정 위치에 대응되는 타일에 대응하는 비디오 스트림으로서 입력받아 상기 화면 구성이 직사각형으로 형성되도록 하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제3항에 있어서,

상기 어느 하나의 타일의 폭 방향의 샘플 개수가 세로로 인접하는 타일의 폭 방향의 샘플 개수와 같고, 상기 어느 하나의 타일의 높이 방향의 샘플 개수가 가로로 인접하는 타일의 높이 방향의 샘플 개수와 같은 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
제3항에 있어서,

상기 병합 헤더 정보에는 상기 레이아웃에서 가로로 배치된 타일의 개수를 나타내는 정보와 세로로 배치된 타일의 개수를 나타내는 정보를 포함하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성장치.
다중 영상의 단일 비트 스트림 생성장치를 이용한 단일 비트 스트림 생성방법에 있어서,

복수의 개별 비디오 스트림을 획득하는 영상획득 과정;

상기 영상 획득부가 획득한 각 개별 비디오 스트림으로부터 개별 영상 코드 및 개별 헤더 정보를 추출하는 영상정보 추출 과정;

각 개별 영상 코드를 디스플레이 픽처의 설정된 레이아웃 형태 내에서 해당 개별 비디오 스트림을 지정된 위치에 대응하도록 재구성하여 병합 영상 코드를 생성하는 과정; 및

각 개별 헤더 정보를 이용하여 상기 병합 영상 코드에 대응되는 병합 헤더 정보를 생성하여 병합 영상 코드 및 상기 병합 헤더 정보를 포함하는 병합 비디오 스트림을 생성하는 과정

을 포함하는 것을 특징으로 하는 다중 영상의 단일 비트 스트림 생성방법.