KR100499057B1

KR100499057B1 - 비디오 압축 방법 및 장치

Info

Publication number: KR100499057B1
Application number: KR10-1999-7004479A
Authority: KR
Inventors: 듀석스쟝-크리스토페; 길로뗄필립
Original assignee: 톰슨 멀티미디어
Priority date: 1996-11-28
Filing date: 1997-11-24
Publication date: 2005-07-01
Also published as: CN1253647A; JP4338787B2; EP0941522A1; JP2001505381A; FR2756399A1; DE69715239D1; FR2756399B1; ID23677A; BR9713157A; KR20000057175A; US6501796B1; CN1099656C; AU5228798A; RU2209527C2; WO1998024061A1; EP0941522B1; DE69715239T2

Abstract

본 발명은 수리적인 데이터에 기초하여 장면(scene)을 모델링하는 처리 단계(1, 11)와, 상기 모델링으로부터 합성 이미지를 만드는 이미지 렌더링 및 이러한 합성 이미지를 이미지 블록으로 스토리보딩(storyboarding)하는 단계(2, 12)와, 레지듀얼 블록(4i)을 공급하기 위하여 한 개 이상의 움직임 벡터에 기초하여 한정되는, 한 개 이상의 상기 합성 이미지의 블록으로부터의 현재 이미지 블록에 대하여 차동 부호화(differential coding)하는 단계를 포함하여 스크립트의 장면 주제를 기술하는 컴퓨터 합성된 이미지의 시퀀스의 디지털 데이터를 압축하는 방법에 관한 것이다. 본 발명의 특징은 상기 움직임 벡터가 상기 합성 스크립트로부터 나온 것으로서 시퀀스의 서브젝트인 상기 장면을 구성하는 다양한 오브젝트들의 외관상 움직임을 나타내는 수리적 데이터로부터 계산되는 것이다. 본 발명은 프로덕션 중 이미지를 합성하는데 유용하다. 비디오 게임에 있어서는, 대화(interaction)나 가상 현실을 제작하는데 본 발명은 유용하게 된다.

Description

비디오 압축 방법 및 장치{METHOD AND DEVICE FOR VIDEO COMPRESSION}

컴퓨터 툴의 도움으로 이미지 합성을 통해 소위 가상 이미지를 만드는 것을 가능하게 한다. 가상 이미지는 추상적인 묘사와 디지털 계산으로부터 나온 것들이다. 이러한 것은 2D 및 3D 그래픽스 라이브러리를 통해 방법 콜렉션을 사용하는 것을 포함하는데, 상기 라이브러리는 아마 API(Application Program Interface) 형태의 적합한 인터페이스를 통하여 그리고 가속기 그래픽스 카드 유형의 특정 하드웨어 회로에 의하여 가속되어진다.

이러한 가상 이미지들을 만드는 방법은 여러 개의 단계로 나눌 수 있다.

그 방법은 우선 모델링 단계, 즉 설명 모델을 사용하여 오브젝트를 획득하거나 컴퓨터로 계산하는 단계를 포함하는데, 이 단계의 목적은 구성요소인 오브젝트를 묘사하고, 그래서 또한 그 오브젝트로부터 볼 수 있는 장면을 작성하기 위하여 그 오브젝트들을 어셈블하기 위함이다.

다각형 유형의 모델을 예로 들어 인용하기로 하는데, 이러한 모델에 있어서 오브젝트들은 다수개의 기본 다각형 즉 다면체의 면들로 나눠진다. 그래픽 프리미티브들(graphical primitives)은 이러한 기본적인 기하학적 실체를 한정하거나 어셈블링하거나 또는 수정하는데 사용된다.

이러한 모델들은 해석(interpretable) 가능한데 : 모델들은 예를 들어 삼각형의 컬러링{또는 "셰이딩(shading)"}과 텍스쳐의 안티 에일리어싱(anti-aliasing) 등과 같은 그래픽 엔진의 종류와 관련될 수 있다. 그 모델들은 움직임, 폭발(explosion) 등과 같은 행동에 대한 것과 또한 텍스처와 컬러와 미러 효과 (mirror effect) 등과 같은 시각에 대한 성능이나 특성인 성능을 갖고 있다. 그 모델들은 시나리오를 만들 때, 예를 들어 다른 오브젝트들이나 빛과 같은, 환경과 상호작용(interact)할 수 있다. 따라서, 둘째로 시간에 대하여(여기서, 소정 응용을 달성하기 위한 시간의 의미) 이들 모델들의 글로벌 구성, 다시 말해서 시나리오나 또는 애니메이션의 해상도(definition)를 지배하는 움직임 장면의 구조가 존재한다.

마지막으로, 응용(CAD, 이미지 생성, 시뮬레이션, 등)에 따라, 마지막 단계는 그 시나리오로부터 디지털 이미지를 만드는 단계로 이루어 진다. 이 마지막 단계는 렌더링 또는 이미지 "렌디션" 방법이라고 불리우는데, 이 단계의 목적은 장면을 가능한 한 현실적으로 만들어 내는 것이다. 이용된 모델 및 포함된 프로그램에 관계된 데이터에 대하여, 계산 시간 측면에서 매우 비용이 들며 또한 큰 메모리 용량을 필요로 할 수 있다. 예를 들자면, 라디오시티(radiosity)나 광선 트레이싱 (ray tracing)과 같은 렌디션 방법은 품질 좋은 이미지를 얻을 수 있게 하지만, 비용은 훨씬 더 들고 또한 실행시키는 계산 알고리즘이 매우 복잡하다.

디지털 이미지로 표시되는 정보의 양은, JPEG, H.263, MPEG-1, MPEG-2, 및 조만간 MPEG-4와 같은 다양한 압축 표준들이 개발되게 하여 저장이든 전송이든 간에 현 기술과 호환될 수 있는 정보의 양을 처리하는 것을 가능하게 하였다. 오늘날 더 일반적이 되고 있는 MPEG-2 표준은, MPEG 표준에서 규정한 다양한 프로파일과 레벨의 도움으로 현존하는 모든 포맷의 이미지들을 압축하는 것을 가능하게 하며, 이중 가장 잘 알려진 프로파일/레벨 포맷은 종래의 텔레비젼 포맷의 이미지에 대하여 MP@ML(Main Profile at Main Level)이다. 종래의 기술에 따라 그러한 비디오 이미지 압축을 실행하는 코더들의 구조는 이미지의 다양한 형태 : 인트라(Intra), 예측(Predicted), 또는 양방향성(Bidirctional)에 의존하며(각각 I, P, 및 B), 이들의 주요 차잇점은 시간적 예측 모드(temporal mode of prediction)가 다르다는 것이다. 코딩 커널(kernel)은, 코더의 출력단에서 표준 양식에 합당하여야 하는 이진 트레인(binary train), 즉 특정의 신택스를 얻기 위하여, 양자화와 엔트로피 코딩이 후속하는 이산 코사인 변환(DCT :discret cosine transformation)을 하는 것에 기초하는 주파수 스플릿팅을 이용한다는 점에서 재래식이다.

시간적 예측은, 예를 들어 16×16 화소의 사이즈로 된 이미지 블록에 기초하여 시간적으로 분리되어 있는 이미지들간의 움직임을 추정함으로서 수행된다. 움직임은 현재 이미지의 블록과, 이전 또는 후행 이미지의 서치 윈도우의 블록들간의 상관성으로부터 유추된다. 그 다음으로, 이미지의 8×8 화소의 사이즈로 된 각 블록은 계산된 변위 벡터로부터 예측되며, 또한 추정값과 원래값 간의 에러만이 코딩된다.

따라서, 데이터 압축은 그 데이터가 종래 형태의 이미지이던가 합성 이미지든가에 상관없이 움직임 추정과 같은 종래의 방법을 사용한다. 이러한 계산을 수행하는 회로와 그 회로에 관련되는 회로들은 복잡하며, 그렇게 셋업하는데는 경비가 많이 든다. 예를 들어, 움직임 추정 회로와 움직임 보상 보간 회로는 MPEG-2 양식의 코더가 복잡한 이유의 절반을 차지한다.

여전히 종래의 방법에 따라, 움직임 정보는 실제 움직임과 언제나 일치하는 것은 아니다. 움직임 정보는 일반적으로 루미넌스 정보에 관한 상관성을 단순히 포함하고 있다. 이미지의 움직임 벡터로 구성되는 벡터 필드가 실제 움직임을 반영하지 않는다는 사실은 특히 벡터에 대한 차동 부호화의 경우에 있어서 데이터 압축이 최적으로 되는 것을 불가능하게 한다. 왜 그렇게 되느냐 하면 균일 움직임 존(zones of uniform motion)에 해당하는 매크로블록에 대하여 차동 부호화할 때에 동일하거나 약간 다른 벡터들을 전송하는데 드는 경비가 무작위 벡터들을 전송하는데 드는 경비보다 덜 들기 때문이다.

더욱이, 종래의 "블록 매칭" 방법에 의하여 얻어진 움직임 벡터들이 실제 움직임을 꼭 반영하는 것은 아니다는 사실이 예를 들어 주파수 변환이 일어나고 있는 동안 디지털 비디오 레코더의 슬로우 모션 모드 등의 양호한 품질의 이미지들에 대한 보간(interpolation)이나 보외(extrapolation)를 수행하는데 벡터 필드를 사용하지 못하게 한다.

또한 부정확한 움직임 벡터 필드가, 매크로블록이 아닌 이미지의 윤곽선 (contour) 정보를 사용하는 새로운 코딩 기술을 사용하는 것을 불가능하게 한다. 그 이유는 상기와 같은 새로운 기술에 따라 데이터를 압축하는 것은 이미지 세그먼테이션(segmentation)과 균일 존을 정의하는 그 "세그먼트들"의 실제 변위에 기초하고 있기 때문이다.

따라서, 움직임 추정에 있어서 신뢰도가 떨어짐으로 말미암아 소정의 비트율에 대한 이미지 품질이나 압축 정도 면에서 코더의 성능이 최적으로 발휘되는 것이나 또는 디코더에서 이러한 움직임 정보를 효과적으로 사용하는 것을 불가능하게 한다.

도 1은 본 발명에 따른 비디오 압축 장치의 구조를 도시한 도면.

도 2는 구조가 단순화된 비디오 압축 장치를 도시한 도면.

본 발명의 목적은 합성 이미지를 코딩하는 동안에 위에서 언급한 결점들을 완화시키는 것이다.

목적을 달성하기 위하여, 본 발명의 주제는, 수리적 데이터에 기초하여 장면을 모델링하는 처리 단계와, 상기 모델링 처리로부터 합성 이미지를 만들기 위한 이미지 렌더링 및 상기 합성 이미지를 이미지 블록들로 분할하는 단계와, 레지듀얼 블록(residual block)을 생성하기 위하여, 한 개 이상의 움직임 벡터에 기초하여 한정되는, 한 개 이상의 상기 합성 이미지의 블록에 기초하여 현재 이미지 블록을 차동 부호화(differential coding)하는 단계를 포함하여 구성되는, 스크립트의 서브젝트인 장면을 묘사하는 합성 이미지의 디지털 데이터 시퀀스를 압축하기 위한 방법으로서, 상기 움직임 벡터가 상기 합성 스크립트로부터 나온 것으로서 시퀀스의 서브젝트인 상기 장면을 구성하는 다양한 오브젝트들의 외관상 움직임을 나타내는 수리적 데이터로부터 계산되는 것을 특징으로 한다.

본 발명의 주제는 또한 스크립트의 서브젝트인 장면을 묘사하는 합성 이미지의 시퀀스의 디지털 데이터를 압축하기 위한 장치에 대한 것으로서, 상기 장치는 수리적 데이터에 기초하여 합성되어지는 이미지로 구성된 상기 장면을 모델링하는 처리 회로와, 상기 합성 이미지를 얻고 상기 얻어진 이미지를 이미지 블록들로 분할하기 위하여, 상기 처리 회로로부터 큐(cues)들을 수신하는 이미지 렌더링 및 이미지를 블록들로 분할하는 회로와, 예측 블록을 생성하기 위하여 상기 처리 회로로부터의 큐를 수신하는 이미지 블록 움직임 보상 회로와, 레지듀얼 블록을 제공하기 위하여 상기 이미지 렌더링 및 이미지를 블록들로 분할하는 회로로부터 시발하는 현재 블록과, 상기 움직임 보상 회로로부터 시발하는 상기 예측 블록들간의 차(difference)를 얻어내는 뺄셈기와, 상기 이미지 렌더링 및 이미지를 이미지 블록들로 분할하는 회로로부터 시발하는 상기 이미지 블록들이나 상기 뺄셈기로부터 시발하는 레지듀얼 블록들에 대하여 이산 코사인 변환처리를 수행하는 이산 코사인 변환 회로로서 상기 두가지 블록에 대하여 에너지 기준 함수로서 선택을 하는 모드 선택 회로와, 상기 변환된 계수들을 양자화하는 회로를 포함하는데, 상기 장치에 있어서 상기 움직임 보상 회로는 상기 현재 블록과 연관되었으며 상기 예측 블록을 정의하는 상기 움직임 벡터를 계산하기 위하여, 상기 처리 회로로부터 공급되며 상기 장면을 구성하는 상기 모델링화된 오브젝트들에 대한 변위(displacement)를 나타내는 수리적 데이터를 이용하는 것을 특징으로 한다.

다른 실시예에 따라, 본 발명의 주제는 스크립트의 서브젝트인 장면을 묘사하는 합성 이미지 시퀀스의 디지털 데이터를 압축하는 장치로서, 상기 압축 장치는 수리적인 데이터에 기초하여 합성되는 이미지들로 이루어지는 장면을 모델링(modelling)하는 처리 회로와, 합성 이미지를 얻고 얻어진 이미지를 이미지 블록들로 분할하기 위하여 상기 처리 회로로부터 큐를 수신하는 이미지 렌더링 및 이미지를 블록들로 분할하는 회로와, 상기 처리 회로로부터 큐를 수신하는 이미지 블록 움직임 보상 회로를 포함하는 디지털 데이터 압축 장치에 있어서, 인트라 모드에서 시퀀스의 N개 이미지 중에서 한 개의 이미지를 전송하고 상기 N은 사전에 결정된 개수이고, 상기 N개의 이미지는 렌디션 계산과 이미지 블록들로의 분할을 하는 회로에 의하여 구해지는 렌디션 계산의 서브젝트인 이미지이며, 다른 이미지들은 인터 모드에서 현재 블록과 예측 블록간의 차(difference)를 나타내는 레지듀얼 블록(residual block)을 통하여 전송되며, 그리고 상기 레지듀얼 블록들은 널(null)이며 수리적 데이터로부터 계산된 한 개의 움직임 벡터에 의하여 한정되는 것을 특징으로 한다.

일반적으로, 이미지 렌더링 기술은 "오브젝트" 지향 시나리오를 이미지로 표시하는 것이다. 그렇다면 스크립트, 즉 시나리오는 장면에 있는 오브젝트에 관한 모든 있을 수 있는 정보와 오브젝트에 대한 다양한 특성을 포함한다. 이미지 합성 경우에, 2D나 3D 스크립트는 시간에 대한 오브젝트의 정확한 변위를 나타낸다. 그래서 이러한 스크립트는 최종 디지털 비디오 이미지를 생성하는 역할을 한다(렌더링). 따라서, 움직임을 추정하기 위하여, 비쥬얼 이미지를 구성하는 화소들로 구성된 정보 즉 모델링되지 않은 정보를 사용하는 대신에, 모델링 툴(modelling tool)은 이미지 시퀀스의 실제 움직임을 계산하도록 사용된다.

복잡성이 감소되는 것 말고도, 추정 움직임을 사용하는 대신에 실제의 움직임을 사용함으로써 예측 품질이 개선되고 코더의 전체적인 성능이 개선되는 것이 가능하게 된다.

본 발명의 다른 특성 및 장점들은 한정되지 않는 예들에서 제공되었으며 이하에 나오는 첨부된 도면에 관련하여 나타나 있는 다음 설명을 보면 명백하게 알 수 있게 된다.

도 1은 본 발명에 따른 장치의 제 1 버전을 도시한다.

위에서 설명한 바와 같이, 이미지 합성과 관련된 계산은, 대단히 복잡하며 일반적으로 전용 워크스테이션에서 그 계산이 수행된다. 전용 워크스테이션은 스크립트의 서브젝트인 장면을 나타내는 합성 이미지를 생성할 목적을 위하여 스크립트에 기초하여 이전에 한정된 장면에 대하여 모델링을 수행하는, 여기에서 처리 회로(1)라고 언급되는, 그러한 스테이션이다. 따라서 처리 회로로부터 얻어지는 정보는 이미지 "렌더링" 회로(2)와 인터페이스 회로(6)에 병렬로 전송된다. 렌더링 회로의 출력은 이미지 블록들로 분할하는 회로(3)의 입력단과 움직임 보상 회로(7)의 제 1 입력단에 병렬로 링크되어 있다.

분할 회로의 제 1 출력단은 모드 선택 회로(5)의 제 1 입력단에 직접 링크되어 있다.

분할 회로의 n개의 출력 중에서 제 2 출력(i)은 n개 중에서 뺄셈기 (4i)의 제 1 입력단에 링크되어 있다. 뺄셈기(4i)의 출력단은 모드 선택 회로(5)의 n개의 입력단 중에서 제 2 입력단(i)에 링크되어 있다.

인터페이스 회로(6)의 출력단은 움직임 보상 회로(7)의 제 2 입력단에 링크되어 있다. 움직임 보상 회로의 n개의 출력단 중에서 한 출력단(i)은 뺄셈기(4i)의 제 2 입력단에 링크되어 있다.

모드 선택 회로(5)의 출력은 이산 코사인 변환 계산 회로(8)와 양자화 회로(9)와 가변 길이 부호화 회로(10)를 거쳐 장치의 출력에 링크되며, 이들은 모두 직렬로 연결된다. 가변 길이 부호화 회로의 출력은 본 장치의 출력이며 또한 양자화 회로(9)(비트율 조정 포함)의 제 2 입력단으로 더 연결된다. 움직임 보상 회로 (7)의 다른 출력은 가변 길이 부호화 회로(10)의 제 2 입력단으로 링크되어 있다. 이 예에서, 움직임 보상(7)는 이전에 디코딩된 이미지, 즉 재구성된 이미지가 없이 수행된다. 그래서 "드리프트(drift)"라고 알려진 현상인 예측 에러 누적 문제가 발생할 수 있다. 그 과정을 개선하기 위하여, 역 양자화와 역 DCT를 갖는 네가티브 -피드백 루프(negative-feedback loop)를 사용하는 것이 가능한데, 상기 네가티브-피드백 루프는 움직임 보상 회로(7)에 이전에 디코딩된 이미지 (previous decoded images)를 제공한다.

따라서, 처리 회로(1)는 시나리오의 수리적인 공식화를 위하여 요구되는 컴퓨터 툴을 의미한다. 처리 회로의 기능은 위에서 설명한 바와 같이 장면을 3차원으로 모델링(model)하는 것으로서, 다시 말하자면 장면을 구성하는 오브젝트와 스크립트로 정의되는 그 오브젝트들의 움직임에 대한 수학적인 등식을 정의하는 것이다. 이러한 수학적인 모델링 데이터는, 처리 회로에 액세스 가능하며 예를 들어 사전에 규정된 모델을 저장하는 컴퓨터 파일로부터 또한 비롯될 수 있다.

이미지 렌더링 회로의 역할은 합성 이미지를 생성하는 것이다. 이미지 렌더링 회로는 모델링된 장면을 화소들로 전환하는 기능을 수행한다. 얻어진 이미지의 루미넌스와 크로미넌스에 해당하는 디지털 정보는 분할 회로(3)에 전송되는데, 상기 분할 회로는 각 이미지를 매크로블록들, 즉 MPEG-2 표준에 따라 네개의 8×8 화소 이미지 블록들을 포함하는 사이즈가 16×16 화소인 블록으로 분할하는 일을 한다. 인터페이스 회로(6)의 역할은, 응용, 여기서는 이미지 합성으로 주어지는 변위 정보를 움직임 보상 회로(7)에 전송되는 매크로블록 방식의(macroblock-wise) 움직임 필드로 변환하는 것이다. 각각의 매크로블록은 인터페이스 회로가 장면을 모델링하는 수리적 데이터로부터 계산한 한 개 이상의 움직임 벡터와 관련되는데, 그 수리적 데이터는 처리 회로(1)로부터 수신된다. 병진 이동(translation)과 회전 이동(rotation)과 호모세티(homothety) 등과 같은 수학적인 변환들이 매크로블록 각각에 관련되는 2차원 벡터들로서 표시된다.

삭제

물론 움직임 벡터는 예를 들어 장면의 지점(viewpoint)의 변위를 고려하여, 오브젝트들의 외관상 움직임(apparent motion)을 표시한다.

이러한 변위의 변환(displacement conversion)은 다음과 같이 수행된다 :

그 변위는 3차원 벡터로 정의되는 오브젝트 병진 이동(translation)이며, 이미지 면에 대하여 그 삼차원 벡터의 투영은 그 면에서 좌표 Dx, Dy를 갖는 벡터를 나타낸다고 가정하자. 오브젝트의 일부를 표시하는 이미지 매크로블록 전부는, MPEG 표준에서 정의한 것과 같은 움직임 벡터(Dx, Dy)로서 간주되는, 상기와 같은 벡터에 관련된다.

오브젝트의 경계, 카버 존(covered zone)이나 또는 카버되지 않은 존 (uncovered zone)에 있는 매크로블록과 같은 특정한 경우가 여전히 있게 된다.

경계 블록에 대한 한, 가장 간단한 해결책은 매크로블록과 관련된 움직임 벡터로서, 매크로블록 내에 대다수의 벡터(majority vector), 즉 매크로블록 내에 가장 많은 수의 화소에 해당하는 벡터를 취하는 것이다. 배경에 해당하는 벡터가 아닌 오브젝트에 해당하는 벡터를 선택하는 것도 또한 생각해 볼 수 있다. 이러한 선택은 탁월한 것은 아닌데, 왜냐하면 설명한 본 장치가 재구성(따라서 추정된 움직임)이 양호하지 않다면 가장 적합한 모드, 예를 들어 인트라 모드를 선택하는 모드 선택 회로를 구비하고 있기 때문이다.

카버된/카버되지 않은 매크로블록에 대하여, 가장 간단한 해결책은 카버된 또는 카버되지 않은 매크로블록들에 대응하는 존(zone)들이 불량하게 재구성될 것을 아는 경우 제로의 움직임을 그 매크로블록에 지정하는 것이다. 더욱 세밀한 해결책은 B(bidirectional) 이미지에 대한 순방향 및 역방향 벡터를 규정하고 있는 MPEG-2 신택스에 의하여 제공된다. 이때 이러한 두가지 종류의 벡터들은 처리 회로(1)에 의하여 제공된 데이터에 기초하여 움직임 인터페이스 회로(6)에 의하여 계산되어지며, 그리하여 처리된 매크로블록에 관련하는 순방향 움직임 벡터 및 역방향 움직임 벡터로서 간주된다. 그래서, 카버되지 않은 존은 순방향 지시(시간에 대하여) 움직임을 이용하여 재구성될 수 있으며, 카버된 존은 역방향 지시 움직임을 이용하여 재구성된다. 코딩 모드 선택은 또한 여기에서는 모드 선택 회로에 의하여 수행된다.

실제적으로 MPEG 표준은 매크로블록에 다음과 같은 다양한 형태의 벡터들, 즉:

- 처리된 매크로블록에 해당하는 이미지의 이전 이미지와 이후 이미지를 각각 고려하는, "순방향(forward)" 또는 "역방향(backward)"과 같은 단일 방향 형태의 벡터들과, - 모드 선택 회로가 양방향 예측 모드를 선택하는 경우에 사용되는 양방향 형태의 벡터들을 할당하는 것을 가능하게 한다.

삭제

이것은 실제적으로 매크로블록과 연관한 두 가지 벡터를 포함하고, 처리된 매크로블록은 순방향 벡터와 역방향 벡터에 의하여 이들 벡터로 한정된 두 개의 매크로블록들을 평균낸(averaging) 매크로블록과 매칭되며, 상기 평균은 매칭되는 화소들의 루미넌스와 처리된 매크로블록까지의 시간적 거리의 함수이다. 이들 두가지의 벡터들은 위에서 설명한 것들과 동일한 것일 수 있다.

움직임 보상 회로(7)는 움직임 벡터 필드 및 렌디션 계산 회로에 의하여 전송된 이전(및 후행) 이미지들에 기초하여 예측 이미지 계산을, 즉 움직임 보상처리된 이미지 계산뿐만 아니라, 그렇게 얻은 이미지들을 매크로블록으로 분할하는 일을 수행한다.

분할 회로(3)에 의하여 전송된 현재 매크로블록은 뺄셈기(4i)의 플러스 입력단에서 수신되며, 예측 이미지의 대응하는 매크로블록은 뺄셈기의 마이너스 입력단에서 수신되는데, 상기 예측 이미지의 매크로블록은 움직임 보상 회로(7)에 의하여 전송된 것이다. 뺄셈기의 출력단에서 이용가능한 "레지듀얼(residual)" 매크로 블록 즉 각 화소에 대하여 만들어진 차(difference)에 해당하는 매크로블록은, 모드 선택 회로(5)에 전송된다.

실제적으로, 위에서 설명한 움직임 벡터의 각각의 형태는, 움직임 보상 회로에 의하여 계산된 예측 이미지에 해당하게 된다. 따라서 움직임 보상 회로는 선택된 벡터 형태의 개수와 동일한 개수의 출력단(n)을 구비하며, 그 출력단 각각은 뺄셈기(4i)에 링크되어 있으며, 그 뺄셈기는 다른 입력단으로 이미지의 현재 블록을 수신한다. 모든 형태의 계산된 레지듀얼들은 모드 선택 회로의 n개의 입력단으로 전송되어지는데, 상기 모드 선택 회로의 다른 입력단은 분할 회로(3)로부터 직접 현재 매크로블록을 또한 수신한다.

모드 선택 회로(5)는 매크로블록이 코딩되는 모드를 결정한다. 사용될 수 있는 코딩 모드는 예를 들어 다음과 같다 :

- 움직임 보상을 이용하는 또는 이용하지 않는 코딩, 다시 말해서 움직임 벡터의 전송을 해야하는 코딩과 움직임 벡터의 전송없이 하는 코딩;

- 인트라 또는 비-인트라 코딩(인터-이미지 코딩, 동일한 패리티 또는 동일하지 않은 패리티의 인터-프레임, 예측 인터 코딩 또는 예측 양방향 코딩, 등)

- 비-인트라 코딩인 경우에, 레지듀얼 블록의 코딩이나 레지듀얼 블록이 아닌 블록에 대한 코딩(레지듀얼이 아주 작은 경우).

모드 선택은 모드 선택 회로가 각 모드에 대하여 매크로블록 에너지 계산을 수행하고 나서 가장 작은 에너지를 나타내는 모드를 선택함으로써 이루어진다. 대부분의 경우에 있어서 에너지 계산값은 절대값의 합계의 근사치이다.

그리고 나서 선택된 블록들에 대하여 이산 코사인 변환과, 양자화와, 및 가변 길이 부호화 형태의 부호화처리들이 수행되어진다. 비트율은 본 장치의 출력에서 태핑되어(tapped off) 양자화기에 전송되는데, 이러한 조정 루프는 단순화를 위하여 양자화 회로내에 포함된 비트율 조정 블록을 이용하여 양자화 간격으로 작용한다.

처리된 매크로블록들과 관련되는 벡터들은 움직임 보상 회로에 의하여 가변 길이 부호화 회로(10)에 전송되는데, 상기 가변 길이 부호화 회로는 매크로블록의 양자화된 계수들과 움직임 벡터값에 대한 멀티플렉싱을 수행한다.

예를 들어 뺄셈기들에 공급된 예측 매크로블록들의 형태를 제한함으로써, 본 장치를 단순화시키는 것도 물론 생각할 수 있다. 인터페이스 회로는 자기가 소유하는 정보로부터 가장 양호한 상관성(correlation)을 허용하는 모드를 추론할 수 있을 때에, 이러한 인터페이스 회로에 의하여, 부분적으로 업스트림(upstream)으로 모드 선택을 수행한다.

인터페이스 회로는 그 다음에 이 모드가 이루어지도록 모드 선택 회로(5)의 보충 입력에 모드 큐를 전송한다. 그래서 모드 선택 회로는 단순화된다.

다른 실시예가 도 2에서 설명된다.

처리 회로(11)의 출력은 병렬 방식으로 이미지 렌더링 계산 회로(12)의 입력단과 움직임 인터페이스 회로(13)의 입력단에 링크되어 있다. 양방향 링크 (bidirectional link)는 위에서 언급한 두 개의 회로, 즉 이미지 렌더링 계산 회로와 움직임 인터페이스 회로를 연결시킨다. 이미지 렌더링 계산 회로(12)의 출력단은 직렬 방식으로 서로 위치하는 이산 코사인 변환 계산 회로(14)와 양자화 회로(15)와 가변 길이 부호화 회로(16)를 통하여 본 장치의 출력단으로 링크된다. 가변 길이 부호화 회로의 출력은 본 장치의 출력이며 조정 루프(regulating loop)가 되게 하기 위하여 양자화 회로(15)의 제 2 입력으로 또한 복귀한다.

움직임 인터페이스 회로(13)의 출력은 가변 길이 부호화 회로(16)의 제 2 입력에 링크되어 있다.

처리 회로(11)는 도 1에서 설명한 것과 동일한 특성과 기능을 갖는다.

회로(12)에 의하여 수행되는 렌디션 계산은, 샘플링에 의해서, 다시 말해 전송될 이미지 시퀀스의 매 N개의 이미지마다 하나의 이미지에 대해 샘플링함으로써 이루어 진다는 점에서 도 1에서 설명한 렌디션 계산과 다르다.

이미지 렌더링 계산 회로에 의하여 구성된 이미지는 그 다음에 매크로블록과 이미지 블록으로 분할되는데, 이 기능도 또한 이미지 렌더링 계산 회로에 의하여 수행된다. 블록들은 이 블록들에 대한 코사인 변환처리를 수행하는 이산 코사인 변환을 계산하는 회로(14)에, 그 다음에 변환된 계수에 대한 양자화 (quantization)와, 이들 계수의 대기(waiting) 및 연속화(serialization)를 수행하는 양자화 회로(15)에, 마지막으로 연속화된 데이터에 대하여 엔트로피 코딩을 수행하는 가변 길이 부호화 회로(16)에 연속으로 송신된다. 조정 루프는 양자화기(15)내에 설치된 비트율 조정 회로에 공급하기 위하여 본 장치의 출력에서의 비트율을 태핑하는데, 그 비트율 조정 회로는 그 조정(regulation)을 수행하기 위하여 양자화 간격으로 작용한다.

움직임 인터페이스 회로(13)는 도 1의 움직임 인터페이스 회로(6)에 대하여 언급한 것과 유사한 방식으로 움직임 벡터 필드를 계산하며, 현재 처리된 매크로블록에 지정되는 움직임 벡터나 움직임 벡터들을 가변 길이 부호화 회로에 전송한다. 움직임 인터페이스 회로는 또한 움직임 벡터나 벡터들에 해당하는 모드 큐를 공급한다. 코딩 회로는 코딩 모드와 함께 현재 매크로블록과 관련된 움직임 벡터와 상기 매크로블록에 대하여 변환 처리되고 양자화된 데이터를 멀티플렉싱하는 일을 수행하여 이 모든 멀티플렉싱된 정보를 본 장치의 출력으로서 전송한다.

움직임 인터페이스 회로(13)와 렌디션 계산 회로(12)간의 링크는 매크로블록으로 분할하는 것, DCT 회로에 전송된 현재 매크로블록과 코딩 모드 등에 관련된 정보가 교환되는 것을 가능하게 한다.

따라서, 계산 시간이 오래 걸리는 이미지 렌더링 과정이 여기에서는 간단하게 된다. 이것에 대한 착상은 특정의 합성 이미지와, 누락된(missing) 이미지들간의 움직임만을 활용한다는 것이다. 계산된 합성 이미지들은 시간에 대하여 분리되어 있으며(다시 말하자면 매 N 이미지 주기마다 한 개의 이미지가 있음), 전형적으로 코더에 의하여 인트라 모드로 코딩된 이미지를 표시한다. 소위 누락 이미지들은 계산되지도 않고 전송되지도 않고 저장되지도 않는다. 디코더는 나중에 자신에게 전송되는 움직임 큐에 의하여 누락 이미지를 만드는 일을 담당한다. 따라서 코더가 예측 에러 이미지들이 널(null)로 구성되어 있는 것처럼 모든 것이 발생한다(움직임 보상 예측은 제거된다).

회로(13)에 의하여 전송된 코딩 모드는 렌더링 회로에 의하여 처리된 이미지에 의존한다. 인트라 코딩에 대응하여 계산된 이미지들이 있다면, 이 이미지들에 대한 움직임 벡터들은 전송되지 않는다. 중개 포맷 이미지(intermediate image)는 제로 예측 에러와 함께(제로에서 레지듀얼 매크로블록의 계수들) 인터 모드에서 코딩된 이미지로서 간주되며, 움직임 벡터로 표시되는 움직임은 실제 계산된 것으로서 추정되지 않은 움직임이고, 합성 이미지들은 잡음이 없는 것으로서 간주된다. 디코더에서 이러한 인터 이미지들은 위에서 설명한 바와 같이 인트라 이미지와, 각 인터 이미지를 위하여 전송된 움직임 벡터로부터 재생성된다.

이러한 응용에서, 매크로블록 관련 움직임(움직임 벡터)은 정확하지 않을 수 있으며, 경계 블록(boundary block)에 있는 결점들은 정정되지 않으며, 및 일루미네이션은 인트라 이미지들간에 일정한 것으로 추정된다. 이러한 장치는 이미지 품질이 비디오 게임과 같이 보다 중요하지 않은 응용의 경우를 위한 것이다. 처리 속도와 데이터 압축과 및 낮은 구성 경비는 상기와 같은 장치에 있는 특성으로서, 이러한 특성은 이미지 품질에 불리하게 작용하는 것이다.

본 장치의 제 1 실시예에서, 이미지 품질 측면을 따져 본다면, 코딩 모드는 처리되는 매크로블록의 형태에 의존한다. 도 2에 점선으로 표시된 에러 인터페이스 회로(17)가 이 새로운 기능을 수행하기 위하여 추가된다.

에러 인터페이스 회로는 처리 회로(11)로부터 정보를 수신하여 이미지 렌더링 계산 회로(12)와 정보를 교환하는데, 이 정보는 현재 매크로블록의 코딩에 관련된다.

에러 인터페이스 회로의 역할은 움직이고 있는 오브젝트의 윤곽선(contour)에 주로 나타나는 에러를 검출하는 것이다. 관련된 매크로블록에 대한 특정의 처리방법이 제공된다. 전송되어질 매크로블록들이 경계 블록이며, 처리 회로(11)로부터 시발된 정보에 기초하여 에러를 계산하는 회로에 의하여 계산된 정보나, 또는 이미지 렌더링 계산 회로를 경유하여 움직임 인터페이스 회로(13)로부터 수신된 정보라면, 에러 인터페이스 회로는 이미지 렌더링 계산 회로에 그러한 경계 블록을 위하여 이미지 렌더링 계산을 하도록 한다. 그리고나서 이 모드는 이 매크로블록에 대하여 인트라로 되며 움직임 인터페이스 회로(13)에 정보가 전송된다. 따라서 단순화된 렌디션 계산이 이미지 렌더링 계산 회로(12)에 의하여 인터 모드로 코딩된 이미지들에 대하여, 이미지의 이 블록에 대해서만 이루어진다.

본 장치의 두 번째 향상은 도 2에 점선으로 나타난 일류미네이션 인터페이스부(18)를 추가하는 것으로 이루어진다.

이 일루미네이션 인터페이스부(18)는 처리 회로(11)로부터 정보를 수신하여 이미지 렌더링 계산 회로(12)와 정보를 교환하며, 그 정보들은 현재 매크로블록의 코딩에 관련되는 것이다.

상기 회로의 기능은 일류미네이션 모델(illumination model)을 코더를 위한 에러 이미지로 전환시키는 것이다. 오브젝트 큐(object cue)로부터 MPEG 표준에 따른 코딩에 적합한 큐로의 변환은 예를 들어 한 이미지에서 다른 이미지로의 일루미네이션 변화를 예측 에러로 간주하는 것에 의하여 이루어진다. 따라서, 한 이미지로부터 다른 이미지로 처리된 매크로블록(macroblock)의 루미넌스(luminance)의 변동량에 관련된 큐는 일류미네이션 인터페이스부(18)에 의하여 이미지 렌더링 계산 회로(12)에 전송되며, 그 큐는 이미 예측 에러로서 간주되는, 레지듀얼 블록의 형태로서 DCT 계산 회로에 렌더링 회로에 의하여 전송된다. 움직임 인터페이스 회로(13)는 이 처리된 매크로블록을 위하여 계산된 움직임 벡터 및 해당하는 모드 형태를 동시에 전송한다. 디코더에서, 재구성된 블록은 레지듀얼 블록이 추가되는 움직임 벡터에 대응하는 것이 될 것이다.

본 장치에 대한 세 번째의 향상은 양자화기(15)에 영역 큐를 전송하는 것을 가능하게 하는 영역 인터페이스부(19)를 추가하는 것이다.

이 영역 인터페이스부(region interface)(19)는 처리 회로(11)로부터 큐를 수신하고, 이미지 렌더링 계산 회로(12)로 현재 블록의 코딩에 관련하는 정보를 교환하고, 및 영역 정보를 양자화기(15)에 전송한다.

이 영역 인터페이스부는 처리 회로(11)로부터 개시된 모델링 정보의 함수로서 이미지를 영역들로 분할한다. 각 영역에는 라벨(label)이 할당되며, 더욱 정확하게는 각 블록이 속하는 영역의 함수로서 각 블록에 라벨이 할당되는데, 이미지 블록 관련 분할에 관한 데이터는 이미지 렌더링 계산 회로(12)로부터 시발된다. 양자화 회로(15)에 의하여 계산된 양자화 간격(quantization interval)은 양자화 간격에 의해 "수반된(carried)" 영역 큐를 디코더에 전송하는 것과 같은 동일한 방식으로 상기 라벨의 함수로서 수정된다. 이러한 수정은 영역의 특성 - 비균일 영역 및/또는 움직임이 작은 영역에 대한 양자화 간격의 감소, 및 무늬(texture)가 많은 영역 즉 움직임이 많은 영역에 대한 양자화 간격의 증가- 에 따라 다를 수 있다. 따라서, 디코딩된 이미지의 품질은 블록에 있는 결점(defect)이 무늬가 많은 즉 움직임이 많은 구역에서 덜 인지된다는 사실을 허용하여, 주어진 비트율에 대하여 향상되게 된다.

움직임 벡터에 대한 상기의 동일한 기술이 소속이 분명하지 않은 경우에도 사용될 수 있다: 만약에 주요 영역이 어느 블록의 대다수 내에 있다면, 이 블록이 주요 영역에 속한다고 선언되며(대다수 모드), 또는 그 밖에 이 오브젝트가 이 블록의 일부를 완전히 부분적으로 형성한다면, 그 블록은 이미지의 주요 오브젝트에 속한다고 선언된다(주요 오브젝트 모드).

이러한 인터페이스는 코더 성능과 가능한 응용장치를 향상시킬 수 있는데 : 예를 들어 2D나 3D 응용에서 방금 확인한 작은 움직임이 적은 존이나 비균일 존들에 대한 양자화 간격의 감소로 인한 본질적인(subjective) 향상과, 영역 큐(region cue)에 의하여 디코더에 대해서는 대화성(interactivity)을 향상시킨다.

물론 이러한 것들은 예시적 실시예이고, 다양한 다른 대안들이 있으며, 이것들은 원하는 이미지 품질이나 해당 응용이나 원하는 처리 속도 또는 원하는 압축의 처리 속도나 압축 정도에 따라 결합되거나 따로 따로 사용될 수 있다.

따라서, 도 2의 장치는 도 1의 장치의 기능으로 아주 잘 만들어질 수 있으며 그 반대의 경우도 그러하다. 예를 들어서, 렌디션 계산 및 이미지 블록 분할 회로(12)는 또한 DCT 회로(14)에 이미지 블록을 제공하는 모드 선택기의 기능뿐만 아니라 움직임 보상 회로(13)로부터의 정보에 기초하여 차동 블록(differential block)이나 또는 레지듀얼 블록(residual block)을 계산하는 뺄셈기들(4i)의 기능을 수행할 수 있다. 따라서 작동 모드의 개수는 증가하게 되는데, 이것은 물론 회로들이 많아서 복잡해지는 것에 불리하게 된다.

설명된 방법 및 장치는 전송되는 압축 데이터 및 디코딩에 대하여 MPEG 형태의 데이터 압축 표준과 전적으로 호환된다.

본 발명의 응용은 프로덕션(가상 스튜디오, 만화, 비디오 합성 또는 영화, 특수 효과) 동안이라면 비디오 게임이나 대화형 응용에서나 또는 가상 현실 응용에서의 이미지 합성이다.

본 발명은 본 발명에 의하여 달성되는 단순성의 정도를 가정하면 내장형 플랫폼(워크스테이션, 게임 콘솔)에 구현될 수 있다.

Claims

스크립트의 서브젝트인 장면(scene)을 묘사하는 합성 이미지의 디지털 데이터 시퀀스를 압축하는 방법으로서, 수리적 데이터에 기초하여 장면을 모델링하는 처리 단계(1, 11)와, 상기 모델링 처리로부터 합성 이미지를 만들기 위한 이미지 렌더링 및 상기 합성 이미지를 이미지 블록들로 분할하는 단계(2, 12)와, 레지듀얼 블록(residual block)을 생성하기 위하여, 한 개 이상의 움직임 벡터에 기초하여 한정되는, 한 개 이상의 상기 합성 이미지의 블록에 기초하여 현재 이미지 블록을 차동 부호화(differential coding)(4i)하는 단계를 포함하여 구성되는, 디지털 데이터 시퀀스 압축 방법에 있어서,

상기 움직임 벡터는, 상기 합성 스크립트로부터 나온 수리적 데이터로서 시퀀스의 서브젝트인 상기 장면을 구성하는 다양한 오브젝트들의 외관상 움직임 (apparent motion)을 한정하는 수리적 데이터로부터 계산되는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 방법.
제 1항에 있어서, 상기 이미지 렌더링 단계(2, 12)는 N개 시퀀스 중에서 한 개의 이미지에 대해서만 수행되며, 여기서 상기 N은 사전에 결정된 숫자이고, 상기 이미지는 인트라 모드(intra mode)에서 코딩된 것이며, 또한 상기 차동 부호화(4i)는 중개 포맷 이미지(intermediate image)들의 블록들에 대하여 수행되는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 방법.
제 2항에 있어서, 상기 중개 포맷 이미지 중에서 코딩되려는 현재 이미지 블록은 움직임 벡터에 의해 매칭되는 합성 이미지 블록과 동일하여 제로 레지듀얼을 갖는 블록을 제공하는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 방법.
제 1항 내지 제 3항 중 어느 한 항에 있어서, 이미지 중에서 경계 이미지 블록들에 대한 코딩이 인트라 모드에서 실시되게 되는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 방법.
제 1항 또는 제 2항에 있어서, 상기 합성 이미지를 계산하기 위한 일루미네이션 큐(illumination cue)가, 현재 블록을 인터 코딩하기 위하여, 현재 블록과 관련된 움직임 벡터에 의해 매칭되는 이전 이미지 블록과 상기 현재 블록간의 동일하지 않은 루미넌스의 함수로서, 레지듀얼 블록을 계산(12)하도록 이용(18)되는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 방법.
제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 방법은 이미지 세그먼테이션을 수행(19)하고, 이미지 블록 각각에 라벨을 지정하고, 및 영역 큐(region cue)를 전송하기 위하여 상기 라벨의 함수로서 양자화 간격을 변경(15)하는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 방법.
제 6항에 있어서, 상기 양자화 간격은 무늬가 많거나(highly textured) 움직임이 큰(large motion) 영역에 속하는 블록들에 대하여는 증가(15)되고, 균일하거나 움직임이 작은 영역에 속하는 블록들에 대해서는 감소되는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 방법.
스크립트의 서브젝트인 장면(scene)을 묘사하는 합성 이미지의 디지털 데이터 시퀀스를 압축하는 장치로서, 수리적 데이터에 기초하여 합성될 이미지들로 이루어진 상기 장면을 모델링하는 처리 회로(1, 11)와, 합성 이미지를 만들고 그렇게 얻어진 이미지를 이미지 블록들로 분할하기 위하여 상기 처리 회로(1, 11)로부터 큐를 수신하여 이미지 렌더링 및 이미지를 이미지 블록들로의 분할을 수행하는 회로(2, 12)를 포함하는, 디지털 데이터 시퀀스 압축 장치에 있어서,

상기 디지털 데이터 압축 장치는 상기 처리 회로(1)가 공급한 수리적 데이터로서 상기 장면을 구성하는 상기 모델링된 오브젝트들의 변위(displacement)를 나타내는 수리적 데이터를 사용하여, 이미지 블록과 연관되는 것으로서 예측 블록(predicted block)을 한정하는 한 개 이상의 움직임 벡터를 계산하는 움직임 인터페이스 회로(6, 13)를 포함하며, 이러한 것에 기초하여 상기 이미지 블록의 코딩이 이루어지는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 장치.
제 8항에 있어서, 상기 디지털 데이터 압축 장치는, 예측 블록을 공급하기 위하여 상기 처리 회로(1)로부터의 큐(cues)와 상기 움직임 인터페이스 회로(6)로부터의 상기 움직임 벡터를 수신하는 이미지 블록 움직임 보상 회로(7)와, 상기 이미지 렌더링 및 이미지 블록들로의 분할을 수행하는 회로(2)로부터 시발하는(originating) 상기 현재 블록과 상기 움직임 보상 회로(7)로부터 시발하는 상기 예측 블록간의 차이를 구하여 레지듀얼 블록을 공급하는 뺄셈기(4i)와, 상기 이미지 렌더링 및 이미지 블록들로의 분할을 수행하는 회로(3)로부터 시발하는 이미지 블록이나 상기 뺄셈기 (4i)로부터 시발하는 레지듀얼 블록에 대한 이산 코사인 변환 회로(8)와, 에너지 기준의 함수를 이용하여 모드 선택을 하는 모드 선택 회로(5)를 포함하는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 장치.
제 8항에 있어서, 상기 디지털 데이터 압축 장치는 상기 시퀀스의 N개 이미지들 중의 한개 이미지를 인트라 모드로서 전송하고, 상기 N은 미리 결정된 수 (predetermined number)이며, 상기 이미지는 상기 렌디션 계산 및 이미지 블록들로 분할하는 회로(12)에 의한 렌디션 계산의 서브젝트이며, 또한 다른 이미지나 다른 이미지 부분들은 상기 움직임 인터페이스 회로(13)로부터 시발하여 상기 예측 블록을 정의하는 움직임 벡터만을 이용하여 인터 모드로서 전송되며, 제로 값을 갖는 블록들에 대응하는 블록들에 기초하여 코딩하는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 장치.
제 8항에 있어서, 상기 디지털 데이터 압축 장치는 상기 시퀀스의 N개 이미지 중에서 한개의 이미지를 인트라 모드로서 전송하고, 상기 N은 예정 수이며, 상기 이미지는 상기 렌디션 계산 및 이미지 블록들로 분할하는 회로(12)에 의한 렌디션 계산의 서브젝트이며, 다른 이미지들은 현재 블록과 예측 블록간의 차이를 나타내는 레지듀얼 블록을 이용하여 인터 모드로서 전송되며, 상기 레지듀얼 블록은 상기 현재 블록과 수리적 데이터에 기초하여 예측된 블록간의 일루미네이션 차이를 계산하는 기능을 수행하는 일루미네이션 인터페이스 회로(18)로부터 얻어지는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 장치.
제 10항 또는 제 11항에 있어서, 상기 디지털 데이터 압축 장치는, 상기 예측 블록과의 오차가 특정 임계값을 초과할 때에 상기 현재 블록을 인트라 모드로 코딩하도록 하기 위하여, 상기 현재 블록과 상기 예측 블록간의 오차를 검출하는 오차(error) 인터페이스 회로(19)를 포함하는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 장치.
제 9항 내지 제 11항 중 어느 한 항에 있어서, 상기 디지털 데이터는 MPEG-2 포맷이나 그 MPEG-2 표준에서 유도된 포맷에 따라 압축되는 것을 특징으로 하는 디지털 데이터 시퀀스 압축 장치.