KR20000057175A

KR20000057175A - 비디오 압축 방법 및 장치

Info

Publication number: KR20000057175A
Application number: KR1019990704479A
Authority: KR
Inventors: 듀석스쟝-크리스토페; 길로뗄필립
Original assignee: 브릭크만 게오르그; 톰슨 멀티미디어
Priority date: 1996-11-28
Filing date: 1997-11-24
Publication date: 2000-09-15
Also published as: RU2209527C2; EP0941522B1; JP4338787B2; BR9713157A; DE69715239D1; CN1253647A; WO1998024061A1; CN1099656C; ID23677A; FR2756399A1; JP2001505381A; AU5228798A; KR100499057B1; DE69715239T2; EP0941522A1; FR2756399B1; US6501796B1

Abstract

본 발명은 수리적인 데이터에 기초하여 장면(scene)을 모델링하는 처리 단계(1, 11)와, 상기 모델링으로부터 합성 이미지를 만드는 이미지 렌더링 및 이러한 합성 이미지를 이미지 블록으로 스토리보딩(storyboarding)하는 단계(2, 12)와, 레지듀얼 블록(4i)을 공급하기 위하여 한 개 이상의 움직임 벡터에 기초하여 한정되는, 한 개 이상의 상기 합성 이미지의 블록으로부터의 현재 이미지에 대하여 차동 부호화(differential coding)하는 단계를 포함하여 구성된다. 본 발명의 특징은 상기 움직임 벡터가 상기 합성 스크립트로부터 나온 것으로서 시퀀스의 서브젝트인 상기 장면을 구성하는 다양한 오브젝트들의 뚜렷한 움직임을 나타내는 수리적 데이터로부터 계산되는 것이다. 본 발명은 생성중인 이미지를 합성하는데 유용하다. 비디오 게임에 있어서는, 대화(interaction)나 가상 현실을 생성하는데 본 발명은 유용하게 된다.

Description

비디오 압축 방법 및 장치{METHOD AND DEVICE FOR VIDEO COMPRESSION}

이러한 가상 이미지들을 만드는 방법은 여러 개의 단계로 나눌 수 있다.

그 방법은 우선 모델링 단계, 즉 도면 모델을 사용하여 오브젝트를 획득하거나 컴퓨터로 계산하는 단계를 포함하는데, 이 단계의 목적은 구성요소인 오브젝트를 묘사하고, 그래서 또한 그 오브젝트로부터 보이는 장면을 작성하기 위하여 그 오브젝트들을 어셈블 편집하기 위함이다.

다각형 단위의 모델을 예로 들어 인용하기로 하는데, 이러한 모델에 있어서 오브젝트들은 다수개의 기본 단위인 다각형 즉 다면체의 면들로 나눠진다. 그래픽 프라이미티브들(graphical primitives)은 이러한 기본적인 기하학적 실체를 한정하거나 조립하거나 또는 수정하는데 사용된다.

이러한 모델들은 기계 번역(interpretable)이 가능한데 : 모델들은 예를 들어 입사각 관계에 의하여 생기는 컬러링(또는 "셰이딩(shading)")과 텍스쳐의 안티 에일리어싱(anti-aliasing) 등과 같은 그래픽 처리 수단과 관련될 수 있다. 그 그래픽 처리 수단들은 움직임, 폭발(explosion)과 같은 행동에 대한 것과 또한 텍스처와 컬러와 미러 이펙트(mirror effect) 등과 같은 시각적인 성능이나 특성인 성능을 갖고 있다. 그 처리 수단들은 예를 들어 다른 오브젝트들이나 빛과 함께 시나리오를 만드는 환경과 상호작용(interact)할 수 있다. 따라서, 종속적으로 시간에 대하여(여기서, 소정 적용에 영향을 미치기 위하여 취해지는 시간) 이들 모델들의 글로벌 구성을, 다시 말해서 시나리오나 또는 애니메이션의 한정화(definition)를 지배하는 움직임 장면을 구성할 수 있게 된다.

마지막으로, 적용에 따라(CAD, 이미지 생성, 시뮬레이션, 등), 마지막 단계는 그 시나리오로부터 디지터 이미지를 만드는 단계로 이루어 진다. 이 마지막 단계는 렌더링 또는 이미지 "렌디션" 방법이라고 불리우는데, 이 단계의 목적은 장면을 가능한 만큼 현실적으로 만들어 내는 것이다. 이용된 모델 및 포함된 프로그램에 관계된 데이터에 대하여, 계산 시간 측면에서 매우 비용이 들며 또한 큰 메모리 용량을 필요로 한다. 예를 들자면, 라디오시티(radiosity)나 광선 추적법(ray tracking)과 같은 렌디션 방법은 비용은 더 들고 또한 실행시키는 계산 알고리즘이 매우 복잡하나 품질 좋은 이미지를 얻게 하는 것을 가능하게 한다.

디지털 이미지로 표시되는 대량의 정보는 JPEG, H.263, MPEG-1, MPEG-2, 및 저장이든 전송이든 간에 본 기술과 호환되는 대량의 정보를 처리하는 것을 가능하게 하는 MPEG-4와 같은 다양한 압축 표준들이 개발되게 하였다. 오늘날 MPEG-2 표준은 더욱 발달되어, MPEG 표준에서 규정한 다양한 프로파일과 레벨로 표시되는 모든 존재하는 포맷의 이미지들을 압축하는 것을 가능하게 하며, 여기서 종래의 텔레비젼 포맷으로의 이미지에 대하여 가장 잘 알려진 프로파일/레벨 포맷은 MP@ML(Main Profile at Main Level)이다. 종래의 기술에 따라 그러한 방식으로 비디오 이미지 압축을 실행하는 코더들의 구조는 이미지의 다양한 형태 : 인트라(Intra), 예측(Predicted), 또는 양방향성(Bidirctional)에 의존하며(각각 I, P, 및 B), 이들의 주요 차잇점은 시간적 예측 모드(temporal mode of prediction)가 다르다는 것이다. 코딩에 대한 핵심은 코더의 출력단에서 표준 양식에 합당한 이진수 데이터 트레인, 즉 특정의 신택스를 얻기 위하여, 양자화와 엔트로피 코딩을 하고 이산적 코사인 변환을 하는 것에 기초하는 주파수 스플릿팅을 이용한다는 점에서 재래식이다.

시간적 예측은 예를 들어 16×16 화소의 사이즈로 된 이미지 블록에 기초하여 시간적으로 분리되어 있는 이미지들간의 움직임을 추정함으로서 수행된다. 움직임은 현재 이미지의 블록과, 이전 또는 후행 이미지의 서치 윈도우에 속한 블록들간의 상관성으로부터 유추된다. 그 다음으로 이미지에 속한 8×8 화소의 사이즈로 된 각 블록은 계산된 변위 벡터로부터 예측되며, 또한 추정값과 실제값간의 차이만이 코딩된다.

따라서, 데이터 압축은 그 데이터가 종래 형태의 이미지이던가 합성 이미지든가에 상관없이 움직임 추정과 같은 종래의 방법을 사용한다. 움직임 추정과 같은 계산을 수행하는 회로와 그 회로에 관련되는 회로들은 복잡하며, 그렇게 셋업하는데는 경비가 많이 든다. 예를 들어, 움직임 추정 회로와 움직임 보상 보간 회로는 아마 MPEG-2 양식의 코더가 복잡한 이유의 반에 책임을 친다.

여전히 종래의 방법에 따라, 움직임 정보는 실제 움직임과 언제나 일치하는 것은 아니다. 움직임 정보는 일반적으로 루미넌스 정보에 관한 상관성을 단순히 포함하고 있다. 이미지의 움직임 벡터 부분이 실제 움직임을 반영하지 않는다는 사실은 특히 벡터에 대한 차동 부호화의 경우에 있어서의 데이터 압축이 최적으로 되는 것을 불가능하게 한다. 왜 그렇게 되느냐 하면 균일 움직임 존(uniform motion zone)에 해당하는 매크로블록에 대하여 차동 부호화할 때에 동일하거나 약간 다른 벡터들을 전송하는데 드는 경비가 임의로 무작위 벡터들을 전송하는데 드는 경비보다 약간 덜 들기 때문이다.

더욱이, 종래의 "블록 매칭" 방법에 의하여 얻어진 움직임 벡터들이 실제 움직임을 꼭 반영하지 않는다는 사실이 예를 들어 디지털 비디오 레코더의 슬로우 모션 모드 등과 같은 경우의 주파수 변환이 일어나고 있는 동안 양호한 품질의 이미지들에 대한 보간(interpolation)이나 보외(extrapolation)를 수행하기 위하여 벡터 부분을 활용하는 것을 불가능하게 한다.

또한 부정확한 움직임 벡터 부분이 매크로블록을 사용하여 코딩하지 않고 차라리 이미지의 윤관선(contour) 정보를 사용하여 코딩하는 새로운 기술을 사용하는 것을 불가능하게 한다. 이러한 이유는 상기와 같이 새로운 기술에 따라 데이터를 압축하는 것은 이미지 세그먼테이션(segmentation)과 균일 존을 정의하는 그 "세그먼트들"의 실제 변위에 기초하고 있기 때문이다.

따라서, 움직임 추정에 있어서 신뢰도가 떨어짐으로 말미암아 소정의 비트율에 대하여 또는 디코더에서 이러한 움직임 정보를 효과적으로 사용할 수 있게 하는 정도의 이미지 품질이나 압축 정도 면에서 코더의 성능이 최적으로 발휘되는 것을 불가능하게 한다.

컴퓨터 툴을 이용하는 이미지 합성은 소위 가상 이미지를 만드는 것을 가능하게 한다. 가상 이미지는 추상적인 묘사와 디지털 추정으로부터 나온 것들이다. 이러한 것은 2D 및 3D 그래픽스 라이브러리의 방법 콜렉션을 사용하는 단계를 포함하는데, 그것은 아마 API(Application Program Interface) 형태의 적합한 인터페이스를 통하여 가속 그래픽스 카드의 특정 하드웨어 회로에 의하여 가속되어진다.

도 1은 본 발명에 따른 비디오 압축 장치의 구조를 도시한 도면.

도 2는 구조가 단순화된 비디오 압축 장치를 도시한 도면.

본 발명의 목적은 합성 이미지를 코딩하는 동안에 위에서 언급한 결점들을 완화시키는 것이다.

목적을 달성하기 위하여, 본 발명의 주체는 수리적 데이터에 기초하여 장면을 모델링하는 처리 단계와, 상기 모델링처리로부터 합성 이미지를 만들기 위한 이미지 렌더링 및 상기 합성 이미지를 이미지 블록들로 분할하는 단계와, 레지듀얼 블록(residual block)을 생성하기 위하여, 한 개 이상의 움직임 벡터에 기초하여 한정되는, 한 개 이상의 상기 합성 이미지의 블록에 기초하여 현재 이미지 블록을 차동 부호화(differential coding)하는 단계를 포함하여 구성되는, 스크립트의 서브젝트인 장면을 묘사하는 합성 이미지의 디지털 시퀀스 데이터를 압축하기 위한 방법으로서, 상기 방법에 있어서 상기 움직임 벡터가 상기 합성 스크립트로부터 나온 것으로서 시퀀스의 서브젝트인 상기 장면을 구성하는 다양한 오브젝트들의 뚜렷한 움직임을 나타내는 수리적 데이터로부터 계산되는 것이 특징이다.

본 발명의 주체는 또한 스크립트의 서브젝트인 장면을 묘사하는 합성 이미지의 디지털 시퀀스 데이터를 압축하기 위한 장치에 대한 것으로서, 상기 장치는 수리적 데이터에 기초하여 합성되어지는 이미지로 구성된 상기 장면을 모델링하는 처리 회로와, 상기 합성 이미지를 유효하게 하고 상기 얻어진 이미지를 이미지 블록들로 분할하기 위하여, 상기 처리 회로로부터 큐(cues)들을 수신하여 이미지 렌더링 및 이미지를 블록들로 분할하는 회로와, 예측 블록을 생성하기 위하여 상기 처리 회로로부터의 큐를 수신하는 이미지 블록 움직임 보상 회로와, 레지듀얼 블록을 생성하기 위하여 상기 이미지 렌더링 및 이미지를 블록들로 분할하는 회로로부터 시발하는 현재 블록과 상기 움직임 보상 회로로부터 시발하는 상기 예측 블록들간의 차(difference)를 얻어내는 뺄셈기와, 상기 이미지 렌더링 및 이미지를 블록들로 분할하는 회로로부터 시발하는 상기 이미지 블록들이나 상기 뺄셈기로부터 시발하는 레지듀얼 블록들에 대하여 이산적 코사인 변환처리를 수행하는 이산적 코사인 변환 회로와, 상기 두가지 데이터에 대하여 에너지 기준 함수로서 선택을 하는 모드 선택 회로와, 및 상기 변환된 계수들을 양자화하는 회로를 포함하는데, 상기 장치에 있어서 상기 움직임 보상 회로는 상기 현재 블록과 연관하여 상기 예측 블록을 정의하는 상기 움직임 벡터를 계산하기 위하여, 상기 처리 회로로부터 공급되며 상기 장면을 구성하는 상기 모델링화된 오브젝트들에 대한 변위(displacement)를 나타내는 수리적 데이터를 이용하는 것을 특징으로 한다.

다른 실시예에서, 본 발명의 주체는 스크립트의 서브젝트인 장면을 서술하는 합성 이미지 시퀀스의 디지털 데이터를 압축하는 장치로서, 상기 압축 장치는 수리적인 데이터에 기초하여 합성되는 이미지들로 이루어지는 장면을 모델링(modelling)하는 처리 회로와, 합성 이미지와 얻어진 이미지를 이미지 블록들로 분할되는 것을 유효하게 하기 위하여 상기 처리 회로로부터 큐를 수신하여 이미지 렌더링 및 이미지를 블록들로 분할하는 회로와, 상기 처리 회로로부터 큐를 수신하는 이미지 블록 움직임 보상 회로를 포함하는 디지털 데이터 압축 장치에 있어서, 인트라 모드에서 시퀀스의 N개 이미지 중에서 한 개의 이미지를 전송하고 상기 N은 사전에 결정된 개수이고, 상기 N개의 이미지는 렌디션 계산과 이미지 블록들로의 분할을 하는 회로에 의하여 구해지는 렌디션 계산의 서브젝트이며, 다른 이미지들은 인터 모드에서 현재 블록과 예측 블록간의 차(difference)를 나타내는 레지듀얼 블록(residual block)을 통하여 전송되며, 및 상기 레지듀얼 블록들은 널(null)이며 수리적 데이터로부터 계산된 한 개의 움직임 벡터에 의하여 한정되는 것을 특징으로 하는 디지털 데이터 압축 장치이다.

일반적으로, 이미지 렌더링 기술은 이미지를 "오브젝트" 지향 시나리오로 표시하는 것이다. 그렇다면 스크립트, 즉 시나리오는 장면에 있는 오브젝트에 관한 모든 있을 수 있는 정보와 오브젝트에 대한 다양한 특성을 포함한다. 이미지 합성 경우에, 2D나 3D 스크립트는 시간에 대한 오브젝트의 정확한 변위를 나타낸다. 그래서 이러한 스크립트는 최종 디지털 비디오 이미지를 생성하는 역할을 한다(렌더링). 따라서, 움직임을 추정하기 위하여, 비쥬얼 이미지를 구성하는 화소들에 포함된 정보 즉 모델링되지 않은 정보를 사용하는 대신에, 모델링 툴(modelling tool)은 이미지 시퀀스의 실제 움직임을 계산하도록 사용된다.

복잡성이 감소되는 것 말고도, 추정 움직임을 사용하는 대신에 실제의 움직임을 사용함으로써 예측 이미지의 품질이 개선되고 코더의 전체적인 성능이 개선되는 것이 가능하게 된다.

본 발명의 다른 특성 및 장점들은 한정되지 않는 예들에서 이하에 나오는 설명부와 또한 첨부된 도면에 관련하여 나타나 있는 것을 보면 명백하게 알 수 있게 된다.

도 1은 본 발명에 따른 장치의 제 1 버전을 도시한다.

위에서 설명한 바와 같이, 이미지 합성과 관련된 계산은, 대단히 복잡하며 일반적으로 전용 워크스테이션에서 그 계산이 수행된다. 전용 워크스테이션은 여기에서 스크립트의 서브젝트인 장면을 나타내는 합성 이미지를 생성할 목적을 위하여 스크립트에 기초하여 이전에 한정된 장면에 대하여 모델링을 수행하는, 처리 회로(1)라고 언급되는 것과 같은 스테이션이다. 따라서 처리 회로로부터 얻어지는 정보는 이미지 "렌더링" 회로(2)와 인터페이스 회로(6)에 병렬로 전송된다. 렌더링 회로의 출력은 이미지 블록들로 분할하는 회로(3)의 입력단과 움직임 보상 회로(7)의 제 1 입력단에 병렬로 링크되어 있다.

분할 회로의 제 1 입력단은 모드 선택 회로(5)의 제 1 입력단에 직접 링크되어 있다.

분할 회로의 n개의 출력 중에서 제 2 출력(i)은 n개의 뺄셈기 중에서 뺄셈기 (4i)의 제 1 입력단에 링크되어 있다. 뺄셈기(4i)의 출력단은 모드 선택 회로(5)의 n개의 입력단 중에서 제 2 입력단(i)에 링크되어 있다.

인터페이스 회로(6)의 출력단은 움직임 보상 회로(7)의 제 2 입력단에 링크되어 있다. 움직임 보상 회로의 n개의 출력단 중에서 한 출력단(i)은 뺄셈기(4i)의 제 2 입력단에 링크되어 있다.

모드 선택 회로(5)의 출력은 직렬로 모두 연결되어 있는 이산적 코사인 변환 계산 회로(8)과 양자화 회로(9)와 가변 길이 부호화 회로(10)에 링크된다. 가변 길이 부호화 회로의 출력은 본 장치의 출력으로서 또한 양자화 회로(9)(비트율 조정부를 구비하고 있음)의 제 2 입력단으로 또한 도로 연결된다. 움직임 보상 회로(7)의 다른 출력은 가변 길이 부호화 회로(10)의 제 2 입력단으로 링크되어 있다. 이 예에서, 움직임 보상 회로(7)는 이전 디코딩 이미지를 제외한, 즉 재구성된 이미지에 대하여 기능을 수행한다. 그래서 "드리프트(drift)"라고 알려진 현상인 예측 에러 누적 문제가 발생할 수 있다. 진행과정을 개선하기 위하여, 역 양자화와 역 DCT로서 네가티브-피드백 루프(negative-feedback loop)를 사용하는 것이 가능한데, 상기 네가티브-피드백 루프는 움직임 보상 회로(7)에 이전 디코딩 이미지(previous decoded images)를 제공한다.

따라서, 처리 회로(1)는 수리적인 시나리오 공식화를 위하여 요구되는 컴퓨터 툴을 의미한다. 처리 회로의 기능은 위에서 설명한 바와 같이 장면을 3차원으로 모델링(model)하는 것으로서, 다시 말하자면 장면을 구성하는 오브젝트와 스크립트로 정의되는 그 오브젝트들의 움직임에 대한 수학적인 등식을 정의하는 것이다. 이러한 수학적인 모델링 데이터는 또한 처리 회로에서 얻어지며 사전에 규정된 모델과 같은 것을 저장하는 컴퓨터 파일로부터 생성될 수 있다.

이미지 렌더링 회로의 역할은 합성 이미지를 생성하는 것이다. 이미지 렌더링 회로는 모델링된 장면을 화소들로 전환하는 것을 수행한다. 얻어진 이미지의 루미넌스와 크로미넌스에 해당하는 디지털 정보는 분할 회로(3)에 전송되는데, 상기 분할 회로는 각 이미지를 매크로블록들로 분할하는 일을 하며, 사이즈가 16×16 화소인 블록은 MPEG-2 표준에 따라 네개의 8×8 화소 이미지 블록들을 포함한다.

인터페이스 회로(6)의 역할은 장치에서, 여기서는 이미지 합성장치에서 주어진 변위 정보를 움직임 보상 회로(7)에 전송되는 매크로블록 형태의 움직임 부분으로 변환하는 것이다. 각각의 매크로블록은 인터페이스 회로가 장면을 모델링하는 수리적 데이터로부터 계산한 한 개 이상의 움직임 벡터와 관련되는데, 그 수리적 데이터는 처리 회로(1)로부터 수신된다. 옮김(translation)과 로테이션(rotation)과 호모세티(homothety) 등과 같은 수학적인 변형들이 매크로블록 각각에 관련되는 2차원 벡터들로서 표시된다.

물론 움직임 벡터는 예를 들어 장면의 시점(viewpoint)의 변위와 같은 것을 고려한, 오브젝트들의 명백한 움직임을 표시한다.

변위 전환(displacement conversion)은 다음과 같이 수행된다 :

그 변위는 3차원 벡터로 정의되는 오브젝트 옮김(translation)으로서, 이미지 면에 대하여 그 삼차원 벡터는 좌표(Dx, Dy)를 갖는 벡터를 나타낸다. 오브젝트의 일부를 표시하는 이미지 매크로블록 전부에 대하여, MPEG 표준에서 정의한 것과 같은 움직임 벡터(Dx, Dy)로서 간주되는, 상기와 같은 벡터에 관련된다.

오브젝트의 경계에 있는 매크로블록과 같은 특정한 경우에는 카버 존(covered zone)이나 또는 카버되지 않은 존(uncovered zone)이 여전히 있게 된다.

경계 블록에 대한 한, 가장 간단한 해결책은 매크로블록과 관련된 움직임 벡터로서, 매크로블록에서의 가장 다수파 벡터(majority vector) 즉 매크로블록에서 가장 많이 있는 화소에 해당하는 벡터를 취하는 것이다. 배경에 해당하는 벡터말고 오브젝트에 해당하는 벡터를 선택하는 것도 또한 생각해 낼 수 있다. 이러한 선택은 탁월한 것은 아닌데, 왜냐하면 설명한 본 장치가 재구성(따라서 추정 움직임)이 양호하지 않다면 인트라 모드와 같이 가장 적합한 모드를 선택하는 모드 선택 회로를 구비하고 있기 때문이다.

카버된/카버되지 않은 매크로블록에 대하여, 가장 간단한 해결책은 카버된 또는 카버되지 않은 매크로블록들에 해당하는 존(zone)들이 양호하지 않게 재구성될 것을 알아서 그 매크로블록에 제로의 움직임을 지정하는 것이다. 더욱 세밀한 해결책은 B(bidirectional) 이미지에 대한 순방향 및 역방향 벡터를 규정하고 있는 MPEG-2 신택스에 의하여 제공된다. 그 다음에 이러한 두가지 종류의 벡터들은 처리 회로(1)에 의하여 제공된 데이터에 기초하여 움직임 인터페이스 회로(6)에 의하여 계산되어지며, 그런 다음에는 처리된 매크로블록에 관련하는 순방향 움직임 벡터 및 역방향 움직임 벡터로서 간주된다. 그래서, 카버되지 않은 존은 순방향(시간에 대하여) 움직임을 이용하여 재구성될 수 있으며, 카버된 존은 역방향 움직임을 이용하여 재구성된다. 여기서의 코딩 모드 선택은 또한 모드 선택 회로에 의하여 수행된다.

실제적으로 MPEG 표준은 매크로블록에 다음과 같은 다양한 형태의 벡터들이 지정되는 것을 가능하게 한다 :

- "순방향(forward)" 또는 "역방향(backward)"과 같은 단일 방향 형태의 벡터들로서, 순방향 형태의 벡터는 이전 이미지를 고려하여 만들어지는 것이고, 역방향 형태의 벡터는 처리된 매크로블록에 해당하는 이미지의 다음에 나오는 이미지를 고려하여 만들어진다;

- 모드 선택 회로가 양방향 예측 모드를 선택하는 경우에 사용되는 양방향 형태의 벡터들.

실제적으로 매크로블록과 연관한 벡터는 두가지가 있고, 순방향 벡터와 역방향 벡터에 의하여 처리된 매크로블록은 이들 벡터로 표시된 두 개의 매크로블록들을 평균낸(averaging) 매크로블록과 매칭되며, 상기 평균은 매칭되는 화소들의 루미넌스와 처리된 매크로블록까지의 시간적 거리의 함수이다. 이들 두가지의 벡터들은 위에서 설명한 것들과 동일한 것이다.

움직임 보상 회로(7)는 움직임 벡터 필드 및 렌디션 계산 회로에 의하여 전송된 이전(및 후행) 이미지들에 기초하여 예측 이미지 계산을, 즉 움직임 보상처리된 이미지 계산뿐만 아니라, 그렇게 계산해서 얻은 이미지들을 매크로블록으로 분할하는 일을 수행한다.

분할 회로(3)에 의하여 전송된 현재 매크로블록은 뺄셈기(4)의 플러스 입력단에서 수신되며, 예측 이미지의 대응하는 매크로블록은 뺄셈기의 마이너스 입력단에서 수신되는데, 상기 예측 이미지의 매크로블록은 움직임 보상 회로(7)에 의하여 전송된 것이다. 뺄셈기의 출력단에서의 "레지듀얼" 블록 즉 각 화소에 대하여 만들어진 차(difference)에 해당하는 매크로블록은, 모드 선택 회로(5)에 전송된다.

실제적으로, 위에서 설명한 움직임 벡터의 각각의 형태에 있어서, 움직임 보상 회로에 의하여 계산된 예측 이미지에 해당하게 된다. 따라서 움직임 보상 회로는 선택된 벡터 형태의 개수와 동일한 개수의 출력단(n)을 구비하며, 그 출력단 각각은 뺄셈기(4i)에 링크되어 있으며, 그 뺄셈기는 다른 입력단으로 이미지의 현재 블록을 수신한다. 모든 형태의 계산된 레지듀얼들은 모드 선택 회로의 n개의 입력단으로 전송되어지는데, 상기 모든 선택 회로의 다른 입력단은 분할 회로(3)로부터 직접 현재 매크로블록을 또한 수신한다.

모드 선택 회로(5)는 매크로블록의 코딩 모드를 결정한다. 사용될 수 있는 가능 코딩 모드는 예를 들어 다음과 같다 :

- 움직임 보상을 이용하는 또는 이용하지 않는 코딩, 다시 말해서 움직임 벡터의 전송을 하여 하는 코딩과 움직임 벡터없이 하는 코딩;

- 인트라 또는 비-인트라 코딩(인터-이미지 코딩, 동일한 패리티 또는 동일하지 않은 패리티의 인터-프레임, 예측 인터 코딩 또는 예측 양방향 코딩, 등)

- 비-인트라 코딩인 경우에, 레지듀얼 블록의 코딩이나 레지듀얼 블록이 아닌 블록에 대한 코딩(레지듀얼이 아주 작은 경우).

모드 선택은 모드 선택 회로가 각 모드에 대하여 매크로블록 에너지 계산을 수행하고 나서 가장 작은 에너지를 나타내는 모드를 선택함으로써 이루어진다. 대부분의 경우에 있어서 에너지 계산값은 절대값의 합계의 근사치이다.

그리고 나서 선택된 블록들에 대하여 이산적 코사인 변환과, 양자화와, 및 가변 길이 부호화 형태의 부호화처리들이 수행되어진다. 비트율은 본 장치의 출력에서 끌어 사용되어 양자화기에 전송되는데, 상기 조정 루프는 단순화를 위하여 양자화 회로내에 포함된 비트율 조정 블록을 이용하여 양자화 간격에 작용한다.

처리된 매크로블록들과 관련되는 벡터들은 움직임 보상 회로에 의하여 가변 길이 부호화 회로(10)에 전송되는데, 상기 가변 길이 부호화 회로는 매크로블록의 양자화된 계수들과 움직임 벡터값에 대한 멀티플렉싱을 수행한다.

예를 들어 뺄셈기들에 공급된 예측 매크로블록들의 형태를 제한함으로써, 본 장치를 단순화시키는 것을 물론 생각할 수 있다. 이러한 인터페이스 회로에 의한 모드 선택에서 인터페이스 회로는 자기가 소유하는 정보로부터 가장 낳은 상관성을 허용하는 모드를 추론할 수 있을 때에, 부분적으로 업스트림(upstream)을 수행한다.

인터페이스 회로는 그 다음에 모드 선택 회로(5)의 보조 입력단의 모드 큐를 전송하여, 선택된 모드가 이루어지게 한다. 그래서 모드 선택 회로는 단순화된다.

다른 실시예가 도 2에서 설명된다.

처리 회로(11)의 출력단은 병렬 방식으로 이미지 렌더링 계산 회로(12)의 입력단과 움직임 인터페이스 회로(13)의 입력단에 링크되어 있다. 양방향 링크(bidirectional link)는 위에서 언급한 두 개의 회로, 즉 이미지 렌더링 계산 회로와 움직임 인터페이스 회로를 연결시킨다. 이미지 렌더링 계산 회로(12)의 출력단은 직렬 방식으로 서로 위치하는 이산적 코사인 변환 계산 회로(14)와 양자화 회로(15)와 가변 길이 부호화 회로(16)를 통하여 본 장치의 출력단으로 링크된다. 가변 길이 부호화 회로의 출력은 본 장치의 출력으로서 조정 루프(regulating loop)가 되게 하기 위하여 양자화 회로(15)의 제 2 입력으로 또한 복귀한다.

움직임 인터페이스 회로(13)의 출력은 가변 길이 부호화 회로(16)의 제 2 입력에 링크되어 있다.

처리 회로(11)는 도 1에서 설명한 것과 동일한 특성과 기능을 갖는다.

회로(12)에 의하여 수행되는 여기서의 렌디션 계산은 샘플링, 즉 다시 말해서 전송될 이미지 시퀀스의 모든 N개의 이미지마다 한 개의 이미지만 추출하여 이루어 진다는 의미에서 도 1에서 설명한 렌디션 계산과 다르다.

이미지 렌더링 계산 회로에 의하여 구성된 이미지는 그 다음에 이미지의 매크로블록과 블록으로 분할되는데, 이 기능도 또한 이미지 렌더링 계산 회로에 의하여 수행된다. 블록들은 블록들에 대한 코사인 변환처리를 수행하는 이산적 코사인 변환 회로(14)에 연속으로 송신되며, 그 다음에 변환된 계수에 대한 양자화처리를 수행하는 양자화 회로(15)에 전송되며, 약간 기다리다가 상기 양자화 처리가 된 계수들을 연속화처리(serialization)하여, 마지막으로 연속화처리된 데이터에 대하여 엔트로피 코딩을 수행하는 가변 길이 부호화 회로(16)에 전송되어 진다. 조정 루프는 양자화기(15)내에 설치된 비트율 조정 회로에 공급하기 위하여 본 장치의 출력에서의 비트율을 끌어 사용하는데, 그 비트율 조정 회로는 그 조정(regulation)을 수행하기 위하여 양자화 간격에 작용한다.

움직임 인터페이스 회로(13)는 도 1의 움직임 인터페이스 회로(6)에 대하여 언급한 움직임 벡터와 유사한 방식으로 움직임 벡터 부분을 계산하며, 현재 처리된 매크로블록에 지정되는 움직임 벡터나 움직임 벡터들을 가변 길이 부호화 회로에 전송한다. 움직임 인터페이스 회로는 또한 움직임 벡터나 벡터들에 해당하는 모드 큐를 공급한다. 코딩 회로는 현재 매크로블록과 관련된 움직임 벡터와 코딩 모드와 상기 매크로블록에 대하여 변환 처리되고 양자화된 데이터를 멀티플렉싱하는 일을 수행하여 이 모든 멀티플렉싱된 정보를 본 장치의 출력으로서 전송한다.

움직임 인터페이스 회로(13)와 렌디션 계산 회로(12)간의 링크는 매크로블록으로 분할하는 것에 관련된 정보와 DCT 회로에 전송된 현재 매크로블록과 코딩 모드 등이 교환되는 것을 가능하게 한다.

따라서, 계산 시간이 오래 걸리는 이미지 렌더링 과정이 간단하게 된다. 이것에 대한 착상은 특정의 합성 이미지와 빠지게 되는 이미지들간의 움직임만을 활용한다는 것이다. 계산된 합성 이미지들은 시간에 대하여 분리되어 있으며(다시 말하자면 매 N 이미지 주기마다 한 개의 이미지가 있음), 전형적으로 코더에 의하여 인트라 모드로 코딩된 이미지를 표시한다. 소위 빠지게 되는 이미지들은 계산되지도 않고 전송되지도 않고 저장되지도 않는다. 디코더는 나중에 자신에게 전송되는 움직임 큐에 의하여 빠졌던 이미지를 만드는 일을 담당한다. 따라서 만약에 코더가 예측 에러 이미지들이 널(null)이 되는 식으로 구성되어 있다면 빠진 이미지들도 포함하여 모든 이미지들이 나타나게 된다(움직임 보상 예측은 생략된다).

회로(13)에 의하여 전송된 코딩 모드는 렌더링 회로에 의하여 처리된 이미지에 의존한다. 인트라 코딩에 부합되는 방식으로 계산된 이미지들에 대한 움직임 벡터들은 전송되지 않는다. 중개 포맷 이미지(intermediate image)는 인터 모드에서 코딩된, 예측 에러가 없는(레지듀얼 매크로블록의 계수들이 제로임) 이미지로서 간주되며, 움직임 벡터로 표시되는 움직임은 실제 계산된 것으로서 추정된 움직임이 아니고, 합성 이미지들은 잡음이 없는 것으로서 간주된다. 디코더에서 이러한 인터 이미지들은 위에서 설명한 바와 같이 인트라 이미지와 각 인터 이미지를 위하여 전송된 움직임 벡터로부터 생성된다.

이러한 응용에서, 매크로블록의 움직임(움직임 벡터)은 정확하지 않을 수 있으며, 경계 블록(boundary block)에 있는 결점들은 정정되지 않으며, 및 일루미네이션은 인트라 이미지들간에 일정한 것으로 추정된다. 이러한 장치는 이미지 품질이 비디오 게임과 같이 떨어지는 응용의 경우를 위하여 지정된다. 처리 속도와 데이터 압축과 및 낮은 구성 경비는 상기와 같은 장치에 있는 특성으로서, 이러한 특성은 이미지 품질에 불리하게 작용하는 것이다.

본 장치의 제 1 실시예에서, 이미지 품질 측면을 따져 본다면, 코딩 모드는 처리되는 매크로블록의 형태에 의존한다. 도 2에 점선으로 표시된 에러 인터페이스 회로(17)가 이 새로운 기능을 수행하기 위하여 추가된다.

에러 인터페이스 회로는 처리 회로(11)로부터 정보를 수신하여 이미지 렌더링 계산 회로(12)와 정보를 교환하는데, 이 정보는 현재 매크로블록의 코딩에 관련된다.

에러 인터페이스 회로의 역할은 움직이고 있는 오브젝트의 윤곽선(contour)에 주로 나타나는 에러를 검출하는 것이다. 그것에 관련된 매크로블록을 위하여 특정의 처리방법이 제공된다. 전송되어질 매크로블록들이 경계 블록일 때에, 에러 인터페이스 회로는 처리 회로(11)로부터 시발된 정보에 기초하여 에러를 계산하는 회로에 의하여 계산된 정보나, 또는 이미지 렌더링 계산 회로를 경유하여 움직임 인터페이스 회로(13)로부터 수신된 정보를 이미지 렌더링 계산 회로에 부과하며, 상기 이미지 렌더링 계산 회로는 그러한 경계 블록을 위하여 이미지 렌더링 계산을 하는 것이다. 그리고나서 이 모드는 이 매크로블록에 대하여 움직임 인터페이스 회로(13)에 전송되는 정보를 인트라코딩이 이루어지게 한다. 따라서 단순화된 렌디션 계산이 이미지 렌더링 계산 회로(12)에 의하여 인터 모드로 코딩된 이미지들에 대하여, 이미지의 인터 모드로 코딩된 블록에 대해서만 이루어진다.

본 장치의 두 번째 향상은 도 2에 점선으로 나타난 일류미네이션 회로(18)를 추가하는 것으로 이루어진다.

이 일루미네이션 인터페이스부(18)는 처리 회로(11)로부터 정보를 수신하여 이미지 렌더링 계산 회로(12)와 정보를 교환하며, 그 정보들은 현재 매크로블록의 코딩에 관련되는 것이다.

상기 회로의 기능은 일류미네이션 모델(illumination model)을 코더를 위한 에러 이미지로 전환시키는 것이다. 오브젝트 큐(object cue)로부터 MPEG 표준에 따른 코딩에 적합한 큐로의 변환은 예를 들어 예측 에러와 마찬가지로 한 이미지에서 다른 이미지로의 일루미네이션 변화를 고려하는 것에 의하여 이루어진다. 따라서, 한 이미지로부터 다른 이미지까지의 처리된 매트로블록(macroblock)의 루미넌스(luminance)의 변동량에 관련된 큐는 일류미네이션 인터페이스(18)에 의하여 이미지 렌더링 계산 회로(12)에 전송되며, 그 큐는 그 다음에 예측 에러로서 간주되는, 레지듀얼 블록의 형태로서 DCT 계산 회로에 렌더링 회로에 의하여 전송된다. 움직임 인터페이스부(13)는 처리된 매크로블록을 위하여 계산된 움직임 벡터 및 해당하는 모드 형태를 동시에 전송한다. 디코더에서, 재구성된 블록은 레지듀얼 블록이 추가되는 움직임 벡터에 해당하는 것이 될 것이다.

본 장치에 대한 세 번째의 향상은 양자화기(15)에 영역 큐를 전송하는 것을 가능하게 하는 영역 인터페이스부(19)를 추가하는 것으로 이루어진다.

이 영역 인터페이스부(region interface)(19)는 처리 회로(11)로부터 큐를 수신하고, 현재 블록의 코딩에 관련하는 정보를 이미지 렌더링 계산 회로(12)와 교환하고, 및 영역 정보를 양자화기(15)에 전송한다.

이 영역 인터페이스부는 처리 회로(11)로부터 개시된 모델링 정보의 함수관계를 이용하여 이미지를 영역들로 분할한다. 라벨(label)은 각 영역에 할당되며, 심지어는 블록이 영역에 포함되는 함수로서 더욱 정확하게는 각 블록에까지 할당될 수 있는데, 블록 형태로 이미지를 분할하는 것에 관한 데이터는 이미지 렌더링 계산 회로(12)로부터 시발된다. 양자화 회로(15)에 의하여 계산된 양자화 간격(quantization interval)은 상기 라벨의 함수관계를 이용하여 양자화 간격으로 "수반된" 영역 큐를 디코더에 전송하는 것과 같은 동일한 방식으로 수정된다. 이러한 수정은 영역의 특성 - 비균일 영역 및/또는 움직임이 작은 영역에 대한 양자화 간격의 감소, 및 무늬가 많은 영역 즉 움직임이 많은 영역에 대한 양자화 간격의 증가- 에 의존할 수 있다. 따라서, 디코딩된 이미지의 품질은 블록에 있는 결점(defect)이 무늬가 많은 즉 움직임이 많은 구역에서 덜 인지된다는 사실을 허용하여, 비트율이 고정된 상태에서 향상하게 된다.

움직임 벡터에 대한 상기의 동일한 기술이, 만약에 주요 영역이 블록의 대다수여서 블록이 주요 영역에 속한다고 나타나거나 또는 이미지의 주요 오브젝트(object)가 그 블록의 일부를, 즉 부분적으로 형성하여 그 블록이 이미지의 주요 오브젝트에 속한다고 나타나는 경우에 해당하는 분명하지 않은 경우에 사용될 수 있다.

이러한 인터페이스는 성능과 가능한 코더 적용장치를 향상시킬 수 있는데 : 예를 들어 2D나 3D 응용장치에서 방금 확인한 작은 움직임이 있는 구역이나 비균일 구역들에 대한 양자화 간격의 감소로 인한 주관적 수준(subjective)의 향상과, 영역 큐(region cue)에 의하여 디코더에서의 대화성(interaction)을 향상시킨다.

물론 이러한 것들은 설명을 하기 위한 실시예이고, 다양한 다른 대안들이 있으며, 이것들은 원하는 이미지 품질이나 해당 응용 장치나 원하는 압축의 처리 속도나 압축 정도에 따라 결합되거나 따로 따로 사용될 수 있다.

따라서, 도 2의 장치는 도 1의 장치를 이용하여 아주 잘 만들어질 수 있으며 그 반대의 경우도 그러하다. 예를 들어서, 렌디션 계산 ＆ 이미지 블록 분할 회로(12)는 또한 DCT 회로(14)에 이미지 블록을 제공하는 모드 선택기의 기능뿐만 아니라 움직임 보상 회로(13)로부터의 정보에 기초하여 차동 블록(differential block)이나 또는 레지듀얼 블록(residual block)을 계산하는 뺄셈기들(4i)의 기능을 수행할 수 있다. 따라서 작동 모드의 개수는 증가하게 되어 이것은 물론 회로들이 많아서 복잡해지는 단점으로 이어지게 된다.

설명된 방법 및 장치는 압축 데이터 전송 및 디코딩에 대하여 MPEG 형태의 데이터 압축 표준과 전적으로 호환된다.

본 발명의 적용은 생성(가상 스튜디오, 만화, 비디오 합성 또는 필름, 특수 효과)하는 동안에 비디오 게임이나 대화형 응용에서나 또는 가상 현실 응용에서의 이미지 합성이다.

본 발명은 본 발명에 의하여 달성되는 아주 단순하게 된 상태에서 기존의 플랫폼(워크스테이션, 게임 콘솔)에 실행될 수 있다.

Claims

스크립트의 서브젝트인 장면을 묘사하는 합성 이미지의 디지털 시퀀스 데이터를 압축하는 방법으로서, 수리적 데이터에 기초하여 장면을 모델링하는 처리 단계(1, 11)와, 상기 모델링 처리로부터 합성 이미지를 만들기 위한 이미지 렌더링 및 상기 합성 이미지를 이미지 블록들로 분할하는 단계(2, 12)와, 레지듀얼 블록(residual block)을 생성하기 위하여, 한 개 이상의 움직임 벡터에 기초하여 한정되는, 한 개 이상의 상기 합성 이미지의 블록에 기초하여 현재 이미지 블록을 차동 부호화(differential coding)(4i)하는 단계를 포함하여 구성되는, 디지털 데이터 압축 방법에 있어서,

상기 움직임 벡터는 상기 합성 스크립트로부터 나온 것으로서 시퀀스의 서브젝트인 상기 장면을 구성하는 다양한 오브젝트들의 뚜렷한 움직임을 나타내는 수리적 데이터로부터 계산되는 것을 특징으로 하는 디지털 데이터 압축 방법.
제 1항에 있어서, 상기 이미지 렌더링 단계(2, 12)는 시퀀스의 N개 중에서 한 개의 이미지에 대해서만 수행되며, 여기서 상기 N은 사전에 결정된 숫자이고, 상기 이미지는 인트라 모드(intra mode)에서 코딩된 것이며, 또한 상기 차동 부호화(4i)는 중개 포맷 이미지(intermediate image)들의 블록들에 대하여 수행되는 것을 특징으로 하는 디지털 데이터 압축 방법.
제 2항에 있어서, 상기 중개 포맷 이미지 중에서 코딩되려는 현재 이미지 블록은 움직임 벡터에 매칭되는 합성 이미지 블록에 동일하여 레지듀얼이 제로가 되는 블록을 생성하는 것을 특징으로 하는 디지털 데이터 압축 방법.
제 1항 내지 제 3항 중 어느 한 항에 있어서, 이미지 중에서 경계 이미지 블록들에 대한 코딩이 인트라 모드에서 실시되게 되는 것을 특징으로 하는 디지털 데이터 압축 방법.
제 1항 또는 제 2항에 있어서, 상기 합성 이미지를 계산하기 위한 일루미네이션 큐(illumination cue)가, 현재 블록을 인터 코딩하기 위하여, 현재 블록과 관련된 움직임 벡터에 매칭되는 이전 이미지 블록과 상기 현재 블록간의 동일하지 않은 루미넌스의 상관성으로서, 레지듀얼 블록(12)을 계산하도록 이용(18)되는 것을 특징으로 하는 디지털 데이터 압축 방법.
제 1항 내지 제 5항 중 어느 한 항에 있어서, 상기 방법은 이미지 세그먼테이션(19)을 수행하고, 이미지 블록 각각에 라벨을 지정하고, 및 영역 큐(region cue)를 전송하기 위하여 이 라벨의 함수로서 양자화 간격을 조절(15)하는 것을 특징으로 하는 디지털 데이터 압축 방법.
제 6항에 있어서, 상기 양자화 간격(15)은 무늬가 많거나 움직임이 큰 영역에 속하는 블록들에 대하여는 증가되고, 균일하거나 움직임이 작은 영역에 속하는 블록들에 대해서는 감소되는 것을 특징으로 하는 디지털 데이터 압축 방법.
스크립트의 서브젝트인 장면을 묘사하는 합성 이미지의 디지털 시퀀스 데이터를 압축하기 위한 장치로서, 수리적 데이터에 기초하여 합성되어지는 이미지로 구성된 상기 장면을 모델링하는 처리 회로(1)와, 상기 합성 이미지에 작용을 미치고 상기 얻어진 이미지를 이미지 블록들로 분할하기 위하여 상기 처리 회로(1)로부터의 큐(cues)들을 수신하여 이미지 렌더링 및 이미지를 블록들로 분할하는 회로(2)와, 예측 블록을 생성하기 위하여 상기 처리 회로로부터의 큐를 수신하는 이미지 블록 움직임 보상 회로(7)와, 레지듀얼 블록을 생성하기 위하여 상기 이미지 렌더링 및 이미지를 블록들로 분할하는 회로(2)로부터 시발하는 현재 블록과 상기 움직임 보상 회로로부터 시발하는 상기 예측 블록들간의 차(difference)를 얻어내는 뺄셈기(4i)와, 상기 이미지 렌더링 및 이미지를 블록들로 분할하는 회로(3)로부터 시발하는 상기 이미지 블록들이나 상기 뺄셈기로부터 시발하는 레지듀얼 블록들에 대하여 이산적 코사인 변환처리를 수행하는 이산적 코사인 변환 회로(8)와, 상기 두가지 데이터에 대하여 에너지 기준 함수로서 선택을 하는 모드 선택 회로(5)와, 및 상기 변환된 계수들을 양자화하는 회로(9)를 포함하는, 디지털 데이터 압축 장치에 있어서,

상기 움직임 보상 회로(7)는 상기 현재 블록과 연관하여 상기 예측 블록을 정의하는 상기 움직임 벡터를 계산하기 위하여, 상기 처리 회로(1)로부터 공급되며 상기 장면을 구성하는 상기 모델링화된 오브젝트들에 대한 변위(displacement)를 나타내는 수리적 데이터(6)를 이용하는 것을 특징으로 하는 디지털 데이터 압축 장치.
스크립트의 서브젝트인 장면을 서술하는 합성 이미지 시퀀스의 디지털 데이터를 압축하는 장치로서, 수리적인 데이터에 기초하여 합성되는 이미지들로 이루어지는 장면을 모델링(modelling)하는 처리 회로(1, 11)와, 합성 이미지를 만들고 얻어진 이미지를 이미지 블록들로 분할되는 것을 유효하게 하기 위하여, 상기 처리 회로로부터 큐를 수신하여 이미지 렌더링 및 이미지를 블록들로 분할하는 회로(2, 12)와, 상기 처리 회로(1, 11)로부터 큐를 수신하는 이미지 블록 움직임 보상 회로(7, 13)를 포함하는 디지털 데이터 압축 장치에 있어서,

인트라 모드에서 시퀀스의 N개 이미지 중에서 한 개의 이미지를 전송하고 상기 N은 사전에 결정된 개수이고, 상기 N개의 이미지는 렌디션 계산과 이미지 블록들로의 분할을 하는 회로(2, 12)에 의하여 구해지는 렌디션 계산의 서브젝트이며, 다른 이미지들은 인터 모드에서 현재 블록과 예측 블록간의 차(difference)를 나타내는 레지듀얼 블록(residual block)을 통하여 전송되며, 및 상기 레지듀얼 블록들은 널(null)이며 수리적 데이터로부터 계산된 한 개의 움직임 벡터에 의하여 한정되는 것을 특징으로 하는 디지털 데이터 압축 장치.
제 9항에 있어서, 상기 인터 모드에서 전송된 다른 이미지들의 레지듀얼 블록은 상기 현재 블록과 상기 수리적 데이터에 기초하여 예측된 블록간의 일류미네이션 차(illumination difference)를 측정하는 기능을 갖는 일류미네이션 인터페이스 회로(18)에 기초하여 계산되는 것을 특징으로 하는 디지털 데이터 압축 장치.
제 9항 또는 제 10항에 있어서, 상기 현재 블록과 상기 예측 블록간의 오차를 검출하여 상기 예측 블록과의 상기 오차가 일정한 임계값을 초과할 때에 상기 현재 블록을 인트라 모드에서 코딩되게 하는 오차 인터페이스 회로(19)를 포함하는 것을 특징으로 하는 디지털 데이터 압축 장치.
제 8항 내지 제 11항 중 어느 한 항에 있어서, 상기 디지털 데이터는 MPEG-2 포맷이나 그 MPEG-2 표준에서 유도된 포맷에 따라 압축되는 것을 특징으로 하는 디지털 데이터 압축 장치.