DE10022520A1

DE10022520A1 - Verfahren zur örtlichen skalierbaren Bewegtbildcodierung

Info

Publication number: DE10022520A1
Application number: DE10022520A
Authority: DE
Inventors: Mathias Wien
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2000-05-10
Filing date: 2000-05-10
Publication date: 2001-11-15
Also published as: GB0111024D0; GB2363274B; JP2001320715A; GB2363274A

Abstract

Zur örtlichen skalierbaren Bewegtbildcodierung wird die Bewegungsschätzung (ME) für eine Stufe (EL) erhöhter Auflösung anhand interpolierter Versionen eines aktuellen und eines Referenzbildsignals durchgeführt, welches aus einem zeitlich zuvor ermittelten Bildsignal ermittelt wurde. DOLLAR A Bei dem Verfahren nach der Erfindung ist es nicht notwendig, für die Stufe (EL) erhöhter Auflösung Displacement-Vektoren zu übertragen. Nahezu die gesamte Datenrate kann für die Codierung des Prädiktionsfehlers verwendet werden.

Description

Stand der Technik

Die Erfindung geht aus von einem Verfahren zur örtlich skalierbaren Bewegtbildcodierung in mindestens zwei Stufen unterschiedlicher örtlicher Auflösung.

Skalierbare Bildcodierverfahren ermöglichen die Decodierung eines codierten Signals in verschiedenen Auflösungen. Üblicherweise verdoppelt sich die Auflösung zwischen den Skalierungsstufen. Zur Decodierung einer höheren Auflösung sind alle niedrigeren Auflösungen notwendig (hierarchische Struktur). Die Stufen werden in separaten Bitströmen codiert.

Die bisher standardisierten örtlich skalierbaren Verfahren [1, 2] basieren auf dem hybriden Codierkonzept. Sie haben eine Pyramiden-Struktur, in der das Base-Layer, d. h. eine Stufe mit niedriger örtlicher Auflösung, und das Enhancement-Layer, d. h. eine Stufe mit erhöhter örtlicher Auflösung, codiert werden. Zur Codierung des Enhancement- Layers verwenden sie die Enhanced Intra-Prädiktion, bei der keine Informationen aus vorhergehenden Frames, wohl aber aus dem aktuellen Base-Layer, verwendet werden, und die Enhanced-Inter-Prädiktion, bei der für das Enhancement-Layer Bewegungsvektoren und der Prädiktionsfehler übertragen werden. Hierbei muß die für das Enhancement-Layer zur Verfügung stehende Rate zwischen den Bewegungsvektoren (Displacement-Vektoren) und dem Prädiktionsfehler aufgeteilt werden.

In [3] wird ein örtlich skalierbares Verfahren vorgestellt, das ohne die Übertragung von Bewegungsvektoren auskommt. Hier wird die Schätzung zwischen zwei vorangegangenen Frames durchgeführt und die Bewegungsvektoren dann für den aktuellen Frame extrapoliert. Für dieses Verfahren wird der Begriff Rückwärts-Bewegungskompensation verwendet.

In [4] und [5] werden hierarchische Codierverfahren vorgestellt, die auf der diskreten Wavelettransformation (DWT) aufsetzten. Hierbei wird eine hierarchische Bewegungsschätzung auf den bisher codierten Zerlegungsstufen der DWT des aktuellen und des Referenz-Frames durchgeführt. Da diese dem Sender wie dem Empfänger bekannt sind, können diese Verfahren auf eine Übertragung von Bewegungsvektoren verzichten.

Eine einstufige DWT zerlegt einen Frame in Zeilen- und in Spaltenrichtung jeweils in eine Tiefpaß- (L) und eine Hochpaß-Komponente (H). Es resultieren vier Teilbänder LL, HL, LH und HH, die jeweils die halbe Zeilen- und Spaltenzahl haben; die Gesamtzahl der Koeffizienten enspricht also der Anzahl der Pixel im Frame. Bei einer mehrstufigen DWT wird diese Zerlegung jeweils auf das LL-Band der aktuellen Zerlegungsstufe angewendet. Im folgenden wird das LL-Band Tiefpaß-Band und die anderen Bänder HL, LH und HH, Hochpaß- Bänder genannt.

In der in [4] vorgeschlagenen Variante werden die auf den Tiefpaßbändern der groben Zerlegungsstufe des aktuellen und des Referenzframes geschätzten Displacement-Vektoren auf die Hochpaßbänder derselben Zerlegungsstufe angewendet. Bei [5] werden beide Tiefpaß-Bänder der groben Zerlegungsstufe des aktuellen und des Referenzframes überabgetastet und hochinterpoliert. Das geschätzte Displacement-Vektorfeld wird dann auf das Tiefpaß-Band der feineren Zerlegungsstufe angewendet. Die einstufige Zerlegung dieser bewegungskompensierten Prädiktion (BKP) wird dann als Prädiktion für die Hochpaß-Komponenten des aktuellen Frames verwendet. In beiden Verfahren werden also Prädiktionen für die Hochpaß-Bänder der groberen Stufe erstellt.

Vorteile der Erfindung

Das Verfahren der Erfindung nach Anspruch 1 und den Weiterbildungen gemäß den Unteransprüchen verbessert die Codiereffizienz von hybriden Bewegtbildcodierverfahren mit örtlicher Skalierbarkeit. Dieses Verfahren hat den Vorteil, daß auf die Übertragung von Displacement-Vektoren für die Stufe mit erhöhter örtlicher Auflösung verzichtet werden kann. Die in der Stufe erhöhter örtlicher Auflösung EL (Enhancement-Layer) zur bewegungskompensierten Prädiktion benötigten Displacement-Vektoren brauchen nicht als Seiteninformation zum Empfänger übertragen werden, sondern werden beim Sender (Encoder) und beim Empfänger (Decoder) aus bereits bekannten Informationen ermittelt.

Durch Anwendung der Rückwärts-Bewegungskompensation bei der Codierung des Enhancement-Layers wird eine Aufteilung der Rate zwischen den Displacement-Vektoren und dem Prädiktionsfehler vermieden. Die Begungsschätzung wird auf interpolierten Versionen des aktuellen und des Referenz- Frame durchgeführt. Da diese sowohl beim Sender als auch beim Empfänger bekannt sind, ist eine Übertragung der geschätzten Displacement-Vektoren als Seiteninformation nicht notwendig, so daß nahezu die gesamte Datenrate für die Codierung des Prädiktionsfehlers verwendet werden kann.

Die bisher standardisierten örtlich skalierbaren Verfahren können zeitliche Korrespondenzen nur durch Übertragung von Displacement-Vektoren ausnutzen. Gegenüber Verfahren, die die Displacement-Vektoren aus vorhergehenden Frames extrapolieren, hat das erfindungsgemäße Verfahren den Vorteil der besseren Übereinstimmung mit der im aktuellen Frame vorhandenen Bewegung. Gleichzeitig kann das Verfahren gut in vorhandene und zukünftige Standardcodierer eingebaut werden, da gegenüber Verfahren auf Basis der DWT keine wesentliche Änderung der Coderstruktur vorgenommen werden muß.

Im Gegensatz zu den eingangs vorgestellten DWT-basierten Konzepten wird im erfindungsgemäßen Verfahren das Enhancement-Layer zur Prädiktion der Displacement-Vektoren herangezogen. Dieses kann zur Schätzung optional tiefpaßgefiltert werden. Das Verfahren eignet sich zur blockbasierten Anwendung, insbesondere kann es hierbei parallel zu den zuvor beschriebenen Enhanced-Intra- und Enhanced-Inter-Prädiktionsverfahren eingesetzt werden. Bei Verfahren, die zur bewegungskompensierten Prädiktion eine Unterteilung der Blöcke in Unterblöcke zulassen, kann optional die optimale Block-Aufteilung vom Encoder als Seiteninformation übermittelt werden.

Die DWT-basierten Verfahren eignen sich nicht zur Anwendung in blockbasierten Codierkonzepten, da Blockstrukturen im Prädiktionsbild bei der DWT zu teuer zu codierenden Hochpaßinformationen führen.

Zeichnungen

Anhand der Zeichnungen werden Ausführungsbeispiele der Erfindung näher erläutert. Es zeigen

Fig. 1 ein Blockschaltbild mit Codierung des Base-Layers und den Möglichkeiten zur Codierung des Enhancement-Layers,

Fig. 2 die Suche des Displacement-Vektors zur Bewegungsschätzung im Enhancement-Layer,

Fig. 3 mögliche Teilungen eines Macroblockes,

Fig. 4 die Teilung von vier Macroblöcken des Enhancement- Layers.

Beschreibung von Ausführungsbeispielen

Im Folgenden wird eine Skalierung in zwei Stufen beschrieben; das erfindungsgemäße Verfahren kann auch entsprechend auf mehrere Skalierungsstufen angewendet werden. Die Stufe mit erhöhter örtlicher Auflösung wird mit Enhancement-Layer (EL) bezeichnet, die Stufe mit geringerer Auflösung heißt Base-Layer (BL).

Im erfindungsgemäßen Verfahren wird der bereits übertragene aktuelle BL-Frame durch Erhöhung der Abtastrate und Interpolationsfilterung auf die Größe und Auflösung der EL- Frames gebracht. Als Referenz wird der vorangegangene Bildframe des EL verwendet, welcher bei Encoder und Decoder bereits vorliegt. Optional kann der Referenz-Frame tiefpaßgefiltert werden, so daß er keine höheren Frequenzanteile enthält als der entsprechend hochinterpolierte BL-Frame. Zwischen dem hochinterpolierten BL-Frame und dem Referenz-Frame wird eine Bewegungsschätzung durchgeführt. Da die verwendeten Frames dem Sender (Encoder) als auch dem Empfänger (Decoder) bekannt sind, kann die Bewegungsschätzung sowohl beim Encoder als auch beim Decoder durchgeführt werden, so daß eine Übertragung der geschätzten Displacement-Vektoren nicht notwendig ist. Die Displacement- Vektoren werden zur bewegungskompensierten Prädiktion BKP des aktuellen, zu codierenden EL-Frames verwendet. Als Referenz bei der bewegungskompensierten Prädiktion BKP wird wiederum der vorangegangene EL-Frame verwendet, welcher ebenfalls optional vorher tiefpaßgefiltert werden kann. Bei solchen Codierverfahren, die bei der bewegungskompensierten Prädiktion BKP die Unterteilung eines Blockes in Unterblöcke verschiedener Größen zulassen, kann optional die optimale Aufteilung der EL-Blöcke in Unterblöcke beim Encoder ermittelt und als Seiteninformation zum Empfänger übertragen werden.

Das Verfahren der Erfindung kann optional entweder für alle Blöcke des zu codierenden EL-Frames verwendet, oder alternativ zu den bereits im Codierverfahren vorgesehenen BKP-Modi verwendet werden.

Das erfindungsgemäße Verfahren wird im folgenden am Ausführungsbeispiel der Luminanzkomponente einer Bildsequenz erläutert. Die Codierung soll blockorientiert auf Basis von sogenannten Makroblöcken (MB) mit 16 × 16 Pixeln erfolgen.

Das Verfahren nach der Erfindung soll mit EBP (enhanced backward prediction) bezeichnet werden. Die bisher verwendete Inter-Prädiktion wird mit EFP (enhanced forward prediction), die Intra-Prädiktion mit EIP bezeichnet. Das Enhancement-Layer soll in horizontaler und vertikaler Richtung um den Faktor 2 größer sein als das Base-Layer. Dieses Größenverhältnis wird üblicherweise verwendet; andere Größenverhältnisse können ebenso realisiert werden.

Mit F_n wird der n-te-Frame einer Bildsequenz bezeichnet. Für das Bewegungsvektorfeld wird das Symbol V_n verwendet, der quantisierte Prädiktionsfehler ist D_n. Mit _n wird eine Prädiktion für F_n bezeichnet, während die Rekonstruktion mit _n dargestellt wird. Die Indices B und E kennzeichnen jeweils das Base-Layer und das Enhancement-Layer des entsprechenden Frames. Ein Macroblock wird mit MB, ein Unterblock des Macroblocks mit B bezeichnet.

Die hochinterpolierte Version des Frames wird mit F'_n und die skalierte Version des Bewegungsvektorfeldes mit V'_n bezeichnet. _n ist eine tiefpaßgefilterte Version von F_n.

In der Beschreibung wird der Referenzframe mit F_n-1 gekennzeichnet, was auf den zeitlich vorhergehenden Frame hindeutet. Es kann ebenso ein Frame in anderem zeitlichen Abstand oder eine Auswahl von vorhergehenden Frames als Referenz zur Prädiktion herangezogen werden.

Mit C D|n C V|n und C MB|n werden die codierten Prädiktionsfehler, die Bewegungsvektoren und die Information zur Aufteilung eines Macroblocks MB bezeichnet. Die Kosten K_ME, die bei der Bewegungsschätzung entstehen, setzen sich aus der Summe der absoluten Differenzen SAD zwischen aktuellem und verschobenem Referenzblock und optional den Kosten für die Codierung, z. B. Vektoren, Block-Aufteilung zusammen.

In Fig. 1 ist ein vereinfachtes Blockschaltbild mit Base- Layer und Enhancement-Layer-Codierung dargestellt. Die Codierung des Base-Layers entspricht dem bekannten hybriden Codierkonzept, wie es prinzipiell in den etablierten Standards verwendet wird; sie wird hier kurz erläutert, um die verwendeten Bezeichnungen einzuführen. Für den aktuellen Base-Layer-Frame F_Bn wird durch Bewegungsschätzung ME und Bewegungskompensation MC aus dem Referenz-Frame _Bn-1 eine Vorwärtsprädiktion _Bn erstellt. Das resultierende Bewegungsvektorfeld V_Bn wird entropie-codiert EC und an den Empfänger übertragen. Der Suchbereich bei Kompensation mit 16 × 16 Blöcken kann z. B. auf 16 Pixel in jede Richtung festgelegt werden.

Der Prädiktionsfehler zwischen F_Bn und _Bn wird transformiert (TR, z. B. mit der diskreten Cosinus- Transformation DCT) und quantisiert. Dieses quantisierte Differenzsignal D_Bn wird zum einen codiert und zum Empfänger übertragen, zum anderen mittels TR^-1 rücktransformiert und zur Prädiktion _Bn addiert, so daß sich der am Empfänger rekonstruierte Frame _Bn ergibt. Dieser wird in einem Buffer T zwischengespeichert, um als Referenz _Bn-1 für den nächsten Frame zu dienen. Mit Q ist der Quantisierer bezeichnet.

Das Verfahren wird macroblockweise angewendet. Falls für die Macroblöcke verschiedene Modi, z. B. Intra oder Inter, oder Aufteilungen vorgesehen sind, müssen diese zusätzlich als Seiteninformation C MB|n übertragen werden. Die mögliche Entropie-Codierung für C MB|n wurde ebenso wie die Wahl zwischen Intra- und Intercodierung aus Gründen der Übersichtlichkeit nicht im Blockschaltbild dargestellt.

Basisverfahren

Zunächst stehen in Fig. 1 die Schalter wie folgt:
S1 = offen, S2 = b, S3 = a, S4 = a. Da Schalter S5 und S3 gekoppelt sind, werden hier keine Displacement-Vektoren übertragen. Die Schalterstellungen seien fest. Die Schätzung von V_En erfolgt zwischen den durch Überabtastung und Filterung mit dem Interpolationsfilter G (z) hochinterpolierten Base-Layer-Frame '_Bn und dem Enhancement-Layer-Referenz-Frame _En-1.

Die Bewegungsschätzung ME schätzt die Bewegung für den aktuellen Block. Dies kann in Form eines dichten Displacement-Vektorfeldes oder blockbasiert durchgeführt werden. Ein Displacement-Vektorfeld heißt dicht, wenn für jedes Pixel des kompensierten Bereiches ein eigener Vektor existiert. Bei blockbasierten Verfahren wird einem Block, z. B. 8 × 8 Pixel, ein gemeinsamer Vektor zugewiesen. Es werden keine Vektoren und im blockbasierten Fall keine Informationen über die Blockteilung übertragen.

Filterung des Referenz-Frames

Hierzu wird der Schalter S2 in Stellung a gebracht. Die Schalterstellungen seien fest wie im Basisverfahren. Die Schätzung von V_En erfolgt nun zwischen dem hochinterpolierten Base-Layer-Frame '_Bn und dem mit L(z) tiefpaßgefilteren Enhancement-Layer-Frame *|En-1. Die Filterung dient dazu, den Frequenzgang des Referenz- Frames dem des hochinterpolierten Base-Layer-Frames anzupassen.

Vereinfachte Vektorsuche

Hierzu wird Schalter S1 geschlossen. Dadurch liegt V'_Bn am Bewegungsschätzungsblock ME des Enhanced-Layer EL an und dient zur Initialisierung der Vektorschätzung. Das Prädiktions-Vektorfeld V'_Bn entsteht durch Skalierung von V_Bn um den Faktor 2 und ist damit der Größe des Enhancement- Layers angepaßt. Die Suche wird in einem verkleinerten Suchbereich um den skalierten Base-Layer-Vektor herum durchgeführt, z. B. zwei Pixel, um den Suchaufwand zu minimieren. Dies ist in Fig. 2 dargestellt. Um den skalierten Bewegungsvektor V'_Bn (i,j) wird die Suche auf dem interpolierten Frame '_Bn mit verkleinertem Suchbereich R_E durchgeführt.

Übertragung der Block-Aufteilung

Um den Suchaufwand zur Bewegungsschätzung auf der Decoder- Seite zu minimieren, kann bei blockbasierten Verfahren, die Unterteilungen der Macroblöcke MB zulassen, C MB|En als Seiteninformation übertragen werden. Die Suche nach den Vektoren muß dann nur noch für die bereits übertragene Block-Aufteilung durchgeführt werden.

Wahl des Prädiktions-Modus

In dieser Betriebsart wird das erfindungsgemäße Verfahren parallel zu den bekannten Prädiktions-Modi verwendet. Dazu werden die Codierungs-Kosten für EIP (S1 = offen, S2 = b, S3 = a, S4 = b), EFP (S1 = offen, S2 = b, S3 = b, S4 = a) und EBP (Schalterstellungen wie zuvor beschrieben) verglichen und für jeden Macroblock MB das günstigste Verfahren gewählt.

Verwendung verschiedener Blockgrößen

Die möglichen Unterteilungen des Macroblocks sind an die im Testmodell TML-3 zum Videocodierstandard H.26L vorgeschlagenen Unterteilungen angelehnt [6]. Der Macroblock kann auf die in Fig. 3 dargestellten Weisen in Unterblöcke zerlegt werden, so daß sich Unterblöcke der Größen 16 × 16, 16 × 8, 8 × 16, 8 × 8, 8 × 4, 4 × 8 und 4 × 4 Pixeln ergeben. Im Enhancement-Layer korrespondieren vier Macroblöcke mit einem hochinterpolierten Base-Layer- Macroblock. Die im Base-Layer verwendete Teilung der Macroblöcke wird durch die Interpolation in '_Bn um den Faktor 2 vergrößert. Die Größe der Unterblöcke der Enhancement-Layer-Macroblöcke darf diese Base-Layer-Teilung nicht überschreiten, da sonst Blockartefakte innerhalb der Enhancement-Layer-Blöcke auftreten können.

In Fig. 4, die die Teilung von vier Makroblöcken MB_En (i,j) mit i,j = {0,1} des Enhancement-Layer in Abhängigkeit von der Teilung des korrespondierenden interpolierten Base- Layer-Macroblocks MB'_Bn schematisch zeigt, sind vier mögliche Teilungen für Enhancement-Layer-Macroblöcke dargestellt, wenn im korrespondierenden Base-Layer- Macroblock die Teilung 6 aus Fig. 3 gewählt wurde.

Die Teilung für die Enhancement-Layer-Macroblöcke soll so gewählt werden, daß der zu codierende Prädiktionsfehler möglichst klein wird. Dazu werden die ermittelten Bewegungsvektoren auf das nicht gefilterte Enhancement- Layer-Signal _En-1 angewendet, und die günstigste Blockteilung als Vorwärts-Information an den Empfänger übertragen.

Das Verfahren nach der Erfindung eignet sich zur Anwendung in der örtlich skalierbaren Bildsequenzcodierung mit H.26L.

Für Macroblöcke, die mit EBP codiert wurden, muß dieses im Macroblock-Header signalisiert werden, außerdem werden keine Bewegungsvektoren codiert.

Literatur

[1] ISO/IEC JTC1 IS 14496-2 (MPEG-4). "Information technology - generic coding of audio-visual objects (final draft of international standard)", Oct. 1998.
[2] Telecom. Standardization Sector of ITU, "Video coding for low bitrate communication (H.263 Version 2)", Sept. 1997.
[3] T. Naveen and J. W. Woods, "Motion compensated multiresolution transmission of high definition video", IEEE Trans. on Circuits and Systems for Video Technology, vol 4, pp 29-41, Feb. 1994.
[4] A. Nosratinia and M. T. Orchard; "Multiresolution backward video coding", in Proc. IEEE Int. Conf. Image Processing ICIP '95, vol. 2, pp. 563-566, Oct. 1995.
[5] X. Yang and K. Ramchandran, "Hierarchical backward motion compensation for wavelet video coding optimized interpolation filters", in Proc. IEEE Int. Conf. Image Processing ICIP '97, vol. 1, pp. 85-88, Oct. 1997.
[6] Telecom. Standardization Sector of ITU, "H.26L test model long term 3", in Study Group 16, Question 15, Meeting J. (Osaka, Japan), ITU, Mar. 2000.

Claims

1. Verfahren zur örtlichen skalierbaren Bewegtbildcodierung in mindestens zwei Stufen (EL, BL) unterschiedlicher örtlicher Auflösung mit folgender Maßnahme:
die Bewegungsschätzung (ME) wird für eine Stufe (EL) erhöhter örtlicher Auflösung anhand interpolierter Versionen eines aktuellen Bildsignals und eines Referenzbildsignals durchgeführt, wobei als Referenzbildsignal ein zeitlich zuvor ermitteltes oder übertragenes Bildsignal verwendet wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Displacement-Vektoren für die Stufe erhöhter örtlicher Auslösung encoder- und decoderseitig aus bereits bekannten Informationen ermittelt werden und somit nicht als Seiteninformation zum Decoder übertragen werden müssen.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der durch Nichtübertragung der Seiteninformation eingesparte Codieraufwand im wesentlichen zur Codierung des Prädiktionsfehlers verwendet wird.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß ein bereits übertragenes aktuelles Bildsignal der Stufe (BL) niedriger örtlicher Auflösung durch Erhöhung der Abtastrate und Interpolationsfilterung auf die Größe und Auflösung der Stufe (EL) erhöhter Auflösung gebracht wird und mit dem Referenzbildsignal der Stufe (EL) erhöhter Auflösung zur Bewegungsschätzung verglichen wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß das Referenzbildsignal tiefpaßgefiltert wird.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Displacement-Vektoren zur bewegungskompensierten Prädiktion (BKP) des aktuellen zu codierenden Bildsignals erhöhter Auflösung verwendet werden.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß als Referenz zur bewegungskompensierten Prädiktion ein zeitlich zuvor ermitteltes oder übertragenes Bildsignal verwendet wird.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Bewegungsschätzung (ME) blockbasiert vorgenommen wird.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß eine parallele Anwendung mit Enhanced- Intra und/oder Enhanced-Inter-Prädiktionsverfahren vorgenommen wird.

10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß bei einer Unterteilung von Blöcken in Unterblöcke die optimale Blockaufteilung als Seiteninformation zum Empfänger übermittelt wird.