DE10328777A1

DE10328777A1 - Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals

Info

Publication number: DE10328777A1
Application number: DE10328777A
Authority: DE
Inventors: Holger HÖRICH; Michael Schug; Matthias Neusinger
Original assignee: Coding Technologies Sweden AB
Current assignee: Coding Technologies Sweden AB
Priority date: 2003-06-25
Filing date: 2003-06-25
Publication date: 2005-01-27
Also published as: EP1636791B1; EP1636791A1; DE602004005197T2; CN1809872A; DE602004005197D1; WO2005001813A1; US7275031B2; US20060167683A1; CN1809872B; HK1083664A1; JP2009513992A

Abstract

Beim Codieren eines Audiosignals wird das Audiosignal zunächst mit einem ersten Codierer codiert, um ein erstes Codiererausgangssignal zu erhalten. Dieses erste Codiererausgangssignal wird in einen Bitstrom geschrieben. Es wird ferner von einem Decodierer decodiert, um ein decodiertes Audiosignal zu liefern. Das decodierte Audiosignal wird mit dem ursprünglichen Audiosignal verglichen, um ein Restsignal zu erhalten. Das Restsignal wird dann mittels eines zweiten Codierers codiert, um ein zweites Codiererausgangssignal zu liefern, das ebenfalls in einen Bitstrom geschrieben wird. Der erste Codierer hat eine erste zeitliche oder frequenzmäßige Auflösung. Der zweite Codierer hat eine zweite zeitliche oder frequenzmäßige Auflösung. Die erste Auflösung unterscheidet sich von der zweiten Auflösung, so daß in einem entsprechenden Decodierer ein Audiosignal mit sowohl einer hohen zeitlichen Auflösung als auch mit einer hohen frequenzmäßigen Auflösung wiedergewonnen werden kann.

Description

Die vorliegende Erfindung bezieht sich auf Codierungstechniken und insbesondere auf Audiocodierungstechniken. Audiocodierer, und insbesondere solche Codierer, die unter dem Stichwort „mp3", „AAC" oder „mp3PRO" bekannt sind, haben sich in jüngster Zeit stark durchgesetzt. Sie erlauben die Komprimierung von Audiosignalen, die eine erhebliche Datenmenge benötigen, wenn sie beispielsweise im PCM-Format auf einer Audio-CD vorliegen, auf „erträgliche" Datenraten, die für die Übertragung der Audiosignale über Kanäle mit begrenzter Bandbreite geeignet sind. So sind zur Übertragung von Daten im PCM-Format Datenraten bis zu 1,4 Mbit/s erforderlich. „mp3"-codierte Audiodaten erreichen bereits bei Datenraten von 128 kbit/s eine Musikwiedergabe in Stereo bei hoher Qualität.
Mit der Spectral Band Replication (SBR) ist ferner ein Verfahren bekannt, das die Effizienz bestehender gehörangepaßter Audiocoder deutlich verbessert. Die SBR-Technik ist in der WO 98/57436 beschrieben und in dem Format „mp3PRO" implementiert. Hier wird gute Stereoqualität bereits mit Datenraten von 64 kbit/s erreicht.
Das europäische Patent EP 0 846 375 B1 offenbart ein Verfahren und eine Vorrichtung zum skalierbaren Codieren von Audiosignalen. Ein Audiosignal wird mittels eines ersten Codierers codiert, um den Bitstrom für den ersten Codierer zu erhalten. Dieses Signal wird dann wieder decodiert, und zwar mit einem an den ersten Codierer angepaßten Decodierer. Das Decodiererausgangssignal wird zusammen mit dem verzögerten ursprünglichen Audiosignal einer Differenzstufe zugeführt, um ein Differenzsignal zu erzeugen. Dieses Differenzsignal wird mit dem ursprünglichen Audiosignal bandweise verglichen, um für spektrale Bänder festzustellen, ob die Energie des Differenzsignals größer als die Energie des Audiosignals ist. Ist dies der Fall, so wird das ursprüngliche Audiosignal einem zweiten Codierer zugeführt, während dann, wenn die Energie des Differenzsignals kleiner als die Energie des ursprünglichen Audiosignals ist, das Differenzsignal dem zweiten Codierer zugeführt wird. Der zweite Codierer ist ein Transformationscodierer, der auf der Basis eines psychoakustischen Modells arbeitet. Der ausgangsseitige Bitstrom des zweiten Codierers wird ebenso wie der Bitstrom des ersten Codierers in einen Bitstrommultiplexer eingespeist, der einen sogenannten skalieren ausgangsseitigen Bitstrom liefert. Skalierbarkeit bedeutet in diesem Zusammenhang, daß ein Decodierer je nach Ausführung in der Lage ist, entweder decodiererseitig aus dem Bitstrom nur den Bitstrom des ersten Codierers zu extrahieren, oder sowohl den Bitstrom des ersten Codierers als auch den Bitstrom des zweiten Codierers zu extrahieren, um im ersteren Fall eine niederqualitative Wiedergabe zu erreichen, und um im zweiten Fall eine hochqualitative Wiedergabe des ursprünglichen Audiosignals zu erreichen.
Ein typischerweise Transformations-basierter Codierer ist in 4a dargestellt. Das Audiosignal wird einer Analyse-Filterbank 400 zugeführt, die aus dem Strom von Abtastwerten an ihrem Eingang mittels Blockbildung bzw. Fensterung einen Block mit einer bestimmten Anzahl von Abtastwerten des Audiosignals bildet und in eine spektrale Darstellung umsetzt. Die am Ausgang der Analyse-Filterbank erzeugten Spektralkoeffizienten bzw. Subband-Signale werden quantisiert. Die Quantisierer-Schrittweite wird von unterschiedlichen Faktoren abhängen. Ein wesentlicher Faktor ist eine psychoakustische Maskierungsschwelle, die durch ein psychoakustisches Modell 402 aus dem ursprünglichen Audiosignal berechnet wird. Der Quantisierer in einem Block „Quantisie rung und Codierung 404" wird immer versuchen, so grob als möglich zu quantisieren, um eine gute Kompression zu erreichen. Andererseits wird er jedoch ebenfalls versuchen, so fein als nötig zu quantisieren, derart, daß das durch die Quantisierung eingeführte Quantisierungsrauschen unterhalb der durch den Block 402 bereitgestellten psychoakustischen Maskierungsschwelle liegt, wie es in der Technik bekannt ist. Die derart quantisierten Spektralwerte werden dann einer Entropie-Codierung unterzogen, wobei als Entropie-Codierung typischerweise eine Huffman-Codierung eingesetzt wird, die typischerweise mit vordefinierten Huffman-Codebooks bzw. Huffman-Codetabellen arbeitet. Am Ausgang des Blocks 404 liegen dann Entropie-codierte quantisierte Spektralwerte an, die zusammen mit für die Decodierung nötigen Seiteninformationen mittels eines Blocks 406 in einen Bitstrom 408 geschrieben werden, wobei dieser Bitstrom gespeichert oder je nach Anwendungsfall über einen Übertragungskanal zu einem Decodierer übertragen werden kann, der in 4b dargestellt ist. Der Decodierer umfaßt zunächst einen Block 410 zum Lesen des Bitstroms, um einerseits die Seiteninformationen und andererseits die Entropie-codierten quantisierten Spektralwerte aus dem Bitstrom zu extrahieren. Die Entropie-codierten quantisierten Spektralwerte werden dann zunächst einer Entropie-Decodierung und dann einer inversen Quantisierung zugeführt, um invers quantisierte Spektralwerte zu erhalten (Block 412), die dann mittels einer an die Analyse-Filterbank 400 von 4a angepaßte Synthese-Filterbank 414 geliefert werden, um ausgangsseitig ein zeitdiskretes decodiertes Audiosignal zu erhalten. Dieses zeitdiskrete Audiosignal am Ausgang der Synthese-Filterbank kann dann nach entsprechender Interpolation und Digital/Analog-Wandlung und gegebenenfalls Verstärkung einem Lautsprecher zugeführt und dadurch hörbar gemacht werden.
Block-basierte Codierer/Decodierer, wie sie bei dem in 4a und 4b gezeigten bekannten Szenario zum Einsatz kommen, basieren darauf, daß typischerweise ein Block von Abtastwerten, wie beispielsweise 1024 bzw. bei einer in der Technik bekannten MDCT mit Overlap and Add 2048 zeitdiskrete Abtastwerte des Audiosignals in den Spektralbereich umgesetzt werden. Auch bei weniger frequenzauflösenden Filterbanken, wie beispielsweise der SBR-Filterbank mit 64 Kanälen, wird ebenfalls immer ein Block von Abtastwerten mit einer bestimmten Anzahl von Abtastwerten verwendet und in eine spektrale Darstellung, nämlich hier die einzelnen Subbandsignale, umgesetzt. Die spektrale Darstellung wird dann, wie es ausgeführt worden ist, entsprechend quantisiert, und zwar typischerweise unter Zuhilfenahme eines psychoakustischen Modells, das auf in der Technik bekannte Art und Weise die psychoakustische Maskierungsschwelle berechnet.
Solche Transformationen haben inhärent eine bestimmte Zeit/Frequenz-Auflösung. Dies bedeutet, daß dann, wenn eine große Anzahl von Abtastwerten in einen Block eingefügt wird, eine auf diesen Block angewandte Transformation inhärent eine hohe Frequenzauflösung hat. Andererseits ist jedoch die Zeitauflösung entsprechend reduziert. Würde man zum Erhöhen der Zeitauflösung kürzere Abschnitte des Audiosignals in den Spektralbereich umsetzen, so hätte dies zur Folge, daß die Frequenzauflösung entsprechend leidet.
Problematisch ist also, daß man Audiosignale nur für sehr kurze Zeiträume als stationär ansehen kann. Es gibt durchaus kurzzeitige starke Energieanstiege, die Transienten genannt werden, während derer das Audiosignal nicht stationär ist.
Um diesem Problem der Zeit/Frequenzauflösung zu begegnen, wird beispielsweise beim AAC-Codierer (AAC = Advanced Audio Coding) eine Blockumschaltung verwendet, die von einem Transientendetektor gesteuert wird. Hier wird das zu codierende Audiosignal vor der Fensterung bzw. Blockbildung untersucht, um festzustellen, ob das Audiosignal eine derartige Transiente hat oder nicht. Wird eine Transiente fest gestellt, so werden kurze Blöcke zum Codieren verwendet. Wird dagegen ein Signalausschnitt ohne Transiente detektiert, so wird eine lange Blocklänge verwendet. Damit wird bei solchen gängigen Transformations-Codierverfahren eine Blockumschaltung zur Anpassung der Transformationslänge an das Signal eingesetzt. Besonders wenn es darum geht, niedrige Bitraten zu erzielen, werden gerne besonders lange Transformationslängen eingesetzt, da das Verhältnis der Seiteninformationen zu den Nutzinformationen typischerweise relativ unabhängig von der Blocklänge ist. Dies bedeutet, daß die Menge an Seiteninformationen unabhängig davon, ob ein Block eine große Anzahl von zeitlichen Abtastwerten des Audiosignals darstellt, oder ob ein Block kurz ist, also eine kleine Anzahl von Abtastwerten darstellt, im wesentlichen die gleiche ist. Daher wird es aus Gründen der Codiereffizienz angestrebt, immer möglichst hohe Blocklängen bzw. bei einem Transformationscodierer hohe Transformationslängen zu verwenden.
Andererseits muß für die Transientendetektion und Umschaltung auf kurze Fenster bei Auftreten von nicht-stationären Bereichen des Audiosignals ein Verarbeitungsaufwand in Kauf genommen werden, der dennoch dazu führt, daß das Signal in seiner codierten Form entweder nur mit guter Frequenzauflösung oder nur mit guter Zeitauflösung vorliegt.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes Konzept zum Codieren bzw. Decodieren zu schaffen, um eine höherqualitativere und dennoch effiziente Audiocodierung/Decodierung zu erreichen.

Diese Aufgabe wird durch eine Vorrichtung zum Codieren eines Audiosignals nach Patentanspruch 1, ein Verfahren zum Codieren eines Audiosignals nach Patentanspruch 10, eine Vorrichtung zum Decodieren eines codierten Audiosignals nach Patentanspruch 11, ein Verfahren zum Decodieren eines codierten Audiosignals nach Patentanspruch 13 oder ein Computer-Programm nach Patentanspruch 14 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß eine gute Codierqualität sowohl guter Frequenzauflösung als auch guter Zeitauflösung dadurch erreicht wird, daß im Sinne des Konzepts der Skalierbarkeit ein erster Codierer eine erste Zeit/Frequenzauflösung hat, und daß ein zweiter Codierer eine zweite Zeit/Frequenzauflösung hat, die sich voneinander unterscheiden, so daß der erste Codierer das ursprüngliche Audiosignal mit einer bestimmten Auflösung codiert, und daß der zweite Codierer dann mit einer bestimmten anderen Auflösung bezüglich der Zeit bzw. Frequenz arbeitet, so daß zwei Datenströme erhalten werden, die zusammengenommen betrachtet sowohl eine gute Zeitauflösung als auch eine gute Frequenzauflösung darstellen.

Darüber hinaus wird als dem zweiten Codierer nicht das ursprüngliche Audiosignal zugeführt, sondern die Differenz zwischen dem ursprünglichen Audiosignal und dem codierten und wieder decodierten Ergebnis des ersten Codierers/Decodierers. Der Auflösungsfehler, den der erste Codierer gemacht hat, erscheint somit automatisch in dem Restsignal, das beispielsweise durch Differenzbildung erhalten wird, wobei dem Restsignal typischerweise Fehler anhaften werden, aufgrund beispielsweise der schlechten Zeitauflösung der ersten Codierer/Decodiererstrecke. Dagegen wird das Restsignal, da die erste Codierer/Decodierer-Strecke eine gute Frequenzauflösung hatte, kaum diesbezügliche Frequenzfehler anhaften. Damit kann ohne weiteres das Restsignal mit einem Codierer mit hoher Zeitauflösung (und damit entsprechend schlechter Frequenzauflösung codiert werden, um als zweites Codierausgangssignal ein Signal zu erhalten, das eine gute Zeitauflösung hat, jedoch eine schlechte Frequenzauflösung, was jedoch nichts macht, da das erste Codiererausgangssignal bereits eine gute Frequenzauflösung hat und somit die frequenzmäßig betrachtete Struktur des Audiosignals sehr gut wiedergibt.

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung sind sowohl der erste Codierer als auch der zweite Codierer Transformationscodierer. Ferner wird es bevorzugt, den ersten Codierer mit einer hohen Frequenzauflösung (und damit einer schlechten Zeitauflösung), also mit einer hohen Transformationslänge zu betreiben, während der zweite Codierer mit einer hohen Zeitauflösung (und damit einer schlechten Frequenzauflösung) betrieben wird.

Erfindungsgemäß hat sich herausgestellt, daß in vielen Fällen Artefakte im Zeitbereich, also Artefakte aufgrund einer schlechten Zeitauflösung, eher akzeptiert werden als Artefakte im Frequenzbereich, also Artefakte aufgrund einer schlechten Frequenzauflösung. Daher wird es bevorzugt, den ersten Codierer mit einer hohen Frequenzauflösung zu betreiben, da dann von einem entsprechenden Decodierer lediglich das erste Codiererausgangssignal genügt, um eine einigermaßen gute Audioausgabe zu erreichen, was im Sinne des Konzepts der Skalierbarkeit liegt.

Erfindungsgemäß wird durch den zweiten Codierer die Qualität des ersten Codierverfahrens verbessert, indem eine Differenzbildung zwischen dem Ausgangssignal der ersten Codierer/Decodierer-Strecke und dem ursprünglichen Audiosignal genommen wird, und daß dann das dabei entstehende Restsignal mit dem zweiten Codierer codiert wird, der eine gute Zeitauflösung hat. Diese Codierung ist besonders günstig für das Restsignal, da es bereits wenig tonale Elemente umfaßt, da diese bereits sehr gut und effizient vom ersten Codierverfahren erfaßt worden sind.

Der wesentliche Mangel dieses Restsignals ist jedoch die schlechte Zeitauflösung, die sich in der Entstehung von Rauschen vor oder nach einem Transienten, also eines Vor-Echos oder Nachechos zeigt. Vorechos sind störender als Nachechos, da sie gut subjektiv wahrnehmbar sind. Dieses Rauschen ist gewissermaßen das Quantisierungsrauschen des Transienten und entspricht in seinem Spektralgehalt im we sentlichen dem des Transienten und ist somit nicht tonal. Durch die Verwendung des Transformations-Codierverfahrens mit kurzen Blöcken, also mit einer hohen Zeitauflösung, wird somit die Zeitauflösung auf effiziente Art und Weise erheblich verbessert.

Erfindungsgemäß wird somit ein Audio-Codierverfahren mit hoher und höchster Qualität erhalten, indem die Anteile des Audiosignals, die tonal oder eher tonal sind, mit einem frequenzselektiven Transformations-Codierverfahren mit langen Transformationslängen erfaßt werden, während ein nachgeschaltetes Codierverfahren mit kurzen Transformationslängen für das Restsignal eine hohe Zeitauflösung ermöglicht.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
1 ein Blockschaltbild eines erfindungsgemäßen Codierkonzepts;
2 ein Blockschaltbild eines erfindungsgemäßen Codierkonzepts gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
3 ein Blockschaltbild eines erfindungsgemäßen Decodierkonzepts;
4a einen bekannten Transformations-Codierer; und
4b einen bekannten Transformations-Decodierer.
1 zeigt eine Vorrichtung zum Codieren eines Audiosignals, das über einen Eingang 10 bereitgestellt wird. Das Audiosignal wird zunächst in einen ersten Codierer 12 mit einer ersten Zeit/Frequenz-Auflösung eingespeist. Der erste Codierer 12 ist ausgebildet, um ein erstes Codiererausgangssignal an einem Ausgang 14 zu erzeugen. Das erste Co diererausgangssignal an dem Ausgang 14 des ersten Codierers 12 wird einerseits einem Multiplexer 16 zugeführt, und andererseits einem Decodierer 18, der an den ersten Codierer angepaßt ist und das erste Codiererausgangssignal decodiert, um ein decodiertes Audiosignal an einem Ausgang 20 des Decodierers 18 zu liefern. Das decodierte Ausgangssignal 20 sowie das ursprüngliche Audiosignal 10 werden einem Vergleicher 22 zugeführt. Der Vergleicher 22 ist ausgebildet, um das Audiosignal an dem Eingang 10 mit dem decodierten Audiosignal am Ausgang 20, also nach der Strecke aus erstem Codierer 12 und dem Decodierer 18, zu vergleichen. Der Vergleicher 22 ist insbesondere ausgebildet, um ein Restsignal an einem Ausgang 24 desselben zu liefern, wobei das Restsignal einen Unterschied zwischen dem Audiosignal und dem decodierten Audiosignal umfaßt. Dieses Restsignal 24 wird einem zweiten Codierer 26 zugeführt, welcher ausgebildet ist, um das Restsignal an dem Ausgang 24 des Vergleichers 22 zu codieren, um ein zweites Codiererausgangssignal an einem Ausgang 28 zu liefern, das ebenfalls dem Multiplexer 16 zugeführt wird. Der Multiplexer 16 ist ausgebildet, um das erste Codiererausgangssignal und das zweite Codiererausgangssignal zu kombinieren und um aus denselben gegebenenfalls unter Berücksichtigung entsprechender Seiteninformationen und Bitstrom-Syntax-Konventionen ein codiertes Audiosignal an einem Ausgang 30 zu erzeugen.
Erfindungsgemäß hat der erste Codierer eine erste zeitliche oder frequenzmäßige Auflösung, und hat der zweite Codierer eine zweite zeitliche oder frequenzmäßige Auflösung. Gemäß der vorliegenden Erfindung unterscheiden sich die erste Auflösung des ersten Codierers und die zweite Auflösung des zweiten Codierers, so daß das erste Codiererausgangssignal entweder zeitlich oder frequenzmäßig gut codiert ist, und daß das zweite Codiererausgangssignal frequenzmäßig bzw. zeitlich gut codiert ist, dahingehend, daß das codierte Audiosignal am Ausgang des Multiplexers 16 sowohl eine hohe zeitliche Auflösung als auch eine hohe Frequenzauflösung hat.
Nachfolgend ist anhand von 2 ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung dargestellt. Hierbei wird das Audiosignal 10, bevor es dem Vergleicher 22 zugeführt wird, der in 2 als Differenzglied dargestellt ist, einer Verzögerung durch ein Verzögerungsglied 32 unterzogen, so daß bei dem in 2 gezeigten bevorzugten Ausführungsbeispiel eine abtastwertweise Differenzbildung durch das Differenz-Glied 22 zwischen dem decodierten Audiosignal am Ausgang des Decoders 18 und dem (verzögerten) Audiosignal am Ausgang des Verzögerungsglieds 32 in Echtzeit durchgeführt werden kann.
Bei dem in 2 gezeigten Ausführungsbeispiel sind ferner der erste Codier, also der Encoder 12 in 2, und der zweite Codierer 26, der in 2 mit Differenz-Encoder bezeichnet ist, ausgebildet, um eine Transformations-Codierung durchzuführen.
Ferner wird es bevorzugt, daß der erste Codierer 12 eine Codierung mit langen Transformationslängen, also einer hohen Frequenzauflösung und damit einhergehend einer niedrigen Zeitauflösung durchführt, während der zweite Codierer 26 eine Codierung mit kurzen Transformationslängen durchführt, also mit einer hohen Zeitauflösung und inhärent damit einhergehend niedrigen Frequenzauflösung.
Obgleich prinzipiell auch der erste Codierer mit kurzen Transformationslängen und der Differenzcodierer mit langen Transformationslängen arbeiten könnte, wird es dennoch bevorzugt, den ersten Codierer mit langen Transformationslängen laufen zu lassen, da, wie es bereits ausgeführt worden ist, für einen Zuhörer Zeitartefakte eher weniger problematisch sind als Frequenzartefakte. Daher wird ein Codierer, der nur das erste Codiererausgangssignal am Ausgang 14, nicht aber das zweite Codiererausgangssignal am Ausgang 28 verarbeiten kann, dann, wenn der erste Codierer mit langen Transformationslängen arbeitet, eine angenehmere Wiedergabe erzeugen als wenn der erste Codierer mit kurzen Transformationslängen arbeiten würde.
Als Transformationsalgorithmus innerhalb des ersten Codierers und/oder des zweiten Codierers von 2 kann jede beliebige Einrichtung zum Umsetzen eines Blocks von zeitlichen Abtastwerten in eine spektrale Darstellung verwendet werden, wie beispielsweise eine Fourier-Transformation, eine diskrete Fourier-Transformation, eine schnelle Fourier-Transformation, eine diskrete Cosinustransformation, eine modifizierte diskrete Cosinustransformation etc. Alternativ kann jedoch auch eine Filterbank mit einer kleineren Anzahl von Kanälen eingesetzt werden, wie z. B. eine 64-Kanal-Filterbank, eine 128-Kanal-Filterbank oder eine Filterbank mit mehr oder weniger Kanälen.
Bei einem anderen Ausführungsbeispiel der vorliegenden Erfindung kann der erste Encoder 12 ein SBR-Encoder sein, der ausgebildet ist, um ein erstes Codiererausgangssignal zu liefern, das nur Informationen bis zu einer Grenzfrequenz umfaßt, die kleiner als die Grenzfrequenz des Audiosignals am Audioeingang 10 ist. Typische SBR-Encoder extrahieren aus dem Audiosignal Seiteninformationen, die zur Hochfrequenz-Rekonstruktion in einem SBR-Decoder eingesetzt werden können, um das hohe Band, also das Band des Audiosignals oberhalb der Grenzfrequenz des ersten Codiererausgangssignals, möglichst hochqualitativ zu rekonstruieren. Der Decodierer 18 in 2 ist jedoch hier kein solcher SBR-Decodierer mit Hochfrequenzrekonstruktion, sondern ein üblicher Transformations-Decodierer, der an den ersten Codierer 12 angepaßt ist, um das Codiererausgangssignal unabhängig davon, daß dasselbe Band begrenzt ist, einfach zu decodieren, so daß das Ausgangssignal des Decodierers 18 am Ausgang 20 ebenfalls eine niedrigere Grenzfrequenz hat als das ursprüngliche Audiosignal.
In diesem Fall würde das Restsignal bis zur Grenzfrequenz den Codier/Decodier-Fehler der Strecke aus Encoder 12 und Decoder 18 umfassen, würde jedoch oberhalb der Grenzfrequenz das komplette Audiosignal sein.
In diesem Fall kann das Restsignal, da es oberhalb der Grenzfrequenz des ersten Codiererausgangssignals mit dem ursprünglichen Audiosignal übereinstimmt, entweder ebenfalls mit dem Differenz-Codierer 16 codiert werden, der kurze Transformationslängen verwendet. Alternativ könnte jedoch nur der Spektralbereich des Restsignals bis zur Grenzfrequenz des ersten Codiererausgangssignals mit dem Differenz-Codierer 26 codiert werden, während der hochfrequente Anteil des Restsignals wieder mit dem ersten Codierer 12 mit den langen Transformationslängen codiert wird, um auch im hochfrequenten Teil des Audiosignals eine hohe Frequenzauflösung zu erreichen.
Das Ausgangssignal des Codierers 12 für das hochfrequente Band kann nun wieder mit dem entsprechenden Band des ursprünglichen Audiosignals verglichen werden, um das Differenzsignal wieder mit dem Differenzcodierer 26 zu codieren, so daß am Ende vier Datenströme dem Multiplexer 16 zugeführt werden, die, wenn sie alle zusammen decodiert werden, eine transparente Wiedergabe, d. h. eine Wiedergabe ohne Artefakte, ermöglichen.
Erfindungsgemäß ist es nicht wesentlich, daß der erste Codierer und der zweite Codierer unter Verwendung eines psychoakustischen Modells arbeiten. Aus Dateneffizienzgründen wird es jedoch bevorzugt, daß zumindest der erste Codierer 12 unter Verwendung eines psychoakustischen Modells arbeitet. Je nach Ressourcen könnte der zweite Codierer dann verlustlos codieren, wenn die entsprechenden Übertragungskanalressourcen vorhanden sind, so daß eine vollständig transparente Wiedergabe erreicht wird. Alternativ könnte jedoch auch der zweite Codierer unter Verwendung eines psychoakustischen Modells arbeiten, wobei es bevorzugt wird, daß in diesem Fall für den zweiten Codierer das psychoakustische Modell nicht noch einmal komplett berechnet wird, sondern zumindest Teile desselben bzw. die gesamte psychoakustische Maskierungsschwelle unter Berücksichtigung der unterschiedlichen Transformationslängen von dem ersten Codierer zu dem zweiten Codierer gewissermaßen „wieder verwendet" werden kann. Dies kann z. B. dadurch geschehen, daß die von dem ersten Codierer berechnete psychoakustische Maskierungsschwelle unmittelbar für den zweiten Codierer genommen wird, wobei jedoch zur Berücksichtigung der kürzeren Transformationslängen des zweiten Codierers z. B. einen „Sicherheitsaufschlag" von beispielsweise 3 dB verwendet wird, derart, daß die psychoakustische Maskierungsschwelle für den zweiten Codierer z. B. um 3 dB oder einen anderen vorbestimmten Betrag kleiner als die psychoakustische Maskierungsschwelle für den ersten Codierer 12 ist.
Im Hinblick auf die Transformationslängen wird es bevorzugt, daß die Transformationslänge des ersten Codierers ein ganzzahliges Vielfaches der Transformationslänge des zweiten Codierers ist. So kann die Transformationslänge des ersten Codierers beispielsweise doppelt so viele, dreimal so viele, viermal so viele oder fünfmal so viele Abtastwerte des Audiosignals umfassen als die Transformationslänge des zweiten Codierers 26. Diese ganzzahlige Relation zwischen den Transformationslängen des ersten und des zweiten Codierers wird deswegen bevorzugt, da dann eine relativ gute Wiederverwendung von Codiererdaten des ersten Codierers für den zweiten Codierer möglich sind. Andererseits wäre jedoch auch ein nicht-ganzzahliger Zusammenhang zwischen den Transformationslängen unproblematisch, da der erste Codierer 12 und der zweite Codierer 26 auch nicht synchronisiert zueinander laufen können, sofern dies einem Decodierer entsprechend mitgeteilt wird, damit derselbe mit den richtigen Abtastwerten die Aufsummation durchführt, also das Inverse der abtastwertweisen Differenzbildung im Element 22 von 2.
3 zeigt einen Decodierer zum Decodieren eines codierten Audiosignals gemäß der vorliegenden Erfindung. Das codierte Audiosignal, das an dem Ausgang 30 von 1 bzw. 2 ausgegeben wird, wird nach Übertragung, Speicherung, etc. einem Eingang 40 des Decodierers in 3 zugeführt. Der Eingang 40 ist zunächst mit einem Extraktor 42 gekoppelt, der die Funktionalität eines Bitstrom-Demultiplexers aufweist, um aus dem codierten Audiosignal zunächst das erste Codiererausgangssignal zu extrahieren und an einem Ausgang 44 bereitzustellen, und der ferner ausgebildet ist, um das codierte Restsignal, bzw. das Differenzsignal bzw. das zweite Codiererausgangssignal an einem Ausgang 46 bereitzustellen. Das erste Codiererausgangssignal wird einem ersten Decodierer zugeführt, der an den ersten Codierer 12 der in 1 gezeigten erfindungsgemäßen Vorrichtung zum Codieren angepaßt ist und prinzipiell mit dem Decodierer 18 von 1 identisch sein kann. Dies bedeutet, daß der erste Decodierer 48 wieder dieselbe Zeit/Frequenz-Auflösung hat, also mit derselben beispielsweise Transformationslänge arbeitet wie der Codierer 12 von 1. Das zweite Codiererausgangssignal am Ausgang 46 des Extraktors wird einem zweiten Decodierer 50 zugeführt, der an den zweiten Codierer 26 von 1 angepaßt ist und damit die zweite Zeit/Frequenz-Auflösung hat, also eine Zeit/Frequenz-Auflösung, die zu der Zeit-Frequenz-Auflösung des zweiten Codierers 26 in 1 identisch ist.
Der erste Decodierer 48 liefert ausgangsseitig das decodierte Audiosignal, das mit dem Signal am Ausgang 20 von 2 identisch sein kann. Analog hierzu liefert der zweite Decodierer 50 an seinem Ausgang das decodierte Restsignal. Es sei darauf hingewiesen, daß beide Decodierer prinzipiell so ausgebildet sein können, wie es anhand von 4b dargestellt worden ist, wobei sich dieselben jedoch im Hinblick auf ihre Transformationslängen und damit auf die verwendeten Synthese-Filterbanken unterscheiden werden.
Sowohl das decodierte Audiosignal am Ausgang 52 in 3 als auch das decodierte Restsignal am Ausgang 54 von 3 werden einem Kombinierer 56 zugeführt, der bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung eine abtastwertweise Summation durchführt, also allgemein gesagt eine Operation, die invers zu der Vergleichsoperation ist, die im Codierer im Element 22 von 1 durchgeführt worden ist. Der Kombinierer 56 liefert ausgangsseitig an einem Ausgang 58 der Decodiervorrichtung von 3 ein Ausgangssignal, das sich nun aufgrund der vorliegenden Erfindung sowohl durch eine gute Zeitauflösung als auch durch eine gute Frequenzauflösung auszeichnet, das also sowohl wenig Frequenzartefakte als auch wenig Zeitartefakte umfaßt.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Codieren, wie es anhand von 1 dargestellt worden ist, oder kann das erfindungsgemäße Verfahren zum Decodieren, wie es anhand von 3 dargestellt worden ist, in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, daß das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Vorrichtung zum Codieren eines Audiosignals, mit folgenden Merkmalen: einem ersten Codierer (12) zum Erzeugen eines ersten Codiererausgangssignals aus dem Audiosignal; einem Decodierer (18), der an den ersten Codierer (12) angepaßt ist, zum Decodieren des ersten Codiererausgangssignals, um ein decodiertes Audiosignal zu liefern; einem Vergleicher (22) zum Vergleichen des Audiosignals mit dem decodierten Audiosignal, wobei der Vergleicher (22) ausgebildet ist, um ein Restsignal zu liefern, wobei das Restsignal einen Unterschied zwischen dem Audiosignal und dem decodierten Audiosignal umfaßt; einem zweiten Codierer (26) zum Codieren des Restsignals, um ein zweites Codiererausgangssignal zu liefern; und einem Multiplexer (16) zum Verbinden des ersten Codiererausgangssignals und des zweiten Codiererausgangssignals, um ein codiertes Audiosignal zu erhalten, wobei der erste Codierer (12) eine erste zeitliche oder frequenzmäßige Auflösung hat, wobei der zweite Codierer (26) eine zweite zeitliche oder frequenzmäßige Auflösung hat, und wobei sich die erste Auflösung von der zweiten Auflösung unterscheidet.
Vorrichtung nach Anspruch 1, bei der der erste Codierer (12) ausgebildet ist, um als erste Auflösung eine hohe frequenzmäßige Auflösung und eine niedrige zeitliche Auflösung zu haben, und bei der zweite Codierer (26) ausgebildet ist, um als zweite Auflösung eine niedrige frequenzmäßige und eine hohe zeitliche Auflösung zu haben.
Vorrichtung nach Anspruch 1 oder 2, bei der der erste Codierer (12) ein Transformationscodierer ist, der ausgebildet ist, um einen Block mit einer ersten Anzahl von zeitlichen Abtastwerten des Audiosignals in eine spektrale Darstellung umzusetzen, bei der der zweite Codierer (26) ein Transformationscodierer ist, der ausgebildet ist, um einen Block mit einer zweiten Anzahl von zeitlichen Abtastwerten des Restsignals in eine spektrale Darstellung umzusetzen, und bei der sich die erste Anzahl von der zweiten Anzahl unterscheidet.
Vorrichtung nach Anspruch 3, bei der die erste Anzahl größer als die zweite Anzahl ist.
Vorrichtung nach Anspruch 3 oder 4, bei der der erste Codierer (12) und der zweite Codierer (26) eine Filterbank oder einen Transformationsalgorithmus aufweisen, der eine Fourier-Transformation, eine diskrete Fourier-Transformation, eine schnelle Fourier-Transformation, eine diskrete Cosinus-Transformation oder eine modifizierte diskrete Cosinus-Transformation umfaßt.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Decodierer (18) ausgebildet ist, um ein zeitdiskretes decodiertes Audiosignal mit eine Folge von Abtastwerten zu liefern, bei der das Audiosignal ein zeitdiskretes Audiosignal mit einer Folge von Abtastwerten ist, und bei der der Vergleicher (22) ausgebildet ist, um eine abtastwertweise Differenzbildung durchzuführen, um das Restsignal zu erhalten.
Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweist: ein Verzögerungsglied (32) zum Verzögern des Audiosignals, wobei das Verzögerungsglied (32) ausgebildet ist, um eine Verzögerung zu haben, die von einer dem ersten Codierer (12) und dem Decodierer (18) zugehörigen Verzögerung abhängt.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Multiplexer (16) ausgebildet ist, um das codierte Audiosignal so zu erzeugen, daß das erste Codierausgangssignal unabhängig von dem zweiten Codiererausgangssignal decodierbar ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste Codierer (12) ausgebildet ist, um das Audiosignal einer Bandbegrenzung zu unterziehen, so daß das erste Codiererausgangssignal eine obere Grenzfrequenz hat, die kleiner als eine obere Grenzfrequenz des Audiosignals ist, bei der der Vergleicher (22) ein Restsignal liefert, das oberhalb der oberen Grenzfrequenz des ersten Codiererausgangssignals dem Audiosignal entspricht, und bei der der zweite Codierer (26) ausgebildet ist, um einen Anteil des Restsignals oberhalb der oberen Grenzfrequenz des ersten Codierers mit einer zeitlichen oder frequenzmäßige Auflösung zu codieren, die ungleich der zweiten Auflösung oder gleich der zweiten Auflösung ist.
Verfahren zum Codieren eines Audiosignals, mit folgenden Schritten: Erzeugen (12) eines ersten Codiererausgangssignals mit einer ersten zeitlichen oder frequenzmäßigen Auflösung aus dem Audiosignal; Decodieren des ersten Codiererausgangssignals, um ein decodiertes Audiosignal zu liefern; Vergleichen (22) des Audiosignals mit dem decodierten Audiosignal, um ein Restsignal zu liefern, wobei das Restsignal einen Unterschied zwischen dem Audiosignal und dem decodierten Audiosignal umfaßt; Codieren (26) des Restsignals mit einer zweiten zeitlichen oder frequenzmäßigen Auflösung, um ein zweites Codiererausgangssignal zu liefern; und Verbinden (16) des ersten Codiererausgangssignals und des zweiten Codiererausgangssignals, um ein codiertes Audiosignal zu erhalten, wobei sich die erste Auflösung von der zweiten Auflösung unterscheidet.
Vorrichtung zum Decodieren eines codierten Audiosignals, um ein Ausgangssignal zu erhalten, wobei das codierte Audiosignal ein erstes Codiererausgangssignal aufweist, das mit einer ersten zeitlichen oder frequenzmäßigen Auflösung codiert ist, und wobei das co dierte Audiosignal ferner ein zweites Codiererausgangssignal aufweist, das ein mit einer zweiten zeitlichen oder frequenzmäßigen Auflösung codiertes Restsignal darstellt, das einen Unterschied zwischen einem ursprünglichen Audiosignal und einem decodierten Audiosignal darstellt, wobei das decodierte Audiosignal durch Decodieren des ersten Codiererausgangssignals erhaltbar ist, mit folgenden Merkmalen: einem Extraktor (42) zum Extrahieren des ersten Codiererausgangssignals und des zweiten Codiererausgangssignals aus dem codierten Audiosignal; einem ersten Decodierer (48) zum Decodieren des ersten Codiererausgangssignals, um das decodierte Audiosignal zu erhalten, wobei der erste Decodierer (48) ausgebildet ist, um mit der ersten zeitlichen oder frequenzmäßigen Auflösung zu arbeiten; einem zweiten Decodierer (50) zum Decodieren des zweiten Codiererausgangssignals, um ein decodiertes Restsignal zu erhalten, wobei der zweite Decodierer ausgebildet ist, um mit der zweiten zeitlichen oder frequenzmäßigen Auflösung zu arbeiten, wobei sich die zweite Auflösung von der ersten Auflösung unterscheidet; und einem Kombinierer (56) zum Kombinieren des decodierten Audiosignals und des decodierten Restsignals, um das Ausgangssignal zu erhalten.
Vorrichtung nach Anspruch 11, bei der der erste Decodierer ein Transformationsdecodierer ist, der ausgebildet ist, um einen Block mit einer ersten Anzahl von Spektralwerten in eine zeitliche Darstellung umzusetzen, bei der der zweite Decodierer ein Transformationsdecodierer ist, der ausgebildet ist, um einen Block mit einer zweiten Anzahl von Spektralwerten des Restsignals in eine zeitliche Darstellung umzusetzen, und bei der sich die erste Anzahl von der zweiten Anzahl unterscheidet.
Verfahren zum Decodieren eines codierten Audiosignals, um ein Ausgangssignal zu erhalten, wobei das codierte Audiosignal ein erstes Codiererausgangssignal aufweist, das mit einer ersten zeitlichen oder frequenzmäßigen Auflösung codiert ist, und wobei das codierte Audiosignal ferner ein zweites Codiererausgangssignal aufweist, das ein mit einer zweiten zeitlichen oder frequenzmäßigen Auflösung codiertes Restsignal darstellt, das einen Unterschied zwischen einem ursprünglichen Audiosignal und einem decodierten Audiosignal darstellt, wobei das decodierte Audiosignal durch Decodieren des ersten Codiererausgangssignals erhaltbar ist, mit folgenden Schritten: Extrahieren (42) des ersten Codiererausgangssignals und des zweiten Codiererausgangssignals aus dem codierten Audiosignal; Decodieren (48) des ersten Codiererausgangssignals mit der ersten zeitlichen oder frequenzmäßigen Auflösung, um das decodierte Audiosignal zu erhalten; Decodieren (50) des zweiten Codiererausgangssignals mit der zweiten zeitlichen oder frequenzmäßigen Auflösung, um ein decodiertes Restsignal zu erhalten, wobei sich die zweite Auflösung von der ersten Auflösung unterscheidet; und Kombinieren (56) des decodierten Audiosignals und des decodierten Restsignals, um das Ausgangssignal zu erhalten.
Computer-Programm mit einem Programmcode zum Durchführen des Verfahrens nach Anspruch 10 oder Anspruch 13, wenn das Programm auf einem Computer abläuft.