DE69431622T2

DE69431622T2 - Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren

Info

Publication number: DE69431622T2
Application number: DE69431622T
Authority: DE
Inventors: Edwin Groenewegen; Werner Oomen; Gerbrand Van Der Waal; Nicolaas Veldhuis
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1993-12-23
Filing date: 1994-12-13
Publication date: 2003-06-26
Anticipated expiration: 2014-12-14
Also published as: KR960701518A; EP0691052B1; KR100518470B1; WO1995018523A1; JP2006139306A; US5649054A; EP0691052A1; JP3782103B2; JPH08507391A; DE69431622D1

Description

BEREICH DER ERFINDUNG

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Codieren einer Schalldarstellung, empfangen als ein Strom von Eingangsabtastwerten mit mehreren Bits, während versteckte Kanalbits eingefügt werden. Ein derartiges Verfahren ist in einer Veröffentlichung von M. A. Gerzon und P. G. Craven "A High-Rate Buried Channel for Audio CD", Vordruck '3551 der "Audio Eng, Soc. Conv." Berlin, März 1993 beschrieben worden. Siehe ebenfalls die internationale Patentanmeldung WO 94/03988, Priorität vom 5. August 1992, veröffentlicht am 17. Februar 1994 derselben Aufhören. Das erste Bezugsmaterial basiert auf eine relativ einfache Art und Weise der Addierung eines versteckten Kanals durch subtraktive gezitterte rauschförmige Quantisierung. Obschon das hinzugefügte Merkmal es ermöglicht, dass die hohe Qualität des übertragenen Schalles durch einen versteckten Kanal verbessert wird, haben die Erfinder der vorliegenden Erfindung entdeckt, dass das Bezugsmaterial die Möglichkeiten des "Subtraktions"-Prinzips nicht völlig ausnutzt, wobei diese Unzulänglichkeit entweder zu einer niedrigeren als optimalen Übertragungskapazität des versteckten Kanals führt, oder, auf alternative Weise, zu einer niedrigeren als beabsichtigten restlichen Perzeptionsqualität des ursprünglichen Schalles hoher Qualität, beispielsweise CD-Qualität, aber sie ist nicht darauf begrenzt.

ZUSAMMENFASSUNG DER ERFINDUNG

Deswegen ist es u. a. eine Aufgabe der vorliegenden Erfindung die Charakteristiken des versteckten Kanaleinschlusses zu verbessern zur Optimierung der restlichen Perzeptionsqualität und der Übertragungsqualität des versteckten Tonkanals. Nun wird, nach einem dieser Aspekte, die vorliegende Erfindung gekennzeichnet durch die nachfolgenden Verfahrensschritte:
- das Bilden einer Sequenz endlicher Länge der genannten Abtastwerte und das Bestimmen einer instantanen Schwelle-zu-Frequenzcharakteristik einer nicht einheitlichen Hörbarkeit in der genannten Sequenz;
- das Subtrahieren eines geformten Rauschsignals aus den genannten Eingangsabtastwerten zum Erzeugen von Verarbeitungsabtastwerten;
- das dynamische Überspringen der Verarbeitung von Abtastwertbits unterhalb eines mit der genannten Charakteristik assoziierten Bitpegels, durch Subtraktion eines Zittersignals (v) und einer nachfolgenden Quantisierung durch eine variable Anzahl von b Bits unterhalb des genannten Bitpegels, aber das Aufrechterhalten wenigstens aller Verarbeitungsabtastwertbits über dem genannten Bitpegel;
- das Ersetzen derartiger übersprungener Verarbeitungsabtastwertbits durch das genannte Zittersignal als versteckte Kanalbits, die eine einstellbare Anzahl von b Bits je genannter Verarbeitungsabtastwert bilden;
- das Ausliefern erweiterter Abtastwerte (y) mit nicht übersprungener Verarbeitungsabtastwertbits und versteckter Kanalbits;
- während der Erzeugung des genannten Rauschsignals durch Fromfilterung durch ein Rauschformfilter bei einer zitterbestimmten Differenz zwischen den genannten erweiterten Abtastwerten und den genannten Verarbeitungsabtastwerten, wobei die genannte Formulierung ein empfangenes Differenzsignal in Richtung der genannten instantanen Schwelle-zu-Frequenzcharakteristik korrigiert.
Insbesondere ermöglicht die Formfilterung der Differenz in Richtung der instantanen Schwelle-zu-Frequenzcharakteristik die Erzeugung von "Spektrumraum" bei denjenigen Frequenzen, für die das menschliche Hörsystem relativ unempfindlich ist. Das Ergebnis ist, dass für eine ziemlich große Länge von Abtastwerten eine einheitliche Anzahl versteckter Kanalbits je Abtastwert injiziert werden kann. Für eine nachfolgende Sequenz soll die Anzahl versteckter Kanalbits wieder bestimmt werden. Ein weiteres Merkmal ist, dass nach der Formgestaltung der Charakteristik des Hauptkanals auch die Charakteristik des versteckten Kanals auf dieselbe Art und Weise geformt werden kann zur Optimierung der Übertragungskapazität. Insbesonde re sollte das Zittersignal geformt werden. Dies fügt dem System einen bestimmten Betrag an Komplexität zu.
Auf vorteilhafte Weise empfängt das Rauschformfilter ein Differenzsignal, das einer "Weißes Rauschen"-ähnlichen Charakteristik nähert. In vielen Fällen sind die Anforderungen an dem Differenzsignal nicht hoch in Bezug auf den möglichen Einfluss auf die Qualität des Hauptkanals und deswegen kann das Zittern einen beliebigen Inhalt haben. In anderen Situationen kann die Differenz nicht mit der Information des Hauptkanals korreliert werden, oder kann sogar nicht selbst korreliert sein. In diesen letzteren Situationen wird das Zittern vorverarbeitet um das geeignete Fehlen der Korrelation zu erhalten. Solche Maßnahmen sind an sich durchaus bekannt.
Auf vorteilhafte Weise geschieht eine derartige Erzeugung durch ein Quantisierungsfilter mit einer variablen Charakteristik. Auf diese Weise werden eine verbesserte Anpassung an die instantane Hörbarkeit und eine verbesserte subjektive Audioqualität erzielt.
Auf vorteilhafte Weise erfolgt die Formfilterung mit einem Filter mit einer gesamten Filterkurve, zusammengesetzt aus einer Reihe elementarer Filterkurven, die je auf einer betreffenden einzigartigen Gitterfrequenz θck positioniert werden mit einer Breite Δk, die einer örtlichen Leistungsspaktraldichte des gesamten Spektrums nähert. Dies ist eine extrem Geradeaus-Verfahren zum Modellieren der Leistungsspektrumdichte, wodurch u. a. ermöglicht wird, dass die genannten Gitterfrequenzen einen nicht einheitlichen Raum haben. Im Allgemeinen verbessert dies die verwendete Genauigkeit-zu-der Anzahl Gitterfrequenzen und folglich beschleunigt dies die Berechnung.
Die vorliegende Erfindung bezieht sich ebenfalls auf ein Codierungsgerät zum Verwirklichen der Codierung. Aus den abhängigen Patentansprüchen gehen weitere Merkmale hervor.

KURZE BESCHREIBUNG DER ZEICHNUNG

Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
Fig. 1 ein allgemeines Blockschaltbild einer Anordnung nach der vorliegenden Erfindung,
Fig. 2 einen subtraktiv gezitterten Quantisierer zur Verwendung als Basis für einen Codierer eines versteckten Kanals nach der vorliegenden Erfindung,
Fig. 3 eine von der Frequenz abhängige maskierte Schwelle durch ein als Beispiel geltendes Schallspektrum,
Fig. 4 ein Beispiel einer ersten Bildung eines versteckten Kanals,
Fig. 5 ein Beispiel einer zweiten Bildung eines versteckten Kanals,
Fig. 6 eine Darstellung eines vereinfachten CELP-Codierers ohne Teilungsprädiktion,
Fig. 7 einen Rauschformquantisierer,
Fig. 8 eine Elementarfilterkurve.

KURZE BESCHREIBUNG DER PRINZIPIEN

Die Technologie der versteckten Kanäle nutzt die Tatsache aus, dass ein Audio- oder Schallsignal oft durch eine Genauigkeit dargestellt wird, die durch die Länge der Abtastwertbitreihe ausgedrückt wird, die in Tennen der erfahrenen Audio- Qualität im Wesentlichen zu hoch ist. Deswegen kann die Informationsmenge dadurch reduziert werden, dass die Übertragungskapazität für einen zusätzlichen Informationsdienst frei gelassen wird. Die zusätzliche Information wird in den am wenigsten signi fikanten Teil des Hauptsignals eingefügt. Für einen herkömmlichen Empfänger ist diese Modifikation des Hauptsignals insofern nicht relevant, dass ein menschlicher Zuhörer die Differenz nicht spürt. Ein verbessertes Empfangssystem aber wird die zusätzliche Information finden und diese an einem separaten Ausgang erzeugen. Nach der vorliegenden Erfindung wird das Differenzspektrum formgefiltert zum Korrigieren eines empfangenen Signals in Richtung einer aktuellen Schwelle-zu-Frequenzcharakteristik. Dies ermöglicht die Erzeugung eines "Spektrumraums" bei derartigen Frequenzen, für die das menschliche Hörsystem relativ unempfindlich ist. Wenn die Differenz "weisses-Rauschen"-ähnlich ist, wird der Zuhörer sogar noch unempfindlicher sein für den hinzugefügten Kanal.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN

Fig. 1 zeigt ein gesamtes Blockschaltbild einer Anordnung nach der vorliegenden Erfindung. Der Block 20 ist eine Quelle digitalen Schalles, der als ein Strom von Abtastwerten codiert wird, die beispielsweise aus je 16 Bits bestehen kann, die bei etwa 44 kHz wiederkehren. Der Schall hat eine vordefinierte Bandbreite und kann einen beliebigen Inhalt haben, wie Musik, Sprache, oder etwas anderes. Der Block 22 bildet eine endliche Länge dieser Abtastwerte, so dass diese ein bestimmten Zeitintervall, sagen wird 1024 Abtastwerte = 0,02 Sekunden, dauern und bestimmen darin eine Hörbarkeitsschwelle-zu-Frequenzcharakteristik. Die Hörbarkeit kann auf Basis einer beschränkten Anzahl Charakteristiken des eintreffenden Audios bestimmt werden. Dies ist abhängig von der augenblicklichen Frequenz, von Maskierungseffekten in nur einem Frequenzband durch den Einfluss eines anderen Bandes, es ist abhängig von der allgemeinen oder örtlichen Lautstärke des Schalles und kann von Zuhörer zu Zuhörer variieren, wobei die letzte Variation aber im Allgemeinen übersprungen wird. Die Schwelle kann verschiedenartig aber auf an sich bekannte Art und Weise bestimmt werden. Weiterhin werden nach der Bestimmung der Schwelle die Abtastwerte durch Überspringen einer Anzahl von b weniger signifikanten Bits derselben quantisiert. Der Block 24 ist eine Quelle für versteckte Kanalbits. Die Art des versteckten Kanals kann beliebig sein, wie ein zusätzlicher Kommentar zu dem Hauptkanal, wie wiedergebbare Untertitel oder Text, ein zusätzlicher Tonkanal in einer Mehrkanal-Tonwiedergabe, gleicher oder betreffender anderer Qualitätspegel, Mehrsprachendienst, Karaoke oder sogar Video. Auch nicht relatierte Dienste sind empfangbar. Ein spezieller vorteilhafter Gebrauch aber ist den versteckten Kanal als MPEG-Audiokanal zu definieren. An sich hat sich diese Standard als nützlich erwiesen zum Liefern einer Audio-Übertragung hoher Qualität mit einer mäßigen Bitrate. Weiterhin kann der versteckte Kanal selber aus zwei oder mehr Unterkanälen bestehen, die funktionell nicht relatiert sind, obschon sie zusammen den versteckten Teil der erweiterten Abtastwerten bilden. In dem Block 26 sind die übersprungenen Abtastwertbits von der Quelle 20, oder von einem Teil davon, ausgehend von den niedrigeren signifikanten Pegeln, durch Bits von der Quelle 24 ersetzt. Weiterhin werden an in einem Abstand voneinander liegenden Stellen des Stromes erweiterter Abtastwerte Angaben in den versteckten Kanal eingefügt über wie groß danach die Anzahl übersprungener Bits Je Abtastwert ist oder sein wird und wenn akzeptabel, wann die nächste Angabe auftreten wird. Für einen effizienten Betrieb sollte der Anstand zwischen diesen Angaben auf einen optimalen Wert gesetzt werden. Wenn der Abstand zu klein ist, nimmt das "Overhead" zu. Wenn der Abstand zu groß ist, wird, gesehen von den einzelnen Abtastwerten, die Anzahl übersprungener Bits zu niedrig. Der Kanal 28, der übertragen, Speichern kann oder weitere Qualitäten hat, transportiert die erweiterten Abtastwerte zu dem Empfänger 30. Der Empfänger 30 kann auf Basis dieser empfangenen Angaben den Standardteil der Abtastwerte von den versteckten Kanalbits trennen. Der Standardteil der Abtastwerte wird zu dem Decoder 32 transportiert, der das Audio auf standardisierte Weise darstellt, wobei die substituierten Bits beibehalten werden, da sie sub-hörbaren Schall darstellen. Die versteckten Kanalbits werden zu einem zugeordneten Decoder (34) zugerührt, der zum einwandfreien Verarbeiten derselben programmiert ist. Ein anderer Aufsatz ist, dass der versteckte Kanaldecoder die ganzen Abtastwerte empfängt, wie diese an einem digitalen Ausgang eines Kanalempfängers und extrahiert die versteckte Kanalinformation daraus, während der Standardkanal übersprungen wird. Wenn andererseits ein normaler nicht erweiterter Empfänger für den Kanal vorgesehen ist, wird dieser die erweiterten Abtastwerte verarbeiten, als wären sie normale Abtastwerte. Dies endet ggf. in einem analogen Audioverstärker, der eine Art von Lautsprecher speist. Die versteckten Kanalbits, die im Allgemeinen zu den Hauptkanalbits nicht korreliert sind, stellen nun direkt eine Art von Rauschen dar, wobei dieser Rauschwert unterhalb der beabsichtigten Hörbarkeitsschwelle bleibt.
Fig. 2 zeigt einen subtraktiv gezitterten Quantisierer zur Verwendung als Basis für einen versteckten Kanalcodierer entsprechend dem Bezugsmaterial, wie verbessert mit bestimmten Merkmalen nach der vorliegenden Erfindung. An dem Ein gang 52 wird ein b-Bit Zittersignal v in einer nachher noch zu beschreibenden Weise eingegeben. Die Elemente 54, 58, 60, 62 sind digitale Addierer-Subtrahierer einer geeigneten Bitweite. Das Element 56 ist ein Quantisierer, der die Genauigkeit des exemplarischen 16-Bit empfangenen Signals x zu einer niedrigeren Anzahl von 16-b Bits durch Abrundung reduziert. Ein derartiges Merkmal ist in dem Artikel von S. P. Lipshitz u. a.: Quantization and Dither: A theoretical Survey" J. Audio Eng. Soc. Heft 40 Nr. 5, Seiten 355-375, Mai 1992 beschrieben worden. Die Verwendung eines b-Bit gezitterten Signals v, wenn der Mangel an Korrelation mit dem Hauptkanal ausreicht, gewährleistet, dass der Quantisierungsfehler e spektral weiß bleibt und statistisch unabhängig von dem Eingangssignal x, was aus perzeptiven Gründen bevorzugt wird. Das Zittersignal kann eine beliebige Version des versteckten Kanalsignals sein, ohne Hinzufügung oder Aufopferung von Information. Eine derartige Statistisierung kann umgekehrt werden ohne dass eine Neusynchronisierung erforderlich ist. Es wurde erkannt, dass der beliebige Charakter relativ zu dem Hauptkanal spezifiziert ist, sowie innerhalb des versteckten Kanal selbst. Wenn im Kontext des versteckten Kanals selbst das Signal gut strukturiert ist, kann es durch herkömmliche Mittel statistisiert werden. Dasselbe Zittersignal v wird in dem Element 54 hinzugefügt zum Bilden des kompatiblen Ausgangssignals y an dem Ausgang 66 zur Speicherung, Übertragung oder zur weiteren Verarbeitung. Der Block 64 ist ein Rauschformfilter und empfängt die Differenz zwischen dem kompatiblen Ausgangssignal y und dem Eingangssignal vor der Einrührung des Zittersignals v, wie dies von dem Subtrahierer 62 erzeugt wird. Das Ausgangssignal des Rauschformfilters 64 wird zu dem Subtrahierer 60 zurückgeführt, der seinerseits das ursprüngliche Audiosignal x empfängt. Es hat sich herausgestellt, dass die Lautstärke des Rauschens mit nur einem FIR-Filter 9. Ord nung um etwa 16 dB reduziert werden kann. Diese Annäherung wird den Rauschpegel eines 2-3 Bits je Abtastwert versteckten Kanalsignals einer vergleichbaren Lautstärke wie der inhärente Rauschpegel in dem CD-Signal machen. Die Filtercharakteristik H(Z) soll derart sein, dass y, definiert als:
Y = x + 1 - H(Z) ²·Δ²/12
gegenüber x um einen Betrag geändert werden sollte, der subjektiv inkonsequent ist für den Zuhörer, wobei Δ = 2b die elementare Schrittgröße ist. Nun ist die Übertragungsrate des versteckten Kanals abhängig von der Grobheit des Requantisierungsvorgangs. In dieser Hinsicht geben Seite 2, 1.40 Flip-Flop-Schaltung und Seite 13, fünfter Abschnitt des ersten Artikels von Gerzon u. a. an, dass die Requantisierung gröber gemacht werden kann, wenn der resultierende Fehler durch ein Haupt- Audiosignal hohen Pegels maskiert wird. Die Erfinder der vorliegenden Erfindung haben andererseits eine noch effektivere Art und Weise entdeckt, um die Übertragungsrate des versteckten Kanals zu vergrößern, und zwar durch Anwendung der von der Frequenz abhängigen Empfindlichkeit des menschlichen Hörsystems. Eine weitere Verfeinerung der Anordnung nach Fig. 2 ist der Puffer 50, der vorübergehend die Daten speichern kann, die von dem versteckten Kanal 68 geliefert werden. Wegen der nicht einheitlichen Rate des versteckten Kanals an dem Ausgang 66 kann der Puffer eine Art von Rückkopplungsorganisation haben, der den Füllgrad mehr oder weniger konstant halten kann. Wenn der Puffer zu leer wird, kann die ganze Kapazität des versteckten Kanals in Teilen übergeben werden. Wenn der Puffer zu voll wird, gibt es mehrere Strategien: eine davon ist das Herabsetzen der Zuführrate von der Quelle 68. Eine mehr drastische Strategie ist, wenn es mehr als nur einen versteckten Kanal gibt, dass Übergeben des am wenigstens wichtigen Unterkanals davon. Wenn der Unterkanal Bewegtvideo darstellt, könnte dies vorübergehend zu einer Sequenz von Standbildern reduziert werden. Mehrere Modifikationen der Anordnung nach Fig. 2 sind selbstverständlich: so können beispielsweise bestimmte Addieranordnungen zu Subtrahieranordnungen geändert werden. Dies würde die Hardware etwas ändern, und zwar wegen der erforderlichen Fortpflanzung von Übernahmen. Insbesondere bei bestimmten Abtastwertnotierungssystemen ist aber der Eindruck minimal.
In dieser Hinsicht zeigt Fig. 3 eine von der Frequenz abhängige Maskierungsschwelle durch ein erstes beispielhaftes Tonsystem. Fig. 4 zeigt eine erste beispielhafte versteckte Kanalformation auf Basis eines Null-Ton-Eingangs.
In Fig. 4 gibt für ein genormtes oder vorausgesetztes menschliches Hörsystem die Kurve 4 den Hörbarkeitspegel, basiert auf einzelnen Frequenzen. Aus rechnerischen Gründen ist die Kurve 4 simuliert (siehe die geraden teile derselben), aber sie folgt den natürlichen Phänomenen sehr nahe. Bei etwa 4000 Hz ist diese Schwelle am niedrigsten, während sie bei höheren oder niedrigeren Frequenzen viel höher ist. Nun gibt die Spur 1 den flachen CD-Rauschboden an, der als 10¹&sup0; log (1/12 · 22050) dB gegeben wird. Nun sind, obschon die Kurve 4 die Hörbarkeitsschwelle für einzelne Frequenzen angibt, für Rauschen die Hörbarkeitseffekte viel höher, und die Frequenzcharakteristik sollte viel niedriger liegen als die Kurve 4. Nun ist die Kurve 2 das Spektrum des flachen Rauschens der Kurve 1, geformt zum Erhalten nahezu derselben Frequenzabhängigkeit wie die Schwelle der Kurve 4. Es hat sich experimentell herausgestellt, dass weder die wenigen dB Abweichung von der genauen Annäherung, noch die merkbar flachere Form über etwa 15 kHz einen negativen Einfluss auf die Gesamtleistung haben. Die Kurve 3 entspricht der Kurve 2 aber relativ nach oben verschoben, und zwar über einen Abstand von b*6 dB, wobei in Fig. 4b = 2 ist. Dies bedeutet einen versteckten Kanal von zwei (2) Bits breit je Abtastwert. Es hat sich herausgestellt, dass der Abstand zwischen den Kurven 3 und 4 die hinzugefügte Information unberührt lässt. Der minimale Abstand zwischen den Kurven 1 und 4 ist 10¹&sup0; log (660), was der kritischen Bandbreite um 4 kHz herum entspricht. Der Entwurf ist vorzugsweise mit Hilfe einer zusätzlichen Kurve gemacht worden, welche die integrierte Leistung des Spektrums der Kurve 3 angibt, und welche die Kurve 4 nicht berühren darf; der Einfachheit halber ist diese zusätzliche Kurve nicht dargestellt.
Fig. 3 zeigt den Einfluss eines aktuellen Tonspektrums auf die Form der Hörbarkeitsschwelle. Nun ist die Kurve A das aktuelle Tonspektrum. Die Kurve B zeigt wieder die Hörbarkeitsschwelle für einzelne Töne. Es ist deutlich zu sehen, dass der talförmige Charakter der Kurve 4 in Fig. 4 verschwunden ist.
Fig. 5 zeigt eine zweite beispielhafte versteckte Kanalbildung. Dabei sorgt das simulierte Audiospektrum, das aber eine andere Form als die Kurve A in Fig. 3 haben kann, dafür, dass die maskierte Audioschwelle auf einem angenäherten Pegel von 40 dB liegt mit einer untiefen Senke von etwa 10 dB bei 13 kHz. Der Deutlichkeit halber ist das Spektrum des Audios selber nicht dargestellt. Wie aus Fig. 3 deutlich hervorgeht, kann jede einzelne Spektrumspitze die maskierte Schwelle über eine Frequenzbreite in der Größenordnung der kritischen Frequenz gesteigert werden, was im Allgemeinen für das glatte Aussehen der Schwellenkurve sorgt. Auch hier ist der Einfluss des Hochfrequenzbereichs über 16 kHz ignoriert. Nun ist die Kurve 1 dieselbe wie in Fig. 4. Die Kurve 2 ist wieder das Spektrum des flachen Rauschens, geformt zum Erhalten nahezu desselben Aussehen wie die maskierte Schwelle der Kurve 4; in diesem Fall ist die gesamte Form der Kurve 2 viel flacher als in der vorhergehenden Figur. Die Kurve 3 entspricht der Kurve 2, aber über einen Abstand von b*6 dB relativ aufwärts geschoben, wobei in Fig. 5 b = 6 ist. Dies bedeutet einen versteckten Kanal von sechs Bits breit je Abtastwert. Es hat sich herausgestellt, dass für höhere Tonenergie die Breite des versteckten Kanals zunehmen kann. Weiterhin hat es sich herausgestellt, dass die Form des Tonspektrums in vielen Fällen sehr wichtig ist. Mit der Form der Kurve 2 in Fig. 4, angewandt in Fig. 5, würde die Verbesserung viel weniger gewesen sein in der letzteren Figur. Die Annäherung der vorhergehenden Figuren basiert auf dem vollen Frequenzspektrum. Bei bestimmten Audiosystemen ist das Spektrum in Teilbänder aufgeteilt, wobei die betreffenden Teilbänder weitgehend unabhängige Audiosignale trägt. In einer solchen Situation kann das Verfahren und die Anordnung nach der vorliegenden Erfindung für jedes Teilband oder jede Teilbandkombination einzeln angewandt werden. Zum Preis einer etwas höheren Komplexität würde dies die Übertragungsdatenrate des versteckten Kanals weiter steigern.

BERECHNUNG VON RAUSCHGEWICHTUNGSFILTERN UND RAUSCHFORMFILTERN AUS MASKIERTEN ZIELPEGELN

Nachstehend wird eine bevorzugte Ausführungsform zur Berechnung einer zusammengesetzten Filterkurve für das Filter 64 in Fig. 2 beschrieben. Eine re levante Veröffentlichung auf diesem Gebiet ist von E. Ordentlich und Y. Shoham, "Low-delay code-excited linear-predictive coding of wideband speech Aufzeichnungsträger 32 kbps", "Proc. ICASSP-91", Seiten 9-12, Torronto, 1991. An sich ist die präsentierte Technik geeignet für mehrere Applikationen in verschiedenen Bereichen, wie MPE, RPE, und CELP. Darin wird auf Basis des Kriteriums eines gewichteten statistischen Gesamtfehlers eine Anregungssequenz (MPE, RPE) oder ein Anregungsvektor (CELP = codebook excited linear prediction) selektiert.
In einem derartigen Codierer werden kurze Ausgangsequenzen aus einer Anzahl Anregungssequenzen oder -vektoren erzeugt. Die erzeugten Ausgangssequenzen werden mit den ursprünglichen Eingangssequenzen verglichen. Das Kriterium zum Vergleichen ist der gewichtete statistische Gesamtfehler. Dies bedeutet, dass die Differenz zwischen dem Eingang und dem erzeugten Ausgang durch ein Rauschgewichtungsfilter hindurchgeführt wird. Die Leistung der gefilterten Differenzsequenz wird danach geschätzt. Diese Leistung wird als der gewichtete statistische Gesamtfehler bezeichnet. Die Anregungssequenz, die den minimalen gewichteten statistischen Gesamtfehler ergibt, wird selektiert.
Fig. 6 zeigt, wie ein Gewichtungsfilter in einem CELP-Codierer benutzt wird. Aus dem eintreffenden Sprachsignal x[i] berechnet der Kasten LPC Analyse die Prädiktionskoeffizienten a&sub1;, ... ap, die Koeffizienten für das Gewichtungsfilter und einen Verstärkungsfaktor. Das Codebuch enthält eine Anzahl Anregungsvektoren. Die Vektorlänge ist N. Während der Selektion werden alle Vekloren mit dem Verstärkungsfaktor multipliziert und durch ein Analysenfilter hindurchgeführt. Dies führt zu einer Sequenz von N Abtastwerten, bezeichnet durch [i]. Eine Fehlersequenz wird durch Subtrahierung von N Eingangsabtastwerten x[i] von N Abtastwerten [i]. Die Fehlersequenz wird durch das Gewichtungsfilter hindurchgeführt. Der gewichtete statistische Gesamtfehler, der die kurzfristige Leistung der gewichteten Fehlersequenz ist, wird berechnet. Der Selektionskasten selektiert den Codevektor, der zu dem niedrigsten gewichteten statistischen Gesamtfehler führt. Der Verstärkungsfaktor, die Prädiktionskoeffizienten und der Index der Vektoren werden dem Decoder zugeführt.
In diesem Zusammenhang wird ein Anregungsvektor als eine Anregungssequenz betrachtet, wozu nur der Ausdruck Anregungssequenz geprägt wird.
Die üblicherweise benutzten Gewichtungsfilter basieren auf den Prädiktionskoeffizienten (LPC-Koeffizienten) a&sub1;, ..., ap des Sprachsignals. Eine etwaige Form dieses Filters ist
Die Koeffizienten p&sub1; und p&sub2; werden dadurch gefunden, dass eine LPC-Analyse auf die ersten drei Autokorrelationsschenkel der Sequenz angewandt wird. Die Koeffizienten δ, γ&sub1; und γ&sub2; steuern den Betrag der Gewichtung an der Stelle der Formanten. Sie werden derart abgestimmt, dass eine gute perzeptuelle Leistung erhalten wird. Vorteilhafte Werte sind:
δ = 0,7, γ&sub1; = 0,95, γ&sub2; = 0,8.
Andere ähnliche Formen sind ebenfalls nützlich. Für ein gut gewähltes Codebuch ist die leistungsspektrale Dichtefunktion des Codierungsfehlers proportional zu

RAUSCHFORMER

Die Funktion eines Rauschformers ist Quantisierungsrauschen eine spektrale Form zu geben. Fig. 7 zeigt das Basisdiagramm eines Rauschformers. Es kann dargelegt werden, dass nach Decodierung die leistungsspektrale Dichtefunktion des Quantisierungsrauschens gegeben wird durch:
Wobei Δ wieder die Quantisierungsschrittgröße ist. Ein allgemein übliches Filter F(z) bei der linearen Codierung von Sprache ist
mit γ < 1. In diesem Fall wird die leistungsspektrale Dichtefunktion des Quantisierungsrauschens gegeben durch:
Der Zweck eines Gewichtungsfilters und eines Rauschformers ist die spektrale Formung des Codierungsfehlers derart, dass Verzerrung perzeptuell am wenigsten störend ist. Bei der Codierung von Musik schätzen mehrere Verfahren den Maskierungspegel des Quantisierungsrauschens in den Frequenzbändern. Dieser Pegel wird als maskierender Zielpegel bezeichnet. Das Ziel dieser Verfahren ist auch eine Verzerrung zu erhalten, die perzeptuell am wenigstens stört. Sie haben aber eine bessere psychoakustische Grundlage als das Gewichtungsfilter von (1) oder der Rauschformen von (4) und wird deswegen zu einer besseren Annäherung der leistungsspektralen Dichtefunktion maskierten Rauschens fuhren.
Untenstehendes kombiniert die Gewichtungsfiltertechnik oder die Rauschformungstechnik mkt der Berechnung des maskierten Zielpegels. Die Gewichtungsfilter oder Rauschformer, die auf diese Art und Weise erhalten werden, sind besser als die bekannten, weil deren Übertragungsfunktionen der spektralen Form des maskierten Rauschens besser entsprechen.

ZIELPEGEL UND FREQUENZBÄNDER

Es wird vorausgesetzt, dass ein Satz von Zielpegeln t&sub1;, ..., tm im Voraus berechnet wird, beispielsweise durch Messungen, die anhand der Fig. 3, 4, 5 beschrie ben worden sind. Die Zielpegel stellen Rauschleistungen in den Frequenzbändern bei einer Maskierungsschwelle dar. Diese Frequenzbänder müssen aneinander anschließend sein und müssen den Bereich von Null bis die Hälfte der Abtastfrequenz bedecken. Normalisierte Frequenzen θ werden benutzt, deswegen ist
-π ≤ θ ≤ π.
Die entsprechende normalisierte Audio-Frequenz f folgt aus den nachfolgenden Gleichung:
Wobei fs die Abtastrate ist.
In dem Nachfolgenden können die Bandbreiten beliebig gewählt werden. In der Praxis werden kritische Bänder oder in gleichen Abständen voneinander liegende Bänder verwendet. Die untere Frequenz, die obere Frequenz und die mittlere Frequenz des Frequenzbandes, das dem maskierten Zielpegel tk entspricht, werden wie folgt bezeichnet: θ ,θ bzw. θ .

REKONSTRUKTION DER LEISTUNGSSPEKTRALEN DICHTE

Eine geschmeidige leistungsspektrale Dichtefunktion (psd): S(exp(jθ)) kann dadurch von den maskierten Zielpegeln hergeleitet werden, dass mit dem k. Frequenzband eine psd-Rekonstruktionsfunktion Sk(θ) assoziiert wird. Die psd folgt dann aus der nachfolgenden Gleichung:
Es gibt einige Beschränkungen für die psd-Rekonstruktionsfunktionen. An erster Stelle muss die psd nicht negativ sein. Dies bedeutet, dass
Sk(θ) ≥ 0,k = 1 ..., m (7)
An zweiter Stelle, falls Leistungssparung, d. h.
erforderlich ist, dann gilt:
Eine schrittweise Annäherung der psd wird dadurch erhalten, dass psd- Rekonstruktionsfunktionen gewählt werden
wobei Δk = θ - θ . Schrittweise Annäherungen rühren nicht zu einer geschmeidigen psd. Dazu ist eine gesteigerte Kosinus psd-Rekonstruktionsfunktion besser geeignet. Dies wird gegeben durch
Fig. 8 zeigt eine derartige elementare Filterkurve. Auch die gesteigerte Kosinus psd Rekonstruktionsfunktion hat ihre Beschränkungen. Sie kann beispielsweise nicht eine flache psd rekonstruieren, wenn die Frequenzbänder nicht in gleichen Abständen voneinander liegen. Dies kann dadurch verbessert werden, dass verschiedene obere und untere Neigungen verwendet werden. Die Wahl einer psd-Rekonstruktionsfünktion wird bestimmt durch das gewünschte spektrale Verhalten des maskierten Rauschens.

ANNÄHERUNG DER LEISTUNGSSPEKTRALEN DICHTE

Die rekonstruierte psd S(exp(jθ)) wird durch ein Alle-Pole-Spektrum angenähert
wobei q die Größenordnung des Alle-Pole-Spektrums ist. Dies fuhrt zu einem Gewichtungsfilter mit einer Übertragungsfunktion
Das Gewichtungsfilter ist ein FIR-Filter, dies im Gegensatz zu dem Filter aus (1). In dem Nachfolgenden werden b&sub1;, ..., bq aus t&sub1;, ..., tm dadurch berechnet, dass die nachfolgende Gleichung minimiert wird:
als eine Funktion von b&sub1;, ..., bq. In (14) folgt S(exp(jθ)) aus (6). Zusammenfassend lässt sich sagen: es ist erforderlich dem Spektrum S(θ) anzunähern, wobei θ eine normalisierte Frequenz ist. Nun ist die Funktion B die inverse Funktion von F(eq.23) und Q ist eine Konstante. Nun führt die Berechnung von Abgeleiteten:
und die Tatsache, dass diese gleich Null gemacht werden, zu dem nachfolgenden Satz von Gleichungen:
Oder,
Definieren
und
Die gk,n kann im Voraus aus den psd-Rekonstruktionsfunktionen berechnet und in einer m · q Matrix gespeichert werden. Bei Substitution dieser Ergebnisse in (16) erhält man den nachfolgenden Satz von Gleichungen
Dies ist ein symmetrisches, positiv-endgültiges Toeplitz-System, das den Yle-Walker- Gleichungen, bekannt aus der linearen prädiktiven Codierung, entspricht. Definiere die q · q Matrix R durch
ri,j = pi-j, i,j = 1, ..., q
Und den q-Vektor r durch
ri = pi, i = 1, ..., q.
Dies führt zu
Rb = -r, (20)
wobei der q-Vektor b die Koeffizienten b&sub1;, ..., bq enthält. Der Satz (19) oder (20) wird auf einfache Weise durch den bekannten Levinson-Durbin-Algorithmus gelöst.
BEISPIELE VON gk,n
Für die schrittweise Annäherung von S(exp(jθ)) werden die gk,n gegeben durch:
Für die gesteigerte Kosinusannäherung von S(exp(jθ)) werden die kk,n gegeben durch:
Die Koeffizienten b&sub1;, ..., bq können unmittelbar in einem Gewichtungsfilter W(z) angewandt werden, wie in Fig. 7 angegeben, wobei W(z) = B(z) ist, mit B(z) definiert in (13). Im Falle eines Rauschformers folgt F(z) aus:
so dass

Claims

1. Verfahren zum Codieren einer Schalldarstellung, empfangen als ein Strom von Eingangsabtastwerten (20) mit mehreren Bits, gekennzeichnet durch die nachfolgenden Verfahrensschritte:

- das Bilden einer Sequenz endlicher Länge der genannten Abtastwerte und das Bestimmen einer instantanen Schwelle-zu-Frequenzcharakteristik (22) einer nicht einheitlichen Hörbarkeit in der genannten Sequenz;

- das Subtrahieren eines geformten Rauschsignals aus den genannten Eingangsabtastwerten zum Erzeugen von Verarbeitungsabtastwerten;

- das dynamische Überspringen der Verarbeitung von Abtastbits, unterhalb eines mit der genannten Charakteristik assoziierten Bitpegels, durch Subtraktion eines Zittersignals (v) und einer nachfolgenden Quantisierung (56) durch eine variable Anzahl von b Bits unterhalb des genannten Bitpegels, aber das Aufrechterhalten wenigstens aller Verarbeitungsabtastwertbits über dem genannten Bitpegel;

- das Ersetzen derartiger übersprungener Verarbeitungsabtastwertbits durch das genannte Zittersignal als versteckte Kanalbits (24), die eine einstellbare Anzahl von b Bits je genannter Verarbeitungsabtastwert (26) bilden;

- das Ausliefern erweiterter Abtastwerte (y) mit nicht übersprungenen Verarbeitungsabtastwertbits und versteckter Kanalbits (24);

- während der Erzeugung des genannten Rauschsignals durch Fromfilterung durch ein Rauschformfilter (64) bei einer zitterbestimmten Differenz zwischen den genannten erweiterten Abtastwerten und den genannten Verarbeitungsabtastwerten, wobei die genannte Formfilterung ein empfangenes Differenzsignal (e) in Richtung der genannten instantanen Schwelle-zu-Frequenzcharakteristik korrigiert.

2. Verfahren nach Anspruch 1, wobei das genannte Rauschformfilter (64) ein Differenzsignal (e) empfängt, das einer Weißes-Rauschen-artigen Charakteristik nähert.

3. Verfahren nach Anspruch 1 oder 2, wobei das genannte Erzeugen durch ein Rauschformfilter (64) mit einer variablen Charakteristik erfolgt.

4. Verfahren nach Anspruch 1, 2 oder 3, wobei ein musikalischer Übergang in einem bestimmten Zeitintervall delektiert wird, und wobei während einer derartigen Detektion der Wert von b in diesem Intervall auf einen Wert gesetzt wird, der wenigstens aus einem benachbarten Zeitintervall ohne diesen musikalischen Übergang mit bestimmt wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei vorübergehend Daten (50) gepuffert werden, die als versteckte Kanaldaten verwendet werden sollen bevor die genannte Neuplatzierung in einen Puffer stattfindet und durch eine in der Zeit variierende Ratensteuerung eine zeitartige Gleichsetzung eines Füllgrades des genannten Puffers durchgerührt wird.

6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die genannten versteckten Kanaldaten als ein MPEG-Audio-Kanal empfangen werden.

7. Verfahren nach einem der Ansprüche 1 bis 6, wobei die genannte Formfilterung (64) mit einem Filter durchgeführt wird, das eine Gesamtfilterkurve hat, zusammengesetzt aus einer Reihe elementarer Filterkurven, die je auf einer betreffenden einzigartigen Gitterfrequenz 0 positioniert sind und eine Breite 0 haben, einer örtlichen leistungsspektralen Dichte des Gesamtspektrums annähernd.

8. Verfahren nach Anspruch 7, wobei die genannten Gitterfrequenzen einen nicht einheitlichen Zwischenraum haben.

9. Verfahren nach einem der Ansprüche 1 bis 8 und einzeln angewandt auf betreffende Frequenz-Teilbänder, die in einem Frequenzspektrum der genannten Schalldarstellung koexistieren.

10. Codierungsanordnung mit Mitteln (22, 56, 26, 64, 50), angepasst zum Durchführen der Schritte des Codierungsverfahrens nach einem der Ansprüche 1 bis 9.

11. Signal mit erweiterten Audio-Abtastwerten (y) mit Hauptkanalbits, die nicht übersprungene Verarbeitungsabtastwertbits darstellen, und mit versteckten Kanalbits (24), die Hilfsdaten darstellen, wobei die Anzahl versteckter Kanalbits je Abtastwert von eine Hörbarkeitsschwelle-zu-Frequenzcharakteristik der Hauptkanalbits abhängig ist.

12. Signal nach Anspruch 11, wobei die versteckten Kanalbits (24) Angaben aufweisen, welche die Anzahl versteckter Kanalbits je Abtastwert angeben.

13 Signal nach Anspruch 12, wobei die versteckten Kanalbits (24) weiterhin Angaben enthalten, welche die Position einer nächsten Angabe in den versteckten Kanalbits angeben.

14. Signal nach einem der Ansprüche 11 bis 13, wenn das Signal in einem speziellen Zeitintervall einen musikalischen Übergang aufweist, wobei die Anzahl versteckter Kanalbits je Abtastwert wenigstens aus einem benachbarten Zeitintervall ohne diesen musikalischen Übergang mitbestimmt wird.

15. Signal nach einem der Ansprüche 11 bis 14, wobei die Hilfsdaten ein MPEG-Audiosignal sind.