DE69123500T2

DE69123500T2 - 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal

Info

Publication number: DE69123500T2
Application number: DE69123500T
Authority: DE
Inventors: Erik Ordentlich; Yair Shoham
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1990-06-29
Filing date: 1991-06-20
Publication date: 1997-04-17
Anticipated expiration: 2011-06-21
Also published as: DE69123500D1; DE69132885D1; JP3234609B2; EP0465057A1; JPH04233600A; EP0732686A3; US5235669A; EP0465057B1; EP0732686A2; EP0732686B1; DE69132885T2

Description

Erfindungsgebiet

Die vorliegende Erfindung betrifft Verfahren und Einrichtungen zur wirkungsvollen Codierung und Decodierung von Signalen einschließlich von Sprachsignalen. Insbesondere betrifft die vorliegende Erfindung Verfahren und Einrichtungen zur Codierung und Decodierung von klanggetreuen Sprachsignalen. Weiterhin betrifft die vorliegende Erfindung insbesondere digitale Kommunikationssysteme einschließlich derer, die ISDN-Dienste anbieten, bei denen diese Codierer und Decodierer zum Einsatz kommen.

Stand der Technik

In jüngsten Jahren sind viele Verbesserungen bei der Codierung und Decodierung für digitale Kommunikationssysteme erschienen. Unter Verwendung von Verfahren wie beispielsweise der linearen Prädiktionscodierung sind bedeutende Verbesserungen der Qualität wiedergegebener Signale mit verringerten Bitraten erreicht worden.
Ein Bereich dieser Verbesserungen trägt die Bezeichnung lineare Prädiktionscodierer mit Codeanregung (CELP - code excited linear predictive coders) und ist beispielsweise beschrieben von B. S. Atal und M. R. Schroeder, "Stochastic Coding of Speech Signals at Very Low Bit Rates" (Stochastische Codierung von Sprachsignalen mit sehr niedrigen Bitraten), Proc. IEEE Int. Conf. Comm., Mai 1984, Seite 48.1; M . R. Schroeder und B. S. Atal, "Code-Excited Linear Predictive (CELP): High Quality Speech at Very Low Bit Rates" (Lineare Prädiktionscodierung mit Codeanregung (CELP): klanggetreue Sprache mit sehr niedrigen Bitraten), Proc. IEEE Int. Conf. ASSP., 1985, Seiten 937-940; P. Kroon und E. F. Deprettere "A Class of Analysis-by-Synthesis Predictive Coders for High-Quality Speech Coding at Rate Between 4.8 and 16 kB/s" (Eine Klasse von Prädiktions codierern mit Analyse durch Synthese für klanggetreue Sprachcodierung mit Raten zwischen 4,8 und 16 kB/s), IEEE J. on Sel. Area in Comm SAC-6(2), Februar 1988, Seiten 353-363, und dem oben angeführten US-Patent 4 827 517. Diese Verfahren haben beispielsweise in Fernsprechkanälen mit Sprachbandbreite einschließlich von Mobilfunkkanälen Anwendung gefunden.
Die Aussicht auf klanggetreue Mehrkanal-/Mehrbenutzer-Sprachkommunikation über das entstehende ISDN hat das Interesse an fortgeschrittenen Codieralgorithmen für Breitbandsprache gesteigert. Im Gegensatz zum standardmäßigen Fernsprechband von 200 bis 3400 Hz ist der Breitbandsprache das Band von 50 bis 7000 Hz zugewiesen und wird für die digitale Weiterverarbeitung mit einer Rate von 16000 Hz abgetastet. Die zusätzlichen niedrigen Frequenzen erhöhen die Natürlichkeit der Sprache und verstärken das Gefühl der Nähe, während die zusätzlichen hohen- Frequenzen die Sprache klarer und verständlicher klingen lassen. Die Gesamtqualität von Breitbandsprache nach der obigen Definition genügt für eine andauernde Sprachkommunikation mit Kommentargüte so wie sie beispielsweise bei der Mehrbenutzer-Audio/Videokonferenz erforderlich ist. Breitbandsprache ist jedoch schwieriger zu codieren, da die Daten auf hohen Frequenzen sehr unstrukturiert sind und die spektrale Dynamik sehr hoch ist. In manchen Netzanwendungen besteht auch ein Erfordernis einer kurzen Codierverzögerung, die die Größe des Verarbeitungsrahmens begrenzt und die Wirksamkeit des Codieralgorithmus verringert. Damit wird der Schwierigkeit dieses Codierproblems eine weitere Dimension hinzugefügt.

Zusammenfassung der Erfindung

Wenn die gutbekannten CELP-Codierer und -Decodierer auf die Kommunikation von Breitband-Sprachinformationen (z.B im Frequenzbereich 50 bis 7000 Hz) angewandt werden, werden viele ihrer Vorteile nicht vollständig realisiert. Die vorliegende Erfindung versucht in typischen Ausführungsformen, bestehende CELP-Verfahren so anzupassen, daß sie sich auf die Kommunikation solcher Breitband-Sprach- und anderer derartiger Signale erstrecken.
Insbesondere bieten die beispielhaften Ausführungsformen der vorliegenden Erfindung die geänderte Gewichtung von Eingangssignalen zur Verstärkung der relativen Höhe der Signalenergie im Verhältnis zur Geräuschenergie als Funktion der Frequenz. Zusätzlich wird die spektrale Gesamtschräge der Gewichtungsfilterkennlinie vorteilhafterweise von der Bestimmung des Verlaufs bei bestimmten Frequenzen, die z.B. Formanten entsprechen, abgekuppelt.
Während CELP-Codierer des Standes der Technik ein Gewichtungsfilter benutzen, das hauptsächlich auf dem Formanteninhalt basiert, erweist es sich daher entsprechend einer Lehre der vorliegenden Erfindung als vorteilhaft, eine Kaskade eines Gewichtungsfilters des Standes der Technik und eines zusätzlichen Filtergliedes zur Steuerung der spektralen Schräge des zusammengesetzten Gewichtungsfilters zu benutzen.

Kurze Beschreibung der Zeichnung

Figur 1 zeigt ein digitales Kommunikationssystem mit der vorliegenden Erfindung.
Figur 2 zeigt eine Modifikation des Systems nach Figur 1 entsprechend der Ausführungsform der vorliegenden Erfindung.
Figur 3 zeigt einen geänderten Frequenzgang, der sich aus der Anwendung einer typischen Ausführungsform der vorliegenden Erfindung ergibt.

Ausführliche Beschreibung

In Figur 1 ist die Grundstruktur herkömmlicher CELP (beispielsweise nach der Beschreibung in den oben angeführten Schriften) dargestellt.
Gezeigt ist der Senderteil oben in der Figur, der Empfängerteil unten und die verschiedenen Parameter (j, g, M, β und A), die über einen Kommunikationskanal 50 übertragen werden. CELP beruht auf dem klassischen Anregungsfiltermodell, bei dem ein aus einer Anregungscodetabelle 10 entzogenes Anregungssignal als Eingabe in ein Allpolfilter benutzt wird, das gewöhnlich eine Kaskade eines LPC-abgeleiteten Filters 1/A(z) (20 in der Figur 1) und eines sogenannten Tonhöhenfilters 1/B(z) 30 ist. Das LPC-Polynom ist durch A(z) =
gegeben und wird durch eine standardmäßige LPC Analyse Mter Ordnung des Sprachsignais erhalten. Das Tonhöhenfilter wird durch das Polynom B(z) =
bestimmt, wobei P die aktuelle "Tonhöhen-"Nacheilung ist - ein Wert, der am besten die aktuelle Periodizität der Eingabe darstellt, und bj die aktuellen Tonhöhenanzapfungen sind. Die Ordnung des Tonhöhenfilters ist am häufigsten q = 1 und ist selten höher als 3. Die beiden Polynome A(z), B(z) sind monomorph.
Der CELP-Algorithmus implementiert ein Suchverfahren mit geschlossener Schleife (Analyse durch Synthese) zum Finden der besten Anregung und möglicherweise der besten Tonhöhenparameter. In der Anregungssuchschleife wird jeder der Anregungsvektoren durch das LPC- und das Tonhöhenfilter durchgeführt, in einer Bemühung, die beste Paarigkeit (nach Bestimmung durch Vergleicher und Minimierschaltung 41) mit der Ausgabe zu finden, gewöhnlich im Sinne eines gewichteten mittleren Fehlerquadrats (WMSE - weighted mean-squared error). Nach der Figur 1 wird die WMSE-Anpassung durch Verwendung eines Rauschgewichtungsfilters W(z) 35 erreicht. Die Eingangssprache s(n) wird erst von W(z) vorgefiltert und das sich ergebende Signal x(n) (X(z) = S(z) W(z)) dient als Bezugssignal in der Suche in geschlossener Schleife. Die quantisierte Version von x(n), die durch y(n) bezeichnet wird, ist eine gefilterte Anregung, die x(n) in einem MSE-Sinn am nächsten ist. Das in der Suchschleife benutzte Filter ist das gewichtete Synthesefilter H(z) = W(z)/[B(z) A(z)]. Man beachte jedoch, daß das quantisierte Endsignal am Ausgang des ungewichteten Synthesefilters 1/ erhalten wird, was bedeutet, daß W(z) vom Empfänger nicht zur Synthetisierung der Ausgabe benutzt wird. Im wesentlichen (aber nicht streng genommen) minimiert diese Schleife den WMSE zwischen der Eingabe und der Ausgabe, nämlich den MSE des Signals (S(z) - (z)) W(z).
Das Filter W(z) ist zum Erreichen einer hohen perzeptorischen Güte in CELP-Systemen von Bedeutung und spielt eine zentrale Rolle in dem hier dargestellten CELP-basierenden Breitbandcodierer, wie noch erläutert wird.
Die Suche in geschlossener Schleife nach den besten Tonhöhenparametern findet gewöhnlich durch Durchgabe von Segmenten vergangener Anregung durch das gewichtete Filter und Optimierung von B(z) auf minimalen WMSE in Bezug auf das Zielsignal X(z) statt. Der Suchalgorithmus wird noch ausführlicher beschrieben.
Nach der Figur 1 sind die Codetabelleneinträge durch einen an die Skalierschaltung 15 angelegten Verstärkungsfaktor g skaliert. Diese Verstärkung kann entweder explizit optimiert und übertragen werden (Vorwärtsmodus) oder kann von vorher quantisierten Daten erhalten werden (Rückwärtsmodus). Eine Kombination der Vorwärts- und Rückwärtsmoden wird ebenfalls manchmal benutzt (man sehe z.B. den Vorschlag von AT&T für den CCITT-Standard für 16 kB/s-Sprachcodierung COM N Nr. 2., STUDY GROUP N, "Description of 16 kB/s Low-Delay Code-excited Linear Predictive Coding (LD-CELP) Algorithm" (Beschreibung des 16-kB/s-Algorithmus für lineare Prädiktionscodierung mit Codeanregung und niedriger Laufzeit), März 1989).
Im allgemeinen codiert und überträgt der CELP-Sender die folgenden fünf Instanzen: den Anregungsvektor (j), die Anregungsverstärkung (g), die Tonhöhennacheilung (p), die Tonhöhenanzapfung(en) (β) und die LPC-Parameter (A). Die Gesamt-Übertragungsbitrate wird durch die Summe aller zur Codierung dieser Instanzen erforderlichen Bit bestimmt. Die übertragenen Informationen werden auf gutbekannte Weise am Empfänger zur Wiedergewinnung der ursprünglichen Eingangsinformationen benutzt.
Der CELP ist ein vorwärtsschauender Codierer und muß in seinem Speicher einen Block uzukünftigern Abtastwerte aufweisen, um den aktuellen Abtastwert zu verarbeiten, wodurch natürlich eine Codierverzögerung erzeugt wird. Die Größe dieses Blocks ist von der spezifischen Struktur des Codierers abhängig. Im allgemeinen benötigen unterschiedliche Teile des Codieralgorithmus gegebenenfalls zukünftige Blöcke unterschiedlicher Größe. Der kleinste Block von Abtastwerten der unmittelbaren Zukunft wird gewöhnlich durch den Codetabellensuchalgorithmus benötigt und gleicht der Codevektorabmessung. Die Tonhöhenschleife benötigt u.U. eine längere Blockgröße je nach der Aktualisierungsrate der Tonhöhenparameter. Bei einem herkömmlichen CELP wird die längste Blocklänge durch den LPC-Analysator bestimmt, der gewöhnlich ca. 20 msec an zukünftigen Daten benötigt. Die sich ergebende lange Codierverzögerung der herkömmlichen CELP ist daher in manchen Anwendungen unannehmbar. Dadurch wurde die Entwicklung des CELP-Algorithmus mit kurzer Verzögerung (LD-CELP - Low-Delay CELP) motiviert (siehe auch den oben angeführten Vorschlag von AT&T für den 16-kB/s-Sprachcodierstandard des CCITT).
Die CELP mit kurzer Verzögerung leitet ihren Namen aus der Tatsache ab, daß sie die kürzestmögliche Blocklänge - die Vektorabmessung - benutzt. Anders gesagt dürfen die Tonhöhen- und LPC-Analysatoren keine Daten jenseits dieser Grenze benutzen. So entspricht die Grund- Codierverzögerungseinheit der Vektorgröße mit nur wenigen Abtastwerten (zwischen 5 bis 10 Abtastwerten). Der LPC- Analysator braucht typischerweise einen viel längeren Datenblock als die Vektorabmessung. Bei LD-CELP kann daher die LPC-Analyse an einem hinreichend langen Block der jüngsten vergangenen Daten zuzüglich (möglicherweise) der verfügbaren neuen Daten durchgeführt werden. Man beachte jedoch, daß eine codierte Version der vergangenen Daten sowohl am Empfänger als auch am Sender verfügbar ist. Das legt einen äußerst wirksamen Codiermodus nahe, der rückwärts adaptive Codierung genannt wird. In dieser Betriebsart kopiert der Empfänger die LPC-Analyse des Senders unter Verwendung derselben quantisierten vergangenen Daten und erzeugt die LPC-Parameter lokal. Es werden keine LPC-Informationen übertragen und die eingesparten Bit werden der Anregung zugewiesen. Das wiederum trägt dazu bei, die Codierverzögerung weiter zu verringern, da das Vorhandensein von mehr Bit für die Anregung die Verwendung kürzerer Eingangsblöcke erlaubt. Dieser Codiermodus ist jedoch für den Pegel des Quantisierungsrauschens empfindlich. Rauschen mit hohem Pegel beeinträchtigt die Güte der LPC-Analyse und mindert den Codier-Wirkungsgrad. Das Verfahren ist daher nicht auf Codierer mit niedriger Rate anwendbar. Es ist erfolgreich in 16-kB/s-LD-CELP-Systemen angewandt worden (siehe oben angeführten Vorschlag von AT&T für den 16-kB/s-Sprachcodierstandard des CCITT), aber nicht so erfolgreich bei niedrigeren Raten.
Wenn die Rückwärts-LPC-Analyse aufgrund übermäßigen Rauschens unwirksam wird, kann innerhalb der Struktur von LD-CELP eine Vorwärts-LPC-Analyse eingesetzt werden. In dieser Betriebsart wird die LPC-Analyse an einem sauberen vergangenen Signal durchgeführt und dem Empfänger LPC-Informationen zugesandt. Vorwärts- und kombinierte Vorwärts-Rückwärts-LD-CELP-Systeme werden gegenwärtig untersucht.
Die Tonhöhenanalyse kann auch in einem Rückwärtsmodus unter Verwendung von nur vergangenen quantisierten Daten durchgeführt werden. Es hat sich jedoch herausgestellt, daß diese Analyse äußerst empfindlich für Kanalfehler ist, die nur am Empfänger erscheinen und eine Fehlanpassung zwischen Sender und Empfänger verursachen. So wird bei LD-CELP das Tonhöhenfilter B(z) entweder vollständig vermieden oder wird in einem kombinierten Rückwärts-Vorwärtsmodus implementiert, bei dem einige Informationen über die Tonhöhenverzögerung und/oder Tonhöhenanzapfung zum Empfänger gesandt werden.
Die hier vorgeschlagene LD-CELP zur Codierung von Breitbandsprache mit 32 kB/s verwendet vorteilhafterweise Rückwrts-LPC. Zwei Versionen des Codierers werden noch ausführlicher unten beschrieben. Der erste enthält eine Vorwärts-Tonhöhenschleife und der zweite benutzt überhaupt keine Tonhöhenschleife. Die allgemeine Struktur des Codierers ist die der Figur 1 ausschließlich der Übertragung der LPC-Informationen. Auch ist bei unbenutzter Tonhöhenschleife B(z) - 1 und die Tonhöheninformationen werden nicht übertragen. Die algorithmischen Einzelheiten des Codierers werden unten gegeben.
Ein Grundergebnis bei der MSE-Wellenformcodierung besteht darin, daß das Quantisierungsrauschen an der Minimierungsstelle ein flaches Spektrum aufweist, nämlich das Differenzsignal zwischen Ausgabe und Ziel weiß ist. Andererseits ist das Eingangssprachsignal nicht weiß und weist aufgrund der Formantenstruktur und dem Hochfrequenzabfall eine breite Spektraldynamik auf. Als Ergebnis ist der Rauschabstand (SNR - signal-noise ratio) über den Frequenzbereich nicht gleichförmig. Der SNR ist an spektralen Spitzen hoch und in spektralen Tälern niedrig. Die spektralen Informationen mit niedriger Energie werden durch das Rauschen maskiert und es ergibt sich eine hörbare Verzerrung, es sei denn dem flachen Rauschen wird eine neue Form gegeben. Dieses Problem ist erkannt worden und im Zusammenhang mit CELP-Codierung von Sprache mit Fernsprechbandbreite adressiert worden (siehe "Predictive Coding of Speech Signals and Subjective Error Criteria" (Prädiktionscodierung von Sprachsignalen und subjektive Fehlerkriterien), IEEE Tr. ASSP, Band ASSP-27, Nr. 3, Juni 1979, Seiten 247-254). Die Lösung nahm die Form eines Rauschgewichtungsfilters an, der der CELP-Suchschleife wie in Figur 1 gezeigt hinzugefügt wurde. Die Standardform dieses Filters ist:
(1)
wobei A(z) das LPC-Polynom ist. Die Wirkung von g&sub1; oder g&sub2; besteht in der Verlegung der Wurzeln von A(z) zum Ursprung hin, wodurch die spektralen Spitzen von 1/A(z) verringert werden. Bei g&sub1; und g&sub2; wie in Gleichung (1) weist der Verlauf von W(z) Täler (Antiformanten) an den Formantenstellen auf und die Bereiche zwischen den Formanten werden betont. Zusätzlich wird die Höhe eines spektralen Gesamtabfalls im Vergleich zu der durch 1/A(z) gegebenen spektralen Hüllkurve von Sprache verringert.
Im CELP-System der Figur 1 ist das ungewichtete Fehlersignal E(z) = Y(z) - X(z) weiß, da dies das Signal ist, das wirklich minimiert wird. Das Endfehlersignal ist
(2)
und hat die spektrale Form von W&supmin;¹(z). Das bedeutet, daß das Rauschen nunmehr an den Formantenspitzen konzentriert ist und zwischen den Formanten abgedämpft ist. Der Gedanke hinter dieser Rauschformung ist die Ausnutzung der Maskierwirkung des Gehörs. Rauschen ist nicht so hörbar, wenn es dasselbe spektrale Band mit einem tonähnlichen Signal hohen Pegeis teilt. Aus diesem Effekt Kapital schlagend verbessert das Filter W(z) sehr die perzeptorische Qualität des CELP-Codierers.
Im Gegensatz zu dem standardmäßigen Fernsprechband von 200 bis 3400 Hz ist die hier betrachtete Breitbandsprache durch ein spektrales Band von 50 bis 7000 Hz gekennzeichnet. Die zusätzlichen niedrigen Frequenzen verbessern die Natürlichkeit und Echtheit der Sprachtöne. Die zusätzlichen hohen Frequenzen machen den Ton klarer und verständlicher. Das Signal wird für die digitale Verarbeitung durch das CELP-System mit 16 kllz abgetastet. Durch die höhere Abtastrate und die zusätzlichen niedrigen Frequenzen wird das Signal vorhersagbarer und die Gesamtprädiktionsverstärkung ist typischerweise auch höher als die der standardmäßigen Fernsprechsprache. Die spektrale Dynamik ist beträchtlich höher als die der Fernsprechsprache, bei der der zusätzliche Hochfrequenzbereich von 3400 bis 6000 Hz gewöhnlich am unteren Ende dieses Bereichs liegt. Auf Grundlage der Analyse im vorangehenden Teil ist es klar, daß, während die Codierung des niederfrequenten Gebiets leichter sein sollte, die Codierung des Hochfrequenzgebiets ein ernsthaftes Problem darstellt. In diesem Gebiet neigt der anfängliche ungewichtete spektrale Rauschabstand dazu, Behr negativ zu sein. Andererseits ist das Gehörsystem in diesem Gebiet sehr empfindlich und die Quantisierungsverzerrungen sind in der Form von Knacken und Zischen deutlich hörbar. Bei Breitband-CELP ist daher die Rauschgewichtung kritischer. Das Gleichgewicht zwischen Niederfrequenz- und Hochfrequenzcodierung ist heikler. Bei dieser Studie bestanden die Hauptbemühungen darin, ein gutes Gewichtungsfilter zu finden, das eine bessere Steuerung dieses Gleichgewichts erlauben würde.
Ein Ausgangspunkt für das bessere Verständnis des durch die vorliegende Erfindung beigetragenen technischen Fortschritts ist das Gewichtungsfilter der herkömmlichen CELP nach Gleichung (1). Das Anfangsziel bestand darin, eine Menge (g&sub1;, g&sub2;) für beste perzeptorische Leistung zu finden. Es hat sich herausgestellt, daß ähnlich dem Schmalbandfall, die Werte g&sub1; = 0,9, g&sub2; = 0,4 vernünftige Ergebnisse lieferten. Die Leistung ließ jedoch Raum für Verbesserung. Es stellte sich heraus, daß das Filter W(z) nach Gleichung (1) eine ihm eigene Begrenzung bei der gleichzeitigen Modellierung der Formantenstruktur und der erforderlichen spektralen Schräge aufwies. Man fand, daß die spektrale Schräge annähernd durch die Differenz g&sub1; - g&sub2; gesteuert wurde. Die Schräge ist globaler Beschaffenheit und es ist nicht leicht möglich, sie getrennt bei hohen Frequenzen anzuheben. Ändern der Schräge beeinflußt auch die Form der Formanten von W(z). Es wird zusammen mit höheren und breiteren Formanten eine betonte Schräge erhalten, die zu viel Rauschen auf niedrige Frequenzen und zwischen die Formanten legt. Die Schlußfolgerung war, daß die Probleme der Formanten und der Schräge voneinander abgekoppelt sein müßten. Der eingeschlagene Weg bestand darin, W(z) nur für die Formantenmodellierung zu benutzen und ein weiteres Glied zur Steuerung von nur der Schräge hinzuzufügen. Die allgemeine Form des neuen Filters ist
Wp(z) = W(z) P(z) (3)
wobei P(z) nur für die Schräge verantwortlich ist. Die Realisierung dieser Verbesserung ist in Figur 2 dargestellt, wo das Gewichtungsfilter 35 der Figur 1 durch eine Kaskade des Filters 220, das einen durch P(z) gegebenen Verlauf mit dem ursprünglichen Filter 35 aufweist, ersetzt wird. Das kaskadierte Filter Wp(z) ist durch Gleichung (3) gegeben. Es können verschiedene Formen von P(z) benutzt werden.
Diese Formen sind: festes Drei-Pol-Glied (zwei komplex, einer real), festes Drei-Null-Glied, adaptives Drei-Pol-Glied, adaptives Drei-Null-Glied und adaptives Zwei-Pol-Glied. Die festen Glieder wurden so ausgelegt, daß sie eine ungleiche aber feste spektrale Schräge mit einer steileren Schräge bei hohen Frequenzen aufwiesen. Die Koeffizienten der adaptiven Glieder wurden dynamisch über LPC-Analyse berechnet, um p-1 (z) zu einer Annäherung zweiter oder dritter Ordnung des aktuellen Spektrums zu machen, wodurch im wesentlichen nur die spektrale Schräge eingefangen wird.
Zusätzlich war ein für P(z) gewählter Modus eine Schrittfunktion im Frequenzbereich in Bereichmitte. Dadurch wird der Verlauf in der unteren Hälfte des Bereichs gedämpft und in der höheren Hälfte um eine vorbestimmte Konstante verstärkt. Für diesen Zweck wurde ein All-Pol-Glied 14ter Ordnung benutzt.
Durch sorgfältige Hörproben stellte es sich heraus, daß das Zwei-Pol-Glied die beste Wahl darstellte. Für diesen Fall ist das Glied gegeben durch
(4)
Die Koeffizienten pi werden durch Anwendung des standardmäßigen LPC-Algorithmus auf die ersten drei Korrelationskoeffizienten der Folge ai des inversen LPC-Filters (A(z)) für den aktuellen Rahmen gefunden. Der Parameter δ wird zur Einstellung der spektralen Schräge von P(z) benutzt. Es stellte sich heraus, daß der Wert δ = 0,7 eine gute Wahl darstellte. Diese Form von P(z) in Kombination mit W(z), wobei g&sub1; = 0,98, g&sub2; = 0,8, ergab die beste perzeptorische Leistung gegenüber allen anderen in dieser Arbeit untersuchten Systemen.
Zusätzlich zu dem oben beschriebenen P(z)-Verfahren beruht das erste Nicht-P(z)-Verfahren auf psychoakustischer Wahrnehmungstheorie (siehe Brian C. J. Moore, "An Introduction to the Psychology of Hearing" (Einführung in die Psychologie des Hörens), Academic Press Inc., 1982), die gegenwärtig bei der perzeptorischen Transformationscodierung (PTC - Perceptual Transform Coding) von Tonsignalen angewandt wird (siehe auch James D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria" (Transformationscodierung von Tonsignalen unter Verwendung von perzeptorischen Rauschkriterien), IEEE Sel. Areas in Comm., 6(2), Februar 1988, und K. Brandenburg, "A Contribution to the Methods and the Evaluation of Quality for High-Grade Musi Coding" (Beitrag zu den Verfahren und der Qualitätsbewertung für tongetreue Musikcodierung), Dr.-Dissertation, Universität von Erlangen-Nürnberg, 1989). Bei der PTC werden bei der Berechnung einer Rauschschwellwertfunktion (NTF - Noise Threshold Function) der Frequenz bekannte psychoakustische Gehörmaskierungseffekte benutzt. Nach der Theorie sollte alles Rauschen unterhalb dieses Schwellwerts unhörbar sein. Die NTF wird bei der Bestimmung der Bitzuteilung und/oder der Quantisiererschrittgröße für jeden der Transformationskoeffizienten benutzt, die später zur Neusynthetisierung des Signals mit der gewünschten Quantisierungsrauschform benutzt werden. Hier wird die NTF im Rahmen eines LPC-basierenden Codierers wie CELP benutzt. Grundlegend ist W(z) so ausgelegt, daß es die NTF-Form für den aktuellen Rahmen aufweist. Die NTF kann jedoch eine ziemlich komplexe Funktion der Frequenz mit scharfen Tälern und Spitzen sein. Bei der genauen Modellierung der NTF wird daher vorteilhafterweise ein Pol-Null-Filter hoher Ordnung benutzt, was in der Technik gut bekannt ist.
Ein zweiter erfolgreich benutzter Ansatz besteht in CELP-Codierung mit geteiltem Band&sub1; wobei das Signal zuerst durch einen Satz von zwei Quadraturspiegelfiltern (QMF - quadrature-mirror filters) in Nieder- und Hochfrequenzbänder geteilt wird und dann jedes Band separat durch seinen eigenen Codierer codiert wird. Ein ähnliches Verfahren wurde bei P. Mermelstein "G.722, a New CCITT Coding Standard for Digital Transmission of Wideband Audio Signals" (G.722, ein neuer CCITT-Codierstandard für digitale Übertragung von Breitbandtonsignalen), IEEE Comm. Mag., Seiten 8-15, Januar 1988, benutzt. Dieser Ansatz bietet die Flexibilität der Zuteilung unterschiedlicher Bitraten zu den niedrigen und hohen Bändern und zum Erreichen eines optimalen Gleichgewichts zwischen spektralen Verzerrungen des hohen und niedrigen Bands. Flexibilität wird auch in dem Sinne erreicht, daß in jedem Band vollständig unterschiedliche Codiersysteme eingesetzt werden knnen, wodurch die Leistung in jedem Frequenzbereich optimiert wird. In der vorliegenden beispielhaften Ausführungsform wird jedoch LD-CELP in allen (beiden) Bändern benutzt. Für die beiden Bänder wurden verschiedene Bitratenzuteilungen versucht, mit der Beschränkung einer Gesamtrate von 32 kB/s. Es stellte sich heraus, daß das beste Verhältnis zwischen der Bitratenzuteilung des niedrigen und hohen Bandes 3:1 war.
Alle oben erwähnten Systeme können verschiedene Tonhöhenschleifen, d.h. verschiedene Ordnungen für B(z) und verschiedene Anzahlen von Bit für die Tonhöhenanzapfungen enthalten. Ein interessanter Punkt ist, daß es sich manchmal als vorteilhaft herausstellen kann, ein System ohne Tonhöhenschleife zu benutzen, d.h. B(z) = 1. In der Tat bot in manchen Prüfungen ein solches System das beste Ergebnis. Die Erklärung dafür kann wie folgt sein. Die Tonhöhenschleife beruht auf der Verwendung vergangener Restfolgen als Anfangsanregung des Synthesefilters. Dies stellt eine Quantisierung der ersten Stufe in einem zweistufigen VQ-System dar, wobei der vergangene Rest als adaptive Codetabelle dient. Es ist bekannt, daß zweistufige VQ mindestens aus einem MSE-Gesichtspunkt schlechter als einstufige (reguläre) VQ ist. Anders gesagt finden die Bit bessere Verwendung, wenn sie mit einer Codetabelle mit Einzelanregung benutzt werden. Die Tonhöhenschleife bietet dann hauptsächlich perzeptorische Verbesserung aufgrund der verstärkten Periodizität, was bei niedrigratigen Codierern wie 4-8-kB/s-CELP von Wichtigkeit ist, wo der MSE-Rauschabstand sowieso niedrig ist. Bei 32 kB/s mit hohem MSE-Rauschabstand überwiegt der Beitrag der Tonhöhenschleife nicht die Wirksamkeit einer Einzel-VQ-Konfiguration und es besteht daher kein Grund, sie zu benutzen.
Während die obige Beschreibung anhand von Breitbandsprache erfolgte, wird es dem Fachmann klar sein, daß die vorliegende Erfindung Anwendung in anderen bestimmten Zusammenhängen finden wird. Figur 3 zeigt eine repräsentative Modifikation des Frequenzganges des Gesamtgewichtungsfilters nach den Lehren der vorliegenden Erfindung. In der Figur 3 stellt eine durchgezogene Linie Gewichtung nach einem Verfahren des Standes der Technik dar und die gepunktete Kurve entspricht einem beispielhaften modifizierten Verlauf nach einer typischen beispielhaften Ausführungsform der vorliegenden Erfindung.

Claims

1. Kommunikationsverfahren zur Übermittlung von Informationen in Eingangsfolgen anzeigenden Parametern über einen Kommunikationskanal, wobei die besagten Parameter Frequenzgewichtung der besagten Eingangsinformationen widerspiegelnde Parameter enthalten,

dadurch gekennzeichnet, daß die besagte Frequenzgewichtung Gewichtung in Bezug auf relative Amplitude bei bestimmten Frequenzen und die spektrale Gesamtschräge widerspiegelnde Gewichtung umfaßt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die besagten Eingangsinformationen Sprachinformationen sind und die besagte Gewichtung bei bestimmten Frequenzen Gewichtung bei mit einem Formanten der besagten Sprachinformationen verbundenen Frequenzen umfaßt.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die besagte Gewichtung in einem durch

W,(z) = W(z)P(z),

gekennzeichneten Filter erreicht wird, wobei P(z) hauptsächlich nur die spektrale Schräge des Filters beeinflußt.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Drei-Pol-Filterglied ist.

5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Drei-Null-Filterglied ist.

6. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Zwei-Null-Filterglied ist.

7. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Zwei-Pol-Glied ist.

8. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein adaptives Filterglied ist, das durch von einer linearen Prädiktionsanalyse des aktuellen Spektrums der besagten Eingangsfolgen abgeleitete Parameter gekennzeichnet ist.

9. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Filterglied mit einem Frequenzgang mit einem ersten Wert für einen Bereich von Frequenzen unterhalb eines im wesentlichen in der Mitte des Spektrums der besagten Eingangsfolgen liegenden Punkts und einem zweiten Wert für andere Punkte des besagten Spektrums ist.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das besagte Filter ein Allpolfilter einer größeren Ordnung als 3 ist.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das besagte Allpolfilter ein Filter der Ordnung 14 ist.

12. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die besagte Gewichtung in einem perzeptorischen Transformationscodierungsfilter erreicht wird.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß das besagte perzeptorische Transformationsfilter einen durch die Rauschschwellwertfunktion für die gegenwärtige Eingangsfolge bestimmten Frequenzgang aufweist.

14. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die besagte Gewichtung in einem Quadraturspiegelfilter mit einer Mehrzahl von Frequenzbändern erreicht wird und die besagten Eingangsfolgen getrennt für jedes Frequenzband codiert werden.

15. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die besagten Parameter ein CELP-Codierverfahren kennzeichnen.

16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die besagten Parameter keine Tonhöhenparameter enthalten.

17. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die besagten Eingangsinformationen ein nichtgleichförmiges Spektrum aufweisen und die besagte Gewichtung bei bestimmten Frequenzen Gewichtung bei mit einem Formanten der besagten Informationen verbundenen Frequenzen umfaßt.