DE68914147T2

DE68914147T2 - Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung.

Info

Publication number: DE68914147T2
Application number: DE68914147T
Authority: DE
Inventors: Claude Galand; Jean Menez
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1989-06-07
Filing date: 1989-06-07
Publication date: 1994-10-20
Anticipated expiration: 2009-06-08
Also published as: EP0401452A1; EP0401452B1; US5142583A; JPH0341500A; DE68914147D1; JP2645465B2

Description

Diese Erfindung befaßt sich mit digitaler Sprachcodierung und insbesondere mit Codierungsschemata, die eine niedrige Codierungsverzögerung beinhalten, wobei Techniken der Blockcodierung verwendet werden, die eine Verringerung der Codierungs-Bitrate ermöglichen.

Hintergrund der Erfindung

Es sind Sprachcodierungsschemata mit niedriger Bitrate vorgeschlagen worden, wobei der Fluß von ursprünglich mit einer relativ hohen Bitrate codierten Sprachsignalabtastwerten in aufeinanderfolgende Blöcke von Abtastwerten aufgeteilt, und dann jeder Block mit einer niedrigeren Bitrate unter Verwendung der sogenannten Vektor-Quantisierungs-Methode (VQ) umcodiert wird. VQ- Techniken umfassen z. B. die sogenannte Impuls-angeregte Codierung (RPE oder MPE), so wie in "Multipulse excited linear predictive coder" von C. Galand, E. Lancon und J. Menoz, IBM Technical Disclosure Bulletin, Bd. 29, Nº 2, Juli 1986, Seite 929 bis 930 beschrieben, ebenso wie die Code-angeregte Codierung. Eine wirksainere Codierung wird auch durch die Kombination von Vektor-Quantisierung mit linearer prädiktiver Codierung (LPC) erzielt, wobei das ursprüngliche Signal einer Bandbreitenkompression unterzogen wird, bevor die VQ-Operationen durchgeführt werden. Zu diesem Zweck durchläuft das Spachsignal zuerst ein den Vokaltrakt nachbildendes Filter. Dieses Filter (Kurzzeit- prädiktives (STP)Filter) ist als zeitinvariantes, allpolig rekursives, ein kurzes Zeitsegment überstreichendes, digitales Filter ausgeführt (normalerweise 10 ns bis 30 ms, entsprechend einem oder mehreren Blöcken von Abtastwerten). Dies setzt zuerst eine LPC Analyse über das Kurzzeit-Segment voraus, uni die Filterkoeffizienten, d. h. die Prädiktionskoeffizienten zur Kenn-Zeichnung der Übertragungsfunktion des Vokaltrakts, abzuleiten. Dann wird der zeitvariante Charakter der Sprache durch eine Aufeinanderfolge solcher Filter mit unterschiedlichen Parametern, d. h. durch dynamische Variation der Filterkoeffizienten, berücksichtigt.
Die Operation der Ableitung von Filterkoeffizienten bedeutet wegen der zusätzlichen, VQ-Operationen umfassenden Verarbeitung offensichtlich eine Verarbeitungsverzögerung, zusätzlich zu der sonstigen Codierungsverzögerung. Dies führt zu einer Gesamtverzögerung in der Größenordnung von 25 ms bis 80 ms, abhängig vom verwendeten Typus des Signalprozessors.
Solch eine Verzögerung ist nicht kompatibel mit den Spezifikationen für Sprachcodierer ohne Echounterdrücker im öffentlichen Wählnetz. Es ist auch keine Technik bekannt, die sich mit einer annehmbaren Codiererkomplexität unter gleichzeitiger Beibehaltung einer hohen Sprachcodierungsqualität an eine niedrige Bitrate (z. B. 16 kbps) anpassen und damit eine geringe Verzögerung gestatten würde.

Zusammenfassung der Erfindung

Eine Aufgabe dieser Erfindung ist die Bereitstellung eines Sprachcodierers mit geringer Verzögerung und niedriger Bitrate bei minimaler Codiererkomplexität.
Insbesondere besteht die Aufgabe der vorliegenden Erfindung in der Bereitstellung eines Vektor-Quantisierungs-Sprachcodierers mit geringer Verzögerung gemäß Anspruch 1, wobei das ursprüngliche Signal, bevor es Vektor-quantisiert wird, zuerst in ein Rest-(Anregungs-)Signal dekorreliert wird, und zwar unter Verwendung eines adaptiven, prädiktiven Kurzzeit-Filters, dessen Filter-Koeffizienten dynamisch aus einem rekonstruierten Rest- (Anregungs-)Signal abgeleitet werden.
Weitere Aufgaben, Kennzeichen und Vorteile der vorliegenden Erfindung werden im folgenden unter Bezugnahme auf die beiliegenden Zeichnungen, die eine bevorzugte Ausführungsform darstellen, im Einzelnen erklärt.

Kurze Beschreibung der Zeichnungen

- Figur 1 ist ein Codierer gemäß dem Stand der Technik.
- Figur 2 zeigt ein Blockdiagramm eines verbesserten Codierers gemäß dieser Erfindung.
- Figur 3 zeigt eine andere Implementierung der Erfindung.
- Figur 4 ist die Darstellung eines von dem Codierer in Zeichnung 3 zu verwendenden, adaptiven Verfahrens.
- Figur 5 ist ein in Verbindung mit dem Codierer von Figur 3 zu verwendender Decodierer.

Detaillierte Beschreibung der bevorzugten Ausführungsform

Figur 1 zeigt ein Blockdiagramm eines adaptiven Vektor-Quantisierungs/Langzeit-prädiktiven (VQ/LTP) Codierers, wie in der ebenfalls anhängigen, früheren, nicht vorveröffentlichten Europäischen Anmeldung EP-A-0 280 827 offenbart. In aller Kürze wird angemerkt, daß, wenn das ursprüngliche Sprachsignal s(n) abgetastet und mit einer hohen Bitrate in einem (nicht dargestellten) Gerät codiert und durch ein adaptives Kurzzeit-prädiktives Filter, dessen Koeffizienten aufeinanderfolgend aus Blöcken von Signalabtastwerten s(n) abgeleitet werden, in ein Restsignal r(n) dekorreliert wird, dieses r(n) nicht direkt der Vektor-Quantisierung im Impuls-angeregten Codierer (P.E.) unterworfen wird.
Das Signal r(n) wird zuerst in ein Fehler-Residuum e(n) umgewandelt, und e(n) wird dann Vektor-quantisiert, was eine Verbesserung der VQ-Bit-Zuweisungen ermöglicht. Das Signal e(n) wird aus r(n) dadurch abgeleitet, daß von r(n) ein prädiktives Restsignal x(n) subtrahiert wird, das unter Verwendung einer Langzeit-prädiktiven (LTP) Schleife erzeugt wird.
Die LTP-Schleife enthält ein LTP-Filter, dessen Koeffizienten (b und M) dynamisch in einer Vorrichtung (12) abgeleitet werden.
Zusammenfassend kann festgestellt werden, daß nachdem das ursprüngliche Signal s(n) in r(n) dekorreliert ist, das Signal r(n) mit einer niedrigeren Rate in einer Vorrichtung (23) codiert wird.
Es wird angemerkt, daß für die Zwecke dieser Erfindung die Koeffizienten (ki oder ai) des Kurzzeit-Filters (10) über 20 ms lange Blöcke von Abtastwerten s(n) abgeleitet und adaptiert werden. Der anschließende Codierungsprozeß ist daher entsprechend verzögert.
Wie schon erwähnt, kann die resultierende Gesamtverzögerung für einige Anwendungen mit den Grenzwerten der Codierungsspezifikationen inkompatibel sein.
In Figur 2 ist ein verbesserter Codierer dargestellt, wobei Codierungsbits dadurch eingespart werden, daß das codierte Signal die b, M und ki nicht einschließt, und darüber hinaus durch Verkürzung der Codierungsverzögerung, die mit der Berechnung der ki verbunden ist. Zu diesem Zweck wird der Fluß von Abtastwerten s(n) zuerst in 1 ms lange Blöcke (8 Abtastwerte/Block) segmentiert und (in Vorrichtung 25) zwischengespeichert. Das segmentierte Signal s(n) wird dann im STP-Filter (10) dekorreliert. Dessen STP-Übertragungsfunktion im z-Bereich ist wie folgt:
Dabei ist g ein Gewichtsfaktor, zum Beispiel g = 0,8. In der bevorzugten Ausführungsform wird ein Filter 8. Ordnung verwendet, dessen Koeffizienten ai (i = 0,...,8) in einer Kurzzeitprädiktiven (STP) Adaptionsvorrichtung (27), die später beschrieben wird, hergeleitet werden.
Das STP-Filter (10) wandelt jeden acht Abtastwerte langen Block von Signalen s(n) um in r(n), mit:
mit: n = 1,...,8
c(i) = a(i) gi
i = 1,...,8
Das STP-Filter (10) wird jede Millisekunde, d. h. bei jedem neuen Block von 8 Abtastwerten r'(n), unter Verwendung einer Rückkopplungs-Block-Technik angepaßt. Zu diesem Zweck durchläuft das rekonstruierte Anregungs-(oder Rest-)Signal r'(n) zuerst ein gewichtetes Sprachtrakt- oder inverses Filter (29), dessen Übertragungsfunktion:
ist, wobei durch die Verwendung eines Gewichtskoeffizienten g = 0,8 ebenso eine Formung des Rauschens erreicht wird. Das inverse Filter (29) liefert folglich ein rekonstruiertes Sprachsignal s'(n).
Das Signal s'(n) ist gegeben durch:
n = 1,...,8
mit : c(i) = a(i) gi i = 1,...8
Der sich ergebende Satz von 8 Abtastwerten s'(n), (n = 1,...,8) wird dann in einer STP-Adaptionsvorrichtung (27) wie folgt analysiert.
Ein 160 Abtastwerte langer Block (20 ms) wird durch Verkettung der 8 momentan abgeleiteten Abtastwerte s'(n) (n = 1,...,8) mit den vorher rekonstruierten Abtastwerten s'(n-i) für i = 0,...,151, die in einer (nicht dargestellten) Verzögerungsleitung innerhalb Vorrichtung (27) gespeichert sind, erzeugt.
Dann wird eine Autokorrelationsanalyse 8. Ordnung über den 20 ms langen Block mittels folgender Berechnung durchgeführt:
für k = 0,...,8.
Der Ausdruck (5) kann rekursiv von einem Block zum nächsten wie folgt ausgewertet werden:
R1(k) (k = 0,...,8) sei der Satz von Autokorrelationskoeffizienten, die mit Hilfe der Gleichung (5) über einen 1 ms Block berechnet sind. R2(k) (k = 0,...,8) sei der nächste 1 ms Block. Man kann schreiben:
Daher kann wertvolle Verarbeitungszeit durch Anwendung des folgenden Algorithmus für die iterative Bestimmung der R(k) eingespart werden:
- T(k,N); k = O,...,8 ; N = 0,...,20 sei eine Matrix zur Speicherung der Partiellen Korrelationsprodukte.
- Für jeden neuen Satz von Abtastwerten s'(n); n = 1,...,8 wird
berechnet und abgespeichert
- Aus der vorher berechneten Autokorrelation R(k) berechnet man:
R(k) = R(k) + T(k,0) - T(k,20) (10)
für k = 0,...,8
- Die Matrixelemente werden verschoben:
T(k,N) = T(k,N-1) (11)
für N = 20,...,1 und k = 0,...8
Dieser Algorithmus verlangt lediglich die Abspeicherung des Satzes der Autokorrelationskoeffizienten R(k), die unter Verwendung des letzten 1 ms Blockes berechnet worden sind, und nur die Berechnung der Partiellen Autokorrelationskoeffizienten, die in einer 189 (d. h. 9 x 21) Elemente umfassenden Matrix T zu speichern sind. Die Verschiebung innerhalb der Matrix T kann durch Modulo-Adressierung implementiert werden.
Die Umwandlung der Autokorrelationskoeffizienten R(k) in Filterkoeffizienten a(i) kann durch Verwendung des Leroux-Guegen-Algorithmus (der eine Festpunktversion des Levinson-Algorithmus darstellt) erzielt werden. Für weitere Details kann Bezug genommen werden auf J. Leroux, C. Guegen: "A fixed point computation of partial correlation coefficients" IEEE Transaction ASSP, S. 257 bis 259, Juni 1977. Die Koeffizienten a(i) werden zur Abstimmung beider Filter (10) und (29) verwendet.
Es soll angemerkt werden, daß die LTP Schleife in dem verbesserten Codierer von Figur 2 ein Glättungsfilter (15) enthält, dessen Übertragungsfunktion SF(z) = 0,91 + 0,17 z&supmin;¹ - 0,08 z&supmin;² ist, und das ein geglättetes rekonstruiertes Restsignal r"(n) aus dem rekonstruierten Restsignal r'(n) ableitet. Dieses r"(n) wird dann in einer Vorrichtung (31) dazu verwendet, die LPT Parameter (b, M) Millisekunden-weise abzuleiten. Dies wird erzielt durch die Berechnung von:
für k = 20,...,100.
Dann wird M ausgewählt als der zum absolut größten R(k) gehörende Parameter k. Und weiter ist
Schließlich wird das LTP Filter ebenfalls mit r"(n) anstatt mit r'(n) gespeist.
Wie in Figur 3 veranschaulicht, können weitere Verbesserungen für das oben beschriebene Codierungsschema durch Verwendung eines durch einen adaptiven Code-angeregten, linearen prädiktiven Codierers (A-CELP) zur Durchführung der Vektor-Quantisierungsoperationen erreicht werden, wie in der früheren, nicht vorveröffentlichten Europäischen Patentanmeldung EP-A-0 364 647 beschrieben.
Nimmt man zunächst an, daß die Codewörter in einer Tabelle gespeichert werden, dann bedeutet CELP-Codierung die Auswahl eines Codebuch-Indexes k (Adresse des Codewortes, das an die betrachtete Sequenz e(n) am besten angepaßt ist) und eines Verstärkungsfaktors G. Der Verstärkungsfaktor G wird mit fünf Bits (in einer Vorrichtung Q) quantisiert. Die Codebuch-Tabelle ist adaptiv.
Zu diesem Zweck wird ein 264 Abtastwerte langes Codebuch so angelegt, daß es einen festen Teil (128 Abtastwerte) und einen adaptiven Teil (136 Abtastwerte) enthält, wie in Figur 4 veranschaulicht.
Die gespeicherten Codebuch-Abtastwerte werden mit CB(i) (i = 0,...,263) bezeichnet. Die Folge CB(i) wird auf eine vorbestimmten Konstante C vornormiert, d. h.:
für alle k = 0,...,255.
Wenn ein Satz von acht Abtastwerten e(n) gegeben ist, dann wird die Codebuchsuche durchgeführt mittels:
- Berechnung von:
für m = 0,...,255
- Auswahl von k derart, daß:
- Berechnung des Verstärkungsfaktors G gemäß:
G = R(k)/C. (15)
Eine Verbesserung bei der Quantisierung der Verstärkung G kann durch Auswahl der besten Sequenz des Codebuches gemäß einem modifizierten Kriterium erzielt werden, wobei die Beziehung (14) ersetzt wird durch:
wobei R'(k) das aus dem vorausgehenden Block von Abtastwerten ausgewählte Maximum darstellt.
Beziehung (14a) drückt lediglich aus, daß die Änderung der Verstärkung G des Vektor-Quantisierers von einem Block zum folgenden auf ein Verhältnis zwischen 1 und 4 begrenzt ist. Dies erlaubt es, unter Beibehaltung der gleichen Codierungsqualität wenigstens ein Bit bei der Quantisierung der Verstärkung einzusparen.
Die entsprechende Verstärkung G muß in einer Vorrichtung Q in G' quantisiert werden. Um den Einfluß von Quantisierungsrauschen auf ein nachträglich decodiertes Sprachsignal zu begrenzen, wird eine Dequantisierungsoperation (Q') von G' durchgeführt, bevor e'(n) berechnet wird.
e'(n) = G CB (n+k-1) für n = 1,...,8. (16)
Das Codebuch wird entsprechend der folgenden Beziehungen adaptiert:
CB(i) = CB(i+8) für i = 127,...,255 (17)
CB(255+i) = NORM(CB(n+k-1)) für i = 1,...,8 (18)
wobei NORM den Normierungsoperator bezeichnet:
wobei SQRT die Quadratwurzel bezeichnet.
Die LTP Parameter (b,M) werden jede Millisekunde (ms) in LTP Adapter (31) berechnet, d. h. für jeden neuen Block von acht Abtastwerten r'(n). Zu diesem Zweck wird, wie bereits mit Bezug auf Figur 2 dargelegt, r'(n) zuerst in einer Glättungsschaltung (15) gefiltert. Filter (15) liefert ein geglättetes rekonstruiertes Restsignal r"(n). Danach wird die Autokorrelationsfunktion R(n) des geglätteten, rekonstruierten Anregungssignals berechnet gemäß:
für k = 20,...,100.
In der Praxis kann Rechenbelastung dadurch eingespart werden, daß die Auswertung dieser Autokorrelationsfunktion rekursiv von einem zum nächsten Block erfolgt, wie bereits für Gleichung (5) empfohlen.
Die optimale Verzögerung M wird als der maximale Absolutwert der folgenden Funktion bestimmt:
R(M) = max( R(k) ) k = 20,...,100). (21)
Die korrespondierende Verstärkung b wird abgeleitet aus:
In Figur 5 ist ein Blockdiagramm des Decodierers zur Rückerzeugung des Sprachsignals aus den k- und G'-Daten dargestellt. Anfangs werden sowohl das Codierer- als auch das Decodierer- Codebuch identisch geladen und dann auf dieselbe Weise adaptiert. Deshalb wird k nun verwendet, um das Codebuch zu adressieren und ein Codewort daraus abzurufen. Durch Multiplizieren dieses Codewortes mit dem dequantisierten Verstärkungsfaktor G erhält man ein rekonstruiertes e'(n) . Addiert man e'(n) zum rekonstruierten Restsignal x(n), das durch ein LTP Filter (53) bereitgestellt wird, so führt das zu r'(n), das, nach Filterung in einer Glättungsschaltung SF(58) mit der Übertragungsfunktion SF(Z) = 0,91 + 0,17 Z&supmin;¹ - 0,08 Z&supmin;², ein Signal r"(n) ergibt. Das in einem inversen STP-Filter (54) gefilterte Signal r'(n) führt zu dem synthetisierten Sprachsignal s'(n).
Die Gleichung des STP Filters im z-Bereich ist:
Es wird festgestellt, daß weder die Koeffizienten des STP Filters a(i) noch die LTP Parameter (b,M) in das codierte Sprachsignal eingefügt wurden.
Diese Daten müssen daher im Decodierer berechnet werden. Diese Funktionen werden erreicht durch den STP Adapter (55) und den LTP Adapter (57), die beide den Adaptern (27) beziehungsweise (31) entsprechen.

Claims

1. Sprachcodierer mit geringer Verzögerung und niedriger Bitrate, wobei das ursprüngliche Sprachsignal s(n), das ursprünglich mit einer hohen Bitrate abgetastet und codiert wurde, zuerst durch ein adaptives Kurzzeit-prädiktives (STP) Filter (10) in ein Restsignal r(n) dekorreliert wird, bevor dieses Restsignal r(n) einer Codierung mit niedrigerer Bit-Rate unterworfen wird, und wobei dieser Codierer mit geringer Verzögerung und niedriger Bitrate (23) dadurch gekennzeichnet ist, daß er einschließt:

- erste Synthetisierungsmittel zur Synthetisierung eines rekonstruierten Restsignales r'(n), die empfindlich sind für das mit niedriger Bitrate codierte Restsignal;

- inverse Filtermittel (29) zur Erzeugung eines rekonstruierten Sprachsignals s'(n), die empfindlich sind für das rekonstruierte Restsignal r'(n); und,

- STP Adaptierungsmittel (27), die empfindlich sind für das rekonstruierte Sprachsignal s'(n), zur Ableitung von Koeffizientensätzen a(i), zur Abstimmung der STP Filtermittel (10), enthaltend:

- Verkettungsmittel zur Verkettung der augenblicklich erzeugten, rekonstruierten Abtastwerte von Sprachsignalen s'(n) mit vorher rekonstruierten Abtastwerten s'(n-i), wobei i eine vorher festgelegte ganze Zahl ist;

- Mittel zur Autokorrelationsanalyse, die empfindlich sind für diese Verkettungsmittel, zur Ableitung von Autokorrelationskoeffizienten R(k) aus diesen; und

- Konversionsmittel zur Umwandlung dieser Autokorrelationskoeffizienten R(k) in Filterkoeffizienten a(i), wobei die Koeffizienten a(i) zur Abstimmung des Kurzzeit-prädiktiven Filters verwendet werden.

2. Sprachcodierer gemäß Anspruch 1, wobei die abgeleiteten Koeffizientensätze auch zur Abstimmung der inversen Filtermittel verwendet werden.

3. Sprachcodierer gemaß Anspruch 1 oder 2, wobei die Codierung mit niedrigerer Bitrate unter Verwendung eines Langzeitprädiktiven Vektor-Quantisierungs-(VQ/LTP) Codierers durchgeführt wird, der einschließt:

- eine für das rekonstruierte Restsignal r'(n) empfindliche Langzeit-prädiktive Schleife zur Ableitung eines prädiktiven Restsignals x(n) aus diesem;

- Subtraktionsmittel zum Abziehen dieses vorausberechneten Restsignals x(n) von dem Restsignal r(n) zur Ableitung eines Fehler-Restsignals e(n) aus diesem; und,

- Vektor-Quantisierungsmittel, die empfindlich sind für die Blöcke von Signalabtastwerten e(n), zur Umwandlung dieser Blöcke von Abtastwerten in Daten niedrigerer Bit-Rate unter Verwendung von Vektor-Quantisierungs- Techniken.

4. Sprachcodierer gemäß Anspruch 3, wobei die Vektor-Quantisierungsmittel Mittel zur Puls-angeregten Codierung beinhalten.

5. Sprachcodierer gemäß Anspruch 3, wobei die Vektor-Quantisierungsmittel Mittel zur Code-angeregten linearen prädiktiven Codierung enthalten.

6. Sprachcodierer gemäß einem der Ansprüche 1 bis 5, wobei die Mittel zur Autokorrelationsanalyse Berechnungsmittel zur Berechnung der Autokorrelations-Koeffizienten R(k) enthalten, gemäß

für k = 0,...,8.

7. Sprachcodierer gemäß Anspruch 6, wobei die Mittel zur Autokorrelationsanalyse enthalten:

- eine Speichermatrix T(k,N) k = 0,..., 8 n = 0,..., 20 zur Speicherung der partiellen Korrelationsprodukte;

- erste Berechnungsmittel, die empfindlich sind für jeden neu erzeugten Satz von Abtastwerten s'(n), zur Berechnung und Abspeicherung in der Speichermatrix von:

für k = 0,...,8.

- zweite Berechnungsmittel zur Ableitung neuer R(k) aus den vorherigen R(k), d. h. R(k) alt, gemäß:

R(k) neu = R(k) alt + T(k,0) - T(k,20)

für k = 0,...,8.

- Verschiebemittel zur Verlagerung des Inhalts der Speichermatrix gemäß:

T(k,N) = T(k,N-1)

für N = 20,...,1 und k = 0,...,8

8. Sprachcodierer gemäß Anspruch 7, wobei die Verschiebemittel Mittel zur Modulo-Adressierung enthalten.

9. Sprachcodierer gemäß Anspruch 7, wobei die Langzeit-prädiktive Schleife enthält:

- ein Glättungsfilter, das empfindlich ist für r'(n), zur Ableitung eines geglätteten rekonstruierten Restsignals r"(n) aus diesem

- LTP-Adaptierungsmittel, die empfindlich sind für das rekonstruierte Restsignal r"(n), zur Ableitung der Abstimmungsparameter b und M; und

- ein Langzeit-prädiktives Filter (LTP), dessen Übertragungsfunktion im z-Bereich gleich b z-M ist, und das verbunden ist mit den LTP-Adaptierungsmitteln.